项目投产脚本的准备和流程(大数据、Impala、Oracel、调度平台、运维平台、Python、报表项目)(一)

时间:2024-01-10 01:02:37 标签:  大数据  servlet  java  数据仓库  数据库  

        项目开发周期短,开发的数据量大,需要做的是把流程规范化,还有就是细心,有疑问的地方一定要及时的去沟通,测试发现的问题一定要列个表单,一步步的去做,否则极易发生错误。

<1>投产所需的脚本的开发

        项目投产大数据需要需要用到许多的脚本:调度平台和运维平台的配置,建表语句DDL,赋权语句DCL,中间表的赋权语句DML,还有存储过程,这里面又有许多的细节,需要一一的去进行开发。

        (1)表和表之间的映射关系的编写开发

          把需要用到的字段(业务部门的需要表和对应的字段)顺序确定好(一旦这里字段的顺序被确定下来,那么后续的所有监本里字段的顺序都要和此处保持一致),带上字段对应的数据类型和字段长度(这两点可以去上游表查找,需要和上游表保持一致),确定好表中字段的主键和索引字段(这里也是要和上游表保持一致),找好表之间的关联关系,继而对大数据量的表做出数据的筛选,最后再对表中的字段做出去重的处理(推荐用GROUP BY做去重的处理,而不用DISTINCT)

(某些表的开发可能没有上游表,这就需要和业务或者是部门间协商确定好主键和索引字段)

        可能出现的问题:

                1:从上游数据库找到的字段的数据类型或者数据类型长度和映射表里的不一致

                2:表之间的关联关系错误,得到的select语句得不到预期的运行结果

                3:没有用时间变量替换具体的时间日期

        (2)运维平台的配置

        依据模板对关键的基础位置的表名进行替换和补充,检查各个服务器的IP地址和各个路径的地址的配置,和其它部门沟通明确使用的分隔符号,最后就是关键的select语句的编写,需要在大数据平台测试运行没有问题之后才可以填入配置当中(这里用的是增量数据的抽取的模式,所以才需要编写select语句对日期和关键字段等的数据做出筛选)

        可能出现的错误:

                1:上传失败,一般都是服务器IP 的问题
 

        (3)调度平台的配置

        主要是依据模板,对关键的几处的表名进行替换和补充,后续步骤中可以正常上传即可

        进行调度的时候可能出现的问题:

                1:模块1报错:

                         DCP中的SELECT的执行 出现了问题

                         可能是select语句正常执行,但是得到的是空的结果,所以报错(报错:空文本)

                2:模块2报错:调度失败,可能是替换表名的时候不小心替换到了其它的字母,也可能是服务器的IP地址对应的路径里不存在某个文件夹所导致的(报错:远端调用异常)

                3:导数路径里的文件不存在,对应的导数路径里的日期存在问题,应该去大数据平台进行查询得到正确的日期的数据,重新导数即可

                3:路径推送失败:对应的推送的文件此用户下没有写的权限,应对办法就是删掉这个文件,在推送之后由用户自己去创建并且插入数据,或者是让权限更大的用户去对这个文件夹增加这个用户的权限(这种情况一般不会出现,出现了也一般会是采取第一种方案)

        (4)DDL的开发

        建表语句的开发包含了临时表和目标表的开发。临时表只需要建表语句即可,但是目标表要写好建表语句和主键、索引还有字段的注释。

        注:这里的表(包括临时表和目标表)的字段的顺序需要和映射表里的顺序保持一致

                后续的每次对表的结构进行更改的话,需要及时的更新表结构在Oracle中的记录

        (5)DCL的开发

        这里编写赋权语句的目的是为了让目标表用户和临时表用户可以互相看到对方表中的数据,可以简化很多不必要的切换用户查看数据的操作。(可以大大的提升工作的效率)

        (6)DML的开发

        这个是对临时表的配置的开发,主要作用是用于对后续的上游数据的卸数操作替工支持。

        (7)调用存储过程监本的开发

        (8)存储过程的开发

<2>开发环境下对投产脚本的测试

        http://t.csdn.cn/ZeSYL

来源:https://blоg.сsdn.nеt/Tаlеntdеyаng/аrtiсlе/dеtаils/126430913

智能推荐

        项目开发周期短&#xff0c;开发的数据量大&#xff0c;需要做的是把流程规范化&

标签:大数据  servlet  java  数据仓库  数据库  

课件获取:关注公众号“数栈研习社”,后台私信 “ChengYing” 获得直播课件视频回放:点击这里ChengYing开源项目地址:github 丨 gitee 喜欢我们的项目给我们点个__ STAR!STAR!!STAR!!!(重要的事情说三遍)__技术交流钉钉 qun:30537511本期我们带大家回顾一下海洋同学的直播分享《ChengYing部署Hadoop集群实战》一、Hadoop集群部署准备在部署集群前,我们需要做一些部署准备,首先我们需要按照下载Hadoop产品包:● Mysqlhttps://dtstac

标签:集群  一文  管家  开源  一站式  

基于pytest-yaml-yoyo 框架写的接口测试平台&#xff0c;在web网页平台上维护ya

标签:软件测试  自动化测试  技术分享  pytest  

我们在Windows10平台下搭建Airsim&#xff0c;需要安装这几个东西&#xff1a;UE

标签:ue4  无人机  python  c++  

  传统的网络管理软件通常不能完全满足复杂的集成网络空间和不同单元对网络的不同需求。云呐创新产品理念

标签:网管软件  网络管理软件  设备管理软件  人工智能  

项目介绍 音乐数据中心数仓综合项目主要是针对公司过

标签:big data  spark  大数据  mysql  数据仓库  

  随着云本地系统适用于多租户的应用&#xff0c;多租户引进了更多的技术栈&#xff0c;降低了应

标签:智能运维  AIOps  运维管理系统  运维  

  大数据运维平台提供大数据生态智能大数据集群运维服务能力&#xff0c;简化大数据部件安装、维护、

标签:智能运维  AIOps  运维管理系统  科技  

  随着云本地系统适用于多租户的应用&#xff0c;多租户引进了更多的技术栈&#xff0c;降低了应

标签:智能运维  AIOps  运维管理系统  科技  

课件获取:关注公众号 “数栈研习社”,后台私信 “ChengYing” 获得直播课件视频回放:点击这里ChengYing 开源项目地址:github 丨 gitee 喜欢我们的项目给我们点个__ STAR!STAR!!STAR!!!(重要的事情说三遍)__技术交流钉钉 qun:30537511产品包的构成01 产品包制作前置条件在制作产品包之前,我们首先要完成以下3个步骤:ChengYing已部署完成,ChengYing的部署内容可以参考【ChengYing安装原理】。组件原料准备完成(组件原

标签:带你  管家  一站式  数据  产品  

猜你喜欢

项目是串联知识点的最好的方式,这个项目之前看过,但是笔记并没有整理,并且环境已经破坏.由于项目二的需

标签:java  大数据  数据仓库  

&#x1f525;&#x1f525;宏夏Coding网站&#xff0c;致力于为编程学习者、互联网求

标签:项目学习  spring boot  react.js  前端  

PyCharm 使用运行/调试配置来运行、调试和测试您的代码。每个配置都是一组命名的启动属性&#xf

标签:pycharm  python  ide  

一、部署方式1.1、源码/包:https://github.com/Intel-bigdata/HiBench部署方法:https://github.com/Intel-bigdata/HiBench/blob/

标签:基准  性能测试  数据  平台  Hibench  

随着数字化时代的到来&#xff0c;项目管理已经成为现代企业中不可或缺的一部分。尤其是在软件开发、信

标签:低代码平台  低代码  

一、Jenkins的介绍  Jenkins是一个开源软件项目,是基于Java开发的一种持续集成工具,用于监控持续重复的工作,旨在提供一个开放易用的软件平台,使软件的持续集成变成可能。二、功能  Jenkins功能包括:1、持续的软件版本发布/测试项目。2、监控外部调用执行的工作。三、安装及启动  首先保证系统中已经安装了jdk。  启动方法一.    切换到jenkins.war(V2.121.1)存放的目录,输入如下命令:java -jar jenkins.war&nbsp;    如果需要修改端口可以使用如下命: java -j

标签:项目  java  jenkins  

1.Flink的核心组件栈&#xff1f;

标签:flink  大数据  

基础环境配置 一、创建虚拟机 先创建两台

标签:openstack  mysql  数据库  云计算  运维  

vivo 互联网平台产品研发团队 - Peng Zhong随着分发规模地逐步增长,各企业对CDN带宽的使用越来越多。并且,各类业务使用CDN的场景各式各样,导致带宽会不断地出现骤增骤降等问题。基于成本考虑,国内CDN厂商的计费模式主要用峰值点的带宽来计费,就算不用峰值点的带宽,也会因为峰值问题所产生的成本而抬高带宽单价。基于此,控制CDN带宽的峰谷具有重要意义,降低峰值就意味着成本节省。一、背景伴随着互联网地兴起,很多企业都经历过互联网野蛮生长的一段岁月。然而,在互联网市场逐步成熟稳定之后,各大企业在业务上的增长速度逐渐放缓,也纷纷开始

标签:发布平台  带宽  版本  智能  系列  

层出不穷的新技术、新概念、新应用往往会对初学者造成很大的困扰&#xff0c;有时候很难理清楚它们之间

标签:知识小记  数据仓库  big data  大数据  

大数据运维的挑战—如何保证集群稳定与运行效率 企业级大

标签:大数据  运维  开源  

  一、概念  Hadoop是由java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是HDFS与MapReduce。HDFS是一个分布式文件系统,类似mogilefs,但又不同于mogilefs,hdfs由存放文件元数据信息的namenode和存放数据的服务器datanode组成;hdfs它不同于mogilefs,hdfs把元数据信息放在内存中,而mogilefs把元数据放在数据库中;而对于hdfs的元数据信息持久化是依靠secondary name node(第二名称节点),第二名称节点并不是真正扮演名称节点角色,它

标签:集群  数据  平台  hadoop  

背景平台任务主要分3种: flink实时任务, spark任务,还有java任务,spark、flink 我们是运行在yarn 上, 日常排错我们通过查看yarn logs来定位, 但是会对日志存储设置一定的保留时间, 为了后续更好排查问题,希望能够将spark、flink、java任务都收集起来存储到ES中,提供统一查询服务给用户. 这是设计的动机.针对这个想法,主要要解决几个问题?Flink、Spark、java 日志如何进行采集如何在保证耦合度尽量低的情况下,同时保证不影响任务部署方便, 用户端尽量少操作

标签:平台  如何实现  数据  日志  

相关问题

相关文章

热门文章

推荐文章

相关标签