当前位置: 首页 > news >正文

高端的网站建设/国通快速建站

高端的网站建设,国通快速建站,江阴哪里有做网站推广,长沙房产信息网查询目标:自动化的ODS层与DWD层构建实现 - 掌握Hive以及Spark中建表的语法规则 - 实现项目开发环境的构建 - 自己要实现所有代码注释 - ODS层与DWD层整体运行测试成功 数仓分层回顾 目标:回顾一站制造项目分层设计 实施 ODS层 :原始数…

目标:自动化的ODS层与DWD层构建
实现
  - 掌握Hive以及Spark中建表的语法规则
  - 实现项目开发环境的构建
  - 自己要实现所有代码注释
  - ODS层与DWD层整体运行测试成功

数仓分层回顾

目标:回顾一站制造项目分层设计

实施

 ODS层 :原始数据层

    - 来自于Oracle中数据的采集

    - 数据存储格式:AVRO

    - ODS区分全量和增量

    - 实现

      - 数据已经采集完成

      - step1:创建ODS层数据库:one_make_ods

      - step2:根据表在HDFS上的数据目录来创建分区表

      - step3:申明分区

  DWD层

    - 来自于ODS层数据
    - 数据存储格式:ORC
    - 不区分全量和增量的
    - 实现
      - step1:创建DWD层数据库:one_make_dwd
      - step2:创建DWD层的每一张表
      - step3:从ODS层抽取每一张表的数据写入DWD层对应的表中

Hive建表语法

目标:掌握Hive建表语法

实施

  - EXTERNAL:外部表类型
    - 内部表、外部表、临时表
  - PARTITIONED  BY:分区表结构
    - 普通表、分区表、分桶表
  - CLUSTERED BY:分桶表结构
  - ROW FORMAT:指定分隔符
    - 列的分隔符:\001
    - 行的分隔符:\n
  - STORED AS:指定文件存储类型
    - ODS:avro
    - DWD:orc
  - LOCATION:指定表对应的HDFS上的地址
    - 默认:/user/hive/warehouse/dbdir/tbdir
  - TBLPROPERTIES:指定一些表的额外的一些特殊配置属性

Avro建表语法

- **目标**:掌握Hive中Avro建表方式及语法

- **路径**

  - step1:指定文件类型
  - step2:指定Schema
  - step3:建表方式

- **实施**

  - Hive官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-CreateTable

  - DataBrics官网:https://docs.databricks.com/spark/2.x/spark-sql/language-manual/create-table.html

  - Avro用法:https://cwiki.apache.org/confluence/display/Hive/AvroSerDe

  - **指定文件类型**

 

 建表语法


     

ODS层构建:需求分析

目标:掌握ODS层构建的实现需求

路径

  - step1:目标
  - step2:问题
  - step3:需求
  - step4:分析

- **实施**

  - **目标**:将已经采集同步成功的101张表的数据加载到Hive的ODS层数据表中

  - **问题**

    - 难点1:表太多,如何构建每张表?

      - 101张表的数据已经存储在HDFS上

      - 建表 

        - 方法1:手动开发每一张表建表语句,手动运行

        - 方法2:通过程序自动化建表

    - 难点2:如果使用自动建表,如何获取每张表的字段信息?

      - Schema文件:每个Avro格式的数据表都对应一个Schema文件

      - 统一存储在HDFS上

        

需求:加载Sqoop生成的Avro的Schema文件,实现自动化建表

分析 

      - 读取全量表表名

        - 动态获取表名:循环读取文件

      - 获取表的信息:表的注释

        - Oracle:表的信息
        - 从Oracle中获取表的注释

     

        - 方式二:通过列表拼接:复杂

      - 执行建表SQL语句

    - step4:创建ODS层增量表:57张表

      - 读取增量表表名
      
        - 动态获取表名:循环读取文件
      
      - 获取表的信息:表的注释
      
        - Oracle:表的信息
        - 从Oracle中获取表的注释
      
      
      - 拼接建表字符串
      
      - 执行建表SQL语句

 ODS层构建:创建项目环境

目标:实现Pycharm中工程结构的构建

实施

安装Python3.7环境

 项目使用的Python3.7的环境代码,所以需要在Windows中安装Python3.7,与原先的Python高版本不冲突,正常安装即可

创建Python工程

 安装PyHive、Oracle库

    - step1:在Windows的用户家目录下创建pip.ini文件

      - 例如:**C:\Users\Frank\pip\pip.ini**

      - 内容:指定pip安装从阿里云下载

  step2:将文件添加到Windows的**Path环境变量**中

 step3:进入项目环境目录

      - 例如我的项目路径是:**D:\PythonProject\OneMake_Spark\venv\Scripts**

 将提供的**sasl-0.2.1-cp37-cp37m-win_amd64.whl**文件放入Scripts目录下

 在CMD中执行以下命令,切换到Scripts目录下

       

step4:CMD中依次执行以下安装命令

 step5:验证安装结果

  温馨提示:其实工作中你也可以通过Pycharm直接安装


 

http://www.jmfq.cn/news/5268547.html

相关文章:

  • 山东郓城网站建设/哪个平台可以免费发广告
  • 上海市政府官网公告/刷关键词排名seo
  • 马云做一网站 只作一次/友情链接举例
  • 丽水企业网站建设公司/百度网站网址是多少
  • 网站建设企业排名推广/5188关键词挖掘工具
  • 自己怎样免费建设网站/站长工具seo综合查询怎么使用的
  • 做移动网站点击软件/体验式营销经典案例
  • 门户网站域名是什么/信息流广告的特点
  • 有没有做高仿的网站/口碑营销渠道
  • 家政公司网站怎么做/网络推广公司是干什么
  • 网站建设需要什么能力/金华网站推广
  • 美橙互联网站建设/云seo关键词排名优化软件
  • 小企业来说 电子商务网站服务器的建设方案/百度seo综合查询
  • 上饶金河湾做网站/浙江网络推广
  • 侵权网站怎么做/制作一个网站步骤
  • 网站被人做跳转改如何举报/广告模板
  • 网站制作的流程是什么/四川seo关键词工具
  • wordpress模版哪个好/长春网站优化平台
  • 私人网站制作/站长统计app下载免费
  • 广东哪有做网赌网站/网站关键词优化排名
  • 如何建立视频号/关键词优化多少钱
  • 中山网站建设价格/seo排名的职位
  • asp.net 4.0网站开发 下载/百度电脑版网页版
  • 厦门集团网站建设/长沙线上引流公司
  • 建门户网站需要多少钱/系统优化软件十大排名
  • 网站代码seo优化/国产十大erp软件
  • 哪个网站做设计可以挣钱/俄罗斯搜索引擎yandex推广
  • 电商网站建设与管理/aso搜索优化
  • 机械设备网站/公司企业网站模板
  • 怎么把网站加入黑名单/百度上怎么免费开店