当前位置: 首页 > news >正文

公众平台如何做网站/深圳网络推广最新招聘

公众平台如何做网站,深圳网络推广最新招聘,discuzq,福州网站建设网站yhd日志分析(一) 依据yhd日志文件统计分析每日各时段的pv和uv 建hive表, 表列分隔符和文件保持一致load数据到hive表写hive sql统计pv和uv, 结果保存到hive表2使用sqoop从hive表2导出结果数据到mysql mysql表格式: daily_hour_visit(date, hour,uv, pv)环境: CentO…

yhd日志分析(一)

依据yhd日志文件统计分析每日各时段的pv和uv

  1. 建hive表, 表列分隔符和文件保持一致
  2. load数据到hive表
  3. 写hive sql统计pv和uv, 结果保存到hive表2
  4. 使用sqoop从hive表2导出结果数据到mysql

     mysql表格式: daily_hour_visit(date, hour,uv, pv)

环境:

CentOS 6.4

hadoop-2.5.0-cdh5.3.6

hive-0.13.1-cdh5.3.6

sqoop-1.4.5-cdh5.3.6

1, 建立hive表

根据yhd日志数据格式,使用分区表,分区字段为日期date和小时数hour
create table if not exists yhd_log(id                                   string,    url                                  string,referer                              string,keyword                              string,type                                 string,guid                                 string,pageId                               string,moduleId                             string,linkId                               string,attachedInfo                         string,sessionId                            string,trackerU                             string,trackerType                          string,ip                                   string,trackerSrc                           string,cookie                               string,orderCode                            string,trackTime                            string,endUserId                            string,firstLink                            string,sessionViewNo                        string,productId                            string,curMerchantId                        string,provinceId                           string,cityId                               string,fee                                  string,edmActivity                          string,edmEmail                             string,edmJobId                             string,ieVersion                            string,platform                             string,internalKeyword                      string,resultSum                            string,currentPage                          string,linkPosition                         string,buttonPosition                       string
)
partitioned by(date string, hour int)
row format delimited fields terminated by '\t'
stored as textfile;

2 Load数据到hive表

先把数据2015082818和2015082819上传到目录/home/hadoop (我的家目录),然后load到hive表中

LOAD DATA LOCAL INPATH '/home/hadoop/2015082818' OVERWRITE INTO TABLE yhd_log PARTITION (date='20150828', hour=18);
LOAD DATA LOCAL INPATH '/home/hadoop/2015082819' OVERWRITE INTO TABLE yhd_log PARTITION (date='20150828', hour=19);

测试数据是否导入成功

select url, endUserId from yhd_log where date='20150828'and hour=18 limit 10; select url, endUserId from yhd_log where date='20150828'and hour=19 limit 10; 

1.png

2.png

3 hive sql统计

统计pv和uv,并将结果写入新的表: yhd_log_stat中

第一次使用ctas创建表
create table if not exists yhd_log_stat
as 
select '20150828' as date, 18 as hour, count(url) as pv, count(distinct guid) as uv from yhd_log where date='20150828' and hour=18;from yhd_log
insert into table yhd_log_stat
select '20150828' as date, 19 as hour,count(url) as pv, count(distinct guid) as uv
where date='20150828' and hour=19

查看yhd_log_stat中的数据

3.png

4 使用sqoop把yhd_log_stat导出到mysql

先在mysql上把表建立好

CREATE TABLE `yhd_log_stat` (
`date` VARCHAR(50) NOT NULL DEFAULT '0',
`hour` TINYINT(4) NOT NULL DEFAULT '0',
`pv` BIGINT(20) NULL DEFAULT '0',
`uv` BIGINT(20) NULL DEFAULT '0',
PRIMARY KEY (`date`, `hour`),
INDEX `date` (`date`),
INDEX `hour` (`hour`)
)

使用sqoop export,把数据从hdfs导出到mysql

sqoop export --connect jdbc:mysql://mysql-server:3306/test --username mysql --password mysql-pwd --table yhd_log_stat --export-dir /user/hive/warehouse/db0731.db/yhd_log_stat --columns date,hour,pv,uv --input-fields-terminated-by '\001'

在mysql中查看导出结果

4.png

附件: yhd日志数据

转载于:https://www.cnblogs.com/ivanny/p/yhd_log_statatis_1.html

http://www.jmfq.cn/news/4836169.html

相关文章:

  • 素材网站的图可以做海报吗/seo外包公司排名
  • wordpress js css/seo交互论坛
  • 520高清网站三级黄色软件男女做/优化设计六年级下册语文答案
  • wordpress做跟随导航导航/seo关键词分类
  • 网站建设技术方案模板下载/正规代运营公司排名
  • 做网站杭州/蜘蛛seo超级外链工具
  • 传统网站开发/最近营销热点
  • 做门户类网站多少钱/微信朋友圈软文大全
  • 设计网站的收费图是怎么做的/网站收录
  • wordpress阿里云主机/seo课堂
  • 小企业公司网站怎么建/谷歌搜索引擎镜像入口
  • 网站商城/页面优化
  • 手机版官方网站的建设/谷歌官方网站
  • 学生个人简历/慈溪seo排名
  • 网站怎么做友链/怎么写网站
  • wordpress网页排版插件/百度seo排名规则
  • 二手域名做网站不收录/seo免费浏览网站
  • 商务型网站模板/国家免费技能培训平台
  • 游戏网站建设方案百度文库/关键词包括哪些内容
  • 专业的移动网站建设/怎么自己注册网站
  • wordpress无法管理站点/北京百度推广seo
  • 摄影创意网站/seo草根博客
  • wordpress关键字/武汉seo推广优化公司
  • 简述b2b b2c c2c o2o的含义/安徽seo报价
  • 百度搜索不到asp做的网站/谷歌浏览器网页版入口手机版
  • 网站建设费用低的公司/建站快车
  • 政府网站建设经验材料/品牌运营管理有限公司
  • 邯郸小学网站建设/宣传推广文案
  • 汕头做网站优化的公司/1小时快速搭建网站
  • 长沙做网站品牌/知名网络营销推广