当前位置: 首页 > news >正文

广东网站建设哪家好/廊坊网站建设优化

广东网站建设哪家好,廊坊网站建设优化,贵阳网站建设多钱钱,女性做网站1.Spark SQL概述 1)Spark SQL是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的。 2)Spark SQL可以直接运行SQL或者HiveQL语句 3)BI工具通过JDBC连接SparkSQL查询数据 4)Spark SQL支持Python、Scala、Java…

 1.Spark SQL概述

1)Spark SQL是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的。

2)Spark SQL可以直接运行SQL或者HiveQL语句

3)BI工具通过JDBC连接SparkSQL查询数据

4)Spark SQL支持Python、Scala、Java和R语言

5)Spark SQL不仅仅是SQL

6)Spark SQL远远比SQL要强大

7)Spark SQL处理数据架构

8)Spark SQL简介

Spark SQL is a Spark module for structured data processing

9)Spark SQL的愿景

a)Write less code

对不同的数据类型使用统一的接口来读写。

b)Read less data

提升大数据处理速度最有效的方法就是忽略无关的数据。

(1)使用列式存储(columnar formats),比如Parquet、ORC、RCFile

(2)使用分区裁剪(partitioningpruning),比如按天分区,按小时分区等

(3)利用数据文件中附带的统计信息进行剪枝:例如每段数据都带有最大值、最小值和NULL值等统计信息,当某一数据段肯定不包含查询条件的目标数据时,可以直接跳过这段数据。(例如字段age某段最大值为20,但查询条件是>50岁的人时,显然可以直接跳过这段)

(4)将查询源中的各种信息下推至数据源处,从而充分利用数据源自身的优化能力来完成剪枝、过滤条件下推等优化。

c)Let the optimizer do the hard work

Catalyst优化器对SQL语句进行优化,从而得到更有效的执行方案。即使我们在写SQL的时候没有考虑这些优化的细节,Catalyst也可以帮我们做到不错的优化结果。

 

2.Spark SQL服务架构

 

3.Spark SQL 与Hive集成(spark-shell)

1)需要配置的项目

a)将hive的配置文件hive-site.xml拷贝到spark conf目录,同时添加metastore的url配置。

vi hive-site.xml

<property>

        <name>hive.metastore.uris</name>

        <value>thrift://bigdata-pro01.kfk.com:9083</value>

</property>

b)拷贝hive中的mysql jar包到spark的jar目录下

cp hive-0.13.1-bin/lib/mysql-connector-java-5.1.27-bin.jar spark-2.2-bin/jars/

c)检查spark-env.sh 文件中的配置项

vi spark-env.sh

HADOOP_CONF_DIR=/opt/modules/hadoop-2.5.0/etc/hadoop

2)启动服务

a)检查mysql是否启动

#查看状态

service mysqld status

#启动

service mysqld start

b)启动hive metastore服务

bin/hive --service metastore

c)启动hive

bin/hive

show databases;

create database kfk;

create table if not exists test(userid string,username string)ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' STORED AS textfile;

load data local inpath "/opt/datas/kfk.txt" into table test;

本地kfk.txt文件

more /opt/datas/kfk.txt

0001 spark

0002 hive

0003 hbase

0004 hadoop

d)启动spark-shell

bin/spark-shell

spark.sql("select * from kfk.test").show

0001 spark

0002 hive

0003 hbase

0004 hadoop

4.Spark SQL 与Hive集成(spark-sql)

启动spark-sql

bin/spark-sql

#查看数据库

show databases;

default

kfk

#使用数据库

use kfk

#查看表

show tables;

test

#查看表数据

select * from test;

5.Spark SQL之ThriftServer和beeline使用

1)启动ThriftServer

sbin/start-thriftserver.sh

2)启动beeline

bin/beeline

!connect jdbc:hive2://bigdata-pro02.kfk.com:10000

#查看数据库

show databases;

#查看表数据

select * from kfk.test;

6.Spark SQL与MySQL集成

启动spark-shell

sbin/spark-shell

:paste

val jdbcDF = spark

  .read

  .format("jdbc")

  .option("url", "jdbc:mysql://bigdata-pro01.kfk.com:3306/test")

  .option("dbtable", "spark1")

  .option("user", "root")

  .option("password", 123456)

  .load()

ctr+d

#打印读取数据

jdbcDF.show

7.Spark SQL与HBase集成

Spark SQL与HBase集成,其核心就是Spark Sql通过hive外部表来获取HBase的表数据。

1)拷贝HBase的包和hive包到spark 的jars目录下

2)启动spark-shell

bin/spark-shell

val df =spark.sql("select count(1) from weblogs").show

转载于:https://www.cnblogs.com/ratels/p/10845328.html

http://www.jmfq.cn/news/5243185.html

相关文章:

  • 保险做的好的网站有哪些内容/安卓优化大师最新版
  • 上海圣品科技 做网站/免费的h5制作网站模板
  • 长安手机网站建设/怎样做好销售和客户交流
  • 做系统的网站/怎么开网站
  • 虚拟主机建网站/网店推广方式有哪些
  • 公司网站建设及维护/上海优化营商环境
  • 网站结构分析怎么做/潍坊关键词优化排名
  • 长春网站排名优化报价/优化seo设置
  • 做菠菜网站代理犯法吗/湖南seo优化排名
  • 公共空间设计网站/九幺seo优化神器
  • seo平台代理/重庆seo团队
  • 做tcf法语听力题的网站/关键词网站排名软件
  • 企业网络营销策略有哪些/百度推广优化是什么意思
  • 域名申请好了 怎么做网站/优化营商环境心得体会个人
  • 网站建设规划书实训报告/官网建站多少钱
  • 试述建设一个网站的具体步骤/关键词排名seo
  • 做网站 图片更好看/小学四年级摘抄新闻
  • wordpress多主题破解版/泉州seo排名扣费
  • vip网站怎么做/百度seo分析工具
  • flashfxp 发布网站/手机优化
  • 网站更改备案信息在哪里/互联网推广是干什么的
  • wordpress 用户名/seo 工具分析
  • 网站建设公司./网页设计主题推荐
  • 王也道长经典语录/安徽百度seo教程
  • 网站建设你懂的/今天国内最新消息
  • 电商网站的推广方式/优化公司怎么优化网站的
  • 公司做网站自己可以做/长沙优化科技有限公司
  • 设计广告图用什么软件/长沙网站优化seo
  • 网站备案查询怎么查/西安百度公司地址介绍
  • 做调查的有哪些网站有哪些/百度长尾关键词挖掘工具