当前位置: 首页 > news >正文

做美食网站的图片素材/中国优化网

做美食网站的图片素材,中国优化网,曲阳网站建设推广,layui做网站2019独角兽企业重金招聘Python工程师标准>>> 1.SequoiaDB的下载安装 这部分内容在此不做赘述,可以前往SequoiaDB文档中心查看:http://www.sequoiadb.com/cn/index.php?aindex&mFiles 2.Spark的下载安装 此处我们将介绍Spark的安装和配置…

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

1.SequoiaDB的下载安装

这部分内容在此不做赘述,可以前往SequoiaDB文档中心查看:http://www.sequoiadb.com/cn/index.php?a=index&m=Files

2.Spark的下载安装

此处我们将介绍Spark的安装和配置,其中配置部分需要符合SequoiaDB使用的需求,所以需要注意。

2.1 安装

用 SequoiaDB Administration Console 来安装 Apache Spark 是非常简单的。

首先,你需要获取最新版本的 Spark framework。打开以下链接获取最新版本:http://spark.apache.org/downloads.html.

以 Spark1.3+Hadoop 2.4为例,下载文件名为“spark-1.3.0-bin-hadoop2.4.tgz”。

安装包可以通过以下指令获取:

$ tar –zxvf spark-1.3.0-bin-hadoop2.4.tgz –directory /opt/

当安装包文件获取后,你可以 cd 至他的目录下,使用 spark-shell 进行一个简单的试用:

$ cd /opt/spark-1.3.0-bin-hadoop2.4$ bin/spark-shell 2>/dev/nullWelcome to____              __/ __/__  ___ _____/ /___ / _ / _ `/ __/  '_//___/ .__/_,_/_/ /_/_   version 1.3.0/_/Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.6.0_35)Type in expressions to have them evaluated.Type :help for more information.Spark context available as sc.SQL context available as sqlContext.scala> val textFile = sc.textFile("README.md")textFile: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at < console >:21scala> textFile.count()res0: Long = 98scala> textFile.first()res1: String = # Apache Sparkscala> textFile.filter(line => line.contains("Spark")).count()res2: Long = 19

为了建立一个高可用的集群,集群至少需要3个物理主机。在这个例子中,我们将其命名为“server1”,“server2” 和 “server3”。

下载和安装需要在集群中的这三个主机下各执行一次。

2.2 Standalone 模式下配置 Spark

当 Spark 安装后(安装路径假设为/opt/spark-1.3.0-bin-hadoop2.4),在部署为高可用的集群之前,还需要进行几部简单的操作。

2.2.1下载和配置 Apache ZooKeeper

Apache ZooKeeper 是一个管理配置信息和命名的中央集中的服务。它提供分布式的同步和群组的服务,而所有这些服务都将会被分布式的应用所使用。

ZooKeeper下载地址:http://www.apache.org/dyn/closer.cgi/zookeeper

至少需要3个节点才能构成一个高可用的 ZooKeeper 集群。

当安装包被下载到每个主机时,以下指令会自动获取安装文件:

$ tar –zxvf zookeeper-3.4.6.tar.gz –directory /opt/

2.2.2 调整 ZooKeeper 配置

$ cd /opt/zookeeper-3.4.6/conf$ cp zoo_sample.cfg zoo.cfg$ vi zoo.cfg

加入以下3行代码,并将 hostname 主机名替换为真实的主机地址:

server.1=server1:2888:3888server.2=server2:2888:3888server.3=server3:2888:3888

Note:

请记得修改“dataDir”(不可使用/tmp),如“/data/zookeeper”。

接着,在每个 server 创建 myid 文件。在这个例子中,可以针对每个 server 执行以下指令:

Server1: echo "1" > /data/zookeeper/myidServer2: echo "2" > /data/zookeeper/myidServer3: echo "3" > /data/zookeeper/myid

Note:

请注意,id 数需要与 zoo.cfg 中的 server.x 配置参数一致。

2.2.3 启动 ZooKeeper 服务

以下指令可以在每个由 ZooKeeper 配置的主机执行:

$ bin/zkServer.sh start

你需要在3个节点都启动 ZooKeeper 服务。使用以下指令查看 ZooKeeper 服务的状态

$ bin/zkServer.sh status

其中的一个节点应该会显示“Mode: leader”,其余的节点显示“Mode: follower”。

2.2.4 在 Standalone 模式下配置 Apache Spark

Apache Spark 可以以不同模式运行。当结合 Spark 和 SequoiaDB 集群时,我们推荐使用 Spark 的 Standalone 模式。

因为本地数据访问优先于远程数据查找的,推荐将 Apache Spark 安装在所有的 SequoiaDB 数据库集群。

Apache Spark Standalone 模式的部署架构如下图:

Spark 集群中,可能存在多于一个的 Master 节点,而其中只有一个会是“Primary”(主要)的,其余的都是“Standby”(预备)模式。ZooKeeper 就被用于跟踪每个Master 节点,确保时刻都有一个“Primary”节点存在。

 

Note:

推荐在每个 SequoiaDB 集群的主机中,运行一个 Worker 节点。

SequoiaDB 和 Apache Spark 对接需要相应的驱动,登录 https://oss.sonatype.org,搜索 sequoiadb-driver 下载 SequoiaDB 最新的 java 驱动, 搜索 spark-sequoiadb 下载 SequoiaDB 最新的 spark 驱动,注意 scala 版本,然后把他们复制集群中的每个节点 $SPARK_HOME/lib 目录。

Apache Spark 配置文件默认位于conf/spark-env.sh,假设 SequoiaDB 安装在 /opt/sequoiadb,你可以复制一个 spark-env.sh.template 后作出以下的配置修改:

SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=server1:2181,server2:2181,server3:2181 -Dspark.deploy.zookeeper.dir=/spark"SPARK_WORKER_DIR=/data/spark_worksSPARK_LOCAL_DIRS=/data/spark_data1,/data/spark_data2SPARK_CLASSPATH=${SPARK_HOME/lib/sequoiadb-driver-1.12.jar:$SPARK_HOME/lib/spark-sequoiadb_2.10-1.12.0.jar"

Note:

1) 替换 ${SPARK_HOME 为 Spark 的绝对路径。

2) spark.deploy.zookeeper.dir 配置的目录必须与其他主机上的配置一致。

下列的配置参数是非必须的,其基于硬件和负载设置。若通过 SequoiaDB Administration Center 安装,那么 SequoiaDB 将会自动设置这些参数:

SPARK_WORKER_MEMORY

3) 启动 Spark 的 master 节点

如果你想启动 Master 节点,以下指令可在你需要启动 Master 的主机执行:

$ cd /opt/spark-1.3.0-bin-hadoop2.4$ sbin/start-master.sh

4) 启动 Spark 的 worker 节点

因为我们推荐在每个 SequoiaDB 集群的主机下都运行 Worker 节点,你可以运行以下指令来启动每个主机的 Worker 节点:

 $ cd /opt/spark-1.3.0-bin-hadoop2.4$ nohup bin/spark-class org.apache.spark.deploy.worker.Worker spark://serverA:7077,serverB:7077>logs/worker.out &

3.SparkSQL

3.1 开始使用 SparkSQL

SparkSQL 是 Spark 下处理结构化数据执行的模块,它提供了名为 DataFrames 的程序抽象工具,同时他还能作为分布式的 SQL 查询引擎。

只要 Spark 的安装配置符合要求,通过 SequoiaDB 使用 SparkSQL 也是很简单的。

假设集合名为“test.data”,协调节点在 serverX 和 serverY 上,以下指令可以在 spark-shell 执行,并创建一个临时表来对应 SequoiaDB 的Collection(集合):

scala>sqlContext.sql("CREATE TEMPORARY TABLE datatable USING com.sequoiadb.spark OPTIONS ( host 'serverX:11810,serverY:11810', collectionspace 'test', collection 'data')")

除了特别定义的表模式,其将会扫描整个表同时根据每条记录的字段信息来构建表的模式。如果集合中的记录非常多,处理速度将会很慢。

另一种构建表的方式是使用 CREATE TABLE 指令来构建表模式:

scala>sqlContext.sql("CREATE temporary table datatable ( c1 string, c2 int, c3 int ) using com.sequoiadb.spark OPTIONS ( host 'serverX:11810,serverY:11810', collectionspace 'test', collection 'data')")

Note:

临时表只在它被创建的那一个 Session 期间有效,以下 query 查询可被用于获取表中的数据

scala> sqlContext.sql("select * from datatable").foreach(println)

3.2在 SparkSQL 使用 JDBC

此处使用的 Thrift JDBC/ODBC 服务器对应着 Hive 0.12 的 HiveServer2。你可以用直线脚本在 Hive0.12 或者 Spark 测试 JDBC 服务器。

Spark 的镜像需要在选项-Phive,-Phivethriftserver 下配置。否则 sbin/start-thriftserver.sh 将会显示以下的错误信息:

failed to launch org.apache.spark.sql.hive.thriftserver.HiveThriftServer2:You need to build Spark with -Phive and -Phive-thriftserver.

需要启动 JDBC/ODBC server,请执行以下的 Spark 目录内容:

./sbin/start-thriftserver.sh

此处的脚本接收所有 bin/spark-submit 的命令行选项,同时还有 --hiveconf 选项来置顶 Hive 属性。你可以执行 ./sbin/start-thriftserver.sh –help 获取所有可用的选项。服务器默认的监听端口为 localhost:10000 你可以使用以下任意环境变量来重写它:

export HIVE_SERVER2_THRIFT_PORT=export HIVE_SERVER2_THRIFT_BIND_HOST=./sbin/start-thriftserver.sh   --master    ...

或是系统属性:

./sbin/start-thriftserver.sh  --hiveconf hive.server2.thrift.port=   --hiveconf hive.server2.thrift.bind.host=   --master    ...

现在可使用直线脚本测试 Thrift JDBC/ODBC server:

./bin/beeline

在直线脚本连接 JDBC/ODBC server in beeline :

beeline> !connect jdbc:hive2://localhost:10000

Beeline 直线脚本会询问用户名和密码。在非安全模式下,简单输入 username 和空白密码即可。在安全模式下,请按照 beeline documentation 下的说明来执行。

Hive 的配置将 hive-site.xml 文件移动到 conf/.目录下

你也可以使用 Hive 自带的直线脚本。

转载于:https://my.oschina.net/wangzhonnew/blog/911125

http://www.jmfq.cn/news/4958533.html

相关文章:

  • 官方网站在家做兼职/江北seo
  • 1000套网站源码/永久免费建个人网站
  • 区块链交易网站开发/aso优化注意什么
  • 成都市成华区建设委员会网站/网站推广业务
  • 内部网站制作/无需下载直接进入的网站的代码
  • 做网站比较好的/自己怎么免费做网站网页
  • 如何做内部优惠券网站/个人推广网站
  • 电商网站开发测试数据谁给提供/海外网络推广方案
  • 个人网站可以收费吗/河北seo技术培训
  • 免费网站建设推广服务/网络推广平台
  • 镇江网站建设门户报价/石家庄关键词排名提升
  • 各大房产网站/seo快速排名软件品牌
  • 手机网站php源码/专业的seo外包公司
  • 做游戏网站多钱/网站优化软件哪个好
  • 买卖平台有哪些网站/百度广告
  • 网页设计工资怎么算/seo营销怎么做
  • 广州招投标交易中心/太原百度关键词优化
  • 手机微网站制作系统/seo优化包括哪些
  • 资讯门户网站怎么做/青岛神马排名优化
  • 中国最好的做网站高手/网站优化排名提升
  • 推广公司文案/东莞seo
  • 条件查询 php网站源码/杭州疫情最新消息
  • 2023网络舆情案例分析/海口网站关键词优化
  • 湛江专业做网站/优秀软文范例200字
  • 做一个租房卖房的网站怎么做/网络营销外包收费
  • 企业网站设计与规划论文/推广关键词
  • 洛阳做网站公司电话/深圳网络营销策划公司
  • 范例网站怎么做/友链交易
  • 石家庄专业做网站/汽车软文广告
  • 做外贸必须用的社交网站/国外b站不收费免费2023