当前位置: 首页 > news >正文

什么网站程序好/百度投诉电话客服24小时

什么网站程序好,百度投诉电话客服24小时,如何做网站教程,网站制作找哪家公司好首选我们有上图这样一个job计算,对上图通过DAGScheduler的stage划分之后,我们产生了如下图所示的stage图 在这当中我们可以清楚的看到,前一个stage的shufflemaptask进行shuffle的wirte 操作,把数据存储在了blockmanager上面&#…


首选我们有上图这样一个job计算,对上图通过DAGScheduler的stage划分之后,我们产生了如下图所示的stage图

在这当中我们可以清楚的看到,前一个stage的shufflemaptask进行shuffle的wirte 操作,把数据存储在了blockmanager上面,并且把数据的元信息上报到driver的mapouttrack组件中,下一个stage根据数据位置元信息,进行shuffle read,拉取上一个stage的输出数据。
1、首先我们说下spark shuffle的演进历史
 

  • Spark 0.8及以前 Hash Based Shuffle

  • Spark 0.8.1 为Hash Based Shuffle引入File Consolidation机制

  • Spark 0.9 引入ExternalAppendOnlyMap

  • Spark 1.1 引入Sort Based Shuffle,但默认仍为Hash Based Shuffle

  • Spark 1.2 默认的Shuffle方式改为Sort Based Shuffle

  • Spark 1.4 引入Tungsten-Sort Based Shuffle

  • Spark 1.6 Tungsten-sort并入Sort Based Shuffle

  • Spark 2.0 Hash Based Shuffle退出历史舞台
    总结一下,就是最开始的时候是Hash based shuffle,这时候就是最原始的shuffle操作(如果不明白可以看下我的另外一篇博客:https://blog.csdn.net/yrsg666/article/details/100095829),mapper会产生reducer的数量的bucket,以及对应bucket缓存的shuffleBlockFile磁盘文件。文件数量就是 shufflemaptask数量*resulttask数量对应到hadoop中就是M*R的数量,这样会产生大量的小文件,IO要求很高,很容易OOM,其次就是各种版本的优化了,首先是在0.8.1引入了consolidation机制,如果不明白请参考:https://blog.csdn.net/yrsg666/article/details/100096907,再之后还有 Tungsten-Sort Based Shuffle, 这个是直接使用堆外内存和新的内存管理模型,节省了内存空间和大量的gc, 是为了提升性能。现在用2.2观察了下其更新声明,粗略浏览了一下在shuffle上没看到比2.1明显的变化,找到一篇很不错的博客,在此借用下大牛的博客,在此进行下个人的理解梳理。
    2.1 分为三种writer, 分为 BypassMergeSortShuffleWriter, SortShuffleWriter 和 UnsafeShuffleWriter

    上面是使用哪种writer的判断依据,是否开启mapsidecombine这个判断,是因为有些算子在map端会先进行一次combin,比如reducebykey,减少数据的传输。BypassMergeSortShuffleWriter会临时输出reduer个(分区数据)小文件,所以分区数必须要小于一个阀值,默认是200。UnsafeShuffleWriter需要Serializer支持relocation,Serializer支持relocation:原始数据首先被序列化处理,并且再也不需要反序列化,在其对应的元数据被排序后,需要Serializer支持relocation,在指定位置读取对应数据。
    BypassMergeSortShuffleWriter 实现细节
    BypassMergeSortShuffleWriter和Hash Shuffle中的HashShuffleWriter实现基本一致,唯一的区别在于,map端的多个输出文件会被汇总为一个文件,所有分区的数据会合并为同一个文件,会生成一个索引文件,是为了索引到每个分区的起始地址,可以随机access某个partition的所有数据。如下图:

但是需要注意,这种方式不宜有太多分区,因为过程中会并发打开所有的分区对应的临时文件,会对文件系统造成很大的压力。具体实现就是给每个分区分配一个临时文件,对每个record的key使用分区器(模式是hash,如果用户自定义就是用自定义的分区器)找到对应分区的输出文件句柄,直接写入文件,没有在内存中使用buffer。最后copyStream方法把所有的临时分区文件拷贝到最终的输出文件中,并且记录每个分区的文件其实写入位置,把这些位置数据写入索引文件中。
SortShuffleWriter 实现细节
我们可以……
参考博客:
https://www.cnblogs.com/itboys/p/9201750.html
https://blog.csdn.net/u011564172/article/details/71170234

http://www.jmfq.cn/news/5021263.html

相关文章:

  • 专注专业网站建设/鱼头seo软件
  • 哪项不属于网站架构/百度推广好不好做
  • 福州建设网站公司/北京朝阳区疫情最新情况
  • 在地税网站怎么做税种认定/网络营销企业案例
  • 政府网站建设讲话稿/网站优化排名哪家性价比高
  • 常平最新疫情/郑州seo顾问培训
  • 电子商务网站建设的基本流程/最近的时事新闻
  • wordpress模板修改教程/宁波seo咨询
  • 什么网站下载素材做图的/网站空间
  • 安徽省疫情防控最新政策/seo搜索排名
  • 淘宝上面建设网站安全么/市场调研方案怎么写
  • 保定网站制作公司/商品标题seo是什么意思
  • 网站制作一年多少钱/头条热点新闻
  • 怎样留别人电话在广告上/seo外链查询工具
  • 公司网站建设费用包括哪些/搜索引擎关键词怎么优化
  • 郑州市政府网站的建设与发展/网站推广的方式
  • 建设银行商城网站/电商代运营一般收多少服务费
  • 沈阳企业自助建站/百度大数据搜索引擎
  • 30秒网站/市场调研报告
  • 做爰全过程免费的视频99网站/seo整合营销
  • 深圳网站设计哪好/太原seo
  • 自己做的小网站分享/网站宣传推广策划
  • 做网站推广见客户的话术/seo推广是做什么的
  • 郑州网站设计网站/营销策略的概念
  • 自己做苹果下载的网站/网络营销岗位描述的内容
  • 欧亚专线快递查询/如何优化网站推广
  • 平面设计培训素材/优化方案怎么写
  • 怎么免费建自己的网站/搜索引擎推广培训
  • 智慧团建学生登录入口官网/广州seo技术优化网站seo
  • 南通市港闸区城乡建设局网站/互联网营销成功案例