当前位置: 首页 > news >正文

国外有个专门做麋鹿测试的网站/深圳seo优化公司哪家好

国外有个专门做麋鹿测试的网站,深圳seo优化公司哪家好,做网站赌博应该注意什么,北京知名网站建设公司mapReduce首先是由inputFormat把数据从hdfs里面取出来对数据进行切片操作,只是逻辑上的切分,然后由record reader(记录阅读器)根据逻辑分片分好的位置以及长度信息去底层具体的hdfs各个块把相关的分片给读出来。读出来以keyValue的…
  1. mapReduce首先是由inputFormat把数据从hdfs里面取出来对数据进行切片操作,只是逻辑上的切分,然后由record reader(记录阅读器)根据逻辑分片分好的位置以及长度信息去底层具体的hdfs各个块把相关的分片给读出来。
  2. 读出来以keyValue的形式输出给map任务。具体的map任务是由程序员自己去写业务逻辑。map任务结束后 以键值对的形式输出给reduce,map任务结束后并不是直接输出给reduce,也不是直接输出到磁盘,在输出给reduce的中间有一个shuffle洗牌阶段,先把数据写入到一个缓存里面。这个缓存的容量默认大小是100MB,当缓存满了以后在发生溢写,(溢写比例是0:8,也就是当数据到80MB的时候就会发生溢写)把缓存中的数据溢写到磁盘里面,生成磁盘文件,同时把缓存清空掉,溢写过程并不是直接溢写到磁盘,而是在溢写过程中有一系列对数据进行 分区、排序、合并的操作以后才溢写到磁盘。每一次溢写都会产生一个磁盘文件,多次溢写就会产生多个磁盘文件,当整个map任务结束后会把多个磁盘文件归并成一个大的磁盘文件)(文件归并时,如果溢写文件数量大于预定值(默认是3,可以自己设置)则可以再次启动Combiner,少于3不需要 )jobtracker(跟踪器)会一直检测map任务的执行。当map任务结束后它就会通知reduce来取文件。
  3. 一个map块大小默认是128MB,也就是一个map任务数据得到大小。reduce接到通知后会去相应的map任务里面取到属于自己分区那一部分数据拉到自己本地机器缓存上。因为可能有多个map任务,所以reduce可能会去多个map任务里面取拉回属于自己处理的分区。既然这个数据是来自于多个不同的map任务。拉回到本地以后,那么这些map任务也就是生成的这些键值对肯定是可以继续执行合并操作的,所以把数据拿回来以后要进行先归并,在合并,Map阶段输出的结果如果没有经过合并,那么它的数据结果就是key value list   <b<1,1>>,如果合并了后自然会是<b,2>,所以reduce从不同map里的数据拉回到本地以后,reduce还对不同map机器的数据进行再次进行归并,归并完以后如果用户定义了相关的合并操作,合并完以后我就可以把它写入磁盘,这样子在磁盘当中可能会生成一个或若干个磁盘文件。(以上的这些操作都是在缓存当中执行的。)
  4. 最终这些溢写到磁盘的若干个磁盘文件还需要归并成一个大的磁盘文件。当然如果你溢写到的文件非常多的话,经过多归并后可能最终不会得到一个大的磁盘文件。可能会得到多个大的磁盘文件,比如说里面有50个磁盘文件。如果每轮只允许归并10个,归并5轮以后最终会得到5个大的文件,这样的5个文件是不会再继续进行合并的。它直接就把这5个文件扔给reduce去处理,这种是数据量比较大的情况,如果说reduce从各个map集群过来的数量很小,我放在本地的缓存就可以装下,这种情况是不需要发生磁盘的溢写或者说文件合并都不需要发生,他就会直接把缓存中的数据进行归并,归并后得到一堆key value list  ,然后把key value list 输出给reduce去处理。Reduce函数里面包含了用户处理的逻辑,这样子reduce的洗牌阶段就顺利结束了。
  5. Shuffle是指对数据重新分区 排序 合并。

    分区 :分区是指数据可能会分发到多个reduce里面,如果有4个reduce,就分成四个区,每个区对应的reduce任务就会把他取走  (分区可以由我们自行定义)

    排序:排序是分区完后自动排序的,不需要用户进行干预。一般是根据key值进行字典排序。

    合并:比如有两个键值对 a,1 a,1 合并完后就变成。  a,2, 这样原先需要写两次到磁盘的就变成了只写一次了。是为了减少写入磁盘的数据量并降低reduce的任务量。 是否进行合并操作是用户定义的。

http://www.jmfq.cn/news/5287447.html

相关文章:

  • 福州网站建设哪个好/绍兴百度seo排名
  • 网站程序设置主页面/黑帽seo技术
  • 网站备案系统源码/站长工具手机综合查询
  • 做网站需要学哪些语言/品牌推广渠道
  • 漳州正规网站建设价格/免费网络推广100种方法
  • 怎么做企业销售网站/公司宣传网页怎么做
  • 设计方案翻译/邯郸网站建设优化
  • .net 网站开发视频/山东关键词快速排名
  • 正能量不良网站免费软件下载/站长工具网站查询
  • 网站建设安全性指标/个人网站设计模板
  • 三合一网站是什么/友情链接交换的意义是什么
  • app外包什么意思/商丘seo
  • 做网站用虚拟主机好吗/网络公司网站模板
  • 怎么做销售网站/搜索引擎优化的方法包括
  • 织梦网站数据库备份文件夹/短链接在线生成官网
  • 做网站推广员/百度站长电脑版
  • 建设地情网站的作用/如何创建一个网址
  • intitle 郑州网站建设/网上营销是做什么的
  • 网站开发外包合同/天津seo结算
  • 网站开发2008/太原seo外包公司
  • 二级网站内容建设要求吗/360优化大师最新版
  • 网站开发 q3687474/微信公众号seo
  • 在手机里面开网店怎么开/关键词优化外包
  • 帝国cms企业&行业协会网站模版/搜狗网站排名软件
  • 网站建设电销/自媒体营销推广方案
  • 连云港做网站最好/国内最好用的免费建站平台
  • 韩国风格网站模板/外贸独立站推广
  • 网站开发推广方案策划书/企业网站推广建议
  • saas 平台架构做网站/重庆seo推广外包
  • 百度公司网站排名怎么做/百度词条搜索排行