当前位置: 首页 > news >正文

怎么做代购彩票网站/2021最火关键词

怎么做代购彩票网站,2021最火关键词,google网站搜索,wordpress图片自动居中1.map阶段:将单词和URI组成Key值(如“MapReduce :1.txt”),将词频作为value。 利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过程,实现类似于WordCount的功能。…

1.map阶段:将单词和URI组成Key值(如“MapReduce :1.txt”),将词频作为value。

  利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过程,实现类似于WordCount的功能。

Class Map<Longwritable, Text, Text, Longwritable>{method map(){//获取输入分片对应的文件名String fileName=((FileSplit)context.getInputSplit()).getPath().getName();for(String word : value.split()){//输出:<key,value>---<"MapReduce:1.txt",1>context.write(new Text(word+":"+fileName), new Longwritable(1))}}
}

2.Combiner阶段:将key值相同的value值累加,得到一个单词在文档中的词频。

如果直接将Map的输出作为Reduce的输入,当前key值(由单词、URI组成)无法保证相同的word会分发到同一个Reduce处理,所以必须修改key值和value值。将单词作为key值,URI和词频作为value值,可以利用MR框架默认的HashPartitioner类完成分区过程,将相同单词的所有记录发送给同一个Reducer处理。

Class Combine<Text, Longwritable, Text, Text>{method reduce(){for(Long long : v2s){//词频求和sum += Long.parseLong(long.toString());}//输出:<key,value>----<"Mapreduce","0.txt:2">context.write(new Text(word), new Text(fileName+":"+sum));        }
}

3.reduce阶段:将相同key值的value值组合成倒排索引文件所需的格式即可。

Class Reduce<Text, Longwritable, Text, Text>{method reduce(){String valueList = new String();//输入:<"MapReduce",list("0.txt:1","1.txt:1","2.txt:1")>for(Text text : v2s){valueList += text.toString()+";";}//输出:<"MapReduce","0.txt:1,1.txt:1,2.txt:1">context.write(key, new Text(valueList));        }
}

注意事项:本实例设计的倒排索引在文件数目上没有限制,但是单词文件不宜过大,要保证每个文件对应一个 split。否则,由于 Reduce 过程没有进一步统计词频,最终结果可能会出现词频未统计完全的单词。详见MR案例:倒排索引 && MultipleInputs

解决方案

  1. 覆写 InputFormat 类将每个输入文件分为一个 split,避免上述情况。
  2. 执行两次 MR 任务,第一次 MR 用于统计词频,第二次 MR 用于生成倒排索引。
  3. 可以利用复合键值对等实现包含更多信息的倒排索引。

转载于:https://www.cnblogs.com/skyl/p/4745902.html

http://www.jmfq.cn/news/5071267.html

相关文章:

  • 网站程序模板下载/搜狗网址大全
  • 手机怎么自己建网站/软件开发公司推荐
  • 用记事本做网站/站长平台
  • 网站开发原理/上海优化公司
  • 网站建设技术论坛/广州专门做网站
  • 需要找做网站的/最近几天的新闻大事
  • 网站建设电销/百度知道合伙人答题兼职入口
  • 上海信息公司做网站/企业策划推广公司
  • 备案 个人网站建设方案书/香港头条新闻
  • 怎样做网站搜索推广电话成都/百度售后服务电话
  • 网站第三方登录怎么做/百度关键词查询排名
  • 量子秘密网站怎么做/亚马逊关键词优化软件
  • 怎么样做淘宝联盟网站/杭州百度seo优化
  • 武汉网站建设培训/seo关键词排名优化怎么样
  • 罗湖附近公司做网站建设哪家便宜/域名注册信息查询whois
  • 晋中公司做网站/360收录提交入口
  • javascript 做网站/网站推广优化怎么做最好
  • 网站经营网络备案信息管理系统/最佳bt磁力搜索引擎
  • 建设网站 软件/大数据查询
  • 园林网站免费模板/百度点击软件还有用吗
  • 厦门做网站培训/百度seo学院
  • j2ee 建设简单网站/百度搜索排名优化哪家好
  • 潍坊网站建设公司有哪些内容/友情链接收录
  • 智慧团建官方网站登录/数据分析平台
  • 上海建筑设计研究院有限公司官网/灰色词网站seo
  • thinkphp 网站开发/关键词优化推广公司哪家好
  • 网站建设类的职位/东莞网站制作公司联系方式
  • 济南网站建设直播/广告位招商怎么找客户
  • 电商网站如何做多语言架构/今天热搜前十名
  • 网站设计模板中的页/自己怎么开发app软件