当前位置: 首页 > news >正文

衡水网站建设优化排名/北京网站建设开发公司

衡水网站建设优化排名,北京网站建设开发公司,win10运行wordpress,汕头网站建设备案原论文:The Hadoop Distributed File System (MSST’10) HDFS关键技术要点概览 设计目标:HDFS旨在可靠地存储大型数据集,并以高带宽流式传输这些数据集到用户应用程序。它通过在大量服务器上分布存储和计算资源,使得资源可以随着需求的增长而扩展,同时保持经济高效。架构组…

原论文:The Hadoop Distributed File System (MSST’10)

HDFS关键技术要点概览

  1. 设计目标:HDFS旨在可靠地存储大型数据集,并以高带宽流式传输这些数据集到用户应用程序。它通过在大量服务器上分布存储和计算资源,使得资源可以随着需求的增长而扩展,同时保持经济高效。
  2. 架构组成:HDFS是Hadoop项目的一部分,包括了分布式文件系统、MapReduce计算框架、HBase列式存储系统、Pig数据流语言、Hive数据仓库基础设施、ZooKeeper分布式协调服务等多个组件。
  3. 存储和元数据分离:HDFS将文件系统元数据和应用数据分开存储。元数据存储在专用的NameNode服务器上,而应用数据存储在DataNode服务器上。
  4. 数据复制:HDFS不像传统的文件系统使用RAID等数据保护机制,而是通过在多个DataNode上复制文件内容来确保数据的可靠性。这种策略不仅保证了数据的持久性,还提高了数据传输带宽,并为计算任务提供了更多的机会来靠近所需数据。
  5. NameNode和DataNode:NameNode维护文件系统的namespace tree和block到DataNode的映射关系。DataNode则存储实际的数据块,并与NameNode通信以报告其健康状况和存储状态。
  6. 客户端操作:HDFS客户端提供了一系列文件系统操作,如读写文件、创建和删除目录等。客户端与NameNode交互以获取文件块的位置信息,然后直接与DataNode通信来读取或写入数据。
  7. 容错和数据完整性:HDFS通过复制数据块来提高容错能力。如果检测到数据块损坏,HDFS会从其他DataNode获取有效副本。此外,HDFS还提供了块扫描器来定期检查数据块的完整性。
  8. 平衡器(Balancer):为了确保集群中数据的均匀分布,HDFS提供了一个平衡器工具,它可以将数据从一个DataNode复制到另一个DataNode,以平衡集群中的磁盘空间使用。
  9. 升级和快照:HDFS支持在软件升级期间创建文件系统快照,以便在升级导致数据损坏时可以回滚到升级前的状态。
  10. 性能基准测试:论文提供了HDFS在不同操作(如读取、写入、追加)下的性能基准测试结果,以及在生产环境中的实际性能表现。
  11. 未来工作:论文讨论了HDFS未来的发展方向,包括提高NameNode的可扩展性、实现自动化故障转移、支持多个namespace以及改进集群间的协作。

HDFS原论文阅读

Introduction

  • Hadoop提供了一个分布式文件系统和一个基于MapReduce实现的对超大数据集的分析和转换的框架。

  • Hadoop的重要特点:数据的分割、横跨成千上万个主机的计算、在接近数据的地方并行执行应用程序的计算。

  • Hadoop集群通过简单地增加服务器来扩展计算容量、存储容量和IO带宽。

  • Hadoop 项目的组成元件

    • 在这里插入图片描述
  • Hadoop将元数据存储在NameNode上,将应用程序数据存储在DataNode上,所有服务器通过TCP-based协议连接和通信。

  • 和GFS类似,Hadoop通过存储多个副本在DataNodes上来实现数据的可靠性。

  • 一个文件通过一个哈希函数将名称映射到特定的MDS(namespace服务器)。

Architecture

NameNodes

  • HDFS namespace是一个文件和目录的层级结构。在NameNode中,文件和目录是通过inodes来呈现的,内容包括属性值(如允许的权限)、修改和访问时间、namespace和磁盘空间配额等。
  • 文件内容被分割成(默认为128MB大小的)块,然后每个块独立地在其他DataNodes上有多个副本(一般为三副本)。
  • Namenode保存着namespace tree以及blocks到DataNode的映射表(文件数据的物理位置)。
  • 想要读取文件的 HDFS clients首先会联系 NameNode 以获取组成文件的数据块位置,然后从最靠近client的 DataNode 读取块内容。在写入数据时,clients会要求 NameNode 指定由三个DataNodes来管理数据块副本。然后,clients以流水线方式向DataNodes写入数据。
  • HDFS将整个namespace存储在RAM中。命名系统元数据image由inode的数据和属于每个文件的block list组成,存储在本地主机本地文件系统中的image持久记录称为checkpoint,NameNode 还会在本地主机的本地文件系统中存储名为jo
http://www.jmfq.cn/news/5305591.html

相关文章:

  • 网站建设怎么外包好/系统优化工具
  • 中国知名网站建设公司/谷歌网站
  • 制作精美网站建设独立/媒体软文发稿
  • 加强二级网站建设 招生/十大推广app平台
  • 网站优化建设桂林/韩国网站
  • 外国纪录片网站机场建设/广告精准推广平台
  • 江苏工程建设信息网站/百度快照怎么优化排名
  • 新疆乌鲁木齐建设职业学校网站/湖南株洲疫情最新情况
  • 龙岗区住房和建设局官方网站/如何注册百度账号
  • 营销网站建设实训总结/网站免费制作平台
  • 网站建设的书 推荐/论坛seo教程
  • 山西住房建设厅官方网站/本周热点新闻事件
  • 内蒙古网站建设价格/免费b站推广网站详情
  • 传奇私服怎么建设网站/市场调研报告word模板
  • 网站建设仟首先金手指15/网络营销与推广
  • 有经验的佛山网站建设/谷歌商店paypal下载官网
  • 国内做航模比较好的网站/百度快照推广
  • 免费的网站程序/如何做网站设计
  • 网站建设科技公司外部环境分析/全媒体运营师培训机构
  • 网站 宣传册/债务优化是什么意思
  • 衢州网站推广/推广渠道有哪些方式
  • 中粮网站是哪个公司做的/网络营销带来的效果
  • 杭州网站推广宣传/网店推广方案范文
  • 网页版微信登录提示二维码已失效/seo优化技术培训
  • 交互网站模板/培训机构网站
  • 人工客服咨询/优化服务内容
  • 长春做网站哪个公司好/完整企业网站模板
  • 网站开发中的视图页面指的是什么/厦门seo排名
  • 怎么做网站代购/疫情放开最新消息今天
  • 重庆市做网站的公司/网络营销策划的基本原则