互联网技术 / 互联网资讯 · 2023年12月2日

HDFS的架构设计原理

前言

Hadoop到目前为止发展已经有10余年,版本经过无数次的更新迭代,目前业内大家把Hadoop大的版本分为Hadoop1.0、Hadoop2.0、Hadoop3.0 三个版本。

一、Hadoop 简介

Hadoop版本刚出来的时候是为了解决两个问题:一是海量数据如何存储的问题,一个是海量数据如何计算的问题。Hadoop的核心设计就是HDFS和 MapRedUCe.HDFS解决了海量数据如何存储的问题, MapRedUCe解决了海量数据如何计算的问题。HDFS的全称:Hadoop DistRibuted file system。

二、分布式文件系统

HDFS是如何设计架构的?

图片 HDFS其实就可以理解为一个分布式文件系统,可以看如图1所示有4个服务器是不是都有他自己的文件系统都可以进行存储数据,假设每个服务器的存储空间存储10G的数据。假设数据量很小的时候存储10G的数据还是ok的当数据量大于服务器的存储空间时是不是单个服务器就没法存储了。 我们是不是可以在服务器中部署一个Hadoop这样就能构建出一个集群(超级大电脑)。这样就存储 4*10=40G的数据量,这样我们面向用户时是不是只有一台超级大的电脑相当于一个分布式文件系统。

HDFS是一个主从的架构、主节点只有一个NeMEnode。从节点有多个DataNode。

三、HDFS 架构

HDFS是如何设计架构的?

图片 假设我们这里有5台服务器每台服务器都部署上Hadoop,我们随便选择一台服务器部署上NaMEnode剩下服务器部署上DataNode。

客户端上传文件时假设文件大小为129MHDFS默认切分的大小为128M这时就会产生出2个blkNaMEnode去通知DataNode上传文件(这里有一定的策略),我们就假设就将这几个文件分别存储在4个服务器上。为什们要进行分别存储在,假设DataNode服务器有一天突然挂掉了我们是不是还可通过DataNode4或2和3进行读取数据,这样是不是就防止数据丢失。

NaMEnode

管理元数据信息(文件目录树):文件与Block块,Block块与DataNode主机关系 NaMEnode为快速响应用户操作,所以把元数据信息加载到内存里

DataNode

存储数据,把上传的数据划分固定大小文件块(Block)在Hadoop2.73之前是64M之后改为了128M 为了保证数据安全,每个文件默认都是三个副本

SecondaRyNaMEnode

周期性的到NaMEnode节点拉取Edtis和fsimage文件,将这两个文件加入到内存进行 然后将这两个文件加入到内存中进行合并产生新的fsiMage发送给NaMEnode。

四、HDFS写入数据流程

客户端会带着文件路径向NaMEnode发送写入请求通过 RPC 与 NaMEnode 建立通讯, NaMEnode 检查目标文件,返回是否可以上传; client 请求第一个 block 该传输到哪些 DataNode 服务器上; NaMEnode 根据副本数量和副本放置策略进行节点分配,返回DataNode节点,如:A,B,C client 请求A节点建立pIPeline管道,A收到请求会继续调用B,然后B调用C,将整个pIPeline管道建立完成后,逐级返回消息到client; client收到A返回的消息之后开始往A上传第一个block块,block块被切分成64K的packet包不断的在pepiline管道里传递,从A到B,B到C进行复制存储 当一个 block块 传输完成之后,client 再次请求 NaMEnode 上传第二个block块的存储节点,不断往复存储 当所有block块传输完成之后,client调用FSDataoutputSTeam的close方法关闭输出流,最后调用filesystem的coMplete方法告知NaMEnode数据写入成功

五、HDFS读取数据流程

客户端会先带着读取路径向NaMEnode发送读取请求,通过 RPC 与 NaMEnode 建立通讯,NaMEnode检查目标文件,来确定请求文件 block块的位置信息 NaMEnode会视情况返回文件的部分或者全部block块列表,对于每个block块,NaMEnode 都会返回含有该 block副本的 DataNode 地址 这些返回的 DataNode 地址,会按照集群拓扑结构得出 DataNode 与客户端的距离,然后进行排序,排序两个规则:网络拓扑结构中距离 client 近的排靠前;心跳机制中超时汇报的 DN 状态为 STALE,这样的排靠后; client 选取排序靠前的 DataNode 调用FSDatAInputSTeam的Read方法来读取 block块数据,如果客户端本身就是DataNode,那么将从本地直接获取block块数据 当读完一批的 block块后,若文件读取还没有结束,客户端会继续向NaMEnode 获取下一批的 block 列表,继续读取 所有block块读取完成后,client调用FSDatAInputStReaM.close()方法,关闭输入流,并将读取来所有的 block块合并成一个完整的最终文件

六、HDFS缺陷

注意:早期版本

单点问题 内存受限

总结

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.