type
status
date
slug
summary
tags
category
icon
password

HDFS的读流程

notion image
 
  1. 客户端调用 DistributeFileSystem 对象的 open() 方法打开要读取的文件。
  1. DistributeFileSystem 向 NameNode 发起 RPC 调用,得到文件的数据块信息,返回数据节点列表。对于每个数据块,NameNode 返回该数据块的 DataNode 地址。
  1. DistributeFileSystem 返回一个 FSDataInputStrem 对象给客户端,客户端调用 FSDataInputStrem 对象的 read() 方法开始读取数据。
  1. 通过对数据流反复调用 read() 方法,把数据从数据节点传输到客户端。
  1. 当一个数据块的数据读取完毕时,DFSInputStrem 对象关闭与此数据节点的连接,连接文件的下一个数据块的最近数据节点。
  1. 当文件的数据读取完时,客户端调用 DistributeFileSystem 对象的 close() 方法关闭文件输入流对象。
 

HDFS的写流程

notion image
 
  1. 客户端调用 DistributeFileSystem 对象的 create() 方法创建一个文件输出流对象。
  1. DistributeFileSystem 向 NameNode 发起 RPC 调用,NameNode 检查该文件是否以及存在,以及客户端是否有权限新建文件。
  1. DistributeFileSystem 返回一个 FSDataOutputStrem 对象给客户端,客户端调用 FSDataOutputStrem 对象的 write() 方法写入数据,数据先被写入到缓冲区,再被切分成一个个数据包。
  1. 每个数据包被发送到由 NameNode 分配的一组数据节点的一个节点上,在这组数据节点组成的管道上依次传输数据包。
  1. 管道上的数据节点按方向顺序返回确认信息,最终由管道上的第一个数据节点将整条管道的确认信息返回给客户端。
  1. 客户端完成写入,调用 close() 方法关闭文件输出流对象。
  1. 通知 NameNode 文件写入成功。
Ambari部署Hadoop集群YARN中应用运行的机制
Loading...
DewarTsang
DewarTsang
一个普通的干饭人🍚
最新发布
白U兑换黑U
2024-12-18
BNB-ETH
2024-11-26
Django的生命周期
2024-8-14
RESTful API 设计规范
2024-7-15
什么是猴子补丁?
2024-7-15
多线程与GIL
2024-7-12