Professional Documents
Culture Documents
HDFS
Apache Hadoop概述
目录 Apache Hadoop集群搭建
Contents HDFS分布式文件系统基础
HDFS shell操作
HDFS读写文件基本流程
1. 了解Hadoop发展历史、现状
2. 掌握Hadoop集群架构、角色
学习目标 3. 掌握Hadoop集群分布式安装部署
Learning Objectives
4. 理解分布式存储的概念与实现
5. 掌握HDFS分块存储、副本机制等特性
6. 学会shell操作HDFS
7. 掌握HDFS读写文件基本流程
01 Apache Hadoop概述
目录 Hadoop介绍、发展简史、现状
Contents Hadoop特性优点、国内外应用
Hadoop发行版本、架构变迁
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Hadoop介绍
狭义上Hadoop指的是Apache软件基金会的一款开源软件。
用java语言实现,开源
允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理
Hadoop核心组件
Hadoop HDFS(分布式文件存储系统):解决海量数据存储
Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度
Hadoop MapReduce(分布式计算框架):解决海量数据计算
官网
http://hadoop.apache.org/
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Hadoop介绍
广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Hadoop发展简史
Hadoop之父:Doug Cutting
Hadoop起源于Apache Lucene子项目:Nutch
Nutch的设计目标是构建一个大型的全网搜索引擎。
遇到瓶颈:如何解决数十亿网页的存储和索引问题
Google三篇论文
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Hadoop现状
HDFS作为分布式文件存储系统,处在生态圈的底层与核心地位;
YARN作为分布式通用的集群资源管理系统和任务调度平台,支撑各种计算引擎运行,保证了Hadoop地位;
MapReduce作为大数据生态圈第一代分布式计算引擎,由于自身设计的模型所产生的弊端,导致企业一线几乎不
再直接使用MapReduce进行编程处理,但是很多软件的底层依然在使用MapReduce引擎来处理数据。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
• 狭义上Hadoop指软件,广义上Hadoop指生态圈
• Hadoop之父Doug Cutting
总结
总结 • Hadoop起源于Nutch项目
• 受Google3篇论文启发
• 2008年开源给Apache软件基金会
高级软件人才培训专家
目录 Hadoop介绍、发展简史、现状
Contents Hadoop特性优点、国内外应用
Hadoop发行版本、架构变迁
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Hadoop特性优点
scalability 扩容
能力
Hadoop是在可用的计算机集群间分配
数据并完成计算任务的,这些集群可方
便灵活的方式扩展到数以千计的节点。 成本 Economical
低
Hadoop集群允许通过部署普通廉价的机
器组成集群来处理大数据,以至于成本很
efficiency 效率 低。看重的是集群整体能力。
高
通过并发数据,Hadoop可以在节
点之间动态并行的移动数据,使得
速度非常快。 可靠 reliability
性
能自动维护数据的多份复制,并且在任务
失败后能自动地重新部署(redeploy)计
算任务。所以Hadoop的按位存储和处理
数据的能力值得人们信赖。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Hadoop国外应用
Yahoo
支持广告系统
用户行为分析
支持Web搜索
反垃圾邮件系统
存储处理数据挖掘和日志统计
构建基于Hadoop数据仓库平台(Apache Hive来自FB)
IBM
蓝云基础设施构建
商业化Hadoop发行、解决方案支持
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Hadoop国内应用
百度
用户搜索表征的需求数据、阿拉丁爬虫数据存储
数据分析和挖掘 竞价排名
阿里巴巴
为电子商务网络平台提供底层的基础计算和存储服务
交易数据、信用数据
腾讯
用户关系数据
基于Hadoop、Hive构建TDW(腾讯分布式数据仓库)
华为
对Hadoop的HA方案,以及HBase领域有深入研究
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
• Hadoop成功的魅力--通用性
精准区分做什么和怎么做
总结
总结 做什么属于业务问题 怎么做属于技术问题。
用户负责业务 Hadoop负责技术
• Hadoop成功的魅力--简单
高级软件人才培训专家
目录 Hadoop介绍、发展简史、现状
Contents Hadoop特性优点、国内外应用
Hadoop发行版本、架构变迁
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Hadoop发行版本
商业公司发行
Apache开源社区发行
基于Apache开源协议
也是官方发行版本
开源社区版 某些服务需要收费 商业发行版
优点:更新迭代快
优点:稳定兼容好
缺点:兼容稳定性不周
缺点:收费 版本更新慢
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Hadoop发行版本
Apache开源社区版本
http://hadoop.apache.org/
商业发行版本
Cloudera:https://www.cloudera.com/products/open-source/apache-hadoop.html
Hortonworks :https://www.cloudera.com/products/hdp.html
本课程中使用的是Apache版的Hadoop,版本号为:3.3.0
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Hadoop架构变迁(1.0-2.0变迁)
Hadoop 1.0
HDFS(分布式文件存储)
MapReduce(资源管理和分布式数据处理)
Hadoop 2.0
HDFS(分布式文件存储)
MapReduce(分布式数据处理)
YARN(集群资源管理、任务调度)
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Hadoop架构变迁(3.0新版本)
通用方面
精简内核、类路径隔离、shell脚本重构
Hadoop HDFS
EC纠删码、多NameNode支持
Hadoop MapReduce
任务本地化优化、内存参数自动推断
Hadoop YARN
高级软件人才培训专家
02 Apache Hadoop集群搭建
Hadoop集群简介
目录 Hadoop集群模式安装(Cluster mode)
Contents
Hadoop集群启停命令、Web UI
Hadoop初体验
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Hadoop集群整体概述
Hadoop集群包括两个集群:HDFS集群、YARN集群
两个集群逻辑上分离、通常物理上在一起
两个集群都是标准的主从架构集群
主角色:NameNode
从角色:DataNode 主角色:
HDFS集群 主角色辅助角色: ResourceManager YARN集群
(分布式存储) (资源管理、调度)
SecondaryNameNo 从角色:NodeManager
de
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
1. 如何理解两个集群逻辑上分离?
思考
2. 如何理解两个集群物理上在一起?
3. 为什么没有MapReduce集群?有这样的说法吗?
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Hadoop集群简介 HDFS集群
NN SNN DN
DN DN NM
RM
NM
NM
Hadoop集群=HDFS集群+YARN集群
YARN集群
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Hadoop集群简介
逻辑上分离
两个集群互相之间没有依赖、互不影响
物理上在一起
某些角色进程往往部署在同一台物理服务器上
MapReduce集群呢?
MapReduce是计算框架、代码层面的组件 没有集群之说
高级软件人才培训专家
Hadoop集群简介
目录 Hadoop集群模式安装(Cluster mode)
Contents
Hadoop集群启停命令、Web UI
Hadoop初体验
多一句没有,少一句不行,用最短时间,教会最实用的技术!
总结
思路 1. 可以根据课程一步一步自己动手搭建Hadoop集群。
2. 也可以直接使用虚拟机快照切换至搭建好的环境。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Hadoop源码编译
安装包、源码包下载地址
https://archive.apache.org/dist/hadoop/common/hadoop-3.3.0/
为什么要重新编译Hadoop源码?
匹配不同操作系统本地库环境,Hadoop某些操作比如压缩、IO需要调用系统本地库(*.so|*.dll)
修改源码、重构源码
如何编译Hadoop
源码包根目录下文件:BUILDING.txt
详细步骤参考附件资料
课程提供编译好的Hadoop安装包
hadoop-3.3.0-Centos7-64-with-snappy.tar.gz
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Step1:集群角色规划
角色规划的准则
根据软件工作特性和服务器硬件资源情况合理分配
比如依赖内存工作的NameNode是不是部署在大内存机器上?
角色规划注意事项
资源上有抢夺冲突的,尽量不要部署在一起
工作上需要互相配合的。尽量部署在一起
服务器 运行角色
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Step2:服务器基础环境准备
主机名(3台机器)
vim /etc/hostname
Hosts映射(3台机器)
vim /etc/hosts
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Step2:服务器基础环境准备
防火墙关闭(3台机器)
ssh免密登录(node1执行->node1|node2|node3)
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Step2:服务器基础环境准备
集群时间同步(3台机器)
ntpdate ntp4.aliyun.com
创建统一工作目录(3台机器)
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Step3:上传安装包、解压安装包
JDK 1.8安装(3台机器)
上传、解压Hadoop安装包(node1)
#上传安装包到/export/server 解压
cd /export/server
tar zxvf hadoop-3.3.0-Centos7-64-with-snappy.tar.gz
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Step4:Hadoop安装包目录结构
目录 说明
Hadoop最基本的管理脚本和使用脚本的目录,这些脚本是sbin目录下管
bin
理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop。
etc Hadoop配置文件所在的目录
对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文
include 件均是用C++定义的,通常用于C++程序访问HDFS或者编写MapReduce
程序。
该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中
lib
的头文件结合使用。
各个服务对用的shell配置文件所在的目录,可用于配置日志输出、启动参
libexec
数(比如JVM参数)等基本信息。
Hadoop管理脚本所在的目录,主要包含HDFS和YARN中各类服务的启动/
sbin
关闭脚本。
share Hadoop各个模块编译后的jar包所在的目录,官方自带示例。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
配置文件概述
官网文档:https://hadoop.apache.org/docs/r3.3.0/
第一类1个:hadoop-env.sh
第二类4个:xxxx-site.xml ,site表示的是用户定义的配置,会覆盖default中的默认配置。
core-site.xml 核心模块配置
hdfs-site.xml hdfs文件系统模块配置
mapred-site.xml MapReduce模块配置
yarn-site.xml yarn模块配置
第三类1个:workers
所有的配置文件目录:/export/server/hadoop-3.3.0/etc/hadoop
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Step5:编辑Hadoop配置文件(1)
hadoop-env.sh
export JAVA_HOME=/export/server/jdk1.8.0_241
#文件最后添加
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Step5:编辑Hadoop配置文件(2)
core-site.xml
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Step5:编辑Hadoop配置文件(3)
hdfs-site.xml
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Step5:编辑Hadoop配置文件(4)
mapred-site.xml
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Step5:编辑Hadoop配置文件(5)
yarn-site.xml
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Step5:编辑Hadoop配置文件(6)
workers
node1.itcast.cn
node2.itcast.cn
node3.itcast.cn
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Step6:分发同步安装包
在node1机器上将Hadoop安装包scp同步到其他机器
cd /export/server
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Step7:配置Hadoop环境变量
在node1上配置Hadoop环境变量
vim /etc/profile
export HADOOP_HOME=/export/server/hadoop-3.3.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
将修改后的环境变量同步其他机器
重新加载环境变量 验证是否生效(3台机器)
source /etc/profile
hadoop #验证环境变量是否生效
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
1. 服务器基础环境
总结
2. Hadoop源码编译
总结 3. Hadoop配置文件修改
4. shell文件、4个xml文件、workers文件
5. 配置文件集群同步
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
Step8:NameNode format(格式化操作)
首次启动HDFS时,必须对其进行格式化操作。
format本质上是初始化工作,进行HDFS清理和准备工作
命令:
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
1. 首次启动之前需要format操作;
总结
总结
2. format只能进行一次 后续不再需要;
3. 如果多次format除了造成数据丢失外,还会导致
hdfs集群主从角色之间互不识别。通过删除所有机
器hadoop.tmp.dir目录重新format解决
高级软件人才培训专家
Hadoop集群简介
目录 Hadoop集群模式安装(Cluster mode)
Contents
Hadoop集群启停命令、Web UI
Hadoop初体验
多一句没有,少一句不行,用最短时间,教会最实用的技术!
手动逐个进程启停
每台机器上每次手动启动关闭一个角色进程,可以精准控制每个进程启停,避免群起群停。
HDFS集群
#hadoop2.x版本命令
hadoop-daemon.sh start|stop namenode|datanode|secondarynamenode
#hadoop3.x版本命令
hdfs --daemon start|stop namenode|datanode|secondarynamenode
YARN集群
#hadoop2.x版本命令
yarn-daemon.sh start|stop resourcemanager|nodemanager
#hadoop3.x版本命令
yarn --daemon start|stop resourcemanager|nodemanager
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
shell脚本一键启停
在node1上,使用软件自带的shell脚本一键启动。前提:配置好机器之间的SSH免密登录和workers文件。
HDFS集群
start-dfs.sh
stop-dfs.sh
YARN集群
start-yarn.sh
stop-yarn.sh
Hadoop集群
start-all.sh
stop-all.sh
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
进程状态、日志查看
启动完毕之后可以使用jps命令查看进程是否启动成功
Hadoop启动日志路径:/export/server/hadoop-3.3.0/logs/
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
HDFS集群
地址:http://namenode_host:9870
其中namenode_host是namenode运行所在机器的主机名或者ip
如果使用主机名访问,别忘了在Windows配置hosts
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
HDFS集群
HDFS文件系统Web页面浏览
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
YARN集群
地址:http://resourcemanager_host:8088
其中resourcemanager_host是resourcemanager运行所在机器的主机名或者ip
如果使用主机名访问,别忘了在Windows配置hosts
高级软件人才培训专家
Hadoop集群简介
目录 Hadoop集群模式安装(Cluster mode)
Contents
Hadoop集群启停命令、Web UI
Hadoop初体验
多一句没有,少一句不行,用最短时间,教会最实用的技术!
HDFS 初体验
shell命令操作
hadoop fs -ls /
Web UI页面操作
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
1. HDFS本质就是一个文件系统
思考
2. 有目录树结构 和Linux类似,分文件、文件夹
3. 为什么上传一个小文件也这么慢?
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
MapReduce+YARN 初体验
执行Hadoop官方自带的MapReduce案例,评估圆周率π的值。
cd /export/server/hadoop-3.3.0/share/hadoop/mapreduce/
hadoop jar hadoop-mapreduce-examples-3.3.0.jar pi 2 4
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
1. 执行MapReduce的时候,为什么首先请求YARN?
思考 2. MapReduce看上去好像是两个阶段?先Map,再
Reduce?
3. 处理小数据的时候,MapReduce速度快吗?
高级软件人才培训专家
03 HDFS分布式文件系统基础
文件系统、分布式文件系统
目录 HDFS简介
Contents HDFS起源发展、设计目标
HDFS应用场景
HDFS重要特性
多一句没有,少一句不行,用最短时间,教会最实用的技术!
文件系统定义
文件系统是一种存储和组织数据的方法,实现了数据的存储、分级组织、访问和获取等操作,使得用户对文件访问
和查找变得容易;
文件系统使用树形目录的抽象逻辑概念代替了硬盘等物理设备使用数据块的概念,用户不必关心数据底层存在硬盘
哪里,只需要记住这个文件的所属目录和文件名即可;
文件系统通常使用硬盘和光盘这样的存储设备,并维护文件在设备中的物理位置。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
传统常见的文件系统
所谓传统常见的文件系统更多指的的单机的文件系统,也就是底层不会横跨多台机器实现。比如windows操作系统
上的文件系统、Linux上的文件系统、FTP文件系统等等。
这些文件系统的共同特征包括:
1. 带有抽象的目录树结构,树都是从/根目录开始往下蔓延;
2. 树中节点分为两类:目录和文件;
3. 从根目录开始,节点路径具有唯一性。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
数据、元数据
数据
指存储的内容本身,比如文件、视频、图片等,这些数据底层最终是存储在磁盘等存储介质上的,一般用户无需关心,
只需要基于目录树进行增删改查即可,实际针对数据的操作由文件系统完成。
元数据
元数据(metadata)又称之为解释性数据,记录数据的数据;
文件系统元数据一般指文件大小、最后修改时间、底层存储位置、属性、所属用户、权限等信息。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
思考 1. 大数据时代,面对海量数据,传统的文件存储系统
会面临哪些挑战呢?
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
海量数据存储遇到的问题
成本高
传统存储硬件通用性差,设备投资加上后期维护、升级扩容的成本非常高。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
海量数据存储遇到的问题
如何支撑高效率的计算分析
传统存储方式意味着数据:存储是存储,计算是计算,当需要处理数据的时候把数据移动过来。
程序和数据存储是属于不同的技术厂商实现,无法有机统一整合在一起。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
海量数据存储遇到的问题
性能低
单节点I/O性能瓶颈无法逾越,难以支撑海量数据的高并发高吞吐场景。
可扩展性差
无法实现快速部署和弹性扩展,动态扩容、缩容成本高,技术实现难度大。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
1. 当遇到海量数据存储的场景,传统的文件系统如何
解决海量数据的存储问题?
思考
2. 一款能够支撑海量数据存储的系统需要追求什么?
吞吐量?性能?安全?效率?
3. 如果让你设计一款存储系统软件来支撑海量数据存
储,如何设计?
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
案例 场景互动:分布式存储系统的核心属性及功能含义
分布式存储系统核心属性
• 分布式存储
• 元数据记录
• 分块存储
• 副本机制
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
一、分布式存储的优点
问题:数据量大,单机存储遇到瓶颈
解决:
单机纵向扩展:磁盘不够加磁盘,有上限瓶颈限制
多机横向扩展:机器不够加机器,理论上无限扩展
…...
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
二、元数据记录的功能
问题:文件分布在不同机器上不利于寻找
解决:元数据记录下文件及其存储位置信息,快速定位文件位置
(文件名、大小、存储机器IP)
1.txt:100M node1
元数据记录
a.dat: 300M node3
a.dat
实际数据存储
1.txt node1 node2 node3
log
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
三、分块存储好处
问题:文件过大导致单机存不下、上传下载效率低
解决:文件分块存储在不同机器,针对块并行操作提高效率
blk-1
…{数据块:存储位置}
blk-2 1.txt 100M {blk-1:node1}
a.dat 元数据记录
a.dat 300M {blk-2:node2,blk-5:node1,blk-3:node3}
blk-3
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
四:副本机制的作用
问题:硬件故障难以避免,数据易丢失
解决:不同机器设置备份,冗余存储,保障数据安全
…副本数、{数据块:存储位置|…}
blk-1
1.txt 100M 2 {blk-33:node5|node8} 元数据记录
blk-2
a.dat a.dat 300M 2 {blk-1:node1|node2,blk-2:node2|node3,blk-3:node1|node3}
blk-3
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
1. 分布式存储的优点是什么?
无限扩展支撑海量数据存储
2. 元数据记录的功能是什么?
总结
总结
快速定位文件位置便于查找
3. 文件分块存储好处是什么?
针对块并行操作提高效率
4. 设置副本备份的作用是什么?
冗余存储保障数据安全
高级软件人才培训专家
文件系统与分布式文件系统
目录 HDFS简介
Contents HDFS起源发展、设计目标
HDFS应用场景
HDFS重要特性
多一句没有,少一句不行,用最短时间,教会最实用的技术!
HDFS简介
是Apache Hadoop核心组件之一,作为大数据生态圈最底层的分布式存储服务而存在。也可以说大数据首先要解
决的问题就是海量数据的存储问题。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
HDFS简介
HDFS主要是解决大数据如何存储问题的。分布式意味着是HDFS是横跨在多台计算机上的存储系统。
HDFS是一种能够在普通硬件上运行的分布式文件系统,它是高度容错的,适应于具有大数据集的应用程序,它非
常适于存储大型数据 (比如 TB 和 PB)。
高级软件人才培训专家
文件系统与分布式文件系统
目录 HDFS简介
Contents HDFS起源发展、设计目标
HDFS应用场景
HDFS重要特性
多一句没有,少一句不行,用最短时间,教会最实用的技术!
HDFS起源发展
Doug Cutting领导Nutch项目研发,Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、
查询等功能。
随着爬虫抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。
《分布式文件系统(GFS),可用于处理海量网页的存储》
Nutch的开发人员完成了相应的开源实现HDFS,并从Nutch中剥离和MapReduce成为独立项目HADOOP。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
HDFS设计目标
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
HDFS设计目标
大部分HDFS应用对文件要求的是write-one-read-many访问模型。一个文件一旦创建、写入、关闭之后就不需
要修改了。这一假设简化了数据一致性问题,使高吞吐量的数据访问成为可能。
移动计算的代价比之移动数据的代价低。一个应用请求的计算,离它操作的数据越近就越高效。将计算移动到数据
附近,比之将数据移动到应用所在显然更好。
HDFS被设计为可从一个平台轻松移植到另一个平台。这有助于将HDFS广泛用作大量应用程序的首选平台。
高级软件人才培训专家
文件系统与分布式文件系统
目录 HDFS简介
Contents HDFS起源发展、设计目标
HDFS应用场景
HDFS重要特性
多一句没有,少一句不行,用最短时间,教会最实用的技术!
HDFS应用场景
大文件
小文件
数据流式访问
数据交互式访问
适合场景 一次写入多次读取 不适合场景
频繁任意修改
低成本部署,廉价PC
低延迟处理
高容错
高级软件人才培训专家
文件系统与分布式文件系统
目录 HDFS简介
Contents HDFS起源发展、设计目标
HDFS应用场景
HDFS重要特性
多一句没有,少一句不行,用最短时间,教会最实用的技术!
整体概述
主从架构
分块存储
副本机制
元数据记录
抽象统一的目录树结构(namespace)
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
(1)主从架构
HDFS集群是标准的master/slave主从架构集群。
一般一个HDFS集群是有一个Namenode和一定数目的Datanode组成。
Namenode是HDFS主节点,Datanode是HDFS从节点,两种角色各司其职,共同协调完成分布式的文件存储服
务。
官方架构图中是一主五从模式,其中五个从角色位于两个机架(Rack)的不同服务器上。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
(2)分块存储
HDFS中的文件在物理上是分块存储(block)的,默认大小是128M(134217728),不足128M则本身就是一块
。
块的大小可以通过配置参数来规定,参数位于hdfs-default.xml中:dfs.blocksize。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
(3)副本机制
文件的所有block都会有副本。副本系数可以在文件创建的时候指定,也可以在之后通过命令改变。
副本数由参数dfs.replication控制,默认值是3,也就是会额外再复制2份,连同本身总共3份副本。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
(4)元数据管理
在HDFS中,Namenode管理的元数据具有两种类型:
文件自身属性信息
文件名称、权限,修改时间,文件大小,复制因子,数据块大小。
文件块位置映射信息
记录文件块和DataNode之间的映射信息,即哪个块位于哪个节点上。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
(5)namespace
HDFS支持传统的层次型文件组织结构。用户可以创建目录,然后将文件保存在这些目录里。文件系统名字空间的
层次结构和大多数现有的文件系统类似:用户可以创建、删除、移动或重命名文件。
Namenode负责维护文件系统的namespace名称空间,任何对文件系统名称空间或属性的修改都将被Namenode
记录下来。
HDFS会给客户端提供一个统一的抽象目录树,客户端通过路径来访问文件,形如:hdfs://namenode:port/dir-
a/dir-b/dir-c/file.data。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
(6)数据块存储
文件的各个block的具体存储管理由DataNode节点承担。
每一个block都可以在多个DataNode上存储。
高级软件人才培训专家
04 HDFS shell操作
目录 HDFS shell命令行解释说明
Contents
HDFS shell命令行常用操作
多一句没有,少一句不行,用最短时间,教会最实用的技术!
介绍
命令行界面(英语:command-line interface,缩写:CLI),是指用户通过键盘输入指令,计算机接收到指令后
,予以执行一种人际交互方式。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
文件系统协议
具体操作的是什么文件系统取决于命令中文件路径URL中的前缀协议。
如果没有指定前缀,则将会读取环境变量中的fs.defaultFS属性,以该属性值作为默认文件系统。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
区别
hadoop fs 可操作任意文件系统,不仅仅是hdfs文件系统,使用范围更广;
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
参数说明
HDFS文件系统的操作命令很多和Linux类似,因此学习成本相对较低。
可以通过hadoop fs -help命令来查看每个命令的详细用法。
高级软件人才培训专家
目录 HDFS shell命令行解释说明
Contents
HDFS shell命令行常用操作
多一句没有,少一句不行,用最短时间,教会最实用的技术!
1、创建文件夹
path 为待创建的目录
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
2、查看指定目录下内容
path 指定目录路径
-h 人性化显示文件size
-R 递归查看指定目录及其子目录
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
3、上传文件到HDFS指定目录下
-f 覆盖目标文件(已存在下)
-p 保留访问和修改时间,所有权和权限。
localsrc 本地文件系统(客户端所在机器)
dst 目标文件系统(HDFS)
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
4、查看HDFS文件内容
读取指定文件全部内容,显示在标准输出控制台。
注意:对于大文件内容读取,慎重。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
5、下载HDFS文件
下载文件到本地文件系统指定目录,localdst必须是目录
-f 覆盖目标文件(已存在下)
-p 保留访问和修改时间,所有权和权限。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
6、拷贝HDFS文件
-f 覆盖目标文件(已存在下)
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
7、追加数据到HDFS文件中
将所有给定本地文件的内容追加到给定dst文件。
dst如果文件不存在,将创建该文件。
如果<localSrc>为-,则输入为从标准输入中读取。
#追加内容到文件尾部 appendToFile
[root@node3 ~]# echo 1 >> 1.txt
[root@node3 ~]# echo 2 >> 2.txt
[root@node3 ~]# echo 3 >> 3.txt
[root@node3 ~]# hadoop fs -put 1.txt /
[root@node3 ~]# hadoop fs -cat /1.txt
1
[root@node3 ~]# hadoop fs -appendToFile 2.txt 3.txt /1.txt
[root@node3 ~]# hadoop fs -cat /1.txt
1
2
3
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
8、HDFS数据移动操作
移动文件到指定文件夹下
可以使用该命令移动数据,重命名文件的名称
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
HDFS shell其他命令
命令官方指导文档
https://hadoop.apache.org/docs/r3.3.0/hadoop-project-dist/hadoop-common/FileSystemShell.html
友情提示
常见的操作自己最好能够记住,其他操作可以根据需要查询文档使用。
命令属于多用多会,孰能生巧,不用就忘。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
1. HDFS作为文件存储系统,实际开发中,我们需要做
思考 什么?
2. HDFS会有复杂的代码编程操作吗?
3. 谁会更频繁的来读写HDFS上数据?
高级软件人才培训专家
05 HDFS工作流程与机制
目录 HDFS集群角色与职责
Contents HDFS写数据流程(上传文件)
HDFS读数据流程(下载文件)
多一句没有,少一句不行,用最短时间,教会最实用的技术!
官方架构图
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
主角色:namenode
NameNode是Hadoop分布式文件系统的核心,架构中的主角色。
NameNode维护和管理文件系统元数据,包括名称空间目录树结构、文件和块的位置信息、访问权限等信息。
基于此,NameNode成为了访问HDFS的唯一入口。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
主角色:namenode
NameNode内部通过内存和磁盘文件两种方式管理元数据。
其中磁盘上的元数据文件包括Fsimage内存元数据镜像文件和edits log(Journal)编辑日志。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
从角色:datanode
DataNode是Hadoop HDFS中的从角色,负责具体的数据块存储。
DataNode的数量决定了HDFS集群的整体数据存储能力。通过和NameNode配合维护着数据块。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
主角色辅助角色: secondarynamenode
Secondary NameNode充当NameNode的辅助节点,但不能替代NameNode。
主要是帮助主角色进行元数据文件的合并动作。可以通俗的理解为主角色的“秘书”。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
namenode职责
NameNode仅存储HDFS的元数据:文件系统中所有文件的目录树,并跟踪整个集群中的文件,不存储实际数据。
NameNode知道HDFS中任何给定文件的块列表及其位置。使用此信息NameNode知道如何从块中构建文件。
NameNode不持久化存储每个文件中各个块所在的datanode的位置信息,这些信息会在系统启动时从DataNode
重建。
NameNode是Hadoop集群中的单点故障。
NameNode所在机器通常会配置有大量内存(RAM)。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
datanode职责
DataNode负责最终数据块block的存储。是集群的从角色,也称为Slave。
DataNode启动时,会将自己注册到NameNode并汇报自己负责持有的块列表。
当某个DataNode关闭时,不会影响数据的可用性。 NameNode将安排由其他DataNode管理的块进行副本复制
。
DataNode所在机器通常配置有大量的硬盘空间,因为实际数据存储在DataNode中。
高级软件人才培训专家
目录 namenode、datanode职责
Contents HDFS写数据流程(上传文件)
HDFS读数据流程(下载文件)
多一句没有,少一句不行,用最短时间,教会最实用的技术!
写数据完整流程图
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
核心概念--Pipeline管道
Pipeline,中文翻译为管道。这是HDFS在上传文件写数据过程中采用的一种数据传输方式。
客户端将数据块写入第一个数据节点,第一个数据节点保存数据之后再将块复制到第二个数据节点,后者保存后将
其复制到第三个数据节点。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
核心概念--Pipeline管道
为什么datanode之间采用pipeline线性传输,而不是一次给三个datanode拓扑式传输呢?
因为数据以管道的方式,顺序的沿着一个方向传输,这样能够充分利用每个机器的带宽,避免网络瓶颈和高延迟时
的连接,最小化推送所有数据的延时。
在线性推送模式下,每台机器所有的出口宽带都用于以最快的速度传输数据,而不是在多个接受者之间分配宽带。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
核心概念--ACK应答响应
在HDFS pipeline管道传输数据的过程中,传输的反方向会进行ACK校验,确保数据传输安全。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
核心概念--默认3副本存储策略
默认副本存储策略是由BlockPlacementPolicyDefault指定。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
核心概念--默认3副本存储策略
第一块副本:优先客户端本地,否则随机
第二块副本:不同于第一块副本的不同机架。
第三块副本:第二块副本相同机架不同机器。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
1、HDFS客户端创建对象实例DistributedFileSystem, 该对象中封装了与HDFS文件系统操作的相关方法。
2、调用DistributedFileSystem对象的create()方法,通过RPC请求NameNode创建文件。
NameNode执行各种检查判断:目标文件是否存在、父目录是否存在、客户端是否具有创建该文件的权限。检查通过
,NameNode就会为本次请求记下一条记录,返回FSDataOutputStream输出流对象给客户端用于写数据。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
3、客户端通过FSDataOutputStream输出流开始写入数据。
DataStreamer将数据包流式传输到pipeline的第一个DataNode,该DataNode存储数据包并将它发送到pipeline的第
二个DataNode。同样,第二个DataNode存储数据包并且发送给第三个(也是最后一个)DataNode。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
5、传输的反方向上,会通过ACK机制校验数据包传输是否成功;
6、客户端完成数据写入后,在FSDataOutputStream输出流上调用close()方法关闭。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
7、DistributedFileSystem联系NameNode告知其文件写入完成,等待NameNode确认。
因为namenode已经知道文件由哪些块组成(DataStream请求分配数据块),因此仅需等待最小复制块即可成功返回
。
最小复制是由参数dfs.namenode.replication.min指定,默认是1.
高级软件人才培训专家
目录 namenode、datanode职责
Contents HDFS写数据流程(上传文件)
HDFS读数据流程(下载文件)
多一句没有,少一句不行,用最短时间,教会最实用的技术!
读数据完整流程图
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
1、HDFS客户端创建对象实例DistributedFileSystem, 调用该对象的open()方法来打开希望读取的文件。
2、DistributedFileSystem使用RPC调用namenode来确定文件中前几个块的块位置(分批次读取)信息。
对于每个块,namenode返回具有该块所有副本的datanode位置地址列表,并且该地址列表是排序好的,与客户端的
网络拓扑距离近的排序靠前。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
3、DistributedFileSystem将FSDataInputStream输入流返回到客户端以供其读取数据。
4、客户端在FSDataInputStream输入流上调用read()方法。然后,已存储DataNode地址的InputStream连接到文件
中第一个块的最近的DataNode。数据从DataNode流回客户端,结果客户端可以在流上重复调用read()。
高级软件人才培训专家
多一句没有,少一句不行,用最短时间,教会最实用的技术!
5、当该块结束时,FSDataInputStream将关闭与DataNode的连接,然后寻找下一个block块的最佳datanode位置。
这些操作对用户来说是透明的。所以用户感觉起来它一直在读取一个连续的流。
客户端从流中读取数据时,也会根据需要询问NameNode来检索下一批数据块的DataNode位置信息。
6、一旦客户端完成读取,就对FSDataInputStream调用close()方法。
高级软件人才培训专家