Professional Documents
Culture Documents
Xây dựng hệ thống HDFS trên Ubuntu bao gồm 1 master và 2 slave node
Hadoop job client submit job (file jar, file thực thi) và các thiết lập cho
JobTracker. Sau đó, master sẽ phân phối tác vụ đến các máy slave để theo dõi và
quản lý tiến trình các máy này, đồng thời cung cấp thông tin về tình trạng liên quan
đến job-client.
TaskTracker trên các node khác nhau thực thi tác vụ MapReduce và trả về kết
quả output được lưu trong hệ thống file.
Khi “chạy Hadoop” có nghĩa là chạy một tập các trình nền – daemon, hoặc các
chương trình thường trú, trên các máy chủ khác nhau trên mạng của bạn. Những trình
có vai trò cụ thể, một số chỉ tồn tại trên một máy chủ, một số có thể tồn tại trên nhiều
máy chủ.
- NameNode
- DataNode
- SecondaryNameNode
- JobTracker
- TaskTracker
III. Cài đặt Hadoop - HDFS
$ su - hdoop
Tạo khóa cho ssh và cho phép truy cập tới máy cục bộ
Tải hadoop
$ wget https://archive.apache.org/dist/hadoop/common/hadoop-3.2.1/hadoop-
3.2.1.tar.gz
Giải nén:
$ vim ~/hadoop/etc/hadoop/hadoop-env.sh
Mở file environment
PATH="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/
usr/local/games:/usr/local/hadoop/bin:/usr/local/hadoop/sbin"
dùng để xác định nơi hệ thống sẽ tìm kiếm các chương trình thực thi khi gõ
một lệnh trong dòng lệnh.
JAVA_HOME="/usr/lib/jvm/java-8-openjdk-amd64/jre"
$ hostname -I
Master: 192.168.10.128
Salve1: 192.168.10.133
Salve2: 192.168.10.134
Thêm địa chỉ ip của các máy vào cấu hình mạng trên máy hadoop-master
$ ssh-keygen -t rsa
Sao chép khóa SSH cho các user
$ ssh-copy-id hdoop@hadoop-master
$ ssh-copy-id hdoop@salve1
$ ssh-copy-id hdoop@salve2
Thêm
salve1
salve2
Sao chép cấu hình máy master cho các máy salve
$ source /etc/environment
$ start-dfs.sh
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export PDSH_RCMD_TYPE=ssh
Mở file yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop-master</value>
</property>
</configuration>
Máy salve1
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop-master</value>
</property>
</configuration>
Máy salve2
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop-master</value>
</property>
</configuration>
Chạy file yarn
$ start-yarn.sh