Hadoop Notes

Big Data နဲ႔ ပတ္သ က္ျပီး research လု ပ္ခ်င္သူမ်ားအတြက္ အဆင္ေျပေအာင္ Big Data Platform တစ္ခုျဖစ္တဲ့ Hadoop
Installation နဲ႔ ပတ္သက္ျပီး notes ထု တ္ထ ားတာပါ။
Hadoop ကို Linux operating system ေပၚမွာ install လု ပ္မွာပါ။ Commodity linux clusters ေပၚမွာ Big Data Platform ေ
ဆာက္မွာျဖစ္တဲ့အတြက္ computer ေတြလို ပါတယ္။ ကို ယ္ရဲ႕ cluster ေပၚမူ တည္ျပီး computer ေတြလို ပါတယ္။ cluster
မွာ computer ၅လံ ု း သံ ု းမယ္ ဆို ရင္ computer ၅ လံ ု းလို မွာပါ။ computer အမ်ားၾကီး မရွိလည္း အဆင္ေျပေအာင္ Virtual
Machine ကို သံ ု းပါမယ္။
ပထမဆံ ု း VMWare Workstation-12.5.0 ကို အရင္ install လု ပ္ပါမယ္။
VMware Workstation 12 ကို ဖြင့္လို က္ရင္ အေပၚက Figure အတို င္းေတြ႔ရမွာျဖစ္ပါတယ္။

Virtual machine create လု ပ္မွာျဖစ္ပါတယ္။ File -> New Virtual Machine … ကို သြားပါမယ္။
Dr. Kyar Nyo Aye

Typical configuration ကို ေရြးပါမယ္။ Next ကို ႏွိပ္ပါမယ္။
Virtual Machine create လု ပ္ျပီးမွ OS install လု ပ္မွာျဖစ္တဲ့အတြက္ I will install the operating system later ကို ေရြးပါမ
ယ္။ Next ကို ႏိွပ္ပါမယ္။
Dr. Kyar Nyo Aye

Guest Operating System က Linux ကို ေရြးပါမယ္။ Version က Ubuntu 64-bit ျဖစ္ပါတယ္။ Next ကို ႏွိပ္ပါမယ္။
Dr. Kyar Nyo Aye

Virtual machine name ကို Server1 လို ႔ေပးျပီး Location ကို ေတာ့ E:\Cluster\VirtualMachines\Server1 လို ႔ေပးထားပါ
တယ္။ Name နဲ႔ Location ကို ၾကိဳက္တ ာ ထားလို ႔ရပါတယ္။ Next ကို ႏွိပ္ပါမယ္။
Maximum disk size ကို 20 GB ထားပါတယ္။ Next ကို ႏွိပ္ပါမယ္။
Dr. Kyar Nyo Aye

Virtual machine ရဲ႕ setting ကို ျပထားတာပါ။ Memory ကို 1GB ထားပါတယ္။ ျပင္ခ်င္ရင္ Customize Hardware button ကို
ႏိွပ္ျပီး ျပင္ႏို င္ပါတယ္။ ျပီးရင္ Finish ႏိွပ္ပါမယ္။ Virtual Machine တစ္လံ ု း create လု ပ္ျပီးပါျပီ။
Edit virtual machine settings ကို ႏိွပ္ပါ။
Dr. Kyar Nyo Aye

Hardware tab မွာ CD/DVD (SATA) ကို ေရြးပါ။ ISO image file ကို ေရြးပါ။ Advanced… ကို ေရြးပါ။ SATA (0:1)
ကို ေရြးပါ။ OK ကို ႏွိပ္ပါ။ Operating System ကို ubuntu-18.04 သံ ု းပါမယ္။ OK ႏိွပ္ပါ။ VM ကို Power on ပါ။
Install Ubuntu ကို ႏိွပ္ပါ။
Dr. Kyar Nyo Aye

Keyboard Layout ကို English (US) ေရြးပါမယ္။ Continue ကို ႏွိပ္ပါမယ္။
Continue ကို ႏိွပ္ပါ။
Install Now ကို ႏိွပ္ပါ။
Dr. Kyar Nyo Aye

Dr. Kyar Nyo Aye

Continue ကို ႏွိပ္ပါမယ္။
Dr. Kyar Nyo Aye

Restart Now ကို ႏွိပ္ပါမယ္။
Dr. Kyar Nyo Aye

Ubuntu ရဲ႕ Desktop ျဖစ္ပါတယ္။ Ctrl + Alt + T ႏွိပ္ျပီး Terminal ကို သြားပါ။ User က hadoop ျဖစ္ျပီး Hostname က
server1 ျဖစ္ပါတယ္။
super user ေျပာင္းရန္ sudo su လို ႔ရို က္ပါ။ user hadoop ရဲ႕ password ကို ထည့္ပါ။
Dr. Kyar Nyo Aye

Installing Java on Ubuntu 18.04
Hadoop က Java နဲ႔ ေရးထားတဲ့ framework ျဖစ္တဲ့အတြက္ Hadoop Install လု ပ္မယ္ဆို Java လို ပါတယ္။ Java ကို
/usr/lib/jvm ေအာက္မွာ install လု ပ္ပါမယ္။ jdk1.8.0_172 နဲ႔ jre1.8.0_172 ကို install လု ပ္ပါမယ္။
အရ င္ဆံ ု း /usr/lib/jvm folder ေဆာက္ရပါမယ္။
mkdir –p /usr/lib/jvm
jdk နဲ႔ jre file ကို /usr/lib/jvm ေအာက္ကို ေရြ႕ပါမယ္။
mv jdk-8u172-linux-x64.tar.gz /usr/lib/jvm
mv jre-8u172-linux-x64.tar.gz /usr/lib/jvm
usr/lib/jvm ဆီကို သြားပါမယ္။
cd /usr/lib/jvm
archive file ေတြကို ျဖည္ပါမယ္။
tar xzf jdk-8u172-linux-x64.tar.gz

tar xzf jre-8u172-linux-x64.tar.gz
archive file ေတြကို ျဖည္ျပီးရင္ file ေတြက မလို ေတာ့ လို ႔ ဖ်က္လို႔ရတယ္။
rm jdk-8u172-linux-x64.tar.gz
rm jre-8u172-linux-x64.tar.gz
Dr. Kyar Nyo Aye

Java installation က ဘယ္ေနရာမွာလဲ ဆို တာ Ubuntu ကို ေျပာပါမယ္။
update-alternatives --install "/usr/bin/javac" "javac" "/usr/lib/jvm/jdk1.8.0_172/bin/javac" 1

update-alternatives --install "/usr/bin/java" "java" "/usr/lib/jvm/jre1.8.0_172/bin/java" 1
update-alternatives --set "javac" "/usr/lib/jvm/jdk1.8.0_172/bin/javac"
update-alternatives --set "java" "/usr/lib/jvm/jre1.8.0_172/bin/java"
Dr. Kyar Nyo Aye

echo "JAVA_HOME=/usr/lib/jvm/jdk1.8.0_172" >> /etc/profile
echo "PATH=$PATH:$JAVA_HOME/bin" >> /etc/profile
echo "export JAVA_HOME" >> /etc/profile
echo "export PATH" >> /etc/profile
. /etc/profile
Java installation successful ျဖစ္လားလို ႔ test လု ပ္ၾကည့္ပါမယ္။
java –version
javac –version
Dr. Kyar Nyo Aye

Installing and Configuring SSH
Hadoop cluster မွာ nodes ေတြကို manage လု ပ္ဖို႔ SSH access လို ပါတယ္။ အဲဒါေၾကာင့္ SSH install လု ပ္ဖို႔လို ပါတယ္။
အရ င္ဆံ ု း apt-get update လု ပ္ပါမယ္။ apt-get update ဆို တာ repositories ထဲက package lists ေတြကို download လု ပ္ျပီး ေ
နာက္ဆံ ု း version ျဖစ္ေအာင္လို႔ update လု ပ္တာ။ ျပီးေတာ့ apt-get upgrade လု ပ္ရပါမယ္။ apt-get upgrade ဆို တာကမွ ခု နက
update လု ပ္ထားတဲ့ package ေတြကို install လု ပ္ေပးတာ ျဖစ္တယ္။ apt-get install ssh ဆို တာ SSH ကို install လု ပ္သြားမွာ ျဖစ္တ
ယ္။
apt-get update
apt-get upgrade
apt-get install ssh
which ssh
which sshd
which ssh-keygen
Dr. Kyar Nyo Aye

RSA key pair ထု တ္မွာျဖစ္ပါတယ္။ Private key နဲ႔ Public key ထြက္ပါမယ္။
ssh-keygen –t rsa –P “”
-P ရဲ႕ ေနာက္မွာ password ေပးရမွာျဖစ္တယ္။ password less သံ ု းမွာျဖစ္တယ္။ password ေပးလို က္ရင္ cluster မွာ nodes
ေတြ communicate လု ပ္တိုင္း password ထည့ ္ေပးေနရမွာျဖစ္တယ္။
Dr. Kyar Nyo Aye

private key ကို /root/.ssh/id_rsa မွာသိမ္းျပီးေတာ့ public key ကို ေတာ့ /root/.ssh/id_rsa.pub မွာ သိမ္းပါတယ္။
public key ရဲ႕ content ကို /root/.ssh/authorized_keys ထဲကို copy ကူ းရပါမယ္။
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

localhost ကို ssh ေခၚၾကည့္ပါမယ္။ ျပီးရင္ exit နဲ႔ထြက္ပါမယ္
ssh localhost
exit
Dr. Kyar Nyo Aye

Hadoop Cluster မွာ master ရဲ႕ public key ကို slaves ရဲ႕ authorized_keys မွာ ထည့္ရမွာျဖစ္တယ္။ master node ကေန slave
nodes ေတြကို အလြယ္တ ကူ communicate လု ပ္လို႔ရေအာင္ပါ။ master ရဲ႕ public key id_rsa.pub ကို text editor မွာ ဖြင့္ျ
ပီး content ကို copy ကူ းျပီး slave node ရဲ႕ authorized_keys ထဲ ထည့္ရမွာျဖစ္တယ္။ authorized_keys file ကို လည္း text
editor မွာ ဖြင့္ထားရပါမယ္။ ျပီးရင္ master node ကေန slave ဆီကို ssh ေခၚလို ႔ရပါျပီ။
root@master:/home/hadoop# ssh slave
Installing Hadoop
Hadoop version 3.2.0 ကို သံ ု းပါမယ္။
archive file ကို ျဖည္ပါမယ္။
tar xvzf hadoop-3.2.0.tar.gz

chown –R 777 hadoop-3.2.0
chmod –R 777 hadoop-3.2.0
Dr. Kyar Nyo Aye

hadoop-3.2.0/etc/hadoop/hadoop-env.sh file မွာ JAVA_HOME ကို ျပင္ပါမယ္။ JAVA_HOME ကို ကို ယ့္စက္ရဲ႕ java
install လု ပ္ထားတဲ့ ေနရာကို ေျပာရမွာျဖစ္တယ္။ nano hadoop-env.sh နဲ႔ file ကို ဖြင့္ပါ။ export JAVA_HOME=$
{JAVA_HOME} လို ႔ေတြ႕ရမွာျဖစ္တယ္။ java ကို /usr/lib/jvm/jdk1.8.0_172 မွာ install လု ပ္ထားတာျဖစ္လို႔
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_172 လို ႔ေျပာင္းပါမယ္။
HDFS daemons ကို run မယ့္ user ကို သတ္မွတ္ ေပးတာျဖစ္ပါတယ္။ HDFS ကို operate လု ပ္မယ့္ user သီးသန္႔ရွိရင္ root ေန
ရာမွာ အဲဒီ user ကို ထည့္ရပါမယ္။
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
Ctrl + X ႏွိပ္ပါ။ ျပီးေတာ့ Y နိွပ္ပါ။
Yarn daemons ကို run မယ့္ user ကို သတ္မွတ္ ေပးတာျဖစ္ပါတယ္။ Yarn ကို operate လု ပ္မယ့္ user သီးသန္႔ရွိရင္ root ေနရာ
မွာ အဲဒီ user ကို ထည့္ရပါမယ္။ nano yarn-env.sh နဲ႔ file ကို ဖြင့္ပါ။
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
Dr. Kyar Nyo Aye

Dr. Kyar Nyo Aye
JAVA_HOME နဲ႔ HADOOP_HOME ကို environmental variable အျဖစ္ set လု ပ္ပါမယ္။ /root/.bashrc file ကို ဖြင့္ပါ။
JAVA_HOME, HADOOP_HOME နဲ႔ PATH ကို export လု ပ္ပါ။ .bashrc file မွာ ေျပာင္းသြားတာေတြကို system
ကသိေအာင္ source command ကို သံ ု းပါ။ hadoop version ကို ၾကိဳက္တဲ့ေနရာကေန ေခၚလို ႔ရပါျပီ။
nano ~/.bashrc
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_172
export HADOOP_HOME=/home/hadoop/hadoop-3.2.0
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source ~/.bashrc
Hadoop installation success ျဖစ္ မျဖစ္ သိေအာင္ hadoop version ကို ေခၚၾကည့္ပါ။
hadoop version
Hadoop Operation Modes

Hadoop cluster အလု ပ္လုပ္ရန္အတြက္ operation modes (၃) မ်ိဳးရွိပါတယ္။
1. Local/Standalone Mode
2. Pseudo Distributed Mode
3. Fully Distributed Mode
Local/Standalone Mode
Hadoop ကို default အေနနဲ႔ standalone mode မွာ configure လု ပ္ထားတာျဖစ္တယ္။ single java process အေနနဲ႔အလု ပ္လုပ္ပါတ
ယ္။ standalone mode မွာသာ အလု ပ္လုပ္မယ္ ဆို ရင္ configuration file ေတြကို ျပင္စရာမလို ပါ။
Pseudo Distributed Mode
Dr. Kyar Nyo Aye

စက္တ စ္လံ ု းထဲမွာပဲ distributed လု ပ္ေနတယ္လို႔ထင္ေအာင္ simulation လု ပ္ထားတာျဖစ္ပါတယ္။ hdfs, yarn, mapreduce တို ႔လို
hadoop daemon ေတြက သီးျခား java process အေနနဲ႔ အလု ပ္လုပ္ပါတယ္။ ဒီ mode ကို MapReduce application
development လု ပ္ဖို႔အတြက္ သံ ု းပါတယ္။
Fully Distributed Mode

ဒီ mode မွာေတာ့ hadoop ကို အနည္းဆံ ု း စက္ႏွစ္လံ ု း သံ ု းျပီး cluster တစ္ခုအေနနဲ႔ create လု ပ္ျပီးသံ ု းမွာျဖစ္ပါတယ္။
Hadoop in Standalone Mode

Hadoop က default အေနနဲ႔ Standalone Mode မွာ လု ပ္တာျဖစ္တဲ့အတြက္ configuration file ေတြျပင္စရာမလို ပါ။ ပထမ
ဆံ ု း hadoop ရွိမရွိ သိေအာင္ hadoop version ေခၚၾကည့္ပါမယ္။ /root/.bashrc file ကို ဖြင့္ပါ။ JAVA_HOME,
HADOOP_HOME နဲ႔ PATH ကို export လု ပ္ပါ။ .bashrc file မွာ ေျပာင္းသြားတာေတြကို system ကသိေအာင္
source command ကို သံ ု းပါ။ hadoop version ကို ၾကိဳက္တဲ့ေနရာကေန ေခၚလို ႔ရပါျပီ။
nano ~/.bashrc
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_172
export HADOOP_HOME=/home/hadoop/hadoop-3.2.0
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source ~/.bashrc
hadoop version
Dr. Kyar Nyo Aye

WordCount MapReduce program ကို run ၾကည့္ပါမယ္။ ဒီ program က hadoop installation လု ပ္ကတည္းက hadoop-
mapreduce-examples-3.2.0.jar file ထဲမွာ ပါျပီးသားျဖစ္တယ္။ jar file က hadoop-3.2.0/share/hadoop/mapreduce ေအာ
က္မွာရွိပါတယ္။ Wordcount program က input အေနနဲ႔ေပးလို က္တဲ့ files ေတြထဲက word ေတြကို ဘယ္ႏွစ္ၾကိမ္ ပါလဲ
လို ႔ count လု ပ္ေပးမွာ ျဖစ္ပါတယ္။ output file ထု တ္ေပးမွာျဖစ္တယ္။ ဒါေၾကာင့္ wordcount လု ပ္ခ်င္တဲ့ file ေတြအတြက္
input directory ေဆာက္ပါမယ္။
mkdir input
hadoop installation မွာ ပါတဲ့ text file ေတြကို input file အေနနဲ႔ သံ ု းခ်င္လို႔ text files ေတြကို input directory ေ
အာက္ကို copy ကူ းပါမယ္။
cp hadoop-3.2.0/*.txt input
ls –l input
hadoop ရဲ႕ jar command ကို သံ ု းျပီး run ပါမယ္။
hadoop jar hadoop-3.2.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar wordcount input

output
Dr. Kyar Nyo Aye

output file ကို ျပန္ၾကည့္လို ႔ရပါတယ္။
ls output
head -25 output/part-r-00000
Dr. Kyar Nyo Aye

Hadoop in Pseudo Distributed Mode
Hadoop ကို Pseudo Distributed Mode မွာ အလု ပ္လုပ္ဖို႔ configuration file ေတြျပင္ရပါမယ္။ file ေတြက hadoop-
3.2.0/etc/hadoop ေအာက္မွာရွိပါတယ္။
core-site.xml
အရ င္ဆံ ု း core-site.xml file ကို ျပင္ပါမယ္။
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
property fs.defaultFS က HDFS file system URI ကို ေျပာတာျဖစ္တယ္။ URI ရဲ႕ host က NameNode ရဲ႕ hostname
(or) IP address ျဖစ္ျပီး port ကေတာ့ NameNode က ဘယ္ port ကေန RPC ကို listen လု ပ္ေနလဲဆို တာ ေျပာတာျဖစ္တယ္။
Dr. Kyar Nyo Aye

Port မေျပာထားဘူ းဆို ရင္ default က 8020 ျဖစ္ပါတယ္။ Pseudo Distributed Mode က single machine ကပဲ distributed ပံ ု
စံ အလု ပ္လုပ္တာ ျဖစ္တဲ့အတြက္ NameNode က localhost ျဖစ္ေနတာျဖစ္တယ္။ port ကေတာ့ 9000 ျဖစ္တယ္။
hdfs-site.xml
ဒီ xml file မွာ data replication ၊ local file system မွာ namenode နဲ႔ datanode နဲ႔ပတ္သက္ျပီး ဘယ္မွာသိမ္းမလဲဆို တဲ့
information ေတြပါမွာျဖစ္တယ္။ Hadoop infrastructure ကို ဘယ္ေနရာမွာ သိမ္းမလဲဆို တာ ဒီ file မွာ သတ္မွတ္ ေပးလို ႔ရပါတ
ယ္။
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
Dr. Kyar Nyo Aye

<value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</property>
<property>
<name>dfs.namenode.checkpoint.dir</name>
<value>file:///home/hadoop/hadoopdata/hdfs/secondarynamenode</value>
</property>
</configuration>
property dfs.replication က HDFS block တစ္ခုကို replica ဘယ္ေလာက္ထ ားမလဲ ေျပာတာျဖစ္တယ္။ single machine ျဖစ္တဲ့အ
တြက္ 1 ပဲျဖစ္မယ္။ dfs.namenode.name.dir က Namenode က filesystem metadata (the edit log and the filesystem
image) ေတြကို ဘယ္မွာသိမ္းမလဲ ေျပာတာ။ dfs.datanode.data.dir က datanode က block ေတြကို ဘယ္မွာသိမ္းမ
လဲေျပာတာျဖစ္တယ္။ dfs.namenode.checkpoint.dir က secondary namenode က filesystem ရဲ႕ checkpoint ေတြ
ကို ဘယ္မွာသိမ္းမလဲေျပာတာျဖစ္တယ္။
yarn-site.xml
Hadoop မွာ yarn ကို configure လု ပ္ဖို႔အတြက္ သံ ု းတာျဖစ္တယ္။
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
Dr. Kyar Nyo Aye

<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
property yarn.resourcemanager.hostname က resource manager run မယ့္ စက္ရဲ႕ hostname ကို သတ္မွတ္တ ာျဖစ္တယ္။
yarn.nodemanager.aux-services က node manager က run ေပးတဲ့ auxiliary services ေတြကို သတ္မွတ္တ ာျဖစ္တယ္။
mapred-site.xml
ဘယ္ MapReduce framework ကို သံ ု းလဲဆို တာ ေဖာ္ျပဖို ႔အတြက္ ျဖစ္တယ္။ mapred-site.xml file ကို ဖြင့္ျပီး ျပင္ပါ
မယ္။
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
Dr. Kyar Nyo Aye

<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=/home/hadoop/Hadoop-3.2.0</value>
</property>
<property>
<name>mapreduce.reduce.env</name>
</property>
<property>
<name>mapreduce.reduce.env</name>
</property>
<property>
<name>mapreduce.application.classpath</name>
<value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*,
$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*,
$HADOOP_MAPRED_HOME/share/hadoop/common/*,
$HADOOP_MAPRED_HOME/share/hadoop/common/lib/*,
$HADOOP_MAPRED_HOME/share/hadoop/yarn/*,
$HADOOP_MAPRED_HOME/share/hadoop/yarn/lib/*,
$HADOOP_MAPRED_HOME/share/hadoop/hdfs/*,
$HADOOP_MAPRED_HOME/share/hadoop/hdfs/lib/*</value>
</property>
</configuration>
Dr. Kyar Nyo Aye

Formatting the HDFS filesystem
HDFS ကို ပထမဆံ ု းအၾကိမ္ မသံ ု းခင္မွာ filesystem ကို format ခ်ရပါမယ္။
hdfs namenode -format
Starting and stopping the daemons

HDFS, YARN, နဲ႔ MapReduce daemons ေတြ စတင္ရန္ အတြက္ ေအာက္ပါ command ေတြကို သံ ု းပါမယ္။
Namenode, datanode, secondary namenode daemon ေတြ စတင္ရန္အတြက္ start-dfs.sh သံ ု းပါမယ္။ ျပီးရင္ jps ေ
Dr. Kyar Nyo Aye

ခၚၾကည့္ပါ။ jps ေခၚလို ႔မရရင္ openjdk install လု ပ္ပါ။ jps ေခၚၾကည့္ရင္ Namenode, datanode, secondary
namenode daemon ေတြ run ေနတာ ေတြ႔ပါမယ္။
start-dfs.sh
apt-get install openjdk-11-jdk
jps
start-yarn.sh command ေခၚၾကည့္ပါ။ ျပီးရင္ jps ေခၚၾကည့္ပါ။ Resource Manager နဲ႔ Node Manager daemons
ေတြ အလု ပ္လုပ္ေနတာေတြ႔ပါမယ္။
start-yarn.sh
jps
Dr. Kyar Nyo Aye

mr-jobhistory-daemon.sh start historyserver command ေခၚၾကည့္ပါ။ ျပီးရင္ jps ေခၚၾကည့္ပါ။ Job History
Server အလု ပ္လုပ္ေနတာေတြ႔ပါမယ္။
mr-jobhistory-daemon.sh start historyserver (or)

mapred historyserver start
jps
Dr. Kyar Nyo Aye

WordCount program ကို Pseudo Distributed Mode မွာ run ၾကည့္ပါမယ္။ File system က HDFS သံ ု းမွာ ျဖစ္တဲ့အတြက္
input directory ကို HDFS မွာ ေဆာက္ပါမယ္။
hadoop fs -ls /
hadoop fs -mkdir /input
hadoop fs -ls /
hadoop fs -put hadoop-3.2.0/*.txt /input
hadoop fs –ls /input
yarn jar hadoop-3.2.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar wordcount /input

output
Dr. Kyar Nyo Aye

output directory က HDFS မွာရွိပါတယ္။ output file ေတြကို ၾကည့္ပါမယ္။
hadoop fs -ls /user/root/output

hadoop fs –cat /user/root/output/part-r-00000
Dr. Kyar Nyo Aye

Accessing Hadoop on browser
Hadoop ကို browser ကေနလည္း access လု ပ္ႏို င္ပါတယ္။
namenode's HTTP server address and port
Dr. Kyar Nyo Aye

http://localhost:9870
secondary namenode's HTTP server address and port

Dr. Kyar Nyo Aye

datanode's HTTP server address and port
MapReduce job history server's address and port

resource manager's HTTP server address and port

Dr. Kyar Nyo Aye

node manager's HTTP server address and port
HDFS, YARN, နဲ႔ MapReduce daemons ေတြကို stop လု ပ္ပါမယ္။
mr-jobhistory-daemon.sh stop historyserver

stop-yarn.sh
stop-dfs.sh
Dr. Kyar Nyo Aye

Hadoop Notes

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Hadoop Notes

Uploaded by

Copyright:

Available Formats

Big Data နဲ႔ ပတ္သ က္ျပီး research လု ပ္ခ်င္သူမ်ားအတြက္ အဆင္ေျပေအာင္ Big Data Platform တစ္ခုျဖစ္တဲ့ Hadoop

Installation နဲ႔ ပတ္သက္ျပီး notes ထု တ္ထ ားတာပါ။

ပထမဆံ ု း VMWare Workstation-12.5.0 ကို အရင္ install လု ပ္ပါမယ္။

VMware Workstation 12 ကို ဖြင့္လို က္ရင္ အေပၚက Figure အတို င္းေတြ႔ရမွာျဖစ္ပါတယ္။

Dr. Kyar Nyo Aye

Dr. Kyar Nyo Aye

Dr. Kyar Nyo Aye

Maximum disk size ကို 20 GB ထားပါတယ္။ Next ကို ႏွိပ္ပါမယ္။

Dr. Kyar Nyo Aye

Edit virtual machine settings ကို ႏိွပ္ပါ။

Dr. Kyar Nyo Aye

Install Ubuntu ကို ႏိွပ္ပါ။

Dr. Kyar Nyo Aye

Continue ကို ႏိွပ္ပါ။

Install Now ကို ႏိွပ္ပါ။

Dr. Kyar Nyo Aye

Continue ကို ႏိွပ္ပါ။

Dr. Kyar Nyo Aye

Dr. Kyar Nyo Aye

Dr. Kyar Nyo Aye

Dr. Kyar Nyo Aye

အရ င္ဆံ ု း /usr/lib/jvm folder ေဆာက္ရပါမယ္။

jdk နဲ႔ jre file ကို /usr/lib/jvm ေအာက္ကို ေရြ႕ပါမယ္။

tar xzf jdk-8u172-linux-x64.tar.gz

Dr. Kyar Nyo Aye

update-alternatives --install "/usr/bin/javac" "javac" "/usr/lib/jvm/jdk1.8.0_172/bin/javac" 1

Dr. Kyar Nyo Aye

Dr. Kyar Nyo Aye

Dr. Kyar Nyo Aye

ေတြ communicate လု ပ္တိုင္း password ထည့ ္ေပးေနရမွာျဖစ္တယ္။

Dr. Kyar Nyo Aye

public key ရဲ႕ content ကို /root/.ssh/authorized_keys ထဲကို copy ကူ းရပါမယ္။

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

Dr. Kyar Nyo Aye

root@master:/home/hadoop# ssh slave

archive file ကို ျဖည္ပါမယ္။

tar xvzf hadoop-3.2.0.tar.gz

Dr. Kyar Nyo Aye

{JAVA_HOME} လို ႔ေတြ႕ရမွာျဖစ္တယ္။ java ကို /usr/lib/jvm/jdk1.8.0_172 မွာ install လု ပ္ထားတာျဖစ္လို႔

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_172 လို ႔ေျပာင္းပါမယ္။

ရာမွာ အဲဒီ user ကို ထည့္ရပါမယ္။

Dr. Kyar Nyo Aye

Hadoop Operation Modes

Pseudo Distributed Mode

Dr. Kyar Nyo Aye

development လု ပ္ဖို႔အတြက္ သံ ု းပါတယ္။

Fully Distributed Mode

Hadoop in Standalone Mode

Dr. Kyar Nyo Aye

mapreduce-examples-3.2.0.jar file ထဲမွာ ပါျပီးသားျဖစ္တယ္။ jar file က hadoop-3.2.0/share/hadoop/mapreduce ေအာ

input directory ေဆာက္ပါမယ္။

အာက္ကို copy ကူ းပါမယ္။

hadoop jar hadoop-3.2.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar wordcount input

Dr. Kyar Nyo Aye

Dr. Kyar Nyo Aye

Dr. Kyar Nyo Aye

Dr. Kyar Nyo Aye

image) ေတြကို ဘယ္မွာသိမ္းမလဲ ေျပာတာ။ dfs.datanode.data.dir က datanode က block ေတြကို ဘယ္မွာသိမ္းမ

လဲေျပာတာျဖစ္တယ္။ dfs.namenode.checkpoint.dir က secondary namenode က filesystem ရဲ႕ checkpoint ေတြ

Dr. Kyar Nyo Aye

Dr. Kyar Nyo Aye

Dr. Kyar Nyo Aye

hdfs namenode -format