You are on page 1of 38

Big Data နဲ႔ ပတ္သ က္ျပီး research လု ပ္ခ်င္သူမ်ားအတြက္ အဆင္ေျပေအာင္ Big Data Platform တစ္ခုျဖစ္တဲ့ Hadoop

Installation နဲ႔ ပတ္သက္ျပီး notes ထု တ္ထ ားတာပါ။

Hadoop ကို Linux operating system ေပၚမွာ install လု ပ္မွာပါ။ Commodity linux clusters ေပၚမွာ Big Data Platform ေ
ဆာက္မွာျဖစ္တဲ့အတြက္ computer ေတြလို ပါတယ္။ ကို ယ္ရဲ႕ cluster ေပၚမူ တည္ျပီး computer ေတြလို ပါတယ္။ cluster
မွာ computer ၅လံ ု း သံ ု းမယ္ ဆို ရင္ computer ၅ လံ ု းလို မွာပါ။ computer အမ်ားၾကီး မရွိလည္း အဆင္ေျပေအာင္ Virtual
Machine ကို သံ ု းပါမယ္။

ပထမဆံ ု း VMWare Workstation-12.5.0 ကို အရင္ install လု ပ္ပါမယ္။

VMware Workstation 12 ကို ဖြင့္လို က္ရင္ အေပၚက Figure အတို င္းေတြ႔ရမွာျဖစ္ပါတယ္။


Virtual machine create လု ပ္မွာျဖစ္ပါတယ္။ File -> New Virtual Machine … ကို သြားပါမယ္။

Dr. Kyar Nyo Aye


Typical configuration ကို ေရြးပါမယ္။ Next ကို ႏွိပ္ပါမယ္။

Virtual Machine create လု ပ္ျပီးမွ OS install လု ပ္မွာျဖစ္တဲ့အတြက္ I will install the operating system later ကို ေရြးပါမ
ယ္။ Next ကို ႏိွပ္ပါမယ္။

Dr. Kyar Nyo Aye


Guest Operating System က Linux ကို ေရြးပါမယ္။ Version က Ubuntu 64-bit ျဖစ္ပါတယ္။ Next ကို ႏွိပ္ပါမယ္။

Dr. Kyar Nyo Aye


Virtual machine name ကို Server1 လို ႔ေပးျပီး Location ကို ေတာ့ E:\Cluster\VirtualMachines\Server1 လို ႔ေပးထားပါ
တယ္။ Name နဲ႔ Location ကို ၾကိဳက္တ ာ ထားလို ႔ရပါတယ္။ Next ကို ႏွိပ္ပါမယ္။

Maximum disk size ကို 20 GB ထားပါတယ္။ Next ကို ႏွိပ္ပါမယ္။

Dr. Kyar Nyo Aye


Virtual machine ရဲ႕ setting ကို ျပထားတာပါ။ Memory ကို 1GB ထားပါတယ္။ ျပင္ခ်င္ရင္ Customize Hardware button ကို
ႏိွပ္ျပီး ျပင္ႏို င္ပါတယ္။ ျပီးရင္ Finish ႏိွပ္ပါမယ္။ Virtual Machine တစ္လံ ု း create လု ပ္ျပီးပါျပီ။

Edit virtual machine settings ကို ႏိွပ္ပါ။

Dr. Kyar Nyo Aye


Hardware tab မွာ CD/DVD (SATA) ကို ေရြးပါ။ ISO image file ကို ေရြးပါ။ Advanced… ကို ေရြးပါ။ SATA (0:1)
ကို ေရြးပါ။ OK ကို ႏွိပ္ပါ။ Operating System ကို ubuntu-18.04 သံ ု းပါမယ္။ OK ႏိွပ္ပါ။ VM ကို Power on ပါ။

Install Ubuntu ကို ႏိွပ္ပါ။

Dr. Kyar Nyo Aye


Keyboard Layout ကို English (US) ေရြးပါမယ္။ Continue ကို ႏွိပ္ပါမယ္။

Continue ကို ႏိွပ္ပါ။

Install Now ကို ႏိွပ္ပါ။

Dr. Kyar Nyo Aye


Continue ကို ႏိွပ္ပါ။

Continue ကို ႏိွပ္ပါ။

Dr. Kyar Nyo Aye


Continue ကို ႏွိပ္ပါမယ္။

Dr. Kyar Nyo Aye


Restart Now ကို ႏွိပ္ပါမယ္။

Dr. Kyar Nyo Aye


Ubuntu ရဲ႕ Desktop ျဖစ္ပါတယ္။ Ctrl + Alt + T ႏွိပ္ျပီး Terminal ကို သြားပါ။ User က hadoop ျဖစ္ျပီး Hostname က
server1 ျဖစ္ပါတယ္။

super user ေျပာင္းရန္ sudo su လို ႔ရို က္ပါ။ user hadoop ရဲ႕ password ကို ထည့္ပါ။

Dr. Kyar Nyo Aye


Installing Java on Ubuntu 18.04
Hadoop က Java နဲ႔ ေရးထားတဲ့ framework ျဖစ္တဲ့အတြက္ Hadoop Install လု ပ္မယ္ဆို Java လို ပါတယ္။ Java ကို
/usr/lib/jvm ေအာက္မွာ install လု ပ္ပါမယ္။ jdk1.8.0_172 နဲ႔ jre1.8.0_172 ကို install လု ပ္ပါမယ္။

အရ င္ဆံ ု း /usr/lib/jvm folder ေဆာက္ရပါမယ္။

mkdir –p /usr/lib/jvm

jdk နဲ႔ jre file ကို /usr/lib/jvm ေအာက္ကို ေရြ႕ပါမယ္။

mv jdk-8u172-linux-x64.tar.gz /usr/lib/jvm
mv jre-8u172-linux-x64.tar.gz /usr/lib/jvm
usr/lib/jvm ဆီကို သြားပါမယ္။

cd /usr/lib/jvm
archive file ေတြကို ျဖည္ပါမယ္။

tar xzf jdk-8u172-linux-x64.tar.gz


tar xzf jre-8u172-linux-x64.tar.gz
archive file ေတြကို ျဖည္ျပီးရင္ file ေတြက မလို ေတာ့ လို ႔ ဖ်က္လို႔ရတယ္။

rm jdk-8u172-linux-x64.tar.gz
rm jre-8u172-linux-x64.tar.gz

Dr. Kyar Nyo Aye


Java installation က ဘယ္ေနရာမွာလဲ ဆို တာ Ubuntu ကို ေျပာပါမယ္။

update-alternatives --install "/usr/bin/javac" "javac" "/usr/lib/jvm/jdk1.8.0_172/bin/javac" 1


update-alternatives --install "/usr/bin/java" "java" "/usr/lib/jvm/jre1.8.0_172/bin/java" 1
update-alternatives --set "javac" "/usr/lib/jvm/jdk1.8.0_172/bin/javac"
update-alternatives --set "java" "/usr/lib/jvm/jre1.8.0_172/bin/java"

Dr. Kyar Nyo Aye


echo "JAVA_HOME=/usr/lib/jvm/jdk1.8.0_172" >> /etc/profile
echo "PATH=$PATH:$JAVA_HOME/bin" >> /etc/profile
echo "export JAVA_HOME" >> /etc/profile
echo "export PATH" >> /etc/profile
. /etc/profile
Java installation successful ျဖစ္လားလို ႔ test လု ပ္ၾကည့္ပါမယ္။

java –version
javac –version

Dr. Kyar Nyo Aye


Installing and Configuring SSH
Hadoop cluster မွာ nodes ေတြကို manage လု ပ္ဖို႔ SSH access လို ပါတယ္။ အဲဒါေၾကာင့္ SSH install လု ပ္ဖို႔လို ပါတယ္။

အရ င္ဆံ ု း apt-get update လု ပ္ပါမယ္။ apt-get update ဆို တာ repositories ထဲက package lists ေတြကို download လု ပ္ျပီး ေ

နာက္ဆံ ု း version ျဖစ္ေအာင္လို႔ update လု ပ္တာ။ ျပီးေတာ့ apt-get upgrade လု ပ္ရပါမယ္။ apt-get upgrade ဆို တာကမွ ခု နက

update လု ပ္ထားတဲ့ package ေတြကို install လု ပ္ေပးတာ ျဖစ္တယ္။ apt-get install ssh ဆို တာ SSH ကို install လု ပ္သြားမွာ ျဖစ္တ

ယ္။

apt-get update
apt-get upgrade
apt-get install ssh
which ssh
which sshd
which ssh-keygen

Dr. Kyar Nyo Aye


RSA key pair ထု တ္မွာျဖစ္ပါတယ္။ Private key နဲ႔ Public key ထြက္ပါမယ္။

ssh-keygen –t rsa –P “”
-P ရဲ႕ ေနာက္မွာ password ေပးရမွာျဖစ္တယ္။ password less သံ ု းမွာျဖစ္တယ္။ password ေပးလို က္ရင္ cluster မွာ nodes

ေတြ communicate လု ပ္တိုင္း password ထည့ ္ေပးေနရမွာျဖစ္တယ္။

Dr. Kyar Nyo Aye


private key ကို /root/.ssh/id_rsa မွာသိမ္းျပီးေတာ့ public key ကို ေတာ့ /root/.ssh/id_rsa.pub မွာ သိမ္းပါတယ္။

public key ရဲ႕ content ကို /root/.ssh/authorized_keys ထဲကို copy ကူ းရပါမယ္။

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys


localhost ကို ssh ေခၚၾကည့္ပါမယ္။ ျပီးရင္ exit နဲ႔ထြက္ပါမယ္

ssh localhost
exit

Dr. Kyar Nyo Aye


Hadoop Cluster မွာ master ရဲ႕ public key ကို slaves ရဲ႕ authorized_keys မွာ ထည့္ရမွာျဖစ္တယ္။ master node ကေန slave

nodes ေတြကို အလြယ္တ ကူ communicate လု ပ္လို႔ရေအာင္ပါ။ master ရဲ႕ public key id_rsa.pub ကို text editor မွာ ဖြင့္ျ

ပီး content ကို copy ကူ းျပီး slave node ရဲ႕ authorized_keys ထဲ ထည့္ရမွာျဖစ္တယ္။ authorized_keys file ကို လည္း text

editor မွာ ဖြင့္ထားရပါမယ္။ ျပီးရင္ master node ကေန slave ဆီကို ssh ေခၚလို ႔ရပါျပီ။

root@master:/home/hadoop# ssh slave

Installing Hadoop
Hadoop version 3.2.0 ကို သံ ု းပါမယ္။

archive file ကို ျဖည္ပါမယ္။

tar xvzf hadoop-3.2.0.tar.gz


chown –R 777 hadoop-3.2.0
chmod –R 777 hadoop-3.2.0

Dr. Kyar Nyo Aye


hadoop-3.2.0/etc/hadoop/hadoop-env.sh file မွာ JAVA_HOME ကို ျပင္ပါမယ္။ JAVA_HOME ကို ကို ယ့္စက္ရဲ႕ java

install လု ပ္ထားတဲ့ ေနရာကို ေျပာရမွာျဖစ္တယ္။ nano hadoop-env.sh နဲ႔ file ကို ဖြင့္ပါ။ export JAVA_HOME=$

{JAVA_HOME} လို ႔ေတြ႕ရမွာျဖစ္တယ္။ java ကို /usr/lib/jvm/jdk1.8.0_172 မွာ install လု ပ္ထားတာျဖစ္လို႔

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_172 လို ႔ေျပာင္းပါမယ္။

HDFS daemons ကို run မယ့္ user ကို သတ္မွတ္ ေပးတာျဖစ္ပါတယ္။ HDFS ကို operate လု ပ္မယ့္ user သီးသန္႔ရွိရင္ root ေန

ရာမွာ အဲဒီ user ကို ထည့္ရပါမယ္။

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
Ctrl + X ႏွိပ္ပါ။ ျပီးေတာ့ Y နိွပ္ပါ။

Yarn daemons ကို run မယ့္ user ကို သတ္မွတ္ ေပးတာျဖစ္ပါတယ္။ Yarn ကို operate လု ပ္မယ့္ user သီးသန္႔ရွိရင္ root ေနရာ

မွာ အဲဒီ user ကို ထည့္ရပါမယ္။ nano yarn-env.sh နဲ႔ file ကို ဖြင့္ပါ။

export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

Dr. Kyar Nyo Aye


Dr. Kyar Nyo Aye
JAVA_HOME နဲ႔ HADOOP_HOME ကို environmental variable အျဖစ္ set လု ပ္ပါမယ္။ /root/.bashrc file ကို ဖြင့္ပါ။

JAVA_HOME, HADOOP_HOME နဲ႔ PATH ကို export လု ပ္ပါ။ .bashrc file မွာ ေျပာင္းသြားတာေတြကို system

ကသိေအာင္ source command ကို သံ ု းပါ။ hadoop version ကို ၾကိဳက္တဲ့ေနရာကေန ေခၚလို ႔ရပါျပီ။

nano ~/.bashrc
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_172
export HADOOP_HOME=/home/hadoop/hadoop-3.2.0
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source ~/.bashrc
Hadoop installation success ျဖစ္ မျဖစ္ သိေအာင္ hadoop version ကို ေခၚၾကည့္ပါ။

hadoop version

Hadoop Operation Modes


Hadoop cluster အလု ပ္လုပ္ရန္အတြက္ operation modes (၃) မ်ိဳးရွိပါတယ္။

1. Local/Standalone Mode
2. Pseudo Distributed Mode
3. Fully Distributed Mode

Local/Standalone Mode
Hadoop ကို default အေနနဲ႔ standalone mode မွာ configure လု ပ္ထားတာျဖစ္တယ္။ single java process အေနနဲ႔အလု ပ္လုပ္ပါတ

ယ္။ standalone mode မွာသာ အလု ပ္လုပ္မယ္ ဆို ရင္ configuration file ေတြကို ျပင္စရာမလို ပါ။

Pseudo Distributed Mode

Dr. Kyar Nyo Aye


စက္တ စ္လံ ု းထဲမွာပဲ distributed လု ပ္ေနတယ္လို႔ထင္ေအာင္ simulation လု ပ္ထားတာျဖစ္ပါတယ္။ hdfs, yarn, mapreduce တို ႔လို

hadoop daemon ေတြက သီးျခား java process အေနနဲ႔ အလု ပ္လုပ္ပါတယ္။ ဒီ mode ကို MapReduce application

development လု ပ္ဖို႔အတြက္ သံ ု းပါတယ္။

Fully Distributed Mode


ဒီ mode မွာေတာ့ hadoop ကို အနည္းဆံ ု း စက္ႏွစ္လံ ု း သံ ု းျပီး cluster တစ္ခုအေနနဲ႔ create လု ပ္ျပီးသံ ု းမွာျဖစ္ပါတယ္။

Hadoop in Standalone Mode


Hadoop က default အေနနဲ႔ Standalone Mode မွာ လု ပ္တာျဖစ္တဲ့အတြက္ configuration file ေတြျပင္စရာမလို ပါ။ ပထမ

ဆံ ု း hadoop ရွိမရွိ သိေအာင္ hadoop version ေခၚၾကည့္ပါမယ္။ /root/.bashrc file ကို ဖြင့္ပါ။ JAVA_HOME,

HADOOP_HOME နဲ႔ PATH ကို export လု ပ္ပါ။ .bashrc file မွာ ေျပာင္းသြားတာေတြကို system ကသိေအာင္

source command ကို သံ ု းပါ။ hadoop version ကို ၾကိဳက္တဲ့ေနရာကေန ေခၚလို ႔ရပါျပီ။

nano ~/.bashrc
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_172
export HADOOP_HOME=/home/hadoop/hadoop-3.2.0
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source ~/.bashrc
hadoop version

Dr. Kyar Nyo Aye


WordCount MapReduce program ကို run ၾကည့္ပါမယ္။ ဒီ program က hadoop installation လု ပ္ကတည္းက hadoop-

mapreduce-examples-3.2.0.jar file ထဲမွာ ပါျပီးသားျဖစ္တယ္။ jar file က hadoop-3.2.0/share/hadoop/mapreduce ေအာ

က္မွာရွိပါတယ္။ Wordcount program က input အေနနဲ႔ေပးလို က္တဲ့ files ေတြထဲက word ေတြကို ဘယ္ႏွစ္ၾကိမ္ ပါလဲ

လို ႔ count လု ပ္ေပးမွာ ျဖစ္ပါတယ္။ output file ထု တ္ေပးမွာျဖစ္တယ္။ ဒါေၾကာင့္ wordcount လု ပ္ခ်င္တဲ့ file ေတြအတြက္

input directory ေဆာက္ပါမယ္။

mkdir input
hadoop installation မွာ ပါတဲ့ text file ေတြကို input file အေနနဲ႔ သံ ု းခ်င္လို႔ text files ေတြကို input directory ေ

အာက္ကို copy ကူ းပါမယ္။

cp hadoop-3.2.0/*.txt input
ls –l input
hadoop ရဲ႕ jar command ကို သံ ု းျပီး run ပါမယ္။

hadoop jar hadoop-3.2.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar wordcount input


output

Dr. Kyar Nyo Aye


output file ကို ျပန္ၾကည့္လို ႔ရပါတယ္။

ls output
head -25 output/part-r-00000

Dr. Kyar Nyo Aye


Hadoop in Pseudo Distributed Mode
Hadoop ကို Pseudo Distributed Mode မွာ အလု ပ္လုပ္ဖို႔ configuration file ေတြျပင္ရပါမယ္။ file ေတြက hadoop-

3.2.0/etc/hadoop ေအာက္မွာရွိပါတယ္။

core-site.xml
အရ င္ဆံ ု း core-site.xml file ကို ျပင္ပါမယ္။

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
property fs.defaultFS က HDFS file system URI ကို ေျပာတာျဖစ္တယ္။ URI ရဲ႕ host က NameNode ရဲ႕ hostname

(or) IP address ျဖစ္ျပီး port ကေတာ့ NameNode က ဘယ္ port ကေန RPC ကို listen လု ပ္ေနလဲဆို တာ ေျပာတာျဖစ္တယ္။

Dr. Kyar Nyo Aye


Port မေျပာထားဘူ းဆို ရင္ default က 8020 ျဖစ္ပါတယ္။ Pseudo Distributed Mode က single machine ကပဲ distributed ပံ ု

စံ အလု ပ္လုပ္တာ ျဖစ္တဲ့အတြက္ NameNode က localhost ျဖစ္ေနတာျဖစ္တယ္။ port ကေတာ့ 9000 ျဖစ္တယ္။

hdfs-site.xml
ဒီ xml file မွာ data replication ၊ local file system မွာ namenode နဲ႔ datanode နဲ႔ပတ္သက္ျပီး ဘယ္မွာသိမ္းမလဲဆို တဲ့

information ေတြပါမွာျဖစ္တယ္။ Hadoop infrastructure ကို ဘယ္ေနရာမွာ သိမ္းမလဲဆို တာ ဒီ file မွာ သတ္မွတ္ ေပးလို ႔ရပါတ

ယ္။

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>

Dr. Kyar Nyo Aye


<value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</property>
<property>
<name>dfs.namenode.checkpoint.dir</name>
<value>file:///home/hadoop/hadoopdata/hdfs/secondarynamenode</value>
</property>
</configuration>
property dfs.replication က HDFS block တစ္ခုကို replica ဘယ္ေလာက္ထ ားမလဲ ေျပာတာျဖစ္တယ္။ single machine ျဖစ္တဲ့အ

တြက္ 1 ပဲျဖစ္မယ္။ dfs.namenode.name.dir က Namenode က filesystem metadata (the edit log and the filesystem

image) ေတြကို ဘယ္မွာသိမ္းမလဲ ေျပာတာ။ dfs.datanode.data.dir က datanode က block ေတြကို ဘယ္မွာသိမ္းမ

လဲေျပာတာျဖစ္တယ္။ dfs.namenode.checkpoint.dir က secondary namenode က filesystem ရဲ႕ checkpoint ေတြ

ကို ဘယ္မွာသိမ္းမလဲေျပာတာျဖစ္တယ္။

yarn-site.xml
Hadoop မွာ yarn ကို configure လု ပ္ဖို႔အတြက္ သံ ု းတာျဖစ္တယ္။

<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>

Dr. Kyar Nyo Aye


<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
property yarn.resourcemanager.hostname က resource manager run မယ့္ စက္ရဲ႕ hostname ကို သတ္မွတ္တ ာျဖစ္တယ္။

yarn.nodemanager.aux-services က node manager က run ေပးတဲ့ auxiliary services ေတြကို သတ္မွတ္တ ာျဖစ္တယ္။

mapred-site.xml
ဘယ္ MapReduce framework ကို သံ ု းလဲဆို တာ ေဖာ္ျပဖို ႔အတြက္ ျဖစ္တယ္။ mapred-site.xml file ကို ဖြင့္ျပီး ျပင္ပါ

မယ္။

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

Dr. Kyar Nyo Aye


<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=/home/hadoop/Hadoop-3.2.0</value>
</property>
<property>
<name>mapreduce.reduce.env</name>
<value>HADOOP_MAPRED_HOME=/home/hadoop/Hadoop-3.2.0</value>
</property>
<property>
<name>mapreduce.reduce.env</name>
<value>HADOOP_MAPRED_HOME=/home/hadoop/Hadoop-3.2.0</value>
</property>
<property>
<name>mapreduce.application.classpath</name>
<value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*,
$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*,
$HADOOP_MAPRED_HOME/share/hadoop/common/*,
$HADOOP_MAPRED_HOME/share/hadoop/common/lib/*,
$HADOOP_MAPRED_HOME/share/hadoop/yarn/*,
$HADOOP_MAPRED_HOME/share/hadoop/yarn/lib/*,
$HADOOP_MAPRED_HOME/share/hadoop/hdfs/*,
$HADOOP_MAPRED_HOME/share/hadoop/hdfs/lib/*</value>
</property>
</configuration>

Dr. Kyar Nyo Aye


Formatting the HDFS filesystem
HDFS ကို ပထမဆံ ု းအၾကိမ္ မသံ ု းခင္မွာ filesystem ကို format ခ်ရပါမယ္။

hdfs namenode -format

Starting and stopping the daemons


HDFS, YARN, နဲ႔ MapReduce daemons ေတြ စတင္ရန္ အတြက္ ေအာက္ပါ command ေတြကို သံ ု းပါမယ္။

Namenode, datanode, secondary namenode daemon ေတြ စတင္ရန္အတြက္ start-dfs.sh သံ ု းပါမယ္။ ျပီးရင္ jps ေ

Dr. Kyar Nyo Aye


ခၚၾကည့္ပါ။ jps ေခၚလို ႔မရရင္ openjdk install လု ပ္ပါ။ jps ေခၚၾကည့္ရင္ Namenode, datanode, secondary

namenode daemon ေတြ run ေနတာ ေတြ႔ပါမယ္။

start-dfs.sh
apt-get install openjdk-11-jdk
jps

start-yarn.sh command ေခၚၾကည့္ပါ။ ျပီးရင္ jps ေခၚၾကည့္ပါ။ Resource Manager နဲ႔ Node Manager daemons

ေတြ အလု ပ္လုပ္ေနတာေတြ႔ပါမယ္။

start-yarn.sh
jps

Dr. Kyar Nyo Aye


mr-jobhistory-daemon.sh start historyserver command ေခၚၾကည့္ပါ။ ျပီးရင္ jps ေခၚၾကည့္ပါ။ Job History

Server အလု ပ္လုပ္ေနတာေတြ႔ပါမယ္။

mr-jobhistory-daemon.sh start historyserver (or)


mapred historyserver start
jps

Dr. Kyar Nyo Aye


WordCount program ကို Pseudo Distributed Mode မွာ run ၾကည့္ပါမယ္။ File system က HDFS သံ ု းမွာ ျဖစ္တဲ့အတြက္

input directory ကို HDFS မွာ ေဆာက္ပါမယ္။

hadoop fs -ls /
hadoop fs -mkdir /input
hadoop fs -ls /
hadoop fs -put hadoop-3.2.0/*.txt /input
hadoop fs –ls /input

yarn jar hadoop-3.2.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar wordcount /input


output

Dr. Kyar Nyo Aye


output directory က HDFS မွာရွိပါတယ္။ output file ေတြကို ၾကည့္ပါမယ္။

hadoop fs -ls /user/root/output


hadoop fs –cat /user/root/output/part-r-00000

Dr. Kyar Nyo Aye


Accessing Hadoop on browser
Hadoop ကို browser ကေနလည္း access လု ပ္ႏို င္ပါတယ္။

namenode's HTTP server address and port

Dr. Kyar Nyo Aye


http://localhost:9870

secondary namenode's HTTP server address and port


http://localhost:9868

Dr. Kyar Nyo Aye


datanode's HTTP server address and port
http://localhost:9864

MapReduce job history server's address and port


http://localhost:19888

resource manager's HTTP server address and port


http://localhost:8088

Dr. Kyar Nyo Aye


node manager's HTTP server address and port
http://localhost:8042

HDFS, YARN, နဲ႔ MapReduce daemons ေတြကို stop လု ပ္ပါမယ္။

mr-jobhistory-daemon.sh stop historyserver


stop-yarn.sh
stop-dfs.sh

Dr. Kyar Nyo Aye

You might also like