You are on page 1of 5

THAO TÁC TRÊN HỆ THỐNG TẬP TIN HADOOP

TRÊN HỆ ĐIỀU HÀNH WINDOWS

1. Chuẩn bị
1.1 Đã cài đặt Hadoop tại thư mục C:\hadoop\hadoop-2.6.0
1.2 Khởi động các tiến trình của Hadoop
Chạy file start-all.cmd voi quyền Administrator để khởi động các tiến trình của Hadoop.
C:\hadoop\hadoop-2.6.0> sbin\start-all.cmd

Xuất hiện 4 cửa sổ các tiến trình hadoop:


Chú ý: Các thông tin trên cửa sổ xuất hiện liên tục. Nếu xuất hiện dấu nhắc lệnh trong
bất kỳ cửa sổ nào thì phải kiểm tra lại trước khi thao tác trên Hadoop.
Thu nhỏ các cửa sổ của tiến trình Hadoop để thực hiện các lệnh thao tác tiếp sau.

2. XEM THÔNG TIN HỆ THỐNG TẬP TIN Hadoop


Mở cửa sổ lệnh dưới quyền Administrator.
Chuyển đến thư mục hiện hành c:\hadoop\hadoop-2.6.0

 Xem tên máy đang chạy NameNode


c:\hadoop\hadoop-2.6.0> hostname

 Xem địa chỉ IP của máy đang chạy NameNode


c:\hadoop\hadoop-2.6.0> ipconfig

 Xem phiên bản Java đang sử dụng


c:\hadoop\hadoop-2.6.0> java –version
 Xem khai báo các biến môi trường:
c:\hadoop\hadoop-2.6.0> path
c:\hadoop\hadoop-2.6.0> echo %HADOOP_HOME%
c:\hadoop\hadoop-2.6.0> dir %HADOOP_HOME%\data
12/07/2019 07:57 AM <DIR> .
12/07/2019 07:57 AM <DIR> ..
12/07/2019 07:57 AM <DIR> datanode
12/07/2019 07:57 AM <DIR> namenode
0 File(s) 0 bytes
4 Dir(s) 10,810,109,952 bytes free

 Xem tài khoản đang sử dụng


c:\hadoop\hadoop-2.6.0> echo %USERNAME%

Biến $USER trả về tên tài khoản đăng nhập hiện hành.

 Xem các tiến trình hệ thống hadoop trên máy NameNode


c:\hadoop\hadoop-2.6.0> jps
4858 ResourceManager
4347 NameNode
4981 NodeManager
5294 Jps
4474 DataNode
4687 SecondaryNameNode
c:\hadoop\hadoop-2.6.0>

3. THAO TÁC TRÊN HỆ THỐNG TẬP TIN HADOOP


 Lệnh hệ điều hành Linux:
ls : xem nội dung thư mục
mkdir : tạo thư mục
rm –rf: xóa một file/thư mục

 Cú pháp lệnh hệ thống Hadoop: hdfs dfs <LệnhLinux> <Đường dẫn>

 Xem phiên bản hadoop


c:\hadoop\hadoop-2.6.0> hadoop version

 Xem hadoop classpath


c:\hadoop\hadoop-2.6.0> hadoop classpath

 Xem các file hadoop trong thư mục gốc /:


c:\hadoop\hadoop-2.6.0> hdfs dfs -ls /

 Tạo một thư mục mới input trong thư mục gốc của hadoop
c:\hadoop\hadoop-2.6.0> hdfs dfs -mkdir /input

 Xem các file hadoop trong thư mục người dùng:


c:\hadoop\hadoop-2.6.0> hdfs dfs -ls /
Found 1 items
drwxr-xr-x - hadoop supergroup 0 2017-04-26 09:53 /input

c:\hadoop\hadoop-2.6.0> hadoop fs -ls /input

 Tạo mới một file. Chú ý thay XYZ bằng tên NSD
c:\hadoop\hadoop-2.6.0> echo "em con nho hay em da quen" > fileXYZ.txt

 Chép vào thư mục của hệ thống hadoop


c:\hadoop\hadoop-2.6.0> hadoop fs -put fileXYZ.txt /

 Xem nội dung trong thư mục hadoop


c:\hadoop\hadoop-2.6.0> hadoop fs -ls /

 Xem nội dung file fileXYZ.txt vừa chép trong thư mục hadoop
c:\hadoop\hadoop-2.6.0> hadoop fs -cat /fileXYZ.txt

 Xóa file trong thư mục hadoop


c:\hadoop\hadoop-2.6.0> hadoop fs -rm -r /fileXYZ.txt

 Show report on the overall HDFS file system. This command very useful for how much
disk is available , Name node information, how many Data Nodes are running and
corrupted blocks are in a cluster.
c:\hadoop\hadoop-2.6.0> hadoop dfsadmin -report

 Show commission or decommission nodes


c:\hadoop\hadoop-2.6.0> hadoop dfsadmin -refreshNodes

 Copy file from one cluster to another cluster:


c:\hadoop\hadoop-2.6.0> hadoop distcp hdfs://192.168.1.10/input
hdfs://192.168.1.200/output

 Check hadoop jobs status


c:\hadoop\hadoop-2.6.0> hadoop job -status <job -id >

 Submit hadoop job file


c:\hadoop\hadoop-2.6.0> hadoop job -submit <job – files >

 List all hadoop jobs:


c:\hadoop\hadoop-2.6.0> hadoop job -list all

4. Chạy các ứng dụng MapReduce từ file hadoop-mapreduce-


examples-2.6.0.jar
4.1 Chạy ví dụ tính số PI
 Mở cửa sổ lệnh dưới quyền Administrator.
 Chuyển vào thư mục hiện hành
cd C:\hadoop\hadoop-2.6.0
C:\hadoop\hadoop-2.6.0> dir
11/14/2014 04:20 AM 270,322 hadoop-mapreduce-examples-2.6.0.jar

 Thực hiện lệnh


C:\hadoop\hadoop-2.6.0> hadoop jar hadoop-mapreduce-examples-2.6.0.jar
pi 16 100

4.2 6.2 Chạy ví dụ WordCount


 Mở cửa sổ lệnh dưới quyền Administrator.
 Chuyển vào thư mục hiện hành
cd C:\hadoop\hadoop-2.6.0

 Thực hiện lần lượt các lệnh


// Xóa thư mục input nếu đã có
C:\hadoop\hadoop-2.6.0> hdfs dfs -rm -r /inputXYZ

// Xóa thư mục output nếu đã có để tránh lỗi trùng thư mục chạy chương trình
Mapreduce
C:\hadoop\hadoop-2.6.0> hdfs dfs -rm -r /outputXYZ

C:\hadoop\hadoop-2.6.0> hdfs dfs -mkdir /inputXYZ

C:\hadoop\hadoop-2.6.0> echo em con nho hay em da quyen > data.txt

C:\hadoop\hadoop-2.6.0> hdfs dfs -put data.txt /inputXYZ

C:\hadoop\hadoop-2.6.0> hdfs dfs -ls /inputXYZ

C:\hadoop\hadoop-2.6.0> hdfs dfs -cat /inputXYZ/data.txt


 Chạy chương trình Mapreduce với dữ liệu trong thư mục /inputXYZ, kết quả xuất ra
/outputXYZ
C:\hadoop\hadoop-2.6.0> %HADOOP_HOME%\etc\hadoop\hadoop-env.cmd
C:\hadoop\hadoop-2.6.0> hadoop jar hadoop-mapreduce-examples-2.6.0.jar
wordcount /inputXYZ /outputXYZ

 Xem kết quả trong /outputXYZ


C:\hadoop\WordCount> hadoop fs -ls /outputXYZ
C:\hadoop\WordCount> hadoop fs -cat /outputXYZ/part-r-00000

 Xem kết quả thực hiện các lệnh trên Web của hadoop
Mở trình duyệt, gõ http://127.0.0.1:50070
----------------------------------------------------------

You might also like