You are on page 1of 51

Đề tài: BIG DATA

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

ĐỒ ÁN MÔN HỌC

Công tác Kỹ sư ngành CNTT

TÌM HIỂU VỀ BIG DATA VÀ CÁC KỸ THUẬT TRONG BIG DATA.


PHÂN TÍCH VÀ TRÌNH BÀY ÍT NHẤT MỘT BÀI TOÁN VỀ LĨNH
VỰC BIG DATA

Ngành: CÔNG NGHỆ THÔNG TIN

Giảng viên hướng dẫn : ThS. Nguyễn Hữu Trung

Sinh viên thực hiện : Nhóm 6

MSSV Họ và tên

- 2380601317 Hoàng Duy Mạnh

- 2380614764 Trần Phương Thảo

- 2380600355 Nguyễn Nhật Duy

- 2380601149 Nguyễn Lê Quốc Kiệt

TP. Hồ Chí Minh, 2023

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

Giới Thiệu
Chúng ta đang sống trong một thời đại mới, thời đại phát triển rực rỡ của
CNTT.CNTT đã ở một bước phát triển cao đó là số hóa tất cả các dữ liệu thông
tin, luân chuyển mạnh mẽ và kết nối tất cả chúng ta lại với nhau. Mọi loại thông
tin, số liệu âm thanh, hình ảnh có thể được đưa về dạng kỹ thuật số để bất kỳ
máy tính nào cũng có thể lưu trữ, xử lý và chuyển tiếp cho nhiều người. Nhu
cầu lưu trữ ngày càng tăng lên thêm vào đó là sự phát triển mạnh về lưu lượng ổ
cứng. Hằng ngày lượng thông tin được lưu trữ tăng lên cách chóng mặt. Theo
tài liệu của Intel vào tháng 9/2013, hiện nay thế giới đang tạo ra 1 petabyte dữ
liệu trong mỗi 11 giây và nó tương đương với một đoạn video HD dài 13 năm.
Vấn đề đặt ra là với một khối lượng dữ liệu lớn như thế làm sao chúng ta có thể
khai thác và nó có thật sự cần thiết? Tháng 8 năm 2015, Big Data đã vượt ra
khỏi bảng xếp hạng những công nghệ mới nổi Cycle Hype của Gartner và tạo
một tiếng vang lớn cho xu hướng công nghệ của thế giới.

Bài viết này sẽ giúp chúng ta hiểu rõ khái niệm Big Data, những nguồn tạo ra
Big Data, tầm quan trọng của nó vào các lĩnh vực đời sống, chương cuối sẽ
phân tích một bài toán Big Data và tương lai rộng mở của nó.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

Mục lục
CHƯƠNG I: TÌM HIỂU BIG DATA ........................................................................................ 6
1. Định Nghĩa Big Data .................................................................................. 7
a. Volume (Số lượng lưu trữ) ..................................................................... 7
b. Velocity (Tốc độ xử lý) .......................................................................... 8
c. Variety (Đa dạng chủng loại).................................................................. 8
d. Veracity (Độ chính xác) ....................................................................... 10
e. Value (Giá trị thông tin) ....................................................................... 10
f. Variability (Tính biến đổi dữ liệu) ........................................................ 10
2. Những nguồn chính tạo ra big data ........................................................... 11
a. Hộp đen dữ liệu .................................................................................... 11
b. Dữ liệu từ các kênh truyền thông xã hội. .............................................. 11
c. Dữ liệu giao dịch chứng khoán. ............................................................ 11
d. Dữ liệu điện lực. ................................................................................... 11
e. Dữ liệu giao thông ................................................................................ 11
f. Dữ liệu các thiết bị tìm kiếm ................................................................. 11
3. Vì sao Big Data nằm trong năm xu hướng trọng điểm ngành công nghệ
thông tin ....................................................................................................... 12
4. Sức mạnh của Big Data ............................................................................ 13
a. Big data quan trọng như thế nào? ......................................................... 13
b. Ứng dụng Big Data trong đời sống ....................................................... 13
b.1. Ứng dụng của Big Data trong khoa học và nghiên cứu như : ............. 13
b.2. Ứng dụng của Big Data trong tối ưu hóa hiệu suất và thiết bị: ........... 15
b.3. Ứng dụng của Big Data trong cải thiện an ninh và thực thi pháp luật:16
b.4. Ứng dụng Big Data trong cải thiện và tối ưu hóa các thành phố quốc
gia: ........................................................................................................... 16
b.5. Ứng dụng Big Data trong kinh doanh tài chính: ................................ 17
b.6.Sự hiểu biết và khách hàng mục tiêu (Internet, Mobile và Digital
Marketing) ............................................................................................... 18
b.7. Sự hiểu biết và tối ưu hóa quy trình kinh doanh ................................ 18

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

b.8. Định lượng cá nhân và tối ưu hóa hiệu suất ....................................... 19


b.9.Cải thiện chăm sóc sức khỏe và y tế công........................................... 19
b.10.Cải thiện hiệu suất thể thao............................................................... 20
c. Phân tích bài toán Big Data ...................................................................... 20
c.1. Top 10 thuật toán khai thác dữ liệu được dùng trong lĩnh vực Big Data
................................................................................................................. 20
c.2. Phân tích sơ lược về thuật toán Cây quyết định C4.5 ......................... 21
c.3. Mã giả của thuật toán C4.5: ............................................................... 24
CHƯƠNG II: TÌM HIỂU VỀ CÁC CHUYÊN NGÀNH CỦA NGÀNH CÔNG NGHỆ THÔNG
TIN ...................................................................................................................................... 27
1. Chuyên ngành máy học và ứng dụng ........................................................ 27
a. Máy học là gì? ...................................................................................... 27
b. So sánh học máy với học sâu và mạng nơ ron ...................................... 28
c. Machine learning hoạt động như thế nào? ............................................ 29
d. Các phương pháp máy học ................................................................... 30
d.1. Máy học có giám sát.......................................................................... 30
d.2. Học máy không giám sát ................................................................... 30
d.3. Học tập bán giám sát ........................................................................ 31
e. Một số ứng dụng của máy học trong thực tiễn ...................................... 31
e.1. Dịch vụ chăm sóc khách hàng ........................................................... 31
e.2. Thị giác máy tính ............................................................................... 32
e.3. Công cụ đề xuất ................................................................................. 32
e.4. Giao dịch chứng khoán tự động ......................................................... 33
e.5. Phát hiện gian lận ............................................................................. 33
2.Ngành an ninh mạng là gì? ........................................................................ 33
a.Ngành an ninh mạng thi khối nào? ........................................................ 34
b.Học an ninh mạng là học những gì? ...................................................... 35
c.An ninh mạng học ở đâu? ...................................................................... 35
c.1 Học an ninh mạng ở Việt Nam ........................................................... 35
c.2 Học an ninh mạng ở trường quốc tế .................................................... 36
CHƯƠNG III: BIG DATA TRONG TƯƠNG LAI .................................................................. 36
1. BIG DATA trong tương lai. .............................................................. 36

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

2. Các kỹ thuật trong big data....................................................................... 39


CHƯƠNG IV: TÌM HIỂU VỀ KỸ NĂNG SOẠN THẢO VĂN BẢN VÀ THUYẾT TRÌNH ........ 42
1. Tìm hiểu về soạn thảo văn bản ở văn bản hành chính..................... 42
a. Văn bản hành chính là gì?.............................................................. 42
b. Các loại văn bản hành chính .......................................................... 42
c. Kỹ thuật trình bày văn bản hành chính: ....................................... 43
d. Các thể thức trong văn bản hành chính ........................................ 43
2. Kỹ năng thuyết trình ......................................................................... 45
a. Khái niệm kỹ năng thuyết tình .......................................................... 45
b. Các bước thuyết trình thuyết phục người xem...................................... 45

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

CHƯƠNG I: TÌM HIỂU BIG DATA


Nguồn gốc của tập dữ liệu lớn bắt nguồn từ những năm 1960 và 1970 khi thế giới
dữ liệu chỉ mới bắt đầu với các trung tâm dữ liệu đầu tiên cùng với sự phát triển
của cơ sở dữ liệu SQL.

Khoảng năm 2005, mọi người bắt đầu nhận ra lượng dữ liệu mà người dùng tạo
ra thông qua Facebook, YouTube và các dịch vụ trực tuyến khác ngày càng tăng
nhanh. Cũng trong năm 2005, Hadoop (một framework open source được tạo
riêng với nhiệm vụ lưu trữ và phân tích Big Data) đã được phát triển. Sự phát
triển của các framework, ví dụ như Hadoop (hoặc Spark) là cần thiết cho sự phát
triển của Big Data. Lý do là vì chúng khiến cho Big Data hoạt động dễ dàng hơn
và lưu trữ rẻ hơn.

Khối lượng dữ liệu lớn ngày càng tăng vọt. Điều thú vị là lượng dữ liệu này không
chỉ do con người mà còn do máy móc tạo ra. Với sự ra đời của Internet of Things
(IoT), nhiều đối tượng và thiết bị được kết nối với internet giúp thu thập dữ liệu
về cách sử dụng của người dùng và hiệu suất sản phẩm. IoT xuất hiện đã giúp tạo
ra nhiều dữ liệu hơn.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

1. Định Nghĩa Big Data

Big Data là một thuật ngữ rộng cho việc xử lý một tập hợp dữ liệu rất lớn và phức
tạp mà các ứng dụng xử lý dữ liệu truyền thống không xử lý được. Bao gồm các
thách thức như phân tích, thu thập, giám sát dữ liệu, tìm kiếm, chia sẻ, lưu trữ,
truyền nhận, trực quan hóa, truy vấn và tính riêng tư. Thuật ngữ Big Data thường
được hiểu đơn giản là sử dụng để phân tích dự đoán hoặc là một số phương pháp
tiên tiến khác rõ ràng để trích xuất giá trị từ dữ liệu mà ít khi đề cập đến kích thước
của bộ dữ liệu. Độ chính xác trong Big Data có thể dẫn tới ra quyết định đúng đắn
hơn, và những quyết định tốt hơn có thể đưa đến kết quả hoạt động tốt hơn như
giảm chi phí và rủi ro.

a. Volume (Số lượng lưu trữ)

Big Data (“dữ liệu lớn”) là tập hợp dữ liệu có dung lượng lưu trữ vượt mức đảm
đương của những ứng dụng và công cụ truyền thống. Kích cỡ của Big Data
đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng
vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho
một tập hợp dữ liệu mà thôi.

Hình ảnh dự đoán mức độ tăng trưởng dữ liệu 2030

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

b. Velocity (Tốc độ xử lý)

Dung lượng gia tăng của dữ liệu rất nhanh và tốc độ xử lý đang tiến tới real-
time. Các ứng dụng phổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng
không, Quân sự, Y tế – Sức khỏe ngày hôm nay phần lớn dữ liệu lớn được xử lý
real-time. Công nghệ xử lý dữ liệu lớn ngày một tiên tiến cho phép chúng ta xử
lý tức thì trước khi chúng được lưu trữ vào cơ sở dữ liệu.

c. Variety (Đa dạng chủng loại)

Hình thức lưu trữ và chủng loại dữ liệu ngày một đa dạng hơn. Trước đây chúng
ta hay nói đến dữ liệu có cấu trúc thì ngày nay hơn 80% dữ liệu trên thế giới
được sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, video, voice v.v.). Công
nghệ Big Data cho phép chúng ta ngày nay liên kết và phân tích đa dạng chủng
loại dữ liệu với nhau như comments/post của một nhóm người dùng nào đó trên
Facebook với thông tin video được chia sẻ từ Youtube và Twitter.

Có 3 loại chủ yếu trong dữ liệu lớn, bao gồm:

● Có cấu trúc

Bất kỳ dữ liệu nào có thể được lưu trữ, truy cập và xử lý ở dạng định dạng cố
định được gọi là dữ liệu có cấu trúc. Theo thời gian, khoa học máy tính đã đạt
được thành công lớn trong việc phát triển các kỹ thuật làm việc với loại dữ liệu
như vậy (nơi định dạng đã được biết trước) và thu được giá trị.

Bảng 'Nhân viên' trong cơ sở dữ liệu là một ví dụ về Dữ liệu có cấu trúc

● Không cấu trúc

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

Bất kỳ dữ liệu nào có dạng không xác định hoặc cấu trúc được phân loại là dữ
liệu phi cấu trúc. Ngoài kích thước khổng lồ, dữ liệu không có cấu trúc còn đặt
ra nhiều thách thức về mặt xử lý để thu được giá trị từ nó. Một ví dụ điển hình
của dữ liệu phi cấu trúc là một nguồn dữ liệu không đồng nhất chứa sự kết hợp
của các tệp văn bản đơn giản, hình ảnh, video…

Kết quả đầu ra do 'Google Tìm kiếm' trả về

● Bán cấu trúc

Dữ liệu bán cấu trúc chứa sự kết hợp của dữ liệu có cấu trúc và dữ liệu phi cấu
trúc. Đó là dữ liệu chưa được phân loại vào một cơ sở dữ liệu cụ thể nhưng
chứa các thẻ quan trọng phân tách các phần tử riêng lẻ trong cùng một cơ sở dữ
liệu. Ví dụ, một định nghĩa bảng trong DBMS quan hệ có dữ liệu bán cấu trúc.

<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec>
<rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec>
<rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec>
<rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec>
<rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>

Dữ liệu cá nhân được lưu trữ trong một tệp XML

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

d. Veracity (Độ chính xác)

Một trong những tính chất phức tạp nhất của Big Data là độ chính xác của dữ
liệu. Với xu hướng Social Media và Social Network ngày nay và sự gia tăng
mạnh mẽ tính tương tác và chia sẻ của người dùng Mobile làm cho bức tranh
xác định về độ tin cậy và chính xác của dữ liệu ngày một khó khăn hơn. Bài
toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan
trọng của BigData.

e. Value (Giá trị thông tin)

Giá trị thông tin là tính chất quan trọng nhất của xu hướng công nghệ Big Data.
Ở đây doanh nghiệp phải hoạch định được những giá trị thông tin hữu ích của
Big Data cho vấn đề, bài toán hoặc mô hình hoạt động kinh doanh của mình. Có
thể nói việc đầu tiên là phải xác định được tính chất “Value” thì mới nên bắt tay
vào BigData

f. Variability (Tính biến đổi dữ liệu)

Variability đề cập đến sự không nhất quán có thể được hiển thị bởi dữ liệu theo
thời gian, do đó tính biến đổi này có thể sẽ ảnh hưởng, gây cản trở quá trình xử
lý và quản lý data một cách hiệu quả

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

2. Những nguồn chính tạo ra big data


a. Hộp đen dữ liệu: đây là dữ liệu được tạo ra bởi máy bay, bao gồm máy
bay phản lực và trực thăng. Hộp đen dữ liệu này bao gồm thông tin tạo ra
bởi giọng nói của phi hành đoàn, các bản thu âm và thông tin về chuyến
bay.

b. Dữ liệu từ các kênh truyền thông xã hội: Đây là dữ liệu được tạo ra và
phát triển bởi như các trang web truyền thông xã hội như Twitter,
Facebook,Instagram, Pinterest và Google+.

c. Dữ liệu giao dịch chứng khoán: Đây là số liệu từ thị trường chứng khoán
đối với quyết định mua và bán cổ phiếu được thực hiện bởi khách hàng.

d. Dữ liệu điện lực: đây là dữ liệu tạo ra bởi điện lực. Nó bao gồm các thông
tin cụ thể từ các điểm giao nhau của các nút thông tin sử dụng.

e. Dữ liệu giao thông: dữ liệu này bao gồm sức chưa và các mẫu phương tiện
giao thông, độ sẵn sàng và khoảng cách đã đi được của từng phương tiện giao
thông.

f. Dữ liệu các thiết bị tìm kiếm: đây là dữ liệu được tạo ra từ các công cụ tìm
kiếm và đây cũng là nguồn dữ liệu lớn nhất của Big Data. Công cụ tìm kiếm có
cơ sở dữ liệu cực kỳ rộng lớn, nơi họ có thể tìm thấy dữ liệu họ cần. Thêm vào
đó, Bernard Marr, chuyên gia về Big Data và phân tích Big Data, đã đưa ra danh
sách 20 nguồn Big Data uy tín mà mọi người có thể truy cập miễn phí trên trang
web. Dưới đây là một số ví dụ:

-Data.gov - nơi mà mọi người được phép tự do truy cập tất cả các
dữ liệu của Chính phủ Mỹ bao gồm các thông tin khác nhau, từ khí hậu
đến tội phạm đang giam giữ.

-Data.gov.uk – nơi tương tự của Chính phủ Anh. Tại đây, mọi
người có thể tập hợp được siêu dữ liệu trên tất cả các sách và các ấn
phẩm của Anh kể từ năm 1950.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

-Ngoài ra còn có Cục Điều tra Dân số Mỹ - bao gồm các thông tin
có giá trị như dân số, địa lý và dữ liệu khác. Tương tự là kho dữ liệu mở
Liên minh châu Âu, bao gồm các dữ liệu điều tra dân số của các tổ chức
Liên minh châu Âu.

-Và một thứ yêu thích của chúng ta đó là Facebook. Những biểu đồ
của FB cung cấp cho chúng ta các thông tin và giao diện các ứng dụng,
sau khi truy cập các thông tin công khai được cung cấp bởi người sử
dụng.

-Trong lĩnh vực y tế, đó là Healthdata.gov của Mỹ và Trung tâm


Thông tin chăm sóc Y tế và xã hội NHS, từ Anh.

3. Vì sao Big Data nằm trong năm xu hướng trọng điểm


ngành công nghệ thông tin
Nhà bán lẻ online Amazon.com thì phải xử lý hàng triệu hoạt động mỗi ngày
cũng như những yêu cầu từ khoảng nửa triệu đối tác bán hàng. Amazon sử dụng
một hệ thống Linux và hồi năm 2005, họ từng sở hữu ba cơ sở dữ liệu Linux lớn
nhất thế giới với dung lượng là 7,8TB, 18,5TB và 24,7TB.Tương tự, Facebook
cũng phải quản lý 50 tỷ bức ảnh từ người dùng tải lên,YouTube hay Google thì
phải lưu lại hết các lượt truy vấn và video của người dùng cùng nhiều loại thông
tin khác có liên quan. Dịch vụ thẻ VISA xử lý hơn 172.800.000 giao dịch thẻ
chỉ trong vòng một ngày mà thôi Trên Twitter có 500 triệu dòng tweet mới mỗi
ngày, Facebook thì có 1,15 tỷ thành viên tạo ra một mớ khổng lồ dữ liệu văn
bản, tập tin, video…

=> Nhu cầu xử lý, tìm kiếm, khai thác thông tin, đánh giá, tiên đoán một cách
khách quan xu thế thị trường từ đó đưa ra chiến lược đúng đắn.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

4. Sức mạnh của Big Data

a. Big data quan trọng như thế nào?

Big data là công nghệ thu thập thông tin quy mô lớn từ các website. Các doanh
nghiệp thường vận dụng công cụ này nhằm phục vụ công việc dự đoán xu
hướng thị trường, nâng cao chất lượng sản phẩm hoặc dịch vụ hiện có, tạo ra
sản phẩm mới hoặc tìm hiểu về hành vi khách hàng Phân tích dữ liệu cũng có
thể giúp các doanh nghiệp thích nghi, tạo ra nội dung website thu hút nhiều
khách hàng hơn, có được cái nhìn sâu sắc vào hành vi mua hàng. Dữ liệu càng
nhiều thì càng tốt cho công ty. Để làm được như vậy, doanh nghiệp nên cung
cấp nội dung trên nhiều nền tảng social media, nhằm thu thập được nhiều thông
tin từ những điểm tiếp xúc với khách hàng. Bằng cách tìm hiểu qua hệ thống cơ
sở dữ liệu, công ty có thể tạo ra nội dung có liên quan hơn với người đọc. Chính
ý tưởng này đã giúp Craig Rayner - Giám đốc tuyển dụng hãng SEO.io thu hút
nhân tài. Nhờ vào việc phân tích và tổng hợp những dữ liệu nội bộ phòng nhân
sự, ông đã tạo ra những quảng cáo tuyển dụng hấp dẫn đối với người tìm việc.

b. Ứng dụng Big Data trong đời sống

b.1. Ứng dụng của Big Data trong khoa học và nghiên cứu như :

-Khoa học và nghiên cứu hiện đang biến đổi rất nhanh bởi các khả năng mới mà
dữ liệu lớn mang lại. Lấy ví dụ, CERN, phòng thí nghiệm vật lý hạt nhân Thụy
Sĩ với chiếc máy gia tốc hạt lớn nhất và mạnh nhất thế giới, Large Hadron
Collider. Với những thí nghiệm để mở khóa những bí mật của vũ trụ, cách hình
thành và vận hành ra sao, đã tạo ra một lượng lớn dữ liệu.

-Trong Y học: giải mã gen.

-Trong vật lý: các dụng cụ giám sát khoa học như máy gia tốc hạt lớn của
CERN(tổ chức nghiên cứu nguyên tử châu Âu) tạo ra 40 terabyte dữ liệu trong
1 giây .

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

-Trong toán học : chế tạo các siêu máy tính để giải quyết các bài toán mà con
người không thể giải quyết được.

->Trong Y học: -Big Data đã ghi điểm trong lĩnh vực Y học vào năm 2009 khi
Google đã sử dụng dữ liệu Big Data của mình để phân tích và dự đoán xu
hướng ảnh hưởng, lan truyền của dịch cúm H1N1. Dịch vụ này có tên là Google
Flu Trends.

-Với sự phát triển của công nghệ thông tin giúp mọi người chúng ta tiếp xúc
được với những sự tiên tiến của khoa học nhằm nâng cao sức khỏe con người.

-Nhưng đó chưa phải tất cả, tiềm năng lớn nhất của Big Data đối với y học
chính là là khả năng áp dụng vào quá trình phân tích gen, giúp phân tích trình tự
bộ gen người trong một vài giờ, thay vì tới hàng tuần như trước kia.

-Big Data chính là sự bổ sung cần thiết cho nền y học hiện đại và chúng ta đang
chứng kiến sự thay đổi bước ngoặt. Giải mã trình tự gen là một cách rất tốt để
theo dõi một dải rộng gen để từ đó đưa ra những nhận định về nguyên nhân
từng loại bệnh và tiến hành đánh giá rủi ro, phát hiện sớm hoặc dự đoán khả
năng tái phát. Công nghệ này cũng có thể được sử dụng để đưa ra những
phương pháp trị liệu và hướng điều trị phù hợp với từng bệnh nhân.

=>Trong vật lý:- Máy gia tốc hạt lớn được chế tạo bởi Tổ chức nghiên cứu hạt
nhân châu Âu (CERN), nằm bên dưới mặt đất tại biên giới Pháp-Thụy Sĩ giữa
núi Jura và dãy Alps gần Genève, Thụy Sĩ.

-Các trung tâm của CERN có 65.000 bộ vi xử lý để phân tích 30 petabyte dữ


liệu .Tuy nhiên nó sử dụng quyền tính toán của hàng ngàn máy tính phân phối
tại 150 trung tâm dữ liệu trên toàn thế giới để phân tích.Quyền hạn tính toán
như vậy có thể được thừa hưởng và làm thay đổi nhiều lĩnh vực khoa học
nghiên cứu .

-Trong toán học: -Siêu máy tính giúp con người chúng ta thực hiện được các bài
toán khó mà con người không thể nào làm được.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

-Siêu máy tính hiện nay có tốc độ xử lý hàng nghìn teraflop (một teraflop tương
đương với hiệu suất một nghìn tỷ phép tính/giây) hay bằng tổng hiệu suất của
6.000 chiếc máy tính hiện đại nhất hiện nay gộp lại (một máy có tốc độ khoảng
từ 3-3,8 gigaflop).

b.2. Ứng dụng của Big Data trong tối ưu hóa hiệu suất và thiết bị:

-Phân tích dữ liệu lớn giúp máy móc và thiết bị trở nên thông minh và độc lập
hơn. Ví dụ, các công cụ dữ liệu lớn được sử dụng để vận hành xe hơi tự lái của
Google. Toyota Prius được trang bị máy ảnh, GPS cũng như các máy tính mạnh
mẽ và bộ cảm biến để lái xe an toàn trên đường mà không có sự can thiệp của
con người. Công cụ dữ liệu lớn cũng được sử dụng để tối ưu hóa lưới điện năng
lượng sử dụng dữ liệu từ công-tơ thông minh. Chúng ta thậm chí có thể sử dụng
công cụ dữ liệu lớn để tối ưu hóa hiệu suất của máy tính và các kho dữ liệu.

-Big Data trong tối ưu hóa hiệu suất và thiết bị :

+Việc tối ưu hóa hiệu suất giúp các thiết bị có thể hoạt động nhanh và hiệu quả
hơn trước kia rất nhiều.Điều này nhằm giúp các thiết bị có thể đáp ứng được các
yêu cầu của con người ngày càng một cao hơn so với trước kia.

+Trong máy tính việc tối ưu hóa hiệu suất giúp máy tính hoạt động cách trơn tru
để đảm bảo độ ổn định và nhanh nhạy trong việc ngày nay đang diễn ra bùng nổ
dữ liệu.Trong thời đại bùng nổ dữ liệu như ngày nay thì việc tối ưu hóa hiệu
suất máy tính và kho dữ liệu là một thách thức đối với con người chúng ta.

+Việc tối ưu hóa hiệu suất và thiết bị giúp con người chúng ta có thể tận dụng
tối đa nguồn nguyên liệu để phục vụ đời sống con người nhằm đảm bảo nhu cầu
ngày một tăng cao trong thách thức về vấn đề khan hiếm nguyên liệu hiện nay.

+Các lĩnh vực mà Big Data trong tối ưu hóa hiệu suất và thiết bị ứng dụng như:
Giao thông vận tải ,điện lực, sản xuất,công nghiệp,công nghệ thông tin,….

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

b.3. Ứng dụng của Big Data trong cải thiện an ninh và thực thi pháp luật:

-Dữ liệu lớn được áp dụng rất nhiều trong việc cải thiện an ninh và cho phép
thực thi pháp luật. Cơ quan An ninh Quốc gia Mỹ (NSA) sử dụng phân tích dữ
liệu lớn để chống âm mưu khủng bố (và có thể gián điệp trên tất cả chúng ta).
Các đơn vị khác sử dụng kỹ thuật dữ liệu lớn để phát hiện và ngăn chặn các
cuộc tấn công không gian mạng. Lực lượng cảnh sát sử dụng các công cụ dữ
liệu lớn để bắt tội phạm và thậm chí dự đoán hoạt động tội phạm, và những
công ty thẻ tín dụng sử dụng dữ liệu lớn dùng nó để phát hiện các giao dịch gian
lận.

-Các ứng dụng của Big Data trong lĩnh vực cải thiện an ninh và thực thi pháp
luật:

+Phân tích tâm lý tội phạm: Tổng hợp dữ liệu từ các tâm lý phạm tội để đưa ra
kết luận chính xác từ các hành vi tâm lý khác nhau trong từng trường hợp khác
nhau.

+Tội phạm công nghệ cao: Ứng dụng phân lớp và phân cụm dữ liệu trong công
tác phòng chống tội phạm trong lĩnh vực này.

+Khủng bố: Phân tích dữ liệu lớn để phòng chống các âm mưu khủng bố.

+Anh ninh mạng:Phân tích tấn công mạng nhằm ứng phó kịp thời trong các
cuộc tấn công mạng.

b.4. Ứng dụng Big Data trong cải thiện và tối ưu hóa các thành phố quốc
gia:

Dữ liệu lớn được sử dụng để cải thiện nhiều khía cạnh của các thành phố và
quốc gia.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

Ví dụ: như nó cho phép các thành phố tối ưu hóa luồng giao thông dựa trên
thông tin giao thông trong thời gian thực cũng như dữ liệu trên các phương tiện

truyền thông xã hội và dữ liệu thời tiết. Một số thành phố đang thực hiện thí
điểm phân tích dữ liệu lớn với mục đích biến mình thành thành phố thông minh,
nơi mà cơ sở hạ tầng giao thông và các quy trình tiện ích đều được kết nối với
nhau. Nơi một chiếc xe buýt sẽ chờ một đoàn tàu đến trễ và nơi tín hiệu giao
thông dự đoán khối lượng giao thông và hoạt động để giảm thiểu ùn tắc.

-Ứng dụng chủ yếu của Big Data trong lĩnh vực này là xây dựng thành phố
thông minh.

+Thành phố thông minh là thành phố ứng dụng công nghệ trong việc xây dựng
và quản lý thành phố.

+Ứng dụng của Big Data trong lĩnh vực này là mọi thứ điều được quản lý bằng
dữ liệu.Điều này giúp xây dựng và quản lý thành phố một cách dễ dàng.Tạo sự
thuận tiện cho mọi người khi sống trong thành phố.Từ việc quản lý giao thông
bằng công nghệ cho tới quản lý về con người,kinh tế,văn hóa,giao dục,….Sự
phát triển này nhằm giảm sử dụng sức lực của con người và dần thay bằng công
nghệ giúp mang lại tính hiệu quả,sự chính xác và sự nhanh nháy góp phần giúp
thành phố phát triển một cách nhanh chóng.

b.5. Ứng dụng Big Data trong kinh doanh tài chính:

-Thể loại cuối cùng về ứng dụng dữ liệu lớn đến từ các giao dịch tài chính. Tần
số giao dịch cao (HFT) là một lĩnh vực nơi dữ liệu lớn được sử dụng rất nhiều
ngày nay. Ở đây, thuật toán dữ liệu lớn được sử dụng để đưa ra các quyết định
giao dịch. Ngày nay, phần lớn các giao dịch cổ phiếu diễn ra thông qua các
thuật toán dữ liệu dựa ngày càng nhiều vào tín hiệu tài khoản từ các mạng

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

truyền thông xã hội và các trang web tin tức để đưa ra quyết định mua và bán
trong từng giây.

-Một số ứng dụng của Big Data trong kinh doanh tài chính:

+Phân tích ,xếp hạng rủi ro tín dụng: tổng hợp dữ liệu và phân tích thông tin về
các khoản tín dụng để đưa ra xếp hạng về tín dụng.

+Phân tích thị trường chứng khoán,bất động sản: Tổng hợp dữ liệu và phân tích
thông tin về thị trường chứng khoán cũng như bất động sản trong các phiên giao
dịch.

+Phân tích thông tin khách hàng trong thời gian thực: Xây dựng cơ sở dữ liệu
để quản lý thông tin khách hàng nhằm tránh gian lận trong kinh doanh.

b.6.Sự hiểu biết và khách hàng mục tiêu (Internet, Mobile và Digital
Marketing)

Đây là một trong những lĩnh vực lớn nhất và được công bố công khai nhất cách
dữ liệu lớn được sử dụng ngày nay. Ở đây, dữ liệu lớn được sử dụng để hiểu rõ
hơn về khách hàng và hành vi cũng như sở thích của họ.Nếu để ý một chút, bạn
sẽ thấy khi đăng nhập vào các trang như lazada,thegioididong.com,… để xem
hoặc mua một sản phẩm nào đó thì trang này cũng sẽ đưa ra những sản phẩm
gợi ý tiếp theo cho bạn, ví dụ khi xem điện thoại, nó sẽ gợi ý cho bạn mua thêm
ốp lưng, pin dự phòng,…Thông qua sự tương tác này họ sẽ có các thông tin về
nhu cầu sở thích của bạn để giúp học tăng lợi nhuận.

b.7. Sự hiểu biết và tối ưu hóa quy trình kinh doanh

Dữ liệu lớn cũng ngày càng được sử dụng để tối ưu hóa quy trình kinh doanh.
Các nhà bán lẻ có thể tối ưu hóa giá cả và lượng hàng hóa của họ dựa trên các
dự đoán được tạo ra từ dữ liệu phương tiện truyền thông xã hội, xu hướng tìm
kiếm web và dự báo thời tiết. Một quy trình kinh doanh với rất nhiều phân tích
dữ liệu lớn là chuỗi cung ứng hoặc cung cấp lộ trình tối ưu hóa. Ở đây, cảm

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

biến nhận dạng tần số vô tuyến định vị và địa lý được sử dụng để theo dõi hàng
hóa, phương tiện giao hàng và các tuyến đường tối ưu bằng cách tích hợp dữ
liệu giao thông trực tiếp. Lĩnh vực nhân sự cũng đang được cải thiện bằng cách
sử dụng phân tích dữ liệu lớn. Điều này bao gồm việc tối ưu hóa của việc „săn‟
tài năng, cũng như đánh giá nền văn hóa công ty và sự tham gia của nhân viên
trong việc sử dụng công cụ dữ liệu lớn.

b.8. Định lượng cá nhân và tối ưu hóa hiệu suất

Dữ liệu lớn không chỉ dành cho các công ty và chính phủ mà còn cho từng cá
nhân.Ngày nay chúng ta có thể được hưởng lợi từ dữ liệu được tạo ra từ các
thiết bị đeo như đồng hồ thông minh hoặc vòng đeo tay thông minh. Lấy sợi dây
Up của Jawbone làm ví dụ: Sợi dây thu thập dữ liệu về việc tiêu thụ calo của
chúng ta, mức độ hoạt động, và mô hình giấc ngủ. Ngoài việc mang lại cho cá
nhân những hiểu biết phong phú, giá trị hơn cả là trong việc phân tích các dữ
liệu thu thập được. Phân tích khối lượng dữ liệu lớn này sẽ mang lại cái nhìn
hoàn toàn mới để phản hồi cho người dùng cá nhân. Các lĩnh vực khác, nơi mà
chúng ta được hưởng lợi từ phân tích dữ liệu lớn chính là việc tìm kiếm tình yêu
trực tuyến. Các trang web hẹn hò trực tuyến lớn nhất đang áp dụng công cụ dữ
liệu lớn và các thuật toán để tìm thấy người phù hợp nhất cho chúng ta.

b.9.Cải thiện chăm sóc sức khỏe và y tế công

Dữ liệu lớn còn được áp dụng trong y khoa.Chẳng hạn như việc giám sát chăm
sóc sức khỏe của trẻ sơ sinh. Kỹ thuật này giúp cho ta ghi lại và phân tích nhịp
tim hơi thể của của từng bé. Thông qua đó mà có thể đưa ra cách chăm sóc tốt
nhất cho mỗi bé.Hơn nữa, phân tích dữ liệu lớn cho phép chúng ta theo dõi, dự
đoán sự phát triển của dịch bệnh và sự bùng phát dịch bệnh. Tích hợp dữ liệu từ
hồ sơ y tế với phân tích phương tiện truyền thông xã hội cho phép chúng ta
giám sát dịch cúm trong thời gian thực, chỉ đơn giản bằng cách lắng nghe những

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

gì mọi người đang đề cập đến, ví dụ như: “Cảm giác như người thừa hôm nay –
trên giường với bệnh cảm lạnh”.

b.10.Cải thiện hiệu suất thể thao

Hầu hết các môn thể thao hiện đại đều áp dụng phân tích dữ liệu lớn. Chúng ta
có công cụ SlamTracker của IBM dành cho các giải đấu quần vợt. Chúng ta sử
dụng phân tích video để theo dõi hiệu suất của mỗi cầu thủ trong bóng đá hoặc
bóng chày, và công nghệ cảm biến trong các thiết bị thể thao như bóng rổ hay
các câu lạc bộ golf cho phép chúng ta có được thông tin phản hồi (thông qua
điện thoại thông minh và các máy chủ điện toán đám mây) về hiệu suất thi đấu
của mình và làm thế nào để cải thiện nó. Nhiều đội thể thao có tiếng còn theo
dõi các vận động viên bên ngoài của môi trường thể thao, như sử dụng công
nghệ thông minh để theo dõi chế độ dinh dưỡng và giấc ngủ, cũng như các cuộc
hội thoại truyền thông xã hội để nhận biết tâm tư, tình cảm.

c. Phân tích bài toán Big Data

c.1. Top 10 thuật toán khai thác dữ liệu được dùng trong lĩnh vực Big Data

•1. C4.5

•2. k-means

•3. Support vector machines

•4. Apriori

•5. EM

•6. PageRank

•7. AdaBoost

•8. kNN

•9. Naive Bayes

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

•10. CART

c.2. Phân tích sơ lược về thuật toán Cây quyết định C4.5

Định nghĩa: Cây quyết định là biểu đồ quyết định phát triển có cấu trúc dạng

cây:

•Gốc: Node trên cùng cây.

•Node trong: biểu diễn 1 kiểm tra hoặc 1 thuộc tính đơn

•GốcNode lá: biểu diễn lớp.

•Node Lá Nhánh: Kết quả kiểm tra của node trên

Gốc

Node lá Node trong

Node lá Node lá

Ví dụ cây quyết định

•Xây dựng cây quyết định gồm 2 bước:

– Phát triển cây quyết định: đi từ gốc, đến các nhánh, phát triển quy nạp theo

hình thức chia để trị.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

•Chọn thuộc tính “tốt” nhất bằng một độ đo đã định trước

•Phát triển cây bằng việc thêm các nhánh tương ứng với từng giá trị

của thuộc tính đã chọn

•Sắp xếp, phân chia tập dữ liệu đào tạo tới node con

•Nếu các ví dụ được phân lớp rõ ràng thì dừng.

•Ngược lại: lặp lại bước 1 tới bước 4 cho từng node con

– Cắt tỉa cây: nhằm đơn giản hóa, khái quát hóa cây, tăng độ chính xác

•VD: thuật toán Hunt sử dụng trong C4.5, CDP...

– S={S1,S2,…,Sn} là tập dữ liệu đào tạo

– C={C1,C2,…,Cm} là tập các lớp

– TH1: Si (i=1…n) thuộc về Cj => Cây quyết định là 1 lá ứng Cj.

– TH2: S thuộc về nhiều lớp trong C

•Chọn 1 test trên thuộc tính đơn có nhiều giá trị O={O1,..Ok} (k thường bằng
2).

•Test từ gốc của cây, mỗi Oi tạo thành 1 nhánh, chia S thành các tập

con có giá trị thuộc tính = Oi. Đệ quy cho từng tập con => cây quyết định gồm
nhiều nhánh, mỗi nhánh tương ứng với Oi.

•Điểm mạnh của cây quyết định:

-Sinh ra các quy tắc hiểu được: chuyển đổi được sang tiếng Anh hoặc SQL.

-Thực thi trong lĩnh vực hướng quy tắc.

-Dễ dàng tính toán trong khi phân lớp.

-Xử lý với thuộc tính liên tục và rời rạc.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

-Thể hiện rõ ràng những thuộc tính tốt nhất: phân chia dữ liệu từ gốc.

• Điểm yếu của cây quyết định:

–Dễ xảy ra lỗi khi có nhiều lớp: do chỉ thao tác với các lớp có giá trị dạng

nhị phân.

–Chi phí tính toán đắt để học: do phải đi qua nhiều node để đến node lá cuối

cùng

• ID3 (Quinlan, 1979)- 1 hệ thống đơn giản ban đầu chứa khoảng 600 dòng lệnh

Pascal

•Là sự phát triển từ CLS và ID3.

•Năm 1993, J. Ross Quinlan phát triển thành C4.5 với 9000 dòng lệnh C.

•Hiện tại: phiên bản See5/C5.0.

•Tư tưởng thuật toán: Hunt, chiến lược phát triển theo độ sâu.

•Pseudocode:

-Kiểm tra case cơ bản

-Với mỗi thuộc tính A tìm thông tin nhờ việc tách thuộc tính A

–Chọn a_best là thuộc tính mà độ đo lựa chọn thuộc

tính “tốt nhất”

-Dùng a_best làm thuộc tính cho node chia cắt cây.

-Đệ quy trên các danh sách phụ được tạo ra bởi việc phân chia theo a_best, và
thêm các node này như là con của node Với những đặc điểm C4.5 là thuật toán
phân lớp dữ liệu dựa trên cây quyết định hiệu quả và phổ biến trong những ứng
dụng khai phá cơ sở dữ liệu có kích thước nhỏ. C4.5 sử dụng cơ chế lưu trữ dữ

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

liệu thường trú trong bộ nhớ, chính đặc điểm này làm C4.5 chỉ thích hợp với
những cơ sở dữ liệu nhỏ, và cơ chế sắp xếp lại dữ liệu tại mỗi node trong quá
trình phát triển cây quyết định. C4.5 còn chứa một kỹ thuật cho phép biểu diễn
lại cây quyết định dưới dạng một danh sách sắp thứ tự các luật if-then (một
dạng quy tắc phân lớp dễ hiểu). Kỹ thuật này cho phép làm giảm bớt kích thước
tập luật và đơn giản hóa các luật mà độ chính xác so với nhánh tương ứng cây
quyết định là tương đương. Tư tưởng phát triển cây quyết định của C4.5 là
phương pháp Hunt đã nghiên cứu ở trên. Chiến lược phát triển theo độ sâu
(depth-first strategy) được áp dụng cho C4.5.

c.3. Mã giả của thuật toán C4.5:

(1) ComputerClassFrequency(T);

(2) if OneClass or FewCases return a leaf; Create a decision node N;

(3) ForEach Attribute A

ComputeGain(A);

(4) N.test=AttributeWithBestGain;

(5) if (N.test is continuous) find Threshold;

(6) ForEach T' in the splitting of T

(7) If ( T' is Empty ) Child of N is a leaf else

(8) Child of N=FormTree(T');

(9) ComputeErrors of N; return N

C4.5 có những đặc điểm khác với các thuật toán khác, đó là: cơ chế chọn

thuộc tính để kiểm tra tại mỗi node, cơ chế xử lý với những giá trị thiếu,

việc tránh “quá vừa” dữ liệu, ước lượng độ chính xác và cơ chế cắt tỉa

cây.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

•Chuyển đổi sang luật: cắt tỉa cây

–Dạng luật: if A and B and C… then class X. Không thỏa mãn điều kiện chuyển
về lớp mặc định.

-xây dựng luật: 4 bước

•Mỗi đường đi từ gốc đến lá là một luật mẫu. Đơn giản luật mẫu

bằng cách bỏ dần điều kiện mà không ảnh hưởng tới độ chính xác của luật.

•Các luật đã cắt tỉa được nhóm lại theo giá trị phân lớp tạo ra các tập

con. Với mỗi tập con, xem xét để lựa chọn luật để tối ưu hóa độ

chính xác dự đoán của lớp gắn với tập luật đó.

•Sắp xếp các tập luật trên theo tần số lỗi. Lớp mặc định được tạo ra

bằng cách xác định các case trong tập S không chứa trong các luật

hiện tại và chọn lớp phổ biến nhất trong các case đó làm lớp mặc

định.

•Ước lượng đánh giá: các luật được ước lượng trên toàn tập S, loại

bỏ luật làm giảm độ chính xác của sự phân lớp.

– Hoàn thành: 1 tập các quy tắc đơn giản được lựa chọn cho mỗi lớp

•Đặc điểm C4.5:

– Chiếm thời gian sử dụng CPU và bộ nhớ lớn:

•VD: với 10k tới 100k case, tạo cây quyết định tăng từ 1,4s lên 61s, tạo

luật tăng từ 32s lên 9,715s.

– Sử dụng cơ chế lưu dữ liệu thường trú trong bộ nhớ => ứng dụng với

database nhỏ ( tần số lỗi lặp lại 4% với database 20000 cases).

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

– Có cơ chế xử lý thiếu, lỗi hoặc quá vừa dữ liệu.

– Luật tạo ra đơn giản.

• Ứng dụng vào bài toán phân lớp dữ liệu:

– Bước 1 (Học): xây dựng mô hình mô tả tập dữ liệu; khái niệm đã biết

• Input: tập dữ liệu có cấu trúc được tạo mô tả bằng các thuộc tính

• Output: Các luật If…Then

-Bước 2 (Phân loại): dựa trên mô hình đã xây dựng để phân lớp dữ liệu mới: đi
từ gốc đến các nút lá nhắm rút ra lớp của đối tượng cần xét.

-Ứng dụng vào bài toán phân lớp dữ liệu:

● Xử lý với dữ liệu thuộc tính liên tục: Sử dụng kiểm tra dạng nhị phân:
value(V) < h với h là hằng số ngưỡng (threshold)
● h được tìm bằng cách:
● Quick sort sắp xếp các case trong S theo các giá trị của thuộc tính
liên tục V đang xét =>V = {v1, v2, …, vm}
● hi = (vi + v(i+1))/2. Test phân chia dữ liệu:V <= hi hay V>hi =>
chia V thành V1={v1,v2,…, vi} và V2 = {vi+1, vi+2, …, vm} và
có hi (i=1…m-1)
● Tính Information gain hay Gain ratio với từng hi. Ngưỡng có giá
trị của Information gain hay Gain ratio lớn nhất sẽ được chọn làm
ngưỡng phân chia của thuộc tính đó.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

CHƯƠNG II: TÌM HIỂU VỀ CÁC CHUYÊN NGÀNH


CỦA NGÀNH CÔNG NGHỆ THÔNG TIN

1. Chuyên ngành máy học và ứng dụng

a. Máy học là gì?

Máy học là một thuật ngữ đề cập đến các chương trình máy tính có khả năng học
hỏi về cách hoàn thành các nhiệm, đồng thời cải thiện hiệu suất theo thời gian.

Học máy là một thành phần quan trọng của lĩnh vực khoa học dữ liệu đang phát
triển. Thông qua việc sử dụng phương pháp thống kê, các thuật toán được đào tạo
để phân loại hoặc dự đoán và khám phá những thông tin chi tiết trong các dự án
khai thác dữ liệu.

Những thông tin chi tiết này hỗ trợ, thúc đẩy việc đưa ra quyết định trong các ứng
dụng, công cụ hỗ trợ doanh nghiệp, người dùng. Khi khối lượng dữ liệu tiếp tục
mở rộng và phát triển, khả năng dự đoán, phân tích chính xác của máy học sẽ tăng
lên.

Do cần có nguồn dữ liệu cực lớn để “học”, máy học vẫn cần có sự tham gia của
con người trong việc tìm hiểu dữ liệu cơ sở và lựa chọn các kĩ thuật phù hợp để
phân tích thông tin, đánh giá mô hình. Đồng thời, trước khi sử dụng, dữ liệu phải
được làm sạch, không có sai lệch và không có dữ liệu giả.

Trước đây, các thuật toán máy học chưa được tiếp cận với một lượng lớn dữ liệu
đủ lớn để mô hình hóa mối quan hệ giữa các loại dữ liệu. Sự xuất hiện và phát
triển của công nghệ Dữ liệu lớn (Big data) đã cung cấp cho thuật toán machine
learning lượng dữ liệu đủ lớn để cải thiện độ chính xác của mô hình và dự đoán.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

b. So sánh học máy với học sâu và mạng nơ ron

Cụm từ học sâu (deep learning) và học máy có xu hướng được sử dụng thay thế
cho nhau. Trên thực tế, tuy có nhiều điểm tương tự nhưng chúng là 2 công nghệ
khác nhau. Học máy, học sâu và mạng nơ-ron (neural networks) đều là các lĩnh
vực nằm trong trí tuệ nhân tạo. Trong đó, học máy và học sâu là một lĩnh vực phụ
của mạng nơ-ron.

Máy học (machine learning) phụ thuộc nhiều hơn vào sự can thiệp của con người
để học. Công nghệ này thường yêu cầu lượng lớn dữ liệu có cấu trúc hơn để tìm
hiểu. Máy học vẫn cần có sự trợ giúp của con người trong việc tổng hợp, phân
loại và làm sạch dữ liệu.

Học sâu và học máy khác nhau ở cách mỗi thuật toán “học”. Học máy "sâu" có
thể sử dụng tập dữ liệu được gắn nhãn, còn được gọi là học có giám sát, để thông
báo cho thuật toán của nó, nhưng không nhất thiết phải yêu cầu tập dữ liệu được
gắn nhãn.

Học sâu (deep learning) có thể nhập dữ liệu phi cấu trúc ở dạng thô (Văn bản
hoặc hình ảnh) và tự động xác định tập hợp các tính năng giúp phân biệt nhiều
danh mục dữ liệu khác nhau với nhau.

Điều này hỗ trợ giảm bớt sự can thiệp của con người, cho phép sử dụng các tập
dữ liệu lớn hơn. Học sâu có thể được coi là công nghệ mở rộng của máy học.

Mạng nơ-ron (neural networks) hay còn gọi là mạng thần kinh nhân tạo (ANN -
Artificial neural networks), được sử dụng để dạy máy tính xử lý dữ liệu theo cách
thức tương tự bộ não con người. Mạng nơ-ron bao gồm các lớp nút, một lớp đầu
vào, một hoặc nhiều lớp ẩn và một lớp đầu ra.

Mạng nơ-ron giúp máy tính đưa ra các quyết định thông minh và cần rất ít sự hỗ
trợ của con người. Chúng có thể học hỏi và dựng lên mô hình các mối quan hệ
giữa dữ liệu đầu vào và đầu ra phi tuyến tính, phức tạp.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

Học sâu và mạng nơ-ron được công nhận đã giúp nhiều lĩnh vực công nghệ như
thị giác máy tính, xử lý ngôn ngữ tự nhiên và nhận dạng giọng nói có tiến bộ
nhanh chóng.

Kiến trúc của mạng nơ ron - Ảnh: Internet

c. Machine learning hoạt động như thế nào?

Công nghệ máy học hoạt động dựa trên mối quan hệ toán học sẵn có giữa bất kỳ
cách kết hợp dữ liệu đầu vào và kết quả nào. Mô hình máy học không biết trước
mối quan hệ này, nhưng có thể dự đoán chúng nếu được cung cấp đủ tập dữ liệu.

Tất cả các thuật toán máy học đều được xây dựng dựa trên hàm toán học có thể
chỉnh sửa. Máy học tập trung vào nguyên tắc rằng tất cả các điểm dữ liệu phức
tạp có thể được kết nối về mặt toán học bởi các hệ thống máy tính, miễn là những
hệ thống này có đủ dữ liệu và công suất điện toán để xử lý dữ liệu đó.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

Do vậy, độ chính xác của kết quả có mối tương quan trực tiếp và phụ thuộc khá
lớn vào khối lượng dữ liệu đầu vào.

d. Các phương pháp máy học

Các mô hình học máy được chia thành ba loại chính:

d.1. Máy học có giám sát

Học có giám sát được hiểu là cách sử dụng các tập dữ liệu được gắn nhãn để huấn
luyện thuật toán phân loại hoặc dự đoán kết quả một cách chính xác.

Học tập có giám sát giúp các tổ chức giải quyết nhiều vấn đề trong thực tế trên
quy mô lớn. Một số phương pháp được sử dụng trong học có giám sát bao gồm
mạng nơ-ron, mô hình phân lớp (Naive bayes), hồi quy tuyến tính, hồi quy
logistic, rừng ngẫu nhiên (Random forest) và máy hỗ trợ vectơ (SVM - support
vector machine ).

d.2. Học máy không giám sát

Học không giám sát, còn được gọi là học máy không giám sát, sử dụng các thuật
toán học máy để phân tích và phân cụm các tập dữ liệu không được gắn nhãn.
Các thuật toán này phát hiện ra các mẫu hoặc nhóm dữ liệu ẩn mà không cần sự
can thiệp của con người.

Khả năng phát hiện ra những điểm tương đồng và khác biệt trong dữ liệu của
phương pháp này khiến nó trở nên lý tưởng cho việc phân tích dữ liệu khám phá,
chiến lược bán chéo, phân khúc khách hàng cũng như nhận dạng hình ảnh và
mẫu.

Nó cũng được sử dụng để giảm số lượng các tính năng trong một mô hình thông
qua quá trình giảm kích thước. Phân tích thành phần chính (PCA -Principal
component analysis) và phân tích giá trị đơn lẻ (SVD - Singular value
decomposition) là hai cách tiếp cận phổ biến cho nhiệm vụ này.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

Các thuật toán khác được sử dụng trong học tập không giám sát bao gồm mạng
nơ-ron, phân cụm k-means và các phương pháp phân cụm theo xác suất.

d.3. Học tập bán giám sát

Học tập bán giám sát là sự kết hợp giữa học tập có giám sát và không giám sát.
Trong quá trình đào tạo, nó sử dụng một tập dữ liệu có nhãn nhỏ hơn học có giám
sát để hướng dẫn phân loại, trích xuất tính năng từ một tập dữ liệu lớn hơn, không
được gắn nhãn.

Học bán giám sát có thể giải quyết vấn đề trong trường hợp không có đủ dữ liệu
được gắn nhãn cho thuật toán học có giám sát.

e. Một số ứng dụng của máy học trong thực tiễn

Máy học hiện đã được áp dụng khá phổ biến hiện nay, do đó, có thể khá thường
xuyên bắt gặp một số ứng dụng của công nghệ này trong nhiều lĩnh vực thực tiễn
như:

e.1. Dịch vụ chăm sóc khách hàng

Chatbots trực tuyến đang dần thay thế con người trong hành trình chăm sóc và
nâng cao trải nghiệm khách hàng, thay đổi cách khách hàng tương tác trên các
trang web và nền tảng truyền thông xã hội.

Chatbots trả lời các câu hỏi thường gặp như chủ đề như vận chuyển, cung cấp lời
khuyên được cá nhân hóa, phù hợp với từng khách hàng, chính sách bán kèm sản
phẩm hoặc đề xuất kích thước cho người dùng.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

Chatbot hỗ trợ giải quyết tự động các vấn đề thường gặp của khách hàng - Ảnh:
Internet

e.2. Thị giác máy tính

Thị giác máy tính cho phép máy tính lấy thông tin có ý nghĩa từ hình ảnh kỹ thuật
số, video và các đầu vào trực quan khác, sau đó thực hiện hành động thích hợp.

Được hỗ trợ bởi mạng nơ-ron phức hợp, công nghệ này có nhiều lợi ích trong
việc gắn thẻ ảnh trên mạng xã hội, chụp ảnh X-quang trong chăm sóc sức khỏe,
dẫn đường cho xe hơi tự lái trong ngành công nghiệp ô tô,...

e.3. Công cụ đề xuất

Sử dụng dữ liệu hành vi tiêu dùng trong quá khứ, các thuật toán máy học giúp
phán đoán các xu hướng có thể xảy ra trong tương lai. Do đó, công nghệ máy học

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

được sử dụng để phát triển các chiến lược bán hàng hiệu quả hơn. Cách tiếp cận
này được các nhà bán lẻ trực tuyến sử dụng để đưa ra các đề xuất sản phẩm có
liên quan đến với khách hàng trong quá trình thanh toán.

e.4. Giao dịch chứng khoán tự động

Được thiết kế để tối ưu hóa danh mục đầu tư chứng khoán, các nền tảng giao dịch
tần suất cao do công nghệ máy học, trí tuệ nhân tạo điều khiển thực hiện hàng
nghìn hoặc thậm chí hàng triệu giao dịch mỗi ngày mà không cần sự can thiệp
của con người.

e.5. Phát hiện gian lận

Ngân hàng và các tổ chức tài chính khác có thể sử dụng máy học để phát hiện
những giao dịch đáng ngờ. Trường học có thể giám sát quá trình thi cử bằng mô
hình sử dụng thông tin về các cách thức gian lận đã xuất hiện trước đó.

Sau khi phát hiện bất thường bằng máy học, con người cần thực hiện thêm các
bước điều tra, xác minh để đảm bảo kết quả chính xác.

Máy học là công cụ hữu ích, đóng vai trò quan trọng trong sự phát triển và tiến
bộ của ngành trí tuệ nhân tạo, làm cho đời sống con người hiện đại và thuận tiện
hơn.

2.Ngành an ninh mạng là gì?


Chuyên ngành an ninh mạng được hiểu là ngành bảo vệ các mạng lưới thông tin và
máy tính khỏi nguy cơ bị xâm nhập và bị đánh cắp các thông tin bảo mật. Như chúng
ta đã biết, hiện nay, hầu hết mọi người sử dụng máy tính và internet vào các công
việc như trao đổi thông tin online, mua sắm trực tuyến hay, giải trí, hay thậm chí là
các trang thanh toán trực tuyến, v.v.

Khi đó các thông tin cá nhân của mình phần lớn đều được cung cấp và lưu trữ trên
các hệ thông mạng.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

Vì thế, nhiêm vụ của ngành an ninh mạng là phát hiện và ngăn chặn các cuộc tấn
công mạng để bảo vệ lượng thông tin đó. Hơn thế nữa, để làm được điều này, các
chuyên gia an ninh mạng phải thiết lập hàng rào bảo vệ các hệ thống điều hành không
chỉ từ bên ngoài mà phải bảo vệ cả bên trong

Ngành an ninh mạng được rất nhiều các bạn trẻ quan tâm

a.Ngành an ninh mạng thi khối nào?

Vậy học ngành an ninh mạng thi khối nào? Hiện nay, ngành an ninh mạng là một
ngành vô cùng thiết yếu trong thời đại công nghệ thông tin nên đã và đang được
nhiều trường đại học, cao đẳng quan tâm và đưa vào đào tạo chuyên sâu. Các bạn
học sinh muốn theo đuổi ngành an ninh mạng có thể tham khảo các khối thuộc ban
tự nhiên dưới đây:

 Khối A: Toán – Lý – Hóa


 Khối A1: Toán – Lý – Anh
 Khối D: Toán – Văn – Anh
 Khối D90: Toán – Anh – KHTN

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

b.Học an ninh mạng là học những gì?

Dựa theo Tiêu chuẩn học thuật của NSA, chương trình đào tạo chuyên ngành An
ninh mạng cần bao gồm các học phần dưới dây:

 Lập trình máy tính đại cương


 Mật mã học đại cương
 Nguyên tắc bảo đảm thông tin
 Nguyên tắc thiết kế bảo mật
 Chính sách, Pháp lý và Đạo đức
 Phân tích dữ liệu
 Phòng thủ trên không gian mạng
 Rủi ro trên không gian mạng
 Điện toán đám mây
 Hệ thống công nghệ thông tin
 Mạng lưới thông tin
 Quản trị hệ thống

Một số trường sẽ tập trung chủ yếu vào lập trình, trong khi một số lại chú trọng vào
pháp y kỹ thuật số (điều tra số), chính sách an ninh hay những mảng rộng hơn. Ngoài
ra, giáo án chương trình giảng dạy là điều quan trọng cần chú ý khi xem xét một
chương trình đào tạo chuyên ngành này.

Hãy chắc chắn rằng giáo án đó bao gồm cả lập trình máy tính và cung cấp cho bạn
kinh nghiệm thực tế vì điều này sẽ có ích cho nghề nghiệp sau này của bạn.

c.An ninh mạng học ở đâu?

c.1 Học an ninh mạng ở Việt Nam


Một câu hỏi cần đặt ra nữa là học an ninh mạng học ở đâu? Hiện nay tại Việt Nam,
các trường đại học không ngừng hoàn thiện và nâng cao chương trình giảng dạy
chuyên ngành an ninh mạng để đảm bảo chất lượng giảng dạy cũng như đáp ứng nhu
cầu thị trường lao động chuyên môn cao.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

Dưới đây là danh sách các trường đào tạo ngành an ninh mạng tiêu biểu ở nước ta:

 Học Viện Kỹ thuật Mật mã


 Đại học Công nghệ – Đại học Quốc gia Hà Nội
 Đại học Bách Khoa Hà Nội
 Học Viện Kỹ thuật Quân sự
 Học Viện Công Nghệ Bưu chính – Viễn thông
 Học Viện An ninh nhân dân (Bộ Công an)
 Đại học Công nghệ Thông tin – Đại học Quốc gia TP.HCM
 Đại học FPT HCM

c.2 Học an ninh mạng ở trường quốc tế

Hiện nay, quá trình hoàn thiện giáo án giảng dạy chuyên ngành An ninh mạng của
các trường đại học và cao đẳng vẫn đang được cải tiến và vì thế, chất lượng giảng
dạy của các chương trình đào tạo lại càng tốt hơn. Dưới đây là danh sách một số
trường đào tạo chuyên ngành An ninh mạng tốt nhất thế giới:

 Học viện Công nghệ Georgia, tại Mỹ


 US Đại học Purdue, tại Mỹ
 Đại học Abertay, tại Vương quốc Anh
 Đại học Winnipeg, tại Canada
 Đại học Khoa học Ứng dụng Berlin, tại Đức

CHƯƠNG III: BIG DATA TRONG


TƯƠNG LAI
1. BIG DATA trong tương lai.
5 năm nữa, dữ liệu sẽ được sản xuất gấp gần 45 lần so với 5 năm trước đây. Với
lượng dữ liệu khổng lồ này, doanh nghiệp không thể lờ đi trước cuộc cách mạng

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

dữ liệu và ảnh hưởng của nó tới nền kinh tế thời kỹ thuật số. Những ông chủ
doanh nghiệp thông minh sẽ tìm cách khai thác thông tin và biết cách vận dụng
những công cụ phân tích cần thiết để biến một người dùng Facebook trở thành
một khách hàng trọn đời.

Trong khi đó, Daniel Kaufman, giám đốc đổi mới về thông tin của cơ quan
nghiên cứu thuộc Bộ quốc phòng Mỹ thì cho rằng dữ liệu sinh học sẽ ngày càng
được quan tâm hơn, và rồi người ta sẽ dùng dữ liệu này để đưa ra những lời
khuyên có ảnh hưởng lớn đến lối sống và cuộc đời của con người. Ví dụ, bạn có
nên thêm một dĩa cơm tấm sườn nữa không, hay là nên ăn thêm một dĩa cơm
gà? Bộ quốc phòng Mỹ muốn sử dụng kiểu suy nghĩ như thế (thay cơm bằng
pizza nhé) để áp dụng cho binh lính của mình và hiện họ đang thử nghiệm trên
chuột.

Không chỉ có các công ty lớn, các công ty khởi nghiệp (startup) cũng bắt tay
vào sử dụng và nghiên cứu về Big Data, cho chúng ta thấy tầm quan trọng của
Big Data đối với cuộc sống hiện đại ngày nay và trong tương lai (đó cũng là lý
do mà khuyên các bạn có định hướng học CNTT thì Big Data cũng là một gợi ý
rất giá trị.)

Giám đốc Swan còn suy nghĩ thêm rằng các công ty chuyên cung cấp giải pháp
Big Data sẽ không còn bán dữ liệu và phân tích cho từng doanh nghiệp hay
công ty riêng lẻ để phục vụ cho những mục đích quá chuyên biệt. Thay vào đó,
họ sẽ mở rộng nó và áp dụng Big Data nhằm giải quyết những vấn đề trong đời
thường và trả lời cho các nhu cầu cơ bản của con người. Đó sẽ là sự thay đổi về
tính ứng dụng của Big Data.

Trong tương lai thì chắc các bạn điều biết sự phát triển mạnh mẽ như thế nào
của Internet vạn vật (IoT), hàng tỉ tỉ các thiết bị kết nối Internet chia sẻ thông
tin, bạn có thể điều khiển, quản lý mọi thứ trong nhà của bạn từ xa thông qua
smartphone,… đó là viễn cảnh tương lai chắc chắn sẽ xảy ra. Cùng với sự phát
triển đó thì nguồn dữ liệu sẽ tăng theo cấp số nhân và Big Data sẽ vô cùng to

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

lớn và nó cũng sẽ làm đau đầu các nhà phân tích, hoạch định chính sách làm sao
để quản lý, phát triển Big Data một cách có lợi nhất cho chúng ta. Và không để
mình không bắt kịp xu thế, các công ty tập đoàn cộng nghệ lớn đã bắt tay đầu tư
vào IoT để có thể làm chủ Big Data trong thời gian sắp tới.

Các Startup sử dụng Big Data theo thống kê từ CBInsights

Trong tương lai, chúng ta sẽ còn tiếp tục chứng kiến sự tăng trưởng của Big
Data. Hiện nay có thể bạn cũng đã nghe đến khái niệm Internet of Things, tức là
mang Internet đến với mọi thứ trong đời sống hằng ngày. Dữ liệu từ Internet of
Things thực chất cũng là được thu thập từ một mạng lưới rất nhiều các cảm biến
và thiết bị điện tử, và nó cũng là một trong những nguồn của Big Data. Lượng
dữ liệu khổng lồ này có thể cho các nhà nghiên cứu biết được hành vi tiêu dùng
của khách hàng, từ đó tinh chỉnh những thiết bị Internet of Things cho phù hợp
hơn, bắt chúng phục vụ đời sống hằng ngày của chúng ta một cách hiệu quả
hơn. Nó cũng có thể được dùng cho việc sản xuất, từ đó giảm sự liên quan của

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

con người. Như lời của Daniel Kaufman dự đoán thì “con người sẽ làm ít hơn”
nhờ Big Data.

2. Các kỹ thuật trong big data


- Một số kỹ thuật quan trọng trong big data:

+ Hadoop: Hadoop là một nền tảng mã nguồn mở cho xử lý dữ liệu lớn. Nó sử


dụng Hadoop Distributed File System (HDFS) để lưu trữ dữ liệu lớn và sử dụng
Apache MapReduce để phân tán và xử lý dữ liệu trên nhiều máy chủ.

+hình ảnh về hadoop:

+Apache Spark: Spark là một framework xử lý dữ liệu lớn mã nguồn mở, giúp
xử lý dữ liệu nhanh hơn so với MapReduce. Nó hỗ trợ xử lý dữ liệu batch và dữ
liệu stream, cũng như cung cấp thư viện cho xử lý đồ thị và học máy.

+hình ảnh về apache spark:

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

+NoSQL Databases: Để lưu trữ và truy xuất dữ liệu lớn, nhiều hệ thống sử dụng
cơ sở dữ liệu NoSQL như MongoDB, Cassandra, HBase và Redis thay vì cơ sở
dữ liệu SQL truyền thống.

+hình ảnh về nosql databases:

+Xử lý thời gian thực (Real-time Processing): Các kỹ thuật xử lý dữ liệu thời
gian thực như Apache Kafka cho phép xử lý và phân tích dữ liệu ngay khi nó
được tạo ra.

+ hình ảnh về real-time processing:

+Xử lý đám mây (Cloud Computing): Sử dụng các dịch vụ đám mây như
Amazon Web Services (AWS), Google Cloud Platform (GCP) và Microsoft
Azure để lưu trữ, xử lý và quản lý dữ liệu lớn.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

+Xử lý dữ liệu không cấu trúc (Unstructured Data): Các kỹ thuật và công cụ xử
lý dữ liệu không cấu trúc, chẳng hạn như dữ liệu văn bản, hình ảnh và video,
bao gồm xử lý ngôn ngữ tự nhiên (NLP) và thị giác máy tính.

+Machine Learning và AI: Sử dụng machine learning và trí tuệ nhân tạo để
phân tích và rút trích thông tin quan trọng từ dữ liệu lớn.

+Distributed Computing: Kỹ thuật phân tán cho phép xử lý dữ liệu trên nhiều
máy tính song song, giúp tăng hiệu suất và hiệu năng của hệ thống.

+Data Warehousing: Lưu trữ dữ liệu lớn trong các kho dữ liệu (data
warehouses) để truy xuất dễ dàng và thực hiện các phân tích dự liệu phức tạp.

+Data Mining và Data Visualization: Sử dụng kỹ thuật data mining để khám


phá thông tin ẩn trong dữ liệu lớn và sử dụng data visualization để biểu đồ hóa
dữ liệu để hiểu rõ hơn và dự đoán các xu hướng.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

CHƯƠNG IV: TÌM HIỂU VỀ KỸ NĂNG


SOẠN THẢO VĂN BẢN VÀ THUYẾT
TRÌNH
1. Tìm hiểu về soạn thảo văn bản ở văn bản hành chính
a. Văn bản hành chính là gì?
Đây là loại văn bản thường dùng để truyền đạt những nội dung và yêu cầu nào đó
từ cấp trên xuống. Hoặc bày tỏ ý kiến của cá nhân, tập thể tới các cơ quan có
quyền hạn để giải quyết.
Là loại văn bản mang tính thông tin quy phạm Nhà nước. Cụ thể hóa việc thi hành
văn bản pháp quy, giải quyết những vụ cụ thể trong khâu quản lý.
Là những văn bản mang tính quy phạm hành chính nhà nước. Văn bản hành chính
có nhiều vai trò khác nhau. Đó có thể là thông báo, truyền đạt thông tin từ tổ chức,
cá nhân, cơ quan nhà nước này đến một hay nhiều tổ chức, cá nhân khác.
Có thể dùng để cụ thể hóa những văn bản pháp quy. Hoặc để giải quyết những
công việc cụ thể trong quá trình quản lý, điều hành một tổ chức.
Hàng ngày, chúng ta tiếp xúc với rất nhiều văn bản như quyết định của cơ quan
nhà nước. Chẳng hạn như quyết định nâng lương, quyết định xử lý luật lao động,
thông báo cuộc họp, thư mời cuộc họp… Căn cứ vào nội dung và hình thức của
các văn bản đó, ta có thể phân loại nó thành văn bản hành chính.
b. Các loại văn bản hành chính

Văn bản hành chính gồm các loại văn bản sau: Nghị quyết (cá biệt), quyết định
(cá biệt), chỉ thị, quy chế, quy định, thông cáo, thông báo, hướng dẫn, chương
trình, kế hoạch, phương án, đề án, dự án, báo cáo, biên bản, tờ trình, hợp đồng,
công văn, công điện, bản ghi nhớ, bản thỏa thuận, giấy ủy quyền, giấy mời, giấy
giới thiệu, giấy nghỉ phép, phiếu gửi, phiếu chuyển, phiếu báo, thư công.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

c. Kỹ thuật trình bày văn bản hành chính:

1.Khổ giấy: Khổ A4 (210 mm x 297 mm).

2.Kiểu trình bày: Theo chiều dài của khổ A4. Trường hợp nội dung văn bản
có các bảng, biểu nhưng không được làm thành các phụ lục riêng thì văn
bản có thể được trình bày theo chiều rộng.

3.Định lề trang: Cách mép trên và mép dưới 20 - 25 mm, cách mép trái 30 -
35 mm, cách mép phải 15-20 mm.

4.Phông chữ: Phông chữ tiếng Việt Times New Roman, bộ mã ký tự Unicode
theo Tiêu chuẩn Việt Nam TCVN 6909:2001, màu đen.

5.Cỡ chữ và kiểu chữ: Theo quy định cụ thể cho từng yếu tố thể thức.

6.Vị trí trình bày các thành phần thể thức: Được thực hiện theo Mục IV Phần I
Phụ lục

7.Số trang văn bản: Được đánh từ số 1, bằng chữ số Ả Rập, cỡ chữ 13 đến 14,
kiểu chữ đứng, được đặt canh giữa theo chiều ngang trong phần lề trên của
văn bản, không hiển thị số trang thứ nhất.

d. Các thể thức trong văn bản hành chính

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

2. Kỹ năng thuyết trình


a. Khái niệm kỹ năng thuyết tình
Kỹ năng thuyết trình là khả năng trình bày, diễn đạt, truyền đạt thông tin,
ý tưởng một cách rõ ràng, logic và thuyết phục trước đám đông hoặc khán
giả. Kỹ năng thuyết trình tốt bao gồm sự kết hợp của nhiều yếu tố: Sự
hiểu biết về chủ đề: Người trình bày cần phải nắm vững kiến thức về chủ
đề mình đang thuyết trình.
b. Các bước thuyết trình thuyết phục người xem
1. Xác định chủ đề bài thuyết trình

Trước hết bạn cần xác định rõ chủ đề và thông điệp mà bạn muốn thông báo,
truyền tải đến người nghe là gì.
Sau đó thì chuẩn bị nội dung, thông tin cần trình bày, bố cục bài trình chiếu hoặc
các dẫn chứng kèm theo. Hãy chắc chắn rằng bạn hiểu những gì bạn muốn truyền
đạt và hướng đến đối tượng là ai? Điều này sẽ giúp bạn xác định thông điệp nào
sẽ được đưa vào bài và cách gửi nó đến người nghe một các hiệu quả nhất.

2. Nắm rõ quy tắc 10 – 20 – 30


Bạn đã nghe đến quy tắc 10 – 20 – 30 chưa? Quy tắc này được nhà đầu tư Guy
Kawasaki chia sẻ trên blog của ông, nó tập trung vào sự cụ thể và khả năng hiển
thị hiệu quả của bản trình bày PowerPoint.
10 trang trình bày
Bằng cách giới hạn trong 10 slide trình bày, bạn sẽ dễ quản lý và quan sát được
khán giả của mình đang tiếp thu kiến thức như thế nào. Họ cũng sẽ dễ dàng nắm
bắt được các ý chính trong bài thuyết trình của bạn tốt hơn là một bài nói quá dài
nhưng có nhiều các nội dung không cần thiết.
20 phút

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

Bằng cách đề ra thời gian giới hạn trong bài thuyết trình, bạn cần phải lược bớt
những chi tiết không cần thiết và tập trung vào những nội dung quan trọng sẽ
truyền tải thông điệp của bạn.
Ngay cả khi phiên của bạn được phân bổ nhiều thời gian hơn, bạn cũng nên dành
ít nhất 10 phút còn lại cho các cuộc thảo luận, câu hỏi hoặc giao lưu với người
nghe. Đây cũng là kỹ năng quản lý thời gian mà bạn cần có cho một bài thuyết
trình thành công.
Phông chữ cỡ 30
Tùy thuộc vào kích thước phòng và màn hình, hầu hết khán giả sẽ có thể nhìn
thấy văn bản có phông chữ ít nhất là cỡ 30. Khi thiết kế bản trình bày của bạn,
hãy nhớ rằng mọi thứ bạn thể hiện phải hiển thị cho mọi người tham dự, đặc biệt
là những người ở phía sau.
Tuy nhiên, đây cũng là quy tắc để tham khảo, còn tùy thuộc vào nội dung trình
bày, tình huống cụ thể mà bạn có thể linh hoạt, trình bày ngắn gọn và dễ nhìn.
3. Trình bày nội dung một cách khoa học
Để một bài thuyết trình thành công thì cách trình bày bài thuyết trình rất quan
trọng. Vì vậy cần chia ra thành các phần nhỏ như: đặt vấn đề, nội dung chính và
cuối cùng là kết luận. Không nên bắt đầu bài thuyết trình bằng cách đưa ra giải
thích và hàng loạt các dẫn chứng, các số liệu mà quên giới thiệu chủ đề, điều
khiến người nghe không hiểu được bạn đang nói về vấn đề gì; cũng không nên
trình bày quá nhiều mà không kết luận chốt lại vấn đề. Tránh tình trạng đang nói
vấn đề này lại chuyển sang vấn đề khác khiến bài thuyết trình lan man, không tập
trung và gây rối cho người nghe.
4. Thiết kế bảng trình chiếu
Để đạt được thành công cho buổi thuyết trình thì bạn không nên bỏ qua bước thiết
kế các trang trình chiếu rõ ràng, thu hút người xem.
Ứng dụng Power Point là công cụ được sử dụng phổ biến nhất, giúp người nghe
có thể dễ dàng hiểu được những điều mà bạn đang truyền tải thông qua hình ảnh,

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

các video, biểu đồ… Ngoài ra, còn có các ứng dụng khác như LibreOffice
Impress, ứng dụng Google Slides, Prezi trực tuyến, PowToon trực tuyến…

Đa dạng các mẫu template trong trình PowerPoint – Hình: business.tutsplus

Thêm vào đó, để slide trình chiếu sinh động hơn, bạn nên sử dụng thêm các hiệu
ứng, kỹ xảo, các template nổi bật, hình ảnh sử dụng chất lượng cao… Nhưng bạn
nhớ chọn lọc hình ảnh phù hợp và không nên lạm dụng nhiều hiệu ứng trong cùng
1 slide.
5. Kiểm soát thời gian thuyết trình
Như quy tắc đã được đề cập trước đó, thì thời gian luôn là yếu tố quan trọng khi
thuyết trình. Bạn cần phải trau dồi kỹ năng quản lý thời gian và chuẩn bị thật tốt
bài thuyết trình. Nếu bạn có 30 phút để trình bày, chỉ nên sử dụng 20 – 25 phút.
Kết thúc sớm trước 5 phút để khán giả có thể đặt câu hỏi, nhận xét phần trình của
bạn hoặc có thể mời họ gặp bạn sau buổi thuyết trình.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

Kiểm soát thời gian tốt để bài thuyết trình đạt hiệu quả – Hình: freepik

6. Phong thái tự tin


Hầu hết các sinh viên năm nhất vẫn chưa quen với việc thuyết trình nên vẫn còn
rụt rè và ngại khi đứng trước đám đông. Vì vậy để có được phong thái tự tin bạn
cần rèn luyện bản thân mình bằng cách giao tiếp với các bạn nhiều hơn, chuẩn bị
kỹ bài nói của mình trước khi thuyết trình và giữ cho đầu óc được thoải mái nhất
có thể trước khi lên thuyết trình.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

Sinh viên tự tin trình bày bằng tiếng Anh trong cuộc thi sáng tạo BK Innovation
2020

7. Tận dụng ngôn ngữ cơ thể


Để trở thành một người thuyết trình cuốn hút, nội dung hay là chưa đủ mà bạn
còn cần thêm ngôn ngữ cơ thể. Bạn vẫn có thể sử dụng ngôn ngữ cơ thể hiệu quả
với một số mẹo nhỏ như nhìn vào trán thay vì nhìn vào mắt người đối diện; giọng
nói to nhỏ, cắt nghỉ phù hợp; tránh để tay sau lưng hay chỉ trực diện vào người
nghe… và đừng quên nụ cười tươi của bạn.
Ngoài các cử chỉ phi ngôn từ trên thì bạn cũng cần biết rằng trang phục, đầu tóc,
mùi hương… cũng cho thấy sự tự tin, chuyên nghiệp và góp phần quan trọng tạo
nên sự thành công cho bài thuyết trình của bạn.
8. Giao lưu và chủ động đặt câu hỏi với khán giả
Việc giao lưu và tương tác với khán giả sẽ giúp bạn thoải mái hơn và không bị
phụ thuộc quá nhiều vào giấy hay bảng trình chiếu. Hãy đặt thật nhiều câu hỏi
mở để tương tác cùng người nghe và cuối cùng bạn là người chốt lại vấn đề.

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

Thuyết trình không đơn thuần đọc và trình bày nội dung ý tưởng của bạn mà nó
còn là sự tương tác giữ người nói và người nghe. Việc hỏi khán giả để cùng thảo
luận và tìm ra câu trả lời, khán giả được tương tác sẽ hào hứng vào bị hút vào bài
nói chuyện của bạn.

Tương tác với người nghe giúp thông tin truyền đạt được hiệu quả hơn

Đồ án môn công tác kỹ sư CNTT


Đề tài: BIG DATA

Đồ án môn công tác kỹ sư CNTT

You might also like