You are on page 1of 30

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ GIAO THÔNG VẬN TẢI

KHOA CÔNG NGHỆ THÔNG TIN


*****

HỌC PHẦN: ĐIỆN TOÁN ĐÁM MÂY


ĐỀ TÀI: TÌM HIỂU VỀ BIG DATA

Giảng viên hướng dẫn : Nguyễn Đình Nga

Nhóm 1 : Nguyễn Trà My

Mai Thế Dân

Ngô Thị Thanh Vân

Trần Thu Ngọc Phụng

Nguyễn Văn Sâm

Lớp : 73DCTT23

Hà Nội, tháng 11 năm 2023


Mục Lục

Mở Đầu...........................................................................................................................4
Nội Dung.........................................................................................................................5
Chương 1: Cơ sở lý thuyết về Big Data và Điện toán đám mây............................5
1.1 Giới thiệu tổng quát về Big Data (Dữ liệu lớn)..................................................5
1.2 Giới thiệu tổng quát về Điện toán đám mây.......................................................8
Chương 2: Ứng dụng của Big Data........................................................................12
2.1 Ứng dụng big data lĩnh vực ngân hàng.............................................................12
2.2 Ứng dụng của big data trong Y tế.....................................................................12
2.3 Ứng dụng của Big Data trong thương mại điện tử...........................................13
2.4 Ứng dụng Big Data vào Giáo dục....................................................................13
2.5 Big Data và Cloud (Điện toán đám mây).........................................................14
2.6 Dịch vụ khách hàng sử dụng Big Data.............................................................14
2.7 Big Data đối với ngành bán lẻ..........................................................................14
2.8 Ứng dụng Big Data trong Digital Marketing....................................................15
2.9 Lĩnh vực truyền thông & Giải trí......................................................................15
Chương 3: Redshift trên Amazon..........................................................................16
3.1 Khái niệm.........................................................................................................16
3.2 Lịch sử phát triển:.............................................................................................16
3.3 Đặc điểm...........................................................................................................17
3.4 Các khái niệm quan trọng Redshift..................................................................18
3.5 Ứng dụng của Amazon Redshift......................................................................19
Chương 4: Demo Sản Phẩm:..................................................................................20
Kết Luận.......................................................................................................................28
Tài liệu tham khảo.......................................................................................................29

2
Bảng phân công công việc
STT Mã SV Thành viên Công việc Deadline Đánh giá Ghi chú
mức độ
đóng góp
1 73DCTT22414 Mai Thế Dân 4/11 20%
2 73DCTT23241 Nguyễn Trà My 4/11 20% Nhóm
trưởng
3 73DCTT22236 Trần Thu Ngọc 4/11 20%
Phụng
4 73DCTT22166 Nguyễn Văn Sâm 4/11 20%
5 73DCTT22248 Ngô Thị Thanh 4/11 20%
Vân

3
Mở Đầu

Trước đây, chúng ta mới chỉ biết đến dữ liệu có cấu trúc (structure data), ngày
nay, với sự kết hợp của dữ liệu và internet, đã xuất hiện một dạng khác của dữ liệu -
Bigdata (dịch là “dữ liệu lớn”). Dữ liệu này có thể từ các nguồn như: hồ sơ hành chính,
giao dịch điện tử, dòng trạng thái (status), chia sẻ hình ảnh, bình luận, nhắn tin...của
chính chúng ta, nói cách khác chúng là dữ liệu được sản sinh qua quá trình chia sẻ
thông tin trực tuyến liên tục của người sử dụng.

4
Nội Dung

Chương 1: Cơ sở lý thuyết về Big Data và Điện toán đám mây

1.1 Giới thiệu tổng quát về Big Data (Dữ liệu lớn)

Dưới sự bùng nổ của CNTT, IoT cùng với sự phát triển nhanh chóng của dữ
liệu toàn cầu, thuật ngữ Big Data đã trở nên quen thuộc và được sử dụng để mô
tả các hệ thống xử lý dữ liệu lớn. Các dữ liệu được sản sinh ra như một tài
nguyên quý giá có thể khai thác. Nếu như trước đây, các loại dữ liệu truyền
thống có cấu trúc (Họ tên, giới tính, địa chỉ…) được lưu trữ với số lượng hạn
chế, tích lũy chậm và có thể được cập nhật liên tục hoặc không (tùy thuộc vào
hạ tầng), thì với Big Data, nó được tạo ra với khối lượng lớn, chủ yếu là dữ liệu
bán cấu trúc (các bài đăng trên mạng xã hội có hình ảnh kèm theo thẻ bắt đầu
bằng #), hoặc dữ liệu không có cấu trúc (hồ sơ y tế của hàng triệu bệnh nhân).
Không chỉ vậy, Big Data còn được thu thập liên tục và được phân tích ngay khi
nó được sinh ra. Với sự phát triển này của Big Data vừa giúp cho các doanh
nghiệp có cơ hội được hiểu thêm về giá trị tiềm tàng của dữ liệu vừa đưa thêm
thách thức mới cho họ trong quá trình lưu trữ và vận hành. Trong những năm
gần đây, với các giá trị tiềm năng to lớn của Big Data đem lại đã khiến cho
nhiều ngành khoa học, công nghiệp đặc biệt quan tâm. Nhiều tổ chức, cơ quan
chính phủ đã công bố kế hoạch trong việc phát triển nghiên cứu và ứng dụng
Big Data. Không chỉ vậy, các phương tiện thông tin đại chúng có tiếng như báo
Economist, New York Times và Nation Public Radio cũng thường xuyên nhắc
đến các vấn đề liên quan tới Big Data. Đặc biệt, các thách thức và tác động
trong việc xử lý dữ liệu lớn đã được hai tạp chí khoa học đầu ngành là Nature
và Science mở chuyên mục riêng. Chính vì vậy, khi chúng ta tìm kiếm từ khóa
“Big Data” đã trả ra vô vàn bài viết liên quan trên mạng Internet. Có thể nói
rằng kỷ nguyên của Big Data đã đến. [1]

1.1.1 Khái niệm về Big Data


- Big Data là các tập dữ liệu có khối lượng lớn và phức tạp. Độ lớn đến
mức các phần mềm xử lý dữ liệu truyền thống không có khả năng thu thập,
quản lý và xử lý dữ liệu trong một khoảng thời gian hợp lý. Những tập dữ liệu
lớn này có thể bao gồm các dữ liệu có cấu trúc, không có cấu trúc và bán cấu
trúc. [2]

1.1.2 Đặc trưng của Big Data

Năm 2001, công ty phân tích Metagroup (nay là Gartner) đã giới thiệu các nhà
khoa học và nhà phân tích dữ liệu cho các đặc trưng của Big Data là 3V đó là
Volume (khối lượng), Velocity (tốc độ) và Variety (đa dạng). Sau một khoảng
thời gian, dữ liệu này đã phát triển nhanh chóng về kích thước đến nỗi nó được
gọi là dữ liệu lớn (Big Data). Vì thế 2Vs mới được thêm vào, đó là Value (giá
trị) và Veracity (chính xác). [1]

5
Mô hình 5Vs được mô tả như sau:

(1) Khối lượng dữ liệu (Volume): Đây là đặc điểm tiêu biểu nhất của dữ liệu
lớn, khối lượng dữ liệu rất lớn. Kích cỡ của Big data đang từng ngày tăng lên,
và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến
nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu. Dữ
liệu truyền thống có thể lưu trữ trên các thiết bị đĩa mềm, đĩa cứng. Nhưng với
dữ liệu lớn chúng ta sẽ sử dụng công nghệ “đám mây” mới đáp ứng khả năng
lưu trữ được dữ liệu lớn.

(2) Tốc độ (Velocity): Tốc độ có thể hiểu theo 2 khía cạnh:

(a) Khối lượng dữ liệu gia tăng rất nhanh (mỗi giây có tới 72.9 triệu các yêu cầu
truy cập tìm kiếm trên web bán hàng của Amazon);

(b) Xử lý dữ liệu nhanh ở mức thời gian thực (real-time), có nghĩa dữ liệu được
xử lý ngay tức thời ngay sau khi chúng phát sinh (tính đến bằng mili giây). Các
ứng dụng phổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không,
Quân sự, Y tế – Sức khỏe như hiện nay phần lớn dữ liệu lớn được xử lý real-
time. Công nghệ xử lý dữ liệu lớn ngày nay đã cho phép chúng ta xử lý tức thì
trước khi chúng được lưu trữ vào cơ sở dữ liệu.

(3) Đa dạng (Variety): Đối với dữ liệu truyền thống chúng ta hay nói đến dữ
liệu có cấu trúc, thì ngày nay hơn 80% dữ liệu được sinh ra là phi cấu trúc (tài
liệu, blog, hình ảnh, video, bài hát, dữ liệu từ thiết bị cảm biến vật lý, thiết bị
chăm sóc sức khỏe…). Big data cho phép liên kết và phân tích nhiều dạng dữ
liệu khác nhau. Ví dụ, với các bình luận của một nhóm người dùng nào đó trên
Facebook với thông tin video được chia sẻ từ Youtube và Twitter.

(4) Độ tin cậy/chính xác: (Veracity) Một trong những tính chất phức tạp nhất
của Dữ liệu lớn là độ tin cậy/chính xác của dữ liệu. Với xu hướng phương tiện
truyền thông xã hội (Social Media) và mạng xã hội (Social Network) ngày nay
và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng Mobile làm
6
cho bức tranh xác định về độ tin cậy & chính xác của dữ liệu ngày một khó
khăn hơn. Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là
tính chất quan trọng của Big data.

(5) Giá trị (Value): Giá trị là đặc điểm quan trọng nhất của dữ liệu lớn, vì khi
bắt đầu triển khai xây dựng dữ liệu lớn thì việc đầu tiên chúng ta cần phải làm
đó là xác định được giá trị của thông tin mang lại như thế nào, khi đó chúng ta
mới có quyết định có nên triển khai dữ liệu lớn hay không. Nếu chúng ta có dữ
liệu lớn mà chỉ nhận được 1% lợi ích từ nó, thì không nên đầu tư phát triển dữ
liệu lớn. Kết quả dự báo chính xác thể hiện rõ nét nhất về giá trị của dữ liệu lớn
mang lại. Ví dụ, từ khối dữ liệu phát sinh trong quá trình khám, chữa bệnh sẽ
giúp dự báo về sức khỏe được chính xác hơn, sẽ giảm được chi phí điều trị và
các chi phí liên quan đến y tế. [3]

1.1.3 Ưu điểm và nhược điểm của Big Data

Big Data mang đến nhiều lợi ích và tiềm năng, nhưng cũng đồng thời đặt ra
một số nhược điểm và thách thức. Dưới đây là một số ưu và nhược điểm của
Big Data:

*Ưu điểm:

- Tiềm năng thông tin: Big Data cho phép khám phá thông tin giá trị từ
lượng dữ liệu lớn và đa dạng. Nó có thể cung cấp cái nhìn sâu sắc và hiểu
biết sâu về các mô hình, xu hướng và quy luật ẩn trong dữ liệu.
- Quyết định dựa trên dữ liệu: Big Data hỗ trợ quá trình ra quyết định dựa
trên dữ liệu chính xác và đáng tin cậy. Từ việc phân tích dữ liệu, người
dùng có thể tìm ra thông tin quan trọng và hướng dẫn quyết định một cách
chính xác và nhanh chóng.
- Tích hợp và liên kết dữ liệu: Big Data cho phép kết hợp và phân tích dữ
liệu từ nhiều nguồn khác nhau, tạo điều kiện cho việc tạo ra thông tin liên
quan và tổng thể. Điều này giúp tăng cường hiểu biết và giá trị của dữ liệu.
- Phát hiện mẫu và xu hướng mới: Big Data giúp phát hiện mẫu, xu hướng
và thông tin tiềm ẩn mà trước đây chưa được nhận biết. Điều này có thể
giúp các tổ chức và doanh nghiệp tạo ra những cải tiến, đưa ra dự đoán và
đưa ra quyết định đúng hơn.

*Nhược điểm:

- Bảo mật và quyền riêng tư: Xử lý và lưu trữ Big Data đòi hỏi các biện
pháp bảo mật mạnh mẽ để đảm bảo an ninh thông tin. Đồng thời, việc sử
dụng dữ liệu cá nhân cũng đặt ra thách thức về quyền riêng tư và đạo đức.
- Chi phí và hạ tầng: Xử lý và lưu trữ lượng lớn dữ liệu yêu cầu sự đầu tư
về hạ tầng và công nghệ phù hợp.
- Khả năng quản lý: Việc xác định, xử lý và trích xuất thông tin hợp lý từ
lượng dữ liệu lớn đòi hỏi sự hiểu biết chuyên sâu về phân tích dữ liệu và
các công cụ tương ứng.

7
- Khả năng xử lý và tốc độ: Dữ liệu lớn đòi hỏi khả năng xử lý mạnh mẽ và
tốc độ cao để trích xuất thông tin trong thời gian thực. Việc xử lý Big Data
có thể gặp khó khăn nếu không có hạ tầng và công nghệ phù hợp. [4]

1.1.4 Sự khác biệt giữa dữ liệu lớn với dữ liệu truyền thống

Dữ liệu lớn khác với dữ liệu truyền thống (ví dụ, kho dữ liệu - Data Warehouse)
ở 4 điểm cơ bản: Dữ liệu đa dạng hơn; lưu trữ dữ liệu lớn hơn; truy vấn dữ liệu
nhanh hơn; độ chính xác cao hơn.

(1) Dữ liệu đa dạng hơn: Khi khai thác dữ liệu truyền thống (dữ liệu có cấu
trúc), chúng ta thường phải trả lời các câu hỏi: Dữ liệu lấy ra kiểu gì? định dạng
dữ liệu như thế nào? Đối với dữ liệu lớn, không phải trả lời các câu hỏi trên.
Hay nói khác, khi khai thác, phân tích dữ liệu lớn chúng ta không cần quan tâm
đến kiểu dữ liệu và định dạng của chúng; điều quan tâm là giá trị mà dữ liệu
mang lại có đáp ứng được cho công việc hiện tại và tương lai hay không.

(2) Lưu trữ dữ liệu lớn hơn: Lưu trữ dữ liệu truyền thống vô cùng phức tạp và
luôn đặt ra câu hỏi lưu như thế nào? Dung lượng kho lưu trữ bao nhiêu là đủ?
gắn kèm với câu hỏi đó là chi phí đầu tư tương ứng. Công nghệ lưu trữ dữ liệu
lớn hiện nay đã phần nào có thể giải quyết được vấn đề trên nhờ những công
nghệ lưu trữ đám mây, phân phối lưu trữ dữ liệu phân tán và có thể kết hợp các
dữ liệu phân tán lại với nhau một cách chính xác và xử lý nhanh trong thời gian
thực.

(3) Truy vấn dữ liệu nhanh hơn: Dữ liệu lớn được cập nhật liên tục, trong khi
đó kho dữ liệu truyền thống thì lâu lâu mới được cập nhật và trong tình trạng
không theo dõi thường xuyên gây ra tình trạng lỗi cấu trúc truy vấn dẫn đến
không tìm kiếm được thông tin đáp ứng theo yêu cầu.

(4) Độ chính xác cao hơn: Dữ liệu lớn khi đưa vào sử dụng thường được kiểm
định lại dữ liệu với những điều kiện chặt chẽ, số lượng thông tin được kiểm tra
thông thường rất lớn, và đảm bảo về nguồn lấy dữ liệu không có sự tác động
của con người vào thay đổi số liệu thu thập. [3]

1.2 Giới thiệu tổng quát về Điện toán đám mây

Điện toán đám mây đã làm thay đổi suy nghĩ của các doanh nghiệp về việc lưu
trữ, phân phối tài nguyên công nghệ thông tin (CNTT) truyền thống.

Rất nhiều tổ chức, doanh nghiệp thuộc nhiều ngành nghề, lĩnh vực đã và đang
sử dụng dịch vụ điện toán đám mây với những mục đích khác nhau, bao gồm:
Sao lưu dữ liệu, khôi phục sau thảm họa, email, máy tính để bàn ảo, phát triển
và kiểm thử phần mềm, phân tích dữ liệu lớn và ứng dụng web tương tác với
khách hàng,...

1.2.1 Khái niệm Điện toán đám mây

8
Điện toán đám mây là quyền truy cập theo yêu cầu, thông qua internet, tới các
tài nguyên máy tính, ứng dụng, máy chủ (máy chủ vật lý và máy chủ ảo), lưu
trữ dữ liệu, công cụ phát triển, khả năng kết nối mạng, v.v. Những tài nguyên
này được lưu trữ tại trung tâm dữ liệu từ xa do dịch vụ đám mây được cung cấp
từ nhà quản lý, cung cấp dịch vụ điện toán đám mây như Amazon Web
Services. Thay vì tốn kém chi phí để sở hữu một hệ thống máy chủ vật lý đắt đỏ
thì bạn hoàn toàn có thể phân phối các tài nguyên này trên cloud từ nhà cung
cấp và thanh toán phí theo mức sử dụng. [5]

1.2.2 Phân loại các dịch vụ điện toán đám mây [5]

IaaS (Cơ sở hạ tầng dưới dạng dịch vụ), PaaS (Nền tảng dưới dạng dịch vụ) và
SaaS (Phần mềm dưới dạng dịch vụ) là ba mô hình phổ biến nhất của các dịch
vụ đám mây. Không có gì lạ đối với một doanh nghiệp khi sử dụng cả ba mô
hình. Tuy nhiên, thường có sự nhầm lẫn giữa ba mô hình này:

- SaaS (Phần mềm dưới dạng dịch vụ): SaaS cung cấp cho bạn sản phẩm
hoàn chỉnh được nhà cung cấp dịch vụ vận hành và quản lý. Trong hầu hết
các trường hợp, khi nhắc đến SaaS, mọi người thường nghĩ đến ứng dụng
dành cho người dùng cuối (chẳng hạn như email trên nền tảng web). Với
SaaS, bạn không cần phải nghĩ cách duy trì dịch vụ hoặc cách quản lý cơ sở
hạ tầng ngầm. Bạn sẽ chỉ cần nghĩ cách bạn sẽ sử dụng phần mềm cụ thể đó
- PaaS (Nền tảng dưới dạng dịch vụ): PaaS giúp bạn không cần quản lý cơ
sở hạ tầng ngầm của tổ chức (thường là phần cứng và hệ điều hành) và cho
phép bạn tập trung vào công tác triển khai cũng như quản lý các ứng dụng
của mình. Điều này giúp bạn làm việc hiệu quả hơn do bạn không cần phải
lo lắng về việc thu mua tài nguyên, hoạch định dung lượng, bảo trì phần
mềm, vá lỗi hay bất kỳ công việc nặng nhọc nào khác có liên quan đến việc
vận hành ứng dụng.
- IaaS (Cơ sở hạ tầng dưới dạng dịch vụ): IaaS chứa các khối xây dựng cơ
bản cho đám mây CNTT. IaaS thường cung cấp quyền truy cập vào các tính
năng mạng, máy tính (ảo hoặc trên phần cứng chuyên dụng) và không gian
lưu trữ dữ liệu. IaaS đem đến cho bạn mức độ linh hoạt cũng như khả năng
kiểm soát quản lý tài nguyên CNTT cao nhất. IaaS gần giống nhất với các
tài nguyên CNTT hiện tại mà nhiều bộ phận CNTT và nhà phát triển hiện
nay rất quen thuộc.

1.2.3 Những ưu điểm của Điện toán đám mây [6]

Về cơ bản, có 6 lợi ích chính công nghệ điện toán đám mây mang lại cho người
dùng. Cụ thể:
- Tối ưu chi phí

Điện toán đám mây giúp loại bỏ, giảm bớt nhiều loại chi phí mà doanh
nghiệp phải chi trả, bao gồm:

9
Chi phí mua phần cứng và phần mềm cũng như chi phí thiết lập và vận hành
các trung tâm dữ liệu tại chỗ.

Chi phí điện năng sử dụng trong suốt nhiều ngày đêm để cung cấp năng lượng
và làm mát hệ thống.

Chi phí nhân lực dành cho các chuyên gia CNTT để quản lý cơ sở hạ tầng.
- Co giãn nhanh chóng
Dịch vụ điện toán đám mây có khả năng mở rộng hoặc thu hẹp quy mô một
cách linh hoạt. Dịch vụ đám mây cho phép người dùng chủ động nâng cấp hoặc
giảm đi lượng tài nguyên cần sử dụng theo nhu cầu của từng cá nhân, tổ chức
vào từng thời điểm khác nhau.
- Đẩy nhanh tốc độ
Các dịch vụ điện toán đám mây lớn chạy trên mạng lưới trung tâm dữ liệu an
toàn khắp thế giới, thường xuyên được nâng cấp lên thế hệ phần cứng điện toán
nhanh và hiệu quả.
Điều này mang lại nhiều lợi ích hơn so với một trung tâm dữ liệu riêng của
công ty, bao gồm giảm độ trễ mạng cho các ứng dụng và nâng cao tính kinh tế
theo quy mô.
Hầu hết các dịch vụ điện toán đám mây đều cung cấp tính năng tự phục vụ hoặc
phục vụ theo yêu cầu. Do đó, ngay cả một lượng lớn tài nguyên máy tính cũng
có thể được cung cấp trong vài phút, thường chỉ với một vài cú nhấp chuột.
Điều này mang lại cho các doanh nghiệp sự linh hoạt và giảm bớt áp lực trong
việc lập kế hoạch công suất.
- Khả năng lưu trữ
Điện toán đám mây giúp sao lưu dữ liệu, khôi phục dữ liệu sau thảm họa. Đồng
thời, nó hỗ trợ quá trình kinh doanh dễ dàng hơn, ít tốn kém hơn vì dữ liệu có
thể được sao chép tại nhiều trang web dự phòng trên mạng của nhà cung cấp
dịch vụ đám mây.
- Tính bảo mật, an toàn
Nhiều nhà cung cấp dịch vụ điện toán đám mây cung cấp hàng loạt các chính
sách, công nghệ và phương thức kiểm soát nhằm củng cố hệ thống bảo mật của
người dùng về tổng thể, giúp bảo vệ dữ liệu, ứng dụng và cơ sở hạ tầng của
khách hàng khỏi các mối đe dọa tiềm ẩn.
- Năng suất nâng cao

Các trung tâm dữ liệu tại chỗ thường yêu cầu hệ thống nhà kho, thiết lập phần
cứng, và phần mềm và các công việc quản lý CNTT tốn thời gian khác. Điện
toán đám mây giúp doanh nghiệp loại bỏ những tác vụ này.
10
Vì vậy, các nhóm nhân lực CNTT có thể dành nhiều thời gian hơn cho những
mục tiêu kinh doanh quan trọng hơn.

1.2.3 Phân loại Điện toán đám mây [6]


Không phải tất cả các đám mây đều giống nhau và không phải loại điện toán
đám mây nào cũng phù hợp với tất cả mọi người. Các nhà phát triển và cung
cấp dịch vụ đã nghiên cứu một số loại đám mây khác nhau sao cho phù hợp với
những đối tượng sử dụng khác nhau.

- Điện toán đám mây cộng đồng (Public Cloud)


Đây là mô hình điện toán đám mây được sử dụng phổ biến nhất. Các đám mây
cộng đồng/công cộng được sở hữu và vận hành bởi một bên thứ ba - nhà cung
cấp dịch vụ đám mây. Họ cung cấp tài nguyên điện toán như máy chủ và bộ
nhớ qua Internet.
Tất cả các dịch vụ và ứng dụng đều chứa trên cùng một hệ thống đám mây.
Điều này có nghĩa toàn bộ người dùng sẽ sử dụng chung một tài nguyên. Nhà
cung cấp dịch vụ sẽ là bên có trách nhiệm quản lý và bảo vệ dữ liệu.
Với hình thức này, người dùng không bị giới hạn không gian và thời gian lưu
trữ, nhiều người dùng có thể lưu trữ cùng một lúc với chi phí thấp. Tuy nhiên,
nó tồn tại rủi ro khó kiểm soát dữ liệu và độ bảo mật chưa cao.
- Điện toán đám mây riêng (Private Cloud)
Đám mây riêng là đám mây trong đó các dịch vụ và cơ sở hạ tầng được duy trì
trên một mạng riêng. Đám mây riêng đề cập đến các tài nguyên điện toán đám
mây được sử dụng riêng bởi một doanh nghiệp hoặc tổ chức.
Một đám mây riêng có thể được cài đặt thực tế trên trung tâm dữ liệu tại chỗ
của công ty, tổ chức. Một số công ty cũng trả tiền cho các nhà cung cấp dịch vụ
để lưu trữ đám mây riêng của họ.
Đám mây riêng có khả năng bảo mật rất cao nhờ tường lửa bảo vệ. Người dùng
sẽ toàn quyền quản lý dữ liệu của mình. Cũng chính vì vậy, hình thức này chỉ
được dùng trong nội bộ doanh nghiệp, tổ chức, người ngoài không thể tiếp cận
và sử dụng.
Nó cũng tốn kém nhiều chi phí xây dựng và duy trì hệ thống. Đồng thời, hệ
thống yêu cầu người sử dụng phải có kiến thức về công nghệ để có thể quản lý
tài nguyên một cách hiệu quả nhất.
- Đám mây lai (Hybrid cloud)
Các đám mây lai là sự kết hợp giữa các đám mây cộng đồng và riêng tư, được
ràng buộc với nhau bằng công nghệ, cho phép chia sẻ dữ liệu và ứng dụng giữa
chúng.

11
Bằng cách cho phép dữ liệu và ứng dụng di chuyển giữa các đám mây riêng tư
và cộng đồng, đám mây lai mang lại cho doanh nghiệp, tổ chức sử dụng linh
hoạt hơn, nhiều tùy chọn triển khai hơn và giúp tối ưu hóa cơ sở hạ tầng, bảo
mật và tuân thủ những quy định hiện có.
Nhờ tính riêng tư, đám mây lai vẫn đảm bảo được tính bảo mật cần thiết đối với
những dữ liệu quan trọng. Người dùng cũng không bị hạn chế tài nguyên. Tuy
nhiên, loại hình này yêu cầu người dùng cần có kiến thức về công nghệ để triển
khai và quản lý hệ thống, cùng chi phí xây dựng cơ sở hạ tầng cao.

Chương 2: Ứng dụng của Big Data [7]

2.1 Ứng dụng big data lĩnh vực ngân hàng

Big Data đã và đang được ứng dụng hiệu quả với các hoạt động: từ thu tiền mặt
đến quản lý tài chính. Từ đó, giúp giảm bớt rắc rối của khách hàng và gia
tăng doanh thu cho các ngân hàng.

Cách thức ứng dụng Big Data trong ngân hàng:

 Sử dụng các kỹ thuật phân cụm giúp ngân hàng đưa ra quyết định quan trọng.
Hệ thống phân tích có thể xác định các địa điểm chi nhánh nơi tập trung nhiều
nhu cầu của khách hàng, để đề xuất lập chi nhánh mới.

 Quy tắc kết hợp để dự đoán lượng tiền mặt cần thiết sẵn sàng cung ứng ở một
chi nhánh tại thời điểm cụ thể.

 Khoa học dữ liệu là nền tảng của hệ thống ngân hàng kĩ thuật số.

 Học máy và AI được nhiều ngân hàng sử dụng để phát hiện các hoạt động gian
lận và báo cáo cho các chuyên viên liên quan.

 Khoa học dữ liệu hỗ trợ xử lý, lưu trữ và phân tích lượng dữ liệu khổng lồ từ
các hoạt động hàng ngày và giúp đảm bảo an ninh cho ngân hàng.

2.2 Ứng dụng của big data trong Y tế

Với Big Data, người dùng có thể xác định phương hướng điều trị, cải thiện quá
trình chăm sóc sức khỏe, giảm lãng phí tiền bạc và thời gian.
Cách thức ứng dụng của Big Data trong ngành y tế:

 Cho phép người quản lý ca dự đoán các bác sĩ cần thiết vào những thời điểm cụ
thể.

 Theo dõi tình trạng bệnh nhân bằng hồ sơ sức khỏe điện tử.

 Sử dụng các thiết bị kỹ thuật số có thể đeo, từ đó, hệ thống Big Data có thể theo
dõi tình trạng bệnh nhân, gửi báo cáo cho các bác sĩ.

12
 Big Data có thể đánh giá các triệu chứng và xác định nhiều bệnh ở giai đoạn
đầu.

 Có thể lưu giữ các hồ sơ nhạy cảm được bảo mật và lưu trữ lượng dữ liệu
khổng lồ một cách hiệu quả.

 Ứng dụng Big Data có thể báo trước khu vực có nguy cơ bùng phát dịch như:
sốt xuất huyết hoặc sốt rét.

2.3 Ứng dụng của Big Data trong thương mại điện tử

Big Data có thể tạo lợi thế cạnh tranh cho doanh nghiệp bằng cách cung cấp
thông tin chuyên sâu và các bản báo cáo phân tích xu hướng tiêu dùng.
Cách thức ứng dụng của Big Data trong thương mại điện tử:

 Có thể thu thập dữ liệu và yêu cầu của khách hàng.

 Tạo ra một mô hình tiếp thị hiệu suất cao.

 Nhà quản lý có thể xác định các sản phẩm được xem nhiều nhất và tối ưu thời
gian hiển thị của các trang sản phẩm này.

 Đánh giá hành vi của khách hàng và đề xuất các sản phẩm tương tự. Điều này
làm tăng khả năng bán hàng, từ đó tạo ra doanh thu cao hơn.

 Nếu bất kỳ sản phẩm nào được thêm vào giỏ hàng nhưng khách hàng không
mua, Big Data có thể tự động gửi code khuyến mại cho khách hàng cụ thể đó.

 Các ứng dụng Big Data còn có thể tạo một báo cáo theo các tiêu chí: độ tuổi,
giới tính, địa điểm của khách truy cập, v.v.

2.4 Ứng dụng Big Data vào Giáo dục

Big Data tạo ra các phương pháp tiếp cận dựa trên dữ liệu để dạy học sinh.

Cách thức ứng dụng Big Data vào giáo dục:

 Có thể lưu trữ, quản lý, phân tích các bộ dữ liệu lớn bao gồm hồ sơ của sinh
viên.

 Duy trì bảo mật bằng cách sử dụng hệ thống quản lý big data có khả năng trích
xuất phân cấp.

 Big Data giúp các bộ đề kiểm tra gần như không thể bị lộ.

 Big Data cung cấp dữ liệu về các hoạt động trong lớp và giúp đưa ra quyết định
cho giáo viên hay người điều hành tổ chức.

13
 Big Data có thể đánh giá biểu cảm khuôn mặt và di chuyển của học sinh trong
lớp từ đó giáo viên có thể đánh giá được chất lượng giảng dạy bằng máy ảnh độ
phân giải cao, cảnh quay video và xử lý hình ảnh.

2.5 Big Data và Cloud (Điện toán đám mây)

Với cơ sở dữ liệu quá lớn thì đám mây là phương tiện được sử dụng để cung
cấp cơ sở hạ tầng cần thiết cho việc tính toán dữ liệu lớn. Trong cuộc sống thực,
nhiều tổ chức đang kết hợp hai công nghệ này để cải thiện hoạt động điều phối
kinh doanh của mình.
Cách thức ứng dụng Big Data:

 Cloud cung cấp các công cụ để trích xuất dữ liệu. Từ đó, bằng việc phân tích dữ
liệu lớn, thì mục tiêu và các quyết định của kinh doanh được xác định.

 Ứng dụng Big Data trong kinh doanh trên nền tảng Cloud giúp các tổ chức quản
lý hiệu quả nhiều công cụ phần mềm và phần cứng.

 Cloud đã tăng tốc độ quản lý và truy cập cơ sở dữ liệu chứa hàng lượng lớn hồ
sơ.

2.6 Dịch vụ khách hàng sử dụng Big Data

Để thành công thì doanh nghiệp cần làm hài lòng khách hàng và hiểu nhu cầu
của họ. Trong giai đoạn mới gia nhập thị trường và tìm lợi thế cạnh tranh, thì sẽ
rất khó để bạn biết khách hàng đang tìm kiếm điều gì. Big Data sẽ giúp chủ
doanh nghiệp tìm ra giải pháp và đưa ra đề xuất tốt nhất.
Cách thức ứng dụng của Big Data vào dịch vụ khách hàng:

 Xác định các yêu cầu của khách hàng, tập trung thực hiện nhu cầu của họ.

 Phân tích hành vi, sự quan tâm của khách hàng tạo ra các sản phẩm hướng đến
khách hàng.

 Có thể thu thập nhiều dữ liệu về hành vi khách hàng để thiết kế mô hình tiếp thị
tối ưu .

 Tìm ra sự tương đồng giữa khách hàng và nhu cầu của họ, từ đó, việc nhắm
mục tiêu các chiến dịch quảng cáo có thể chính xác và đạt hiệu quả cao.

2.7 Big Data đối với ngành bán lẻ

Big Data mang lại cơ hội cho lĩnh vực bán lẻ bằng việc giúp xác định hành trình
trải nghiệm, xu hướng mua sắm và sự hài lòng của khách hàng từ cách thu thập
dữ liệu đa dạng. Từ những dữ liệu thu thập được có thể cải thiện hiệu suất và
hiệu quả bán hàng.
Cách thức ứng dụng Big Data trong bán lẻ:

14
 Big data giúp nhà quản lý xây dựng mô hình chi tiêu của từng khách hàng.

 Với các phân tích dự đoán, ngành công nghiệp có thể so sánh tỷ lệ cung – cầu
và có thể tránh tung ra sản phẩm không được đón nhận.

 Ngành bán lẻ có thể xác định vị trí bố trí sản phẩm trên kệ hàng tùy vào thói
quen và nhu cầu mua hàng của khách hàng và thiết lập chiến lược kinh
doanh để cải thiện.

 Kết hợp phân tích cùng lúc các dữ liệu về thời điểm, giao dịch, truyền thông xã
hội, dự báo thời tiết để xác định chính xác sản phẩm phù hợp để cung ứng cho
khách hàng..

2.8 Ứng dụng Big Data trong Digital Marketing

Digital Marketing là chìa khóa để doanh nghiệp tiếp cận gần nhất với khách
hàng. Quan trọng, với Digital Marketing, tất cả các doanh nghiệp ở mọi quy mô
lớn nhỏ... đều có thể tiến hành các hoạt động quảng cáo tiếp thị trên các nền
tảng truyền thông xã hội..
Cách thức ứng dụng Big Data trong Digital Marketing:

 Phân tích thị trường, đối thủ cạnh tranh và đánh giá mục tiêu kinh doanh. Điều
này giúp xác định cơ hội tốt để tiếp tục tiến hành các kế hoạch kinh doanh tiếp
theo.

 Có thể xác định người dùng trên các phương tiện truyền thông xã hội và nhắm
mục tiêu cho họ dựa trên nhân khẩu học, giới tính, thu nhập, tuổi tác và sở
thích.

 Tạo báo cáo cho chiến dịch quảng cáo:hiệu suất, khách hàng và giải pháp để tạo
kết quả tốt hơn.

 Khoa học dữ liệu được sử dụng cho các khách hàng nhắm mục tiêu và nuôi
dưỡng chu trình khách hàng.

 Tập trung vào các chủ đề được tìm kiếm cao và tư vấn cách để nội dung để xếp
hạng trang web doanh nghiệp cao hơn trên google (SEO).

 Có thể tạo đối tượng tương tự bằng cách sử dụng cơ sở dữ liệu đối tượng hiện
có để nhắm mục tiêu các khách hàng tương tự và kiếm được lợi nhuận.

2.9 Lĩnh vực truyền thông & Giải trí

Các công ty truyền thông cần thúc đẩy chuyển đổi kỹ thuật số để phân phối sản
phẩm và nội dung của họ nhanh nhất có thể tại thị trường hiện tại. Đối với
những người ảnh hưởng trên các phương tiện truyền thông đại chúng. Big Data
có thể tìm ra quan điểm hoặc lượt thích của một nghệ sĩ để đo lường mức độ
phổ biến trong lĩnh vực truyền thông số.
Cách thức ứng dụng Big Data trong truyền thông và giải trí:
15
 Giúp thu thập thông tin và nhu cầu của cá nhân.

 Xác định thiết bị và thời gian tạo hiệu quả cao nhất thông qua các dữ liệu để
phân tích.

 Có thể xác định lý do đăng ký và hủy đăng ký một nội dung và đánh giá sự
quan tâm của khán giả đối với một kiểu nội dung cụ thể.

 Ứng dụng Big Data còn giúp đặt nhóm mục tiêu quảng cáo cho các công ty
truyền thông.

 Có thể tạo thêm các tính năng mới để phân tích nhu cầu.

 Nhà quảng cáo (công ty truyền thông, người nổi tiếng, người phụ trách truyền
thông) có thể chọn địa điểm tần xuất phân phối.

 Tùy mức độ phổ biến, nghệ sĩ có thể chọn thiết bị, hệ điều hành để phân phối
bài hát hoặc video của mình.

Ở thời đại số, với sự phát triển của AI, thuật toán, kỹ thuật khai thác dữ liệu và
xử lý hình ảnh đã giúp dữ liệu lớn (Big Data) trở nên vô cùng hữu ích trong đời
sống và hoạt động kinh doanh của doanh nghiệp của mọi tổ chức.

Chương 3: Redshift trên Amazon

3.1 Khái niệm

- Amazon Redshift là một dịch vụ kho dữ liệu quản lý hoàn toàn của
Amazon Web Services (AWS) được xây dựng để lưu trữ và phân tích dữ
liệu lớn. Nó là một hệ thống cơ sở dữ liệu cột dựa trên SQL được thiết kế
đặc biệt để cung cấp hiệu suất truy vấn nhanh và khả năng mở rộng dễ
dàng. Dịch vụ này cho phép bạn lưu trữ và truy vấn dữ liệu lớn với tính linh
hoạt cao, tích hợp tốt với các công cụ phân tích dữ liệu và dễ dàng quản lý.

3.2 Lịch sử phát triển:

- Ra Mắt Ban Đầu (2012): Amazon Redshift được giới thiệu lần đầu vào
tháng 11 năm 2012. Nó được công bố là một dịch vụ kho dữ liệu quản lý
hoàn toàn dựa trên cơ sở dữ liệu cột. Dịch vụ này được thiết kế để cung cấp
hiệu suất truy vấn cao và giảm bớt công việc quản lý hạ tầng.
- Phiên Bản Đầu Tiên (2013): Redshift ra mắt phiên bản đầu tiên với nhiều
tính năng bổ sung. Phiên bản này đã bắt đầu thu hút sự chú ý của các doanh
nghiệp và tổ chức có nhu cầu lưu trữ và phân tích dữ liệu lớn.

16
- Tích Hợp Với Các Dịch Vụ AWS (2014 - 2017): Trong thời gian này,
Redshift đã tích hợp chặt chẽ với các dịch vụ khác của AWS như Amazon
S3, Amazon DynamoDB, và Amazon Kinesis. Điều này làm cho việc truy
xuất và tích hợp dữ liệu từ nhiều nguồn dễ dàng hơn.
- Cải Tiến Về Hiệu Suất (2016 - 2019): AWS liên tục cải tiến hiệu suất của
Redshift bằng cách thêm nhiều tính năng và cải tiến tối ưu hóa truy vấn.
Điều này giúp Redshift trở thành một lựa chọn mạnh mẽ cho việc xử lý dữ
liệu lớn và phân tích dữ liệu phức tạp.
- Mở Rộng Toàn Cầu (2017 - nay): Redshift đã mở rộng mạng lưới máy
chủ trên toàn thế giới để cung cấp dịch vụ nhanh chóng và chất lượng cao
cho khách hàng toàn cầu. Điều này bao gồm việc mở rộng sang các khu vực
AWS khác nhau và hỗ trợ cho việc sao lưu và phục hồi trên khu vực khác
nhau.
- Cải Tiến Bảo Mật và Quản Lý (2019 - nay): AWS đã liên tục tăng cường
bảo mật cho Redshift bằng cách cung cấp tính năng mã hóa cấp doanh
nghiệp và tích hợp với các công cụ quản lý và theo dõi AWS.

3.3 Đặc điểm

3.3.1 Ưu điểm:

- Cơ Sở Dữ Liệu Cột (Columnar Database): Redshift sử dụng mô hình lưu


trữ dữ liệu cột, giúp tối ưu hóa hiệu suất truy vấn bằng cách đọc chỉ các cột
cần thiết trong dữ liệu, giúp giảm tải I/O và tăng tốc truy vấn.
- Truy Vấn Nhanh Chóng: Redshift được thiết kế để cung cấp hiệu suất truy
vấn nhanh, đặc biệt là trong việc xử lý truy vấn phức tạp trên dữ liệu lớn.
- Tích Hợp Dễ Dàng: Redshift tương thích với nhiều công cụ phân tích dữ
liệu phổ biến và cung cấp tích hợp dễ dàng với các nguồn dữ liệu khác
nhau.
- Bảo Mật Mạnh Mẽ: Redshift hỗ trợ mã hóa dữ liệu trong quá trình nghỉ và
khi truyền đi, cung cấp tích hợp với Amazon Virtual Private Cloud (VPC)
cho cách ly mạng, và hỗ trợ quản lý khóa bằng cách sử dụng hardware
security modules (HSMs).
- Quản Lý Dễ Dàng: Amazon Redshift cung cấp nhiều tính năng quản lý dễ
dàng, bao gồm tự động sao lưu và khôi phục, theo dõi hiệu suất, và quản lý
tài nguyên cụm. Bạn có thể bắt đầu với một cụm nhỏ và sau đó mở rộng
cụm khi nhu cầu tăng cao. Redshift cho phép tích hợp tự động và dễ dàng
với dữ liệu từ nhiều nguồn khác nhau
- Tích Hợp Với AWS: Redshift tích hợp tốt với các dịch vụ khác của AWS
như Amazon S3, Amazon DynamoDB, và Amazon Kinesis, cho phép bạn
tận dụng cơ sở hạ tầng mạnh mẽ của AWS.

17
- Tối ưu cho Phân Tích Dữ Liệu: Redshift là lựa chọn hàng đầu cho các tác
vụ phân tích dữ liệu, bao gồm phân tích kinh doanh, báo cáo, và trí tuệ kinh
doanh (BI).
- Mô Hình Thanh Toán Theo Thời Gian Sử Dụng: Redshift sử dụng mô
hình thanh toán dựa trên thời gian sử dụng, nghĩa là bạn chỉ trả tiền cho tài
nguyên tính toán và lưu trữ mà bạn thực sự sử dụng.

3.3.2 Nhược điểm:

- Chi phí: Sử dụng Amazon Redshift có thể trở nên đắt đỏ, đặc biệt khi bạn
xử lý lượng dữ liệu lớn hoặc cần một cụm có cấu hình cao. Phương thức
thanh toán theo giờ có thể dẫn đến việc bạn phải chịu chi phí không lường
trước.
- Không Phù Hợp Cho OLTP: Redshift được tối ưu hóa cho phân tích dữ
liệu và không phải là lựa chọn tốt cho các tác vụ xử lý giao dịch trực tiếp
(OLTP). Nó không thể cung cấp hiệu suất cần thiết cho các ứng dụng yêu
cầu truy cập và cập nhật dữ liệu nhanh chóng.
- Không Hỗ Trợ Dữ Liệu JSON: Redshift không hỗ trợ dữ liệu JSON tốt,
điều này có thể tạo khó khăn cho việc xử lý các dạng dữ liệu phi cấu trúc.
Dữ liệu JSON thường cần được biến đổi trước khi lưu trữ trong Redshift.
- Không Dễ Dàng Quản Lý Cấu Trúc Dữ Liệu: Redshift yêu cầu bạn xác
định cấu trúc dữ liệu trước, và việc thay đổi cấu trúc dữ liệu có thể là một
quá trình phức tạp và tốn thời gian. Điều này có thể tạo khó khăn khi bạn
cần thay đổi cấu trúc dữ liệu thường xuyên.
- Hạn Chế Về Không Gian Lưu Trữ: Dữ liệu trong Redshift phải được lưu
trữ theo mô hình cột, điều này có thể tạo ra hạn chế về không gian lưu trữ
so với các hệ thống lưu trữ dòng (row-based storage).
- Yêu Cầu Kiến Thức Kỹ Thuật: Sử dụng Redshift đòi hỏi kiến thức kỹ
thuật để cấu hình và quản lý cụm, cũng như tối ưu hóa truy vấn. Điều này
có thể đòi hỏi đầu tư thời gian và nguồn lực đào tạo cho nhân viên.
- Thời Gian Sao Lưu Dài: Trong quá trình sao lưu dữ liệu, có thể mất một
thời gian đáng kể để hoàn thành. Điều này có thể tạo khó khăn trong việc
khôi phục dữ liệu trong trường hợp cần thiết.

3.4 Các khái niệm quan trọng Redshift

- Cluster: Là tập hợp các máy chủ (nodes) mà bạn sử dụng để lưu trữ và xử
lý dữ liệu trong Redshift. Có hai loại cluster: single-node cluster (một node)
và multi-node cluster (nhiều node).
- Node: Một máy chủ vật lý hoặc ảo trong một cluster. Node trong Redshift
được chia thành hai loại chính: leader node (node chỉ đạo) và compute node
(node tính toán). Leader node quản lý các tác vụ truy vấn và gửi các yêu
cầu đến compute node để thực hiện xử lý.
- Columnar Storage: Redshift sử dụng lưu trữ cột (columnar storage) để lưu
dữ liệu. Thay vì lưu trữ dữ liệu theo hàng, Redshift lưu trữ dữ liệu theo cột.
Điều này giúp tối ưu hóa hiệu suất truy vấn cho các tác vụ phân tích dữ liệu.

18
- Distribution Style: Phân phối dữ liệu là cách Redshift phân chia dữ liệu
trên các compute node. Có ba kiểu phân phối chính: KEY distribution (theo
khóa), EVEN distribution (đều) và ALL distribution (toàn bộ).
- Sort Key: Một thuộc tính mà bạn sử dụng để sắp xếp dữ liệu trong bảng.
Sử dụng Sort Key giúp tối ưu hóa truy vấn sử dụng điều kiện sắp xếp.
- Data Warehouse: Là kho dữ liệu dùng để lưu trữ và truy vấn dữ liệu. Data
warehouse thường bao gồm một hoặc nhiều bảng lưu trữ dữ liệu theo mô
hình sao (star schema) hoặc tuyến tính (snowflake schema).
- Copy Command: Là lệnh sử dụng để sao chép dữ liệu từ nguồn bên ngoài
vào Redshift. Dữ liệu có thể được sao chép từ Amazon S3, Amazon
DynamoDB, hoặc các nguồn dữ liệu khác.
- Unload Command: Là lệnh dùng để xuất dữ liệu từ Redshift ra ngoài và
lưu trữ nó trong Amazon S3.
- Redshift Spectrum: Là một dịch vụ liên quan của Redshift cho phép truy
vấn dữ liệu lưu trong Amazon S3 mà không cần sao chép dữ liệu vào
Redshift.
- Data Warehouse Cluster: Là một cụm của các máy chủ Redshift được kết
hợp lại với nhau để lưu trữ dữ liệu và xử lý các tác vụ phân tích.
- Concurrency Scaling: Là khả năng tự động mở rộng (scaling) của Redshift
để xử lý nhiều truy vấn đồng thời.
- Materialized View: Là một phiên bản đã được tính toán của dữ liệu, được
lưu trữ để tăng tốc các truy vấn thường xuyên.
- WLM (Workload Management): Là hệ thống quản lý tải công việc trong
Redshift. Nó giúp đảm bảo rằng các truy vấn quan trọng được ưu tiên và
không tác động đến nhau.
- Data Lake: Là một hệ thống lưu trữ dữ liệu lớn, đa dạng, thường sử dụng
các dịch vụ như Amazon S3 để lưu trữ dữ liệu nguyên gốc, mà Redshift
Spectrum có thể truy vấn.

3.5 Ứng dụng của Amazon Redshift

- Phân Tích Dữ Liệu Kinh Doanh: Redshift giúp tổ chức phân tích dữ liệu
để đưa ra quyết định chiến lược.
- Phân Tích Dữ Liệu Marketing: Sử dụng để theo dõi hiệu suất chiến dịch
tiếp thị.
- Quản Lý Tài Chính: Hỗ trợ quản lý và phân tích dữ liệu tài chính.
- Phân Tích Dữ Liệu Khách Hàng: Hiểu rõ hơn về hành vi và sở thích của
khách hàng.
- Trích Xuất Dữ Liệu Từ Dữ Liệu Lớn: Cho phép truy vấn dữ liệu lưu trữ
trong Amazon S3.
- Báo Cáo và Hệ Thống Thông Tin Quản Lý: Xây dựng báo cáo và hệ
thống thông tin quản lý.
- Phân Tích Dữ Liệu Sản Phẩm và Dịch Vụ: Đánh giá hiệu suất sản phẩm
và dịch vụ.
- Trích Xuất Dữ Liệu Từ Dữ Liệu Log: Phát hiện sự cố và cải thiện hiệu
suất từ dữ liệu log.
- Quản Lý Dữ Liệu Đa Nguồn Gốc: Tổng hợp dữ liệu từ nhiều nguồn khác
nhau.
19
- Phân Tích Dữ Liệu Hành Vi Trực Tuyến: Phân tích dữ liệu về hành vi
người dùng trực tuyến.

Chương 4: Demo Sản Phẩm:


- Đầu tiên ,chúng ta phải lập tài khoản Amazon Web Service , sau khi lập tài
khoản thì nó sẽ hiện ra màn hình console như trên ảnh

- Click chuột vào ô Search ở trên gõ “Amazon Redshift”

- Chọn Amazon Redshift chúng ta sẽ được chuyển hướng vào trang chính của
dịch vụ này:

- Đầu tiên chúng ta phải tạo một cluster (cụm) ,chọn “Create Cluster” ở giao diện
Redshift:

- Sau khi chọn ,màn hình hiện lên giao diện tạo cluster
20
- Nhập tên cluster theo nhu câu của bạn ,ở mục “Choose the size of the cluster”
chúng ta có 2 lựa chọn một là mình sẽ tự chọn loại node (mục Node Type)và số
lượng node (mục Number of Node) .
- Khi click vào ô “Node type” thì hệ thống sẽ hiện lên thông tin chi tiết của từng
loại node bao gồm lưu trữ và chi phí thuê node.

21
- Mục "Availability Zone Configuration" tùy thuộc vào nhu cầu của bạn, bạn có
thể chọn "Multiple Availability Zones" hoặc "Single Availability Zone" để phân
bổ các node.

- Bạn có thể để AWS Redshift chọn cho mình loại node ,và số lượng node của
bạn dựa trên nhu cầu về Không gian lưu trữ , lưu trữ dựa trên thời gian hoặc
không .

- Mục "Calculated Configuration" (Cấu hình Tính Toán) trong quá trình tạo
cluster Amazon Redshift cho phép bạn xem xét và kiểm soát các cấu hình liên
quan đến hiệu suất và giá cả của cluster. Bạn có thể thấy cấu hình dự kiến và
tính toán của cluster dựa trên các thông số bạn đã chọn, giúp bạn đưa ra quyết
định thông tin khi tạo cluster.

22
- Bạn có thể chọn Load sample data để tải các tệp dữ liệu mẫu và truy vấn thử
chúng

- Mục "Database Configuration" cung cấp các tùy chọn cơ bản để bạn có thể tùy
chỉnh cấu hình của cơ sở dữ liệu Redshift trong cluster của mình. Mỗi tùy chọn
đều ảnh hưởng đến việc triển khai và quản lý cơ sở dữ liệu. Hãy điều chỉnh các
tùy chọn này phù hợp với yêu cầu và chiến lược của bạn.

23
- Mục "Cluster Permissions" trong quá trình tạo cluster Amazon Redshift liên
quan đến quản lý quyền truy cập vào cluster.

- Bạn có thể chọn IAM role có sẵn bằng cách chọn “Manage IAM role” – “
Associate IAM role” hoặc bạn tạo một IAM role mới bằng cách bấm vào chọn

“Create IAM role”

- Mục "Additional Configuration" bao gồm các tùy chọn bạn có thể tinh chỉnh
và cấu hình chi tiết của cluster của mình

24
- Sau khi bạn đã hoàn tất các thông tin và kiểm tra xong thì bấm chọn vào
“Create cluster” để bắt đầu quá trình tạo cluster.

- Khi cột “Status” hiện trạng thái Available kèm tích xanh thì bạn đã tạo cluster
thành công

- Tiếp theo ,chúng ta sẽ đến với phần truy vấn dữ liệu ,bấm chọn vào “Query
data” màn hình sẽ chuyển hướng tới trang “Redshift query editor v2” :

25
- Bấm chọn vào ô 3 chấm dọc tích vào ô “Create Connection” để tạo một kết nối
đến cluster của bạn ,rồi bạn có thể thực hiện các thao tác như truy vấn SQL ,tạo
mới và chỉnh sửa Cơ sở dữ liệu (Database), Giản đồ (Schema),Bảng
(Table) ,thực hiện các công việc phân tích dữ liệu ,vẽ biểu đồ , xuất kết quả truy
vấn ra định dạng file .CSV hoặc .JSON.....
- Redshift hỗ trợ nhiều định dạng tệp dữ liệu, bao gồm CSV, JSON, AVRO, và
Parquet.
- Bạn có thể Upload file từ máy tính của mình hoặc từ S3 Bucket

- Lưu ý : nếu bạn muốn upload thì bạn phải cấp quyền bằng cách thêm Policies
liên quan cho IAM role .

26
- Trên thanh công cụ tìm kiếm gõ “IAM” - chọn Roles

- Chọn “Add permission” và thêm các policies cần thiết cho IAM role.

27
Kết Luận
Big Data đóng vai trò quan trọng và mang lại nhiều giá trị to lớn, không chỉ cho
các tổ chức doanh nghiệp mà còn cho nền kinh tế của một quốc gia. Thông tin
được thu thập ngày càng chính xác và chi tiết dễ dàng giúp cho các nhà lãnh
đạo đưa ra được cái quyết định chính xác giảm thiểu các rủi ro. Mặc dù Big
Data mang lại nhiều hứa hẹn, tuy nhiên cũng có rất nhiều thách thức được đặt
ra cho các tổ chức doanh nghiệp trong việc sử dụng và làm chủ nó. Tuy nhiên
một khi đã làm chủ được Big Data thì sẽ mở ra nhiều cơ hội thành công trong
bối cảnh cạnh tranh hiện nay.

28
Tài liệu tham khảo

[1] Phạm Tiến Dũng, "SỬ DỤNG PHƯƠNG PHÁP KHAI PHÁ CÁC LUẬT KẾT
HỢP XỬ LÝ TRONG BIG DATA ĐỂ TÌM SỞ THÍCH CỦA KHÁCH HÀNG,"
10 8 2022. [Online]. Available:
http://lib.uet.vnu.edu.vn/bitstream/123456789/1219/1/LuanVanThacSi-
PhamTienDung-K25-HTTT.pdf. [Accessed 4 11 2023].
[2] ISB, "Big Data là gì? Ứng dụng của Big Data," [Online]. Available:
https://insight.isb.edu.vn/big-data-la-gi-ung-dung-cua-big-data/?
fbclid=IwAR03pXf1uDnTXJrE7Dss0bQzcZTmEm9aEp3KwtynGdi5kdhqs24Nih
1OJHc. [Accessed 4 11 2023].
[3] Nguyễn Công Hoan, "TỔNG QUAN VỀ DỮ LIỆU LỚN (BIG DATA)," 7 10
2015. [Online]. Available:
https://vienthongke.vn/wp-content/uploads/2021/04/Bai4.So5_.2016.pdf.
[Accessed 4 11 2023].
[4] Viettelz, "Big Data là gì? Vai trò và ứng dụng của Big Data," 1 7 2023. [Online].
Available: https://viettelz.com/big-data-la-gi/. [Accessed 4 11 2023].
[5] OSAM, "Điện toán đám mây là gì - Cloud Computing là gì và vai trò?," 5 7 2021.
[Online]. Available: https://www.osam.io/post/dien-toan-dam-may-la-gi.
[Accessed 4 11 2023].
[6] Elcom, "Điện toán đám mây là gì? Ứng dụng công nghệ điện toán đám mây," 25
10 2022. [Online]. Available: https://www.elcom.com.vn/dien-toan-dam-may-la-
gi-ung-dung-cong-nghe-dien-toan-dam-may-1666695483. [Accessed 4 11 2023].
[7] Izisolution, "Top 9 ứng dụng thực tế nổi bật của dữ liệu lớn big data," [Online].
Available: https://izisolution.vn/top-9-ung-dung-thuc-te-noi-bat-cua-du-lieu-lon-
big-data/?fbclid=IwAR1ydiCcGgmdxgFgUvbbxZYkheI9qk-
vq8yZlDlgRk_uadrU6kYpr_RNF-8. [Accessed 4 11 2023].
[8] A. W. Service, "Database Developer Guide," [Online]. Available:
https://docs.aws.amazon.com/redshift/latest/dg/welcome.html. [Accessed 4 11
2023].
[9] A. W. Service, "Getting Started Guide," [Online]. Available:
https://docs.aws.amazon.com/redshift/latest/gsg/new-user-serverless.html.
[Accessed 4 11 2023].
[10] A. W. Service, "Amazon Redshift Manage Guide," [Online]. Available:
https://docs.aws.amazon.com/redshift/latest/mgmt/managing-cluster-
operations.html. [Accessed 4 11 2023].

29
30

You might also like