NLSUD Nhóm 7

HỌC VIỆN NGÂN HÀNG
HỆ THỐNG THÔNG TIN QUẢN LÝ
BÀI TẬP LỚN

MÔN NĂNG LỰC SỐ ỨNG DỤNG
TÊN ĐỀ TÀI
ỨNG DỤNG CỦA BIG DATA TRONG
LĨNH VỰC NGÂN HÀNG
Giáo viên hướng dẫn: Vũ Duy Hiến

Danh sách nhóm
1. Mã sinh viên: 26A4010766 Họ và tên: Hoàng Gia Hiếu

2. Mã sinh viên: 26A4010366 Họ và tên: Hoàng Tùng Bách
3. Mã sinh viên: 26A4010378 Họ và tên: Đỗ Quang Hà
4. Mã sinh viên: 26A4011269 Họ và tên: Phan Chu Trinh
5. Mã sinh viên: 26A4010771 Họ và tên: Dương Quốc Huy
Bắc Ninh-12/2023
I. Lý thuyết về big data.............................................................................................................
1.1. Big data là gì?.................................................................................................................
1.2. Nguồn gốc và sự phát triển của Big Data.......................................................................
1.3. Đặc trưng của Big Data là gì?........................................................................................
Đặc trưng của Big Data là gì – Big data 3V là đặc trung rõ nhất (Nguồn: Digital Ready)....
1.4. Cơ sở hạ tầng IT cần thiết để hỗ trợ Big Data và các công nghệ dự liệu đặc biệt dành
cho big data............................................................................................................................
1.4.1. Cơ sở hạ tầng IT cần thiết để hỗ trợ Big Data..........................................................
1.4.2. Các công nghệ dữ liệu đặc biệt dành cho Big data..................................................
1.4.3. Các kĩ năng Big data................................................................................................
1.4.4. Các ứng dụng Big data.............................................................................................
II. Ứng dụng của Big Data trong các hoạt động ngân hàng....................................................
2.1. Thứ nhất, phân tích các thói quen chi tiêu của khách hàng..........................................
2.2. Thứ hai, phân khúc khách hàng và thẩm định hồ sơ....................................................
2.3. Thứ ba, bán chéo thêm các dịch vụ khác......................................................................
2.4. Thứ tư, nâng cao chất lượng dịch vụ thông qua xây dựng hệ thống thu thập các phản
hồi khách hàng và phân tích chúng.....................................................................................
2.5. Thứ năm, marketing theo hướng cá nhân hóa..............................................................
2.6. Thứ sáu, thay đổi cách thức cung cấp dịch vụ đến khách hàng....................................
2.7. Thứ bảy, phát hiện và ngăn chặn hành vi lừa đảo, vi phạm pháp luật..........................
2.8. Thứ tám, kiểm soát rủi ro, tuân thủ luật pháp và minh bạch trong báo cáo tài chính. .
2.9. Thứ chín, tham gia vào việc kiểm soát đánh giá và nâng cao hiệu quả làm việc của
nhân viên..............................................................................................................................
III. Hạn chế và Giải pháp khi ứng dụng big data ở trong ngân hàng......................................
3.1. Các hệ thống kế thừa đang gặp khó khăn trong việc theo kịp......................................
3.2. Dữ liệu càng nhiều thì rủi ro càng lớn..........................................................................
3.3. Dữ liệu lớn đang trở nên không thể quản lý.................................................................
3.4. Thay đổi tư duy vè dữ liệu và các phương pháp xử lý các dữ liệu hiện đại của đội ngũ
ngân hang............................................................................................................................
3.5. Cần xây dựng được quy trình liên quan đến dữ liệu từ khâu thu nhập đến sử dụng kết
quả xử lý dữ liệu..................................................................................................................
3.6. Xây dựng một đội ngũ chuyên viên khoa học dữ liệu..................................................
KẾT LUẬN............................................................................................................................
I. LÝ THUYẾT VỀ BIG DATA
1.1. Big data là gì?
Big Data hay được gọi là Dữ liệu lớn là thuật ngữ mô tả khối lượng dữ liệu lớn – cả cấu
trúc và không có cấu trúc – dữ liệu này cung cấp thông tin cho một doanh nghiệp trên cơ sở
hàng ngày. Đó là những gì các tổ chức làm với dữ liệu quan trọng. Big data có thể được
phân tích để có thông tin chi tiết dẫn đến các quyết định tốt hơn và các động thái kinh doanh
chiến lược. Những bộ dữ liệu này quá lớn đến nỗi phần mềm xử lý dữ liệu truyền thống
không thể quản lý chúng. Nhưng những khối lượng dữ liệu khổng lồ này có thể được sử
dụng để giải quyết các vấn đề kinh doanh mà bạn không thể giải quyết được trước đây.
1.2. Nguồn gốc và sự phát triển của Big Data

Đối với nhiều người hiện nay thì thuyết trình về Big Data là một thuật ngữ còn khá mới mẻ
những thực ra, nguồn gốc của Big Data đã bắt đầu từ những năm 1960 và 1970. Đó là thời
điểm mà thế giới dữ liệu chỉ mới bắt đầu với các trung tâm dữ liệu đầu tiên cùng với đó là sự
phát triển của cơ sở dữ liệu SQL.
Năm 1984, Tập đoàn Teradata đã cho ra thị trường hệ thống xử lý dữ liệu song song DBC
1012. Đây chính là những hệ thống đầu tiên phân tích và lưu trữ tới 1 terabyte dữ liệu. Cho
đến năm 2017, có hàng chục cơ sở dữ liệu dựa trên hệ thống của Teradata với dung lượng
lên đến hàng petabyte. Trong đó dữ liệu lớn nhất đã vượt qua ngưỡng 50 pentabytes.
Năm 2000, Seisint Inc. (nay là Tập đoàn LexisNexis) đã phát triển thành công khung chia sẻ
dữ liệu dựa theo cấu trúc C ++ để truy vấn và lưu trữ dữ liệu. Năm 2004, Gooogle cho ra bài
báo về quá trình có tên gọi MapReduce sử dụng một kiến trúc tương tự. MapReduce cung
cấp mô hình xử lý song song, cho ra những ứng dụng liên quan để có thể xử lý nhanh lượng
dữ liệu khổng lồ. Google triển khai mẫu MapReduce thông qua mã nguồn mở Apache
Hadoop.
Năm 2005, con người bắt đầu nhận ra rằng số lượng người dùng được tạo ra thông qua
Youtube, Facebook và các dịch vụ trực tuyến khác là cực kỳ lớn. Cùng năm đó, Hadoop
(một framework open source được tạo riêng với nhiệm vụ lưu trữ và phân tích BigData) đã
được phát triển. Cũng trong khoảng thời gian này, NoSQL cũng bắt đầu trở nên phổ biến.
Sự phát triển của các framework ví dụ như Hadoop (hoặc gần đây là Spark) là cần thiết cho
sự phát triển của Big Data. Lý do là vì chúng khiến cho Big Data hoạt động dễ dàng hơn và
lưu trữ rẻ hơn.
Hiện nay thì khối lượng Big Data đã tăng một cách nhanh chóng, những người sử dụng vẫn
đang hàng ngày tạo ra một lượng dữ liệu vô cùng lớn. Tuy nhiên, có một điều thú vị là lượng
dữ liệu đó không chỉ của con người mà còn do máy móc tạo ra, thậm chí còn là chủ yếu. Sự
ra đời của IoT (Internet of Things), nhiều thiết bị và đối tượng được kết nối với internet, từ
đó thu thập dữ liệu về mô hình sử dụng của người dùng và hiệu suất của sản phẩm. Chính sự
có mặt của IoT đã tạo ra nhiều dữ liệu hơn.
1.3. Đặc trưng của Big Data là gì?

Sau khi hiểu được tổng quan về Big Data, những đặc trưng của dữ liệu lớn được đặc trưng
bởi 3V, trong đó bao gồm:
Volume (Khối lượng dữ liệu): Với big data, bạn sẽ phải xử lý khối lượng lớn dữ liệu có
mật độ thấp, không có cấu trúc. Đây có thể là dữ liệu của giá trị không xác định, chẳng hạn
như nguồn cấp dữ liệu Twitter, nhấp chuột trên trang web hoặc ứng dụng dành cho thiết bị
di động hoặc thiết bị hỗ trợ cảm biến. Đối với một số tổ chức, điều này có thể là hàng chục
terabyte dữ liệu. Đối với những người khác, nó có thể chỉ là hàng trăm petabyte.
Velocity (Vận tốc mà dữ liệu cần xử lý được và phân tích): Tốc độ là tốc độ nhanh tại đó
dữ liệu được nhận và (có thể) đã hành động. Thông thường, tốc độ cao nhất của luồng dữ
liệu trực tiếp vào bộ nhớ so với được ghi vào đĩa. Một số sản phẩm thông minh hỗ trợ
internet hoạt động trong thời gian thực hoặc gần thời gian thực và sẽ yêu cầu đánh giá và
hành động theo thời gian thực.
Variety (Nhiều loại dữ liệu đa dạng): Nhiều loại đề cập đến nhiều loại dữ liệu có sẵn. Các
kiểu dữ liệu truyền thống được cấu trúc và phù hợp gọn gàng trong một cơ sở dữ liệu quan
hệ. Các kiểu dữ liệu phi cấu trúc và bán cấu trúc, chẳng hạn như văn bản, âm thanh và video
yêu cầu tiền xử lý bổ sung để lấy được ý nghĩa và siêu dữ liệu hỗ trợ.
Đặc trưng của Big Data là gì – Big data 3V là đặc trung rõ nhất (Nguồn: Digital Ready)
Các kho dữ liệu lớn được tạo thành từ những dữ liệu. Dữ liệu có thể đến từ các nguồn như
ứng dụng trên thiết bị di động, ứng dụng dành cho máy tính để bàn, mạng xã hội, trang web,
thí nghiệm khoa học, thiết bị cảm biến và các thiết bị khác trong internet (IoT).
Big Data khi đi kèm cùng với các thành phần có liên quan cho phép các tổ chức đưa dữ liệu
vào sử dụng thực tế và giải quyết một số các vấn đề trong kinh doanh. Các vấn đề đó gồm
có:
Các phân tích áp dụng với các dữ liệu
Cơ sở hạ tầng IT cần thiết để có thể hỗ trợ cho Big Data
Các công nghệ cần thiết cho những dự án Big Data các bộ kĩ năng có liên
quan Những trường hợp thực tế có ý nghĩa đối với Big Data.
Phân tích dữ liệu mới là giá trị thực sự được mang lại từ các tổ chức dữ liệu lớn. Nếu không
có sự phân tích thì đây chỉ là những dữ liệu được sử dụng vô cùng hạn chế trong kinh doanh.
Với việc phân tích những dữ liệu lớn, các công ty có thể thu về cho mình những lợi ích như
dịch vụ khách hàng được cải thiện, từ đó mang lại hiệu quả cao hơn, tăng doanh thu và tăng
khả năng cạnh tranh.
Việc phân tích dữ liệu có liên quan đến việc kiểm tra những bộ dữ liệu để thu thập các thông
tin chi tiết hoặc rút ra các kết luận về những nội dung chúng chứa, ví dụ như các xu hướng
và dự đoán về hoạt động trong tương lai. Bằng việc phân tích dữ liệu, các tổ chức có thể đưa
ra quyết định kinh doanh hoàn hảo hơn. Ví dụ các tổ chức có thể quyết định xem khi nào và
ở đâu thì nên chạy chiến dịch tiếp thị hoặc giới thiệu sản phẩm, dịch vụ mới. Sự phân tích
có thể được tham khảo các ứng dụng kinh doanh tiên tiến, thông minh hơn. Các tổ chức
khoa học sử dụng phép phân tích dự đoán như một ứng dụng.
Data mining là loại phân tích dữ liệu cao cấp nhất, là nơi mà các nhà phân tích đánh giá các
bộ dữ liệu lớn để xác định những mối quan hệ, mô hình và xu hướng. Phân tích dữ liệu có
thể bao gồm phân tích dữ liệu thăm dò và phân tích dữ liệu xác nhận. Có một mảng khác
chính là phân tích những dữ liệu định lượng (hoặc phân tích dữ liệu số có các biến có thể so
sánh theo thống kê) so với phân tích dữ liệu định tính (tập trung vào các dữ liệu không phải
dữ liệu cá nhân như văn bản, hình ảnh, video).
1.4. Cơ sở hạ tầng IT cần thiết để hỗ trợ Big Data và các công nghệ dự liệu đặc biệt
dành cho big data
1.4.1. Cơ sở hạ tầng IT cần thiết để hỗ trợ Big Data

Đối với khái niệm Big Data để có thể làm việc, các tổ chức cần phải xây dựng được
cơ sở hạ tầng để thu thập và chứa dữ liệu, cung cấp quyền truy cập và đảm bảo thông tin
trong khi chuyển tiếp và lưu trữ. Cấp độ cao hơn, bao gồm hệ thống lưu trữ và máy chủ
được thiết kế cho Big Data, tích hợp dữ liệu và phần mềm quản lý, phần mềm phân tích dữ
liệu, thông tin kinh doanh và các ứng dụng Big Data. Phần lớn các cơ sở hạ tầng này sẽ tập
trung tại một chỗ vì các công ty muốn tiếp tục tận dụng những khoản đầu tư vào trung tâm
dữ liệu của mình. Tuy nhiên, ngày càng có nhiều những tổ chức dựa vào các dịch vụ điện
toán đám mây để xử lý nhiều yêu cầu Big Data của họ. Thu thập dữ liệu đòi hỏi bắt buộc là
phải có nguồn. Một số ứng dụng như các ứng dụng web, ứng dụng di động, các kênh truyền
thông xã hội và lưu trữ email đã được cài đặt sẵn. Tuy nhiên, khi mà IoT trở nên phổ biến,
các công ty có thể cần phải triển khai cảm biến trên tất cả các loại thiết bị, sản phẩm và
phương tiện để có thể thu thập dữ liệu, cũng như những ứng dụng mới tạo ra dữ liệu người
dùng. Tất nhiên, phân tích dữ liệu theo định hướng IoT có những kỹ thuật và công cụ
chuyên biệt của riêng nó. Để lưu giữ được tất cả những dữ liệu trên, các tổ chức bắt buộc
phải có đủ dung lượng lưu trữ tại chỗ. Những tùy chọn lưu trữ bao gồm kho dữ liệu truyền
thống, lưu giữ trên đám mây và data lakes (một kho lưu trữ tập trung cho phép bạn lưu trữ
tất cả dữ liệu có cấu trúc và không cấu trúc của bạn ở bất kỳ quy mô nào). Những công cụ
cơ sở hạ tầng bảo mật bao gồm việc mã hóa dữ liệu, hệ thống giám sát, tường lửa, xác thực
người dùng và những điều khiển truy cập khác, quản lý di động của doanh nghiệp và các sản
phẩm khác để có thể bảo vệ được hệ thống và dữ liệu.
1.4.2. Các công nghệ dữ liệu đặc biệt dành cho Big data
Dưới đây là một số công nghệ cụ thể được dành cho Big Data mà cơ sở hạ tầng IT của bạn
nên hỗ trợ.
• Hệ sinh thái Hadoop
Hadoop là một trong những công nghệ được coi là phổ biến và liên quan mật thiết nhất với
Big Data. Apache Hadoop là dự án phát triển phần mềm mã nguồn mở cho máy tính, có khả
năng mở rộng, phân tán. Thư viện phần mềm Hadoop là một khuôn mẫu cho phép xử lý
phân tán những bộ dữ liệu lớn trên các nhóm máy tính mà sử dụng các mô hình lập trình đơn
giản. Nó được thiết kế để mở rộng từ một máy chủ duy nhất sang hàng ngàn những máy
khác, mỗi máy lưu trữ cục bộ và cung cấp tính toán. Dự án này bao gồm rất nhiều phần:
Những tiện ích phổ biến hỗ trợ các phần Hadoop khác: Hadoop Common
Cung cấp các khả năng truy cập những dữ liệu ứng dụng cao: Hadoop Distributed File
System
Là một khuôn mẫu cho việc lên kế hoạch làm việc và quản lý các tài nguyên cụm: Hadoop
YARN
Là một hệ thống dựa trên YARN để xử lý song song các tập dữ liệu lớn: Hadoop
MapReduce.
• Data lakes
Data lakes được coi là kho lưu trữ, nó chứa một khối lượng dữ liệu thô khổng lồ ở định dạng
gốc cho đến khi những người dùng doanh nghiệp cần dữ liệu. Các yếu tố giúp Data lakes
tăng trưởng là sự phát triển của IoT và phong trào kỹ thuật số. Các Data lakes được thiết kế
sao cho người dùng có thể dễ dàng truy cập vào một lượng lớn dữ liệu bất cứ khi nào có nhu
cầu.
• Apache Spark
Apache Spark là một phần của hệ sinh thái Hadoop, một khuôn mẫu tính toán cụm nguồn
mở được sử dụng để làm công cụ xử lý Big Data trong Hadoop. Spark hiện nay đã trở thành
một trong những khuôn mẫu xử lý Big Data vô cùng quan trọng, và nó hoàn toàn có thể triển
khai theo rất nhiều cách khác nhau. Nó cung cấp những phương thức hỗ trợ đối với Scala,
Python (đặc biệt là Anaconda Python distro), Java, ngôn ngữ lập trình R (R đặc biệt phù hợp
với Big Data) và hỗ trợ SQL, streaming data, machine learning và xử lý đồ thị.
• In-memory databases
IMDB (cơ sở dữ liệu trong bộ nhớ) là một hệ thống quản lý cơ sở dữ liệu chủ yếu dựa vào
Ram thay vì HDD để lưu trữ dữ liệu. Các cơ sở dữ liệu được tối ưu hóa trong đĩa không thể
nào nhanh bằng cơ sở dữ liệu trong bộ nhớ Đó là một điểm vô cùng quan trọng để sử dụng
phân tích Big Data và tạo ra các kho dữ liệu, các siêu dữ liệu.
• NoSQL Databases
Những cơ sở dữ liệu SQL thông thường sẽ được thiết kế cho các truy vấn ngẫu nhiên và các
transactin đáng tin cậy. Tuy nhiên, chúng vẫn có những hạn chế như giản đồ cứng nhắc,
không phù hợp với một số loại ứng dụng. Cơ sỡ dữ liệu NoSQL đã nêu ra được những hạn
chế, lưu trữ và quản lý dữ liệu theo những cách cho phép tốc độ hoạt động cao và có được sự
linh hoạt tuyệt vời. Rất nhiều các cơ sở dữ liệu đã được phát triển bởi các doanh nghiệp để
tìm ra cách tốt hơn lưu trữ nội dung hoặc xử lý dữ liệu cho các trang web lớn. Khác với cơ
sở dữ liệu SQL. Nhiều cơ sở dữ liệu NoSQL có thể được mở tộng theo chiều ngang trên
hàng ngàn máy chủ.
1.4.3. Các kĩ năng Big data

Big Data và phân tích Big Data yêu cầu những kĩ năng cụ thể, dù đó là từ bên trong tổ chức
hay thông qua các chuyên gia bên ngoài. Rất nhiều những kĩ năng có liên quan đến các
thành phần công nghệ dữ liệu vô cùng quan trọng như Hadoop, NoSQL. Spark, phần mềm
phân tích và các cơ sở dữ liệu trong bộ nhớ. Ngoài ra trong từng lĩnh vực cụ thể lại yêu cầu
các nguyên tắc khác nhau, như phân tích thống kê và định lượng, hình dung dữ liệu…. Đặc
biệt cũng cần có kĩ năng quản lý tổng thể để quản lý tiến độ của các dự án Big Data. Với sự
phổ biến của các dự án phân tích dữ liệu và sự thiếu hụt nhân lực có những kĩ năng trên như
hiện nay, việc tìm kiếm các chuyên gia có kinh nghiệm đang là một bài toán khó với rất
nhiều tổ chức.
1.4.4. Các ứng dụng Big Data

Báo cáo của Viện nghiên cứu Toàn cầu McKinsey năm 2011 mô tả các thành phần chính
và hệ sinh thái của dữ liệu lớn như sau:
• Các kỹ thuật để phân tích dữ liệu, chẳng hạn như kiểm thử A/B, học máy và xử lý
ngôn ngữ tự nhiên
• Công nghệ dữ liệu lớn, như thông tin kinh doanh, điện toán đám mây và cơ sở dữ liệu
• Công cụ trực quan như biểu đồ, đồ thị và các phương pháp thể hiện khác của dữ liệu
Các dữ liệu lớn đa chiều cũng có thể được biểu diễn dưới dạng tensor, có thể được xử lý
hiệu quả hơn bằng cách tính toán dựa trên cơ sở dựa trên Tensor, chẳng hạn như nghiên cứu
không gian đa cấp. Các công nghệ bổ sung đang được áp dụng cho dữ liệu lớn bao gồm cơ
sở dữ liệu MPP, các ứng dụng dựa trên tìm kiếm, khai thác dữ liệu, hệ thống phân tán tập
tin, phân tán cơ sở dữ liệu, điện toán đám mây và HPC (ứng dụng, lưu trữ và các tài nguyên
máy tính) và Mạng Internet. Mặc dù nhiều phương thức tiếp cận cũng như các công nghệ xử
lý đã được phát triển, vẫn còn khó khăn để thực hiện việc học máy với dữ liệu lớn.
Một vài cơ sở dữ liệu liên quan đến MPP có khả năng lưu trữ và quản lý hàng
petabytes dữ liệu. Đó chính là một nguồn tận dụng khả năng tải về, theo dõi, sao lưu và tối
ưu hóa việc sử dụng các bảng dữ liệu lớn trong RDBMS.
Chương trình Phân tích Dữ liệu Topological của DARPA tìm ra cấu trúc cơ bản
của bộ dữ liệu khổng lồ và đến năm 2008, công nghệ này được công bố cùng với sự ra
mắt của công ty Ayasdi.
Những chuyên viên phân tích dữ liệu lớn thường không sử dụng việc lưu trữ bằng những
ổ đĩa chia sẻ vì chúng chậm, họ thích lưu trữ trực tiếp (DAS) dưới nhiều hình thức khác
nhau từ ổ SSD (SATA) đến ổ đĩa SATA dung lượng cao được tích hợp bên trong các nút xử
lý song song. Các kiến trúc lưu trữ dùng chung - Mạng lưu trữ (SAN) và Lưu trữ trên Mạng
(NAS) tương đối chậm, phức tạp và tốn kém. Những yếu tố này không phù hợp với các hệ
thống phân tích dữ liệu lớn đang phát triển mạnh mẽ về hiệu năng hệ thống, cơ sở hạ tầng và
chi phí thấp.
Việc gửi thông tin thời gian thực hoặc gần với thời gian thực là một trong những đặc
điểm xác định của phân tích dữ liệu lớn. Do đó độ trễ được tránh bất cứ khi nào và bất cứ
khi nào có thể. Dữ liệu trong bộ nhớ là dữ liệu trên một đĩa quay tròn với một đầu kia là FC
SAN. Chi phí của một SAN ở quy mô cần thiết cho các ứng dụng phân tích cao hơn rất
nhiều so với các kỹ thuật lưu trữ khác. Có nhiều lợi thế cũng như bất lợi khi sử dụng các ổ
đĩa chung trong phân tích dữ liệu lớn, nhưng các chuyên gia phân tích dữ liệu lớn vào năm
2011 đã không ủng hộ chuyện này.
• Quản lý Chính phủ
Việc sử dụng các dữ liệu lớn trong các quy trình của chính phủ cho phép tăng hiệu
quả về mặt chi phí, năng suất và sự đổi mới, nhưng không phải là không có sai sót của nó.
Phân tích dữ liệu thường yêu cầu nhiều bộ phận của chính phủ (trung ương và địa phương)
hợp tác và tạo ra các quy trình mới và sáng tạo để mang lại kết quả mong muốn. Dưới đây là
một số ví dụ về các sáng kiến liên quan đến dữ liệu lớn của chính phủ
Hoa Kỳ
• Năm 2012, chính quyền của Tổng thống Obama tuyên bố Sáng kiến Nghiên cứu và
Phát triển Dữ liệu lớn để tìm hiểu xem dữ liệu lớn có thể được sử dụng như thế nào
để giải quyết các vấn đề quan trọng mà chính phủ phải đối mặt. Sáng kiến bao gồm
84 chương trình dữ liệu lớn khác nhau trải rộng trên sáu phòng ban.
• Phân tích dữ liệu lớn đã đóng một vai trò lớn trong chiến dịch bầu cử lại thành công
của Barack Obama năm 2012.
• Chính phủ liên bang Hoa Kỳ sở hữu sáu trong số mười siêu máy tính mạnh nhất trên
thế giới.
• Trung tâm Dữ liệu Utah đã được NSA (Cơ quan An ninh Quốc gia Hoa Kỳ) xây
dựng. Khi hoàn tất, cơ sở sẽ có thể xử lý một số lượng lớn thông tin thu thập được bởi
NSA qua Internet. Số lượng chính xác của không gian lưu trữ là không rõ, nhưng các
nguồn gần đây hơn cho rằng nó lên đến vài exabyte.
Ấn Độ
• Phân tích số liệu lớn đã được thử nghiệm cho BJP để giành chiến thắng trong Tổng
tuyển cử Ấn Độ, 2014.
• Chính phủ Ấn Độ sử dụng nhiều kỹ thuật để xác định cách thức cử tri Ấn Độ phản
ứng lại hành động cũng như các ý tưởng của chính phủ về thay đổi chính sách.
Vương quốc Anh
Ví dụ về việc sử dụng dữ liệu lớn trong các dịch vụ công:
• Dữ liệu về thuốc theo toa: bằng cách kết nối nguồn gốc, vị trí và thời gian của mỗi
toa thuốc, một đơn vị nghiên cứu có thể theo dõi việc phân phối bất cứ loại thuốc nào
trong đơn thuốc, và hướng dẫn Viện Y tế và Chăm sóc Quốc gia điều chỉnh cho
chính xác. Điều này khiến cho các loại thuốc mới nhất sẽ tốn ít thời gian hơn khi đến
với bệnh nhân phổ thông.
• Kết nối dữ liệu: các cơ quan địa phương liên kết các dữ liệu về các dịch vụ với nhau,
ví dụ như hệ thống giao thông, với các dịch vụ công, như là việc phân chia thức ăn
cho người tàn tật. Việc kết nối dữ liệu cho phép chính quyền địa phương tránh được
các chậm trễ liên quan đến thời tiết, đường sá...
• Sự phát triển quốc tế
Nghiên cứu về việc sử dụng hiệu quả các công nghệ thông tin và truyền thông cho mục
đích phát triển (hay còn gọi là ICT4D) cho thấy công nghệ dữ liệu lớn có thể có nhiều đóng
góp quan trọng nhưng cũng là thách thức đối với sự phát triển của quốc tế. Những tiến bộ
trong phân tích dữ liệu lớn giúp giảm chi phí cho việc ra quyết định trong các lĩnh vực quan
trọng như chăm sóc sức khoẻ, việc làm, năng suất kinh tế, tội phạm, an ninh, thiên tai và
quản lý tài nguyên. Tuy nhiên, những thách thức đối với các nước đang phát triển như cơ sở
hạ tầng công nghệ không đầy đủ và sự khan hiếm về kinh tế và nguồn nhân lực sẽ làm
nghiêm trọng thêm các mặt trái của dữ liệu lớn như sự riêng tư hoặc các vấn đề khác.
• Tài chính
Việc sử dụng các dữ liệu lớn dưới dạng lịch sử các giao dịch tài chính được gọi là phân tích
kỹ thuật. Sử dụng dữ liệu phi tài chính để dự đoán thị trường đôi khi được gọi là dữ liệu thay
thế.
• Sản Xuất
Theo bài Nghiên cứu xu hướng toàn cầu TCS 2013, sự cải tiến trong kế hoạch sản xuất
và chất lượng sản phẩm là lợi ích lớn nhất của dữ liệu lớn cho ngành sản xuất. Dữ liệu lớn
cung cấp cơ sở hạ tầng cho ngành công nghiệp sản xuất, đó là khả năng cải thiện năng suất
và tính khả dụng. Việc lên kế hoạch sản xuất chính là một cách tiếp cận dữ liệu lớn cho phép
giảm thời gian chết về gần như bằng không và cụ thể hóa số lượng lớn dữ liệu và các công
cụ dự đoán khác cho phép tạo ra một quá trình nhằm hệ thống hóa dữ liệu thành các thông
tin hữu ích. Khái niệm về việc dự báo sản xuất bắt đầu bằng việc thu thập dữ liệu cảm quan
khác nhau như âm thanh, chuyển động, áp suất, điện áp... Số lượng lớn các dữ liệu cảm quan
cộng với dữ liệu lịch sử sản xuất tạo thành dữ liệu lớn trong sản xuất. Các dữ liệu lớn này
như là đầu vào cho các công cụ dự báo và các chiến lược phòng ngừa tương tự như việc dự
báo trong lĩnh vực Quản lý Y tế.
• Chăm sóc sức khỏe
Phân tích dữ liệu lớn đã giúp cải thiện việc chăm sóc sức khoẻ bằng cách cá nhân hóa các
phương pháp trị liệu và chẩn đoán lâm sàng, làm giảm thiểu chi phí và thời gian khám bệnh,
tự động báo cáo và lưu trữ thông tin sức khỏe và dữ liệu bệnh nhân trong nội bộ cũng như
mở rộng ra bên ngoài, chuẩn hóa các thuật ngữ y học và chống phân mảnh trong lưu trữ dữ
liệu và thông tin của bệnh. Một số lĩnh vực có sự cải tiến mang tính hướng dẫn hơn là thực
hành. Lượng dữ liệu được tạo ra trong các hệ thống chăm sóc sức khoẻ là không nhỏ. Với sự
bổ sung thêm của mHealth, eHealth và các thiết bị công nghệ theo dõi sức khỏe được thì
khối lượng dữ liệu sẽ tiếp tục gia tăng. Điều này bao gồm dữ liệu ghi chép sức khoẻ điện tử,
dữ liệu hình ảnh, dữ liệu được tạo ra của bệnh nhân, dữ liệu cảm biến và các dạng dữ liệu
khó xử lý khác. Hiện nay, nhu cầu lớn hơn đối với các môi trường như vậy là chú ý nhiều
hơn đến chất lượng dữ liệu và thông tin. "Dữ liệu lớn rất thường có nghĩa là dữ liệu chưa
được xử lý và một phần số liệu không chính xác tăng lên khi có sự tăng trưởng khối lượng
dữ liệu." Việc theo dõi bằng con người ở quy mô dữ liệu lớn là không thể và có một nhu cầu
cấp thiết về các công cụ thông minh để kiểm soát chính xác và xử lý thông tin bị mất trong
dịch vụ y tế. Mặc dù dữ liệu trong lĩnh vực chăm sóc sức khoẻ hiện nay thường được lưu trữ
dưới dạng điện tử, nhưng nó nằm ngoài phạm vi của dữ liệu lớn vì hầu hết không có cấu trúc
và khó sử dụng.
• Giáo dục
Một nghiên cứu của Viện nghiên cứu toàn cầu McKinsey cho thấy, ngành dữ liệu lớn
đang thiếu hút 1,5 triệu chuyên gia cũng như nhà quản lý dữ liệu, và một số trường đại học
bao gồm Đại học Tennessee và UC Berkeley đã tạo ra các chương trình thạc sĩ để đáp ứng
nhu cầu này. Các khóa huấn luyện tư nhân cũng phát triển các chương trình để đáp ứng nhu
cầu đó, bao gồm các chương trình miễn phí như The Data Incubator hoặc chương trình trả
tiền như General Assembly.
• Truyền thông
Để hiểu cách thức các phương tiện truyền thông sử dụng dữ liệu lớn như thế nào,
trước tiên cần hiểu rõ một số ngữ cảnh trong cơ chế sử dụng cho quá trình truyền thông.
Nick Couldry và Joseph Turow đề xuất rằng các học viên trong ngành Truyền thông và
Quảng cáo cần tiếp cận dữ liệu lớn như là nhiều điểm thông tin về hàng triệu cá nhân.
Ngành công nghiệp dường như đang chuyển hướng từ cách tiếp cận truyền thống bằng
cách sử dụng các môi trường truyền thông cụ thể như báo chí, tạp chí hoặc chương trình
truyền hình và thay vào đó là những người tiêu dùng với công nghệ tiếp cận những người
này được nhắm mục tiêu vào những thời điểm tối ưu ở những vị trí tối ưu. Mục đích cuối
cùng là để phục vụ hoặc truyền tải, một thông điệp hoặc nội dung (theo cách thống kê)
phù hợp với suy nghĩ của người tiêu dùng. Ví dụ, môi trường xuất bản ngày càng làm
cho các thông điệp (quảng cáo) và nội dung (bài viết) được cải thiện để thu hút người
tiêu dùng đã được thu thập độc quyền thông qua các hoạt động khai thác dữ liệu khác
nhau.
• Nhắm đến người tiêu dùng mục tiêu (đối với quảng cáo của các nhà tiếp thị)
• Thu thập dữ liệu
• Dữ liệu trong báo chí: nhà xuất bản và nhà báo sử dụng các công cụ dữ liệu lớn để
cung cấp thông tin chi tiết và các bản đồ họa chi tiết độc đáo và sáng tạo. Kênh 4, một
kênh phát thanh truyền hình công cộng của Anh, đang dẫn đầu trong lĩnh vực dữ liệu
lớn và phân tích dữ liệu.
• Mạng lưới vạn vật kết nối Internet (IoT)
Dữ liệu lớn có thể kết hợp với công nghệ Mạng lưới vạn vật kết nối Internet. Dữ liệu
được chiết xuất từ các thiết bị IoT cung cấp một bản đồ kết nối giữa các thiết bị. Những sự
kết nối này đã được ngành công nghiệp truyền thông, các công ty và chính phủ sử dụng để
nhắm mục tiêu chính xác hơn đối tượng của họ và tăng hiệu quả của phương tiện truyền
thông. IoT cũng ngày càng được chấp nhận như một phương tiện thu thập dữ liệu cảm giác,
và dữ liệu cảm giác này đã được sử dụng trong các ngành như y học và sản xuất. Kevin
Ashton, chuyên gia đổi mới kỹ thuật số người được cho là người tạo ra thuật ngữ định nghĩa
Internet vạn vật đã phát biểu: "Nếu chúng ta có máy tính biết tất cả mọi thứ - nó sẽ sử dụng
dữ liệu mà nó thu thập được mà không có sự trợ giúp từ chúng ta - chúng ta sẽ có thể theo
dõi và kiểm soát mọi thứ, giảm đáng kể lượng chất thải, tổn thất và chi phí. Chúng ta sẽ biết
khi nào cần thay thế, sửa chữa hoặc thu hồi lại, và liệu rằng thức ăn chúng ta đang ăn có tươi
hay không."
• Công nghệ
Từ năm 2015, dữ liệu lớn trở nên nổi bật trong hoạt động kinh doanh như một công cụ để
giúp nhân viên làm việc hiệu quả hơn cũng như tối ưu hóa việc thu thập và chia sẻ thông tin.
Việc sử dụng dữ liệu lớn để giải quyết các vấn đề thu thập dữ liệu và CNTT trong một
doanh nghiệp được gọi là IT Operations Analytics (ITOA). Bằng cách áp dụng các nguyên
tắc dữ liệu lớn vào các khái niệm về trí thông minh của máy móc và tính toán sâu, các bộ
phận CNTT có thể dự đoán các vấn đề tiềm ẩn và đưa ra các giải pháp trước khi vấn đề xảy
ra. Vào thời điểm này, các doanh nghiệp ITOA cũng bắt đầu đóng vai trò quan trọng trong
việc
quản lý hệ thống bằng cách cung cấp các nền tảng mang các dữ liệu cá nhân riêng biệt và tạo
ra những hiểu biết sâu sắc từ toàn bộ hệ thống chứ không phải từ các dữ liệu riêng lẻ.
• EBay sử dụng hai kho dữ liệu với tốc độ 7.5 petabyte và 40PB cũng như một cụm
40PB Apache Hadoop để tìm kiếm, khuyến nghị người tiêu dùng và bán hàng.
• Amazon.com xử lý hàng triệu hoạt động back-end hàng ngày, cũng như các truy vấn
từ hơn nửa triệu người bán hàng bên thứ ba. Công nghệ cốt lõi mà Amazon hoạt động
dựa trên Linux và đến năm 2005 họ có ba cơ sở dữ liệu Linux lớn nhất thế giới, với
dung lượng 7,8 TB, 18,5 TB và 24,7 TB.
• Facebook xử lý 50 tỷ hình ảnh từ cơ sở người dùng của nó.
• Google đã xử lý khoảng 100 tỷ lượt tìm kiếm mỗi tháng vào tháng 8 năm 2012.
• Cơ sở dữ liệu Oracle NoSQL đã được kiểm tra để vượt qua mốc 1 triệu xử lý mỗi
giây với 8 nhân và đạt tốc độ 1.2 triệu xử lý mỗi giây với 10 nhân.
II. ỨNG DỤNG CỦA BIG DATA TRONG CÁC HOẠT ĐỘNG NGÂN HÀNG
Hiện nay, hầu hết các tổ chức chức ngân hàng, dịch vụ tài chính và bảo hiểm đang nỗ lực để
áp dụng một cách tiếp cận mới theo hướng khai thác dữ liệu để phát triển và đổi mới sản
phẩm. Mặc dù, các tổ chức đang thay đổi cách thức khai thác dữ liệu bằng cách thu thập một
khối lượng dữ liệu khổng lồ và tiến hành phân tích, thực hiện bước đầu tiên trong quy trình
khai thác Big Data. Khi khối lượng khách hàng tăng lên, nó ảnh hưởng đáng kể đến mức độ,
khả năng cung cấp dịch vụ của từng tổ chức. Thực tiễn cho thấy việc phân tích dữ liệu hiện
tại đã đơn giản hóa quá trình theo dõi và đánh giá khách hàng tín dụng của các ngân hàng và
các tổ chức tài chính, dựa trên khối lượng lớn dữ liệu như thông tin, hồ sơ cá nhân và các
thông tin bảo mật khác. Với sự giúp đỡ của Big Data, các ngân hàng có thể theo dõi hành vi
của khách hàng, xác định các nguồn dữ liệu cần thiết để thu thập phục vụ cho việc đưa ra
giải pháp.
Các ứng dụng của Big Data trong lĩnh vực ngân hàng bao gồm:
2.1. Thứ nhất, phân tích các thói quen chi tiêu của khách hàng.
Các ngân hàng có khả năng truy cập trực tiếp nguồn thông tin, dữ liệu lịch sử dồi dào liên
quan đến các thói quen, hành vi chi tiêu của khách hàng. Các ngân hàng còn nắm thông tin
chi tiết về nguồn thu của khách hàng trong một năm, khoản chi tiêu, các dịch vụ ngân hàng
mà khách hàng sử dụng… Điều này cung cấp cơ sở, cơ hội để các ngân hàng tiếp cận và
phân tích dữ liệu sâu hơn. Áp dụng các chức năng sàng lọc thông tin, ví dụ như, khi lọc ra
thời điểm dịp lễ hay mùa lễ và điều kiện vĩ mô (lạm phát, tỷ lệ thất nghiệp…) mà nhân viên
ngân hàng có thể hiểu được nguyên nhân của biến động trong thu nhập hay chi tiêu của
ngân hàng. Đây là một trong các yếu tố quan trọng trong quá trình đánh giá rủi ro, thẩm
định hồ sơ cho vay, mở rộng dịch vụ cung cấp hay bán chéo sản phẩm đến khách hàng. Bên
cạnh đó,
nhờ nắm được thông tin về nguồn tiền nhàn rỗi của khách hàng, ngân hàng có thể tận
dụng thu hút tiền gửi để thực hiện các hoạt động đầu tư.
Ví dụ: Qua phân tích dữ liệu về thói quen người Việt hay tiết kiệm mỗi dịp tết đến nhiều
ngân hàng bắt đầu tung ra các chương trình khuyến mãi nhằm tri ân khách hàng cũng như
tranh thủ huy động vốn trong tháng cuối năm ngân hàng TMCP Đông Nam Á triển khai
chương trình khuyến mãi tết như ý xuân phú quý dành cho các khách hàng gửi tiết kiệm tại
quầy gửi tiết kiệm online mợ mới thẻ tín dụng ký hợp đồng bảo hiểm với gần 12.000 quà
tặng có tổng giá trị lên đến gần 6.000.000.000 đồng
2.2. Thứ hai, phân khúc khách hàng và thẩm định hồ sơ.
Phân khúc khách hàng là một trong những nhân tố quan trọng trong chiến lược marketing và
thiết kế sản phẩm của ngân hàng. Một khi các phân tích ban đầu về thói quen chi tiêu của
khách hàng cùng với xác định các loại hình dịch vụ, kênh giao dịch được khách hàng ưu tiên
(ví dụ khách hàng muốn gửi tiết kiệm hay muốn đầu tư các khoản vay) được hoàn tất thì các
ngân hàng sẽ có được một cơ sở dữ liệu phục vụ cho quá trình phân khúc, phân loại khách
hàng một cách phù hợp dựa vào thông tin và hồ sơ khách hàng cung cấp. Big Data sẽ cung
cấp cho các ngân hàng những hiểu biết, kiến thức chuyên môn sâu về nhu cầu tiềm ẩn bên
trong, thói quen và xu hướng chi tiêu của khách hàng, trợ giúp cho nhiệm vụ xác định nhu
cầu và mong muốn của họ. Bằng cách nắm các thông tin liên quan đến giao dịch, ngân hàng
có thể xác định được khách hàng của mình thuộc các nhóm nào, ví dụ nhóm có chi tiêu dễ
dàng, nhóm nhà đầu tư thận trọng, nhóm thanh toán nợ nhanh chóng, nhóm khách hàng
trung thành… Bên cạnh đó, biết được hồ sơ cá nhân của tất cả các khách hàng giúp ngân
hàng đánh giá chi tiêu và thu nhập dự kiến trong tháng tới và lập kế hoạch chi tiết để đảm
bảo lợi nhuận cho chính tổ chức và lợi ích cho chính khách hàng.
-Ví dụ:
+ Phân khúc khách hàng: VietinBank cho ra mắt thẻ dành cho phái đẹp E-partner
PinkCard.Không chỉ thực hiện các chức năng rút tiền và thanh toán hàng hóa tại hệ thống
ATM của ViettinBank, chủ thẻ còn có thể thực hiện giao dịch tại gần 2000 ATM và POS
thuộc hệ thống Banknetvn trải rộng trên toàn quốc.Chỉ cần gọi điện thoại hẹn trước chủ sẽ
được khám sức khỏe miễn phí tại các trung tâm y tế trên khắp toàn quốc, E-partner PinkCard
được Vietinbank khẳng định không chỉ là một phương tiện thanh toán hiện đại mà còn là
người bạn đồng hành với người phụ nữ trong nhịp sống hiện đại luôn mong muốn được quan
tâm và chia sẻ
+ Thẩm định hồ sơ khách hàng : Hiện nay với sự trợ giúp của Big data các quyết định cho
vay hay kiểm soát tài khoản vay sẽ được thực hiện nhanh chóng chính xác hơn so với việc
sử dụng các mô hình chấm điểm tín dụng trước đây. Ngân hàng TMCP Việt Nam Thịnh
Vượng đang triển khai Basel II để chấm điểm tín dụng với khách hàng dựa trên cơ sở dữ
liệu lớn bằng trường thông tin
• Sử dụng thông tin dữ liệu từ trung tâm thông tin tín dụng quốc gia Việt Nam nhằm
tìm kiếm thông tin nợ xấu
• Dự báo được hành vi trả nợ ngân hàng thông qua việc thu nhập số liệu đẹp mẫu đủ
lớn với hàng nghìn khách hàng khi khách hàng muốn có một khoản vay thì đầu tiên
họ phải điền vào một tờ khai.Tùy vào từng sản phẩm trong tờ khai có nhiều câu hỏi
khác nhau có những thông tin cơ bản của khách hàng phải khai như tên, tuổi, ngày
sinh bên cạnh đó là những câu hỏi khác nữa và thông qua các câu trả lời của họ thì
ngân hàng rút ra được đánh giá về hồ sơ tín dụng sự phù hợp khách hàng đó với sản
phẩm mà họ đang mong muốn.
2.3. Thứ ba, bán chéo thêm các dịch vụ khác.

Dựa vào cơ sở dữ liệu ngân hàng có được, ngân hàng có thể thu hút thêm, hay giữ chân
khách hàng bằng cách giới thiệu thêm các dịch vụ khác. Ví dụ, ngân hàng có thể giới thiệu
các khoản đầu tư có lãi suất hấp dẫn đến các khách hàng có lượng tiền nhàn rỗi hoặc những
nhà đầu tư thận trọng. Ngân hàng cũng có thể đề xuất các khoản vay ngắn hạn cho các khách
hàng có thói quen chi tiêu dễ dàng để đáp ứng nhu cầu hàng ngày hoặc những khoản vay đáp
ứng nhu cầu thanh khoản ngắn hạn của doanh nghiệp. Phân tích một cách chính xác về hồ sơ
cá nhân của khách hàng, ngân hàng có thể bán kèm các dịch vụ khác với các ưu đãi được tập
trung chính xác vào nhu cầu khách.
Ví dụ: Sacombank phát hành chứng chỉ tiền gửi trên hệ trên toàn hệ thống dành cho khách
hàng cá nhân và tổ chức khách hàng mua chứng chỉ tiền gửi dài hạn có ghi danh mệnh giá
tối thiểu 1.000.000 đồng thời hạn 7 năm sẽ được nhận mức lãi suất cực kỳ hấp dẫn lên tới
8,6% một năm.
2.4. Thứ tư, nâng cao chất lượng dịch vụ thông qua xây dựng hệ thống thu thập các
phản hồi khách hàng và phân tích chúng.
Khách hàng có thể để lại phản hồi sau mỗi lần giao dịch hay mỗi lần nhận được tư vấn từ
trung tâm hỗ trợ chăm sóc khách hàng hoặc qua các biểu mẫu phản hồi; nhưng thường
xuyên (hay có thể nói nhiều khả năng) chia sẻ ý kiến thông qua các phương tiện truyền
thông xã hội hơn, ví dụ Facebook, Zalo,…Các công cụ Big Data có thể tìm kiếm chọn lọc
thông qua các thông tin, feedback công khai trên các phương tiện truyền thông và thu thập
tất cả những dữ liệu đề cập về thương hiệu của ngân hàng để có thể phản hồi nhanh chóng
và đầy đủ đến khách hàng, ngoài ra, cũng hỗ trợ ngăn chặn các tin đồn thất thiệt ảnh hưởng
đến hoạt động kinh doanh và niềm tin nơi khách hàng. Khi khách hàng cảm thấy ngân hàng
lắng nghe, đánh giá cao ý kiến và thực hiện những cải tiến, thay đổi theo yêu cầu của họ thì
sự trung thành dành cho thương hiệu sẽ gia tăng, hơn nữa cải thiện hình ảnh của ngân hàng.
2.5. Thứ năm, marketing theo hướng cá nhân hóa.

Sau khi có được phân khúc khách hàng thì các ngân hàng cần tận dụng để marketing nhắm
tới mục tiêu khách hàng dựa trên trên những hiểu biết về thói quen chi tiêu cá nhân của họ.
Ngoài việc thu thập dữ liệu về lịch sử giao dịch của khách hàng, ngân hàng có thể kết hợp
dữ liệu phi cấu trúc được lấy ra từ mạng xã hội để có được một bức tranh đầy đủ hơn về nhu
cầu của khách hàng dựa trên các phân tích về tâm lý, mong muốn khách hàng ở mọi thời
điểm. Từ đó, ngân hàng có thể đưa ra các giải pháp, kế hoạch marketing phù hợp để có được
tỷ lệ phản hồi cao hơn từ khách hàng. Ví dụ, các ngân hàng sử dụng công cụ email
marketing để gửi đến khách hàng các thông tin mới nhất về những dịch vụ cho vay ngắn hạn
với lãi suất vừa phải hay gửi tiết kiệm với lãi suất hấp dẫn, hoặc các chương trình ưu đãi
khác, …
Ví dụ: Các ngân hàng sử dụng công cụ email Maketing để gửi đến khách hàng các thông tin
mới nhất về những dịch vụ cho vay ngắn hạn với lại suất vừa phải hay gửi tiết kiệm với lãi
suất hấp dẫn hoặc các chương trình yêu đãi khác việc tạo ra các sản phẩm dịch vụ cung cấp
cho từng phân khúc khách hàng hay thậm chí từng khách hàng cụ thể sẽ giúp các ngân hàng
xây dựng hình ảnh thương hiệu và tạo dựng một mối quan hệ tốt ở từng khách hàng.
2.6. Thứ sáu, thay đổi cách thức cung cấp dịch vụ đến khách hàng.
Hệ thống Big Data có thể là một hệ thống phức tạp liên kết giữa nhiều bộ phận chức năng
khác nhau với vai trò đơn giản hóa các nhiệm vụ trong một tổ chức. Bất cứ khi nào tên một
khách hàng hoặc số tài khoản được nhập vào hệ thống, hệ thống Big Data sẽ hỗ trợ sàng lọc
tất cả các dữ liệu và chỉ truyền đi hay cung cấp các dữ liệu được yêu cầu để phục vụ cho quá
trình phân tích. Điều này cho phép các ngân hàng tối ưu hóa quy trình làm việc và tiết kiệm
cả thời gian và chi phí. Big Data cũng cho phép các tổ chức xác định và khắc phục các vấn
đề trước khi khách hàng bị ảnh hưởng.
Ví dụ: Hợp tác với Temenos vào năm 2004, Sacombank là ngân hàng đầu tiên triển khai
một loạt dự án công nghệ lớn bao gồm Quản lý dòng đời dữ liệu (Data Lifecycle
Management) cho nền tảng ngân hàng lõi Temenos T24. Đây là một hệ thống các ngân hàng
các phân hệ nghiệp vụ cơ bản của ngân hàng như tiền gửi, tiền vay, khách hàng… Thông
qua đó ngân hàng phát triển thêm nhiều dịch vụ, sản phẩm và quản lý nội bộ chặt chẽ hiệu
quả hơn.Chỉ trong vòng vài tuần, ứng dụng này đã cho thấy hiệu quả về chi phí trong khi
vẫn tập trung cơ sở dữ liệu của ngân hàng và tận dụng quản lý dữ liệu theo thời gian thực.
2.7. Thứ bảy, phát hiện và ngăn chặn hành vi lừa đảo, vi phạm pháp luật.
Big Data sẽ cho phép các ngân hàng đảm bảo không có giao dịch trái phép nào được thực
hiện, cung cấp mức độ an toàn, nâng cao tiêu chuẩn bảo mật của toàn bộ ngành. Nhờ vào dữ
liệu về lịch sử giao dịch và hồ sơ tín dụng của khách hàng, ngân hàng có thể nhận diện
những bất thường trong quá trình cung cấp dịch vụ đến khách hàng. Ví dụ, khoản rút tiền
lớn bất thường từ thẻ ATM có thể do thẻ bị mất cắp, từ đó, ngân hàng có những biện pháp
an ninh để xác minh giao dịch. Ngân hàng khai thác Big Data để phân biệt giữa các giao
dịch là hành vi phạm tội với các giao dịch hợp pháp bằng các thuật toán phân tích dữ liệu và
machine learing (học máy). Các hệ thống phân tích sẽ tự động phát hiện, trích xuất các giao
dịch bất hợp pháp ở thời gian thực và đề xuất các hành động ngay lập tức.
Ví dụ : nếu một nhà đầu tư hay khách hàng thường thanh toán chi tiêu cho sinh hoạt hằng
ngày hoặc để tiền trong tài khoản gửi tiết kiệm lấy lãi nhưng trong một ngày lại cố gắng rút
toàn bộ số tiền từ tài khoản của mình qua máy ATM điều này có nghĩa là thẻ có thể đã bị
mất cắp và sử dụng bởi chính những kẻ cắp.Nhân viên ngân hàng sẽ gọi điện đến chủ tài
khoản hoặc thông báo đến khách hàng bằng bất kỳ hình thức nào để xác minh lại giao dịch
đó một cách rõ hơn : giao dịch hợp pháp khách hàng thực hiện hay giao dịch trái phép bởi
tội phạm lừa đảo tội phạm đã trộm được thẻ mà khách hàng không biết ? Cứ thế việc phân
tích dữ liệu giao dịch lịch sử và làm cơ sở để kiểm tra tính hợp pháp an toàn bảo mật của các
giao dịch hiện tại sẽ giảm thiểu được hành vi vi phạm pháp luật có thể xảy ra.
2.8. Thứ tám, kiểm soát rủi ro, tuân thủ luật pháp và minh bạch trong báo cáo tài
chính.
Ngoài phát hiện các hành vi phạm tội, bảo vệ lợi ích người tiêu dùng, các ngân hàng có thể
ứng dụng Big Data đo lường, kiểm soát rủi ro khi thực hiện các giao dịch bằng cổ phiếu với
những nhà đầu tư và kiểm tra hồ sơ vay của khách hàng. Dĩ nhiên tất cả phải dựa trên sự
phân tích có kết quả từ mọi dữ liệu lịch sử liên quan. Các thuật toán Big Data còn giúp giải
quyết các vấn đề về tuân thủ quy định pháp luật về kế toán, kiểm toán và báo cáo tài chính
minh bạch nhằm hợp lý hoá các hoạt động của tổ chức từ đó giảm được chi phí quản lý. Các
tổ chức ngân hàng và tài chính hoạt động trong một khung pháp lý rất nghiêm ngặt, đòi hỏi
mức độ cao nhất trong kiểm soát minh bạch các hoạt động tài chính, tuân thủ các điều luật
và báo cáo đầy đủ chi tiết đến các cơ quan nhà nước, chính phủ Việc phát hiện sớm hành vi
gian lận của khách hàng là cực kỳ quan trọng. Hệ thống Big Data thu thập và lưu trữ dữ liệu
trong một cơ sở dữ liệu có quy mô lớn giúp ngân hàng quản lý, tiến hành phân tích một cách
nhanh nhất bằng cách sử dụng các phần mềm, thuật toán chuyên dụng. Và khi phát hiện một
số lượng lớn rủi ro có thể xảy ra, ngân hàng sẽ dễ dàng kiểm soát. Big Data đóng một vai trò
to lớn trong quá trình tích hợp các chức năng của các bộ phận, phòng ban và yêu cầu xử lý
dữ liệu của ngân hàng vào một hệ thống trung tâm duy nhất. Qua đó hỗ trợ kiểm soát, ngăn
chặn vấn đề mất dữ liệu, giảm thiểu rủi ro và gian lận.
2.9. Thứ chín, tham gia vào việc kiểm soát đánh giá và nâng cao hiệu quả làm việc của
nhân viên.
Quá tập trung vào gia tăng lợi nhuận mà nhiều ngân hàng lại thường quên đi một ứng dụng
tiềm năng của Big Data mà có thể có tác động rất lớn đến quá trình phát triển kinh doanh.
Đó chính là nâng cao năng suất làm việc của nhân viên. Hệ thống Big Data hỗ trợ thu thập,
phân tích, đánh giá, truyền tải dữ liệu về hiệu quả làm việc của nhân viên. Trước đây, để thu
thập các thông tin này cần rất nhiều công đoạn mang tính thủ công, thì nay, Big Data sẽ giúp
xử lý các công việc này một cách nhanh chóng và chính xác. Kết quả phân tích sẽ giúp các
nhà lãnh đạo có cái nhìn về tình hình, thực trạng làm việc hiện tại của nhân viên mình như
những nhân viên nào đang có thành tích tốt nhất, những nhân viên nào không đạt được chỉ
tiêu, và đặc biệt là xem xét mức độ hài lòng của nhân viên về môi trường làm việc, phúc
lợi,.. của ngân hàng dành cho họ. Các công cụ của Big Data khai thác toàn bộ dữ liệu đều ở
thời gian thực, do đó lúc giải pháp được đưa ra sẽ mang tính khả thi cao, và tạo nên những
sự thay đổi nhanh chóng. Ngoài ra các ngân hàng có thể đo lường nhiều thứ không chỉ mỗi
hiệu suất làm việc của cá nhân, mà còn tinh thần đồng đội, sự tương tác giữa các phòng ban
và văn hóa tổng thể của công ty. Nhân viên sẽ giảm thời gian dành cho các công việc mang
tính thủ công gồm nhiều quy trình phức tạp bằng cách dựa vào hệ thống Big Data gồm các
phần mềm đã được lập trình sẵn để giải quyết các công việc ấy một cách nhanh chóng và
chính xác. Từ đó nhân viên dành nhiều thời gian cho các công việc, nhiệm vụ khó hơn, cấp
bách hơn từ cấp trên giao xuống.
III. HẠN CHẾ VÀ GIẢI PHÁP KHI ỨNG DỤNG BIG DATA Ở TRONG
NGÂN HÀNG
3.1. Các hệ thống kế thừa đang gặp khó khăn trong việc theo kịp
Ngành ngân hàng luôn chậm đổi mới: 92 trong số 100 ngân hàng hàng đầu toàn cầu
vẫn điều hành hoạt động của họ trên các máy tính lớn của IBM. Không có gì ngạc nhiên khi
việc áp dụng Fintech (công nghệ tài chính) rất cao. Các tổ chức tài chính truyền thống không
có cơ hội chống lại các công ty khởi nghiệp nhanh nhẹn và lấy khách hàng làm trung tâm.
Tuy nhiên, khi nói đến dữ liệu lớn, mọi thứ thậm chí còn tồi tệ hơn: hầu hết các hệ thống cũ
không có khả năng xử lý khối lượng công việc ngày càng tăng. Việc cố gắng thu thập, lưu
trữ và phân tích lượng dữ liệu cần thiết bằng cơ sở hạ tầng lỗi thời có thể gây nguy hiểm cho
sự ổn định của toàn bộ hệ thống. Do đó, các tổ chức phải tăng khả năng xử lý hoặc xây dựng
lại hoàn toàn hệ thống của mình để đáp ứng thách thức.
3.2. Dữ liệu càng nhiều thì rủi ro càng lớn.

Ở đâu có dữ liệu, ở đó có rủi ro. Rõ ràng là các nhà cung cấp dịch vụ ngân hàng phải
đảm bảo rằng dữ liệu người dùng mà họ thu thập và xử lý luôn được bảo mật. Hơn nữa, các
quy định bảo mật dữ liệu đang trở nên nghiêm ngặt hơn. GDPR (quy định bảo vệ giữ liệu
chung) đã áp đặt các hạn chế mới đối với các doanh nghiệp trên toàn thế giới muốn thu thập
và sử dụng dữ liệu người dùng.
3.3. Dữ liệu lớn đang trở nên không thể quản lý.
Với rất nhiều loại dữ liệu khác nhau và khối lượng tổng hợp của chúng, không
có gì ngạc nhiên khi các doanh nghiệp phải vật lộn để theo kịp. Điều này càng trở nên
rõ ràng hơn khi cố gắng tách dữ liệu hữu ích khỏi dữ liệu vô ích.
Mặc dù tỷ lệ dữ liệu có khả năng hữu ích đang tăng lên, nhưng vẫn còn rất nhiều dữ liệu
không liên quan cần sắp xếp. Điều này có nghĩa là các doanh nghiệp phải chuẩn bị và củng
cố các phương pháp của họ để phân tích nhiều dữ liệu hơn nữa và nếu có thể, hãy tìm một
ứng dụng mới cho dữ liệu trước đây được cho là không liên quan.
3.4. Thay đổi tư duy vè dữ liệu và các phương pháp xử lý các dữ liệu hiện đại của đội
ngũ ngân hang.
Hiện tại vẫn còn tồn tại một số quan điểm là quyết định có thể đưa ra dựa trên kinh
nghiệm mà không cần dựa trên các kết quả phân tích dữ liệu lớn. Quan điểm đó không sai ở
trong quá khứ, thực tế có nhiều quản lí thâm niên đã đưa ra nhiều quyết định chính xác.
Nhưng đó là khi thị trưởng ngân hàng và các dịch vụ còn đơn giản, nhu cầu khách hàng chưa
nhiều và cũng chưa tiếp cận được công nghệ thông tin hiện đại. Ngày nay khi công nghệ
ngày một phát triển, không ngừng thay đổi, nhu cầu khách hàng ngày một tăng cao thì một
số lượng không nhỏ khách hàng của ngân hàng đã và đang chuyển dần sang sử dụng dịch vụ
được cung cấp từ các đối thủ của ngân hàng bởi sự thuận tiện, dịch vụ thanh toán và tốc độ
xử lý giao dịch nhanh chóng, an toàn và đặc biệt chi phí thấp như Ví Momo, ViettelPay,…
Các hồ sơ vay vốn khoản thanh toán từ khi đê ̣ trình tới khi được phê có thể phải
hoăc̣ duyêṭ
trải qua nhiều cuôc̣ họp kéo dài trong nhiều ngày. Tuy nhiên, với sự hỗ trợ của công nghê ḷ ưu
trữ và phân tích dữ liêu, ngân hàng có thể nhanh chóng so sánh, đánh giá tín dụng đối với
khách hàng. áp dụng công nghê ̣ Big Data giúp số ngân hàng giảm thời gian thẩm
Viêc̣ môṭ
định khách hàng từ nhiều ngày xuống chỉ còn vài phút. Mạng lưới dữ liêụ liên kết và công
nghê ̣ diê danh tích khách hàng thông qua các trang mạng xã hôị thâ chí còn có thể
nhâṇ ṇ ṃ
giúp ngân hàng xác định được khách hàng đang ở đâu, làm gì và có các mối quan hê ̣ nào.
Điều này giúp quá trình quản lý trở nên hiêụ quả hơn. Các ngân hàng cũng áp dụng công
nghê ̣phân tích dữ lớn để lựa chọn vị trí lợi nhất khi mở chi nhánh mới.
liêụ thuâṇ
3.5. Cần xây dựng được quy trình liên quan đến dữ liệu từ khâu thu nhập đến sử dụng
kết quả xử lý dữ liệu.
Ngân hàng cần thiết lập một quy trình: thu nhập, rà sát, làm sạch, tổng hợp và phân
loại dữ liệu vào đầu một mối tập trung. Sau đó lại phân phối dữ liệu để những bộ phận liên
quan để đưa ra các thông tin hữu ích. Trong đó bước rà soát là bước quan trọng nhất để nâng
cao chất lượng dữ liệu. Ví dụ như, dữ liệu về tài khoản khách hàng và giao dịch, thường
được sử dụng bởi các bộ phận quản lý gian lận, được thu thập từ nhiều nguồn khác nhau ở
dưới dạng thô. Quá trình sàng lọc và rà soát sẽ giúp giảm đáng kể số lượng các giao dịch sai,
nhờ đó làm giảm thời gian và công sức để xử lý.
Quá trình xây dựng dữ liệu cho Big Data gồm:
- Bước 1: Xác định nguồn dữ liệu (từ website, ứng dụng, thiết bị thông minh, mạng xã hội,
truyền thông, chính phủ…). Ngân hàng cần phải nắm rõ nguồn dữ liệu cần tìm và cách thức
thu thập.
- Bước 2: Xây dựng các hệ thống thu thập Big Data: xây dựng các phần mềm, ứng dụng hay
các thiết bị có thể kết nối với máy chủ để truyển tải thông tin, dữ liệu. Dữ liệu của Big Data
thuộc nhiều định dạng khác nhau nên hệ thống thu thập cần phải tiên tiến, tích hợp các công
nghệ mới.
- Bước 3: Xây dựng hệ thống lưu trữ và quản lý để phục vụ cho việc phân tích sau này. Dữ
liệu Big Data cần một hệ thống máy chủ lưu trữ. Hệ thống lữu trữ hiện tại gồm 2 loại lưu trữ
trên đám mây (cloud) và lưu trữ tại công ty. Để lựa chọn phù hợp thì ngân hàng cần dự báo
được khối lượng thông tin cần lưu trữ và các biện pháp bảo mật.
- Bước 4: Xây dựng hệ thống sàng lọc, làm sạch, phân tích dữ liệu và hệ thống phục vụ báo
cáo. Bước này đòi hỏi chất lượng của đội ngũ nhân sự trong việc xây dựng các thuật toán
khai thác dữ liệu, ứng dụng các mô hình định lượng thông minh để phân tích đa chiều và
đưa ra các dự báo.
- Bước 5: Sử dụng kết quả phân tích để đưa ra các quyết định.
3.6. Xây dựng một đội ngũ chuyên viên khoa học dữ liệu.
Hiện nay, có một thực tế về nhân sự trong ngành ngân hàng là cán bộ ngân hàng thì
không hiểu rõ về công nghệ thông tin, còn người làm công nghệ thông tin thì không hiểu rõ
về nghiệp vụ ngân hàng. Thêm nữa, các mô hình phân tích Big Data tại Việt Nam hiện nay
chủ yếu là ứng dụng lại các mô hình có sẵn trên thế giới, phần lớn các chuyên gia về khoa
học dữ liệu của Việt Nam còn hạn chế về khả năng phân tích mô hình. Do vậy, các ngân
hàng muốn phát triển công nghệ đều phải thuê nhân lực nước ngoài với chi phí đắt đỏ. Bởi
thế, việc đào tạo, quan tâm tới chất lượng nguồn nhân lực công nghệ cao cần được thực hiện
trong toàn hệ thống tài chính - ngân hàng, đảm bảo đủ khả năng ứng dụng công nghệ thong
tin, phương thức làm việc tiên tiến trong điều kiện hội nhập quốc tế sâu rộng.
KẾT LUẬN
Kỳ vọng và quy định ngày càng tăng của khách hàng đã tạo ra một kỷ nguyên đầy thách
thức đối với các ngân hàng và tổ chức tài chính. Để theo kịp đà phát triển này và duy trì tính
cạnh tranh, các ngân hàng cần có sự hỗ trợ vượt ra ngoài sức lao động của con người để
nâng cao hiệu quả, ngăn ngừa gian lận có thể xảy ra và quản lý rủi ro tiềm ẩn. Việc áp dụng
các công nghệ dữ liệu lớn cung cấp cho các ngân hàng một cổng trong tất cả các lĩnh vực
này và cho phép nhiều ngân hàng truyền thống tồn tại.

NLSUD Nhóm 7

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

NLSUD Nhóm 7

Uploaded by

Copyright:

Available Formats

HỌC VIỆN NGÂN HÀNG

HỆ THỐNG THÔNG TIN QUẢN LÝ

BÀI TẬP LỚN

Giáo viên hướng dẫn: Vũ Duy Hiến

1. Mã sinh viên: 26A4010766 Họ và tên: Hoàng Gia Hiếu

1.2. Nguồn gốc và sự phát triển của Big Data

1.3. Đặc trưng của Big Data là gì?

1.4.1. Cơ sở hạ tầng IT cần thiết để hỗ trợ Big Data

1.4.3. Các kĩ năng Big data

1.4.4. Các ứng dụng Big Data

2.3. Thứ ba, bán chéo thêm các dịch vụ khác.

2.5. Thứ năm, marketing theo hướng cá nhân hóa.

3.2. Dữ liệu càng nhiều thì rủi ro càng lớn.

You might also like