You are on page 1of 6

Big data là gì?

Big data là các tập dữ liệu rất lớn và phức tạp, rất khó để quản lý, lưu trữ và phân tích bằng các
công cụ xử lý dữ liệu truyền thống. Điều quan trọng của big data là khả năng phân tích và tìm hiểu
thông tin từ những tập dữ liệu này, vì chúng thường chứa nhiều thông tin tiềm ẩn và giá trị quan
trọng.

Ví dụ như phương pháp cá nhân hóa nội dung đề xuất cho mỗi người trên các nền tảng Spotify,
Netflix, Youtube, các nền tảng Thương mại điện tử như Shopee, Lazada,...

Đặc trưng của Big data


Volume - Khối lượng dữ liệu
Big data là thuật ngữ nói về khối lượng dữ liệu lớn, kích thước lớn. Xác định giá trị của dữ liệu và
kích thước dữ liệu là rất quan trọng và cần thiết, nếu khối lượng lớn, đó chính là Big data.

Volume là khối lượng dữ liệu được các doanh nghiệp thu thập từ các nguồn khác nhau, như IoT
(Internet of Things), video, giao dịch kinh doanh, các phương tiện truyền thông xã hội,..

Velocity - Tốc độ xử lý
Dựa vào tốc độ xử lý của luồng dữ liệu để xác định đó có phải là Big data hay không. Thường thì
tốc độ của luồng dữ liệu trực tiếp vào bộ nhớ cao hơn so với khi được ghi vào đĩa. Đặc biệt là ngày
nay, với sự phát triển của IoT, các luồng dữ liệu truyền tải với tốc độ cực nhanh và chúng phải
được xử lý kịp thời.

Variety - Tính đa dạng, linh hoạt


Đặc trưng tiếp theo của Big data chính là tính đa dạng, linh hoạt, ở dạng cấu trúc và phi cấu trúc,
bao gồm dữ liệu số, Email, Video, âm thanh, giao dịch tài chính,... Tính đa dạng ảnh hưởng đến
hiệu suất, đây là một trong những vấn đề chính mà lĩnh vực Big data cần phải giải quyết.

Ngoài 3 đặc trưng chính trên của Doug Laney, thì còn có thêm rất nhiều tiêu chí khác xác định đặc
trưng của Big data, bao gồm: Veracity (Xác thực), Value (Giá trị), Relationality (Mối quan hệ),...

Phân loại Big data


Dữ liệu có cấu trúc
- Dữ liệu có cấu trúc được xem là dữ liệu đơn giản nhất để quản lý và tìm kiếm. Nó là những
dữ liệu có thể truy cập, lưu trữ và xử lý ở định dạng cố định. Các thành phần của dữ liệu
có cấu trúc được phân loại dễ dàng, cho phép các nhà thiết kế và quản trị viên cơ sở dữ
liệu xác định các thuật toán đơn giản để tìm kiếm và phân tích.
Dữ liệu phi cấu trúc
- Dữ liệu phi cấu trúc là bất kỳ tập hợp dữ liệu nào không được tổ chức hoặc xác định rõ
ràng. Loại dữ liệu này hỗn loạn, khó xử lý, khó hiểu và đánh giá. Nó không có cấu trúc cố
định và có thể thay đổi vào những thời điểm khác nhau. Dữ liệu phi cấu trúc bao gồm các
nhận xét, tweet, lượt chia sẻ, bài đăng trên mạng xã hội, video trên YouTube mà người
dùng xem,...

Dữ liệu bán cấu trúc


- Dữ liệu bán cấu trúc là sự kết hợp giữa dữ liệu có cấu trúc và dữ liệu phi cấu trúc. Email là
một ví dụ điển hình vì chúng bao gồm dữ liệu phi cấu trúc trong nội dung thư, cũng như
nhiều thuộc tính tổ chức khác như người gửi, người nhận, chủ đề và ngày tháng. Các thiết
bị sử dụng gắn thẻ địa lý, thời gian cũng có thể cung cấp dữ liệu có cấu trúc bên cạnh nội
dung phi cấu trúc.

Cách thức hoạt động của Big data


1. Thu thập
Thách thức đầu tiên mà nhiều tổ chức gặp phải khi xử lý Big Data là việc thu thập dữ liệu thô - bao
gồm giao dịch, bản ghi, thiết bị di động và các loại dữ liệu khác. Một nền tảng Big Data hiệu quả sẽ
làm cho giai đoạn này trở nên dễ dàng hơn, cho phép các nhà phát triển nhập các loại dữ liệu khác
nhau - từ dữ liệu có cấu trúc đến không cấu trúc - ở mọi tốc độ, từ thời gian thực đến xử lý theo lô.

2. Lưu trữ
Mọi nền tảng Big Data đều cần một kho lưu trữ an toàn, có khả năng mở rộng và bền vững để chứa
dữ liệu trước hoặc thậm chí sau khi xử lý. Tùy thuộc vào nhu cầu cụ thể, bạn cũng có thể cần các
giải pháp lưu trữ tạm thời cho dữ liệu đang chuyển tiếp.

3. Xử lý và Phân tích
Đây là giai đoạn chuyển dữ liệu từ trạng thái thô sang định dạng có thể sử dụng - thường là thông
qua việc sắp xếp, tổng hợp, gộp, và thậm chí áp dụng các chức năng và thuật toán tiên tiến hơn.
Sau đó, các bộ dữ liệu kết quả được lưu trữ để xử lý thêm hoặc chuẩn bị cho giai đoạn sử dụng
thông qua các công cụ trực quan hóa dữ liệu và nghiệp vụ thông minh.

4. Sử dụng và Trực quan hóa


Big Data tập trung vào việc thu thập thông tin chuyên sâu, có giá trị từ tài sản dữ liệu của bạn. Lý
tưởng nhất, dữ liệu được cung cấp cho các bên liên quan thông qua nghiệp vụ thông minh tự phục
vụ và các công cụ trực quan hóa dữ liệu linh hoạt, giúp bạn khám phá bộ dữ liệu một cách nhanh
chóng và dễ dàng. Tùy thuộc vào loại phân tích, người dùng cuối cũng có thể sử dụng dữ liệu kết
quả dưới dạng “dự đoán” thống kê - trong trường hợp phân tích dự đoán - hoặc các hành động
được đề xuất - trong trường hợp phân tích theo quy định.

Vai trò của Big data trong doanh nghiệp


Cải thiện trải nghiệm khách hàng
- Big data giúp doanh nghiệp phân tích, thấu hiểu và nhắm đúng khách hàng mục tiêu. Hiểu
được hành vi, xu hướng mua hàng của khách hàng, đồng thời dự đoán tình hình thị trường
tương lai để đưa ra các quyết định kinh doanh chính xác hơn. Big data cho phép các doanh
nghiệp điều chỉnh sản phẩm phù hợp với thị trường mục tiêu của họ

Nâng cao năng suất


- Các công cụ Big data hiện đại giúp các nhà khoa học và nhà phân tích dữ liệu có thể kiểm
tra hiệu quả lượng dữ liệu khổng lồ, giúp họ có cái nhìn tổng quan nhanh về dữ liệu.
- Đồng thời, chúng cho phép các nhà khoa học và phân tích dữ liệu tìm hiểu thêm về hiệu
quả của các đường dẫn dữ liệu, cho phép họ chọn cách hoàn thành nhiệm vụ một cách
hiệu quả hơn, từ đó giúp tăng năng suất.

Tối ưu hoá hiệu suất cá nhân


- Với Big data, giờ đây chúng ta có thể ứng dụng những dữ liệu được tạo từ các thiết bị tiện
lợi như đồng hồ thông minh hoặc vòng đeo tay thông minh. Những dữ liệu từ người dùng
đem lại cho doanh nghiệp cái nhìn rõ ràng hơn về xu hướng, kỳ vọng mua hàng, nhằm xây
dựng một lộ trình và chiến lược cụ thể, đúng đắn.

Giảm thiểu rủi ro nhờ phát hiện gian lận


- Big data được áp dụng trong việc cải thiện bảo mật và góp phần vào việc thực thi các quy
định của pháp luật. Nhiều doanh nghiệp sử dụng các phân tích dữ liệu lớn để phát hiện và
kịp thời ngăn chặn các giao dịch gian lận.

Tối ưu hoá giá cả


- Big data cũng tham gia vào quá trình định giá sản phẩm/ dịch vụ cho doanh nghiệp. Các
doanh nghiệp có thể dựa trên các phân tích dữ liệu về giá cả cũng như giá của đối thủ cạnh
tranh cùng phân khúc và xu hướng mua hàng của khách hàng.

Nắm bắt được các giao dịch tài chính


- Giao dịch ở tần số cao (HFT) là nơi mà dữ liệu lớn được tìm thấy rất nhiều, tại đây, các
thuật toán Big data được dùng để đưa ra quyết định giao dịch.
- Rất nhiều các thanh toán và giao dịch điện tử diễn ra phổ biến trên thế giới, nhiều thương
hiệu VN tập trung vào các giao dịch để phân tích dữ liệu của người dùng. Đặc biệt là các
doanh nghiệp hoạt động trong lĩnh vực Thương mại điện tử

Hỗ trợ đổi mới


- Đổi mới kinh doanh dựa trên những hiểu biết mà các nhà phân tích khám phá thông qua
Big data. Việc phát triển sản phẩm có thể được thực hiện bằng cách biết được người tiêu
dùng nghĩ gì về sản phẩm/ dịch vụ của doanh nghiệp.

Tăng cường sự thích nghi, sáng tạo


- Việc phân tích Big data có thể hỗ trợ các doanh nghiệp trở nên sáng tạo và dễ thích nghi
hơn trên thị trường. Nhờ phân tích, doanh nghiệp có thể hiểu rõ hơn về đối thủ cạnh tranh
và xử lý nỗi đau của khách hàng một cách hiệu quả, linh hoạt hơn.
Đưa Big data vào hoạt động doanh nghiệp
1. Lên chiến lược cho Big data
2. Xác định các nguồn của Big data
3. Truy cập, quản lý và lưu trữ Big data
4. Phân tích Big data
5. Đưa ra quyết định hợp lý

Lên chiến lược cho Big data


- Chiến lược Big data là một kế hoạch được xây dựng giúp doanh nghiệp giám sát, cải tiến
cách thu thập, lưu trữ, quản lý, chia sẻ hay sử dụng dữ liệu ở trong và ngoài tổ chức.
- Khi phát triển một chiến lược, doanh nghiệp cần kết hợp mục tiêu kinh doanh với các nguồn
lực công nghệ hiện có. Điều này cũng đồng nghĩa rằng, doanh nghiệp phải thực sự xem
Big data là tài sản kinh doanh có giá trị, thay vì chỉ là một sản phẩm phụ của các ứng dụng.

Xác định các nguồn của Big data

• đến từ Internet of Things (IoT) và các thiết bị được kết nối khác truyền vào hệ thống Công
nghệ thông tin từ thiết bị đeo tay, ô tô thông minh, thiết bị y tế,... Khi đó, cần xem xét và
quyết định giữ hay không giữ dữ liệu nào và dữ liệu nào cần phân tích thêm.
• Dữ liệu truyền thông xã hội bắt nguồn từ các tương tác trên Facebook, YouTube,
Instagram,... Big data sẽ ở dạng hình ảnh, video, giọng nói, văn bản, âm thanh, chúng đặc
biệt hữu ích trong việc tiếp thị, bán hàng.
• Các Big data có thể đến từ kho dữ liệu, Cloud, nhà cung cấp và khách hàng.

Truy cập, quản lý và lưu trữ Big data


- Hiện nay, với sự bùng nổ mạnh mẽ của công nghệ, các hệ thống máy tính đã cung cấp đủ
tốc độ, tính linh hoạt cần thiết để nhanh chóng truy cập lượng lớn các loại Big data.
- Ngoài ra, các doanh nghiệp cũng cần có những phương pháp tích hợp và đảm bảo chất
lượng dữ liệu, cung cấp khả năng quản lý để thuận tiện cho việc phân tích.

Phân tích Big data


- Điện toán lưới (Grid computing) hay thực hiện các phân tích trên bộ nhớ đệm có hiệu năng
cao, doanh nghiệp có thể sử dụng tất cả Big data để phân tích. Mục đích cuối cùng vẫn là
thu được giá trị và Insight từ dữ liệu.

Đưa ra quyết định hợp lý


- Một dữ liệu chính xác, được quản lý, lưu trữ tốt có thể giúp quá trình phân tích chính xác
và đưa ra quyết định hợp lý hơn. Để duy trì tính cạnh tranh trên thị trường, doanh nghiệp
cần tận dụng toàn bộ giá trị của Big data, Các doanh nghiệp có thể dựa vào đó để phân
tích, dự đoán xu hướng và đưa ra những chiến lược phù hợp, mang lại nhiều giá trị, lợi
nhuận cũng như lợi thế cạnh tranh trên thị trường hiện nay.

Các công nghệ đặc biệt dành cho Big data


1. Hệ sinh thái Hadoop
2. Apache Spark
3. Data lakes
4. NoSQL Databases
5. In-memory databases

Hệ sinh thái Hadoop


Hadoop là hệ sinh thái được xem là phổ biến và có sự liên quan mật thiết với Big data. Apache
Hadoop là dự án phát triển phần mềm mã nguồn mở dành cho máy tính, có khả năng mở rộng và
phân tán.

Thư viện phần mềm Hadoop - nơi cho phép xử lý khối lượng dữ liệu lớn trên các nhóm máy tính
sử dụng mô hình lập trình đơn giản. Công nghệ này giúp mở rộng từ một máy chủ sang hàng ngàn
máy khác, mỗi máy lưu trữ cục bộ và cung cấp tính toán. Dự án này bao gồm

Apache Spark
Apache Spark thuộc một phần trong hệ sinh thái Hadoop, đây là khuôn mẫu tính toán cụm nguồn
mở được sử dụng nhằm xử lý Big data trong Hadoop. Apache Spark hiện đã trở thành một trong
những khuôn mẫu xử lý Big data phổ biến và quan trọng, có thể được triển khai theo nhiều cách
khác nhau.

Data lakes
Data Lakes là nơi chứa một khối lượng dữ liệu thô cực kỳ lớn ở định dạng gốc. Sự phát triển của
IoT và phong trào chuyển đổi số đã giúp Data lakes tăng trưởng mạnh mẽ. Công nghệ này được
thiết kế giúp người dùng dễ dàng truy cập vào một lượng lớn dữ liệu bất cứ khi nào họ có nhu cầu.

NoSQL Databases
Công nghệ này là hệ thống quản lý dữ liệu không yêu cầu một sơ đồ cố định, được xem là lựa chọn
hoàn hảo đối với những dữ liệu lớn, thô và phi cấu trúc. các cơ sở dữ liệu này có thể xử lý nhiều
mô hình dữ liệu khác nhau một cách linh hoạt.

In-memory databases
In-memory databases (IMDB - Cơ sở dữ liệu trong bộ nhớ) là hệ thống quản lý cơ sở dữ liệu thường
dựa vào Ram thay vì HDD để lưu trữ dữ liệu. Cơ sở dữ liệu trong đĩa không thể nhanh bằng cơ sở
dữ liệu trong bộ nhớ, do đó, đây là một điểm quan trọng để phân tích Big data và tạo ra các siêu
dữ liệu, kho dữ liệu khổng lồ

Lĩnh vực ứng dụng tốt nhất Big data


1. Ngân hàng
2. Giáo dục
3. Ngành bán lẻ
4. Y tế
5. Truyền thông và giải trí
6. Digital Marketing
7. Giao thông vận tải
8. Dịch vụ khách hàng

You might also like