Professional Documents
Culture Documents
Big data là các tập dữ liệu rất lớn và phức tạp, rất khó để quản lý, lưu trữ và phân tích bằng các
công cụ xử lý dữ liệu truyền thống. Điều quan trọng của big data là khả năng phân tích và tìm hiểu
thông tin từ những tập dữ liệu này, vì chúng thường chứa nhiều thông tin tiềm ẩn và giá trị quan
trọng.
Ví dụ như phương pháp cá nhân hóa nội dung đề xuất cho mỗi người trên các nền tảng Spotify,
Netflix, Youtube, các nền tảng Thương mại điện tử như Shopee, Lazada,...
Volume là khối lượng dữ liệu được các doanh nghiệp thu thập từ các nguồn khác nhau, như IoT
(Internet of Things), video, giao dịch kinh doanh, các phương tiện truyền thông xã hội,..
Velocity - Tốc độ xử lý
Dựa vào tốc độ xử lý của luồng dữ liệu để xác định đó có phải là Big data hay không. Thường thì
tốc độ của luồng dữ liệu trực tiếp vào bộ nhớ cao hơn so với khi được ghi vào đĩa. Đặc biệt là ngày
nay, với sự phát triển của IoT, các luồng dữ liệu truyền tải với tốc độ cực nhanh và chúng phải
được xử lý kịp thời.
Ngoài 3 đặc trưng chính trên của Doug Laney, thì còn có thêm rất nhiều tiêu chí khác xác định đặc
trưng của Big data, bao gồm: Veracity (Xác thực), Value (Giá trị), Relationality (Mối quan hệ),...
2. Lưu trữ
Mọi nền tảng Big Data đều cần một kho lưu trữ an toàn, có khả năng mở rộng và bền vững để chứa
dữ liệu trước hoặc thậm chí sau khi xử lý. Tùy thuộc vào nhu cầu cụ thể, bạn cũng có thể cần các
giải pháp lưu trữ tạm thời cho dữ liệu đang chuyển tiếp.
3. Xử lý và Phân tích
Đây là giai đoạn chuyển dữ liệu từ trạng thái thô sang định dạng có thể sử dụng - thường là thông
qua việc sắp xếp, tổng hợp, gộp, và thậm chí áp dụng các chức năng và thuật toán tiên tiến hơn.
Sau đó, các bộ dữ liệu kết quả được lưu trữ để xử lý thêm hoặc chuẩn bị cho giai đoạn sử dụng
thông qua các công cụ trực quan hóa dữ liệu và nghiệp vụ thông minh.
• đến từ Internet of Things (IoT) và các thiết bị được kết nối khác truyền vào hệ thống Công
nghệ thông tin từ thiết bị đeo tay, ô tô thông minh, thiết bị y tế,... Khi đó, cần xem xét và
quyết định giữ hay không giữ dữ liệu nào và dữ liệu nào cần phân tích thêm.
• Dữ liệu truyền thông xã hội bắt nguồn từ các tương tác trên Facebook, YouTube,
Instagram,... Big data sẽ ở dạng hình ảnh, video, giọng nói, văn bản, âm thanh, chúng đặc
biệt hữu ích trong việc tiếp thị, bán hàng.
• Các Big data có thể đến từ kho dữ liệu, Cloud, nhà cung cấp và khách hàng.
Thư viện phần mềm Hadoop - nơi cho phép xử lý khối lượng dữ liệu lớn trên các nhóm máy tính
sử dụng mô hình lập trình đơn giản. Công nghệ này giúp mở rộng từ một máy chủ sang hàng ngàn
máy khác, mỗi máy lưu trữ cục bộ và cung cấp tính toán. Dự án này bao gồm
Apache Spark
Apache Spark thuộc một phần trong hệ sinh thái Hadoop, đây là khuôn mẫu tính toán cụm nguồn
mở được sử dụng nhằm xử lý Big data trong Hadoop. Apache Spark hiện đã trở thành một trong
những khuôn mẫu xử lý Big data phổ biến và quan trọng, có thể được triển khai theo nhiều cách
khác nhau.
Data lakes
Data Lakes là nơi chứa một khối lượng dữ liệu thô cực kỳ lớn ở định dạng gốc. Sự phát triển của
IoT và phong trào chuyển đổi số đã giúp Data lakes tăng trưởng mạnh mẽ. Công nghệ này được
thiết kế giúp người dùng dễ dàng truy cập vào một lượng lớn dữ liệu bất cứ khi nào họ có nhu cầu.
NoSQL Databases
Công nghệ này là hệ thống quản lý dữ liệu không yêu cầu một sơ đồ cố định, được xem là lựa chọn
hoàn hảo đối với những dữ liệu lớn, thô và phi cấu trúc. các cơ sở dữ liệu này có thể xử lý nhiều
mô hình dữ liệu khác nhau một cách linh hoạt.
In-memory databases
In-memory databases (IMDB - Cơ sở dữ liệu trong bộ nhớ) là hệ thống quản lý cơ sở dữ liệu thường
dựa vào Ram thay vì HDD để lưu trữ dữ liệu. Cơ sở dữ liệu trong đĩa không thể nhanh bằng cơ sở
dữ liệu trong bộ nhớ, do đó, đây là một điểm quan trọng để phân tích Big data và tạo ra các siêu
dữ liệu, kho dữ liệu khổng lồ