ISADS

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP.
HCM
KHOA CÔNG NGHỆ THÔNG TIN
VŨ VĂN HƯNG 20036941 KHDL16A

VIÊN VĨ NGHIỆP 20050361 DHDL16A
BÁO CÁO ĐỒ ÁN CUỐI KỲ

LỚP: NHẬP MÔN DỮ LIỆU LỚN
Recent Advances in Natural Language Processing via

Large Pre-Trained Language Models - A Survey
TP. Hồ Chí Minh, tháng 12 năm 2023
1
Tóm tắt: Trong bài viết này, xem xét cách triển khai một tầng phục vụ (serving
layer) cho trang web SuperWebAnalytics.com, sử dụng ElephantDB như một cơ sở dữ
liệu dạng key/value. Trọng tâm của đoạn văn là về ứng dụng thực tế thay vì giới thiệu
lý thuyết mới. ElephantDB được giải thích như một cơ sở dữ liệu chia các batch view
thành các phần (shards), sử dụng một sharding scheme có thể thay đổi. Chương này
trình bày cơ bản về ElephantDB, kiến trúc của nó, các hạn chế, và cách sử dụng nó cho
SuperWebAnalytics.com. Việc tạo tầng phục vụ liên quan đến việc tạo và phục vụ view
sử dụng MapReduce và một cluster ElephantDB riêng biệt. Chương mô tả việc tạo
shards trong ElephantDB, thiết lập cluster, và truy vấn sử dụng một API Thrift đơn giản.
Ví dụ minh họa cách tạo views tối ưu hóa cho SuperWebAnalytics.com, chẳng hạn như
xem số lần xem trang theo thời gian, xem số lần xem duy nhất theo thời gian và phân
tích tỷ lệ thoát trang. Mã hóa tùy chỉnh được cung cấp cho các key và value hỗn hợp,
được tinh chỉnh cho mô hình key/value của ElephantDB. Điểm nổi bật là sự đơn giản
khi tích hợp batch views vào tầng phục vụ. Đoạn văn kết thúc bằng việc nhấn mạnh độ
dễ sử dụng và vận hành của ElephantDB, bày tỏ hy vọng về sự phát triển của nhiều cơ
sở dữ liệu tầng phục vụ khác nhau hoặc với mô hình chỉ mục tổng quát hơn. Chương
trình tiếp theo được giới thiệu - tầng tốc độ (speed layer), giải quyết vấn đề trễ lớn trong
tầng phục vụ để truy cập dữ liệu cập nhật mới nhất.
2
MỤC LỤC
CHƯƠNG 1: GIỚI THIỆU ........................................................................................................ 4
1.1. Bối cảnh....................................................................................................................... 4
1.2. Các công nghệ liên quan đến dữ liệu lớn .................................................................... 4
1.2.1. Apache HBase .................................. Lỗi! Thẻ đánh dấu không được xác định.
1.2.2. Cassandra ......................................... Lỗi! Thẻ đánh dấu không được xác định.
1.2.3. Apache Druid ................................... Lỗi! Thẻ đánh dấu không được xác định.
CHƯƠNG 2: ELEPHANTDB ................................... Lỗi! Thẻ đánh dấu không được xác định.
2.1. Thông tin cơ bản về ElephantDB ............ Lỗi! Thẻ đánh dấu không được xác định.
2.1.1. View creation in ElephantDB .............. Lỗi! Thẻ đánh dấu không được xác định.
2.1.2. View serving in ElephantDB ............... Lỗi! Thẻ đánh dấu không được xác định.
2.1.3. Using ElephantDB ............................... Lỗi! Thẻ đánh dấu không được xác định.
2.2. Xây dựng lớp phục vụ cho SuperWebAnalytics.com ..Lỗi! Thẻ đánh dấu không được
xác định.
2.2.1. Pageviews-over-time............................ Lỗi! Thẻ đánh dấu không được xác định.
2.2.2. Uniques over time ................................ Lỗi! Thẻ đánh dấu không được xác định.
2.2.3 Bounce-rate analysis ............................. Lỗi! Thẻ đánh dấu không được xác định.
CHƯƠNG 3: ỨNG DỤNG ........................................ Lỗi! Thẻ đánh dấu không được xác định.
3.1 . Ứng dụng .............................................. Lỗi! Thẻ đánh dấu không được xác định.
3
CHƯƠNG 1: GIỚI THIỆU
1.1. Bối cảnh
- Trong kiến trúc xử lý dữ liệu lớn (BDP), lớp phục vụ (Serving Layer) đóng vai trò
quan trọng trong việc cung cấp dữ liệu đã được xử lý và tổng hợp cho người dùng
và ứng dụng. Để minh họa cách lớp phục vụ này có thể được triển khai, đoạn trích
đề cập đến sử dụng ElephantDB làm cơ sở dữ liệu trong lớp phục vụ, mang lại cái
nhìn chi tiết và thực tế về cách nó được tích hợp và sử dụng. ElephantDB xuất hiện
như một giải pháp cho lớp phục vụ trong ngữ cảnh của kiến trúc xử lý dữ liệu lớn.
Là một cơ sở dữ liệu key/value, ElephantDB được tận dụng để cung cấp dữ liệu
thời gian thực và quy mô lớn, giúp khắc phục một số khó khăn của các công cụ
khác.
- Chúng ta có thể xem xét một số cách mà các hệ thống lớn có thể sử dụng cơ sở dữ
liệu key/value và cách nó có thể tương tự với những đặc điểm của ElephantDB.
Ví dụ: Hệ Thống Theo Dõi Truy Cập Web Thời Gian Thực, Một công ty quảng cáo
trực tuyến lớn đang cần theo dõi và phân tích lưu lượng truy cập trên các trang web
đối tác của họ để đảm bảo hiệu suất quảng cáo tốt nhất. Hệ thống cần có khả năng
xử lý dữ liệu truy cập web thời gian thực để đánh giá chiến dịch quảng cáo, đo
lường hiệu suất trang web, và đưa ra quyết định nhanh chóng về chiến lược quảng
cáo. Cơ sở dữ liệu key/value như ElephantDB có thể được sử dụng để lưu trữ và
phục vụ các dữ liệu thống kê liên quan đến lưu lượng truy cập web. Dữ liệu từ log
truy cập web được đưa vào ElephantDB và được phân chia thành các shard để đảm
bảo phân phối đều. Các view được tạo ra thông qua quá trình MapReduce để cung
cấp cái nhìn tổng quan về lưu lượng truy cập.
1.2. Các công nghệ liên quan
1.2.1. Apache HBase:
- Apache HBase là một cơ sở dữ liệu NoSQL phân tán xây dựng trên Hadoop
Distributed File System (HDFS). Nó hỗ trợ lưu trữ dữ liệu lớn với khả năng mở
rộng tốt và có thể được sử dụng trong lớp phục vụ cho việc truy xuất dữ liệu theo
thời gian thực.
4
- Đối với NoSQL Database cho Serving Layer, Apache HBase là một hệ thống cơ sở
dữ liệu NoSQL phân tán xây dựng trên Hadoop Distributed File System (HDFS).
Nó cung cấp khả năng lưu trữ và truy xuất dữ liệu lớn với hiệu suất cao, phù hợp để
đáp ứng yêu cầu của Serving layer trong hệ thống Big Data.
- Ở dữ liệu cột gia tăng, thì dữ liệu trong Apache HBase được tổ chức dưới dạng
bảng với hàng và cột. Mỗi cột có thể mở rộng linh hoạt, điều này giúp tối ưu hóa
cấu trúc dữ liệu cho các truy vấn thường xuyên được thực hiện trong Serving layer.
Phân tán và Mở rộng, Apache HBase có khả năng mở rộng dễ dàng bằng cách thêm
máy chủ vào cụm. Điều này làm cho nó phù hợp với việc xử lý lượng dữ liệu lớn và
đáp ứng với nhu cầu của Serving layer khi dữ liệu được cập nhật và truy xuất liên
tục. Dữ liệu theo Cột (Columnar Storage), Apache HBase lưu trữ dữ liệu theo cột,
điều này phản ánh cách mà Serving layer thường cần truy xuất dữ liệu theo cột để
đáp ứng các yêu cầu của ứng dụng thời gian thực Ngoài ra.Apache HBase còn hỗ
trợ đọc và ghi đồng thời, cung cấp khả năng cập nhật dữ liệu và cung cấp dịch vụ
truy xuất thời gian thực trong Serving layer.Tích hợp với Hadoop Ecosystem,
Apache HBase tích hợp tốt với các công cụ và dự án khác trong hệ sinh thái
Hadoop, như Apache Hadoop, Apache Spark, và Apache Flink. Điều này giúp kết
hợp dữ liệu từ các lớp Batch và Speed để cung cấp dịch vụ thống nhất trong Serving
layer.
1.2.2. Cassandra:
5
- Cassandra là một cơ sở dữ liệu phân tán hướng cột (column-family) có khả năng
mở rộng ngang tốt. Nó được sử dụng rộng rãi trong các hệ thống theo dõi và phân -
tích lưu lượng truy cập thời gian thực.
- Ta có, Cơ sở Dữ liệu NoSQL Phân Tán, Cassandra là một cơ sở dữ liệu NoSQL
phân tán được thiết kế để mở rộng dễ dàng và chịu được lưu lượng dữ liệu lớn.
Điều này làm cho nó phù hợp với việc tích hợp vào Serving layer trong hệ thống
Big Data. Đối với mô Hình Dữ liệu Hàng và Cột, Cassandra sử dụng mô hình dữ
liệu hỗn hợp giữa hàng (row) và cột (column). Dữ liệu được tổ chức thành các
bảng, mỗi bảng có thể chứa hàng với các cột khác nhau. Điều này cho phép
Cassandra tối ưu hóa cấu trúc dữ liệu cho các truy vấn thường xuyên trong Serving
layer. Ngoài ra, đối với Tích Hợp với Hệ Sinh Thái Big Data, Cassandra thường
được tích hợp với các dự án khác trong hệ sinh thái Big Data như Apache Spark,
Apache Flink, và Apache Kafka. Việc tích hợp này giúp kết nối lớp Batch và lớp
Speed và cung cấp dịch vụ truy xuất thời gian thực. Khả Năng Mở Rộng và Độ Bền
Cao, Cassandra có khả năng mở rộng dễ dàng với việc thêm nút vào cụm, đồng thời
giữ cho hiệu suất ổn định. Điều này làm cho nó trở thành lựa chọn phổ biến cho
Serving layer trong các hệ thống Big Data đòi hỏi khả năng độ bền và mở rộng. Đọc
và Ghi Đồng Thời, Cassandra hỗ trợ đọc và ghi đồng thời, cho phép cập nhật dữ
liệu và đọc dữ liệu một cách hiệu quả trong Serving layer, điều quan trọng khi cần
cung cấp dịch vụ truy vấn thời gian thực. Tích Hợp với Các Dự Án Open Source,
Cassandra tích hợp tốt với nhiều dự án mã nguồn mở và hệ thống quản lý cụm như
Apache Mesos và Kubernetes, giúp tối ưu hóa quản lý và triển khai cụm Cassandra.
1.2.3. Apache Druid:
- Apache Druid (trước đây là Metamarkets' Druid) là một cơ sở dữ liệu phân tán,
cung cấp khả năng truy vấn nhanh và thời gian thực cho dữ liệu lớn. Nó được thiết
kế đặc biệt để xử lý các truy vấn phức tạp trong lĩnh vực phân tích dữ liệu.
- Dữ Liệu Thời Gian Thực (Real-time Data), Apache Druid được thiết kế để xử lý và
truy vấn dữ liệu thời gian thực. Điều này làm cho nó lý tưởng cho việc tích hợp vào
Serving layer để cung cấp dịch vụ truy vấn và đọc dữ liệu thời gian thực từ lớp
Speed.
- Cơ Sở Dữ Liệu Phân Tán, Druid là một cơ sở dữ liệu phân tán, có khả năng mở
rộng dễ dàng bằng cách thêm nút vào cụm. Điều này giúp nó đáp ứng tốt với nhu
cầu xử lý lượng dữ liệu lớn và cung cấp dịch vụ thời gian thực trong Serving layer.
6
Tích Hợp với Apache Hadoop và Apache Spark, Druid có khả năng tích hợp với
Apache Hadoop và Apache Spark, giúp kết hợp dữ liệu từ lớp Batch và lớp Speed.
Điều này làm cho nó trở thành một thành phần quan trọng trong kiến trúc Lambda.
- Lưu Trữ Cột (Columnar Storage), Druid sử dụng lưu trữ cột cho dữ liệu, giúp tối ưu
hóa hiệu suất đọc dữ liệu theo cột. Điều này hữu ích khi Serving layer cần phải đáp
ứng các truy vấn thường xuyên.
- Tích Hợp với Apache Kafka, Apache Druid thường được tích hợp với Apache
Kafka để nhận dữ liệu thời gian thực. Kafka có thể được sử dụng để đẩy dữ liệu từ
lớp Speed vào Druid, giúp đảm bảo rằng dữ liệu mới nhất được ngay lập tức có sẵn
cho truy vấn.
- Khả Năng Tích Hợp với Các Nguồn Dữ Liệu Đa Dạng,Druid có thể tích hợp với
nhiều nguồn dữ liệu khác nhau, bao gồm cả cơ sở dữ liệu SQL truyền thống,
Apache Hive, và nhiều nguồn khác. Điều này làm cho nó linh hoạt trong việc xử lý
và phân tích dữ liệu từ nhiều nguồn khác nhau trong Serving layer.
7
CHƯƠNG 2: ELEPHANTDB
2.1. Thông tin cơ bản về ElephantDB
- ElephantDB là một hệ thống cơ sở dữ liệu phân tán được phát triển bởi Twitter, thiết kế đặc
biệt để lưu trữ và truy xuất dữ liệu phân tán có thể mở rộng.
- ElephantDB là một cơ sở dữ liệu phân tán thuộc loại NoSQL. Nó được xây dựng để xử lý
dữ liệu lớn và có thể mở rộng dễ dàng. Hệ thống này được thiết kế để mở rộng orizontially,
có nghĩa là bạn có thể thêm nhiều máy chủ vào cụm để xử lý tải lượng dữ liệu ngày càng
tăng. ElephantDB được phát triển dựa trên Apache Hadoop, một hệ sinh thái mã nguồn mở
được sử dụng rộng rãi để xử lý và lưu trữ dữ liệu lớn. Một trong những đặc điểm chính của
ElephantDB là khả năng lưu trữ dữ liệu bất đồng bộ. Điều này có nghĩa là nó có thể xử lý và
lưu trữ dữ liệu mà không cần phải đảm bảo việc ghi dữ liệu ngay lập tức. ElephantDB thích
hợp cho các ứng dụng đòi hỏi độ trễ thấp và cần xử lý dữ liệu thời gian thực, nơi mà việc lưu
trữ và truy xuất dữ liệu phân tán nhanh chóng là quan trọng. ElephantDB đã được Twitter sử
dụng cho một số ứng dụng của họ để xử lý và lưu trữ dữ liệu phân tán. ElephantDB thường
được sử dụng với ngôn ngữ lập trình Clojure, một ngôn ngữ lập trình chạy trên nền tảng Java
Virtual Machine (JVM).
2.1.1. View creation in ElephantDB
- Quá trình tạo view trong ElephantDB là bước quan trọng để biến dữ liệu từ tầng lô thành
dạng có thể truy vấn được. Mỗi máy chủ ElephantDB đảm nhận việc tạo các mảnh dữ liệu
thông qua một công việc MapReduce, sử dụng một tập hợp các cặp khóa/giá trị. Số lượng
reducer được cấu hình bằng số lượng mảnh của ElephantDB, và các khóa được phân chia đến
reducer sử dụng kịch bản phân chia được chỉ định.
- Quá trình này dẫn đến việc tạo các mảnh dữ liệu trong ElephantDB, nơi chúng được lưu trữ
trong hệ thống tệp phân tán. Mỗi mảnh sau đó được chỉ số hóa (ví dụ: trong một chỉ mục
BerkeleyDB) và tải lên hệ thống tệp phân tán để chuẩn bị cho việc phục vụ. Cần lưu ý rằng
quá trình tạo view không trực tiếp gửi các mảnh đến các máy chủ ElephantDB. Thiết kế này
là vì các máy chủ đối mặt với khách hàng sẽ không kiểm soát được khối lượng công việc và
hiệu suất truy vấn có thể bị ảnh hưởng. Thay vào đó, các máy chủ ElephantDB tự kéo các
mảnh từ hệ thống tệp với tốc độ được kiểm soát, giữ cho họ có thể duy trì các cam kết hiệu
suất đối với khách hàng.
- Quá trình tạo view không chỉ giúp tạo ra các mảnh dữ liệu để phục vụ, mà còn giúp cập nhật
dữ liệu một cách hiệu quả. Khi một phiên bản mới của một mảnh trở nên có sẵn, máy chủ
thực hiện quá trình tải xuống một cách kiểm soát, tránh làm quá tải đọc ghi thực tế. Sau khi
8
tải xuống, máy chủ chuyển sang bản phân vùng mới và xóa bản cũ, giữ cho quá trình này
không ảnh hưởng đến hiệu suất truy vấn trực tiếp.
- Điều này là một phần quan trọng của quá trình tạo view trong ElephantDB, đó là giúp tạo ra
các mảnh dữ liệu phục vụ và duy trì chúng một cách hiệu quả để đáp ứng yêu cầu truy vấn từ
tầng phục vụ.
2.1.2. View serving in ElephantDB
- Quá trình View serving trong ElephantDB chủ yếu liên quan đến việc cung cấp dữ liệu từ
các mảnh đã được tạo ra ở quá trình View creation. Một cụm máy chủ ElephantDB được hình
thành bởi nhiều máy chủ, và để chia sẻ công việc một cách công bằng, các mảnh được phân
phối đều giữa các máy chủ.
- Ngoài ra, ElephantDB hỗ trợ tính năng nhân bản, trong đó mỗi mảnh được lưu trữ một cách
dự phòng trên một số máy chủ đã định trước. Ví dụ, với 40 mảnh, 8 máy chủ và hệ số nhân
bản là 3, mỗi máy chủ sẽ chứa 15 mảnh, và mỗi mảnh sẽ tồn tại trên 3 máy chủ khác nhau.
Điều này giúp tăng tính chịu lỗi của cụm máy chủ, đảm bảo truy cập đầy đủ vào toàn bộ dữ
liệu ngay cả khi có sự mất mát máy chủ. Tuy nhiên, việc mất quá nhiều máy chủ có thể dẫn
đến việc một phần của dữ liệu trở nên không khả dụng, nhưng tính năng nhân bản giảm thiểu
khả năng này xảy ra.
- Các máy chủ ElephantDB chịu trách nhiệm lấy các mảnh được giao của mình từ hệ thống
tệp phân tán. Khi máy chủ phát hiện một phiên bản mới của mảnh, quá trình tải mới được
kiểm soát để tránh làm quá tải I/O của máy và ảnh hưởng đến các truy vấn đọc trực tiếp. Sau
khi tải xuống xong, máy chủ chuyển sang mảnh mới và xóa mảnh cũ. Cụm máy chủ này sau
đó cung cấp API cơ bản để truy xuất nội dung của các batch views. Tuy nhiên, hạn chế của
ElephantDB là không có một cơ sở dữ liệu phục vụ tổng quát, vì API của nó chỉ cho phép
9
truy xuất giá trị cho các khóa cụ thể. Một cơ sở dữ liệu phục vụ tổng quát sẽ cung cấp một
API phong phú hơn, chẳng hạn như khả năng quét qua các phạm vi khóa.
2.1.3. Using ElephantDB
- Quá trình sử dụng ElephantDB bao gồm ba khía cạnh chính: tạo các mảnh (shards), thiết lập
cụm máy chủ để phục vụ các yêu cầu, và sử dụng API của máy khách để truy vấn các batch
views.
- Tạo Các Mảnh (Shards) ElephantDB
Để tạo các mảnh trong ElephantDB, ta có thể sử dụng tap abstraction để tự động tạo các
mảnh thông qua JCascalog. ElephantDB cung cấp một tap để tự động hóa quá trình tạo mảnh.
Nếu có một truy vấn phụ tạo ra các cặp key/value, việc tạo view trong ElephantDB trở nên
đơn giản chỉ bằng cách thực thi truy vấn đó vào tap.
Ví dụ:
public static void elephantDbTapExample(Subquery subquery) {
DomainSpec spec = new DomainSpec(new JavaBerkDB(), new HashModScheme());
Object tap = EDB.makeKeyValTap("/output/path/on/dfs", spec, 32);
Api.execute(tap, subquery);
}
Trong đoạn mã trên, tap tự động cấu hình công việc MapReduce để chia các key, tạo mỗi
index và tải lên vào hệ thống tệp phân tán.
- Thiết Lập Cụm Máy Chủ ElephantDB
Để thiết lập một cụm máy chủ ElephantDB, ta cần cấu hình hai phần: cấu hình cục bộ và cấu
hình toàn cục. Cấu hình cục bộ chứa các thuộc tính cụ thể cho mỗi máy chủ cũng như địa chỉ
nơi cấu hình toàn cục và các mảnh thực sự đặt. Cấu hình toàn cục chứa thông tin cần thiết
cho mọi máy chủ trong cụm. Mỗi cụm có thể phục vụ nhiều lĩnh vực, do đó cấu hình sẽ chứa
một bản đồ từ tên miền đến vị trí trên hệ thống tệp phân tán.
Ví dụ:
// Cấu hình cục bộ
{:local-root "/data/elephantdb"
:hdfs-conf {"fs.default.name" "hdfs://namenode.domain.com:8020"}
:blob-conf {"fs.default.name" "hdfs://namenode.domain.com:8020"}}
// Cấu hình toàn cục

{:replication 1
10
:hosts ["edb1.domain.com" "edb2.domain.com" "edb3.domain.com"]
:port 3578
:domains {"domain1" "/data/output/domain1-edb"
"domain2" "/data/output/domain2-edb"}}
- Sử Dụng API Của Máy Khách Để Truy Vấn Batch Views
Đối với việc truy vấn batch views trong ElephantDB, ta sử dụng một API đơn giản dựa trên
Thrift. Sau khi kết nối với bất kỳ máy chủ ElephantDB nào, ta có thể phát hành các truy vấn
như sau:
public static void clientQuery(ElephantDB.Client client, String domain, byte[] key) {

client.get(domain, key);
}
Nếu máy chủ kết nối không lưu trữ khóa được yêu cầu, nó sẽ giao tiếp với các máy chủ khác
trong cụm để lấy giá trị mong muốn.
2.2. Xây dựng lớp phục vụ cho SuperWebAnalytics.com

Xây dựng lớp phục vụ (serving layer) cho SuperWebAnalytics.com trong ngữ cảnh của
ElephantDB đòi hỏi một số bước và chiến lược cụ thể để đảm bảo hiệu suất và khả năng mở
rộng của hệ thống. Dưới đây là một số điểm chính liên quan đến việc xây dựng lớp phục vụ
cho trang web theo kiến trúc Lambda với sự hỗ trợ của ElephantDB:
2.2.1. Pageviews-over-time
Là một phần quan trọng của phân khúc phục vụ, việc xây dựng view cho lượng xem trang
theo thời gian đòi hỏi một chiến lược phù hợp. Ví dụ, do ElephantDB chỉ hỗ trợ key/value
indexing, không hỗ trợ ideal indexing với key được sắp xếp như trong các mô hình trước đó.
Điều này yêu cầu tối ưu hóa các key để giảm thiểu số lượng key cần phải truy xuất đối với
mỗi truy vấn.
11
2.2.2. Uniques over time
Tương tự như lượng xem trang theo thời gian, quá trình xây dựng view cho số lượng lượt
xem duy nhất theo thời gian cũng đối diện với thách thức khi ElephantDB không hỗ trợ key-
to-sorted-map serving layer database. Chiến lược tương tự có thể được sử dụng để tối ưu hóa
số lượng key cần truy xuất.
2.2.3. Bounce-rate analysis

Với yêu cầu tạo view cho phân tích tỷ lệ thoát, trong trường hợp này, ElephantDB có thể hỗ
trợ mô hình ideal index với key/value indexing. Việc tạo ra một bảng đối tượng từ mỗi miền
và số lượt truy cập, cũng như số lượt thoát, giúp phân tích tỷ lệ thoát một cách hiệu quả.
12
CHƯƠNG 3: ỨNG DỤNG
3.1. Ứng dụng bài toán
Chủ đề về xây dựng lớp phục vụ (serving layer) cho SuperWebAnalytics.com thông qua sử
dụng ElephantDB mang lại nhiều ứng dụng quan trọng trong lĩnh vực phân tích dữ liệu và
giám sát trực tuyến.
- Một số ứng dụng:
• Phân tích hành vi người dùng:
Quản lý và phân tích lượt xem trang theo thời gian, cung cấp cái nhìn chi tiết về cách người
dùng tương tác với trang web theo thời gian.
Theo dõi số lượng lượt xem duy nhất theo thời gian, giúp hiểu rõ về sự hấp dẫn và tính độc
đáo của nội dung trang web.
• Tối ưu hóa trải nghiệm người dùng:
Phân tích tỷ lệ thoát giúp xác định những trang hoặc khu vực của trang web có tỷ lệ thoát cao,
từ đó tối ưu hóa trải nghiệm người dùng và giữ chân họ lâu hơn trên trang web.
• Quản lý hiệu suất hệ thống:
Sử dụng khả năng mở rộng của ElephantDB và cơ chế sao lưu (replication) để đảm bảo tính
sẵn sàng cao của hệ thống ngay cả khi xảy ra sự cố máy chủ hoặc mất mát máy chủ.
• Quản lý chiến dịch quảng cáo:
Theo dõi hiệu suất của chiến dịch quảng cáo dựa trên dữ liệu lượt xem trang, lượt xem duy
nhất và tỷ lệ thoát, giúp đánh giá độ hiệu quả và điều chỉnh chiến lược quảng cáo.
• Đưa ra quyết định dựa trên dữ liệu thời gian thực:
Sử dụng batch views của ElephantDB để có cái nhìn tổng thể về dữ liệu trong thời gian ngắn,
hỗ trợ quyết định nhanh chóng và linh hoạt.
• Phát triển các ứng dụng web dựa trên dữ liệu:
Sử dụng API của ElephantDB để xây dựng ứng dụng web phức tạp hơn, giúp cung cấp thông
tin chi tiết và linh hoạt đối với người quản trị và những người tham gia vào phân tích dữ liệu.
13

ISADS

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

ISADS

Uploaded by

Copyright:

Available Formats

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP.

VŨ VĂN HƯNG 20036941 KHDL16A

BÁO CÁO ĐỒ ÁN CUỐI KỲ

Recent Advances in Natural Language Processing via

TP. Hồ Chí Minh, tháng 12 năm 2023

// Cấu hình toàn cục

public static void clientQuery(ElephantDB.Client client, String domain, byte[] key) {

2.2. Xây dựng lớp phục vụ cho SuperWebAnalytics.com

2.2.3. Bounce-rate analysis

You might also like