You are on page 1of 4

1.1 Why Data Mining?

“Chúng ta đang sống trong thời đại thông tin” là câu nói phổ biến; tuy nhiên,
chúng ta thực sự đang sống trong thời đại dữ liệu. Danh sách các nguồn tạo ra lượng
dữ liệu khổng lồ là vô tận.
Khai phá dữ liệu có thể được xem là kết quả của sự phát triển tự nhiên của
công nghệ thông tin. Sau khi thiết lập các hệ thống quản lý cơ sở dữ liệu, công nghệ
cơ sở dữ liệu đã chuyển sang phát triển các hệ thống cơ sở dữ liệu tiên tiến, lưu trữ dữ
liệu và khai thác dữ liệu để phân tích dữ liệu nâng cao và cơ sở dữ liệu dựa trên web.
Một kiến trúc kho dữ liệu mới nổi là data warehouse.
1.2 What Is Data Mining?
Quá trình khám phá tri thức được thể hiện dưới dạng trình tự lặp lại của các bước sau:
1. Data cleaning (để loại bỏ nhiễu và dữ liệu không nhất quán)
2. Data integration (nơi nhiều nguồn dữ liệu có thể được kết hợp)
3. Data selection (nơi dữ liệu liên quan đến nhiệm vụ phân tích được lấy từ cơ sở dữ
liệu)
4. Data transformation (Dữ liệu được biến đổi và hợp nhất thành các dạng phù hợp để
khai thác thông qua việc thực hiện các phép tổng hợp hoặc tổng hợp tóm tắt.)
5. Data mining (Một quy trình cần thiết trong đó các phương pháp thông minh được
áp dụng để trích xuất các mẫu dữ liệu.)
6. Pattern evaluation (Để xác định các mô hình đại diện cho kiến thức dựa trên các
thước đo mức độ)
7. Knowledge presentation (Các kỹ thuật trực quan hóa và biểu diễn kiến thức được sử
dụng để trình bày kiến thức đã khai thác cho người dùng.)
Tuy nhiên, trong công nghiệp, truyền thông và trong môi trường nghiên cứu, thuật
ngữ khai phá dữ liệu thường được dùng để chỉ toàn bộ quá trình khám phá tri thức.
1.3 What Kinds of Data Can Be Mined?
1.3.1 Database Data
Hệ thống cơ sở dữ liệu, còn được gọi là hệ thống quản lý cơ sở dữ liệu
(DBMS), bao gồm một tập hợp dữ liệu có liên quan, được gọi là cơ sở dữ liệu (bao
gồm các bảng được gán tên duy nhất. Mỗi bảng có các cột và lưu trữ bản ghi. Mỗi bản
ghi đại diện cho một đối tượng với một khóa duy nhất và các giá trị thuộc tính), và
một bộ chương trình phần mềm để quản lý và truy cập dữ liệu.
VD: Một cơ sở dữ liệu quan hệ cho AllElectronics. Cửa hàng AllElectronics được sử
dụng để minh họa các khái niệm trong cuốn sách này. Công ty này được mô tả bằng
các bảng liên quan sau: customer, item, employee, và branch.
1.3.2 Data warehouse
Data warehouse là kho lưu trữ thông tin được thu thập từ nhiều nguồn, được
lưu trữ theo một lược đồ thống nhất và thường nằm ở một địa điểm duy nhất. Data
warehouse thường được mô hình hóa bằng cấu trúc dữ liệu đa chiều, được gọi là data
cube, trong đó mỗi kích thước tương ứng với một thuộc tính hoặc một tập hợp các
thuộc tính trong lược đồ và mỗi ô lưu trữ giá trị của một số thước đo tổng hợp như
đếm hoặc tổng. Data cube cung cấp chế độ xem dữ liệu đa chiều và cho phép tính
toán trước và truy cập nhanh dữ liệu tóm tắt.
1.3.3 Transactional Data
Nói chung, mỗi bản ghi trong transactional database sẽ ghi lại một giao dịch,
chẳng hạn như giao dịch mua hàng của khách hàng, đặt vé máy bay hoặc số lần nhấp
chuột của người dùng trên trang web.
VD: một cơ sở dữ liệu giao dịch cho cửa hàng giả tưởng AllElectronics. Giao dịch
được lưu trữ, với mỗi bản ghi đại diện cho một giao dịch cụ thể. Bảng minh họa một
phần của cơ sở dữ liệu này, trong đó bảng bán hàng có một quan hệ lồng vào, vì chứa
một tập hợp các mặt hàng cho mỗi giao dịch. Hầu hết các hệ thống cơ sở dữ liệu quan
hệ không hỗ trợ cấu trúc quan hệ lồng nhau nên cơ sở dữ liệu giao dịch thường được
lưu trữ dưới dạng tệp phẳng hoặc được biến đổi thành một quan hệ tiêu chuẩn.
1.3.4 Other Kinds of Data
Bên cạnh dữ liệu cơ sở dữ liệu quan hệ, dữ liệu kho dữ liệu và dữ liệu giao
dịch, còn có nhiều loại dữ liệu khác có hình thức và cấu trúc linh hoạt cũng như ý
nghĩa ngữ nghĩa khá khác nhau. Với dữ liệu không gian, chúng ta có thể tìm kiếm các
mô hình mô tả sự thay đổi về tỷ lệ nghèo ở đô thị dựa trên khoảng cách từ thành phố
đến các đường cao tốc chính.
VD: trong khai phá web, thường tồn tại dữ liệu văn bản và dữ liệu đa phương tiện trên
các trang web, dữ liệu đồ thị như đồ thị web và dữ liệu bản đồ trên một số trang web.
1.4 What Kinds of Patterns Can Be Mined?
1.4.1 Class/Concept Description: Characterization and Discrimination
Data characterization là sự tóm tắt các đặc điểm hoặc tính năng chung của
lớp dữ liệu mục tiêu. Data discrimination là sự so sánh các đặc điểm chung của các
đối tượng dữ liệu của lớp mục tiêu với các đặc điểm chung của các đối tượng từ một
hoặc nhiều lớp tương phản. Người dùng có thể chỉ định các lớp mục tiêu và lớp tương
phản thông qua các truy vấn cơ sở dữ liệu.
1.4.2 Mining Frequent Patterns, Associations, and Correlations
Frequent patterns là các mẫu xuất hiện thường xuyên trong dữ liệu. Có nhiều
loại mẫu phổ biến, bao gồm các bộ item thường xuyên, chuỗi con thường xuyên và
cấu trúc con phổ biến.
1.4.3 Classification and Regression for Predictive Analysis
Classification là quá trình tìm kiếm một mô hình mô tả và phân biệt các lớp
hoặc khái niệm dữ liệu. Mô hình được tạo ra dựa trên việc phân tích một tập hợp
training data. Mô hình này được sử dụng để dự đoán nhãn của các đối tượng chưa
biết nhãn. Regression analysis là một phương pháp thống kê thường được sử dụng để
dự đoán số, mặc dù cũng có các phương pháp khác.
1.4.4 Cluster Analysis
Cluster Analysis là một phương pháp trong xử lý dữ liệu dùng để tổ chức các
đối tượng dữ liệu thành các nhóm dựa trên độ tương tự giữa chúng. Khác với phân
loại và hồi quy, nó không yêu cầu dữ liệu có nhãn lớp từ trước. Mục tiêu là tạo ra các
nhóm đối tượng có độ tương đồng cao bên trong cùng một nhóm và độ tương đồng
thấp giữa các nhóm khác nhau.
1.4.5 Outlier Analysis
Một tập dữ liệu có thể chứa các đối tượng không tuân thủ hành vi hoặc mô hình
chung của dữ liệu. Những đối tượng này là các ngoại lệ. Nhiều phương pháp khai thác
dữ liệu loại bỏ các giá trị ngoại lệ dưới dạng nhiễu hoặc ngoại lệ. Việc phân tích dữ
liệu ngoại lệ được gọi là outlier analysis hoặc anomaly mining.
1.4.6 Are All Patterns Interesting?
Một hệ thống khai thác dữ liệu có khả năng tạo ra hàng nghìn, thậm chí hàng
triệu mẫu hoặc quy tắc. Các thước đo thú vị khách quan khác bao gồm độ chính xác
và phạm vi bao phủ của các quy tắc phân loại. Nói chung, độ chính xác cho chúng ta
biết phần trăm dữ liệu được phân loại chính xác theo quy tắc. Thay vào đó, nên sử
dụng các ràng buộc do người dùng cung cấp và các thước đo mức độ thú vị để tập
trung tìm kiếm. Đối với một số nhiệm vụ khai thác, chẳng hạn như liên kết, điều này
thường đủ để đảm bảo tính hoàn chỉnh của thuật toán.
1.5 Which Technologies Are Used?
1.5.1 Statistics
Statistical model là một tập hợp các hàm toán học mô tả hành vi của các đối
tượng trong một lớp mục tiêu dưới dạng các biến ngẫu nhiên và phân bố xác suất liên
quan của chúng.
1.5.2 Machine Learning
Machine learning nghiên cứu cách máy tính có thể học dựa trên dữ liệu. Một
lĩnh vực nghiên cứu chính là để các chương trình máy tính có thể tự động học cách
nhận diện các mẫu phức tạp và ra các quyết định thông minh dựa trên dữ liệu. Ví dụ,
một vấn đề thông thường trong học máy là lập trình máy tính để nó có thể tự động
nhận diện mã bưu điện viết tay trên thư sau khi học từ một tập hợp các ví dụ.
1.5.3 Database Systems and Data Warehouses
Database systems research tập trung vào việc tạo, bảo trì và sử dụng cơ sở dữ
liệu cho các tổ chức và người dùng cuối.Data warehouse tích hợp dữ liệu có nguồn
gốc từ nhiều nguồn và khung thời gian khác nhau.
1.5.4 Information Retrieval
Information retrieval (IR) là khoa học tìm kiếm tài liệu hoặc thông tin trong tài liệu.
1.6 Which Kinds of Applications Are Targeted?
1.6.1 Business Intelligence
Cung cấp các quan điểm lịch sử, hiện tại và dự đoán về hoạt động kinh doanh.
1.6.2 Web Search Engines
Là một máy chủ máy tính chuyên dụng để tìm kiếm thông tin trên Web.
1.7 Major Issues in Data Mining
1.7.1 Mining Methodology
Hiện nay các phương pháp khai phá dữ liệu mới đã và đang phát triển mạnh
mẽ. Nó xem xét các vấn đề như độ không đảm bảo của dữ liệu, độ nhiễu và tính không
đầy đủ. Một số khác sử dụng các biện pháp do người dùng chỉ định để đánh giá mức
độ của các mẫu được phát hiện. Hãy xem xét các khía cạnh khác nhau của phương
pháp khai phá: Khai phá các loại tri thức đa dạng; Khai phá tri thức trong không gian
đa chiều; Khai phá dữ liệu - một nỗ lực liên ngành; Tăng cường sức mạnh khám phá
trong môi trường nối mạng; Xử lý sự không chắc chắn, nhiễu hoặc không đầy đủ của
dữ liệu; Đánh giá mẫu và khai thác theo hướng dẫn mẫu hoặc ràng buộc.
1.7.2 User Interaction
Người dùng đóng vai trò quan trọng trong quá trình khai phá dữ liệu. Các lĩnh
vực nghiên cứu bao gồm cách tương tác với hệ thống khai phá dữ liệu, cách kết hợp
kiến thức nền tảng của người dùng trong khai phá và cách trực quan hóa và hiểu các
kết quả khai phá dữ liệu. Ví dụ: Khai phá tương tác, Tích hợp kiến thức nền, Ngôn
ngữ truy vấn khai phá dữ liệu và khai phá dữ liệu đặc biệt, Trình bày và trực quan hóa
kết quả khai phá dữ liệu.
1.7.3 Efficiency and Scalability
Hiệu quả, khả năng mở rộng, hiệu suất, tối ưu hóa và khả năng thực thi trong
thời gian thực là những tiêu chí chính thúc đẩy sự phát triển của nhiều thuật toán khai
phá dữ liệu mới. Kích thước khổng lồ của nhiều tập dữ liệu, sự phân bố dữ liệu rộng
rãi và độ phức tạp tính toán của một số phương pháp khai phá dữ liệu là những yếu tố
thúc đẩy sự phát triển của các thuật toán khai phá nhiều dữ liệu song song và phân tán.
Cloud computing và cluster computing, sử dụng máy tính theo cách phân tán và hợp
tác để giải quyết các nhiệm vụ tính toán quy mô lớn, cũng là những chủ đề nghiên cứu
tích cực trong khai phá dữ liệu song song.
1.7.4 Diversity of Database Types
Sự đa dạng rộng rãi của các loại cơ sở dữ liệu mang lại những thách thức cho
việc khai phá dữ liệu. Bao gồm: Xử lý các loại dữ liệu phức tạp; Khai phá kho dữ liệu
động, nối mạng và toàn cầu.
1.7.5 Data Mining and Society
Khai phá dữ liệu tác động đến xã hội như thế nào? Khai phá dữ liệu có thể thực
hiện những bước nào để bảo vệ quyền riêng tư của cá nhân? Chúng ta có sử dụng khai
phá dữ liệu trong cuộc sống hàng ngày mà không hề biết rằng mình đang làm không?
Những câu hỏi này đặt ra các vấn đề sau: Tác động xã hội của khai phá dữ liệu; Khai
phá dữ liệu bảo vệ quyền riêng tư; Khai phá dữ liệu vô hình.

You might also like