You are on page 1of 3

Từ vấn đề kinh doanh đến nhiệm vụ khai thác dữ liệu

Mỗi vấn đề ra quyết định kinh doanh dựa trên dữ liệu mang tính độc đáo, bao gồm sự kết hợp của các mục
tiêu, mong muốn, ràng buộc và thậm chí cả tính cách riêng. Tuy nhiên, đối với nhiều lĩnh vực kỹ thuật, có
một số nhiệm vụ chung làm cơ sở cho các vấn đề kinh doanh. Trong việc cộng tác với các bên liên quan
trong kinh doanh, các nhà Khoa học dữ liệu phân tách một vấn đề kinh doanh thành các nhiệm vụ phụ. Sau
đó, các giải pháp cho các nhiệm vụ phụ có thể được tổng hợp để giải quyết vấn đề tổng thể. Một số những
nhiệm vụ phụ này là độc đáo cho những vấn đề kinh doanh cụ thể nhưng những nhiệm vụ khác là những
nhiệm vụ khai thác dữ liệu phổ biến.
Ví dụ, vấn đề dẫn đến khách hàng ngưng hợp đồng là đặc thù riêng đối với MegaTelCo: có những chi tiết
cụ thể của các vấn đề mà MegaTelCo gặp phải khác với các vấn đề dẫn đến khách hàng ngưng hợp đồng
với bất kỳ công ty viễn thông nào khác. Tuy nhiên, một nhiệm vụ phụ có thể sẽ là một phần của giải pháp
cho bất kỳ vấn đề ngưng hợp đồng nào để ước tính từ dữ liệu lịch sử xác suất khách hàng chấm dứt hợp
đồng ngay sau khi hợp đồng hết hạn. Khi dữ liệu MegaTelCo mang phong cách riêng đã được tập hợp
thành một định dạng cụ thể, ước tính xác suất này phù hợp với khuôn mẫu của một nhiệm vụ khai thác dữ
liệu rất phổ biến.
Mặc dù có một số lượng lớn các thuật toán khai phá dữ liệu được phát triển trong những năm qua, nhưng
chỉ có một số ít loại nhiệm vụ khác nhau mà các thuật toán này giải quyết. Trong nhiều dự án phân tích
kinh doanh, chúng ta muốn tìm “mối tương quan”giữa một biến cụ thể mô tả một cá nhân và các biến khác.
Ví dụ: Trong dữ liệu lịch sử, chúng ta có thể biết khách hàng nào đã rời đi sau khi kết thúc hợp đồng.
Chúng ta muốn tìm hiểu những biến nào khác tương quan với việc khách hàng ròi đi trong tương lai gần.
Việc tìm kiếm những mối liên quan như vậy là những ví dụ cơ bản nhất của nhiệm vụ phân lớp và hồi quy.
* Một kỹ năng quan trọng trong khoa học dữ liệu là khả năng phân tách một vấn đề phân tích dữ liệu
thành nhiều phần sao cho mỗi phần phù hợp với một nhiệm vụ đã biết đối với các công cụ có sẵn. Nhận
ra các vấn đề quen thuộc và giải pháp của chúng tránh lãng phí thời gian và nguồn lực để phát minh
lại bánh xe. Nó cũng cho phép mọi người tập trung sự chú ý vào những phần thú vị hơn của quy trình
đòi hỏi sự tham gia của con người, những phần chưa được tự động hóa, vì vậy sự sáng tạo và trí thông
minh của con người phải phát huy tác dụng.
1. Phân lớp và ước lượng xác suất của các lớp
Cố gắng dự đoán mỗi cá nhân trong một cộng đồng thuộc một nhóm con (lớp) nào đó. Thông thường các
lớp không giao nhau. Một câu hỏi phân lớp như là: "Trong số tất cả các khách hàng của MegaTelCo, khách
hàng nào có khả năng sẽ phản hồi một đề nghị được đưa ra?" Trong ví dụ này, hai lớp có thể được phân
loại là: sẽ phản hồi và sẽ không phản hồi.
Nhiệm vụ phân lớp:
+ Xây dựng một thủ tục khai thác dữ liệu tạo ra một mô hình phân lớp.
+ Xác định cá nhân mới thuộc lớp nào.
Nhiệm vụ có liên quan mật thiết là tính điểm hoặc ước tính xác suất của mỗi lớp. Một mô hình tính điểm
được áp dụng cho một cá nhân mang lại, một điểm đại diện cho xác suất hoặc nói lên về khả năng mà cá
nhân đó thuộc về mỗi lớp thay vì dự đoán cho lớp.
Ví dụ: Trong kịch bản về sự phản hồi của khách hàng, một mô hình tính điểm sẽ có thể đánh giá từng
khách hàng và cho điểm về khả năng mỗi khách hàng sẽ phản hồi việc chào hàng. Việc phân lớp và chấm
điểm có quan hệ rất mật thiết, một mô hình có thể làm được việc này thì có thể được điều chỉnh để làm việc
kia.
2. Hồi quy (“ước tính giá trị”)
Cố gắng ước tính hoặc dự đoán giá trị số của một số biến cho các cá nhân khách hàng.
Một câu hỏi hồi quy ví dụ sẽ là: "Một khách hàng cụ thể sẽ sử dụng dịch vụ được bao nhiêu?" Thuộc tính
(biến) được dự đoán ở đây là mức sử dụng dịch vụ và một mô hình có thể được tạo ra bằng cách xem xét
các cá nhân tương tự khác trong cộng đồng sử dụng dịch vụ và mức sử dụng lịch sử của họ.
GV. Võ Thành Đức – Khoa CNTT Kinh doanh
Nhiệm vụ hồi quy:
+ Thủ tục hồi quy tạo ra một mô hình dự đoán
+ Ước tính giá trị của một biến cụ thể cho cá nhân đó.
Hồi quy có liên quan đến việc phân lớp nhưng hai điều này khác nhau. Thường thì phân lớp dự đoán liệu
điều gì đó sẽ xảy ra, trong khi hồi quy dự đoán mức độ một điều gì đó sẽ xảy ra.
3. Đối sánh điểm tương đồng
Cố gắng xác định các cá nhân tương tự nhau dựa trên dữ liệu đã biết về họ.
Ví dụ, IBM quan tâm đến việc tìm kiếm các công ty tương tự như những khách hàng kinh doanh tốt nhất
của họ, nhằm tập trung lực lượng bán hàng của họ vào những cơ hội tốt nhất. Họ sử dụng đối sánh tương
đồng dựa trên dữ liệu "Firmographic" mô tả đặc điểm của các công ty.
Nhiệm vụ:
Tìm những người tương tự với nhau về sản phẩm họ đã thích hoặc đã mua. Đây là một trong
những phương pháp phổ biến nhất để đưa ra đề xuất về sản phẩm. Các phương pháp đo lường sự tương
đồng làm nền tảng cho các giải pháp thực hiện các nhiệm vụ khai thác dữ liệu khác, chẳng hạn như phân
lớp, hồi quy và phân cụm.
4. Phân cụm - Clustering
Cố gắng nhóm các cá thể trong một cộng đồng lại với nhau theo sự tương đồng của chúng, nhưng không
được thúc đẩy bởi bất kỳ mục đích cụ thể nào.
Ví dụ: "Khách hàng của chúng tôi có tạo thành các nhóm hoặc phân khúc tự nhiên không?"
Phân cụm hữu ích trong việc thăm dò sơ bộ để xem những nhóm tự nhiên nào tồn tại bởi vì những nhóm
này có thể đề xuất các nhiệm vụ hoặc cách tiếp cận khai thác dữ liệu khác.
Nhiệm vụ:
Khơi mào cho quá trình ra quyết định tập trung vào các câu hỏi như: Chúng ta nên cung cấp hoặc
phát triển những sản phẩm nào? Nhóm chăm sóc khách hàng (hoặc nhóm bán hàng) của chúng ta nên được
cấu trúc như thế nào?
5. Nhóm đồng xuất hiện (Co-occurrence) hoặc mẫu phổ biến thường xuyên (Sequential Patterns)
Cố gắng tìm các mối liên kết giữa các thực thể dựa trên các giao dịch liên quan đến chúng.
Ví dụ: Những mặt hàng nào thường được mua cùng nhau?
Trong khi phân cụm, xem xét sự giống nhau giữa các đối tượng dựa trên các thuộc tính của nó, nhóm đồng
xuất hiện xem xét sự giống nhau của các đối tượng dựa trên việc chúng xuất hiện cùng nhau trong các giao
dịch. Chẳng hạn như phân tích hồ sơ mua hàng từ siêu thị có thể phát hiện ra rằng thịt xay được mua cùng
với nước sốt thường xuyên hơn nhiều so với những gì chúng ta có thể mong đợi.
Quyết định dựa trên khám phá này có thể đòi hỏi sự sáng tạo, nhưng nó có thể đề xuất một khuyến mại đặc
biệt, trưng bày sản phẩm hoặc ưu đãi kết hợp.
Nhiệm vụ:
+ Kiểu phân nhóm phổ biến được gọi là phân tích thị trường theo giỏ hàng.
+ Thống kê về tần suất xảy ra đồng thời và ước tính mức độ đáng kể của nó.
6. Profiling (hồ sơ) hay còn được gọi là mô tả hành vi
Cố gắng mô tả các hành vi điển hình của một cá nhân, nhóm hoặc cộng đồng.
Ví dụ: "Mức độ sử dụng điện thoại di động cụ thể của phân khúc khách hàng này là gì?"
Việc lập hồ sơ sử dụng điện thoại di động có thể yêu cầu một mô tả phức tạp về thời gian phát sóng trung
bình vào ban đêm và cuối tuần, mức sử dụng quốc tế, phí chuyển vùng, số phút nhắn tin, v.v.

GV. Võ Thành Đức – Khoa CNTT Kinh doanh


Nhiệm vụ:
+ Mô tả hành vi có thể cho toàn bộ, hoặc ở cấp độ nhóm nhỏ hay thậm chí cá nhân.
+ Phát hiện bất thường để giám sát gian lận hoặc một hành bất thường nào đó.
Ví dụ: nếu chúng ta biết một người thường mua hàng gì trên thẻ tín dụng, chúng ta có thể xác định xem
khoản phí mới trên thẻ có phù hợp với hồ sơ đó hay không từ đó đưa ra cảnh báo nếu nó quá cao.
7. Dự đoán mối liên kết (Link prediction)
Cố gắng dự đoán các mối liên kết giữa các mục dữ liệu, thường bằng cách gợi ý rằng một liên kết nên tồn
tại và có thể ước tính độ mạnh của liên kết. Dự đoán liên kết phổ biến trong các hệ thống mạng xã hội: "Vì
A và B có 10 người bạn chung, có thể A muốn trở thành bạn của B?" Dự đoán liên kết cũng có thể ước tính
độ mạnh của một liên kết.
Ví dụ: để giới thiệu phim cho khách hàng, người ta có thể nghĩ đến biểu đồ giữa khách hàng và phim họ đã
xem hoặc đã đánh giá.
Nhiệm vụ:
Xây dựng biểu đồ và tìm kiếm các liên kết không tồn tại (giữa khách hàng và phim), nhưng dự đoán một
liên kết mới sẽ tồn tại và có liên kết mạnh (một phim có liên kết mạnh với khách hàng). Các liên kết này
tạo cơ sở cho các khuyến nghị (giới thiệu phim mới).
8. Giảm dữ liệu (Data reduction)
Cố gắng lấy một tập dữ liệu lớn và thay thế nó bằng một tập dữ liệu nhỏ hơn chứa nhiều thông tin quan
trọng trong tập lớn hơn. Tập dữ liệu nhỏ hơn có thể dễ dàng xử lý hơn và có thể tiết lộ thông tin tốt hơn.
Ví dụ: một tập dữ liệu khổng lồ về sở thích xem phim của khách hàng có thể được giảm xuống thành một
tập dữ liệu nhỏ hơn nhiều thể hiện sở thích về thị hiếu của khách hàng tiềm ẩn trong dữ liệu (ví dụ: sở thích
thể loại của người xem).
Nhiệm vụ:
+ Tìm một thuộc tính bao quát hơn cần gom nhóm.
+ Tổng hợp dữ liệu theo nhóm thuộc tính đó.
+ Điều quan trọng là có một cái nhìn sâu sắc hơn.
9. Mô hình nhân quả (Casual modeling)
Cố gắng giúp chúng ta hiểu những sự kiện hoặc hành động nào thực sự ảnh hưởng đến sự kiện hay hoạt
động khác.
Ví dụ: xem xét việc sử dụng mô hình dự đoán để nhắm mục tiêu quảng cáo đến khách hàng và nhận thấy
rằng thực sự những người tiêu dùng được nhắm tới mua hàng với tỷ lệ cao hơn sau khi được nhắm mục
tiêu. Điều này có phải là do các quảng cáo đã ảnh hưởng đến khách hàng để mua hàng? Hay các mô hình
dự đoán chỉ đơn giản là làm tốt công việc xác định khách hàng sẽ mua?
Nhiệm vụ:
+ Đầu tư đáng kể vào dữ liệu, cũng như các phương pháp phức tạp để rút ra kết luận nhân quả từ dữ liệu
quan sát.
+ Cả hai phương pháp thực nghiệm và quan sát để lập mô hình nhân quả nói chung đều có thể được coi là
phân tích “counterfactual” .
+ Trong mọi trường hợp, phải luôn đưa vào kết luận nhân quả những giả định chính xác

GV. Võ Thành Đức – Khoa CNTT Kinh doanh

You might also like