You are on page 1of 19

Co-occurrences and Associations: Finding Items That Go Together

• một cửa hàng bán lẻ trực tuyến. Dựa trên dữ liệu giỏ hàng, chúng ta có thể
thông báo cho khách hàng rằng, "Những người mua chiếc eWatch mới cũng đã
mua chiếc eBracelet kèm theo loa Bluetooth." Nếu những mối quan hệ này
thực sự phản ánh sở thích thực sự của người tiêu dùng, điều này có thể tăng
doanh thu từ việc bán kết hợp. Nó cũng có thể cải thiện trải nghiệm của người
tiêu dùng.
Co-occurrences and Associations: Finding Items That Go Together

• Nhóm xuất hiện cùng là một quá trình tìm kiếm trong dữ liệu các kết hợp có số
liệu "đáng chú ý".

 Tập các luật : "Nếu A xuất hiện, thì B cũng có khả năng xuất hiện."
Co-occurrences and Associations: Finding Items That Go Together

• Chúng ta có thể định lượng khái niệm này bằng cách sử dụng các công cụ xác
suất chúng ta đã thấy trước đó. Xác suất mà B xảy ra khi A xảy ra chúng ta đã
thấy trước đó; đó là p(B|A), trong khai thác liên kết, được gọi là độ tin cậy
hoặc sức mạnh của quy tắc.
Co-occurrences and Associations: Finding Items That Go Together

• Chú ý:
• có khả năng có một số lượng lớn các sự xuất hiện cùng nhau, nhiều trong số đó
có thể chỉ là do sự tình cờ, chứ không phải do một mô hình có thể tổng quát
hóa. Một cách đơn giản để kiểm soát độ phức tạp là đặt một ràng buộc rằng
các quy tắc như vậy phải áp dụng cho một tỷ lệ tối thiểu của dữ liệu - chẳng
hạn, chúng ta có thể yêu cầu các quy tắc áp dụng cho ít nhất 0,01% của tất cả
các giao dịch. Điều này được gọi là hỗ trợ của liên kết.
Measuring Surprise: Lift and Leverage

tức là mối quan hệ này xảy ra thường xuyên hơn bao nhiêu so với những gì chúng ta
mong đợi từ sự tình cờ?
Measuring Surprise: Lift and Leverage

Bằng việc so sánh P(A,B) và P(A)P(B) ta có 2 công thức:


Example: Beer and Lottery Tickets

chúng ta biết rằng trong cửa hàng của chúng ta, người ta thường xuyên mua bia
và người ta thường xuyên mua vé số. Hãy nói rằng chúng ta phát hiện rằng
30% trong tổng số giao dịch liên quan đến bia, và 20% giao dịch bao gồm cả
bia và vé số! Liệu sự xuất hiện cùng nhau này có thú vị không? Hay đơn giản
chỉ là do sự phổ biến của hai mục mua này?
Example: Beer and Lottery Tickets

Lift:
Ta có: p(bia)=0.3. giả sử rằng vé số cũng rất phổ biến: p(vé số)=0.4. Nếu hai
mục này là hoàn toàn không liên quan nhau (độc lập), khả năng chúng sẽ được
mua cùng nhau sẽ là tích của hai giá trị này: p(bia) × p(vé số)=0.12
Như đã đề cập ở trên, 20% trong số các giao dịch bao gồm cả hai, và đây là xác
suất của chúng ta: p(vé số, bia) = 0.2. Vì vậy, Lift là 0.2 / 0.12, khoảng 1.67.
Điều này có nghĩa là việc mua vé số và bia cùng nhau khoảng 1.67 lần nhiều
hơn so với những gì chúng ta mong đợi từ sự tình cờ. Chúng ta có thể kết luận
rằng có một mối quan hệ nào đó, nhưng một phần lớn của sự xuất hiện cùng
nhau là do sự phổ biến của từng mục này.
Example: Beer and Lottery Tickets

Leverage:
Vậy leverage thì sao? Đây chính là p(vé số, bia) − p(vé số) × p(bia), tức là 0.2
− 0.12 hay 0.08. Bất kỳ yếu tố nào làm tăng sự xuất hiện cùng nhau đều dẫn
đến tăng 8 phần trăm trong khả năng mua cả hai so với những gì chúng ta
mong đợi chỉ vì chúng là những mục phổ biến.
Còn hai thống kê quan trọng khác chúng ta nên tính toán: hỗ trợ và sức mạnh.
Hỗ trợ của liên kết chính là sự phổ biến trong dữ liệu của việc mua cả hai mục
cùng nhau, p(vé số, bia), là 20%. Sức mạnh là xác suất có điều kiện, p(vé số|
bia), là 67%
Associations Among Facebook Likes

Bây giờ chúng ta có thể hỏi, liệu có những Thích cụ thể nào có xu hướng xuất
hiện cùng nhau thường xuyên hơn so với những gì chúng ta mong đợi từ sự
tình cờ không?
Associations Among Facebook Likes

Nếu bạn là một nhà tiếp thị muốn hiểu về người tiêu dùng trong một thị trường
cụ thể, bạn có thể quan tâm đến việc tìm kiếm các mẫu về những điều mà
người ta thích.

Đối với dữ liệu Facebook của chúng ta, hãy nhớ rằng chúng ta có thể thu được
dữ liệu tâm lý đối với nhiều người tiêu dùng, chẳng hạn như mức độ hướng
ngoại hay thân thiện, hoặc điểm số trên một bài kiểm tra IQ. Việc cho phép tìm
kiếm liên kết tìm thấy các mối quan hệ với những đặc điểm tâm lý này cũng có
thể là điều thú vị.
Associations Among Facebook Likes
Profiling: Finding Typical Behavior

Một khía cạnh quan trọng của việc hỗ trợ khách hàng là không để họ
phải ngồi đợi trên đường line trong thời gian dài. Vậy làm thế nào
chúng ta có thể tạo hồ sơ về thời gian chờ đợi điển hình của khách
hàng khi gọi vào trung tâm cuộc gọi? Chúng ta có thể tính toán giá trị
trung bình và độ lệch chuẩn của thời gian chờ đợi.
Profiling: Finding Typical Behavior

Hãy giả sử rằng thời gian chờ đợi của khách hàng tuân theo phân phối Chuẩn
hoặc phân phối Gaussian.
Quan trọng là, đây là một "hồ sơ" của thời gian chờ đợi chỉ có hai tham số
quan trọng: trung bình và độ lệch chuẩn. Khi chúng ta tính toán trung bình và
độ lệch chuẩn, chúng ta đang tìm ra "hồ sơ" hoặc mô hình "tốt nhất" về thời
gian chờ đợi dưới giả định rằng nó theo phân phối Chuẩn.
Nếu chúng ta vẽ biểu đồ dữ liệu và chúng không trông giống như phân phối
Gaussian, chúng ta có thể muốn xem xét lại việc chỉ đơn giản báo cáo trung
bình và độ lệch chuẩn. Thay vào đó, chúng ta có thể báo cáo trung vị,…
Profiling: Finding Typical Behavior

Nếu biểu đồ của ta không có phân phối chuẩn?


Profiling: Finding Typical Behavior

một mẹo phổ biến khi xử lý dữ liệu có độ lệch như vậy là lấy logarit
(log) của thời gian chờ đợi. Bây giờ chúng ta thấy rằng sau biến đổi đơn
giản này, thời gian chờ đợi trông rất giống với phân phối chuẩn.
Profiling: Finding Typical Behavior
Nó vừa vặn rất tốt, và do đó chúng ta có lý do để báo cáo giá trị trung bình và độ lệch
chuẩn như các thống kê tóm tắt của hồ sơ thời gian chờ đợi (log).
Profiling: Finding Typical Behavior

Chúng ta có thể tiếp tục mở rộng ý tưởng này đến những hồ sơ phức
tạp hơn và phức tạp hơn. Điều gì sẽ xảy ra nếu chúng ta tin rằng có
các nhóm con khách hàng khác nhau có những hành vi khác nhau?
Profiling: Finding Typical Behavior

Chúng ta có thể điều chỉnh một mô hình với nhiều phân phối
Gaussian, gọi là Mô hình Trộn Gaussian (GMM). Áp dụng lại khái
niệm cơ bản của chúng ta, việc tìm các tham số ước lượng tối đa xác
định k phân phối Gaussian phù hợp với dữ liệu tốt nhất.

You might also like