Pagerank

You might also like

You are on page 1of 4

1.

Pagerank
1.1. Giới thiệu PageRank
- Thuật toán PageRank là một thuật toán học xếp hạng dựa trên phân
tích đồ thị liên kết giữa các trang web, mỗi trang web sẽ được xem như một
đỉnh, mỗi liên kết sẽ được xem như một cạnh của đồ thị.
- Pagerank là phân bố xác suất, được sử dụng để thể hiện khả năng khi
một người click chuột ngẫu nhiên vào đường link và sẽ tới được trang web cụ
thể. Pagerank có thể được tính cho tất cả các trang web. Khi bắt đầu tính toán
thì sự phân bổ đó được chia đều cho tất cả các trang web trong hệ thống.
- Các tính toán Pagerank cần một số lần “lặp đi lặp lại” qua các trang
web để có thể đạt được giá trị thực tế một cách thiết thực hơn.
- Xác suất có giá trị từ 0 đến 1. Với giá trị 0.5 được hiểu là “50% xác
suất” của một việc gì đó có thê xảy ra. Trong Pagerank, 0.5 có nghĩa là 50%
xác suất một người nào đó click vào một link ngẫu nhiên để có thể chuyển đến
trang web đó (giá trị pagerank của trang web đó là 0.5).
1.2. Mô tả công thức PageRank
1.2.1. Mô tả dưới dạng công thức
Thuật toán PageRank chỉnh sửa nho nhỏ lại ý tưởng ban đầu – BadRank,
bằng cách thêm một tham số d (được gọi là Damping Factor).

- Nếu có liên kết từ j đến i:

- Ngược lại:
Với k là tổng số trang web, 0<d<1 Google sử dụng d=0,85.
1.2.2. Mô tả dưới dạng ma trận
- Từ công thức trên, ta có thể tìm ra ma trận chuyển xác suất Q có chứa
yếu tố damping như sau:
Trong đó:
+ E là ma trận vuông cỡ k với các phần tử đều bằng 1
+ L, M là 2 ma trận được định nghĩa giống như ở phần BadRank.
+ k là tổng số trang web.
- Chứng minh công thức:
+ d là xác suất mà người dùng tiếp tục click vào link của các trang web.
+ 1-d là xác suất người dùng cảm thấy chán sau một vài lần click và
chuyển đến trang web khác một cách ngẫu nhiên. Xác suất này được chia đều
cho tất cả các trang web (k trang web).
+ P=LxM-1 là ma trận chuyển xác suất khi chưa có yếu tố damping.
+ Ta đã biết, khi thêm yếu tố damping vào thì xác suất người dùng click
vào link trên trang web chỉ còn là 85% , 15% còn lại người dùng sẽ chuyển đến
1 trang web ngẫu nhiên trên tổng số k trang web.
+ vậy phần tử pij (xác xuất từ trang j sang trang i) trong ma trận chuyển
trạng thái P sẽ nhân với xác suất 0,85 và được cộng thêm xác suất ngẫu nhiên

có giá trị . Ta sẽ được ma trận Q là ma trận chuyển trạng thái khi có yếu
tố damping.
1.3. Phương Pháp Tính
Ta có ma trận R ( k×1) là ma trận chứa giá trị PageRank của k trang
web
- Bước 1: Thành lập ma trận L, M
Thành lập ma trận kề L với kích thước k×k.
Phần tử Lij=1 nếu trang web j có liên kết trỏ đến trang web i.
Ngược lại Lij=0 nếu trang web j không có liên kết trỏ đến trang web i.
Và không có liên kết từ trang web j trỏ đến chính nó Ljj=0.
Lúc này ta thành ma trận M là ma trận chéo kích thước k×k với phần tử
mj là tổng số đường link mà trang web j dẫn đến các trang web khác.

Ta gọi P là ma trận chuyển xác suất (không chứa yếu tố damping). P= L.M-1

Khi đó các phần tử pij là xác suất người dùng từ trang web j chuyển sang
trang web i.
- Bước 2: Thành lập ma trận Q là ma trận chuyển xác suất có chứa yếu
tố damping. Ta có ( với E là ma trận vuông cỡ k với các phần tử đều bằng 1 )
- Bước 3: Tìm ma trận PageRank R
Ở trạng thái cân bằng R=Q.R, phân bố lúc này là phân bố dừng của
xích Markov hữu hạn trạng thái đồng nhất thời gian. Ma trận chuyển trạng thái
Q thỏa điều kiện của định lý Perron Frobenius. Chính vì vậy mà Q chỉ tồn tại 1
vector riêng R với trị riêng bằng 1. Các giá trị của ma trận R lần lượt là
Pagerank của k trang web.
- R = Q.R => (Q-I).R = 0 ( I là ma trận đơn vị cấp k )
- (Q-I) khi khai triển thành bậc thang có 1 hàng bằng 0, ta sẽ bỏ 1 hàng
của ma trận (Q-I) và thay bằng phương trình: R1 + R2 +…+ Rk =1
Giải hệ phương trình trên ta tìm được Pagerank của các trang web.

You might also like