Bài Giảng Khai Phá Mạng Xã Hội

MỤC LỤC
Contents
CHƯƠNG I: TỔNG QUAN VỀ MẠNG XÃ HỘI VÀ KHAI PHÁ DỮ LIỆU
MẠNG XÃ HỘI.........................................................................................................2
1.1. KHAI PHÁ DỮ LIỆU VÀ QUÁ TRÌNH KHAI PHÁ DỮ LIỆU .................2
LỢI ÍCH VÀ HẠN CHẾ CỦA DỮ LIỆU MẠNG XÃ HỘI.............................3
1.1.2. Khai phá dữ liệu là gì? .............................................................................4
1.1.3. Quá trình khai phá dữ liệu .......................................................................5
1.2. CÁC PHƯƠNG PHÁP VÀ KỸ THUẬT KHAI PHÁ, XỬ LÝ DỮ LIỆU .10
1.2.1. Các kĩ thuật khai phá dữ liệu .................................................................10
1.2.2. Các phương pháp chính trong khai phá dữ liệu .....................................11
1.2.3. Các ứng dụng của khai phá dữ liệu........................................................12
1.2.4. Các phương pháp phân loại văn bản ......................................................13
1.2.5. Các phương pháp tách từ tiếng Việt ......................................................13
1.3. CÁC CÔNG TRÌNH KHAI PHÁ VÀ XỬ LÝ DỮ LIỆU ĐÃ ĐƯỢC ........14
1.4. SO SÁNH CÁC PHƯƠNG PHÁP KHAI PHÁ, XỬ LÝ DỮ LIỆU ...........15
CHƯƠNG 2: KHAI PHÁ MẠNG XÃ HỘI ............................................................20
2.1 Định nghĩa ......................................................................................................20
2.2 Phân tích và khai phá mạng xã hội ................................................................23
2.3 Phân tích cấu trúc mạng xã hội ......................................................................28
CHƯƠNG 3: DỮ LIỆU VÀ THU THẬP DỮ LIỆU TỪ MẠNG XÃ HỘI TRỰC
TUYẾN ....................................................................................................................32
3.1 Dữ liệu cá nhân ..............................................................................................32
3.2. Thu thập dữ liệu từ MXH .............................................................................37
3.3. Phân tích nội dung mạng trực tuyến .............................................................40
CHƯƠNG I: TỔNG QUAN VỀ MẠNG XÃ HỘI VÀ
KHAI PHÁ DỮ LIỆU MẠNG XÃ HỘI
1.1. KHAI PHÁ DỮ LIỆU VÀ QUÁ TRÌNH KHAI PHÁ DỮ LIỆU
1.1.1 DỮ LIỆU MẠNG XÃ HỘI
Khái niệm
Mạng xã hội có thể hiểu là một hệ thống kết nối giữa các thành viên với
nhau qua internet. Khi tham gia mạng xã hội, người dùng sẽ dễ dàng tìm thấy được
mối quan hệ với những người xung quanh mình, tìm bạn bè học cùng trường, đồng
nghiệp cùng công ty hoặc những người cùng sở thích…Nhờ những tính năng nổi
trội, hướng tới từng người dùng cụ thể mà mạng xã hội đã thu hút ngày càng nhiều
người sử dụng. người dùng qua internet dần chuyển qua sử dụng các mạng xã hội
nhiều hơn các ứng dụng khác. Và cũng vì đó mà lý thuyết và ứng dụng về mô hình
mạng xã hội ngày càng được các chuyên gia, nhà nghiên cứu đầu tư nhiều hơn nhằm
tạo ra những mạng xã hội tốt hơn.
Dữ liệu mạng xã hội (tiếng Anh Social Data) là các dữ liệu hoặc thông tin
được thu thập từ mạng xã hội. Dữ liệu mạng xã hội không chỉ giúp các công ty có
được khách hàng mới mà còn giúp họ gắn kết hơn với các khách hàng hiện tại.
Dữ liệu mạng xã hội là thông tin mà người dùng mạng xã hội chia sẻ công
khai, bao gồm các siêu dữ liệu như vị trí của người dùng, ngôn ngữ sử dụng, dữ liệu
tiểu sử và các liên kết được chia sẻ.
Dữ liệu mạng xã hội có giá trị đối với những người làm marketing muốn tìm
hiểu những điều về khách hàng để có thể làm tăng doanh số hoặc giành được phiếu
bầu trong những chiến dịch tranh cử.
Có nhiều loại dữ liệu mạng xã hội, bao gồm các tweet từ Twitter, bài đăng
trên Facebook hay ghim trên Pinterest. Facebook for Business và Twitter Ads là hai
chương trình giúp nhà quảng cáo sử dụng dữ liệu mạng xã hội nhắm đến những
người dùng có khả năng quan tâm đến quảng cáo của họ.
Ví dụ về quảng cáo sử dụng dữ liệu mạng xã hội
Nếu một công ty chuyên bán vé cho các sự kiện thể thao thấy rằng người dùng
thường xuyên theo dõi một số đội thể thao nào đó, công ty này có thể nhắm quảng
cáo mục tiêu đến cô ấy để cố gắng lôi kéo cô ấy mua vé xem đội bóng yêu thích của
mình.
Một cách khác mà một công ty có thể sử dụng dữ liệu mạng xã hội là cung
cấp quảng cáo nhanh chóng dựa trên các bài đăng gần đây, chẳng hạn như quảng cáo
các thiết bị cho một người đã chia sẻ bài viết rằng họ đang cần mua sắm đồ gia dụng.
LỢI ÍCH VÀ HẠN CHẾ CỦA DỮ LIỆU MẠNG XÃ HỘI
Lợi ích của dữ liệu mạng xã hội trong quảng cáo
Người dùng mạng xã hội tự nguyện công khai nhiều dữ liệu của họ, cho phép
các công ty có thể dễ dàng truy cập chúng miễn phí.
Với dữ liệu mạng xã hội chất lượng cao được tổng hợp và phân tích chính xác,
các công ty có thể nhắm quảng cáo mục tiêu đến những người có nhiều khả năng
mua sản phẩm hoặc dịch vụ của họ. Dữ liệu mạng xã hội cũng có thể giúp các công
ty xác định những vị trí hiệu quả nhất để đặt quảng cáo.
Các công ty có thể tinh chỉnh quảng cáo của họ bằng cách thu hẹp đối tượng
mục tiêu theo giới tính, ngôn ngữ nói, thiết bị điện tử được sử dụng, độ tuổi, sở thích,
vị trí và các yếu tố khác. Dữ liệu mạng xã hội không chỉ giúp các công ty có được
khách hàng mới mà còn giúp họ gắn kết hơn nữa với các khách hàng hiện tại.
Hạn chế của dữ liệu mạng xã hội
Có một vài lí do khiến dữ liệu mạng xã hội không hoàn hảo. Thứ nhất, chúng
bị giới hạn trong những thông tin mà người dùng quyết định chia sẻ về bản thân họ.
Ví dụ: một số người dùng không chia sẻ vị trí hoặc giới tính của mình, khiến cho
nhà quảng cáo không thu thập được đủ dữ kiện.
Một vấn đề khác là nhiều người dùng trên phương tiện truyền thông xã hội
không phải luôn là người dùng thật mà là tài khoản giả hay tài khoản ảo. Ngay cả
với người dùng thật, việc cố gắng đánh giá cảm xúc của họ về một thương hiệu dựa
trên những nhận xét họ đưa ra không phải lúc nào cũng khả thi, vì nhiều ý kiến của
họ là trung lập.
Ngoài ra thuật toán có thể phân loại nhận xét không chính xác, cho chúng là
tích cực khi thực tế chúng là tiêu cực và ngược lại. Hơn nữa, nhiều ý kiến tích cực
và tiêu cực lại mang tính cực đoan, gây khó khăn cho việc đánh giá chính xác cảm
nhận chung của người tiêu dùng về một sản phẩm, dịch vụ, thương hiệu.
1.1.2. Khai phá dữ liệu là gì?
Về cơ bản, khai phá dữ liệu là xử lý dữ liệu và nhận biết các mẫu và các xu
hướng trong thông tin đó để bạn có thể quyết định hoặc đánh giá. Các nguyên tắc
khai phá dữ liệu đã được dùng nhiều năm, nhưng với sự ra đời của big data (dữ liệu
lớn), nó lại càng phổ biến hơn.
Big data gây ra một sự bùng nổ về sử dụng nhiều kỹ thuật khai phá dữ liệu
hơn, một phần vì kích thước thông tin lớn hơn rất nhiều và vì thông tin có xu hướng
đa dạng và mở rộng hơn về chính bản chất và nội dung của nó.
Khai phá dữ liệu là một lĩnh vực khoa học mới xuất hiện, nhằm tự động
hóa khai thác những thông tin, tri thức hữu ích, tiềm ẩn trong các CSDL cho các tổ
chức, doanh nghiệp,... từ đó thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh của
tổ chức, doanh nghiệp này. Các kết quả nghiên cứu cùng với những ứng dụng thành
công trong khai phá dữ liệu, khám phá tri thức cho thấy khai phá dữ liệu là
một lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ưu thế hơn
hẳn so với các công cụ phân tích dữ liệu truyền thống.
Hiện nay, khai phá dữ liệu được ứng dụng rộng rãi trong các lĩnh vực như:
Phân tích dữ liệu hỗ trợ ra quyết định, điều trị y học, tin-sinh học, thương mại, tài
chính, bảo hiểm, text mining, web mining...
Hình: Quy trình phát triển tri thức
1.1.3. Quá trình khai phá dữ liệu
Quá trình khám phá tri thức có thể phân thành các công đoạn sau:
 Trích lọc dữ liệu: Là bước tuyển chọn những tập dữ liệu cần được khai phá từ các
tập dữ liệu lớn (databases, data warehouses, data repositories) ban đầu theo một số
tiêu chí nhất định.
 Tiền xử lý dữ liệu: Là bước làm sạch dữ liệu (xử lý dữ liệu không đầy đủ, dữ liệu
nhiễu, dữ liệu không nhất quán), tổng hợp dữ liệu (nén, nhóm dữ liệu, tính tổng,
xâydựng các histograms, lấy mẫu,…), rời rạc hóa dữ liệu (rời rạc hóa dựa vào
histograms entropy, phân khoảng,...). Sau bước tiền sử lý này, dữ liệu sẽ nhất
quán, đầy đủ, được rút gọn và rời rạc hóa.
 Biến đổi dữ liệu: Là bước chuẩn hóa và làm mịn dữ liệu để đưa dữ liệu về dạng
thuận lợi nhất nhằm phục vụ việc áp dụng các kỹ thuật khai phá ở bước sau.
 Khai phá dữ liệu: Là bước áp dụng những kỹ thuật phân tích (phần nhiều là các kỹ
thuật học máy) nhằm khai thác dữ liệu, trích lọc những mẫu tin (information
patterns), những mối quan hệ đặc biệt trong dữ liệu. Đây được xem là bước quan
trọng và tiêu tốn thời gian nhất của toàn bộ quá trình KDD.
 Đánh giá và biểu diễn tri thức: Những mẫu thông tin và mối quan hệ trong dữ liệu
đã được phát hiện ở bước khai phá dữ liệu được chuyển sang và biểu diễn ở dạng
gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật,... Đồng thời bước này
cũng đánh giá những tri thức khai phá được theo những tiêu chí nhất định.
KHAI PHÁ DỮ LIỆU MẠNG XÃ HỘI
Khai phá dữ liệu mạng xã hội là một trong những vấn đề nổi bật và được giới
khoa học quan tâm nhất hiện nay. Các đề tài nghiên cứu về dữ liệu mạng xã hội để
ứng dụng vào nhiều lĩnh vực khác nhau như: tư vấn sản phẩm, dịch vụ tài chính, sự
kiện xã hội, bầu cử chính trị, dịch vụ y tế, … Vì vậy, trong bài viết này, tôi sẽ giới
thiệu cách nhìn tổng quan về dữ liệu mạng xã hội (tại sao dữ liệu mạng xã hội quan
trọng, thành phần cấu tạo, kỹ thuật xử lý và bài toán áp dụng).
Kể từ khi ra đời, internet không ngừng phát triển và mở rộng đã mang lại rất
nhiều tiện ích hữu dụng như: hệ thống thư điện tử (email), trò chuyện trực tuyến
(chat), tìm kiếm dữ liệu (search engine), … Những năm gần đây, sự ra đời của mạng
xã hội trực tuyến là một trong những sự kiện thú vị nhất. Có rất nhiều mạng xã hội
trực tuyến phổ biến hiện nay như: Facebook, Twitter, LinkedIn, … Với sự phát triển
nhanh chóng về số người sử dụng trên toàn thế giới, mạng xã hội trực tuyến như một
mô hình thu nhỏ của thế giới thực. Do đó, mạng xã hội trở thành nơi cất giữ thông
tin và các mối quan hệ giữa các cá nhân, doanh nghiệp, … Những thông tin này tạo
thành “đám mây tri thức”. Việc tìm hiểu và khai thác hiệu quả những thông tin này
sẽ tạo tiền đề cho nhiều ứng dụng khác như: hệ thống tư vấn, hệ thống tìm kiếm
thông tin, tiếp thị trực tuyến, điều tra tội phạm, dự đoán sự phát triển của mạng xã
hội, … Vì vậy, việc khai thác những thông tin trên mạng xã hội để áp dụng vào thực
tiễn ngày càng trở nên quan trọng.
Dữ liệu mạng xã hội được phân thành 2 loại:
- Nội dung
Bài viết của người dùng trong mạng xã hội. Các bài viết này được biểu diễn dưới
dạng văn bản. Do đó, kỹ thuật xử lý thường được sử dụng là các phương pháp xử lý
văn bản. Tuy nhiên, do tính chất biến động và độ lớn của mạng xã hội hay tính không
đầy đủ của các thông tin được chỉa sẻ từ người dùng nên dữ liệu văn bản của mạng
xã hội khác với các dữ liệu văn bản truyền thống trước đây.
Ví dụ:
 Văn bản không chuẩn (các ký hiệu viết tắt, thán từ, …).
 Kích thước dữ liệu rất lớn và thường xuyên thay đổi (số lượng người dùng tham gia
mạng xã hội rất lớn và biến động).
Những bài toán sử dụng dữ liệu này là: phân tích quan điểm người dùng trên mạng
xã hội, tìm kiếm chủ đề nổi bật trên mạng xã hội, …
- Cấu trúc
Mô hình đồ thị mạng biểu diễn mối quan hệ giữa những người dùng trong
mạng xã hội. Cụ thể: “Mạng xã hội được định nghĩa như là một mô hình mạng
(đồ thị) được cấu tạo bởi các đỉnh và các cạnh. Các đỉnh là tập các đối tượng và
các cạnh là tập các liên kết thể hiện mối quan hệ hoặc sự tương tác giữa các đối
tượng này.”
Đồ thị mạng xã hội thường được biểu diễn thành các ma trận kề hoặc danh
sách kề. Do đó, kỹ thuật xử lý thường được sử dụng là các phương pháp toán học
liên quan đến ma trận (phép cộng ma trận, phép nhân ma trận, …).
Những bài toán sử dụng dữ liệu này là: gom nhóm hoặc phân lớp người dùng
trên mạng xã hội, dữ đoán liên kết trong mạng xã hội (được chia thành 4 bài toán
con: dự đoán sự tồn tại của liên kết, dự đoán loại liên kết, dự đoán trọng số liên kết,
dự đoán số lượng liên kết), …
Tóm lại, bên cạnh các bài toán riêng lẻ áp dụng trên từng loại dữ liệu khác
nhau của mạng xã hội (nội dung hoặc cấu trúc), để ứng dụng vào các lĩnh vực thực
tế, người ta thường kết hợp các bài toán này lại với nhau (khai thác kết hợp cả 2 loại
dữ liệu). Ví dụ như kết hợp bài toán phân tích quan điểm và gom nhóm người dùng
trên mạng xã hội trong các hệ thống tư vấn sản phẩm (giới thiệu sản phẩm được
quan tâm với những nhóm người dùng khác nhau).
1.Giới thiệu một phần mềm phân tích dữ liệu mạng xã hội SMCC
SMCC (Social Media Command Center – Phân tích dữ liệu mạng xã hội) là bộ giải
pháp kết hợp các công nghệ thu thập thông tin, phân tích dữ liệu và các biện pháp
xử lý, phản ứng giải quyết vấn đề liên quan đến lĩnh vực truyền thông của con người.
 Đa dạng đối tượng phục vụ: Các cơ quan nhà nước, tổ chức, doanh nghiệp,
cá nhân.
 Đa dạng lĩnh vực hoạt động: thông tin đối ngoại, văn hóa, giáo dục, tài
chính, thương hiệu, y tế, quốc phòng, ….
2. Chức năng
 Lắng nghe
SMCC lắng nghe toàn bộ thông tin đề cập tới các đối tượng (sản phẩm,dịch vụ,
thương hiệu, sự việc, con người…) trên các trang báo điện tử,blog cá nhân, diễn đàn
và mạng xã hội.
 Gắn kết:
Bằng các biện pháp tương tác, phản hồi thông tin, hỗ trợ, tư vấn, SMCC giúp gắn
kết giữa người dùng và các doanh nghiệp, tổ chức, gắn kết giữa các tác giả, các trang
báo mạng với đơn vị xử lý thông qua những thông tin mà quá trình lắng nghe thu
nhận được.
 Xuất bản:
Xuất bản thông tin giúp gia tăng mức độ gắn kết, tạo tương tác giữa các bên, giữa
người dùng và doanh nghiệp, giữa các đơn vị báo điện tử với các cơ quan quản lý,
xử lý vấn đề về khủng hoảng truyền thông.
 Phân tích
Hệ thống SMCC cung cấp khả năng phân tích các hội thoại, trao đổi trên mạng xã
hội, các bài viết được đăng tải rên các trang báo điện tử để từ đó tìm ra xu hướng
thông tin và thống kê về các vấn đề cần quan tâm.
 Phân luồng – xử lý
Từ kết quả của việc phân tích thông tin, hệ thống SMCC giúp phân luồng và xử lý
các vấn đề. Các đơn vị quản lý sẽ phân luồng, giao nhiệm vụ nhanh chóng tới từng
cá nhân, bộ phận, các tổ chức chuyên trách để giải quyết vấn đề.
3. Hiệu quả – lợi ích sản phẩm
Với tổ chức, cơ quan nhà nước:
 Theo dõi các chủ đề đang được bàn luận, các vấn đề nóng được đăng trên
mạng.
 Nhận biết các đối tượng có ảnh hưởng đến các vấn đề nóng.
 Tăng cường sự hài lòng và tương tác với người dân.
 Đo đạc được mức độ ảnh hưởng của từng sự kiện được đăng tải.
 Quản lý khủng hoảng và xu hướng.
 Đánh giá mức độ phản ứng của người dân.
 Đáp ứng nhanh theo thời gian thực.
Với doanh nghiệp:
 Thay thế, cải tiến, nâng cấp các call center cũ kỹ, chi phí vận hành và đầu
tư tốn kém mà lại không mang lại hiệu quả.
 Dễ dàng tiếp cận các nguồn thông tin nhanh chóng, kịp thời, chính xác.
 Theo dõi thương hiệu, nắm bắt đối thủ cạnh tranh.
 Nâng cao hiệu quả kinh doanh của các doanh nghiệp: nhận biết, phân loại
đối tượng khách hàng dựa theo sở thích, thói quen.
 Hiện đại hóa hoạt động của doanh nghiệp: nắm bắt từ xa, trực tiếp các biến
động của thị trường người tiêu dùng, rút ngắn thời gian, giảm chi phí vận
hành.
 Nâng cao dịch vụ chăm sóc khách hàng.
1.2. CÁC PHƯƠNG PHÁP VÀ KỸ THUẬT KHAI PHÁ, XỬ LÝ DỮ LIỆU
1.2.1. Các kĩ thuật khai phá dữ liệu
Đứng trên quan điểm của học máy, thì các kỹ thuật trong KPDL, bao gồm:
 Học có giám sát
 Học không có giám sát
 Học nửa giám sát

Nếu căn cứ vào lớp các bài toán cần giải quyết, thì KPDL bao gồm các kỹ thuật áp
dụng sau:
 Phân lớp và dự đoán (classification and prediction)
 Phân cụm (clustering/segmentation)
 Luật kết hợp (association rules)
 Phân tích hồi quy (regression analysis)
 Phân tích các mẫu theo thời gian (sequential/temporal patterns)
 Mô tả khái niệm (concept description and summarization)
1.2.2. Các phương pháp chính trong khai phá dữ liệu
- Phân lớp và dự đoán:
Xếp một đối tượng vào một trong những lớp đã biết. Ví dụ: phân lớp vùng địa lý
theo dữ liệu thời tiết. Đối với hướng tiếp cận này thường áp dụng một số kỹ thuật
như học máy (Machine learning), cây quyết định (Decision tree), mạng nơron nhân
tạo (Neural network). Với hướng này, người ta còn gọi là học có giám sát
(Supervised learning).
- Phân cụm và phân đoạn:
Sắp xếp các đối tượng theo từng cụm. Các đối tượng được gom cụm sao cho mức
độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất và mức độ tương tự
giữa các đối tượng nằm trong các cụm khác nhau là nhỏ nhất. Lớp bài toán phân
cụm còn được gọi là học không giám sát.
- Luật kết hợp:

Luật kết hợp là dạng luật biểu diễn tri thức ở dạng khá đơn giản. Mục tiêu của phương
pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong CSDL.
Mẫu đầu của giải thuật KPDL là tập luật kết hợp tìm được.
- Khai phá chuỗi theo thời gian:
Cũng tương tự như KPDL bằng luật kết hợp nhưng có thêm tính thứ tự và tính thời
gian. Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường
chứng khoán bởi vì chúng có tính dự báo cao.
- Mô tả khái niệm và tổng hợp hóa:
Liên quan đến các phương pháp tìm kiếm một mô tả cho một tập con dữ liệu. Các
kỹ thuật toán tắt thường được áp dụng cho các phân tích dữ liệu tương tác có tính
thăm dò và tạo báo cáo tự động.
1.2.3. Các ứng dụng của khai phá dữ liệu
Khai phá dữ liệu tuy là một lĩnh vực mới nhưng đã thu hút được sự quan thâm của
rất nhiều nhà nghiên cứu, nhờ có những ứng dụng trong thực tiễn, các ứng dụng điển
hình có thể liệt kê như sau:
- Phân tích dữ liệu và hỗ trợ ra quyết định.
- Điều trị trong y học: mối liên hệ giữa triệu chứng, chuẩn đoán và phương pháp điều
trị.
- Phân lớp văn bản, tóm tắt văn bản và phân lớp các trang web.
- Tin sinh học: tìm kiếm, đối sánh các hệ gen và thông tin di truyền, mối liên hệ giữa
một số hệ gen và một số bệnh di truyền.
- Nhận dạng.
- Tài chính và thị trường chứng khoán: phân tích tình hình tài chính và dự đoán giá
cổ phiếu.
- Bảo hiểm.
- Giáo dục.
1.2.4. Các phương pháp phân loại văn bản
a. Support vector Machine (SVM)
b. K–Nearest Neighbor (kNN)
c. Naïve Bayes (NB)
d. Neural Network (NNet)
e. Linear Least Square Fit (LLSF)
f. Centroid- based vector
1.2.5. Các phương pháp tách từ tiếng Việt

a. Phương pháp Maximum Matching: forward/backward
Phương pháp khớp tối đa (Maximum Matching) còn gọi là Left Right Maximum
Matching (LRMM). Theo phương pháp này, ta sẽ duyệt một ngữ hoặc câu từ trái
sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển, rồi cứ thể tiếp tục
cho từ kế tiếp cho đến hết câu. Thuật toán được trình bày trong phần sau.
b. Phương pháp giải thuật học cải biến (Transformationbased Learning, TBL)
Đây là cách tiếp cận dựa trên ngữ liệu đã đánh dấu. Theo cách tiếp cận này, để huấn
luyện cho máy tính biết cách nhận diện ranh giới từ tiếng Việt, ta có thể cho máy
“học” trên ngữ liệu hàng vạn câu tiếng Việt đã được đánh dấu ranh giới từ đúng.
c. Mô hình tách từ bằng WFST và mạng Neural
Mô hình mạng chuyển dịch trạng thái hữu hạn có trọng số WFST (Weighted finit–
state Transducer) đã được áp dụng để tách từ tiếng Trung Quốc. Ý tưởng cơ bản là
áp dụng WFST kết hợp với trọng số là xác suất xuất hiện của mỗi từ trong ngữ liệu.
Dùng WFST để duyệt qua câu cần xét. Cách duyệt có trọng số lớn nhất sẽ là cách
tách từ được chọn.
d. Phương pháp quy hoạch động
Phương pháp quy hoạch động [20] chỉ sử dụng tập ngữ liệu thô để lấy thông tin về
tần số thống kê của từ, làm tăng độ tin cậy cho việc tính toán.
e. Phương pháp tách từ tiếng Việt dựa trên thống kê từ Internet và thuật toán
di truyền
Phương pháp IGATEC do H.Nguyễn et al (2005) giới thiệu việc tách từ với mục
đích phân loại văn bản mà không cần dùng đến một từ điển hay tập huấn luyện nào.
Trong hướng tiếp cận này, tác giả kết hợp giữa thuật toán di truyền (Genetics
Algorithm - GA) với dữ liệu thống kê được trích xuất từ Internet tiến hoá một quần
thể gồm các cá thể là các khả năng tách từ trong câu.
f. phiếu điều tra gửi qua email, người phỏng vấn sẽ có cơ hội được đặt những
câu hỏi tiếp theo.
1.3. CÁC CÔNG TRÌNH KHAI PHÁ VÀ XỬ LÝ DỮ LIỆU ĐÃ ĐƯỢC PHÁT

TRIỂN
 Khai phá dữ liệu website bằng kĩ thuật phân cụm
 Lựa chọn thuộc tính trong khai phá dữ liệu
 Nghiên cứu ứng dụng tập phổ biến và luật kết hợp vào bài toán phân loại văn bản
Tiếng Việt có xem xét ngữ nghĩa
 Phân loại văn bản Tiếng Việt với bộ vector hỗ trợ SVM
 Phương pháp luật kết hợp và ứng dụng
 Ứng dụng khai phá dữ liệu để tư vấn học tập
 Nghiên cứu ứng dụng phân lớp dữ liệu trong quản lý khách hàng trên mạng
 Dự báo bùng nổ sự kiện trong mạng xã hội
Ví dụ: Phương pháp khảo sát tự động. Hệ thống S4-TS01
Một số các đề tài khảo sát ý kiến đánh giá
a. Đề tài Khảo sát thư viện trường THCS Trần Cao Vân
b. Đề tài Khảo sát ý kiến khách hàng về chất lượng dịch vụ thẻ quốc tế của ngân
hàng Sài Gòn Thương Tín
c. Khảo sát chất lượng dịch vụ khách hàng tại Công Ty TNHH Co.opMart Cống
Quỳnh Quận 1, TP.Hồ Chí Minh
d. Một số các dự án thực hiện lấy ý kiến người dùng khác:
 Phát hiện cộng đồng sử dụng thuật toán CONGA và khai phá quan điểm cộng
đồng: Công trình đã trình bày cách phát hiện cộng đồng dựa trên thuật toán CONGA
do Steve Grogery đề xuất năm 2007 và sử dụng kỹ thuật học máy xác suất Naïve
Bayes để phân lớp quan điểm cộng đồng .
 Khai phá quan điểm trên dữ liệu TwiTter: đây là công trình khai phá dữ liệu từ
trang mạng xã hội nổi tiếng Twister lấy về tất cả các tweets thể hiện quan điểm của
người sử dụng về một sự vật, hiện tượng, hay sự kiện nào đó. Từ đó dùng kĩ thuật
phân lớp theo tiếp cận học máy để phân lớp quan điểm của người dùng theo theo 2
bộ phân lớp tweet đó là negative-positive và negative-neutralpositive.
 Nghiên cứu của J.Bollen về Dự báo thị trường chứng khoán dựa trên Twitter:
Công trình này đã nêu và giải quyết bài toán dự báo thị trường chứng khoán dựa trên
các thông tin mà người dùng để lại trên Tweeter, dùng kĩ thuật khai phá dữ liệu để
lấy tất cả các thông tin này sau đó dùng phương pháp phân loại vân bản SVM kết
hợp với kNN để phân tích cảm xúc của người dùng từ đó đưa ra những dự đoán về
giá chứng khoán trên thị trường.
1.4. SO SÁNH CÁC PHƯƠNG PHÁP KHAI PHÁ, XỬ LÝ DỮ LIỆU

LỰA CHỌN PHƯƠNG PHÁP ĐIỀU TRA
Dựa vào mạng xã hội doanh nghiệp có thể truy cập, quản lý và tận dụng nhiều
công cụ như diễn đàn thảo luận, chat nội bộ và các công cụ khác để tạo lập nội dung
tin cậy, hiểu được thị hiếu, quan điểm, xu hướng của khách du lịch, đồng thời quản
lý hình ảnh thương hiệu hiệu quả trên môi trường trực tuyến, đánh giá hiệu quả của
các hoạt động tiếp thị theo thời gian thực, lựa chọn được những phương pháp tiếp
cận thị trường hiệu quả nhất về mặt chi phí. Như vậy, phương pháp chúng ta sử dụng
là dựa vào mạng xã hội để thực hiện khảo sát lấy ý kiến.
SO SÁNH CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN
1. Phương pháp phân loại văn bản sử dụng thuật toán SVM
a. Thuật toán SVM
Thuật toán máy vector hỗ trợ (Support Vector Machines - SVM) được Corters
và Vapnik giới thiệu vào năm 1995 [35]. SVM rất hiệu quả để giải quyết các bài
toán với dữ liệu có số chiều lớn như các vector biểu diễn văn bản. Thuật toán SVM
ban đầu chỉ được thiết kế để giải quyết bài toán phân lớp nhị phân tức là số lớp hạn
chế là hai lớp. Hiện nay, SVM được đánh giá là bộ phân lớp chính xác nhất cho bài
toán phân lớp văn bản, bởi vì đó là bộ phân lớp tốc độ rất nhanh và hiệu quả đối với
bài toán phân lớp văn bản.
b. Huấn luyện SVM
Huấn luyện SVM là việc giải bài toán quy hoạch toàn phương SVM. Các
phương pháp số giải bài toán quy hoạch này yêu cầu phải lưu trữ một ma trận có
kích thước bằng bình phương của số lượng mẫu huấn luyện. Trong những bài toán
thực tế, điều này là không khả thi vì thông thường kích thước của tập dữ liệu huấn
luyện thường rất lớn (có thể lên tới hàng chục nghìn mẫu). Những thuật toán này
dựa trên việc phân rã tập dữ liệu huấn luyện thành những nhóm dữ liệu. Điều đó có
nghĩa là bài toán quy hoạch toàn phương với kích thước nhỏ hơn. Sau đó, những
thuật toán này kiểm tra các điều kiện KKT (Karush-Kuhn- Tucker) để xác định
phương án tối ưu.
Một số thuật toán huấn luyện dựa vào tính chất: Nếu trong tập dữ liệu huấn
luyện của bài toán quy hoạch toàn phương con cần giải ở mỗi bước có ít nhất một
mẫu vi phạm các điều kiện KKT, thì sau khi giải bài toán náy, hàm mục tiêu sẽ tăng.
Như vậy, một chuỗi các bài toán quy hoạch toàn phương con với ít nhất một mẫu vi
phạm các điều kiện KKT được đảm bảo hội tụ đến một phương án tối ưu. Do đó, ta
có thể duy trì một tập dữ liệu làm việc đủ lớn có kích thước cố định và tại mỗi bước
huấn luyện, ta loại bỏ và thêm vào cùng một số lượng mẫu.
2. So sánh các phương pháp phân loại văn bản
Các thuật toán phân loại trên từ thuật toán phân loại 2 lớp (SVM) đến các
thuật toán phân loại đa lớp (kNN) đều có điểm chung là yêu cầu văn bản phải được
biểu diễn dưới dạng vector đặc trưng.
Ngoài ra các thuật toán như kNN, NB, LLSF đều phải sử dụng các
ước lượng tham số và ngưỡng tối ưu trong khi đó thuật toán SVM có thể tự tìm ra
các tham số tối ưu này. Trong các phương pháp SVM là phương pháp sử dụng không
gian vector đặc trưng lớn nhất (hơn 10000 chiều) trong khi đó chỉ là 2000 đối với
NB, 2415 cho kNN và LLSF, 1000 cho Nnet [40]. Thời gian huấn luyện cũng khác
nhau đối với từng phương pháp, Nnet (sử dụng mỗi mạng tương ứng một chủ đề) và
SVM là hai phương pháp có thời gian huấn luyện lâu nhất trong khi đó kNN, NB,
LLSF và Centroid là các phương pháp có tốc độ (thời gian huấn luyện, phân loại)
nhanh và cài đặt dễ dàng.
3. LỰA CHỌN PHƯƠNG PHÁP PHÂN LOẠI
Có nhiều phương pháp để phân loại các ý kiến của khách hàng vào từng nhóm
tiêu chí cụ thể, tôi quyết định chọn phương pháp phân loại sử dụng máy học vector
hỗ trợ SVM để nghiên cứu và xây dựng ứng dụng mô tả cho lý thuyết nghiên cứu.
Đối với tiếng Việt việc ứng dụng các phương pháp này để phân loại gặp khá
nhiều khó khăn do cấu trúc từ tiếng Việt có đặc điểm riêng. Nếu như tiếng Anh mỗi
từ đều có nghĩa thì trong tiếng Việt bên cạnh từ đơn còn có từ phức từ ghép do nhiều
từ đơn ghép lại mà tạo nên nghĩa. Hiện nay phương pháp MMSEG và các cải tiến
của nó đang được ứng dụng rộng rãi để tách từ tiếng Việt, đây là cách tách từ đơn
giản nhanh sử dụng thuật toán khớp tối đa (Maximum Watching), độ chính xác của
phương pháp này phụ thuật vào từ điển. Trong đề tài tôi chọn phương pháp MMSEG
để tách từ tiếng việt trong đó có sử dụng từ điển Tiếng Việt.
Lý do chọn phương pháp phân loại sử dụng máy học vector hỗ trợ SVM để
phân loại ý kiên khách hàng: SVM là phương pháp tiếp cận phân loại rất hiệu quả,
SVM cho hiệu suất cao nhất so với các phương pháp khác như kNN, LLSF, Nnet.
Không gian vector đặc trưng ảnh hưởng rất lớn đến hiệu suất của phương pháp
SVM. Nhưng trong đề tài của chúng ta với tập tiêu chí gồm 3 tiêu chí là positive,
negative và neutral ta nhận thấy tập từ vựng rút ra từ tập dữ liệu huấn luyện là hữu
hạn, có kích thước nhỏ vì các từ khóa thể hiện quan điểm cảm xúc là hữu hạn. Do
đó không gian vector đặc trưng sẽ không lớn và thời gian huấn luyện sẽ không nhiều,
điều này khiến cho hiệu suất của phương pháp SVM là tốt hơn.
CHƯƠNG 2: KHAI PHÁ MẠNG XÃ HỘI
2.1 Định nghĩa
Tại sao phân tích và khai phá mạng xã hội?
-  Mạng xã hội là phổ biến
-  Mạng xã hội là kho tài nguyên tiềm năng đồ sộ
-  Phân tích và khai phá mạng xã hội: tính thời sự
Mạng xã hội là phổ biến
1. Mạng xã hội xuất hiện trong nhiều lĩnh vực
- Xã hội học, CNTT (khai phá dữ liệu), khoa học hành vi, toán học, thống kê và
nhiều lĩnh vực khác
2. Mạng xã hội hiện - ẩn
- Mạng xã hội hiện: Quan hệ giữa các nút là rõ. Ví dụ: Facebook, Twitter, và
MySpace.
-Mạng xã hội ẩn: Quan hệ giữa các nút: kết quả qua phân tích. Ví dụ: Các nhân viên
thực hiện quy trình, các khách hàng cùng sở thích, v.v.
3. Mạng xã hội tĩnh - động
- Tĩnh: Kết nối cố định như các bộ định tuyến trong mạng, v.v.
-  Động: Kết nối thay đổi như con người, động vật, côn trùng, gen, protein, v.v.
4. Mạng xã hội ngoại tuyến – trực tuyến
- Ngoại tuyến: Mạng XH thiết lập từ dữ liệu của công ty

- Trực tuyến: Mạng XH trực tuyến trên Internet
Mạng XH với Big Data và ứng dụng
1  Mạng xã hội với Big Data
-  Mạng xã hội trực tuyến (Facebook, Twitter, Google+, mạng chuyên gia LinkeIn,
Youtube, v.v.), mạng xã hội công ty → Big Data.
-  Big Data: Volome, Variety, Velocity, Value (“dầu mỏ của Thế kỷ 21”)
2 Một số ứng dụng phân tích mạng xã hội
-  Khai phá dữ liệu, truy hồi thông tin (information retrieval), hệ tư vấn
(recommender systems), khoa học web (Web science), nhiều ngành khoa học xã hội
(đặc biệt trong xã hội học: sociology).
- Quản lý quan hệ KH xã hội (Social CRM, khách hàng vận động: Advocate), tư vấn
xã hội (social recommendation), khai phá quan điểm (opinion mining), quản lý danh
tiếng (reputation management), phóng viên công dân thời gian thực (Real-time
Citizen journalism), phản ứng công dân (Citizen response), phân tích hành vi con
người (human behavior analysis), v.v.
-  Khoa học dữ liệu (Data Science): nghề hấp dẫn nhất thế kỷ 21
Big data không ngừng gia tăng và giá trị

-  (i) Mỹ: tiết kiệm 300 tỷ US$ ngành y tế, (ii) Châu Âu: chỉnh phủ tiết kiệm 100 tỷ
Euro (giảm gian lận, sai sót, chênh lệch thuế), v.v.
Phân tích và khai phá MXH: tính thời sự

-  Thống kê đơn giản từ ba nguồn lưu tài liệu (10/8/2016)
2.2 Phân tích và khai phá mạng xã hội
-  Khái niệm mạng xã hội, mạng xã hội trực tuyến
-  Các đặc trưng cơ bản của mạng xã hội
-  Phân tích nội dung và phân tích cấu trúc mạng xã hội
Khái niệm mạng xã hội
1  Khái niệm
-  Định nghĩa phổ biến: Mạng tương tác/quan hệ xã hội: nút là tác nhân xã hội và
cạnh là quan hệ/tương tác giữa các tác nhân đó. “là một cấu trúc xã hội bao gồm các
cá nhân hay tổ chức, thường được biểu diễn bằng các nút, cùng với các quan hệ xã
hội, tương ứng với các liên kết giữa các nút”.
-  Định nghĩa tổng quát. Mạng thông tin: nút là tác nhân/thực thể có yếu tố xã hội và
cung là quan hệ giữa các nút.
- MXH trực tuyến (online social network): MXH được thi hành bằng dịch vụ mạng
xã hội trực tuyến (online social network service)
2  Phương tiện xã hội
- Phương tiện xã hội (social media) là phương tiện được thiết kế để truyền bá ý tưởng
thông qua tương tác xã hội, là “phương tiện tương tác của con người để tạo, chia sẻ
và trao đổi thông tin và ý tưởng trong cộng đồng ảo và mạng một cách trực tuyến”
Khái niệm mạng xã hội
1  Khái niệm
-  Định nghĩa phổ biến: Mạng tương tác/quan hệ xã hội: nút là tác nhân xã hội và
cạnh là quan hệ/tương tác giữa các tác nhân đó. “là một cấu trúc xã hội bao gồm các
cá nhân hay tổ chức, thường được biểu diễn bằng các nút, cùng với các quan hệ xã
hội, tương ứng với các liên kết giữa các nút”.
-  Định nghĩa tổng quát. Mạng thông tin: nút là tác nhân/thực thể có yếu tố xã hội và
cung là quan hệ giữa các nút.
-  MXH trực tuyến (online social network): MXH được thi hành bằng dịch vụ mạng
xã hội trực tuyến (online social network service)
2  Phương tiện xã hội
-  Phương tiện xã hội (social media) là phương tiện được thiết kế để truyền bá ý
tưởng thông qua tương tác xã hội, là “phương tiện tương tác của con người để tạo,
chia sẻ và trao đổi thông tin và ý tưởng trong cộng đồng ảo và mạng một cách trực
tuyến”
Đặc trưng thế giới nhỏ

1 Khái niệm
-  Small-world: Hầu hết cặp hai người trên thế giới kết nối nhau bằng một xâu ngắn
thường là sáu kết nối trực tiếp.
- [Travers69] Jeffrey Travers, Stanley Milgram (1969). An Experimental Study of

the Small World Problem, Sociometry, 32(4): 425-443, Dec., 1969. Thủ công: cho
kết quả 6.6.
-  Khi mạng phát triển bổ sung nút: thêm cung kết nối
-  Kiểm thử đúng hầu hết các mạng nhỏ (một vài hạn chế)
- Mạng XH lớn: Microsoft Instant Messenger 240 triệu người, 4.5TB. Phân bổ đường
đi ngắn nhất trung bình là 6.6, 90% không vượt quá 7.8
Phân bố luật lũy thừa
1 Khái niệm
-  Power-law degree distributions / the scale – free property
-  Phân bố luật lũy thừa: số nút (cung) có k liên kết tới bằng khoảng 1/k2 với số k>2
đa phần.
2  Phân bố luật lũy thừa ở hầu hết mạng XH
-  Jurij Lescovec xác nhận Microsoft Instant Messenger
Đặc trưng tập nhân
1  Khái niệm
-  Network transitivity
-  Cấu trúc và vận động của mạng chịu tách động bới các nút có số lượng lớn các
cung kết nối
-  Vai trò của các nút trong mạng xã hội
2  Ví dụ thể hiện
-  Đồ thị câu lạc bộ karate của Zachary quan sát trong 3 năm.
-  Đồ thị gồm 34 nút thành viên của câu lạc bộ.
-  Hai tập nút: một tập quanh các nút 34 (34 là chủ tịch), tập còn lại quanh nút 1
(huấn luyện viên) thế hiện tranh chấp hai nhóm quanh hai nút nhân
Đặc trưng cấu trúc cộng đồng
1 Khái niệm
-  Community structure
- Mạng được chia thành các cộng đồng, các nút trong cùng một cộng đồng liên kết
chặt còn các nút khác cộng đồng liên kết yếu
-  Một cộng đồng trong mạng xã hội như là “nhóm cùng sở thích” trong thế giới thực.
Liên hệ “nhóm lợi ích”, “Advocacy group” ?
2  Thể hiện
-  Mạng CLB Karate: hai cộng đồng, Mạng đồng tác giả
2.3 Phân tích cấu trúc mạng xã hội
-  Một số bài toán điển hình
-  Giới thiệu công cụ phân tích mạng xã hội SNAP
Một số bài toán phân tích mạng xã hội
1  Các kiểu phân tích
-  Phân tích dựa trên liên kết và cấu trúc
- Phân tích dựa trên nội dung
- Phân tích kết hợp
2  Phân tích động và phân tích tĩnh
-  Phân tích tĩnh ↔ mạng xã hội tĩnh: toàn bộ mạng thay đổi chậm theo thời gian.
Tập rời rạc ảnh mạng
-  Phân tích động ↔ mạng xã hội động: tương tác liên tục qua thời gian, tốc độ rất
lớn. Dòng mạng.
3  Một số bài toán
-  Phân tích thống kê mạng xã hội
-  Phát hiện cộng đồng trong mạng xã hội
-  Dự đoán liên kết, nút trong mạng xã hội
-  Phân tích vai trò
-  Phân loại nút trong mạng xã hội
-  Tiến hóa động mạng xã hội
-  Tính riêng tư trong mạng xã hội
-  Phân tích xung đột (adversarial), v.v.
4 Kiểm định thống kê
-  Kiểm định giả thuyết thống kê về mạng xã hội
-  Các đặc trưng: thế giới nhỏ, phân bố luật lũy thừa, tác động tập nhân
- Tác động tập nhân: tính hạng đối tượng trong mạng xã hội sử dụng các thuật toán
tính hạng trang web như PageRank, HITS…
5  Phát hiện cộng đồng
-  Cộng đồng tách rời, cộng đồng giao nhau
-  Phổ phong phú các phương pháp: truyền thống, phân chia, dựa trên mô-dun hóa,
dựa trên phổ, động, dựa trên suy luận thống kê, cộng đồng giao nhau, phân cấp, v.v.
-  Một vài thuật toán phổ biến: họ thuật toán phân tách GirvanNewman theo độ trung
gian cạnh Girvan-Newman, chia đỉnh CONGA, CONGO, gán nhãn COPRA, v.v.
Dự đoán liên kết

1 Dự đoán liên kết
-  Hai nhóm phương pháp theo độ đo tương tư dựa trên cấu trúc: mô hình khả năng
cực đại (Maximum Likelihood) kiểu phân cụm phân cấp và mô hình xác suất
(Probabilistic)
-  Dự đoán liên kết âm-dương theo lý thuyết cân bằng cấu trúc: bộ ba, mạng cân
bằng/không cân bằng
Phân tích vai trò
1 Phân tích vai trò
-  Vai trò là {quyền, nghĩa vụ, kỳ vọng, định mức và hành vi} của một người (nhóm)
cần đối mặt và thi hành. mẫu hành vi đặc trưng (characteristic behaviour pattern).
-  Hai câu hỏi: (i) Đối tượng X có vai trò gì? (ii) Ai có vai trò R?
-  Tập đặc trưng của cá nhân trong quan hệ và tương tác xã hội (ví dụ, M1-M14), xác
định các vai trò tương ứng (khởi tạo ý tưởng: Information propagators/ Idea Starter,
nhận ý tưởng nhanh: Early adopter, quảng bá/phát tán: Promoters/Amplifie, quản lý:
curator, nổi tiếng: Celebrity, v.v.)
-  Các nhóm phương pháp: (i) Phân tích liên kết và nội dung theo mô hình xác suất,
(ii) Phân tích mạng xã hội theo độ đo cấu trúc, (iii) Tối ưu hóa tổ hợp, (iv) học máy
giám sát, học máy phân lớp hoặc tính hạng
Công cụ SNAP Python

1  Stanford Network Analysis Platform (SNAP)
http://snap.stanford.edu
Trên 70 bộ dữ liệu mạng
-  Prebuilt packages available for Mac OS X, Windows, Linux http://

snap.stanford.edu/snappy/index.html
- Snap.py documentation: http://snap.stanford.edu/snappy/doc/index.html
Quick Introduction, Tutorial, Reference Manual SNAP user mailing list

http://groups.google.com/group/snap-discuss
Developer resources
Software available as open source under BSD license GitHub repository

https://github.com/snap-stanford/snap-python
Công cụ SNAP C++
-  Source code available for Mac OS X, Windows, Linux
http://snap.stanford.edu/snap/download.html
-  SNAP documentation
http://snap.stanford.edu/snap/doc.html
Quick Introduction, User Reference Manual Source code, see tutorials
-  SNAP user mailing list
http://groups.google.com/group/snap-discuss
-  Developer resources
Software available as open source under BSD license GitHub repository

https://github.com/snap-stanford/snap
SNAP C++ Programming Guide
CHƯƠNG 3: DỮ LIỆU VÀ THU THẬP DỮ LIỆU TỪ MẠNG XÃ HỘI
TRỰC TUYẾN
3.1 Dữ liệu cá nhân
1  Hồ sơ cá nhân
- Tuổi, giới tính, tình trạng hôn nhân,…
-  Nơi làm việc, nghề nghiệp, trường học, bằng cấp, học vấn,…
-  Gia đình, thành phần gia đình,…
- Sở thích
-  Ngắn hạn, trung hạn, dài hạn,…
-  Hành vi/Thói quen
-  Thói quen sinh hoạt, làm việc, du lịch,…
-  Ý định/Nhu cầu
-  Cảm xúc
-  Tính cách
Hồ sơ cá nhân
Dữ liệu cá nhân
-  Phân bố thời gian viết bài trong một tuần
-  Thời gian viết bài tập trung vào 18-23h hàng ngày
- Giảm trong giờ nghỉ trưa và nghỉ tối

-  Phân bố cảm xúc người dùng
-  Thứ 2-6 tiêu cực nhiều hơn
-  Thứ 7-CN thăng hoa

Dữ liệu quan hệ
- Các mối liên kết quan hệ bạn bè
- Mạng bạn bè Facebook
- Quan hệ công việc, chuyên môn
-  Mạng chuyên gia Linkedin
- Mối quan hệ theo dõi một chiều
-  Follow một chiều một cá nhân trên Twitter hay Facebook

- Mối quan hệ giữa cá nhân và doanh nghiệp/người nổi tiếng
- Các thành viên yêu thích một thương hiệu hoặc fan của người nổi tiếng
Dữ liệu cộng đồng
-  Những cá nhân có cùng sở thích
-  Tham gia cùng một group trên Facebook
-  Tham gia cùng một circle trên G+
-  Những cá nhân tham cộng đồng về một lĩnh vực cụ thể
-  Tham gia vào cùng một Group hay Association trên Linkedin
-  Tham gia vào những danh sách nhận thông tin từ tài khoản Twitter
3.2. Thu thập dữ liệu từ MXH
- Các mạng xã hội lớn đều cho phép truy xuất dữ liệu qua các API dạng Webservice
-  Lưu ý về chính sách sử dụng dữ liệu
-  Lưu ý về chính sách thu thập dữ liệu
-  Facebook
-  Chỉ cho phép truy xuất dữ liệu của chính bản thân và các Page hay group mở
-  Một số Partner được phép sử dụng một số kênh mất chi phí
-  Twitter
-  Cho phép thu thập và sử dụng toàn bộ dữ liệu
-  Linkedin
-  Trả phí cho việc đăng tuyển và tìm ứng cử viên công việc
Thu thập dữ liệu từ Twitter
1  Search API
-  Cho phép thu thập dữ liệu dựa trên từ khóa tìm kiếm và một số tiêu chí lọc dữ liệu.
- Dữ liệu trả về trong 7 ngày gần nhất
2 Streaming API
- Được phép truy xuất để lấy dữ liệu Twitter theo thời gian thực
-  Cho phép thiết lập các tham số liên quan đến địa điểm đưa các tweet
3  Thư viện
-  Java: Twitter4J, jTwitter
-  Python: Tweepy
Thu thập dữ liệu từ Facebook
1  Graph API
-  Tương tác với dữ liệu Open group, page, user tham gia app và tài khoản của chính
bản thân
2 Access Token
-  User access token: chỉ truy xuất đến thông tin cá nhân và một số thông tin của bạn
bè trực tiếp
- App access token: chỉ truy xuất đến thông tin của các user tham gia vào app (với
điều kiện user cho phép)
-  Page access token: chỉ truy xuất vào thông tin của page
3  Thư viện
-  Java: RestFB, Facebook4J

- Python: Facebook SDK for Python
3.3. Phân tích nội dung mạng trực tuyến
Phân tích quan điểm
1  Phân tích tình cảm (Sentiment Analysis - khai phá quan điểm: Opinion Mining)
-  Phân tích quan điểm (opinion), tình cảm/tâm lý (sentiment), đánh giá (evaluation),
thẩm định (appraisal), thái độ (attitude), và cảm xúc (emotion) của con người đối
với các thực thể như sản phẩm (product), dịch vụ (service), tổ chức (organization),
cá nhân (individual), vấn đề (issue), sự kiện (event), chủ đề (topic) và các thuộc tính
của chúng
2  Thuật ngữ:
-  sentiment analysis / opinion mining /opinion extraction /sentiment mining /

subjectivity analysis/ affect analysis /emotion analysis /review mining... Phổ biến
nhất: opinion mining (hàn lâm - công nghiệp)/ sentiment analysis (công nghiệp)
3 Mức tài liệu (document-level sentiment classification)
-  Toàn bộ tài liệu thể hiện một quan điểm tích cực (positive) / tiêu cực (negative).
Phân lớp chứa/không quan điểm.
-  Bài toán phân lớp: Tài liệu chứa quan điểm: tích cực / tiêu cực
4 Mức câu (sentence level: subjectivity classification)
-  Cho quan điểm tích/tiêu cực hoặc trung tính (neutral). Trung tính ~ không có quan
điểm.
- Phân lớp câu: khách quan (objective sentences) và chủ quan (subjective sentence)
-  Câu chủ quan không tương đương câu có quan điểm.
-  Câu khách quan “Tôi mua chiếc xe tháng trước và chiếc gạt nước đã bị rơi” có
quan điểm.
5  Mức thực thể và khía cạnh (Entity and Aspect level / aspect level / feature level /
feature-based opinion mining and summarization)
- Đối tượng và các khía cạnh của đối tượng
-  Mức khía cạnh phát hiện chính xác thích gì và không thích gì
-  Toàn bộ đối tượng và từng khía cạnh,
-  Chi tiết theo từng khía cạnh, hấp dẫn và phức tạp nhất.
-  Một số ví dụ
+  "mặc dù dịch vụ là không đáng kể, tôi vẫn thích nhà hàng này“. Toàn bộ nhà hàng:
tích cực, khía cạnh dịch vụ : Tiêu cực
+ "chất lượng cuộc gọi của iPhone là tốt, nhưng tuổi thọ pin của nó là ngắn”.
Khía cạnh cuộc gọi: tích cực”, khía cạnh tuổi thọ pin: tiêu cực.
6  Quan điểm so sánh
-  So sánh hai hay nhiều thực thể với nhau
-  So sánh nhất: tốt/tồi nhất
-  So sánh hơn kém
-  So sánh không thứ bậc: hai khía cạnh khác nhau
7  Từ quan điểm
- Từ quan điểm: một dấu hiệu nhận diện quan điểm
- Từ vựng quan điểm (SentiWordNet)
Quản lý thương hiệu

1 Theo dõi, giám sát mức độ thâm nhập, sức lan tỏa, và ảnh hưởng của thương hiệu
trên truyền thông trực tuyến/mạng xã hội
2  Đo đếm mức độ truyền thông/dư luận trực tuyến đề cập tới các hoạt động, sự kiện,
chiến dịch hoặc bất cứ một vấn đề nào đó của doanh nghiệp, tổ chức theo thời gian.
3  Phát hiện nhanh chóng các luồng dư luận thiếu chính xác, sai lệch ảnh hưởng bất
lợi đến vị thế và uy tín của thương hiệu nhằm đưa ra quyết định và giải pháp can
thiệp kịp thời
4  Barclays phát hành ứng dụng Mobile Banking chỉ cho người 18 tuổi trở lên nhưng
sau đó cho cả người 16-17 tuổi vì phản hồi khách hàng
5  Theo Evry, các ngân hàng lớn trên thế giới đều sử dụng công cụ giám sát mạng
xã hội và phân tích quan điểm nhằm lắng nghe, chăm sóc khách hàng và quản lý
thương hiệu
6  Doanh nghiệp ứng dụng
-  Viettel, BIDV
7  Sản phẩm
-  Viettel Social Monitoring
-  Younet Media & BuzzMetric
-  Boomerang
-  SMCC.VN (InfoRe)
-  iMonitor (Datasection)
Tư vấn xã hội
1  Định nghĩa hẹp:
2  Định nghĩa rộng:
-  Là hệ tư vấn bất kì nhắm đến lĩnh vực phương tiện xã hội
-  Đối tượng: con người, cộng đồng, mục, thẻ,...

-  Nguồn sử dụng: dữ liệu phương tiện xã hội (các mối quan hệ xã hội, tương tác
người dùng, gắn thẻ,...)
Phân tích hành vi người dùng

1 Mục đích
-  Phân tích, mô hình và dự đoán một hoặc nhiều hành vi của người dùng trên mạng
xã hội
2.  3 loại hành vi của một cá nhân trên MXH User-User (link generation)
Trở thành bạn, gửi tin nhắn, cùng chơi trò chơi, theo dõi, hoặc mời tham gia một sự
kiện User-Community
Tham gia hay rời khỏi một cộng đồng hoặc đóng góp thảo luận vào một cộng đồng
User-Entity (content generation)
Viết bài, đăng ảnh
Kỹ thuật: Xử lý ngôn ngữ tự nhiên, học máy, thống kê, khai phá dữ liệu
Ứng dụng phân tích hành vi người dùng
1  Phân tích khách hàng (Customer insight)
-  Phân tích tập và hiểu tập khách hàng nội bộ nhằm cải thiện chiến dịch tiếp thị, bán
có mục tiêu và đưa dịch vụ tốt hơn
-  Hiểu biết kế hoạch sản phẩm của khách hàng để tìm kiếm sản phẩm khách hàng
có khả năng sắp mua nhất nhằm đưa ra thông điệp tiếp thị đúng đắn
2  Hiệu quả tại một số công ty lớn
-  OCBC hiểu khách hàng hơn thông qua hành vi và thói quen khách hàng qua đấy
tăng sự gắn kết giữa khách hàng-ngân hàng
-  Westpac phát hiện xu hướng khách hàng và gom nhóm các sản phẩm để tiếp thị
khách hàng, hiệu quả đạt được tăng 37% hiệu quả đăng ký sử dụng dịch vụ và 60%
khách hàng liên hệ với ngân hàng
-  Manulife ước lượng thu nhập và thói quen của khách hàng nhằm tạo ra các dịch
vụ tối ưu cho khách hàng sử dụng
PHÂN TÍCH KHÁCH HÀNG VIỄN THÔNG
Phân &ch thông +n tất cả các khách hàng có đầu số 09 của 3 nhà mạng VieAel (096,
097, 098), Mobifone (090, 093), Vinaphone (091, 094)
PHÂN TÍCH KHÁCH HÀNG VIỄN THÔNG
PHÂN TÍCH KHÁCH HÀNG NGÂN HÀNG

Hệ thống phân tích khách hàng của một ngân hàng tầm trung tại Việt Nam với hơn
2 triệu khách hàng, 300 triệu dữ liệu giao dịch chuyển khoản hàng năm
Giám sát sự kiện trên mạng xã hội
1  MXH là công cụ truyền thông quan trọng:
--  Tuyên truyền về thảm họa, thiên tai (động đất, sóng thần Nhật Bản, bão Katrina,
tràn dầu Lousiana,…)
-  Vận động tranh cử, tổng tuyển cử(Mỹ, HQ, Anh,…)
-  Giúp quan chức Chính phủ quản lý, theo dõi các luồng thông tin
-  Thu thập thông tin TB phục vụ mục đích chính trị
2  Công cụ giám sát sự kiện

-  Hiểu ngôn ngữ tốt hơn
+  Trích xuất sự kiện, nhận dạng thực thể
+  Gom nhóm sự kiện, dịch máy thống kê
- Thường tập trung vào một số miền dữ liệu cụ thể
+ Bệnh truyền nhiễm
+  Thiên tai, thảm họa
+  Chính trị
Giám sát sự kiện Việt Nam

Hệ thống giám sát tai nạn
3.5. Phân tích cấu trúc mạng trực tuyến
Phát hiện cộng đồng
Phân tích cộng đồng giúp hiểu được người dùng
Phân tích cộng đồng đưa ra góc nhìn về sự tương tác của người dùng
Một số hành vi người dùng chỉ được phát hiện và quan sát khi họ tham gia cộng
đồng
1  Cộng đồng trên MXH
-  Cộng đồng minh bạch (explicit)
+  Khai báo qua việc đăng ký rõ ràng
+ Các open/close group trên Facebook/Linkedin
-  Cộng đồng ẩn (explicit)
+  Không được khai báo
+ Một số nhóm người thường tương tác trao đổi với nhau về chủ đề yêu thích
2  Cộng đồng giao nhau và không giao nhau
Kỹ thuật phát hiện cộng đồng
1  Một số kỹ thuật phổ biến
-  Phân cụm phân cấp
+  Hierarchical agglomerative clustering
-  Phân cụm theo đồ thị
+ Kernighan-Lin, Spectral bisection
-  Phân cụm phân hoạch
+ K-mean, Fuzzy K-mean
-  Phân cụm theo phổ
+  Spectral Clustering
-  Thuật toán phân chia
+ Girvan-Newman, Conga, Congo

2 Công cụ
- http://www.cs.bris.ac.uk/~steve/networks/software/conga.html
-  http://perso.crans.org/aynaud/communities/index.html

Bài Giảng Khai Phá Mạng Xã Hội

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bài Giảng Khai Phá Mạng Xã Hội

Uploaded by

Copyright:

Available Formats

MỤC LỤC

1.1. KHAI PHÁ DỮ LIỆU VÀ QUÁ TRÌNH KHAI PHÁ DỮ LIỆU

1.1.1 DỮ LIỆU MẠNG XÃ HỘI

Ví dụ về quảng cáo sử dụng dữ liệu mạng xã hội

LỢI ÍCH VÀ HẠN CHẾ CỦA DỮ LIỆU MẠNG XÃ HỘI

Lợi ích của dữ liệu mạng xã hội trong quảng cáo

Hạn chế của dữ liệu mạng xã hội

1.1.2. Khai phá dữ liệu là gì?

Hình: Quy trình phát triển tri thức

1.1.3. Quá trình khai phá dữ liệu

KHAI PHÁ DỮ LIỆU MẠNG XÃ HỘI

Dữ liệu mạng xã hội được phân thành 2 loại:

3. Hiệu quả – lợi ích sản phẩm

Với tổ chức, cơ quan nhà nước:

 Tăng cường sự hài lòng và tương tác với người dân.

 Đánh giá mức độ phản ứng của người dân.

 Đáp ứng nhanh theo thời gian thực.

Với doanh nghiệp:

 Nâng cao dịch vụ chăm sóc khách hàng.

1.2. CÁC PHƯƠNG PHÁP VÀ KỸ THUẬT KHAI PHÁ, XỬ LÝ DỮ LIỆU

1.2.1. Các kĩ thuật khai phá dữ liệu

 Học có giám sát

 Học không có giám sát

 Học nửa giám sát

 Phân lớp và dự đoán (classification and prediction)

 Phân cụm (clustering/segmentation)

 Luật kết hợp (association rules)

 Phân tích hồi quy (regression analysis)

 Phân tích các mẫu theo thời gian (sequential/temporal patterns)

 Mô tả khái niệm (concept description and summarization)

1.2.2. Các phương pháp chính trong khai phá dữ liệu

- Phân lớp và dự đoán:

- Phân cụm và phân đoạn:

- Luật kết hợp:

- Khai phá chuỗi theo thời gian:

- Mô tả khái niệm và tổng hợp hóa:

1.2.3. Các ứng dụng của khai phá dữ liệu

- Phân tích dữ liệu và hỗ trợ ra quyết định.

1.2.4. Các phương pháp phân loại văn bản

a. Support vector Machine (SVM)

b. K–Nearest Neighbor (kNN)

c. Naïve Bayes (NB)

d. Neural Network (NNet)

e. Linear Least Square Fit (LLSF)

f. Centroid- based vector

1.2.5. Các phương pháp tách từ tiếng Việt

1.3. CÁC CÔNG TRÌNH KHAI PHÁ VÀ XỬ LÝ DỮ LIỆU ĐÃ ĐƯỢC PHÁT

 Lựa chọn thuộc tính trong khai phá dữ liệu

 Phương pháp luật kết hợp và ứng dụng

 Ứng dụng khai phá dữ liệu để tư vấn học tập

Một số các đề tài khảo sát ý kiến đánh giá

d. Một số các dự án thực hiện lấy ý kiến người dùng khác:

1.4. SO SÁNH CÁC PHƯƠNG PHÁP KHAI PHÁ, XỬ LÝ DỮ LIỆU

SO SÁNH CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN

a. Thuật toán SVM

2. So sánh các phương pháp phân loại văn bản

3. LỰA CHỌN PHƯƠNG PHÁP PHÂN LOẠI

2.1 Định nghĩa

Tại sao phân tích và khai phá mạng xã hội?

- Mạng xã hội là phổ biến

- Mạng xã hội là kho tài nguyên tiềm năng đồ sộ

- Phân tích và khai phá mạng xã hội: tính thời sự

Mạng xã hội là phổ biến

1. Mạng xã hội xuất hiện trong nhiều lĩnh vực

-  Mạng xã hội là phổ biến

-  Mạng xã hội là kho tài nguyên tiềm năng đồ sộ

-  Phân tích và khai phá mạng xã hội: tính thời sự

1  Mạng xã hội với Big Data

-  Khái niệm mạng xã hội, mạng xã hội trực tuyến

-  Các đặc trưng cơ bản của mạng xã hội

2  Phương tiện xã hội

2  Phương tiện xã hội

-  Power-law degree distributions / the scale – free property

-  Jurij Lescovec xác nhận Microsoft Instant Messenger

-  Vai trò của các nút trong mạng xã hội

-  Đồ thị gồm 34 nút thành viên của câu lạc bộ.

-  Một số bài toán điển hình

-  Giới thiệu công cụ phân tích mạng xã hội SNAP

1  Các kiểu phân tích

-  Phân tích dựa trên liên kết và cấu trúc

2  Phân tích động và phân tích tĩnh

-  Phân tích thống kê mạng xã hội

-  Phát hiện cộng đồng trong mạng xã hội

-  Dự đoán liên kết, nút trong mạng xã hội

-  Phân tích vai trò

-  Phân loại nút trong mạng xã hội

-  Tiến hóa động mạng xã hội

-  Tính riêng tư trong mạng xã hội

-  Phân tích xung đột (adversarial), v.v.

-  Kiểm định giả thuyết thống kê về mạng xã hội

5  Phát hiện cộng đồng

-  Cộng đồng tách rời, cộng đồng giao nhau

-  Prebuilt packages available for Mac OS X, Windows, Linux http://

-  Source code available for Mac OS X, Windows, Linux

-  Gia đình, thành phần gia đình,…

-  Ngắn hạn, trung hạn, dài hạn,…

-  Hành vi/Thói quen

-  Thói quen sinh hoạt, làm việc, du lịch,…

-  Phân bố thời gian viết bài trong một tuần

-  Thứ 2-6 tiêu cực nhiều hơn

-  Thứ 7-CN thăng hoa

-  Mạng chuyên gia Linkedin

-  Follow một chiều một cá nhân trên Twitter hay Facebook