You are on page 1of 28

1.

Tại sao khai phá dữ liệu

 Bùng nổ dữ liệu và dữ liệu lớn (Big Data)


 Lý do công nghệ
 Lý do xã hội BÀI GIẢNG
 Thể hiện
 Ngành kinh tế tri thức, dữ liệu và thông tin (Infonomics)
 Kinh tế tri thức
 Phát hiện tri thức từ dữ liệu
 Nhu cầu khai phá dữ liệu tại Việt Nam

GV: ThS. Trần Châu Thanh Thiện


tctthien@ntt.edu.vn
0933.968.967

3 1

Công nghệ: Bùng nổ dữ liệu: Luật Moore Nội dung


[APEC18]
[42Year]
1. Tại sao khai phá dữ liệu?
2. Khái niệm KPDL
3. Các nguồn dữ liệu lớn trong KPDL
4. Các ứng dụng khai phá dữ liệu
 Xu thế từ Định luật Moore 5. Vấn đề chính trong KPDL
 Gordon E. Moore (1965). Cramming more components onto integrated circuits, Electronics, 6. Thống kê toán học với KPDL
38 (8), April 19, 1965. Một quan sát và dự báo
 Lượng bóng bán dẫn (giá) của mạch tích hợp tăng (rẻ) gần gấp đôi sau mỗi chu kỳ hai
năm
 Máy tính (điện thoại, v.v.) mạnh hơn, gọn hơn, giá cả phù hợp
[APEC18] APEC Policy Support Unit. APEC Regional Trends Analysis - The Digital Productivity Paradox. Asia-Pacific Economic
Cooperation Policy Support Unit, November 2018.
[42Year] https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/

4 2
Nhu cầu nắm bắt dữ liệu Bùng nổ dữ liệu: Giá thành và thể hiện

https://www.seagate.com/as/en/our-story/data-age-2025/

Nguồn: IDC Digital Universe Study, Seagate Technology, 2018


Giá tạo dữ liệu ngày càng rẻ hơn
Bùng nổ dữ liệu với tăng trưởng nhận lực CNTT  Chiều hướng giá tạo mới dữ liệu giảm dần
 0,5 xu Mỹ/1 GB vào năm 2009 giảm tới 0,02 xu Mỹ /1 GB vào năm 2020
 Dung lượng thông tin tăng 67 lần, đối tượng dữ liệu tăng 67 lần
Dung lượng tổng thể tăng
 Lực lượng nhân lực CNTT tăng 1,4 lần
 Độ dốc tăng càng cao
 Nguồn: IDC Digital Universe Study, sponsored by EMC, May 2010.
 Đã đạt 33ZB năm 2018 (năm 2011 dự kiến đạt 35 ZB vào năm 2020)
7 5

Nhu cầu thu nhận tri thức từ dữ liệu Phân bổ lượng dữ liệu theo khu vực
https://www.seagate.com/as/en/our-story/data-age-2025/

Jim Gray, chuyên gia của Microsoft, giải thưởng Turing 1998
 “Chúng ta đang ngập trong dữ liệu khoa học, dữ liệu y tế, dữ liệu nhân khẩu học, dữ liệu tài chính, và các dữ
liệu tiếp thị. Con người không có đủ thời gian để xem xét dữ liệu như vậy. Sự chú ý của con người đã trở
thành nguồn tài nguyên quý giá.
Vì vậy, chúng ta phải tìm cách tự động phân tích dữ liệu, tự động phân loại nó, tự động tóm tắt nó, tự động
phát hiện và mô tả các xu hướng trong nó, và tự động chỉ dẫn các dị thường. Rest of World
Đây là một trong những lĩnh vực năng động và thú vị nhất của cộng đồng nghiên cứu cơ sở dữ liệu. Các nhà
nghiên cứu trong lĩnh vực bao gồm thống kê, trực quan hóa, trí tuệ nhân tạo, và học máy đang đóng góp
cho lĩnh vực này. Bề rộng của lĩnh vực làm cho nó trở nên khó khăn để nắm bắt những tiến bộ phi thường
trong vài thập kỷ gần đây” [HK0106].
US
Kenneth Cukier, Asia-Pacific, including Japan, except
China
 “Thông tin từ khan hiếm tới dư dật. Điều đó mang lại lợi ích mới to lớn… tạo nên khả năng làm được nhiều
việc mà trước đây không thể thực hiện được: nhận ra các xu hướng kinh doanh, ngăn ngừa bệnh tật, chống The Europe, the Middle East, and
tội phạm … Africa EMEA
Được quản lý tốt, dữ liệu như vậy có thể được sử dụng để mở khóa các nguồn mới có giá trị kinh tế, cung
cấp những hiểu biết mới vào khoa học và tạo ra lợi ích từ quản lý”. China
http://www.economist.com/node/15557443?story_id=15557443

8 Nguồn: IDC Digital Universe Study, Seagate Technology, 2018 6


Quá trình tiến hóa dữ liệu tới trí tuệ Kinh tế tri thức

Từ dữ liệu tới trí tuệ


 Dữ liệu (data): dữ kiện không ngữ cảnh. Trình bày dữ kiện.
 Thông tin (information): dữ kiện với ngữ cảnh và khía cạnh nào đó. Dữ liệu có ý nghĩa, dữ liệu Kinh tế tri thức
trong ngữ cảnh. Hiểu được quan hệ  Tri thức là tài nguyên cơ bản
 Tri thức (knowledge): Thông tin được dung để phát hiện và hiểu được mẫu trong dữ liệu. Hiểu  Sử dụng tri thức là động lực chủ chốt cho tăng trưởng kinh tế
được mẫu Hình vẽ: Năm 2003, đóng góp của tri thức cho tăng GDP/đầu người của Hàn Quốc gấp đôi so
 Trí tuệ (wisdom): Tri thức nảy sinh khi hiểu được lý do mẫu xuất hiện trong dữ liệu. Hiểu được với đóng góp của lao động và vốn. TFP: Total Factor Productivity (The World Bank. Korea as a
nguyên lý Knowledge Economy, 2006)
 http://www.systems-thinking.org/kmgmt/kmgmt.htm

11 9

Dữ liệu lớn không ngừng gia tăng và giá trị Kinh tế dịch vụ: Từ dữ liệu tới giá trị

Kinh tế dịch vụ
 Xã hội loài người chuyển dịch từ kinh tế hàng hóa sang kinh tế dịch vụ. Lao động dịch vụ vượt
lao động nông nghiệp (2006).
 Mọi nền kinh tế là kinh tế dịch vụ.
 Đơn vị trao đổi trong kinh tế và xã hội là dịch vụ
Dịch vụ: dữ liệu & thông tin  tri thức  giá trị mới
 Khoa học: dữ liệu & thông tin  tri thức
 (i) Mỹ: tiết kiệm 300 tỷ US$ ngành y tế, (ii) Châu Âu: chỉnh phủ tiết kiệm 100 tỷ Euro  Kỹ nghệ: tri thức  dịch vụ
(giảm gian lận, sai sót, chênh lệch thuế), v.v.  Quản lý: tác động tới toàn bộ quy trình thi hành dịch vụ
[Chen14] Min Chen, Shiwen Mao, Yunhao Liu. Big Data: A Survey. MONET 19(2): 171-209, 2014. Jim Spohrer (2006). A Next Frontier in Education, Employment, Innovation, and Economic Growth, IBM
Corporation, 2006

12 10
Quá trình Khai phá dữ liệu 2. Khái niệm Khai Phá Dữ Liệu

Knowledge discovery from databases (KDD)


 Trích chọn các mẫu hoặc tri thức hấp dẫn (không tầm thường, ẩn,
chưa biết và hữu dụng tiiềm năng) từ một tập hợp lớn dữ liệu
 KDD và KPDL: tên gọi lẫn lộn? theo hai tác giả|Khai phá dữ liệu
 Data Mining là một bước trong quá trình KDD

15 13

Các bước trong quá trình KDD Quá trình KDD


 Học từ miền ứng dụng
Tri thức sẵn có liên quan và mục tiêu của ứng dụng
 Khởi tạo một tập dữ liệu đích: chọn lựa dữ liệu
Chuẩn bị dữ liệu và tiền xử lý: (huy động tới 60% công sức!)
Thu gọn và chuyển đổi dữ liệu
Tìm các đặc trưng hữu dụng, rút gọn chiều/biến, tìm các đại diện bất biến.
 Chọn lựa chức năng (hàm) KPDL
Tóm tắt, phân lớp, hồi quy, kết hợp, phân cụm.
 Chọn (các) thuật toán KPDL
Bước KPDL: tìm mẫu hấp dẫn
Đánh giá mẫu và trình diễn tri thức
Trực quan hóa, chuyển dạng, loại bỏ các mẫu dư thừa, v.v.
[FPS96] Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth (1996). From Data
 Sử dụng tri thức phát hiện được Mining to Knowledge Discovery: An Overview, Advances in Knowledge Discovery and Data
Mining 1996: 1-34
16 14
Mô hình CRISP-DM 2000 Các khái niệm liên quan
Các tên thay thế
 chiết lọc tri thức (knowledge extraction),
 phát hiện thông tin (information discovery),
 thu hoạch thông tin (information harvesting),
 khai quật/nạo vét dữ liệu (data archaeology/ dredging),
 Phân tích/xử lý mẫu/dữ liệu (data/pattern analysis/processing)
 Thông minh doanh nghiệp (business intelligence -BI)
 …
 Quy trình chuẩn tham chiếu công nghiệp KPDL
 Các pha trong mô hình quy trình CRISP-DM (Cross-Industry Standard Process for Data Phân biệt: Phải chăng mọi thứ là DM?
Mining). “Hiểu kinh doanh”: hiểu bài toán và đánh giá
 Thi hành chỉ sau khi tham chiếu kết quả với “hiểu kinh doanh”  Xử lý truy vấn suy diễn.
 CRISP-DM 2.0 SIG WORKSHOP, LONDON, 18/01/2007
Nguồn: http://crisp-dm.eu/ (13/02/2011)
 Hệ chuyên gia hoặc chương trình học máy/thống kê nhỏ
19
17

Mô hình tích hợp DM-BI [WW08] Mô hình quá trình KDD lặp

 Một mô hình cải tiến quá trình KDD


 Định hướng kinh doanh: Xác định 1-3 câu hỏi hoặc mục tiêu KDD
 Kết quả thi hành được: xác định tập kết quả thi hành được dựa trên các mô hình
được đánh giá
Chu trình phát triển tri thức thông qua khai phá dữ liệu  Lặp kiểu vòng đời phát triển phần mềm
Wang, H. and S. Wang (2008). A knowledge management approach to data mining process for (Kenneth Collier, Bernard Carey, Ellen Grusy, Curt Marjaniemi, Donald Sautter (1998). A Perspective on
business intelligence, Industrial Management & Data Systems, 2008. 108(5): 622-634. [Oha09] Data Mining, Technical Reporrt, Northern Arizona University.)
20
18
Dữ liệu có nhãn & không nhãn Định nghĩa

Khai phá dữ liệu là việc tìm kiếm tri thức (hay các
mẫu/dạng có nghĩa) trong dữ liệu.
Khai phá dữ liệu là việc trích rút hay “khai phá” tri thức từ
một lượng lớn dữ liệu.
Khái niệm Khai phá dữ liệu được nhiều người xem như
đồng nghĩa với khái niệm Khai phá tri thức từ dữ liệu
(KDD)
Instance
Unlabelled
Labelled data
data

23 21

Học có hướng dẫn: phân lớp - classification Định nghĩa

Phân lớp là một hình thức phân tích


dữ liệu phổ biến được dùng để tạo lập Một tập dữ liệu còn được gọi là các thể hiện (instances)
các mô hình mô tả các phân lớp dữ
liệu quan trọng. Mỗi instance gồm các giá trị của các thuộc tính (attibute)
Những phân tích như vậy giúp chúng tương ứng.
ta hiểu sâu hơn về dữ liệu ở một tầm
mức lớn hơn, bao quát hơn. Có 2 loại dữ liệu:
Những mô hình phân lớp  Dữ liệu có nhãn (labelled data) được dùng cho quá trình học có
(classification models/classifiers) còn
được sử dụng để dự đoán các nhãn
hướng dẫn (supervised learning)
phân lớp cho dữ liệu vào tương ứng.  Dữ liệu không có nhãn (unlabelled data) được dùng cho quá trình
Một số mô hình phân lớp: cây quyết học không có hướng dẫn (unsupervised learning)
định, SVM, .v.v.

Mô hình học có giám sát


(Nguồn: allprogrammingtutorials.com)

24 22
3. Các kiểu dữ liệu Học không hướng dẫn: luật kết hợp – association rules

 Nominal (categorization)
 Binary Khám phá mối
quan hệ giữa
 Numeric
các giá trị của
• Integer
các thuộc tính
• Real
và biểu đạt
 Interval-scaled dưới dạng luật
 String kết hợp. (Nguồn Internet)

 Date/time Banana ^ tomato  milk

27 25

Khoa học dữ liệu Học không hướng dẫn: phân cụm - clustering

Phân cụm (clustering) là


quá trình gộp dữ liệu vào
các nhóm hay các lớp mà
những dữ liệu được xếp
cùng nhóm có độ tương tự
nhau cao trong khi chúng
sẽ rất khác biệt so với
những dữ liệu được xếp
vào nhóm (hay lớp) khác.

Quá trình khoa học dữ liệu (trái) và các chuyên ngành liên quan (phải)
Lưu ý:
 Khoa học hành vi và các khoa học xã hội (nguồn cssanalytics.wordpress.com)
 Mô hình kinh doanh và tiếp thị
 Bảo mật, an ninh, pháp luật và đạo đức
28
26
Tính có giá trị Khoa học dữ liệu: các kỹ năng
Mẫu được phát hiện: phải có giá trị đối
với các dữ liệu mới theo độ chân thực
nào đấy.
Tính "có giá trị" : một độ đo tính có giá
trị (chân thực) là một hàm C ánh xạ một
biểu thức thuộc ngôn ngữ biểu diễn mẫu
L tới một không gian đo được (bộ phận
hoặc toàn bộ) MC.
Chẳng hạn, đường biên xác định mẫu
"THUNHẬP < $t“ dịch sang phải (biến
THUNHẬP nhận giá trị lớn hơn) thì độ
chân thực giảm xuống do bao gói thêm
các tình huống vay tốt lại bị đưa vào
vùng không cho vay nợ.
Nếu a*THUNHẬP + b*NỢ < 0 mẫu có
giá trị hơn.
https://www.kdnuggets.com/2019/09/core-hot-data-science-
skills.html
29
31

Tính mới và hữu dụng tiềm năng Dữ liệu và Mẫu


Tính mới: Mẫu phải là mới trong một miền xem xét nào đó, Dữ liệu (tập dữ liệu)
ít nhất là hệ thống đang được xem xét.  tập F gồm hữu hạn các trường hợp (sự
 Tính mới có thể đo được : kiện).
• sự thay đổi trong dữ liệu: so sánh giá trị hiện tại với giá trị quá khứ hoặc giá trị kỳ  KDD:phải gồm rất nhiều trường hợp
vọng
• hoặc tri thức: tri thức mới quan hệ như thế nào với các tri thức đã có. Ví dụ thầy
Mẫu
Nguyễn Đức Dũng tại Trường hè DMSS: luật kết hợp hiếm?  Trong KDD: ngôn ngữ L để biểu diễn
các tập con các sự kiện (dữ liệu) thuộc
• Tổng quát, điều này có thể được đo bằng một hàm N(E,F) hoặc là độ đo về tính
vào tập sự kiện F,
mới hoặc là độ đo kỳ vọng.
 Mẫu: biểu thức E trong ngôn ngữ L 
Hữu dụng tiềm năng: Mẫu cần có khả năng chỉ dẫn tới các tác động hữu tập con FE tương ứng các sự kiện trong
dụng và được đo bởi một hàm tiện ích. F. E được gọi là mẫu nếu nó đơn giản
 Hàm U ánh xạ các biểu thức trong L tới một không gian đo có thứ tự (bộ phận hoặc hơn so với việc liệt kê các sự kiện thuộc
toàn bộ) MU: u = U (E,F). FE .
 Ví dụ, trong tập dữ liệu vay nợ, hàm này có thể là sự tăng hy vọng theo sự tăng lãi  Chẳng hạn, biểu thức "THUNHẬP < $t"
của nhà băng (tính theo đơn vị tiền tệ) kết hợp với quy tắc quyết định được trình bày (mô hình chứa một biến THUNHẬP)
trong Hình 1.3.

32 30
KPDL và Thông minh kinh doanh Tính hiểu được, tính hấp dẫn và tri thức

Chiều tăng bản chất để Tính hiểu được: Mẫu phải hiểu được
Hỗ trợ quyết định kinh  KDD: mẫu mà con người hiểu chúng dễ dàng hơn các dữ liệu nền.
Người dùng cuối
doanh Tạo  Khó đo được một cách chính xác: "có thể hiểu được“  dễ hiểu.
quyết định  Tồn tại một số độ đo dễ hiểu:
• Sắp xếp từ cú pháp (tức là cỡ của mẫu theo bit) tới ngữ nghĩa (tức là dễ dàng để con người
Trình diễn DL Chuyên gia phân nhận thức được theo một tác động nào đó).
tích kinh doanh
Visualization Techniques • Giả định rằng tính hiểu được là đo được bằng một hàm S ánh xạ biểu thức E trong L tới một
không gian đo được có thứ tự (bộ phận /toàn bộ) MS: s = S(E,F).
KPDL Chuyên gia
Information Discovery phân tích dữ liệu Tính hấp dẫn: độ đo tổng thể về mẫu là sự kết hợp của các tiêu chí giá trị, mới,
hữu ích và dễ hiểu.
Khai thác DL (Data Exploration)  Hoặc dùng một hàm hấp dẫn: i = I (E, F, C, N, U, S) ánh xạ biểu thức trong L vào một không gian đo được
Phân tích thống kê, Truy vấn và Trả lời Quản
Mi.
trị
CSDL  Hoặc xác định độ hấp dẫn trực tiếp: thứ tự của các mẫu được phát hiện.
Kho DL(Data Warehouses) / KDL chuyên đề (Data Marts)
OLAP, MDA (DBA) Tri thức: Một mẫu E  L được gọi là tri thức nếu như đối với một lớp người sử
Nguồn dữ liệu dụng nào đó, chỉ ra được một ngưỡng i  Mi mà độ hấp dẫn I(E,F,C,N,U,S) > i.
Bài viết, Files, Nhà cung cấp thông tin, Hệ thống CSDL, OLTP
35

33

4. Ứng dụng cơ bản của KPDL Hệ thống CSDL và Hệ thống KPDL

Phân tích dữ liệu và hỗ trợ quyết định


 Phân tích và quản lý thị trường
• Tiếp thị định hướng, quản lý quan hệ khách hàng (CRM), phân tích thói quen mua
hàng, bán hàng chéo, phân đoạn thị trường
 Phân tích và quản lý rủi ro
• Dự báo, duy trì khách hàng, cải thiện bảo lãnh, kiểm soát chất lượng, phân tích
cạnh tranh
 Phát hiện gian lận và phát hiện mẫu bất thường (ngoại lai)
Ứng dụng khác
 Khai phá Text (nhóm mới, email, tài liệu) và khai phá Web
 Khai phá dữ liệu dòng
 Phân tích DNA và dữ liệu sinh học

36 34
Phát hiện gian lận và khai phá mẫu hiếm Phân tích và quản lý thị trường
Tiếp cận: Phân cụm & xây dựng mô hình gian lận, phân tích bất thường Nguồn dữ liệu có từ đâu ?
 Giao dịch thẻ tín dụng, thẻ thành viên, phiếu giảm giá, các phàn nàn
Ứng dụng: Chăm sóc sức khỏe, bán lẻ, dịch vụ thẻ tín dụng, viễn thông.
của khách hàng, các nghiên cứu phong cách sống (công cộng) bổ sung
 Bảo hiểm tự động: vòng xung đột
Tiếp thị định hướng
 Rửa tiền: giao dịch tiền tệ đáng ngờ  Tìm cụm các mô hình khách hàng cùng đặc trưng: sự quan tâm, mức thu nhập, thói quen chi
 Bảo hiểm y tế tiêu...
• Bệnh nghề nghiệp, nhóm bác sỹ, và nhóm chỉ dẫn  Xác định các mẫu mua hàng theo thời gian
• Xét nghiệm không cần thiết hoặc tương quan Phân tích thị trường chéo
 Viến thông: cuộc gọi gian lận  Quan hệ kết hợp/đồng quan hệ giữa bán hàng và dự báo dựa theo quan hệ kết hợp
• Mô hình cuộc gọi: đích cuộc gọi, độ dài, thời điểm trong ngày hoặc tuần. Phân tích mẫu Hồ sơ khách hàng
lệch một dạng chuẩn dự kiến  Kiểu của khách hàng mua sản phẩm gì (phân cụm và phân lớp)
 Công nghiệp bán lẻ Phân tích yêu cầu khách hàng
• Các nhà phân tích ước lượng rằng 38% giảm bán lẻ là do nhân viên không trung thực  Định danh các sản phẩm tốt nhất tới khách hàng (khác nhau)
 Dự báo các nhân tố sẽ thu hút khách hàng mới
 Chống khủng bố
Cung cấp thông tin tóm tắt
 Báo cáo tóm tắt đa chiều
 Thông tin tóm tắt thống kê (xu hướng trung tâm dữ liệu và biến đổi)
37
39

Ứng dụng khác Phân tích doanh nghiệp & Quản lý rủi ro

Khai phá web và khai phá phương tiện xã hội Lên kế hoạch tài chính và đánh giá tài sản
 Trợ giúp IBM áp dụng các thuật toán KPDL biên bản truy nhập Web đối với các trang  Phân tích và dự báo dòng tiền mặt
liên quan tới thị trường để khám phá ưu đãi khách hàng và các trang hành vi, phân  Phân tích yêu cầu ngẫu nhiên để đánh giá tài sản
tích tính hiệu quả của tiếp thị Web, cải thiệ cách tổ chức Website …  Phân tích lát cắt ngang và chuỗi thời gian (tỷ số tài chính, phân
tích xu hướng…)
Thể thao
Lên kế hoạch tài nguyên
 IBM Advanced Scout phân tích thống kế môn NBA (chặn bóng, hỗ trợ và lỗi) để đưa
 Tóm tắt và so sánh các nguồn lực và chi tiêu
tới lợi thế cạnh trang cho New York Knicks và Miami Heat
Cạnh tranh
Thiên văn học  Theo dõi đối thủ cạnh tranh và định hướng thị trường
 JPL và Palomar Observatory khám phá 22 chuẩn tinh (quasar) với sự trợ giúp của  Nhóm khách hàng thành các lớp và định giá dựa theo lớp khách
KPDL  Khởi tạo chiến lược giá trong thị trường cạnh tranh cao

40 38
Ngôn ngữ lập trình nền tảng 5. Vấn đề chính trong KPDLL
Phương pháp luận khai phá
 Khai phá các kiểu tri thức khác nhau từ dữ liệu hỗn tạp như sinh học, dòng, web…
 Hiệu năng: Hiệu suất, tính hiệu quả, và tính mở rộng
 Đánh giá mẫu: bài toán về tính hấp dẫn
 Kết hợp tri thức miền: ontology
 Xử lý dữ liệu nhiễu và dữ liệu không đầy đủ
 Tính song song, phân tán và phương pháp KP gia tăng
 Kết hợp các tri thức được khám phá với tri thức hiện có: tổng hợp tri thức
Tương tác người dùng
 Ngôn ngữ hỏi KPDL và khai phá “ngẫu hứng”
 Biểu diễn và trực quan kết quả KPDL
 Khai thác tương tác tri thức ở các cấp độ trừu tượng
Áp dụng và chỉ số xã hội
 KPDL đặc tả miền ứng dụng và KPDL vô hình
http://www.kdnuggets.com/2017/08/python-overtakes-r-leader-analytics-data-science.html  Bảo đảm bí mật dữ liệu, toàn vẹn và tính riêng tư

43 41

Công cụ phân tích, KHDL và học máy Một số yêu cầu ban đầu
Sơ bộ về một số yêu cầu để dự án KPDL thành công
 Cần có kỳ vọng về một lợi ích đáng kể về kết quả KPDL
 Hoặc trực tiếp nhận được “trái cây treo thấp” (“low-hanging fruit”) dễ thu lượm (như Mô hình mở rộng khách
hàng qua tiếp thị và bán hàng)
 Hoặc gián tiếp tạo ra đòn bẩy cao khi tác động vào quá trình sống còn có ảnh hưởng sóng ngầm mạnh
(Giảm các nợ khoản khó đòi từ 10% còn 9,8% có số tiền lớn).
 Cần có một đội dự án thi hành các kỹ năng theo yêu cầu: chọn dữ liệu, tích hợp dữ liệu, phân tích
mô hình hóa, lập và trình diễn báo cáo. Kết hợp tốt giữ người phân tích và người kinh doanh
 Nắm bắt và duy trì các dòng thông tin tích lũy (chẳng hạn, mô hình kết quả từ một loạt chiến dịch
tiếp thị)
 Quá trình học qua nhiều chu kỳ, cần “chạy đua với thực tiễn” (mô hình mở rộng khách hàng ban đầu
chưa phải đã tối ưu).
Một tổng hợp về các bài học KPDL thành công, thất bại
[NEM09] Robert Nisbet, John Elder, and Gary Miner (2009). Handbook of Statistical Analysis
and Data Mining, Elsevier, 2009.
https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html

44 42
Học máy với KPDL 6. Thống kê toán học với KPDL
Học máy
 Machine Learning
 Cách máy tính học (nâng cao năng lực) dựa trên dữ liệu. Nhiều điểm chung giữa KPDL với thống kê:
 Chương trình máy tính tự động học được mẫu phức tạp và ra quyết định thông minh dựa  Đặc biệt như phân tích dữ liệu thăm dò (EDA: Exploratory Data
trên dữ liệu, ví dụ, “học được chữ viết tay trên thư thông qua một tập ví dụ”.
 Học máy là lĩnh vực nghiên cứu phát triển nhanh Analysis) cũng như dự báo [Fied97, HD03].
Một số nội dung học máy với khai phá dữ liệu  Hệ thống KDD thường gắn kết với các thủ tục thống kê đặc biệt
 Nhiều nội dung đã được trình bày tại mục trước
 Học giám sát (supervised learning) đồng nghĩa với phân lớp (classification) đối với mô hình dữ liệu và nắm bắt nhiễu trong một khung cảnh
 Học không giám sát (unsupervised)  phân cụm (clustering), phát hiện tri thức tổng thể.
 Học bán giám sát (semi-supervised learning) sử dụng cả ví dụ có nhãn và ví dụ không có
nhãn  Các phương pháp KPDL dựa theo thống kê nhận được sự quan
 Học tích cực (Active learning) còn được gọi là học tương tác (interactive learning) có tương
tác với người dùng. tâm đặc biệt.
 Học tăng cường (incremental learning) mẫu đầu vào là liên tục và mô hình học phù hợp với
ví dụ cập nhật.
 Các khung học máy khác

47 45

Tìm kiếm thông tin với KPDL Thống kê toán học với KPDL
Phân biệt giữa bài toán thống kê và bài toán khai phá dữ liệu
Tìm kiếm thông tin  Kiểm định giả thiết TK: một mô hình giả thiết + tập dữ liệu quan sát được. Kiểm tra: tập dữ liệu
có phù hợp với giả thiết thống kê hay không/ giả thiết thống kê có đúng trên toàn bộ dữ liệu
 Information Retrieval. “Truy hồi thông tin”
quan sát được hay không.
 Tìm kiếm tài liệu hoặc tìm kiếm thông tin trong tài liệu theo một truy vấn. Tài  Bài toán học KPDL: Cho tập dữ liệu (mô hình chưa có). Mô hình kết quả phải phù hợp với tập
liệu: văn bản, đa phương tiện, web… toàn bộ dữ liệu -> đảm bảo các tham số mô hình không phụ thuộc vào cách chọn tập dữ liệu
 Hai giả thiết: (i) Dữ liệu tìm kiếm là không cấu trúc; (ii) Truy vấn dưới dạng học. Học KPDL đòi hỏi tập dữ liệu học/tập dữ liệu kiểm tra cần "đại diện" cho toàn bộ dữ liệu
từ khóa/cụm từ khóa mà không phải cấu trúc phức tạp trong miền ứng dụng và cần độc lập nhau. Một số trường hợp: hai tập dữ liệu này (hoặc tập dữ
liệu kiểm tra) được công bố dưới dạng chuẩn.
Tìm kiếm thông tin với KPDL  Về thuật ngữ: KPDL: biến ra/biến mục tiêu, thuật toán khai phá dữ liệu, thuộc tính/đặc trưng,
 Kết hợp mô hình tìm kiếm với kỹ thuật KPDL tìm thấy các chủ đề chính trong bản ghi... XLDLTK: biến phụ thuộc, thủ tục thống kê, biến giải thích, quan sát... Tham khảo thêm
từ Nguyễn Xuân Long
tập tài liệu, từng tài liệu … bổ sung thuộc tính dữ liệu quan trọng
 KPDL văn bản, web, phương tiện xã hội liên quan mật thiết với tìm kiếm
thông tin.

48 46
GV: ThS. Trần Châu Thanh Thiện
tctthien@ntt.edu.vn
0933.968.967

49
NỘI DUNG

1. Nghịch lý năng suất của Công nghệ Thông tin


BÀI GIẢNG
2. Dữ liệu, thông tin, tri thức
3. Khai phá dữ liệu
4. Công nghệ tri thức và kinh tế tri thức

GV: ThS. Trần Châu Thanh Thiện


tctthien@ntt.edu.vn
0933.968.967

3
1

Vai trò của CNTT CHƯƠNG 2

 Nghịch lý năng suất của CNTT


 Robert Solow, nhà kinh tế được giải thưởng Nobel, có nhận định “chúng ta nhìn thấy máy
tính ở mọi nơi ngoại trừ trong thống kê năng suất“ (1987)
 Căn cứ: Thống kê năng suất kinh tế (theo lý thuyết kinh tế cổ điển) và đầu tư CNTT
 Luận điểm của CARR CÔNG NGHỆ
 “CNTT không quan trọng”: IT does not matter !
 Nhận đinh về luận điểm của CARR TRI THỨC
 Vai trò bản chất của CNTT trong kinh tế
 Hệ thống tác nghiệp, điều hành
 Hệ thống phát hiện tri thức

4 2
Nghịch lý năng suất: mức công ty Nghịch lý năng suất của CNTT
 “Nghịch lý năng suất “: Một xung đột của kỳ vọng với thống kê
 Mối quan hệ giữa IT và năng suất: nhiều tranh luận song hiểu biết vẫn
còn rất hạn chế.
• Năng lực máy tính được đưa vào kinh tế Mỹ đã tăng hơn bậc hai về độ lớn từ
năm 1970
• Năng suất, đặc biệt trong khu vực dịch vụ có vẻ đình trệ.
 Cho một hứa hẹn khổng lồ của IT tới mở ra trong “cuộc cách mạng
A B
công nghệ lớn nhất mà loài người từng có" (Snow, 1966),
 A: Không có quan hệ giữa đầu tư CNTT/nhân viên (trục hoành) với thu hồi vốn (trục tung): • Sự vỡ mộng, thâm chí làm thất vọng với công nghệ gia tăng một cách hiển nhiên:
tỷ lệ đầu tư nhiều cũng như ít ! “Không, máy tính không làm tăng hiệu quả, ít nhất không hầu hết thời gian"
 B: Có 90,6 % số công ty giá thành CNTT lớn hơn giá thu hồi vốn: đầu tư CNTT lãng phí ? (Economist, 1990).
Thu hồi vốn chậm ?
Erik Brynjolfsson. The Productivity Paradox of Information Technology: Review and
 http://www.strassmann.com/pubs/cf/cf970603.html Assessment. Communications of the ACM, Volume 36 Issue 12, Dec. 1993 Pages 66-77
7 5

Định hướng quản lý đầu tư CNTT Nghịch lý năng suất: Nền kinh tế Mỹ

Paul A. Strassmann: chi tiêu CNTT so với các doanh nghiệp đồng hạng:
Sự không tương quan trong tăng GNP
 Hơn hay kém hơn so với mức thông thường khi có hiệu quả đo lường
được.
Chi phí cho máy
Giai đoạn Tăng GNP hàng năm
 Hơn mức thông thường khi mà hiệu quả thông tin của doanh nghiệp hơn tính (%GNP)
mức thông thường.
 Hơn mức thông thường khi mà tri thức của nhân viên hơn mức thông 1960s 0.003 4.50%
thường. 1970s 0.05 2.95%

Paul A. Strassmann (2007), Measuring and Communicating I.T. Value,


1980s 0.3 2.75%
http://www.strassmann.com/talks/one-talk.php?talk=123.
1990s 3.1 2.20%

8 6
Dữ liệu Thông tin dựa trên tri thức Phân tích nghịch lý năng suất
 E. Brynjolfsson [Bryn93]: không nghịch lý năng suất
 Lỗi đo lường từ công thức tính năng suất của kinh tế cổ điển: Biến đầu vào, biến đầu ra
và đo lường các biến này .
 Đầu tư CNTT có độ trễ phát huy năng suất 2-3 năm
 Tính phân phối lại tài nguyên thông tin “sản phẩm công cộng”: Cty này đầu tư – công
ty khác hưởng lợi
 Sai lầm trong quản lý đầu tư CNTT: Ph/pháp phân tích lỗi thời.
 Công thức tính năng suất kinh tế

11 9

Dữ liệu, thông tin, tri thức, trí tuệ 2. Dữ liệu, thông tin, tri thức

Biết quan hệ
Biết xử lý

12 10
Thông tin có giá trị (tiếp) Dữ liệu, thông tin, tri thức, trí tuệ
 Kinh tế
 Tính kinh tế liên quan tới chi phí tạo thông tin. Người ra quyết định cần cân bằng giá trị
của thông tin với chi phí tạo ra nó.
 Linh hoạt
 Thông tin được sử dụng linh hoạt cho nhiều mục đích. Ví dụ, thông tin lượng hàng tồn
kho cho người bán hàng, cho người quản lý tài chính…
 Có liên quan
 Có liên quan là quan trọng cho người ra quyết định.
 Tin cậy
 Theo sự tín nhiệm của người dùng. Tính tin cậy phụ thuộc vào tính tin cậy của phương
pháp thu thập thông tin / tính tin cậy của nguồn thông tin.
 An toàn
 Tránh được sự truy nhập trái phép.

15 13

Thông tin có giá trị (tiếp) Các đặc trưng của thông tin có giá trị

 Đơn giản  Thông tin có giá trị


 Cần đơn giản, không quá phức tạp. Thông tin phức tạp và chi tiết có thể không cần  Cho người quản lý và người ra quyết định (“quản lý” và “lãnh đạo”). Nhìn chung “chính
thiết. xác, đúng người, đúng thời điểm”
 Kịp thời  Đặc trưng: truy nhập được, chính xác, đầy đủ, kinh tế, linh hoạt, có liên quan, tin cậy, an
toàn, đơn giản, kịp thời, kiểm chứng được.
 Được cung cấp khi cần đến nó: “Biết thời tiết cuối tuần trước không giúp gì cho chọn áo
khoác mặc thứ Năm”.  Truy nhập được
 Kiểm chứng được  Người sử dụng có thẩm quyền dễ dàng nhận được, ở dạng phù hợp, đúng thời điểm
theo yêu cầu.
 Thông tin cần kiểm chứng được: kiểm tra được tính đúng đắn có thể bằng nhiều nguồn
khác nhau.  Chính xác
 Lưu ý  Chính xác là không bị lỗi. Trong nhiều trường hợp, thông tin không chính xác do dữ liệu
không chính xác trong quá trình chuyển đổi (được gọi là “nhập rác, xuất rác”: garbage
 Độ quan trọng các đặc trưng tùy thuộc vào kiểu dữ liệu cần đến: (i) Với dữ liệu thông
in, garbage out: GIGO).
minh thị trường: tính kịp thời > tính chính xác / tính đầy đủ (chẳng hạn, các đối thủ cạnh
tranh có thể tạo ra giảm giá lớn…); (ii) tính chính xác, đầy đủ và kiểm chứng được là  Đầy đủ
quan trọng  Thông tin cần bao gồm các yếu tố quan trọng. Phản ví dụ: Một báo cáo đầu tư không
nói về chi phí quan trọng.

16 14
Dữ liệu lớn (Big data) Dữ liệu thế kỷ 21 Dầu mỏ thế kỷ 20
 Đặt vấn đề
 Vũ trụ số: chứa dữ liệu về mọi thứ, mọi lúc, mọi nơi  “biết” được mọi
thứ
 Tiềm ẩn thông tin hữu ích cho các tổ chức  dữ liệu lớn
 Khái niệm  Một vài đối sánh
 Dữ liệu lớn là một tập dữ liệu có các đặc trưng đặc biệt, được xử lý  Đều là động lực tăng trưởng và trao đổi
(lưu trữ, tính toán, chuyển dạng) và phân tích (tìm các mẫu liên quan  Dầu mỏ và dữ liệu: “nhồi vào ống dẫn”
 Nhà máy lọc dầu: dầu thô (nhiệt) xăng, nhớt, thành phần khác
mới lạ hữu dụng từ dữ liệu) bằng các quy trình hoặc công cụ đặc  Trung tâm dữ liệu: dữ liệu thô (hàng nghìn máy tính ) mẫu có giá trị, dự
biệt nhằm nhận được thông tin hỗ trợ ra quyết định hoặc đánh giá báo, và hiểu biết sâu sắc mới.
Đều tạo nguyên liệu thô quan trọng  nền kinh tế thế giới
có giá trị  Hệ thống thực ảo cho sản xuất
 Được mô tả qua các đặc trưng đặc biệt thường là nV  Dữ liệu lớn biết rất nhiều về mỗi con người, mọi thứ, v.v.
 3V  5V  8V, 14V, 42V https://www.economist.com/news/briefing/21721634-how-it-shaping-up-data-giving-rise-new-economy:
Fuel of the future - Data is giving rise to a new economy
19 17

Đặc trưng 5V của dữ liệu lớn Tăng trưởng dữ liệu

 Dự báo IDC
 2020: Vũ trụ dữ liệu 35 zettabytes (“35” và 21 chữ số “0”, dự báo 2011)  44
zettabytes (dự báo 2014); 2025: 180 zettabytes.
 Bơm qua Internet băng thông rộng mất 450 triệu năm!
 Amazon: vì mục đích tính toán đám mây, dùng thùng chứa 100 petabytes
 2016: Amazon, Alphabet và Microsoft đạt gần 32 tỷ US$ chi tiêu và hợp đồng

20 18
Đặc trưng 8V, 10V Đặc trưng 5V: chi tiết
 10V: #1: Volume, #2: Velocity, #3: Variety, #4: Variability, #5: Veracity, #6:
Validity, #7: Vulnerability, #8: Volatility, #9: Visualization, #10: Value  Dung lượng lớn (Volume)
 Cỡ Texabytes (1012Bytes)
 Kích thước lớn tiềm ẩn thông tin giá trị
 Tốc độ cao (Velocity)
 Tốc độ cao: tốc độ phát sinh, tốc độ chuyển động
 Thời gian thực hoặc tựa thời gian thực
 Tốc độ cao  tính kịp thời
 Ví dụ: phát hiện gian lận giao dịch cần với tốc độ mili-giây, dữ liệu cần
cập nhật tốc độ cao
 Đa dạng (Variety)
 Có/không cấu trúc (văn bản, hình ảnh, video, dữ liệu cảm biến, v.v.),
đa yếu tố, có tính xác suất
 Đa dạng  khung nhìn đa chiều (chính xác hơn) về sự vật/hiện tượng

23 21

Đặc trưng nV Đặc trưng 5V: chi tiết (2)


 https://www.elderresearch.com/blog/42-v-of-big-data
 Hfujita-799@acm.org  Xác thực được (Veracity)
 Được xác thực theo độ tin cậy, quy trình, xuất xứ, uy tín, tính khả dụng
và được giải trình
 Thông tin giá trị từ nguồn tin cậy, được xác thực
 Có giá trị (Value)
 Đặc trưng giá trị là quan trọng nhất
 Mục tiêu phân tích dữ liệu lớn (mục tiêu kinh doanh) dẫn dắt hoạt động
xây dựng/phân tích dữ liệu lớn
 Hiểu biết thực sự về chi phí và lợi ích
 Dữ liệu lớn chỉ bao gồm các dữ liệu liên quan
 Tránh hiện tượng “dữ liệu lớn” theo phong trào

24 22
Trình độ hiểu dữ liệu cho kiếm tiền dữ liệu Nguồn dữ liệu cho Big data

Andrea Ahlemeyer-Stubbe, Shirley Coleman. Monetising Data: How to Uplift Your Business. Wiley, 2018. Andrea Ahlemeyer-Stubbe, Shirley Coleman. Monetising Data: How to Uplift Your Business. Wiley, 2018.

27 25

Thông tin: Một tài sản thực sự? Khảo sát lợi ích từ dữ liệu và “kiếm tiền dữ liệu”

 Không
 Không nằm trong bảng cân đối kế toán.
 Không thể giải thích vì nó vô hình.
 Không thực sự tiêu hao như các tài sản khác.

 Có
 Có thể có giá trị trao đổi.
 Có thể tạo ra một giá trị kinh tế tích cực.
 Có thể đếm / đo được, nhưng theo cách nào?

http://mitiq.mit.edu/IQIS/Documents/CDOIQS_201177/Papers/05_01_7A-1_Laney.pdf
Andrea Ahlemeyer-Stubbe, Shirley Coleman. Monetising Data: How to Uplift Your Business. Wiley, 2018.
28 26
Kinh tế học thông tin và Quản lý thông tin doanh nghiệp Vòng đời tài sản
Bán Cho vay Chia sẻ
 Infonomis Chi tiêu Buôn bán Áp dụng
 Information economis Tiêu thu tài sản (hiện
 Vấn đề quản lý thực giá trị) T V C T
À Â O B H
 Vấn đề đo lường .
T N Í Ô
 Vấn đề tiền hóa I N
 Quản lý TT doanh nghiệp C Q G
Danh mục tài sản C N
 Tầm nhìn H U
doanh nghiệp H G Y
 Chiến lược Í
Ấ Ư Ế T
 Đo lường và độ đo
. N Ờ T I
 Quản trị T
Quản lý tài sản (gia H I N
 Con người
 Quy trình tăng giá trị) Thu thập Chuẩn bị Kết hợp Tinh chế
 Cơ sở hạ tầng Sản xuất Kiểm kê Định vị Bảo vệ
Tổ chức Phân phối Quản trị Giám sát
31 29
http://mitiq.mit.edu/IQIS/Documents/CDOIQS_201177/Papers/05_01_7A-1_Laney.pdf

Các yếu tố ảnh hưởng lợi ích của tài sản thông tin và cuối cùng là giá trị kinh tế
3. Khai phá dữ liệu
 Khách quan  Chủ quan
Nội dung cơ bản của KDD và DM Xác thực: Dữ liệu thể hiện chính Liên quan: Dữ liệu được áp dụng
xác hoặc nguồn xác minh. cho một hoặc nhiều quy trình hoặc
 Khai phá dữ liệu và phát hiện tri thức trong CSDL là bài toán “kinh Toàn vẹn: Các liên kết và mối quan quyết định kinh doanh.
doanh”, bài toán “chiến lược” mà không phải là bài toán công hệ thích hợp tồn tại giữa các dữ liệu. Hữu dụng: Quá trình kinh doanh
Nhất quán: Mỗi loại dữ liệu có một và/hoặc cá nhân có thể hiểu và tận
nghệ. dụng dữ liệu này.
biểu diễn duy nhất
Hoàn thiện: Hồ sơ không phải là Tin cậy: Dữ liệu được xem là đáng
Khi nào nên khai phá dữ liệu lĩnh vực thiếu. Bộ dữ liệu không bị tin cậy bởi những người sử dụng nó
 Ví dụ: Chương 3 sách Data Mining: Methods and Tools, 1998. thiếu các cá thể. Tinh khiết: Dữ liệu có ý nghĩa độc
Khả năng tiếp cận: Dữ liệu được đáo và dễ thấu hiểu.
thu thập và / hoặc tích hợp dễ dàng Khách quan: Dữ liệu không thiên vị
vào quy trình kinh doanh. và vô tư, không phụ thuộc vào phán
Chính xác: Dữ liệu được ghi với độ đoán, diễn giải hoặc đánh giá cá
chính xác yêu cầu của doanh nghiệp. nhân.
Kịp thời: Dữ liệu được cập nhật với Khó khăn: Dữ liệu là độc quyền,
tần suất đủ để đáp ứng các yêu cầu được bảo vệ và khó lấy với người
kinh doanh. không thẩm quyền.

32 30
Bài toán phát hiẹn tri thức 32
Chuẩn công nghiệp khai phá dữ liệu CRISP-DM Tiếp cận truyền thống và tiếp cận KPDL
• Hiểu kinh doanh (Business understanding)
 Tập trung vào hiểu biết mục tiêu/yêu cầu từ góc độ kinh doanh Tiếp cận truyền thống
 Chuyển đổi tri thức này thành
 một định nghĩa bài toán khai phá dữ liệu  Từ lý thuyết (hệ toán mệnh đề)  phát triển các giả thuyết  kiểm định (chứng
 một kế hoạch sơ bộ được thiết kế đạt được các mục tiêu. minh) giả thuyết. Ngô Bảo Châu: Bổ đề cơ bản
• Hiểu dữ liệu (Data understanding) Tiếp cận khai phá dữ liệu
 Với một tập dữ liệu ban đầu: tiến hành hoạt động “làm quen” dữ liệu, xác định các vấn
đề chất lượng dữ liệu,  Từ dữ liệu  phát hiện quan hệ  phát triển giả thuyết  Xây dựng mô hình và
 Tri thức kinh doanh từ giai đoạn hiểu kinh doanh định hướng hiểu dữ liệu  phân tích kiểm định giả thuyết  Đánh giá mô hình  Sử dụng mô hình.
dữ liệu để hiểu dữ liệu có thể phản hồi, phối hợp với nội dung hiểu kinh doanh  làm rõ
bài toán khai phá dữ liệu, mục tiêu và kế hoạch thực hiện.
• Chuẩn bị dữ liệu (Data preparation)
 Các hoạt động nhằm xây dựng các tập dữ liệu cuối làm đầu vào cho công cụ mô hình
hóa.
 Gồm các hoạt động lập bảng, ghi lại và lựa chọn thuộc tính cũng như chuyển đổi, và làm
sạch dữ liệu cho các công cụ mô hình hóa.

35 33

Chuẩn công nghiệp khai phá dữ liệu CRISP-DM Chuẩn công nghiệp khai phá dữ liệu CRISP-DM

 Các pha trong mô hình quy trình CRISP-DM (Cross-Industry Standard


• Mô hình hóa (Modeling) Process for Data Mining). “Hiểu kinh doanh”: hiểu bài toán và đánh giá
 Các kỹ thuật mô hình khác nhau được lựa chọn và áp dụng.
 Xác định tham số mô hình nhằm đạt tới giá trị tối ưu.  Thi hành chỉ sau khi tham chiếu kết quả với “hiểu kinh doanh”
 Một số kỹ thuật được sử dụng thực hiện lặp một số lần mô hình  CRISP-DM 2.0 SIG WORKSHOP, LONDON, 18/01/2007
hóa và chuẩn bị dữ liệu nhằm đạt được mô hình có kết quả tối ưu.  Nguồn: http://www.crisp-dm.org/Process/index.htm
• Đánh giá (Evaluation)
 Tìm ra (một số) mô hình kết quả với mục tiêu chất lượng cao theo
góc độ phân tích dữ liệu.
 Đánh giá mô hình kết quả kỹ lưỡng và xem xét các bước đã được
thực hiện để xây dựng mô hình  niềm tin chắc chắn rằng mô hình
kết quả đạt được các mục tiêu kinh doanh theo đúng cách thức.

36 34
Một mô hình KPDL hướng BI Một mô hình khai phá dữ liệu DN’00
 Mô hình phát triển tri thức hướng thông minh doanh nghiệp, 2009
 Một mô hình KDD năm 2000

39 37

Tương tác người-máy trong KPDL’10 Mô hình KPDL và mô hình kinh doanh’08

 Mô hình quá trình C-KDD

Wang, H. and S. Wang (2008). A knowledge management approach to data mining process for business intelligence,
Industrial Management & Data Systems, 2008.

40 38
Mô hình KPDL hướng ứng dụng Mô hình KPDL hướng ứng dụng
P6. Phân tích và đánh giá kết quả chung ban đầu (phân tích /đánh giá các phát hiện ban
đầu);  Mô hình quá trình khai phá dữ liệu hướng miền ứng dụng [CYZ10]
P7. Là hoàn toàn hợp lý khi mỗi giai đoạn từ P1 có thể được lặp đi lặp lại thông qua phân
tích ràng buộc và tương tác với các chuyên gia miền ứng dụng theo phương thức quay
lui và xem xét;
P07. Khai phá chuyên sâu về kết quả chung ban đầu khi áp dụng;
P8. Đo lường và nâng cao khả năng hành động (đánh giá tính thú vị theo quan điểm cả về
kỹ thuật và kinh doanh, và tăng cường hiệu suất bằng cách áp dụng phương pháp hiệu
quả hơn).
P9. Thực hiện qua lại giữa P7 và P8;
P10. Hậu xử lý kết quả (hậu phân tích hoặc hậu khai phá dữ liệu các kết quả ban đầu);
P11. Xem xét lại các giai đoạn từ P1 có thể được đòi hỏi;
P12. Triển khai (triển khai các kết quả vào các ngành kinh doanh);
P13. Cung cấp tri thức và báo cáo tổng hợp để ra quyết định thông minh (tổng hợp phát
hiện cuối cùng thành báo cáo ra quyết định sẽ được chuyển giao cho người kinh doanh).

43 41

12 bước đưa TTNT vào hoạt động CNTT Mô hình KPDL hướng ứng dụng
P1. Hiểu vấn đề (định danh và xác định các vấn đề, bao gồm cả phạm vi của nó và
những thách thức ...);
P2. Phân tích ràng buộc (định danh ràng buộc xung quanh các vấn đề ở trên, từ dữ
liệu, miền ứng dụng, tính thú vị và cách phân bố);
P3. Định nghĩa các mục tiêu phân tích, và xây dựng đặc trưng (định nghĩa mục tiêu
khai phá dữ liệu, và các đặc trưng được lựa chọn phù hợp hoặc xây dựng để đạt
được các mục tiêu);
P4. Tiền xử lý dữ liệu (trích chọn, chuyển đổi và tải dữ liệu, nói riêng, chuẩn bị dữ liệu
chẳng hạn như xử lý dữ liệu mất tích và riêng tư); hoặc
P5. Lựa chọn phương pháp và mô hình hóa (lựa chọn được các mô hình và phương
pháp thích hợp để đạt được các mục tiêu trên);
P05. Mô hình hóa chuyên sâu (áp dụng mô hình hóa chuyên sâu bằng cách sử dụng
nhiều mô hình hiệu quả tiết lộ cốt lõi của vấn đề, hoặc dụng khai phá đa bước, khai
phá kết hợp);

https://www.gartner.com/ngw/eventassets/en/conferences/sym28/documents/gartner-symposium-us-cio-guide-
ai-2018.pdf

44 42
Khía cạnh kinh tế của tri thức tổ chức 4. Từ tri thức tổ chức tới kinh tế tri thức
 Tri thức
 Tổ chức là một thực thể tích hợp tri thức  Khái niệm
 Môi trường văn hóa tổ chức và tính chất chuyên môn trình độ cao liên quan tới ngành Từ điển Compact Oxford English Dictionary
nghề tạo nên một cộng đồng đơn nhất tổ chức thực hiện thu nhận và chuyển giao tri – sự hiểu biết tinh thông cùng với các kỹ năng mà con người thu nhận được
thức hướng tới mục tiêu tốt nhất hoặc hiệu quả nhất cho tổ chức. qua kinh nghiệm hoặc giáo dục
– tổng hợp những gì mà con người biết rõ
 Tổ chức là một thực thể sáng tạo tri thức
– nhận thức và hiểu biết tường minh về một sự việc hoặc một hiện tượng mà
 Một tập hợp mạng quan hệ trong tổ chức tạo điều kiện thuận lợi cho trao đổi và phát
thu nhận được nhờ kinh nghiệm
triển tri thức tổ chức. Vào năm 2000, Giám đốc điều hành tập đoàn HP Lew Platt lúc đó
Nội dung khái niệm còn phụ thuộc vào từng lĩnh vực:
đưa ra nhận định "Nếu HP biết được những điều HP biết thì lợi nhuận của chúng tôi sẽ
 Ở đây: Compact Oxford English Dictionary
gấp ba lần" Nguyên văn, “If HP knew what HP knows, we would be three times
 Khai phá dữ liệu: mẫu có độ hấp dẫn vượt qua ngưỡng
profitable”.
 Hình thức thu nhân tri thức: giáo dục, kinh nghiệm qua hoạt động thực tiễn
 Tổ chức là thực thể bảo vệ tri thức
 Một mặt, tổ chức tạo điều kiện thuận lợi cho trao đổi và phát triển tri thức nội bộ, mặt
khác, tổ chức cần có cơ chế bảo vệ tri thức tổ chức của mình. http://dantri.com.vn/giao-duc-khuyen-hoc/giam-doc-dh-qghn-thoi-dai-moi-sinh-vien-phai-tich-luy-cho-minh-cai-bat-bien-
201709180717191.htm

47 45

Cơ bản về công nghệ tri thức Tri thức: Một phân loại
 tri thức hiện – tri thức ẩn (Explicit knowledge – Tacit knowledge), tri thức chủ quan – tri
 Khái niệm công nghệ tri thức thức khách quan (Objective knowledge – Subjective knowledge), tri thức biết – tri thức
hành động (Knowing that – Knowing how). Ví dụ tri thức ẩn  tri thức hiện: ngành
 Công nghệ tri thức là một quá trình bao gồm thu nhận và biểu diễn tri thức, và xây
CNPM
dựng cơ chế suy luận và giải thích.  "know what“: tri thức về sự vật, sự kiện, hiện tượng
 Bốn bước thi hành  "know why“: tri thức về thế giới, xã hội và trí tuệ con người,
 "know who“: tri thức về ai và họ làm được gì,
 thu nhận tri thức, biểu diễn tri thức, xây dựng một cơ chế suy luận, và thiết kế các  "know how“: tri thức về kỹ năng và kinh nghiệm thực tiễn.
công cụ giải thích.  "know where“, "know when“: tri thức quan trọng cho một nền kinh tế mềm dẻo và động,
 Metaknowledge “siêu tri thức”
 Metaknowledge: tri thức về tri thức. Một số ví dụ: làm thế nào sử dụng tri thức trong
tình huống cụ thể, làm thế nào xác định tri thức có liên quan, và khi nào tri thức là
chưa đầy đủ.
 So sánh với metadata (dữ liệu về dữ liệu): dữ liệu mô tả file
 Metaknowledge: YKYN (you know that you know), DKYK, YKDK, DKDK (don’t know
that you don’t know)

48 46
Vòng đời tri thức thức trong tổ chức Cơ bản về công nghệ tri thức
 CKC - Codified Knowledge Claim: Yêu cầu tri thức hệ thống hóa
 UKC - Unvalidated Knowledge Claim: Yêu cầu tri thức không hợp lệ  Một số khái niệm
 VKC - Validated Knowledge Claim: Yêu cầu tri thức hợp lệ
 Thu nhận tri thức là việc khai thác tri thức từ nguồn (chuyên gia) đã văn bản hóa và
 IK - Invalidated Knowledge: Tri thức hết hiệu lực
 IKC - Invalidated Knowledge Claim: Yêu cầu tri thức hết hiệu lực
chưa văn bản hóa và chuyển nó vào máy tính. Sử dụng 3 kỹ thuật: quy nạp, lập luận
 OK - Organizational Knowledge: Tri thức của tổ chức dựa trên trường hợp, tính toán neuron.
 Biểu diễn tri thức liên quan đến việc tổ chức các tri thức trong các cơ sở tri thức.
 Tri thức văn bản hóa có trong sách vở, đĩa máy tính, báo cáo, phim… Tri thức không
văn bản hóa có trong tâm trí con người. Tri thức văn bản hóa là mục tiêu (dù có thể
được diễn giải một cách chủ quan)
 Một số nguồn tri thức
 Chuyên gia, sách hướng dẫn, phim ảnh, sách, cơ sở dữ liệu, tập tin văn bản, hình
ảnh, băng hình, cảm biến, và các bức ảnh chụp.

51 49
Bài toán phát hiẹn tri thức 49

Chuyển đổi meta-knowledge Quản lý tri thức trong tổ chức


 Hầu hết kỹ thuật khai phá dữ liệu chuyển hóa DKYK  YKYK.  Tri thức tiến hóa qua bốn giai đoạn theo thời gian: khởi tạo, huy động, lan truyền (phổ
biến), sản phẩm hóa (trở thành sản phẩm)
 Cựu giám đốc điều hành HP, Lew Platt đã từng nói, “Chỉ cần HP biết được những gì mà
HP biết, chúng tôi sẽ có hiệu quả gấp ba lần“. ”If only HP knew what HP knows, we'd be  Khi tri thức truy cập được càng nhiều người hơn - đầu tiên nội tại tổ chức, sau đó tới
three times more productive”. nhiều tổ chức, và cuối cùng cho công chúng nói chung - các công ty phải có chiến lược
sử dụng khác nhau nhận được giá trị lớn nhất của nó.

52 50
Kinh tế tri thức: đặc trưng Hàm quản lý tri thức

Bốn cột trụ của một nền kinh tế tri thức


 Một thiết chế xã hội pháp quyền và khuyến khích kinh tế (An economic
incentive and institutional regime)
Cột trụ này bao gồm các chính sách và thể chế kinh tế tốt, khuyến khích phân phối
hiệu quả tài nguyên, kích thích cách tân và thúc đẩy phát kiến, phổ biến và sử dụng
các tri thức đang có.
 Một lực lượng lao động được giáo dục và lành nghề (An educated and
skilled labor force)
Cột trụ này bao gồm các yếu tố về năng lực tri thức của nguồn nhân lực trong nền
kinh tế. Các thông số về giáo dục và sáng tạo được lựa chọn nhằm thể hiện tiềm
năng nói trên. Xã hội học tập và hoạt động học tập suốt đời cũng là các yếu tố đảm
bảo tăng cường tiềm năng tri thức của nền kinh tế.

Hiệu quả của tổ chức là một hàm theo các hoạt động quản lý tri thức

55 53

Kinh tế tri thức: đặc trưng Kinh tế tri thức

Bốn cột trụ của một nền kinh tế tri thức Khái niệm
 Một hệ thống cách tân hướng tri thức hiệu quả (a effective innovation system)
Knowledge Economy/Knowledge-Based Economy
Nền kinh tế tri thức cần là một nền kinh tế cách tân hiệu quả của các tập đoàn, trung tâm
nghiên cứu, trường đại học, các chuyên gia và các tổ chức khác , trong đó, tri thức khi mà đã Nền kinh tế mà việc sử dụng tri thức là động lực chủ chốt
trở nên lỗi thời - lạc hậu cần liên tục được thay thế bằng tri thức mới - tiến bộ phù hợp với trình cho tăng trưởng kinh tế. Trong nền kinh tế tri thức, tri thức
độ phát triển của nền kinh tế tri thức. Trong nền kinh tế tri thức, hoạt động không ngừng cách được yêu cầu, được phát sinh, được phổ biến và được vận
tân tri thức, phát huy sáng kiến mang tính xã hội. dụng một cách hiệu quả cho tăng trưởng kinh tế.
 Một hạ tầng thông tin hiện đại và đầy đủ (a modern and adequate information
infrastructure) là phương tiện hiệu quả để truyền thông, phổ biến và xử lý thông tin Nền kinh tế mà các yếu tố then chốt cho sự phát triển là tri
và tri thức thức, năng lực trí tuệ, một thiết chế xã hội cho một hạ tầng
Hạ tầng thông tin hiện đại và đầy đủ đảm bảo hoạt động thu nhận, cách tân tri thức cũng như thông tin hữu hiệu và truy nhập được.
để đảm bảo xã hội học tập và hoạt động học tập suốt đời.

56 54
Kinh tế tri thức: đo lường

Các bài toán cần giải quyết


Đo lường tri thức của đầu vào.
Đo lường kho tri thức và tri thức trong kho.
Đo lường tri thức của đầu ra
Đo lường mạng tri thức
Đo lường tri thức thông qua học tập
Yogesh Malhotra [Mal03] trình bày hệ thống về mô hình đánh giá kinh tế tri thức của một
quốc gia.
- phân tích nội dung, điểm mạnh và điểm hạn chế của một số hệ thống đánh giá điển
hình.
- đề xuất một mô hình đánh giá kinh tế tri thức của một quốc gia
- hệ thống đo lường kinh tế tri thức phổ biến: có KAM của WB

57

GV: ThS. Trần Châu Thanh Thiện


tctthien@ntt.edu.vn
0933.968.967

58

You might also like