Professional Documents
Culture Documents
C1 C2
C1 C2
3 1
4 2
Nhu cầu nắm bắt dữ liệu Bùng nổ dữ liệu: Giá thành và thể hiện
https://www.seagate.com/as/en/our-story/data-age-2025/
Nhu cầu thu nhận tri thức từ dữ liệu Phân bổ lượng dữ liệu theo khu vực
https://www.seagate.com/as/en/our-story/data-age-2025/
Jim Gray, chuyên gia của Microsoft, giải thưởng Turing 1998
“Chúng ta đang ngập trong dữ liệu khoa học, dữ liệu y tế, dữ liệu nhân khẩu học, dữ liệu tài chính, và các dữ
liệu tiếp thị. Con người không có đủ thời gian để xem xét dữ liệu như vậy. Sự chú ý của con người đã trở
thành nguồn tài nguyên quý giá.
Vì vậy, chúng ta phải tìm cách tự động phân tích dữ liệu, tự động phân loại nó, tự động tóm tắt nó, tự động
phát hiện và mô tả các xu hướng trong nó, và tự động chỉ dẫn các dị thường. Rest of World
Đây là một trong những lĩnh vực năng động và thú vị nhất của cộng đồng nghiên cứu cơ sở dữ liệu. Các nhà
nghiên cứu trong lĩnh vực bao gồm thống kê, trực quan hóa, trí tuệ nhân tạo, và học máy đang đóng góp
cho lĩnh vực này. Bề rộng của lĩnh vực làm cho nó trở nên khó khăn để nắm bắt những tiến bộ phi thường
trong vài thập kỷ gần đây” [HK0106].
US
Kenneth Cukier, Asia-Pacific, including Japan, except
China
“Thông tin từ khan hiếm tới dư dật. Điều đó mang lại lợi ích mới to lớn… tạo nên khả năng làm được nhiều
việc mà trước đây không thể thực hiện được: nhận ra các xu hướng kinh doanh, ngăn ngừa bệnh tật, chống The Europe, the Middle East, and
tội phạm … Africa EMEA
Được quản lý tốt, dữ liệu như vậy có thể được sử dụng để mở khóa các nguồn mới có giá trị kinh tế, cung
cấp những hiểu biết mới vào khoa học và tạo ra lợi ích từ quản lý”. China
http://www.economist.com/node/15557443?story_id=15557443
11 9
Dữ liệu lớn không ngừng gia tăng và giá trị Kinh tế dịch vụ: Từ dữ liệu tới giá trị
Kinh tế dịch vụ
Xã hội loài người chuyển dịch từ kinh tế hàng hóa sang kinh tế dịch vụ. Lao động dịch vụ vượt
lao động nông nghiệp (2006).
Mọi nền kinh tế là kinh tế dịch vụ.
Đơn vị trao đổi trong kinh tế và xã hội là dịch vụ
Dịch vụ: dữ liệu & thông tin tri thức giá trị mới
Khoa học: dữ liệu & thông tin tri thức
(i) Mỹ: tiết kiệm 300 tỷ US$ ngành y tế, (ii) Châu Âu: chỉnh phủ tiết kiệm 100 tỷ Euro Kỹ nghệ: tri thức dịch vụ
(giảm gian lận, sai sót, chênh lệch thuế), v.v. Quản lý: tác động tới toàn bộ quy trình thi hành dịch vụ
[Chen14] Min Chen, Shiwen Mao, Yunhao Liu. Big Data: A Survey. MONET 19(2): 171-209, 2014. Jim Spohrer (2006). A Next Frontier in Education, Employment, Innovation, and Economic Growth, IBM
Corporation, 2006
12 10
Quá trình Khai phá dữ liệu 2. Khái niệm Khai Phá Dữ Liệu
15 13
Mô hình tích hợp DM-BI [WW08] Mô hình quá trình KDD lặp
Khai phá dữ liệu là việc tìm kiếm tri thức (hay các
mẫu/dạng có nghĩa) trong dữ liệu.
Khai phá dữ liệu là việc trích rút hay “khai phá” tri thức từ
một lượng lớn dữ liệu.
Khái niệm Khai phá dữ liệu được nhiều người xem như
đồng nghĩa với khái niệm Khai phá tri thức từ dữ liệu
(KDD)
Instance
Unlabelled
Labelled data
data
23 21
24 22
3. Các kiểu dữ liệu Học không hướng dẫn: luật kết hợp – association rules
Nominal (categorization)
Binary Khám phá mối
quan hệ giữa
Numeric
các giá trị của
• Integer
các thuộc tính
• Real
và biểu đạt
Interval-scaled dưới dạng luật
String kết hợp. (Nguồn Internet)
27 25
Khoa học dữ liệu Học không hướng dẫn: phân cụm - clustering
Quá trình khoa học dữ liệu (trái) và các chuyên ngành liên quan (phải)
Lưu ý:
Khoa học hành vi và các khoa học xã hội (nguồn cssanalytics.wordpress.com)
Mô hình kinh doanh và tiếp thị
Bảo mật, an ninh, pháp luật và đạo đức
28
26
Tính có giá trị Khoa học dữ liệu: các kỹ năng
Mẫu được phát hiện: phải có giá trị đối
với các dữ liệu mới theo độ chân thực
nào đấy.
Tính "có giá trị" : một độ đo tính có giá
trị (chân thực) là một hàm C ánh xạ một
biểu thức thuộc ngôn ngữ biểu diễn mẫu
L tới một không gian đo được (bộ phận
hoặc toàn bộ) MC.
Chẳng hạn, đường biên xác định mẫu
"THUNHẬP < $t“ dịch sang phải (biến
THUNHẬP nhận giá trị lớn hơn) thì độ
chân thực giảm xuống do bao gói thêm
các tình huống vay tốt lại bị đưa vào
vùng không cho vay nợ.
Nếu a*THUNHẬP + b*NỢ < 0 mẫu có
giá trị hơn.
https://www.kdnuggets.com/2019/09/core-hot-data-science-
skills.html
29
31
32 30
KPDL và Thông minh kinh doanh Tính hiểu được, tính hấp dẫn và tri thức
Chiều tăng bản chất để Tính hiểu được: Mẫu phải hiểu được
Hỗ trợ quyết định kinh KDD: mẫu mà con người hiểu chúng dễ dàng hơn các dữ liệu nền.
Người dùng cuối
doanh Tạo Khó đo được một cách chính xác: "có thể hiểu được“ dễ hiểu.
quyết định Tồn tại một số độ đo dễ hiểu:
• Sắp xếp từ cú pháp (tức là cỡ của mẫu theo bit) tới ngữ nghĩa (tức là dễ dàng để con người
Trình diễn DL Chuyên gia phân nhận thức được theo một tác động nào đó).
tích kinh doanh
Visualization Techniques • Giả định rằng tính hiểu được là đo được bằng một hàm S ánh xạ biểu thức E trong L tới một
không gian đo được có thứ tự (bộ phận /toàn bộ) MS: s = S(E,F).
KPDL Chuyên gia
Information Discovery phân tích dữ liệu Tính hấp dẫn: độ đo tổng thể về mẫu là sự kết hợp của các tiêu chí giá trị, mới,
hữu ích và dễ hiểu.
Khai thác DL (Data Exploration) Hoặc dùng một hàm hấp dẫn: i = I (E, F, C, N, U, S) ánh xạ biểu thức trong L vào một không gian đo được
Phân tích thống kê, Truy vấn và Trả lời Quản
Mi.
trị
CSDL Hoặc xác định độ hấp dẫn trực tiếp: thứ tự của các mẫu được phát hiện.
Kho DL(Data Warehouses) / KDL chuyên đề (Data Marts)
OLAP, MDA (DBA) Tri thức: Một mẫu E L được gọi là tri thức nếu như đối với một lớp người sử
Nguồn dữ liệu dụng nào đó, chỉ ra được một ngưỡng i Mi mà độ hấp dẫn I(E,F,C,N,U,S) > i.
Bài viết, Files, Nhà cung cấp thông tin, Hệ thống CSDL, OLTP
35
33
36 34
Phát hiện gian lận và khai phá mẫu hiếm Phân tích và quản lý thị trường
Tiếp cận: Phân cụm & xây dựng mô hình gian lận, phân tích bất thường Nguồn dữ liệu có từ đâu ?
Giao dịch thẻ tín dụng, thẻ thành viên, phiếu giảm giá, các phàn nàn
Ứng dụng: Chăm sóc sức khỏe, bán lẻ, dịch vụ thẻ tín dụng, viễn thông.
của khách hàng, các nghiên cứu phong cách sống (công cộng) bổ sung
Bảo hiểm tự động: vòng xung đột
Tiếp thị định hướng
Rửa tiền: giao dịch tiền tệ đáng ngờ Tìm cụm các mô hình khách hàng cùng đặc trưng: sự quan tâm, mức thu nhập, thói quen chi
Bảo hiểm y tế tiêu...
• Bệnh nghề nghiệp, nhóm bác sỹ, và nhóm chỉ dẫn Xác định các mẫu mua hàng theo thời gian
• Xét nghiệm không cần thiết hoặc tương quan Phân tích thị trường chéo
Viến thông: cuộc gọi gian lận Quan hệ kết hợp/đồng quan hệ giữa bán hàng và dự báo dựa theo quan hệ kết hợp
• Mô hình cuộc gọi: đích cuộc gọi, độ dài, thời điểm trong ngày hoặc tuần. Phân tích mẫu Hồ sơ khách hàng
lệch một dạng chuẩn dự kiến Kiểu của khách hàng mua sản phẩm gì (phân cụm và phân lớp)
Công nghiệp bán lẻ Phân tích yêu cầu khách hàng
• Các nhà phân tích ước lượng rằng 38% giảm bán lẻ là do nhân viên không trung thực Định danh các sản phẩm tốt nhất tới khách hàng (khác nhau)
Dự báo các nhân tố sẽ thu hút khách hàng mới
Chống khủng bố
Cung cấp thông tin tóm tắt
Báo cáo tóm tắt đa chiều
Thông tin tóm tắt thống kê (xu hướng trung tâm dữ liệu và biến đổi)
37
39
Ứng dụng khác Phân tích doanh nghiệp & Quản lý rủi ro
Khai phá web và khai phá phương tiện xã hội Lên kế hoạch tài chính và đánh giá tài sản
Trợ giúp IBM áp dụng các thuật toán KPDL biên bản truy nhập Web đối với các trang Phân tích và dự báo dòng tiền mặt
liên quan tới thị trường để khám phá ưu đãi khách hàng và các trang hành vi, phân Phân tích yêu cầu ngẫu nhiên để đánh giá tài sản
tích tính hiệu quả của tiếp thị Web, cải thiệ cách tổ chức Website … Phân tích lát cắt ngang và chuỗi thời gian (tỷ số tài chính, phân
tích xu hướng…)
Thể thao
Lên kế hoạch tài nguyên
IBM Advanced Scout phân tích thống kế môn NBA (chặn bóng, hỗ trợ và lỗi) để đưa
Tóm tắt và so sánh các nguồn lực và chi tiêu
tới lợi thế cạnh trang cho New York Knicks và Miami Heat
Cạnh tranh
Thiên văn học Theo dõi đối thủ cạnh tranh và định hướng thị trường
JPL và Palomar Observatory khám phá 22 chuẩn tinh (quasar) với sự trợ giúp của Nhóm khách hàng thành các lớp và định giá dựa theo lớp khách
KPDL Khởi tạo chiến lược giá trong thị trường cạnh tranh cao
40 38
Ngôn ngữ lập trình nền tảng 5. Vấn đề chính trong KPDLL
Phương pháp luận khai phá
Khai phá các kiểu tri thức khác nhau từ dữ liệu hỗn tạp như sinh học, dòng, web…
Hiệu năng: Hiệu suất, tính hiệu quả, và tính mở rộng
Đánh giá mẫu: bài toán về tính hấp dẫn
Kết hợp tri thức miền: ontology
Xử lý dữ liệu nhiễu và dữ liệu không đầy đủ
Tính song song, phân tán và phương pháp KP gia tăng
Kết hợp các tri thức được khám phá với tri thức hiện có: tổng hợp tri thức
Tương tác người dùng
Ngôn ngữ hỏi KPDL và khai phá “ngẫu hứng”
Biểu diễn và trực quan kết quả KPDL
Khai thác tương tác tri thức ở các cấp độ trừu tượng
Áp dụng và chỉ số xã hội
KPDL đặc tả miền ứng dụng và KPDL vô hình
http://www.kdnuggets.com/2017/08/python-overtakes-r-leader-analytics-data-science.html Bảo đảm bí mật dữ liệu, toàn vẹn và tính riêng tư
43 41
Công cụ phân tích, KHDL và học máy Một số yêu cầu ban đầu
Sơ bộ về một số yêu cầu để dự án KPDL thành công
Cần có kỳ vọng về một lợi ích đáng kể về kết quả KPDL
Hoặc trực tiếp nhận được “trái cây treo thấp” (“low-hanging fruit”) dễ thu lượm (như Mô hình mở rộng khách
hàng qua tiếp thị và bán hàng)
Hoặc gián tiếp tạo ra đòn bẩy cao khi tác động vào quá trình sống còn có ảnh hưởng sóng ngầm mạnh
(Giảm các nợ khoản khó đòi từ 10% còn 9,8% có số tiền lớn).
Cần có một đội dự án thi hành các kỹ năng theo yêu cầu: chọn dữ liệu, tích hợp dữ liệu, phân tích
mô hình hóa, lập và trình diễn báo cáo. Kết hợp tốt giữ người phân tích và người kinh doanh
Nắm bắt và duy trì các dòng thông tin tích lũy (chẳng hạn, mô hình kết quả từ một loạt chiến dịch
tiếp thị)
Quá trình học qua nhiều chu kỳ, cần “chạy đua với thực tiễn” (mô hình mở rộng khách hàng ban đầu
chưa phải đã tối ưu).
Một tổng hợp về các bài học KPDL thành công, thất bại
[NEM09] Robert Nisbet, John Elder, and Gary Miner (2009). Handbook of Statistical Analysis
and Data Mining, Elsevier, 2009.
https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html
44 42
Học máy với KPDL 6. Thống kê toán học với KPDL
Học máy
Machine Learning
Cách máy tính học (nâng cao năng lực) dựa trên dữ liệu. Nhiều điểm chung giữa KPDL với thống kê:
Chương trình máy tính tự động học được mẫu phức tạp và ra quyết định thông minh dựa Đặc biệt như phân tích dữ liệu thăm dò (EDA: Exploratory Data
trên dữ liệu, ví dụ, “học được chữ viết tay trên thư thông qua một tập ví dụ”.
Học máy là lĩnh vực nghiên cứu phát triển nhanh Analysis) cũng như dự báo [Fied97, HD03].
Một số nội dung học máy với khai phá dữ liệu Hệ thống KDD thường gắn kết với các thủ tục thống kê đặc biệt
Nhiều nội dung đã được trình bày tại mục trước
Học giám sát (supervised learning) đồng nghĩa với phân lớp (classification) đối với mô hình dữ liệu và nắm bắt nhiễu trong một khung cảnh
Học không giám sát (unsupervised) phân cụm (clustering), phát hiện tri thức tổng thể.
Học bán giám sát (semi-supervised learning) sử dụng cả ví dụ có nhãn và ví dụ không có
nhãn Các phương pháp KPDL dựa theo thống kê nhận được sự quan
Học tích cực (Active learning) còn được gọi là học tương tác (interactive learning) có tương
tác với người dùng. tâm đặc biệt.
Học tăng cường (incremental learning) mẫu đầu vào là liên tục và mô hình học phù hợp với
ví dụ cập nhật.
Các khung học máy khác
47 45
Tìm kiếm thông tin với KPDL Thống kê toán học với KPDL
Phân biệt giữa bài toán thống kê và bài toán khai phá dữ liệu
Tìm kiếm thông tin Kiểm định giả thiết TK: một mô hình giả thiết + tập dữ liệu quan sát được. Kiểm tra: tập dữ liệu
có phù hợp với giả thiết thống kê hay không/ giả thiết thống kê có đúng trên toàn bộ dữ liệu
Information Retrieval. “Truy hồi thông tin”
quan sát được hay không.
Tìm kiếm tài liệu hoặc tìm kiếm thông tin trong tài liệu theo một truy vấn. Tài Bài toán học KPDL: Cho tập dữ liệu (mô hình chưa có). Mô hình kết quả phải phù hợp với tập
liệu: văn bản, đa phương tiện, web… toàn bộ dữ liệu -> đảm bảo các tham số mô hình không phụ thuộc vào cách chọn tập dữ liệu
Hai giả thiết: (i) Dữ liệu tìm kiếm là không cấu trúc; (ii) Truy vấn dưới dạng học. Học KPDL đòi hỏi tập dữ liệu học/tập dữ liệu kiểm tra cần "đại diện" cho toàn bộ dữ liệu
từ khóa/cụm từ khóa mà không phải cấu trúc phức tạp trong miền ứng dụng và cần độc lập nhau. Một số trường hợp: hai tập dữ liệu này (hoặc tập dữ
liệu kiểm tra) được công bố dưới dạng chuẩn.
Tìm kiếm thông tin với KPDL Về thuật ngữ: KPDL: biến ra/biến mục tiêu, thuật toán khai phá dữ liệu, thuộc tính/đặc trưng,
Kết hợp mô hình tìm kiếm với kỹ thuật KPDL tìm thấy các chủ đề chính trong bản ghi... XLDLTK: biến phụ thuộc, thủ tục thống kê, biến giải thích, quan sát... Tham khảo thêm
từ Nguyễn Xuân Long
tập tài liệu, từng tài liệu … bổ sung thuộc tính dữ liệu quan trọng
KPDL văn bản, web, phương tiện xã hội liên quan mật thiết với tìm kiếm
thông tin.
48 46
GV: ThS. Trần Châu Thanh Thiện
tctthien@ntt.edu.vn
0933.968.967
49
NỘI DUNG
3
1
4 2
Nghịch lý năng suất: mức công ty Nghịch lý năng suất của CNTT
“Nghịch lý năng suất “: Một xung đột của kỳ vọng với thống kê
Mối quan hệ giữa IT và năng suất: nhiều tranh luận song hiểu biết vẫn
còn rất hạn chế.
• Năng lực máy tính được đưa vào kinh tế Mỹ đã tăng hơn bậc hai về độ lớn từ
năm 1970
• Năng suất, đặc biệt trong khu vực dịch vụ có vẻ đình trệ.
Cho một hứa hẹn khổng lồ của IT tới mở ra trong “cuộc cách mạng
A B
công nghệ lớn nhất mà loài người từng có" (Snow, 1966),
A: Không có quan hệ giữa đầu tư CNTT/nhân viên (trục hoành) với thu hồi vốn (trục tung): • Sự vỡ mộng, thâm chí làm thất vọng với công nghệ gia tăng một cách hiển nhiên:
tỷ lệ đầu tư nhiều cũng như ít ! “Không, máy tính không làm tăng hiệu quả, ít nhất không hầu hết thời gian"
B: Có 90,6 % số công ty giá thành CNTT lớn hơn giá thu hồi vốn: đầu tư CNTT lãng phí ? (Economist, 1990).
Thu hồi vốn chậm ?
Erik Brynjolfsson. The Productivity Paradox of Information Technology: Review and
http://www.strassmann.com/pubs/cf/cf970603.html Assessment. Communications of the ACM, Volume 36 Issue 12, Dec. 1993 Pages 66-77
7 5
Định hướng quản lý đầu tư CNTT Nghịch lý năng suất: Nền kinh tế Mỹ
Paul A. Strassmann: chi tiêu CNTT so với các doanh nghiệp đồng hạng:
Sự không tương quan trong tăng GNP
Hơn hay kém hơn so với mức thông thường khi có hiệu quả đo lường
được.
Chi phí cho máy
Giai đoạn Tăng GNP hàng năm
Hơn mức thông thường khi mà hiệu quả thông tin của doanh nghiệp hơn tính (%GNP)
mức thông thường.
Hơn mức thông thường khi mà tri thức của nhân viên hơn mức thông 1960s 0.003 4.50%
thường. 1970s 0.05 2.95%
8 6
Dữ liệu Thông tin dựa trên tri thức Phân tích nghịch lý năng suất
E. Brynjolfsson [Bryn93]: không nghịch lý năng suất
Lỗi đo lường từ công thức tính năng suất của kinh tế cổ điển: Biến đầu vào, biến đầu ra
và đo lường các biến này .
Đầu tư CNTT có độ trễ phát huy năng suất 2-3 năm
Tính phân phối lại tài nguyên thông tin “sản phẩm công cộng”: Cty này đầu tư – công
ty khác hưởng lợi
Sai lầm trong quản lý đầu tư CNTT: Ph/pháp phân tích lỗi thời.
Công thức tính năng suất kinh tế
11 9
Dữ liệu, thông tin, tri thức, trí tuệ 2. Dữ liệu, thông tin, tri thức
Biết quan hệ
Biết xử lý
12 10
Thông tin có giá trị (tiếp) Dữ liệu, thông tin, tri thức, trí tuệ
Kinh tế
Tính kinh tế liên quan tới chi phí tạo thông tin. Người ra quyết định cần cân bằng giá trị
của thông tin với chi phí tạo ra nó.
Linh hoạt
Thông tin được sử dụng linh hoạt cho nhiều mục đích. Ví dụ, thông tin lượng hàng tồn
kho cho người bán hàng, cho người quản lý tài chính…
Có liên quan
Có liên quan là quan trọng cho người ra quyết định.
Tin cậy
Theo sự tín nhiệm của người dùng. Tính tin cậy phụ thuộc vào tính tin cậy của phương
pháp thu thập thông tin / tính tin cậy của nguồn thông tin.
An toàn
Tránh được sự truy nhập trái phép.
15 13
Thông tin có giá trị (tiếp) Các đặc trưng của thông tin có giá trị
16 14
Dữ liệu lớn (Big data) Dữ liệu thế kỷ 21 Dầu mỏ thế kỷ 20
Đặt vấn đề
Vũ trụ số: chứa dữ liệu về mọi thứ, mọi lúc, mọi nơi “biết” được mọi
thứ
Tiềm ẩn thông tin hữu ích cho các tổ chức dữ liệu lớn
Khái niệm Một vài đối sánh
Dữ liệu lớn là một tập dữ liệu có các đặc trưng đặc biệt, được xử lý Đều là động lực tăng trưởng và trao đổi
(lưu trữ, tính toán, chuyển dạng) và phân tích (tìm các mẫu liên quan Dầu mỏ và dữ liệu: “nhồi vào ống dẫn”
Nhà máy lọc dầu: dầu thô (nhiệt) xăng, nhớt, thành phần khác
mới lạ hữu dụng từ dữ liệu) bằng các quy trình hoặc công cụ đặc Trung tâm dữ liệu: dữ liệu thô (hàng nghìn máy tính ) mẫu có giá trị, dự
biệt nhằm nhận được thông tin hỗ trợ ra quyết định hoặc đánh giá báo, và hiểu biết sâu sắc mới.
Đều tạo nguyên liệu thô quan trọng nền kinh tế thế giới
có giá trị Hệ thống thực ảo cho sản xuất
Được mô tả qua các đặc trưng đặc biệt thường là nV Dữ liệu lớn biết rất nhiều về mỗi con người, mọi thứ, v.v.
3V 5V 8V, 14V, 42V https://www.economist.com/news/briefing/21721634-how-it-shaping-up-data-giving-rise-new-economy:
Fuel of the future - Data is giving rise to a new economy
19 17
Dự báo IDC
2020: Vũ trụ dữ liệu 35 zettabytes (“35” và 21 chữ số “0”, dự báo 2011) 44
zettabytes (dự báo 2014); 2025: 180 zettabytes.
Bơm qua Internet băng thông rộng mất 450 triệu năm!
Amazon: vì mục đích tính toán đám mây, dùng thùng chứa 100 petabytes
2016: Amazon, Alphabet và Microsoft đạt gần 32 tỷ US$ chi tiêu và hợp đồng
20 18
Đặc trưng 8V, 10V Đặc trưng 5V: chi tiết
10V: #1: Volume, #2: Velocity, #3: Variety, #4: Variability, #5: Veracity, #6:
Validity, #7: Vulnerability, #8: Volatility, #9: Visualization, #10: Value Dung lượng lớn (Volume)
Cỡ Texabytes (1012Bytes)
Kích thước lớn tiềm ẩn thông tin giá trị
Tốc độ cao (Velocity)
Tốc độ cao: tốc độ phát sinh, tốc độ chuyển động
Thời gian thực hoặc tựa thời gian thực
Tốc độ cao tính kịp thời
Ví dụ: phát hiện gian lận giao dịch cần với tốc độ mili-giây, dữ liệu cần
cập nhật tốc độ cao
Đa dạng (Variety)
Có/không cấu trúc (văn bản, hình ảnh, video, dữ liệu cảm biến, v.v.),
đa yếu tố, có tính xác suất
Đa dạng khung nhìn đa chiều (chính xác hơn) về sự vật/hiện tượng
23 21
24 22
Trình độ hiểu dữ liệu cho kiếm tiền dữ liệu Nguồn dữ liệu cho Big data
Andrea Ahlemeyer-Stubbe, Shirley Coleman. Monetising Data: How to Uplift Your Business. Wiley, 2018. Andrea Ahlemeyer-Stubbe, Shirley Coleman. Monetising Data: How to Uplift Your Business. Wiley, 2018.
27 25
Thông tin: Một tài sản thực sự? Khảo sát lợi ích từ dữ liệu và “kiếm tiền dữ liệu”
Không
Không nằm trong bảng cân đối kế toán.
Không thể giải thích vì nó vô hình.
Không thực sự tiêu hao như các tài sản khác.
Có
Có thể có giá trị trao đổi.
Có thể tạo ra một giá trị kinh tế tích cực.
Có thể đếm / đo được, nhưng theo cách nào?
http://mitiq.mit.edu/IQIS/Documents/CDOIQS_201177/Papers/05_01_7A-1_Laney.pdf
Andrea Ahlemeyer-Stubbe, Shirley Coleman. Monetising Data: How to Uplift Your Business. Wiley, 2018.
28 26
Kinh tế học thông tin và Quản lý thông tin doanh nghiệp Vòng đời tài sản
Bán Cho vay Chia sẻ
Infonomis Chi tiêu Buôn bán Áp dụng
Information economis Tiêu thu tài sản (hiện
Vấn đề quản lý thực giá trị) T V C T
À Â O B H
Vấn đề đo lường .
T N Í Ô
Vấn đề tiền hóa I N
Quản lý TT doanh nghiệp C Q G
Danh mục tài sản C N
Tầm nhìn H U
doanh nghiệp H G Y
Chiến lược Í
Ấ Ư Ế T
Đo lường và độ đo
. N Ờ T I
Quản trị T
Quản lý tài sản (gia H I N
Con người
Quy trình tăng giá trị) Thu thập Chuẩn bị Kết hợp Tinh chế
Cơ sở hạ tầng Sản xuất Kiểm kê Định vị Bảo vệ
Tổ chức Phân phối Quản trị Giám sát
31 29
http://mitiq.mit.edu/IQIS/Documents/CDOIQS_201177/Papers/05_01_7A-1_Laney.pdf
Các yếu tố ảnh hưởng lợi ích của tài sản thông tin và cuối cùng là giá trị kinh tế
3. Khai phá dữ liệu
Khách quan Chủ quan
Nội dung cơ bản của KDD và DM Xác thực: Dữ liệu thể hiện chính Liên quan: Dữ liệu được áp dụng
xác hoặc nguồn xác minh. cho một hoặc nhiều quy trình hoặc
Khai phá dữ liệu và phát hiện tri thức trong CSDL là bài toán “kinh Toàn vẹn: Các liên kết và mối quan quyết định kinh doanh.
doanh”, bài toán “chiến lược” mà không phải là bài toán công hệ thích hợp tồn tại giữa các dữ liệu. Hữu dụng: Quá trình kinh doanh
Nhất quán: Mỗi loại dữ liệu có một và/hoặc cá nhân có thể hiểu và tận
nghệ. dụng dữ liệu này.
biểu diễn duy nhất
Hoàn thiện: Hồ sơ không phải là Tin cậy: Dữ liệu được xem là đáng
Khi nào nên khai phá dữ liệu lĩnh vực thiếu. Bộ dữ liệu không bị tin cậy bởi những người sử dụng nó
Ví dụ: Chương 3 sách Data Mining: Methods and Tools, 1998. thiếu các cá thể. Tinh khiết: Dữ liệu có ý nghĩa độc
Khả năng tiếp cận: Dữ liệu được đáo và dễ thấu hiểu.
thu thập và / hoặc tích hợp dễ dàng Khách quan: Dữ liệu không thiên vị
vào quy trình kinh doanh. và vô tư, không phụ thuộc vào phán
Chính xác: Dữ liệu được ghi với độ đoán, diễn giải hoặc đánh giá cá
chính xác yêu cầu của doanh nghiệp. nhân.
Kịp thời: Dữ liệu được cập nhật với Khó khăn: Dữ liệu là độc quyền,
tần suất đủ để đáp ứng các yêu cầu được bảo vệ và khó lấy với người
kinh doanh. không thẩm quyền.
32 30
Bài toán phát hiẹn tri thức 32
Chuẩn công nghiệp khai phá dữ liệu CRISP-DM Tiếp cận truyền thống và tiếp cận KPDL
• Hiểu kinh doanh (Business understanding)
Tập trung vào hiểu biết mục tiêu/yêu cầu từ góc độ kinh doanh Tiếp cận truyền thống
Chuyển đổi tri thức này thành
một định nghĩa bài toán khai phá dữ liệu Từ lý thuyết (hệ toán mệnh đề) phát triển các giả thuyết kiểm định (chứng
một kế hoạch sơ bộ được thiết kế đạt được các mục tiêu. minh) giả thuyết. Ngô Bảo Châu: Bổ đề cơ bản
• Hiểu dữ liệu (Data understanding) Tiếp cận khai phá dữ liệu
Với một tập dữ liệu ban đầu: tiến hành hoạt động “làm quen” dữ liệu, xác định các vấn
đề chất lượng dữ liệu, Từ dữ liệu phát hiện quan hệ phát triển giả thuyết Xây dựng mô hình và
Tri thức kinh doanh từ giai đoạn hiểu kinh doanh định hướng hiểu dữ liệu phân tích kiểm định giả thuyết Đánh giá mô hình Sử dụng mô hình.
dữ liệu để hiểu dữ liệu có thể phản hồi, phối hợp với nội dung hiểu kinh doanh làm rõ
bài toán khai phá dữ liệu, mục tiêu và kế hoạch thực hiện.
• Chuẩn bị dữ liệu (Data preparation)
Các hoạt động nhằm xây dựng các tập dữ liệu cuối làm đầu vào cho công cụ mô hình
hóa.
Gồm các hoạt động lập bảng, ghi lại và lựa chọn thuộc tính cũng như chuyển đổi, và làm
sạch dữ liệu cho các công cụ mô hình hóa.
35 33
Chuẩn công nghiệp khai phá dữ liệu CRISP-DM Chuẩn công nghiệp khai phá dữ liệu CRISP-DM
36 34
Một mô hình KPDL hướng BI Một mô hình khai phá dữ liệu DN’00
Mô hình phát triển tri thức hướng thông minh doanh nghiệp, 2009
Một mô hình KDD năm 2000
39 37
Tương tác người-máy trong KPDL’10 Mô hình KPDL và mô hình kinh doanh’08
Wang, H. and S. Wang (2008). A knowledge management approach to data mining process for business intelligence,
Industrial Management & Data Systems, 2008.
40 38
Mô hình KPDL hướng ứng dụng Mô hình KPDL hướng ứng dụng
P6. Phân tích và đánh giá kết quả chung ban đầu (phân tích /đánh giá các phát hiện ban
đầu); Mô hình quá trình khai phá dữ liệu hướng miền ứng dụng [CYZ10]
P7. Là hoàn toàn hợp lý khi mỗi giai đoạn từ P1 có thể được lặp đi lặp lại thông qua phân
tích ràng buộc và tương tác với các chuyên gia miền ứng dụng theo phương thức quay
lui và xem xét;
P07. Khai phá chuyên sâu về kết quả chung ban đầu khi áp dụng;
P8. Đo lường và nâng cao khả năng hành động (đánh giá tính thú vị theo quan điểm cả về
kỹ thuật và kinh doanh, và tăng cường hiệu suất bằng cách áp dụng phương pháp hiệu
quả hơn).
P9. Thực hiện qua lại giữa P7 và P8;
P10. Hậu xử lý kết quả (hậu phân tích hoặc hậu khai phá dữ liệu các kết quả ban đầu);
P11. Xem xét lại các giai đoạn từ P1 có thể được đòi hỏi;
P12. Triển khai (triển khai các kết quả vào các ngành kinh doanh);
P13. Cung cấp tri thức và báo cáo tổng hợp để ra quyết định thông minh (tổng hợp phát
hiện cuối cùng thành báo cáo ra quyết định sẽ được chuyển giao cho người kinh doanh).
43 41
12 bước đưa TTNT vào hoạt động CNTT Mô hình KPDL hướng ứng dụng
P1. Hiểu vấn đề (định danh và xác định các vấn đề, bao gồm cả phạm vi của nó và
những thách thức ...);
P2. Phân tích ràng buộc (định danh ràng buộc xung quanh các vấn đề ở trên, từ dữ
liệu, miền ứng dụng, tính thú vị và cách phân bố);
P3. Định nghĩa các mục tiêu phân tích, và xây dựng đặc trưng (định nghĩa mục tiêu
khai phá dữ liệu, và các đặc trưng được lựa chọn phù hợp hoặc xây dựng để đạt
được các mục tiêu);
P4. Tiền xử lý dữ liệu (trích chọn, chuyển đổi và tải dữ liệu, nói riêng, chuẩn bị dữ liệu
chẳng hạn như xử lý dữ liệu mất tích và riêng tư); hoặc
P5. Lựa chọn phương pháp và mô hình hóa (lựa chọn được các mô hình và phương
pháp thích hợp để đạt được các mục tiêu trên);
P05. Mô hình hóa chuyên sâu (áp dụng mô hình hóa chuyên sâu bằng cách sử dụng
nhiều mô hình hiệu quả tiết lộ cốt lõi của vấn đề, hoặc dụng khai phá đa bước, khai
phá kết hợp);
https://www.gartner.com/ngw/eventassets/en/conferences/sym28/documents/gartner-symposium-us-cio-guide-
ai-2018.pdf
44 42
Khía cạnh kinh tế của tri thức tổ chức 4. Từ tri thức tổ chức tới kinh tế tri thức
Tri thức
Tổ chức là một thực thể tích hợp tri thức Khái niệm
Môi trường văn hóa tổ chức và tính chất chuyên môn trình độ cao liên quan tới ngành Từ điển Compact Oxford English Dictionary
nghề tạo nên một cộng đồng đơn nhất tổ chức thực hiện thu nhận và chuyển giao tri – sự hiểu biết tinh thông cùng với các kỹ năng mà con người thu nhận được
thức hướng tới mục tiêu tốt nhất hoặc hiệu quả nhất cho tổ chức. qua kinh nghiệm hoặc giáo dục
– tổng hợp những gì mà con người biết rõ
Tổ chức là một thực thể sáng tạo tri thức
– nhận thức và hiểu biết tường minh về một sự việc hoặc một hiện tượng mà
Một tập hợp mạng quan hệ trong tổ chức tạo điều kiện thuận lợi cho trao đổi và phát
thu nhận được nhờ kinh nghiệm
triển tri thức tổ chức. Vào năm 2000, Giám đốc điều hành tập đoàn HP Lew Platt lúc đó
Nội dung khái niệm còn phụ thuộc vào từng lĩnh vực:
đưa ra nhận định "Nếu HP biết được những điều HP biết thì lợi nhuận của chúng tôi sẽ
Ở đây: Compact Oxford English Dictionary
gấp ba lần" Nguyên văn, “If HP knew what HP knows, we would be three times
Khai phá dữ liệu: mẫu có độ hấp dẫn vượt qua ngưỡng
profitable”.
Hình thức thu nhân tri thức: giáo dục, kinh nghiệm qua hoạt động thực tiễn
Tổ chức là thực thể bảo vệ tri thức
Một mặt, tổ chức tạo điều kiện thuận lợi cho trao đổi và phát triển tri thức nội bộ, mặt
khác, tổ chức cần có cơ chế bảo vệ tri thức tổ chức của mình. http://dantri.com.vn/giao-duc-khuyen-hoc/giam-doc-dh-qghn-thoi-dai-moi-sinh-vien-phai-tich-luy-cho-minh-cai-bat-bien-
201709180717191.htm
47 45
Cơ bản về công nghệ tri thức Tri thức: Một phân loại
tri thức hiện – tri thức ẩn (Explicit knowledge – Tacit knowledge), tri thức chủ quan – tri
Khái niệm công nghệ tri thức thức khách quan (Objective knowledge – Subjective knowledge), tri thức biết – tri thức
hành động (Knowing that – Knowing how). Ví dụ tri thức ẩn tri thức hiện: ngành
Công nghệ tri thức là một quá trình bao gồm thu nhận và biểu diễn tri thức, và xây
CNPM
dựng cơ chế suy luận và giải thích. "know what“: tri thức về sự vật, sự kiện, hiện tượng
Bốn bước thi hành "know why“: tri thức về thế giới, xã hội và trí tuệ con người,
"know who“: tri thức về ai và họ làm được gì,
thu nhận tri thức, biểu diễn tri thức, xây dựng một cơ chế suy luận, và thiết kế các "know how“: tri thức về kỹ năng và kinh nghiệm thực tiễn.
công cụ giải thích. "know where“, "know when“: tri thức quan trọng cho một nền kinh tế mềm dẻo và động,
Metaknowledge “siêu tri thức”
Metaknowledge: tri thức về tri thức. Một số ví dụ: làm thế nào sử dụng tri thức trong
tình huống cụ thể, làm thế nào xác định tri thức có liên quan, và khi nào tri thức là
chưa đầy đủ.
So sánh với metadata (dữ liệu về dữ liệu): dữ liệu mô tả file
Metaknowledge: YKYN (you know that you know), DKYK, YKDK, DKDK (don’t know
that you don’t know)
48 46
Vòng đời tri thức thức trong tổ chức Cơ bản về công nghệ tri thức
CKC - Codified Knowledge Claim: Yêu cầu tri thức hệ thống hóa
UKC - Unvalidated Knowledge Claim: Yêu cầu tri thức không hợp lệ Một số khái niệm
VKC - Validated Knowledge Claim: Yêu cầu tri thức hợp lệ
Thu nhận tri thức là việc khai thác tri thức từ nguồn (chuyên gia) đã văn bản hóa và
IK - Invalidated Knowledge: Tri thức hết hiệu lực
IKC - Invalidated Knowledge Claim: Yêu cầu tri thức hết hiệu lực
chưa văn bản hóa và chuyển nó vào máy tính. Sử dụng 3 kỹ thuật: quy nạp, lập luận
OK - Organizational Knowledge: Tri thức của tổ chức dựa trên trường hợp, tính toán neuron.
Biểu diễn tri thức liên quan đến việc tổ chức các tri thức trong các cơ sở tri thức.
Tri thức văn bản hóa có trong sách vở, đĩa máy tính, báo cáo, phim… Tri thức không
văn bản hóa có trong tâm trí con người. Tri thức văn bản hóa là mục tiêu (dù có thể
được diễn giải một cách chủ quan)
Một số nguồn tri thức
Chuyên gia, sách hướng dẫn, phim ảnh, sách, cơ sở dữ liệu, tập tin văn bản, hình
ảnh, băng hình, cảm biến, và các bức ảnh chụp.
51 49
Bài toán phát hiẹn tri thức 49
52 50
Kinh tế tri thức: đặc trưng Hàm quản lý tri thức
Hiệu quả của tổ chức là một hàm theo các hoạt động quản lý tri thức
55 53
Bốn cột trụ của một nền kinh tế tri thức Khái niệm
Một hệ thống cách tân hướng tri thức hiệu quả (a effective innovation system)
Knowledge Economy/Knowledge-Based Economy
Nền kinh tế tri thức cần là một nền kinh tế cách tân hiệu quả của các tập đoàn, trung tâm
nghiên cứu, trường đại học, các chuyên gia và các tổ chức khác , trong đó, tri thức khi mà đã Nền kinh tế mà việc sử dụng tri thức là động lực chủ chốt
trở nên lỗi thời - lạc hậu cần liên tục được thay thế bằng tri thức mới - tiến bộ phù hợp với trình cho tăng trưởng kinh tế. Trong nền kinh tế tri thức, tri thức
độ phát triển của nền kinh tế tri thức. Trong nền kinh tế tri thức, hoạt động không ngừng cách được yêu cầu, được phát sinh, được phổ biến và được vận
tân tri thức, phát huy sáng kiến mang tính xã hội. dụng một cách hiệu quả cho tăng trưởng kinh tế.
Một hạ tầng thông tin hiện đại và đầy đủ (a modern and adequate information
infrastructure) là phương tiện hiệu quả để truyền thông, phổ biến và xử lý thông tin Nền kinh tế mà các yếu tố then chốt cho sự phát triển là tri
và tri thức thức, năng lực trí tuệ, một thiết chế xã hội cho một hạ tầng
Hạ tầng thông tin hiện đại và đầy đủ đảm bảo hoạt động thu nhận, cách tân tri thức cũng như thông tin hữu hiệu và truy nhập được.
để đảm bảo xã hội học tập và hoạt động học tập suốt đời.
56 54
Kinh tế tri thức: đo lường
57
58