D-Business Intelligence and Data Mining

Translated from English to Vietnamese - www.onlinedoctranslator.
com
CHƯƠNG 1
Sự toàn vẹn của kinh doanh

Trí thông minh và khai thác dữ liệu
Kinh doanh là hành động làm một việc gì đó hiệu quả để phục vụ nhu cầu của ai đó, từ đó
kiếm sống và biến thế giới thành một nơi tốt đẹp hơn. Các hoạt động kinh doanh được ghi
lại trên giấy hoặc sử dụng phương tiện điện tử, sau đó những bản ghi này trở thành dữ
liệu. Có nhiều dữ liệu hơn từ phản hồi của khách hàng và về toàn ngành nói chung. Tất cả
dữ liệu này có thể được phân tích và khai thác bằng cách sử dụng các công cụ và kỹ thuật
đặc biệt để tạo ra các mẫu và thông tin tình báo, phản ánh cách thức hoạt động của
doanh nghiệp. Những ý tưởng này sau đó có thể được đưa trở lại doanh nghiệp để nó có
thể phát triển để trở nên hiệu quả và hiệu quả hơn trong việc phục vụ nhu cầu của khách
hàng. Và chu trình cứ thế tiếp diễn (Hình 1.1).
Hình 1.1 Chu kỳ kinh doanh thông minh và khai thác dữ liệu
2 TRÍ TUỆ KINH DOANH VÀ KHAI THÁC DỮ LIỆU
kinh doanh thông minh
Bất kỳ tổ chức kinh doanh nào cũng cần liên tục giám sát môi trường kinh doanh
và hiệu suất của chính mình, sau đó nhanh chóng điều chỉnh các kế hoạch trong
tương lai. bao gồm giám sát ngành, đối thủ cạnh tranh, nhà cung cấp và khách
hàng. Tổ chức cũng cần phát triển một thẻ điểm cân bằng để theo dõi sức khỏe
và sức sống của chính mình. Các giám đốc điều hành thường xác định những gì
họ muốn theo dõi dựa trên Chỉ số hiệu suất chính (KPI) hoặc các lĩnh vực kết quả
chính (KRAs) của họ. Các báo cáo tùy chỉnh cần được thiết kế để cung cấp thông
tin cần thiết cho mọi giám đốc điều hành. Các báo cáo này có thể được chuyển
đổi thành bảng điều khiển tùy chỉnh để cung cấp thông tin nhanh chóng và ở
định dạng dễ nắm bắt.
Caselet: MoneyBall—Khai thác dữ liệu trong thể thao
Phân tích trong thể thao đã trở nên phổ biến nhờ cuốn sách và bộ phim Moneyball. Nhà
thống kê Bill James và Tổng giám đốc Billy Bean của Oakland A nhấn mạnh vào việc xử lý
các con số và dữ liệu thay vì xem phong cách và ngoại hình của một vận động viên. Mục tiêu
của họ là làm cho một nhóm trở nên tốt hơn trong khi sử dụng ít tài nguyên hơn. Kế hoạch
hành động chính là chọn những cầu thủ đóng vai trò quan trọng với chi phí thấp hơn đồng
thời tránh những cầu thủ nổi tiếng đòi lương cao hơn nhưng có thể mang lại lợi tức đầu tư
thấp cho đội. Thay vì dựa vào kinh nghiệm và trực giác của các tuyển trạch viên, Bean đã
chọn những người chơi hầu như chỉ dựa trên tỷ lệ phần trăm trên cơ sở (OBP) của họ. Bằng
cách tìm kiếm những cầu thủ có OBP cao nhưng lại có những đặc điểm khiến các tuyển
trạch viên loại bỏ họ, Bean đã tập hợp một nhóm gồm những cầu thủ bị đánh giá thấp
nhưng có tiềm năng hơn nhiều so với khả năng tài chính của đội A nếu không sẽ cho phép.
Sử dụng chiến lược này, họ đã chứng minh rằng ngay cả các nhóm thị trường nhỏ
cũng có thể cạnh tranh được—một trường hợp điển hình là Oakland A's. Vào năm 2004, hai
năm sau khi áp dụng mô hình sabermetric tương tự, Boston Red Sox đã giành được giải
World Series đầu tiên kể từ năm 1918. (Nguồn: Moneyball 2004)
Q1. Những kỹ thuật tương tự có thể áp dụng cho các trò chơi bóng đá hoặc cricket không? Nếu vậy,
làm thế nào?
Q2. Những bài học chung từ câu chuyện này là gì?

SỰ TOÀN DIỆN CỦA TRÍ TUỆ KINH DOANH VÀ KHAI THÁC DỮ LIỆU 3
Kinh doanh thông minh là một tập hợp rộng rãi các giải pháp công nghệ
thông tin (CNTT) bao gồm các công cụ để thu thập, phân tích và báo cáo
thông tin cho người dùng về hiệu suất của tổ chức và môi trường của tổ
chức. Các giải pháp CNTT này là một trong những giải pháp được ưu tiên
đầu tư nhiều nhất.
Hãy xem xét một chuỗi kinh doanh bán lẻ bán nhiều loại hàng hóa và dịch vụ
trên khắp thế giới, trực tuyến và tại các cửa hàng thực tế. Nó tạo dữ liệu về bán hàng,
mua hàng và chi phí từ nhiều địa điểm và khung thời gian. Phân tích dữ liệu này có
thể giúp xác định các mặt hàng bán chạy, mặt hàng bán chạy theo khu vực, mặt
hàng theo mùa, phân khúc khách hàng đang phát triển nhanh, v.v. Nó cũng có thể
giúp tạo ra ý tưởng về những sản phẩm nào được bán cùng nhau, mọi người có xu
hướng mua sản phẩm nào, v.v. Những hiểu biết sâu sắc và trí thông minh này có thể
giúp thiết kế các kế hoạch quảng cáo, gói sản phẩm và cách bố trí cửa hàng tốt hơn,
từ đó dẫn đến hoạt động kinh doanh hiệu quả hơn.
Phó giám đốc bán hàng của một công ty bán lẻ muốn theo dõi doanh số bán hàng cho
đến thời điểm hiện tại so với các mục tiêu hàng tháng, hiệu suất của từng cửa hàng và danh
mục sản phẩm cũng như những người quản lý cửa hàng hàng đầu trong tháng đó. phó giám
đốc tài chính sẽ quan tâm đến việc theo dõi doanh thu, chi phí và dòng tiền hàng ngày theo
từng cửa hàng; so sánh chúng với kế hoạch; đo lường chi phí vốn; và như thế.
Nhận dạng mẫu

Một mẫu là một thiết kế hoặc mô hình giúp nắm bắt một cái gì đó. Các mẫu giúp kết
nối những thứ có vẻ như không được kết nối. Các mẫu giúp vượt qua sự phức tạp và
tiết lộ các xu hướng dễ hiểu hơn. Các khuôn mẫu có thể dứt khoát như những quy
tắc khoa học cứng nhắc, chẳng hạn như quy luật mặt trời luôn mọc ở hướng đông.
Chúng cũng có thể là những khái quát hóa đơn giản, chẳng hạn như nguyên tắc
Pareto, trong đó nói rằng 80% kết quả đến từ 20% nguyên nhân.
Một mô hình hoặc mô hình hoàn hảo là mô hình (a) mô tả chính xác một tình
huống, (b) có thể áp dụng rộng rãi và (c) có thể được mô tả một cách đơn giản.E = MC
2sẽ là mộtchung, chính xác,vàđơn giản (KHÍ) mô hình. Rất thường xuyên, cả ba phẩm
chất không thể đạt được trong một mô hình duy nhất và người ta phải chấp nhận hai
trong số ba phẩm chất trong mô hình.
Các mẫu có thể là tạm thời, đó là điều thường xuyên xảy ra theo thời gian. Các mẫu
cũng có thể là không gian, chẳng hạn như mọi thứ được sắp xếp theo một cách nhất định.
Các mẫu có thể có chức năng, trong đó làm những điều nhất định dẫn đến
đến những tác dụng nhất định. Các mẫu tốt thường đối ey echo cơ bản
xứng. cấu trúc và mô hình mà chúng ta đã biết.

Một quy luật tạm thời là “một số người luôn đến trễ,” bất kể dịp nào hay thời
gian nào. Một số người có thể nhận thức được mô hình này và một số có thể không.
Hiểu được một khuôn mẫu như thế này sẽ giúp tiêu tan rất nhiều sự thất vọng và tức
giận không cần thiết. Người ta có thể nói đùa rằng một số người được sinh ra “chậm
10 phút” và cười cho qua chuyện. Tương tự, định luật Parkinson phát biểu rằng công
việc mở rộng để lấp đầy tất cả thời gian có sẵn để làm việc đó.
Một mô hình không gian, tuân theo quy tắc 80–20, có thể là 20 phần trăm
khách hàng hàng đầu dẫn đến 80 phần trăm doanh nghiệp. Hoặc 20 phần trăm
sản phẩm tạo ra 80 phần trăm doanh nghiệp. Hoặc 80 phần trăm các cuộc gọi
dịch vụ khách hàng đến chỉ liên quan đến 20 phần trăm sản phẩm. là mẫu cuối
cùng có thể chỉ tiết lộ sự khác biệt giữa các tính năng của sản phẩm và những gì
khách hàng tin tưởng về sản phẩm. Sau đó, doanh nghiệp có thể quyết định đầu
tư vào việc giáo dục khách hàng tốt hơn để có thể giảm đáng kể các cuộc gọi
dịch vụ khách hàng.
Một mô hình chức năng có thể liên quan đến các kỹ năng làm bài kiểm tra. Một số học sinh
thực hiện tốt các câu hỏi dạng tự luận. Những người khác làm tốt trong các câu hỏi trắc
nghiệm. Tuy nhiên, những sinh viên khác xuất sắc trong việc thực hiện các dự án thực hành,
hoặc trong các bài thuyết trình. Nhận thức về một mô hình như vậy trong một lớp học sinh có
thể giúp giáo viên thiết kế một cơ chế kiểm tra cân bằng, công bằng cho tất cả.
Giữ chân sinh viên là một thách thức đang diễn ra đối với các trường đại học.
Nghiên cứu dựa trên dữ liệu gần đây cho thấy học sinh rời trường vì lý do xã hội
nhiều hơn là vì lý do học tập. là mô hình/cái nhìn sâu sắc có thể thúc đẩy các trường
học chú ý hơn đến việc học sinh tham gia vào các hoạt động ngoại khóa và phát triển
mối quan hệ bền chặt hơn ở trường. Nhà trường có thể đầu tư cho các hoạt động vui
chơi giải trí, hoạt động thể thao, cắm trại và các hoạt động khác. Trường học cũng có
thể bắt đầu tích cực thu thập dữ liệu về sự tham gia của mọi học sinh trong các hoạt
động đó, để dự đoán những học sinh có nguy cơ và thực hiện hành động khắc phục.
Tuy nhiên, các khuôn mẫu đã được thiết lập từ lâu cũng có thể bị phá vỡ. quá khứ có thể-
không phải lúc nào cũng dự đoán được tương lai. Một khuôn mẫu như “tất cả
thiên nga đều màu trắng” không có nghĩa là có thể không có thiên nga đen. Khi
đã phát hiện đủ các điểm bất thường, bản thân mô hình cơ bản có thể thay đổi.
Cuộc khủng hoảng kinh tế năm 2008 đến 2009 là do sự sụp đổ của mô hình
được chấp nhận, đó là “giá nhà luôn tăng”. Môi trường tài chính phi điều tiết
làm cho thị trường trở nên bất ổn hơn và dẫn đến những biến động lớn hơn trên thị trường,
dẫn đến sự sụp đổ cuối cùng của toàn bộ hệ thống tài chính.
Khai thác kim cương là hành động đào một lượng lớn quặng chưa tinh
chế để khám phá đá quý hoặc cốm. Tương tự, khai thác dữ liệu là hành động
đào một lượng lớn dữ liệu thô để khám phá các mẫu hữu ích không cần thiết
duy nhất. Dữ liệu được làm sạch và sau đó có thể áp dụng các công cụ và kỹ
thuật đặc biệt để tìm kiếm các mẫu. Đi sâu vào dữ liệu rõ ràng và được tổ
chức độc đáo từ các quan điểm phù hợp có thể tăng cơ hội khám phá đúng.
Một thợ mỏ kim cương lành nghề biết viên kim cương trông như thế nào.
Tương tự, một người khai thác dữ liệu lành nghề nên biết những loại mẫu cần
tìm. Các mẫu về cơ bản là về những gì gắn kết với nhau và những gì riêng biệt.
vì vậy, hiểu rõ về lĩnh vực kinh doanh là rất quan trọng. Cần có kiến thức và kỹ
năng để khám phá các mẫu. Nó giống như mò kim đáy bể vậy. Đôi khi mô hình có
thể ẩn trong tầm nhìn rõ ràng. Vào những thời điểm khác, có thể mất rất nhiều công
sức và nhìn xa trông rộng để tìm ra các mẫu hữu ích đáng ngạc nhiên. chúng tôi, một
cách tiếp cận có hệ thống để khai thác dữ liệu là cần thiết để tiết lộ những hiểu biết
có giá trị một cách hiệu quả.
Ví dụ, thái độ của nhân viên đối với người sử dụng lao động của họ có thể được
đưa ra giả thuyết là được xác định bởi một số lượng lớn các yếu tố, chẳng hạn như
trình độ học vấn, thu nhập, thời gian làm việc trong công ty và giới tính. Có thể ngạc
nhiên nếu dữ liệu tiết lộ rằng thái độ được xác định trước hết bởi độ tuổi của họ. Một
cái nhìn sâu sắc đơn giản như vậy có thể mạnh mẽ trong việc thiết kế các tổ chức
một cách hiệu quả. công cụ khai thác dữ liệu điện tử phải được mở cho bất kỳ và tất
cả các khả năng.
Khi được sử dụng theo những cách thông minh, khai thác dữ liệu có thể dẫn đến những
hiểu biết thú vị và là nguồn ý tưởng và sáng kiến mới. Người ta có thể dự đoán mô hình giao
thông trên đường cao tốc từ chuyển động của các vị trí đặt điện thoại di động (trong ô tô) trên
đường cao tốc. Nếu vị trí của điện thoại di động trên đường cao tốc hoặc đường bộ không di
chuyển đủ nhanh, đó có thể là dấu hiệu của tắc nghẽn giao thông. Do đó, các công ty viễn
thông có thể cung cấp thông tin giao thông theo thời gian thực cho người lái xe trên điện thoại
di động hoặc trên thiết bị GPS của họ mà không cần bất kỳ máy quay video hoặc báo cáo giao
thông nào.
Tương tự, các tổ chức có thể tìm ra thời gian đến của nhân
viên tại văn phòng khi điện thoại di động của họ xuất hiện ở bãi
đậu xe. Quan sát biên bản quẹt thẻ giữ xe tại công ty
nhà để xe có thể thông báo cho tổ chức biết nhân viên đang ở trong tòa nhà văn
phòng hay ra khỏi văn phòng vào bất kỳ thời điểm nào.
Một số mẫu có thể thưa thớt đến mức phải nhìn thấy một lượng rất
lớn dữ liệu đa dạng để nhận thấy bất kỳ kết nối nào. Chẳng hạn, việc xác
định vị trí các mảnh vỡ của một chuyến bay có thể đã biến mất giữa
chừng sẽ yêu cầu tập hợp dữ liệu từ nhiều nguồn, chẳng hạn như vệ
tinh, tàu và hệ thống định vị. Dữ liệu thô có thể có nhiều mức chất lượng
khác nhau và thậm chí có thể xung đột. Dữ liệu hiện có có thể đủ hoặc
không đủ để tìm ra các mẫu tốt. Có thể cần thêm các chiều bổ sung của
dữ liệu để giúp giải quyết vấn đề.
Chuỗi xử lý dữ liệu
Dữ liệu là tài nguyên thiên nhiên mới. Ngụ ý trong tuyên bố này là sự công nhận giá
trị ẩn trong dữ liệu. Dữ liệu nằm ở trung tâm của kinh doanh thông minh.
Có một trình tự các bước cần tuân theo để hưởng lợi từ dữ liệu một cách có hệ
thống. Dữ liệu có thể được mô hình hóa và lưu trữ trong cơ sở dữ liệu. Dữ liệu liên
quan có thể được trích xuất từ các kho lưu trữ dữ liệu hoạt động theo các mục đích
báo cáo và phân tích nhất định và được lưu trữ trong kho dữ liệu. Dữ liệu từ kho có
thể được kết hợp với các nguồn dữ liệu khác và được khai thác bằng cách sử dụng
các kỹ thuật khai thác dữ liệu để tạo ra những hiểu biết mới. Những hiểu biết sâu sắc
cần được trực quan hóa và truyền đạt đến đúng đối tượng trong thời gian thực để có
lợi thế cạnh tranh. Hình 1.2 giải thích tiến trình của các hoạt động xử lý dữ liệu. Phần
còn lại của chương này sẽ đề cập đến năm yếu tố này trong chuỗi xử lý dữ liệu.
Dữ liệu
Bất cứ điều gì được ghi lại là dữ liệu. Các quan sát và sự kiện là dữ liệu. Giai thoại và ý kiến
cũng là dữ liệu, thuộc một loại khác. Dữ liệu có thể là các con số, chẳng hạn như bản ghi
thời tiết hàng ngày hoặc doanh số bán hàng hàng ngày. Dữ liệu có thể là chữ và số, chẳng
hạn như tên của nhân viên và khách hàng.
Hình 1.2 Chuỗi xử lý dữ liệu

1. Dữ liệu có thể đến từ bất kỳ nguồn nào. Nó có thể đến từ các hồ sơ hoạt
động bên trong một tổ chức và nó có thể đến từ các hồ sơ do các cơ
quan công nghiệp và cơ quan chính phủ tổng hợp. Dữ liệu có thể đến
từ các cá nhân kể chuyện từ trí nhớ và từ sự tương tác của mọi người
trong bối cảnh xã hội. Dữ liệu có thể đến từ các máy báo cáo trạng thái
của chính chúng hoặc từ nhật ký sử dụng web.
2. Dữ liệu có thể đến theo nhiều cách. Nó có thể đến như báo cáo giấy. Nó có thể
đến dưới dạng tệp được lưu trữ trên máy tính. Nó có thể là lời nói qua điện
thoại. Nó có thể là e-mail hoặc trò chuyện trên Internet. Nó có thể xuất hiện
dưới dạng phim và bài hát trong DVD, v.v.
3. ere cũng là dữ liệu về dữ liệu. Nó được gọi là siêu dữ liệu. Ví dụ: mọi người
thường xuyên tải video lên YouTube. Định dạng của tệp video (cho dù đó là
tệp có độ phân giải cao hay độ phân giải thấp hơn) là siêu dữ liệu.
thông tin về thời gian tải lên là siêu dữ liệu. tài khoản
mà nó được tải lên cũng là siêu dữ liệu. Bản ghi tải xuống
video cũng là siêu dữ liệu.
Dữ liệu có thể thuộc các loại khác nhau.
1. Dữ liệu có thể là một tập hợp các giá trị không có thứ tự. Ví dụ: một nhà bán
lẻ bán áo sơ mi có màu đỏ, xanh dương và xanh lá cây. không có thứ tự nội
tại giữa các giá trị màu này. Người ta khó có thể tranh luận rằng bất kỳ
màu nào cao hơn hoặc thấp hơn màu kia. được gọi là dữ liệu danh nghĩa
(có nghĩa là tên).
2. Dữ liệu có thể được sắp xếp các giá trị như nhỏ, trung bình và
lớn. Ví dụ: kích cỡ của áo sơ mi có thể là cực nhỏ, nhỏ, trung bình
và lớn. Rõ ràng là trung bình lớn hơn nhỏ và lớn hơn trung bình.
Nhưng sự khác biệt có thể không bằng nhau. được gọi là dữ liệu
thứ tự (có thứ tự).
3. Một loại dữ liệu khác có các giá trị số rời rạc được xác định trong một phạm
vi nhất định, với giả định khoảng cách bằng nhau giữa các giá trị. Điểm hài
lòng của khách hàng có thể được xếp hạng theo thang điểm 10 với 1 là
thấp nhất và 10 là cao nhất. là yêu cầu người trả lời cẩn thận hiệu chỉnh
toàn bộ phạm vi một cách khách quan nhất có thể và đặt phép đo của
chính mình vào thang đo đó. được gọi là dữ liệu khoảng (khoảng bằng
nhau).
số 8 TRÍ TUỆ KINH DOANH VÀ KHAI THÁC DỮ LIỆU
4. Mức cao nhất của dữ liệu số là dữ liệu tỷ lệ có thể nhận bất kỳ giá trị số
nào. Cân nặng và chiều cao của tất cả nhân viên sẽ là các giá trị số
chính xác. Giá của một chiếc áo sơ mi cũng sẽ có bất kỳ giá trị số nào.
Nó được gọi là dữ liệu tỷ lệ (bất kỳ phân số).
5. Trước đây là một loại dữ liệu khác không phù hợp với nhiều phân tích toán
học, ít nhất là không trực tiếp. Dữ liệu như vậy trước tiên cần được cấu trúc
và sau đó được phân tích. bao gồm dữ liệu như tệp âm thanh, video và đồ
thị, thường được gọi là BLOB (Đối tượng lớn nhị phân). Các loại dữ liệu này
phù hợp với các hình thức phân tích và khai thác khác nhau. Các bài hát có
thể được mô tả là vui hay buồn, nhịp độ nhanh hay chậm, v.v. Chúng có thể
chứa đựng tình cảm và ý định, nhưng chúng không chính xác về mặt định
lượng.
Độ chính xác của phân tích tăng lên khi dữ liệu trở nên số hơn. Dữ liệu tỷ
lệ có thể được phân tích toán học nghiêm ngặt. Ví dụ, dữ liệu thời tiết chính
xác về nhiệt độ, áp suất và độ ẩm có thể được sử dụng để tạo ra các mô hình
toán học nghiêm ngặt có thể dự đoán chính xác thời tiết trong tương lai.
Dữ liệu có thể được cung cấp công khai và có thể chia sẻ hoặc có thể được đánh dấu là
riêng tư. Theo truyền thống, luật pháp cho phép quyền riêng tư liên quan đến dữ liệu cá nhân
của một người. Có một cuộc tranh luận lớn về việc dữ liệu cá nhân được chia sẻ trên các cuộc
trò chuyện trên mạng xã hội là riêng tư hay có thể được sử dụng cho mục đích thương mại.
Dữ liệu hóalà một thuật ngữ mới có nghĩa là hầu hết mọi hiện tượng
hiện đang được quan sát và lưu trữ. Nhiều thiết bị được kết nối với
Internet. Ngày càng có nhiều người liên tục kết nối với “mạng lưới”, bằng
mạng điện thoại hoặc Internet, v.v. Mọi lần nhấp chuột trên web và mọi
chuyển động của thiết bị di động đều được ghi lại. Máy đang tạo dữ liệu.
e “Internet vạn vật” đang phát triển nhanh hơn Internet của con người.
Tất cả những điều này đang tạo ra một khối lượng dữ liệu tăng theo cấp
số nhân, với tốc độ cao. Định luật Kryder dự đoán rằng mật độ và khả
năng của phương tiện lưu trữ ổ cứng sẽ tăng gấp đôi sau mỗi 18 tháng.
Khi chi phí lưu trữ tiếp tục giảm với tốc độ nhanh chóng, sẽ có nhiều
động lực hơn để ghi lại và lưu trữ nhiều sự kiện và hoạt động hơn ở độ
phân giải cao hơn. Dữ liệu đang được lưu trữ ở độ phân giải chi tiết hơn,
cơ sở dữ liệu
Cơ sở dữ liệu là một tập hợp dữ liệu được mô hình hóa có thể truy cập theo nhiều cách.
Một mô hình dữ liệu có thể được thiết kế để tích hợp dữ liệu hoạt động của tổ chức. Mô
hình dữ liệu trừu tượng hóa các thực thể chính liên quan đến một hành động và các mối
quan hệ của chúng. Hầu hết các cơ sở dữ liệu ngày nay đều tuân theo mô hình dữ liệu
quan hệ và các biến thể của nó. Mỗi kỹ thuật mô hình hóa dữ liệu áp đặt các quy tắc và
ràng buộc nghiêm ngặt để đảm bảo tính toàn vẹn và nhất quán của dữ liệu theo thời gian.
Lấy ví dụ về một tổ chức bán hàng. Một mô hình dữ liệu để quản lý đơn đặt
hàng của khách hàng sẽ liên quan đến dữ liệu về khách hàng, đơn đặt hàng, sản
phẩm và mối quan hệ qua lại giữa chúng. Mối quan hệ giữa khách hàng và đơn
hàng sẽ là một khách hàng có thể đặt nhiều đơn hàng, nhưng một đơn hàng sẽ
được đặt bởi một và chỉ một khách hàng. Nó được gọi là mối quan hệ một-nhiều.
Mối quan hệ giữa đơn đặt hàng và sản phẩm phức tạp hơn một chút. Một đơn
hàng có thể chứa nhiều sản phẩm. Và một sản phẩm có thể chứa trong nhiều
đơn hàng khác nhau. được gọi là mối quan hệ nhiều-nhiều. Các loại quan hệ
khác nhau có thể được mô hình hóa trong cơ sở dữ liệu.
Cơ sở dữ liệu đã phát triển vượt bậc theo thời gian. ey đã phát triển trong
độ phức tạp về số lượng đối tượng và thuộc tính của chúng được ghi lại. Họ
cũng đã tăng số lượng dữ liệu được lưu trữ. Một thập kỷ trước, một cơ sở dữ liệu
cỡ terabyte được coi là lớn. Cơ sở dữ liệu ngày nay tính bằng petabyte và
exabyte. Video và các tệp phương tiện khác đã góp phần rất lớn vào sự phát
triển của cơ sở dữ liệu. Thương mại điện tử và các hoạt động dựa trên web khác
cũng tạo ra lượng dữ liệu khổng lồ. Dữ liệu được tạo thông qua phương tiện
truyền thông xã hội cũng đã tạo ra cơ sở dữ liệu lớn. e-mail lưu trữ, bao gồm các
tài liệu đính kèm của các tổ chức, có kích thước lớn tương tự nhau.
Nhiều hệ thống phần mềm quản lý cơ sở dữ liệu (DBMS) có sẵn để
giúp lưu trữ và quản lý dữ liệu này. Chúng bao gồm các hệ thống thương mại,
chẳng hạn như hệ thống Oracle và DB2. trước đây cũng là DBMS nguồn mở, miễn phí, các
chẳng hạn như MySQL và Postgres. DBMS này giúp xử lý và lưu trữ hàng triệu
rất nhiều giao dịch có giá trị dữ liệu mỗi giây.

Đây là một cơ sở dữ liệu đơn giản về doanh số bán phim trên toàn thế giới cho một tổ
chức bán lẻ. Nó cho thấy các giao dịch bán hàng của các bộ phim trong ba phần tư. Sử
dụng một tệp như vậy, dữ liệu có thể được thêm, truy cập và cập nhật khi cần.
Cơ sở dữ liệu giao dịch phim

Gọi món # Ngày bán Tên sản phẩm Vị trí Tổng giá trị
1 Tháng 4 năm 2013 Monty Python Hoa Kỳ $9
2 Tháng năm 2013 Cuốn theo chiều gió Hoa Kỳ $15
3 Tháng 6 năm 2013 Monty Python Ấn Độ $9
4 Tháng 6 năm 2013 Monty Python thống nhất $12

Vương quốc
5 Tháng 7 năm 2013 ma trận Hoa Kỳ $12
6 Tháng 7 năm 2013 Monty Python Hoa Kỳ $12

7 Tháng 7 năm 2013 Cuốn theo chiều gió Hoa Kỳ $15
số 8 Tháng 8 năm 2013 ma trận Hoa Kỳ $12
9 tháng 9 năm 2013 ma trận Ấn Độ $12
10 tháng 9 năm 2013 Monty Python Hoa Kỳ $9
11 tháng 9 năm 2013 Cuốn theo chiều gió Hoa Kỳ $15
12 tháng 9 năm 2013 Monty Python Ấn Độ $9
13 tháng 11 năm 2013 Cuốn theo chiều gió Hoa Kỳ $15

kho dữ liệu
Kho dữ liệu là nơi lưu trữ dữ liệu có tổ chức từ khắp nơi trong tổ chức,
được thiết kế đặc biệt để giúp đưa ra các quyết định quản lý. Dữ liệu có
thể được trích xuất từ cơ sở dữ liệu hoạt động để trả lời một nhóm truy
vấn cụ thể. là dữ liệu, được kết hợp với dữ liệu khác, có thể được cuộn lại
thành một mức độ chi tiết nhất quán và được tải lên một kho lưu trữ dữ
liệu riêng gọi là kho dữ liệu. do đó, kho dữ liệu là một phiên bản đơn
giản hơn của cơ sở dữ liệu hoạt động, chỉ với mục đích giải quyết nhu
cầu báo cáo và ra quyết định. Dữ liệu trong kho tăng dần khi có nhiều dữ
liệu vận hành hơn và được trích xuất và nối vào kho dữ liệu. Không giống
như trong cơ sở dữ liệu hoạt động, các giá trị dữ liệu trong kho không
được cập nhật.
Để tạo một kho dữ liệu đơn giản cho dữ liệu bán phim, hãy giả sử một
mục tiêu đơn giản là theo dõi doanh số bán phim và đưa ra quyết định
về quản lý hàng tồn kho. Khi tạo kho dữ liệu này, tất cả dữ liệu giao
dịch bán hàng sẽ được trích xuất từ các tệp dữ liệu hoạt động.
Dữ liệu điện tử sẽ được tổng hợp cho tất cả các kết hợp khoảng
thời gian và số sản phẩm. chúng tôi, sẽ có một hàng cho mọi kết
hợp giữa khoảng thời gian và sản phẩm. e kết quả kho dữ liệu sẽ
như bảng sau.
Kho dữ liệu doanh thu phim

Chèo thuyền # Qtr đã bán tên sản phẩm Tổng giá trị
1 quý 2 Cuốn theo chiều gió $15
2 quý 2 Monty Python $30
3 Q3 Cuốn theo chiều gió $30
4 Q3 ma trận $36
5 Q3 Monty Python $30
6 Q4 Cuốn theo chiều gió $15
7 Q4 Monty Python $18
Dữ liệu trong kho dữ liệu ít chi tiết hơn nhiều so với cơ sở dữ liệu
giao dịch. Kho dữ liệu điện tử có thể đã được thiết kế ở mức độ chi tiết
hoặc mức độ chi tiết thấp hơn hoặc cao hơn. Nếu kho dữ liệu được thiết
kế theo tháng thay vì theo quý thì sẽ có nhiều hàng dữ liệu hơn. Khi số
lượng giao dịch lên đến hàng triệu và cao hơn, với hàng chục thuộc tính
trong mỗi giao dịch, kho dữ liệu có thể lớn và phong phú với những hiểu
biết tiềm năng. Sau đó, người ta có thể khai thác dữ liệu (lát và xúc xắc)
theo nhiều cách khác nhau và khám phá các mẫu có ý nghĩa độc đáo.
Tổng hợp dữ liệu giúp cải thiện tốc độ phân tích. Một kho dữ liệu riêng
biệt cho phép phân tích diễn ra song song một cách riêng biệt mà không
gây gánh nặng cho các hệ thống cơ sở dữ liệu vận hành (Bảng 1.1).
Khai thác dữ liệu
Khai thác dữ liệu là nghệ thuật và khoa học khám phá các mẫu đổi
mới hữu ích từ dữ liệu. Có rất nhiều mẫu có thể được tìm thấy
trong dữ liệu. Có nhiều kỹ thuật, đơn giản hoặc phức tạp, giúp tìm
ra các mẫu.
Bảng 1.1 So sánh hệ thống cơ sở dữ liệu với hệ thống kho dữ liệu

Hàm số cơ sở dữ liệu kho dữ liệu
Mục đích Dữ liệu được lưu trữ trong cơ sở dữ liệu có thể Dữ liệu trong kho dữ liệu là dữ liệu
được sử dụng cho nhiều mục đích bao gồm sạch, hữu ích cho việc báo cáo và
các hoạt động hàng ngày phân tích
độ chi tiết Dữ liệu chi tiết cao bao gồm tất cả Dữ liệu chi tiết thấp hơn; cuộn lên đến các
hoạt động và chi tiết giao dịch kích thước quan tâm chính nhất định
phức tạp Rất phức tạp với hàng chục hoặc hàng Thường được tổ chức xung quanh một
trăm tập tin dữ liệu, được liên kết thông bảng dữ kiện lớn và nhiều bảng tra cứu
qua các trường dữ liệu chung
Kích thước Cơ sở dữ liệu phát triển với khối lượng hoạt Phát triển khi dữ liệu từ cơ sở dữ liệu hoạt
động và giao dịch ngày càng tăng. Các giao động được cuộn lại và thêm vào mỗi ngày.
dịch cũ đã hoàn thành sẽ bị xóa để giảm Dữ liệu được giữ lại để phân tích xu hướng
dung lượng dài hạn
kiến trúc Cơ sở dữ liệu quan hệ và hướng Lược đồ sao hoặc lược đồ Snow ake
lựa chọn đối tượng
Truy cập dữ liệu Chủ yếu thông qua các ngôn ngữ Được truy cập thông qua SQL; Đầu ra SQL
cơ chế cấp cao như SQL. Cơ sở dữ liệu được chuyển tiếp đến các công cụ báo cáo và
truy cập lập trình truyền thống công cụ trực quan hóa dữ liệu
thông qua các giao diện Kết nối Cơ

sở dữ liệu Mở (ODBC)
Trong ví dụ này, một kỹ thuật phân tích dữ liệu đơn giản có thể được áp dụng
cho dữ liệu trong kho dữ liệu đã đề cập trước đó. Một bảng kết quả chéo đơn
giản theo quý và sản phẩm sẽ tiết lộ một số mẫu dễ dàng nhìn thấy.
Doanh số bán phim theo quý—Bảng chéo

Cuốn theo
Qtr/Sản phẩm cơn gió ma trận Monty Python Tổng doanh thu
quý 2 $15 0 $30 $45

Q3 $30 $36 $30 $96
Q4 $15 0 $18 $33
Tổng doanh thu $60 $36 $78 $174
Dựa trên bảng chéo này, người ta có thể dễ dàng trả lời một số câu hỏi về bán
sản phẩm, chẳng hạn như:
1. Đâu là bộ phim bán chạy nhất tính theo doanh thu?—Monty Python
2. Quý tốt nhất theo doanh thu trong năm nay là gì?—Q3
3. Còn mẫu nào khác không?—Phim ma trận chỉ bán ởQ3 (mặt hàng theo mùa).
Những hiểu biết đơn giản này có thể giúp lập kế hoạch quảng cáo tiếp thị và quản
lý kho các bộ phim khác nhau.
Nếu một bảng chéo được thiết kế để bao gồm dữ liệu vị trí của khách hàng, người ta
có thể trả lời các câu hỏi khác, chẳng hạn như:
1. Địa lý bán chạy nhất là gì?—Hoa Kỳ

2. Địa lý bán chạy nhất là gì?—Vương quốc Anh
3. Còn mẫu nào khác không?—Monty Python bán trên toàn cầu, trong khi
Cuốn theo chiều gió chỉ bán ở Hoa Kỳ.
Nếu việc khai thác dữ liệu được thực hiện ở mức dữ liệu hàng tháng,
sẽ rất dễ bỏ sót tính thời vụ của các bộ phim. Tuy nhiên, người ta có thể
nhận thấy rằng tháng 9 là tháng bán chạy nhất.
Ví dụ trước cho thấy có thể nhận thấy nhiều sự khác biệt và các mẫu bằng cách
phân tích dữ liệu theo những cách khác nhau. Tuy nhiên, một số hiểu biết quan trọng hơn
những hiểu biết khác. Giá trị của cái nhìn sâu sắc phụ thuộc vào vấn đề đang được giải
quyết. Thông tin chi tiết về việc có nhiều doanh số bán một sản phẩm hơn trong một quý
nhất định giúp người quản lý lên kế hoạch tập trung vào những sản phẩm nào. Trong
trường hợp này, người quản lý cửa hàng nên dự trữ Matrix trong Quý 3 (Q3). Tương tự,
biết quý nào có tổng doanh thu cao nhất cho phép đưa ra các quyết định về nguồn lực
khác nhau trong quý đó. Trong trường hợp này, nếu quý 3 mang lại hơn một nửa tổng
doanh số, điều này đòi hỏi sự chú ý nhiều hơn trên trang web thương mại điện tử trong
quý thứ ba.
Khai thác dữ liệu nên được thực hiện để giải quyết các vấn đề có giá trị cao, ưu tiên
cao. Cần nhiều nỗ lực để thu thập dữ liệu, làm sạch và sắp xếp dữ liệu, khai thác dữ liệu
bằng nhiều kỹ thuật, giải thích kết quả và tìm ra thông tin chi tiết phù hợp. Điều quan
trọng là phải đạt được kết quả mong đợi lớn từ việc tìm kiếm thông tin chi tiết. Người ta
nên chọn đúng dữ liệu (và bỏ qua phần còn lại), sắp xếp nó thành một khung đẹp mắt và
giàu trí tưởng tượng để tập hợp các dữ liệu có liên quan lại với nhau, sau đó áp dụng các
kỹ thuật khai thác dữ liệu để suy ra thông tin chi tiết phù hợp.
Một công ty bán lẻ có thể sử dụng các kỹ thuật khai thác dữ liệu để xác định
danh mục sản phẩm mới nào sẽ được thêm vào cửa hàng nào của họ; làm thế nào để
tăng doanh số bán các sản phẩm hiện có; mở cửa hàng mới ở địa điểm nào; cách
phân khúc khách hàng để truyền thông hiệu quả hơn; và như thế.
Dữ liệu có thể được phân tích ở nhiều cấp độ chi tiết và có thể
dẫn đến một số lượng lớn các kết hợp dữ liệu thú vị và thú vị.
hoa văn. Một số mẫu có thể có ý nghĩa hơn những mẫu khác. Dữ liệu chi tiết cao như
vậy thường được sử dụng, đặc biệt là trong các lĩnh vực tài chính và công nghệ cao,
để người ta có thể giành được lợi thế dù là nhỏ nhất so với đối thủ.
Sau đây là những mô tả ngắn gọn về một số kỹ thuật khai thác dữ liệu quan
trọng nhất được sử dụng để tạo ra những hiểu biết sâu sắc về dữ liệu.
Cây quyết định:giúp phân loại quần thể thành các lớp. Người ta nói rằng
70 phần trăm của tất cả các công việc khai thác dữ liệu là về các giải pháp
phân loại; và 70% công việc phân loại sử dụng cây quyết định. chúng tôi, cây
quyết định là kỹ thuật khai thác dữ liệu quan trọng và phổ biến nhất.
Có nhiều thuật toán phổ biến để tạo cây quyết định. Chúng khác nhau
về cơ chế của chúng và mỗi kỹ thuật hoạt động tốt cho các tình huống
khác nhau. Có thể thử nhiều thuật toán trên một tập dữ liệu và so sánh
độ chính xác dự đoán của từng cây.
Hồi quy: là một kỹ thuật được hiểu rõ từ lĩnh vực mục tiêu là tìm ra
tistics. đường cong phù hợp nhất thông qua nhiều dữ liệu và đường
điểm. cong phù hợp nhất là đường cong giảm thiểu khoảng cách (lỗi)
giữa các điểm dữ liệu thực tế và các giá trị được dự đoán bởi đường cong.
Các mô hình hồi quy có thể được dự kiến trong tương lai cho các mục đích
dự đoán và dự báo.
Mạng thần kinh nhân tạo (ANN):Bắt nguồn từ lĩnh vực trí tuệ nhân tạo và học
máy, ANN là các mô hình xử lý thông tin phi tuyến tính đa lớp học hỏi từ dữ liệu
trong quá khứ và dự đoán các giá trị trong tương lai. Các mô hình này dự đoán tốt,
dẫn đến sự phổ biến của chúng. Các tham số của mô hình điện tử có thể không trực
quan lắm. chúng ta, mạng lưới thần kinh không rõ ràng như một hộp đen. Các hệ
thống này cũng yêu cầu một lượng lớn dữ liệu trong quá khứ để huấn luyện hệ
thống một cách đầy đủ.
Phân tích cluster:là một kỹ thuật khai thác dữ liệu quan trọng để phân
chia và chinh phục các tập dữ liệu lớn. Tập dữ liệu được chia thành một số
cụm nhất định, bằng cách phân biệt những điểm tương đồng và khác biệt
trong dữ liệu. không có câu trả lời đúng cho số cụm trong dữ liệu. Người
dùng cần đưa ra quyết định bằng cách xem số lượng cụm được chọn phù
hợp với dữ liệu như thế nào. được sử dụng phổ biến nhất để phân khúc thị
trường. Không giống như cây quyết định và hồi quy, không có câu trả lời
đúng nào cho phân tích cụm.
Khai phá luật kết hợp:Còn được gọi là phân tích giỏ thị trường khi được sử dụng
trong ngành bán lẻ, những kỹ thuật này tìm kiếm mối liên hệ giữa dữ liệu
các giá trị. Việc phân tích các mặt hàng thường được tìm thấy cùng nhau trong một giỏ
hàng có thể giúp bán chéo sản phẩm và cũng tạo ra các gói sản phẩm.
Trực quan hóa dữ liệu
Khi dữ liệu và thông tin chi tiết tăng lên về số lượng, một yêu cầu mới là khả năng của các
giám đốc điều hành và người ra quyết định tiếp thu thông tin này trong thời gian thực.
năng lực hình dung và hiểu biết của con người là có giới hạn, đó là
thành phố. lý do chính đáng để ưu tiên và quản lý ít hơn nhưng quan trọng
các biến liên quan trực tiếp đến các lĩnh vực kết quả chính của một vai trò.
Dưới đây là một vài cân nhắc khi trình bày dữ liệu:
1. Trình bày các kết luận chứ không chỉ báo cáo dữ liệu.
2. Chọn một cách khôn ngoan từ bảng biểu đồ cho phù hợp với dữ liệu.
3. Tổ chức các kết quả để làm nổi bật điểm trung tâm.
4. Đảm bảo rằng hình ảnh phản ánh chính xác các con số. Hình ảnh không
phù hợp có thể tạo ra những diễn giải sai và hiểu lầm.
5. Làm cho bài thuyết trình trở nên độc đáo, giàu trí tưởng tượng và đáng nhớ.
Bảng điều hành được thiết kế để cung cấp thông tin về một số biến được chọn
cho mỗi giám đốc điều hành. Họ sử dụng đồ thị, mặt số và danh sách để hiển thị
trạng thái của các tham số quan trọng. bảng điều khiển này cũng có ca-
khả năng cho phép phân tích nguyên nhân gốc rễ của các tình huống ngoại lệ (Hình 1.3).
Hình 1.3 Bảng điều khiển mẫu

Hình 1.4 Trực quan hóa dữ liệu mẫu
Trực quan hóa dữ liệu đã là một vấn đề thú vị trong các ngành. Nhiều
chiều của dữ liệu có thể được hiển thị một cách hiệu quả trên bề mặt hai
chiều để đưa ra mô tả phong phú và sâu sắc hơn về tổng thể của câu
chuyện.
Bản trình bày cổ điển về câu chuyện về cuộc hành quân của Napoléon tới
Nga năm 1812, của nhà vẽ bản đồ người Pháp Joseph Minard, được thể hiện
trong Hình 1.4. Nó bao gồm khoảng sáu chiều. Thời gian nằm trên trục hoành.
Các tọa độ địa lý và sông được ánh xạ vào. Độ dày của thanh hiển thị số lượng
quân tại bất kỳ thời điểm nào được ánh xạ. Một màu được sử dụng cho cuộc
hành quân tiếp theo và một màu khác cho cuộc rút lui. nhiệt độ thời tiết tại mỗi
thời điểm được hiển thị trong biểu đồ đường ở dưới cùng.
Tổ chức của cuốn sách

Chương này được thiết kế để cung cấp toàn bộ kiến thức kinh doanh thông minh
và khai thác dữ liệu, nhằm cung cấp cho người đọc trực giác về lĩnh vực kiến thức
này. Phần còn lại của cuốn sách có thể được xem xét trong ba phần.
Phần 1 sẽ bao gồm các chủ đề cấp cao. Chương 2 sẽ đề cập đến lĩnh vực
kinh doanh thông minh và các ứng dụng của nó trong các ngành và chức năng.
Chương 3 sẽ giải thích ngắn gọn kho dữ liệu là gì và nó giúp ích như thế nào
với khai phá dữ liệu. Sau đó, Chương 4 sẽ mô tả một số chi tiết về khai thác dữ
liệu với tổng quan về các công cụ và kỹ thuật chính của nó.
Phần 2 tập trung vào các kỹ thuật khai phá dữ liệu. Mỗi kỹ thuật sẽ được
hiển thị thông qua việc giải quyết một ví dụ một cách chi tiết. Chương 5 sẽ
chỉ ra sức mạnh và sự dễ dàng của cây quyết định, đây là kỹ thuật khai thác
dữ liệu phổ biến nhất. Chương 6 sẽ mô tả các kỹ thuật lập mô hình hồi quy
thống kê. Chương 7 sẽ cung cấp một cái nhìn tổng quan về ANN. Chương 8
sẽ mô tả cách thức phân tích cụm có thể giúp phân khúc thị trường. Cuối
cùng, Chương 9 sẽ mô tả kỹ thuật khai phá luật kết hợp, hay còn gọi là phân
tích giỏ thị trường, giúp tìm ra các mẫu mua sắm.
Phần 3 sẽ bao gồm các chủ đề mới nâng cao hơn. Chương 10 sẽ giới thiệu các
khái niệm và kỹ thuật khai thác văn bản, giúp khám phá những hiểu biết sâu sắc từ
dữ liệu văn bản, bao gồm cả dữ liệu truyền thông xã hội. Chương 11 sẽ cung cấp một
cái nhìn tổng quan về lĩnh vực khai thác web đang phát triển, bao gồm khai thác cấu
trúc, nội dung và cách sử dụng các trang web. Chương 12 sẽ giới thiệu tổng quan về
lĩnh vực Dữ liệu lớn. Chương 13 đã được thêm vào như một phần cơ bản về mô hình
hóa dữ liệu, dành cho những người chưa có kiến thức cơ bản về cơ sở dữ liệu và
nên được sử dụng nếu cần thiết.
câu hỏi ôn tập
1. Mô tả chu trình kinh doanh thông minh và khai thác dữ liệu.
2. Mô tả chuỗi xử lý dữ liệu.
3. Điểm giống nhau giữa khai thác kim cương và khai thác dữ liệu là gì?
4. Các kỹ thuật khai thác dữ liệu khác nhau là gì? Cái nào trong số này sẽ phù
hợp với công việc hiện tại của bạn?
5. Bảng điều khiển là gì? Nó giúp ích như thế nào?
6. Tạo một hình ảnh trực quan để hiển thị kiểu thời tiết trong thành phố của bạn. Bạn có
thể hiển thị cùng lúc nhiệt độ, độ ẩm, gió và mưa/tuyết trong một khoảng thời gian
không.
PHẦN 1
là phần bao gồm ba chủ đề cấp cao quan trọng.

Chương 2 sẽ đề cập đến các khái niệm kinh doanh thông minh và các ứng dụng của nó trong
nhiều ngành công nghiệp.
Chương 3 sẽ mô tả các hệ thống kho dữ liệu, cách tạo và

quản lý chúng.
Chương 4 sẽ mô tả toàn bộ việc khai thác dữ liệu, với nhiều điều nên và không
nên để khai thác dữ liệu hiệu quả.

CHƯƠNG 2
kinh doanh thông minh

Khái niệm và ứng dụng
Kinh doanh thông minh (BI) là một thuật ngữ chung bao gồm nhiều ứng dụng
CNTT được sử dụng để phân tích dữ liệu của một tổ chức và truyền đạt thông tin
đến những người dùng có liên quan. Các thành phần chính của nó là kho dữ
liệu, khai thác dữ liệu, truy vấn và báo cáo (Hình 2.1).
Bản chất của cuộc sống và doanh nghiệp là phát triển. Thông tin là huyết
mạch của kinh doanh. Các doanh nghiệp sử dụng nhiều kỹ thuật để hiểu môi trường
của họ và dự đoán tương lai vì lợi ích và sự phát triển của chính họ. Quyết định được
đưa ra từ thực tế và cảm xúc. Các quyết định dựa trên dữ liệu hiệu quả hơn những
quyết định chỉ dựa trên cảm xúc. Các hành động dựa trên dữ liệu, thông tin, kiến
thức, thử nghiệm và thử nghiệm chính xác, sử dụng những hiểu biết mới, có nhiều
khả năng thành công và dẫn đến tăng trưởng bền vững.
Hình 2.1 Chu kỳ kinh doanh thông minh và khai thác dữ liệu
Dữ liệu của chính mình có thể là giáo viên hiệu quả nhất. do đó, các tổ chức nên thu thập
dữ liệu, sàng lọc dữ liệu, phân tích và khai thác dữ liệu, tìm thông tin chi tiết và sau đó
nhúng những thông tin chi tiết đó vào quy trình vận hành của họ.
Có một cảm giác mới về tầm quan trọng và tính cấp bách xung quanh dữ liệu vì
nó đang được xem như một nguồn tài nguyên thiên nhiên mới. Nó có thể được khai thác
để có giá trị, hiểu biết sâu sắc và lợi thế cạnh tranh. Trong một thế giới siêu kết nối, nơi
mọi thứ đều có khả năng kết nối với mọi thứ khác, với những mối tương quan vô hạn tiềm
ẩn, dữ liệu đại diện cho các xung lực của tự nhiên dưới dạng các sự kiện và thuộc tính
nhất định. Một người kinh doanh lành nghề có động lực sử dụng bộ đệm dữ liệu này để
khai thác thiên nhiên và tìm ra những cơ hội mới chưa được khai thác có thể trở thành
những dự án kinh doanh có lãi.
Caselet: Khan Academy—BI trong giáo dục
Khan Academy là một tổ chức giáo dục phi lợi nhuận sáng tạo đang làm đảo lộn
hệ thống giáo dục K-12. Nó cung cấp các bài học video ngắn dựa trên You-Tube
về hàng ngàn chủ đề miễn phí. Nó trở nên nổi tiếng khi Bill Gates quảng bá nó
như một nguồn tài nguyên mà ông dùng để dạy con cái của mình. Với loại tài
nguyên này, các lớp học được đảo lộn, nghĩa là học sinh học theo kiểu bài giảng
cơ bản ở nhà bằng cách sử dụng các video đó, trong khi thời gian trên lớp được
sử dụng để giải quyết vấn đề và huấn luyện trực tiếp hơn. Học sinh có thể truy
cập các bài học bất cứ lúc nào để học theo tốc độ của riêng mình. Sự tiến bộ của
học sinh được ghi lại, bao gồm những video họ đã xem, họ đã xem bao nhiêu lần,
họ vấp phải vấn đề nào và họ đạt được bao nhiêu điểm trong các bài kiểm tra
trực tuyến.
Khan Academy đã phát triển các công cụ để giúp giáo viên nắm bắt được
những gì đang diễn ra trong lớp học. Giáo viên được cung cấp một bộ bảng điều
khiển thời gian thực để cung cấp cho họ thông tin từ cấp vĩ mô (“Lớp của tôi học
hình học thế nào?”) đến cấp vi mô (“Jane học tốt đa giác như thế nào?”). Được
trang bị thông tin này, giáo viên có thể tập trung chọn lọc vào những học sinh
cần sự giúp đỡ nhất định. (Nguồn: KhanAcademy.org)
Q1. Làm thế nào để bảng điều khiển cải thiện trải nghiệm giảng dạy và trải
nghiệm học tập của học sinh?
Q2. Thiết kế một bảng điều khiển để theo dõi sự nghiệp của riêng bạn.
KHÁI NIỆM VÀ ỨNG DỤNG TRÍ TUỆ TRONG DOANH NGHIỆP 23
BI cho các quyết định tốt hơn
Tương lai vốn không chắc chắn. Rủi ro là kết quả của một thế giới xác suất, nơi
không có gì chắc chắn và phức tạp. Mọi người sử dụng quả cầu pha lê, chiêm tinh
học, xem tướng tay, bói toán, toán học và các con số để giảm thiểu rủi ro trong quá
trình ra quyết định. Mục tiêu là đưa ra quyết định hiệu quả, đồng thời giảm thiểu rủi
ro. Các doanh nghiệp tính toán rủi ro và đưa ra quyết định dựa trên một loạt các sự
kiện và hiểu biết sâu sắc. Kiến thức đáng tin cậy về tương lai có thể giúp các nhà
quản lý đưa ra quyết định đúng đắn với mức độ rủi ro thấp hơn.
Tốc độ hành động đã tăng theo cấp số nhân cùng với sự phát triển của
Internet. Trong một thế giới siêu cạnh tranh, tốc độ của một quyết định và hành
động tiếp theo có thể là một lợi thế quan trọng. e Internet và công nghệ di động
cho phép đưa ra quyết định mọi lúc, mọi nơi. Bỏ qua những thay đổi nhanh
chóng có thể đe dọa tương lai của tổ chức. Nghiên cứu đã chỉ ra rằng một bình
luận bất lợi về công ty và các sản phẩm của công ty trên mạng xã hội không nên
bị bỏ qua trong thời gian dài. Các ngân hàng đã phải trả khoản tiền phạt khổng
lồ cho Cục Bảo vệ Tài chính Người tiêu dùng (CFPB) tại Hoa Kỳ vào năm 2013 vì
các khiếu nại trên các trang web của CFPB. Mặt khác, tình cảm tích cực được thể
hiện trên phương tiện truyền thông xã hội cũng nên được tận dụng như một cơ
hội bán hàng và quảng cáo tiềm năng, trong khi cơ hội vẫn còn.
Các loại quyết định
Có hai loại quyết định chính: quyết định chiến lược và quyết định tác nghiệp. BI có
thể giúp làm cho cả hai tốt hơn. Các quyết định chiến lược là những quyết định tác
động đến định hướng của công ty. Quyết định tiếp cận với một tập khách hàng mới
sẽ là một quyết định chiến lược. Các quyết định hoạt động là các quyết định mang
tính chiến thuật và thường xuyên hơn, tập trung vào việc phát triển hiệu quả cao
hơn. Cập nhật một trang web cũ với các tính năng mới sẽ là một quyết định hoạt
động.
Trong quá trình ra quyết định chiến lược, bản thân mục tiêu có thể rõ ràng hoặc
không, và con đường để đạt được mục tiêu cũng vậy. hậu quả của
quyết định sẽ rõ ràng một thời gian sau đó. chúng tôi, một người liên tục
quét các khả năng mới và các con đường mới để đạt được các mục tiêu. BI có thể giúp
phân tích what-if trong nhiều tình huống có thể xảy ra. BI cũng có thể giúp tạo ra các ý
tưởng mới dựa trên các mẫu mới được tìm thấy từ khai thác dữ liệu.
Các quyết định hoạt động có thể được đưa ra hiệu quả hơn bằng cách sử dụng phân tích
dữ liệu trong quá khứ. Một hệ thống phân loại có thể được tạo và lập mô hình bằng cách sử
dụng dữ liệu của các trường hợp trong quá khứ để phát triển một mô hình miền tốt. là mô hình
có thể giúp cải thiện các quyết định hoạt động trong tương lai. BI có thể giúp tự động hóa việc
ra quyết định ở cấp độ hoạt động và nâng cao hiệu quả bằng cách đưa ra hàng triệu quyết định
vận hành ở cấp độ vi mô theo cách dựa trên mô hình. Ví dụ: một ngân hàng có thể muốn đưa ra
quyết định về việc cho vay tài chính theo cách khoa học hơn bằng cách sử dụng các mô hình
dựa trên dữ liệu. Một mô hình dựa trên cây quyết định có thể đưa ra các quyết định cho vay
chính xác nhất quán. Phát triển các mô hình cây quyết định như vậy là một trong những ứng
dụng chính của kỹ thuật khai phá dữ liệu.
BI hiệu quả có một thành phần tiến hóa, khi các mô hình kinh doanh phát triển. Khi
mọi người và các tổ chức hành động, các sự kiện (dữ liệu) mới được tạo ra. Các mô hình
kinh doanh hiện tại có thể được kiểm tra dựa trên dữ liệu mới và có thể những mô hình
đó sẽ không hoạt động tốt. Trong trường hợp đó, các mô hình quyết định nên được sửa
đổi và những hiểu biết mới nên được đưa vào. Một quá trình không ngừng tạo ra những
hiểu biết sâu sắc mới trong thời gian thực có thể giúp đưa ra quyết định tốt hơn và do đó
có thể là một lợi thế cạnh tranh đáng kể.
Công cụ BI
BI bao gồm nhiều công cụ và kỹ thuật phần mềm để cung cấp cho người
quản lý thông tin và hiểu biết cần thiết để điều hành doanh nghiệp. Thông
tin có thể được cung cấp về tình trạng hiện tại với khả năng đi sâu vào chi
tiết và cả những hiểu biết sâu sắc về các mô hình mới nổi dẫn đến các dự
đoán trong tương lai. Các công cụ BI bao gồm kho dữ liệu, xử lý phân tích
trực tuyến, phân tích phương tiện truyền thông xã hội, báo cáo, bảng điều
khiển, truy vấn và khai thác dữ liệu.
Các công cụ BI có thể bao gồm từ các công cụ rất đơn giản có thể được coi là
công cụ của người dùng cuối, đến các công cụ rất phức tạp cung cấp một bộ chức
năng rất rộng và phức tạp. chúng tôi, Ngay cả các giám đốc điều hành cũng có thể là
chuyên gia BI của riêng họ hoặc họ có thể dựa vào các chuyên gia BI để thiết lập cơ
chế BI cho họ. chúng tôi, các tổ chức lớn đầu tư vào các giải pháp BI phức tạp đắt
tiền cung cấp thông tin tốt trong thời gian thực.
Một công cụ bảng tính, chẳng hạn như Microsoft Excel, có thể tự hoạt động như một
công cụ BI dễ dàng nhưng hiệu quả. Dữ liệu có thể được tải xuống và lưu trữ trong
bảng tính, sau đó được phân tích để tạo ra thông tin chi tiết, sau đó được trình bày
dưới dạng biểu đồ và bảng. là hệ thống cung cấp tự động hóa hạn chế bằng cách sử dụng
macro và các tính năng khác. các tính năng phân tích điện tử bao gồm thống kê cơ bản
và chức năng tài chính. Bảng Pivot giúp thực hiện phân tích what-if phức tạp.
Các mô-đun bổ sung có thể được cài đặt để cho phép phân tích thống kê phức
tạp vừa phải.
Một hệ thống bảng điều khiển, chẳng hạn như Tableau, có thể cung cấp một bộ
công cụ tinh vi để thu thập, phân tích và trình bày dữ liệu. Ở cuối người dùng, bảng
điều khiển mô-đun có thể được thiết kế và thiết kế lại dễ dàng với giao diện người
dùng đồ họa. e khả năng phân tích dữ liệu back-end bao gồm nhiều
các hàm thống kê. bảng điều khiển điện tử được liên kết với kho dữ liệu tại
back end để đảm bảo rằng các bảng, biểu đồ và các yếu tố khác của bảng điều
khiển được cập nhật theo thời gian thực (Hình 2.2).
Các hệ thống khai thác dữ liệu, chẳng hạn như IBM SPSS Modeler, là các hệ
thống sức mạnh công nghiệp cung cấp khả năng áp dụng nhiều mô hình phân tích
trên các tập dữ liệu lớn. Các hệ thống nguồn mở, chẳng hạn như Weka, là những nền
tảng phổ biến được thiết kế để giúp khai thác lượng lớn dữ liệu nhằm khám phá các
mẫu.
Hình 2.2 Bảng điều khiển mẫu

Kỹ năng BI
Khi dữ liệu phát triển và vượt quá khả năng của chúng tôi để hiểu nó, các công cụ
cần phải phát triển và trí tưởng tượng của chuyên gia BI cũng vậy. “Nhà khoa học dữ
liệu” đã được gọi là công việc nóng nhất của thập kỷ này.
Một chuyên gia BI có kỹ năng và kinh nghiệm phải đủ cởi mở để đi ra

ngoài hộp, mở khẩu độ và nhìn thấy một góc nhìn rộng hơn bao gồm nhiều
thứ nguyên và biến hơn, để tìm ra các mẫu và thông tin chi tiết quan trọng.
Vấn đề cần được nhìn từ một góc nhìn rộng hơn để xem xét nhiều góc độ
hơn mà có thể không hiển nhiên ngay lập tức. Một giải pháp giàu trí tưởng
tượng nên được đề xuất cho vấn đề để các kết quả thú vị và hữu ích có thể
xuất hiện.
Một dự án khai thác dữ liệu tốt bắt đầu với một vấn đề thú vị cần giải quyết.
Lựa chọn đúng bài toán khai thác dữ liệu là một kỹ năng quan trọng. Vấn đề
phải đủ giá trị để giải quyết nó sẽ xứng đáng với thời gian và chi phí. Phải mất
rất nhiều thời gian và năng lượng để thu thập, sắp xếp, làm sạch và chuẩn bị dữ
liệu để khai thác và phân tích khác. công cụ khai thác dữ liệu điện tử cần phải
kiên trì với việc khám phá các mẫu trong dữ liệu. e trình độ kỹ năng phải được
đủ sâu để tương tác với dữ liệu và làm cho dữ liệu mang lại những hiểu biết hữu ích mới.
Ứng dụng BI
Các công cụ BI được yêu cầu trong hầu hết các ngành và chức năng. e thiên nhiên
thông tin và tốc độ hành động có thể khác nhau giữa các doanh nghiệp, nhưng mọi
nhà quản lý ngày nay đều cần truy cập vào các công cụ BI để có các số liệu cập nhật
về hiệu quả kinh doanh. Các doanh nghiệp cần đưa những hiểu biết mới vào quy
trình hoạt động của mình để đảm bảo rằng các hoạt động của họ tiếp tục phát triển
với các phương pháp hiệu quả hơn. Sau đây là một số lĩnh vực ứng dụng của BI và
khai thác dữ liệu.
Quản trị quan hệ khách hàng
Một doanh nghiệp tồn tại để phục vụ khách hàng. Một khách hàng hài lòng trở thành
khách hàng lặp lại. Một doanh nghiệp nên hiểu nhu cầu và tình cảm của khách hàng,
bán nhiều dịch vụ của mình cho khách hàng hiện tại, đồng thời, mở rộng nhóm
khách hàng mà mình phục vụ. Các ứng dụng BI có thể tác động đến nhiều khía cạnh
của tiếp thị.

1.Tối đa hóa lợi tức cho các chiến dịch tiếp thị:Hiểu được những điểm khó khăn của
khách hàng từ phân tích dựa trên dữ liệu có thể đảm bảo rằng các thông điệp
tiếp thị được tinh chỉnh để cộng hưởng tốt hơn với khách hàng.
2.Cải thiện khả năng giữ chân khách hàng (phân tích churn):Việc giành được khách hàng mới
khó khăn và tốn kém hơn nhiều so với việc giữ chân khách hàng hiện có. Việc chấm điểm
từng khách hàng về khả năng họ bỏ cuộc có thể giúp doanh nghiệp thiết kế các biện
pháp can thiệp hiệu quả, chẳng hạn như giảm giá hoặc dịch vụ miễn phí, để giữ chân
những khách hàng có lợi nhuận theo cách tiết kiệm chi phí.
3.Tối đa hóa giá trị khách hàng (bán chéo, bán thêm):Mọi liên hệ với khách hàng
nên được coi là một cơ hội để đánh giá nhu cầu hiện tại của họ. Cung cấp cho
khách hàng các sản phẩm và giải pháp mới dựa trên những nhu cầu được nêu
ra đó có thể giúp tăng doanh thu trên mỗi khách hàng. Ngay cả một lời phàn
nàn của khách hàng cũng có thể được coi là một cơ hội để khiến khách hàng
thán phục. Sử dụng kiến thức về lịch sử và giá trị của khách hàng, doanh
nghiệp có thể chọn bán dịch vụ cao cấp cho khách hàng.
4.Xác định và làm hài lòng các khách hàng có giá trị cao:Bằng cách phân khúc khách
hàng, những khách hàng tốt nhất có thể được xác định. Họ có thể chủ động liên lạc
và vui mừng với sự quan tâm nhiều hơn và dịch vụ tốt hơn. Các chương trình khách
hàng thân thiết có thể được quản lý hiệu quả hơn.
5.Quản lý hình ảnh thương hiệu:Một doanh nghiệp có thể tạo một bài đăng lắng nghe để
lắng nghe những lời bàn tán trên mạng xã hội về chính họ. Sau đó, nó có thể thực hiện
phân tích tình cảm của văn bản để hiểu bản chất của nhận xét và phản hồi thích hợp với
khách hàng tiềm năng và khách hàng.
Chăm sóc sức khỏe và Sức khỏe
Chăm sóc sức khỏe là một trong những lĩnh vực lớn nhất trong các nền kinh tế tiên tiến. Y
học dựa trên bằng chứng là xu hướng mới nhất trong quản lý chăm sóc sức khỏe dựa trên
dữ liệu. Các ứng dụng BI có thể giúp áp dụng các chẩn đoán và đơn thuốc hiệu quả nhất
cho các bệnh khác nhau. ey cũng có thể giúp quản lý các vấn đề sức khỏe cộng đồng,
giảm lãng phí và gian lận.
1.Chẩn đoán bệnh ở bệnh nhân:Chẩn đoán nguyên nhân của một tình trạng y
tế là bước đầu tiên quan trọng trong một cam kết y tế. Chẩn đoán chính
xác các trường hợp ung thư hoặc tiểu đường có thể là vấn đề sinh tử đối
với bệnh nhân. Ngoài tình trạng hiện tại của bệnh nhân, nhiều
các yếu tố khác có thể được xem xét, bao gồm tiền sử sức khỏe của bệnh nhân,
tiền sử dùng thuốc, tiền sử gia đình và các yếu tố môi trường khác.
làm cho việc chẩn đoán trở thành một loại hình nghệ thuật cũng như khoa học. Các
hệ thống, chẳng hạn như IBMWatson, tiếp thu tất cả các nghiên cứu y học cho đến nay
và đưa ra các chẩn đoán xác suất dưới dạng cây quyết định, cùng với lời giải thích đầy đủ
cho các khuyến nghị của chúng. Các hệ thống này loại bỏ hầu hết các công việc phỏng
đoán được thực hiện bởi các bác sĩ trong việc chẩn đoán bệnh.
2.Hiệu quả điều trị:Việc kê đơn thuốc và điều trị cũng là một lựa chọn
khó khăn trong số rất nhiều khả năng. Ví dụ, có hơn 100 loại thuốc
điều trị tăng huyết áp (huyết áp cao). Ngoài ra còn có những tương
tác về loại thuốc nào có tác dụng tốt với những loại thuốc khác và
loại thuốc nào thì không. Cây quyết định có thể giúp các bác sĩ tìm
hiểu và kê đơn các phương pháp điều trị hiệu quả hơn.
chúng tôi, bệnh nhân có thể phục hồi sức khỏe nhanh hơn với nguy cơ biến
chứng và chi phí thấp hơn.
3.Quản lý sức khỏe: bao gồm theo dõi sức khỏe bệnh nhân
hồ sơ, phân tích xu hướng sức khỏe của khách hàng và chủ động tư vấn cho họ thực hiện
bất kỳ biện pháp phòng ngừa cần thiết nào.
4.Quản lý gian lận và lạm dụng:Thật không may, một số bác sĩ đã bị phát hiện tiến
hành các xét nghiệm không cần thiết và/hoặc tính phí quá cao cho chính phủ
và các công ty bảo hiểm y tế. Các hệ thống báo cáo ngoại lệ có thể xác định các
nhà cung cấp như vậy và có thể thực hiện hành động chống lại họ.
5.Quản lý sức khỏe cộng đồng: quản lý sức khỏe cộng đồng là một
trách nhiệm quan trọng của bất kỳ chính phủ nào. Bằng cách sử dụng các công cụ
và kỹ thuật dự báo hiệu quả, các chính phủ có thể dự đoán tốt hơn sự khởi phát của
dịch bệnh ở một số khu vực nhất định trong thời gian thực. do đó họ có thể được
chuẩn bị tốt hơn để chống lại bệnh tật. Google đã được biết là dự đoán sự di chuyển
của một số bệnh bằng cách theo dõi các cụm từ tìm kiếm (như cúm, vắc-xin) được
sử dụng ở các khu vực khác nhau trên thế giới.
Giáo dục
Khi giáo dục đại học trở nên đắt đỏ và cạnh tranh hơn, nó là một người sử dụng
tuyệt vời việc ra quyết định dựa trên dữ liệu. Nhu cầu về tính hiệu quả, tăng doanh
thu và cải thiện chất lượng trải nghiệm của sinh viên ở tất cả các cấp giáo dục là rất
cần thiết.
1.Ghi danh sinh viên (tuyển dụng và duy trì):Tiếp thị cho các sinh viên tiềm năng
mới yêu cầu các trường phát triển hồ sơ của những sinh viên có nhiều khả
năng tham dự nhất. Các trường học có thể phát triển các mô hình về loại học
sinh nào được nhà trường thu hút, sau đó tiếp cận với những học sinh đó. e
học sinh có nguy cơ không trở lại có thể được gắn cờ, và các biện pháp khắc
phục có thể được thực hiện kịp thời.
2.Ưu đãi khóa học:Các trường có thể sử dụng dữ liệu đăng ký lớp học để phát triển
các mô hình trong đó các khóa học mới có khả năng phổ biến hơn với sinh viên.
là có thể giúp tăng quy mô lớp học, giảm chi phí và cải thiện sự hài lòng của
sinh viên.
3.Cựu sinh viên cam kết:Các trường có thể phát triển các mô hình dự đoán mà các
cựu sinh viên có nhiều khả năng cam kết hỗ trợ tài chính cho trường nhất. Các
trường có thể tạo một hồ sơ cho các cựu sinh viên có nhiều khả năng cam kết
đóng góp cho trường hơn. có thể dẫn đến giảm chi phí gửi thư và các hình thức
tiếp cận khác với cựu sinh viên.
Bán lẻ
Các tổ chức bán lẻ phát triển bằng cách đáp ứng nhu cầu của khách hàng với các sản
phẩm chất lượng, một cách thuận tiện, kịp thời và tiết kiệm chi phí. Hiểu các kiểu
mua sắm mới nổi của khách hàng có thể giúp các nhà bán lẻ sắp xếp sản phẩm,
khoảng không quảng cáo, cách bố trí cửa hàng và sự hiện diện trên web của họ để
làm hài lòng khách hàng của họ, từ đó sẽ giúp tăng doanh thu và lợi nhuận. Các nhà
bán lẻ tạo ra rất nhiều dữ liệu giao dịch và hậu cần có thể được sử dụng để giải quyết
các vấn đề.
1.Tối ưu hóa mức tồn kho tại các địa điểm khác nhau:Các nhà bán lẻ cần phải quản lý
hàng tồn kho của họ một cách cẩn thận. Mang theo quá nhiều hàng tồn kho sẽ gây
ra chi phí vận chuyển, trong khi mang theo quá ít hàng tồn kho có thể gây ra tình
trạng hết hàng và mất cơ hội bán hàng. Dự đoán xu hướng bán hàng một cách linh
hoạt có thể giúp các nhà bán lẻ di chuyển hàng tồn kho đến nơi có nhu cầu cao
nhất. Các tổ chức bán lẻ có thể cung cấp cho nhà cung cấp thông tin theo thời gian
thực về doanh số bán các mặt hàng của họ để nhà cung cấp có thể giao sản phẩm
của họ đến đúng địa điểm và giảm thiểu tình trạng hết hàng.
2.Cải thiện bố cục cửa hàng và khuyến mãi bán hàng:Phân tích giỏ thị trường có
thể phát triển các mô hình dự đoán các sản phẩm nào được bán cùng nhau
thường. là kiến thức về mối quan hệ giữa các sản phẩm có thể giúp tái
thợ may cùng định vị những sản phẩm đó. Ngoài ra, những sản phẩm
tương thích đó có thể được đặt xa nhau hơn để khiến khách hàng đi hết
chiều dài và chiều rộng của cửa hàng, và do đó được tiếp xúc với các sản
phẩm khác. Các gói sản phẩm khuyến mại giảm giá có thể được tạo ra để
đẩy một mặt hàng không bán chạy cùng với một bộ sản phẩm bán chạy
cùng nhau.
3.Tối ưu hóa hậu cần cho các hiệu ứng theo mùa:Các sản phẩm theo mùa mang lại
cơ hội bán hàng ngắn hạn có lợi nhuận cao, nhưng chúng cũng có nguy cơ tồn
kho không bán được vào cuối mùa. Hiểu được sản phẩm nào đang trong mùa,
thị trường nào có thể giúp các nhà bán lẻ quản lý giá một cách linh hoạt để
đảm bảo hàng tồn kho của họ được bán hết trong mùa. Nếu trời đang mưa ở
một khu vực nhất định, thì lượng ô và poncho tồn kho có thể nhanh chóng
được chuyển đến đó từ những khu vực không có mưa để giúp tăng doanh số
bán hàng.
4.Giảm thiểu tổn thất do hạn sử dụng:Hàng hóa dễ hư hỏng đưa ra những thách
thức về việc xử lý hàng tồn kho kịp thời. Bằng cách theo dõi xu hướng bán
hàng, các sản phẩm dễ hư hỏng có nguy cơ không bán được trước ngày bán có
thể được giảm giá và khuyến mại một cách phù hợp.
ngân hàng
mắt
Các ngân hàng cho vay và cung cấp thẻ tín dụng cho hàng triệu khách hàng.
quan tâm nhất là nâng cao chất lượng cho vay và giảm nợ xấu. Họ cũng
muốn giữ chân nhiều khách hàng tốt hơn và bán nhiều dịch vụ hơn cho họ.
1.Tự động hóa quy trình đăng ký khoản vay:Các mô hình quyết định có thể
được tạo ra từ dữ liệu trong quá khứ dự đoán khả năng khoản vay thành
công. ese có thể được đưa vào quy trình kinh doanh để tự động hóa quy
trình đăng ký khoản vay tài chính.
2.Phát hiện các giao dịch gian lận:Hàng tỷ giao dịch tài chính xảy ra
trên khắp thế giới mỗi ngày. Các mô hình tìm kiếm ngoại lệ có thể
xác định các kiểu giao dịch gian lận. Ví dụ: nếu tiền được chuyển
đến một tài khoản không liên quan lần đầu tiên, thì đó có thể là một
giao dịch gian lận.
3.Tối đa hóa giá trị khách hàng (bán chéo, bán thêm):Bán nhiều sản phẩm và
dịch vụ hơn cho khách hàng hiện tại thường là cách dễ nhất để tăng doanh
thu. Một khách hàng có tài khoản séc ở trạng thái tốt có thể được cung cấp
các khoản vay mua nhà, ô tô hoặc giáo dục với các điều khoản có lợi hơn so
với các khách hàng khác và do đó, giá trị được tạo ra từ khách hàng đó có
thể tăng lên.
4.Tối ưu hóa dự trữ tiền mặt với dự báo:Các ngân hàng phải duy trì thanh khoản nhất
định để đáp ứng nhu cầu của người gửi tiền, những người có thể muốn rút tiền. Sử
dụng dữ liệu quá khứ và phân tích xu hướng, các ngân hàng có thể dự đoán số tiền
nên giữ lại và đầu tư phần còn lại để kiếm lãi.
Các dịch vụ tài chính
Các nhà môi giới chứng khoán là những người sử dụng nhiều hệ thống BI. Vận may có thể được
tạo ra hoặc mất đi dựa trên việc tiếp cận thông tin chính xác và kịp thời.
1.Dự đoán những thay đổi trong giá trái phiếu và cổ phiếu:Dự báo giá cổ phiếu và trái phiếu
là trò tiêu khiển yêu thích của các chuyên gia tài chính cũng như người bình thường. Dữ
liệu giao dịch chứng khoán trong quá khứ, cùng với các biến số khác, có thể được sử
dụng để dự đoán các mô hình giá trong tương lai. có thể giúp các nhà giao dịch phát
triển các chiến lược giao dịch dài hạn.
2.Đánh giá ảnh hưởng của các sự kiện đến diễn biến thị trường:Các mô hình quyết định sử dụng
cây quyết định có thể được tạo ra để đánh giá tác động của các sự kiện đối với những thay đổi
về khối lượng và giá cả thị trường. Những thay đổi về chính sách tiền tệ (chẳng hạn như thay
đổi lãi suất của Cục Dự trữ Liên bang) hoặc những thay đổi về địa chính trị (chẳng hạn như
chiến tranh ở một khu vực trên thế giới) có thể được đưa vào mô hình dự đoán để giúp thực
hiện hành động với độ tin cậy cao hơn và ít rủi ro hơn.
3.Xác định và ngăn chặn các hoạt động gian lận trong giao dịch: ere có un-
may mắn thay, có nhiều trường hợp giao dịch nội gián, dẫn đến nhiều nhân vật
sừng sỏ trong ngành tài chính phải vào tù. Các mô hình phát hiện gian lận có
thể xác định và gắn cờ các mẫu hoạt động gian lận.
Tiền bảo hiểm
là ngành công nghiệp sử dụng nhiều mô hình dự đoán trong việc định giá các đề xuất bảo
hiểm và quản lý tổn thất do yêu cầu bồi thường đối với tài sản được bảo hiểm.
1.Dự báo chi phí khiếu nại để lập kế hoạch kinh doanh tốt hơn:Khi thiên tai, chẳng hạn như
bão và động đất, đình công, thiệt hại về người và tài sản xảy ra. Bằng cách sử dụng dữ
liệu sẵn có tốt nhất để lập mô hình khả năng xảy ra (hoặc rủi ro) của những sự kiện như
vậy, công ty bảo hiểm có thể lập kế hoạch cho các tổn thất và quản lý tài nguyên cũng
như lợi nhuận một cách hiệu quả.
2.Xác định phương án tỷ lệ tối ưu:Việc định giá một kế hoạch tỷ lệ bảo hiểm đòi hỏi phải
trang trải các khoản lỗ tiềm ẩn và tạo ra lợi nhuận. Các công ty bảo hiểm sử dụng
bảng thống kê để dự đoán tuổi thọ và bảng bệnh tật để dự đoán tỷ lệ tử vong, và do
đó định giá bản thân một cách cạnh tranh nhưng vẫn có lãi.
3.Tối ưu hóa tiếp thị đến khách hàng cụ thể:Bằng cách phân đoạn nhỏ các khách hàng tiềm
năng, một công ty bảo hiểm hiểu biết về dữ liệu có thể chọn ra những khách hàng tốt
nhất và để lại những khách hàng ít sinh lợi hơn cho các đối thủ cạnh tranh. Progressive
Insurance là một công ty có trụ sở tại Hoa Kỳ được biết là tích cực sử dụng khai thác dữ
liệu để thu hút khách hàng và tăng khả năng sinh lời.
4.Xác định và ngăn chặn các hoạt động yêu cầu gian lận:Các mô hình có thể được
xác định là ở đâu và loại gian lận nào có nhiều khả năng xảy ra. Các mô hình
dựa trên cây quyết định có thể được sử dụng để xác định và gắn cờ các khiếu
nại gian lận.
Chế tạo
Các hoạt động sản xuất là các hệ thống phức tạp với các hệ thống con có liên quan
với nhau. Từ máy móc hoạt động tốt, đến công nhân có kỹ năng phù hợp, đến linh
kiện phù hợp đến với chất lượng phù hợp vào đúng thời điểm, đến tiền để tìm nguồn
cung ứng linh kiện, nhiều thứ phải được thực hiện đúng. Công ty sản xuất tinh gọn
nổi tiếng của Toyota hoạt động trên hệ thống tồn kho tức thời để tối ưu hóa các
khoản đầu tư vào tồn kho và cải thiện tính linh hoạt trong hỗn hợp sản phẩm của họ.
1.Khám phá những mẫu mã mới để nâng cao chất lượng sản phẩm:Chất lượng của sản
phẩm cũng có thể được theo dõi và dữ liệu này có thể được sử dụng để tạo ra một
mô hình dự đoán về sự suy giảm chất lượng sản phẩm. Nhiều công ty, chẳng hạn
như các công ty ô tô, phải thu hồi sản phẩm của họ nếu họ phát hiện ra những
khiếm khuyết có ảnh hưởng đến an toàn công cộng. Khai thác dữ liệu có thể giúp
phân tích nguyên nhân gốc rễ có thể được sử dụng để xác định các nguồn lỗi và
giúp cải thiện chất lượng sản phẩm trong tương lai.
2.Dự đoán/ngăn ngừa sự cố máy móc:Theo thống kê, tất cả các thiết bị đều có
khả năng bị hỏng vào một thời điểm nào đó. Dự đoán máy nào có khả
năng tắt là một quá trình phức tạp. Các mô hình quyết định để dự báo lỗi
máy móc có thể được xây dựng bằng cách sử dụng dữ liệu trong quá khứ.
Bảo trì phòng ngừa có thể được lập kế hoạch và năng lực sản xuất có thể
được điều chỉnh để tính đến các hoạt động bảo trì đó.
viễn thông
BI trong viễn thông có thể giúp quản lý rời bỏ, tiếp thị/lập hồ sơ
khách hàng, lỗi mạng và phát hiện gian lận.
1.Quản lý khuấy đảo:Khách hàng viễn thông đã cho thấy xu hướng chuyển đổi nhà
cung cấp của họ để tìm kiếm các giao dịch tốt hơn. Các công ty viễn thông có
xu hướng đáp trả bằng nhiều ưu đãi, giảm giá để níu chân khách hàng. Tuy
nhiên, họ cần xác định khách hàng nào thực sự có nguy cơ chuyển đổi và khách
hàng nào chỉ đang đàm phán để có thỏa thuận tốt hơn. Mức độ rủi ro nên được
tính vào loại giao dịch và chiết khấu nên được đưa ra. Hàng triệu cuộc gọi của
khách hàng như vậy xảy ra mỗi tháng. Các công ty viễn thông điện tử cần cung
cấp một cách nhất quán và dựa trên dữ liệu để dự đoán rủi ro khi khách hàng
chuyển đổi, sau đó đưa ra quyết định hoạt động trong thời gian thực trong khi
cuộc gọi của khách hàng đang diễn ra. Một cây quyết định- hoặc một hệ thống
dựa trên mạng thần kinh có thể được sử dụng để hướng dẫn người điều hành
cuộc gọi dịch vụ khách hàng đưa ra các quyết định đúng đắn cho công ty một
cách nhất quán.
2.Tiếp thị và tạo sản phẩm:Ngoài dữ liệu về khách hàng, các công ty viễn
thông còn lưu trữ các bản ghi chi tiết cuộc gọi (CDR), trong đó mô tả chính
xác hành vi gọi điện của từng khách hàng. là dữ liệu duy nhất có thể được
sử dụng để lập hồ sơ khách hàng và sau đó có thể được sử dụng để tạo các
gói sản phẩm/dịch vụ mới cho mục đích tiếp thị. Một công ty viễn thông
của Mỹ, MCI, đã tạo ra một chương trình có tên là Bạn bè & Gia đình cho
phép các cuộc gọi với bạn bè và gia đình của một người trên mạng đó hoàn
toàn miễn phí và do đó, đã khóa nhiều người vào mạng của họ một cách
hiệu quả.
3.Quản lý sự cố mạng:Sự cố của mạng viễn thông do lỗi kỹ thuật hoặc
các cuộc tấn công độc hại có thể gây ra tác động tàn phá đối với
người dân, doanh nghiệp và xã hội. Trong cơ sở hạ tầng viễn thông, một số
thiết bị có thể sẽ bị hỏng với thời gian trung bình nhất định giữa các lần
hỏng. Mô hình hóa mô hình lỗi của các thành phần khác nhau của mạng có
thể giúp bảo trì phòng ngừa và lập kế hoạch dung lượng.
4.Quản lý gian lận: Có nhiều kiểu lừa đảo người tiêu dùng
giao dịch. Gian lận đăng ký xảy ra khi khách hàng mở tài khoản với ý định
không bao giờ trả tiền cho các dịch vụ. Gian lận chồng chất liên quan đến hoạt
động bất hợp pháp của một người không phải là chủ tài khoản hợp pháp. Các
quy tắc quyết định có thể được phát triển để phân tích từng CDR trong thời
gian thực nhằm xác định các cơ hội gian lận và thực hiện hành động hiệu quả.
Chính quyền
Chính phủ thu thập một lượng lớn dữ liệu nhờ chức năng điều tiết của họ.
tại dữ liệu có thể được phân tích để phát triển các mô hình hoạt động hiệu
quả.
1.Thực thi pháp luật:Hành vi xã hội có nhiều khuôn mẫu và dễ đoán hơn
người ta tưởng tượng. Ví dụ, Sở Cảnh sát Los Angeles (LAPD) đã khai
thác dữ liệu từ 13 triệu hồ sơ tội phạm trong hơn 80 năm và phát triển
các mô hình về loại tội phạm sẽ xảy ra khi nào và ở đâu. Bằng cách tăng
cường tuần tra ở những khu vực cụ thể đó, LAPD đã có thể giảm 27%
tội phạm về tài sản. Cuộc trò chuyện trên Internet có thể được phân
tích để tìm hiểu và ngăn chặn mọi thiết kế xấu xa.
2.Nghiên cứu khoa học:Bất kỳ bộ sưu tập lớn dữ liệu nghiên cứu nào cũng có thể được
khai thác để lấy các mẫu và thông tin chi tiết. Gấp protein (vi sinh), phân tích phản
ứng hạt nhân (vật lý hạ nguyên tử), kiểm soát dịch bệnh (sức khỏe cộng đồng) là
một số ví dụ mà việc khai thác dữ liệu có thể mang lại những hiểu biết mới đầy sức
mạnh.
Phần kết luận
BI là một bộ công cụ CNTT toàn diện để hỗ trợ việc ra quyết định với các
giải pháp sáng tạo cho nhiều vấn đề khác nhau. BI có thể giúp cải thiện
hiệu suất trong hầu hết các ngành và ứng dụng.
1. Tại sao các tổ chức nên đầu tư vào các giải pháp kinh doanh thông minh? Những điều này có
quan trọng hơn các giải pháp bảo mật CNTT không? Tại sao hay tại sao không?
2. Liệt kê ba ứng dụng kinh doanh thông minh trong ngành khách sạn.
3. Mô tả hai công cụ kinh doanh thông minh được sử dụng trong tổ chức của bạn.
4. Doanh nghiệp cần có “lợi thế hai giây” để thành công. Điều đó có ý nghĩa
gì với bạn?
Bài tập tình huống về cửa hàng Liberty: Bước 1
Liberty Stores Inc là một chuỗi bán lẻ toàn cầu chuyên biệt bán thực phẩm hữu
cơ, quần áo hữu cơ, sản phẩm chăm sóc sức khỏe và sản phẩm giáo dục cho các
công dân LOHAS (Lối sống lành mạnh và bền vững) trên toàn thế giới.
Công ty đã 20 năm tuổi và đang phát triển nhanh chóng. Nó hiện đang hoạt
động ở 5 châu lục, 50 quốc gia, 150 thành phố và có 500 cửa hàng. Nó bán 20.000
sản phẩm và có 10.000 nhân viên. Công ty có doanh thu trên 5 tỷ đô la và có lợi
nhuận khoảng 5% doanh thu. Công ty đặc biệt chú ý đến các điều kiện mà các sản
phẩm được trồng và sản xuất. Nó quyên góp khoảng một phần năm (20 phần
trăm) lợi nhuận trước thuế của mình từ các hoạt động từ thiện địa phương trên
toàn cầu.
1.Tạo một bảng điều khiển toàn diện cho Giám đốc điều hành của công ty.
2.Tạo một trang tổng quan khác cho người đứng đầu một quốc gia.
CHƯƠNG 3
Kho dữ liệu
Kho dữ liệu (DW) là một tập hợp có tổ chức gồm các cơ sở dữ liệu hướng đối
tượng, tích hợp được thiết kế để hỗ trợ các chức năng hỗ trợ ra quyết định. DW
được tổ chức ở mức độ chi tiết phù hợp để cung cấp dữ liệu sạch trên toàn
doanh nghiệp ở định dạng được chuẩn hóa cho các báo cáo, truy vấn và phân
tích. DW tách biệt về mặt vật lý và chức năng với cơ sở dữ liệu vận hành và giao
dịch. Việc tạo một DW để phân tích và truy vấn thể hiện sự đầu tư đáng kể về
thời gian và công sức. Nó phải được cập nhật liên tục để nó trở nên hữu ích. DW
mang lại nhiều lợi ích về kinh doanh và kỹ thuật.
DW hỗ trợ các hoạt động khai thác dữ liệu và báo cáo kinh doanh. Nó có thể
tạo điều kiện truy cập phân tán vào kiến thức kinh doanh cập nhật cho các bộ
phận và chức năng, do đó nâng cao hiệu quả kinh doanh và dịch vụ khách hàng.
DW có thể tạo ra lợi thế cạnh tranh bằng cách hỗ trợ quá trình ra quyết định và
giúp cải cách các quy trình kinh doanh.
DW cho phép xem tổng hợp dữ liệu của công ty, tất cả đều được làm sạch và sắp xếp.
chúng tôi, toàn bộ tổ chức có thể nhìn thấy một cái nhìn tích hợp về chính nó. Do đó, DW
cung cấp thông tin tốt hơn và kịp thời. Nó đơn giản hóa việc truy cập dữ liệu và cho phép
người dùng cuối thực hiện phân tích sâu rộng. Nó nâng cao hiệu suất CNTT tổng thể bằng
cách không tạo gánh nặng cho cơ sở dữ liệu vận hành được sử dụng bởi Hoạch định
nguồn lực doanh nghiệp (ERP) và các hệ thống khác.
Caselet: Hệ thống Y tế Đại học—BI trong

Chăm sóc sức khỏe
Indiana University Health (IUH), một hệ thống chăm sóc sức khỏe học thuật
lớn, đã quyết định xây dựng kho dữ liệu doanh nghiệp (EDW) để thúc đẩy văn
hóa quản lý dựa trên dữ liệu thực sự. IUH đã thuê một nhà cung cấp DW để
phát triển EDW, cũng tích hợp với hồ sơ sức khỏe điện tử (EHR) của họ
hệ thống. ey đã tải 14 tỷ hàng dữ liệu vào EDW—đầy đủ 10 năm

dữ liệu lâm sàng từ khắp mạng của IUH. Các sự kiện lâm sàng, các cuộc gặp với bệnh nhân,
phòng thí nghiệm và X quang, và các dữ liệu bệnh nhân khác cũng được đưa vào, cũng như
dữ liệu quản lý hiệu suất, chu kỳ doanh thu và sự hài lòng của bệnh nhân của IUH. Họ đã
sớm đưa vào một bảng điều khiển tương tác mới bằng cách sử dụng EDW để cung cấp cho
ban lãnh đạo của IUH những hiểu biết sâu sắc về hoạt động hàng ngày mà họ cần để giải
phương trình chất lượng/chi phí. Nó cung cấp khả năng hiển thị các số liệu và xu hướng
hoạt động chính để dễ dàng theo dõi các biện pháp hiệu suất quan trọng để kiểm soát chi
phí và duy trì chất lượng. EDW có thể dễ dàng được sử dụng trong các phòng ban của IUH
để phân tích, theo dõi và đo lường kết quả trải nghiệm lâm sàng, tài chính và bệnh nhân.
(Nguồn: healthcatalyst.com)
Q1. Những lợi ích của một EDW toàn diện lớn duy nhất là gì? Những
Q1. loại dữ liệu nào sẽ cần thiết cho EDW đối với một công ty hàng
không?
Cân nhắc thiết kế cho DW

Mục tiêu của DW là cung cấp kiến thức kinh doanh để hỗ trợ việc ra
quyết định. Để DW phục vụ mục tiêu của mình, nó phải phù hợp với
những quyết định đó. Nó phải toàn diện, dễ truy cập và cập nhật. Dưới
đây là một số yêu cầu đối với một DW tốt:
1.Định hướng theo chủ đề:Để có hiệu quả, DW nên được thiết kế xung quanh
một lĩnh vực chủ đề, nghĩa là giúp giải quyết một loại vấn đề nhất định.
2.tích hợp:DW nên bao gồm dữ liệu từ nhiều chức năng có thể làm
sáng tỏ một lĩnh vực chủ đề cụ thể. chúng tôi, tổ chức có thể hưởng
lợi từ một cái nhìn toàn diện về lĩnh vực chủ đề.
3.Biến thể thời gian (chuỗi thời gian): Dữ liệu điện tử trong DW sẽ phát triển hàng ngày
các khoảng đã chọn khác. hoặc ở mức cho phép so sánh mới nhất theo thời gian.
4.không bay hơi:DW phải liên tục, nghĩa là nó không được tạo
nhanh chóng từ cơ sở dữ liệu hoạt động. của chúng tôi, DW luôn
sẵn sàng để phân tích, trong toàn tổ chức và theo thời gian.
5.tóm tắt:DW chứa dữ liệu được cuộn lên ở cấp phù hợp cho các truy vấn và
phân tích. Việc cuộn lên giúp tạo ra mức độ chi tiết nhất quán để so sánh
hiệu quả. Nó giúp giảm số lượng biến hoặc kích thước của dữ liệu để làm
cho chúng có ý nghĩa hơn đối với những người ra quyết định.
KHO DỮ LIỆU 39
6.Không chuẩn hóa:DW thường sử dụng lược đồ sao, là một bảng trung tâm
hình chữ nhật, được bao quanh bởi một số bảng tra cứu. Chế độ xem một
bảng tăng cường đáng kể tốc độ truy vấn.
7.Metadata:Nhiều biến trong cơ sở dữ liệu được tính toán từ các biến khác
trong cơ sở dữ liệu hoạt động. Ví dụ: tổng doanh số hàng ngày có thể là
một trường được tính toán. Phương pháp tính toán của nó cho từng
biến nên được ghi lại một cách hiệu quả. Mọi phần tử trong DW phải
được xác định rõ ràng.
số 8.Gần thời gian thực và/hoặc đúng thời điểm (đang hoạt động):DW nên được cập nhật gần
như theo thời gian thực trong nhiều ngành có khối lượng giao dịch cao, chẳng hạn như
các hãng hàng không. Chi phí triển khai và cập nhật DW trong thời gian thực có thể làm
nản lòng những người khác. Một nhược điểm khác của DW thời gian thực là khả năng
xảy ra mâu thuẫn trong các báo cáo được rút ra chỉ cách nhau vài phút.
Phương pháp tiếp cận phát triển của DW
Có hai cách tiếp cận cơ bản khác nhau để phát triển DW: từ trên xuống và từ
dưới lên. Cách tiếp cận từ trên xuống là tạo ra một DW toàn diện bao gồm tất cả
các nhu cầu báo cáo của doanh nghiệp. Cách tiếp cận từ dưới lên là tạo ra các
siêu thị dữ liệu nhỏ, cho nhu cầu báo cáo của các bộ phận hoặc chức năng khác
nhau, khi cần. Các siêu thị dữ liệu nhỏ hơn cuối cùng sẽ phù hợp để cung cấp các
khả năng EDW toàn diện. cách tiếp cận từ trên xuống
cung cấp tính nhất quán nhưng mất thời gian và nguồn lực. cách tiếp cận từ dưới lên
dẫn đến quyền sở hữu lành mạnh của địa phương và khả năng duy trì dữ liệu (Bảng 3.1).
Bảng 3.1 So sánh data mart và data warehouse

Dữ liệu chức năng Mart Dữ liệu doanh nghiệp
Kho
Phạm vi Một chủ đề hoặc khu vực chức năng Hoàn thành nhu cầu dữ liệu doanh nghiệp
Giá trị Báo cáo khu vực chức năng và thông Thông tin chi tiết sâu hơn kết nối
tin chi tiết nhiều khu vực chức năng
Mục tiêu Quản lý phi tập trung quản lý tập trung

tổ chức
Thời gian Thấp đến trung bình Cao
Phí tổn Thấp Cao
Kích thước Nhỏ đến trung bình Trung bình đến lớn
Tiếp cận Từ dưới lên Từ trên xuống
phức tạp Thấp (ít chuyển đổi dữ liệu hơn) Cao (chuẩn hóa dữ liệu)
Công nghệ Máy chủ và cơ sở dữ liệu quy mô nhỏ hơn Sức mạnh công nghiệp
Hình 3.1 Kiến trúc kho dữ liệu
Kiến trúc DW
DW có bốn yếu tố chính (Hình 3.1). phần tử đầu tiên là dữ liệu
nguồn cung cấp dữ liệu thô. Yếu tố thứ hai là quá trình biến đổi dữ liệu đó
để đáp ứng nhu cầu quyết định. Yếu tố thứ ba là các phương pháp tải dữ
liệu đó thường xuyên và chính xác vào EDW hoặc kho dữ liệu. Yếu tố thứ tư
là phần truy cập và phân tích dữ liệu, nơi các thiết bị và ứng dụng sử dụng
dữ liệu từ DW để cung cấp thông tin chuyên sâu và các lợi ích khác cho
người dùng.
Nguồn dữ liệu
DW được tạo từ các nguồn dữ liệu có cấu trúc. Dữ liệu phi cấu trúc, chẳng hạn
như dữ liệu văn bản, sẽ cần được cấu trúc trước khi chèn vào DW.
1. Dữ liệu vận hành bao gồm dữ liệu từ tất cả các ứng dụng kinh
doanh, kể cả từ hệ thống ERP tạo thành xương sống của hệ thống
CNTT của tổ chức. Dữ liệu được trích xuất sẽ phụ thuộc vào chủ đề
của DW. Ví dụ: đối với DW bán hàng/tiếp thị, chỉ dữ liệu về khách
hàng, đơn đặt hàng, dịch vụ khách hàng, v.v. sẽ được trích xuất.
2. Các ứng dụng khác, chẳng hạn như thiết bị đầu cuối tại điểm bán hàng (POS) và
ứng dụng thương mại điện tử, cung cấp dữ liệu hướng tới khách hàng. Dữ liệu
nhà cung cấp có thể đến từ các hệ thống quản lý chuỗi cung ứng. Dữ liệu về kế
hoạch và ngân sách cũng nên được bổ sung khi cần thiết để so sánh với các
mục tiêu.
3. Dữ liệu tổng hợp bên ngoài, chẳng hạn như dữ liệu thời tiết hoặc hoạt động kinh tế,
cũng có thể được thêm vào DW, khi cần, để cung cấp thông tin theo ngữ cảnh tốt
cho những người ra quyết định.

KHO DỮ LIỆU 41
Quy trình chuyển đổi dữ liệu

Trái tim của một DW hữu ích là các quy trình để đưa vào DW dữ liệu
chất lượng tốt. được gọi là chu trình giải nén-biến đổi-tải (ETL).
1. Dữ liệu nên được trích xuất thường xuyên từ nhiều nguồn cơ sở dữ

liệu hoạt động (giao dịch).
2. Dữ liệu được trích xuất phải được căn chỉnh với nhau theo các trường chính. Nó phải
được làm sạch khỏi bất kỳ sự bất thường hoặc thiếu giá trị nào. Nó nên được cuộn
lại với nhau đến cùng một mức độ chi tiết. Các trường mong muốn, chẳng hạn như
tổng doanh thu hàng ngày, sẽ được tính toán. Sau đó, toàn bộ dữ liệu sẽ được đưa
về cùng định dạng với bảng trung tâm của DW.
3. Sau đó, dữ liệu được chuyển đổi sẽ được tải lên DW.
là quy trình ETL nên được chạy với tần suất thường xuyên. Dữ liệu giao dịch
hàng ngày có thể được trích xuất từ ERP, được chuyển đổi và tải lên cơ sở dữ liệu
trong cùng một đêm. chúng tôi, DW được cập nhật vào sáng hôm sau. Nếu DW là
cần thiết để truy cập thông tin gần thời gian thực, thì các quy trình ETL sẽ cần được
thực thi thường xuyên hơn. Công việc ETL thường được tự động hóa bằng cách sử
dụng các tập lệnh lập trình được viết, kiểm tra và sau đó được triển khai để cập nhật
định kỳ DW.
Thiết kế DW
Lược đồ sao là kiến trúc dữ liệu ưa thích cho hầu hết các DW. bảng thực tế trung
trước đây là một
tâm cung cấp hầu hết các thông tin quan tâm. là các bảng tra cứu cung cấp các giá
trước
trị chi tiết cho các mã được sử dụng trong bảng trung tâm. Ví dụ, bảng trung tâm có
thể sử dụng các chữ số để đại diện cho một người bán hàng. Bảng tra cứu điện tử sẽ
giúp cung cấp tên cho mã nhân viên bán hàng đó. Dưới đây là một ví dụ về lược đồ
sao cho một siêu thị dữ liệu để theo dõi hiệu suất bán hàng (Hình 3.2).
Các lược đồ khác bao gồm kiến trúc bông tuyết. sự khác biệt là-
giữa một ngôi sao và bông tuyết là ở phần sau, các bảng tra cứu có thể có các bảng
tra cứu tiếp theo của riêng chúng.
Có nhiều lựa chọn công nghệ để phát triển DW. bao gồm
lựa chọn hệ quản trị cơ sở dữ liệu phù hợp và bộ công cụ quản lý dữ liệu
phù hợp. Có một vài nhà cung cấp hệ thống DW lớn và đáng tin cậy. Nhà
cung cấp DBMS đang hoạt động cũng có thể được chọn cho DW.
Hình 3.2 Kiến trúc giản đồ sao
Ngoài ra, có thể sử dụng nhà cung cấp DW tốt nhất. ere cũng là một
nhiều công cụ hiện có để di chuyển dữ liệu, tải lên dữ liệu, truy xuất dữ liệu và
phân tích dữ liệu.
Truy cập DW
Dữ liệu từ DW có thể được truy cập cho nhiều mục đích, thông qua nhiều
thiết bị.
1. Công dụng chính của DW là tạo ra các báo cáo giám sát và quản lý thường
xuyên. Ví dụ: báo cáo hiệu suất bán hàng sẽ hiển thị doanh số bán hàng theo
nhiều thứ nguyên và được so sánh với kế hoạch. Một hệ thống bảng điều khiển
sẽ sử dụng dữ liệu từ kho và trình bày phân tích cho người dùng. Dữ liệu điện
tử từ DW có thể được sử dụng để điền vào bảng điều khiển hiệu suất tùy chỉnh
cho giám đốc điều hành. bảng điều khiển điện tử có thể bao gồm các khả năng
truy sâu để phân tích dữ liệu hiệu suất nhằm phân tích nguyên nhân gốc rễ.
2. Dữ liệu từ kho có thể được sử dụng cho các truy vấn đặc biệt và
bất kỳ ứng dụng nào khác sử dụng dữ liệu nội bộ.
KHO DỮ LIỆU 43
3. Dữ liệu từ DW được sử dụng để cung cấp dữ liệu cho mục đích khai thác. Các phần
của dữ liệu sẽ được trích xuất và sau đó được kết hợp với các dữ liệu liên quan khác
để khai thác dữ liệu.
Thực tiễn tốt nhất của DW
Một dự án DW phản ánh một khoản đầu tư đáng kể vào CNTT. Cần tuân thủ tất cả các
phương pháp hay nhất trong việc triển khai bất kỳ dự án CNTT nào.
1. e Dự án DW phải phù hợp với chiến lược của công ty. Lãnh đạo cao
nhất nên được tư vấn để thiết lập các mục tiêu. Khả năng tài chính
hoàn vốn đầu tư (ROI) nên được thiết lập. dự án điện tử phải là
được quản lý bởi cả các chuyên gia CNTT và doanh nghiệp. thiết kế điện tử DW nên
được kiểm tra cẩn thận trước khi bắt đầu công việc phát triển. Việc thiết kế lại
thường tốn kém hơn nhiều sau khi công việc phát triển đã bắt đầu.
2. Điều quan trọng là quản lý kỳ vọng của người dùng. DW nên được xây dựng dần
dần. Người dùng nên được đào tạo về cách sử dụng hệ thống và tiếp thu nhiều
tính năng của hệ thống.
3. Chất lượng và khả năng thích ứng nên được xây dựng ngay từ đầu. Chỉ nên tải dữ liệu
đã được làm sạch và chất lượng cao. Hệ thống điện tử sẽ có thể thích ứng với các
công cụ truy cập mới. Khi nhu cầu kinh doanh thay đổi, các kho dữ liệu mới có thể
được tạo ra cho các nhu cầu mới.
Phần kết luận
DW là phương tiện quản lý dữ liệu đặc biệt nhằm tạo báo cáo và phân
tích để hỗ trợ việc ra quyết định quản lý. ey được thiết kế
làm cho báo cáo và truy vấn đơn giản và hiệu quả. để e nguồn dữ liệu là
các hệ thống vận hành và các nguồn dữ liệu bên ngoài. DW cần được cập nhật dữ liệu mới
thường xuyên để giữ cho nó hữu ích. Dữ liệu từ DW cung cấp đầu vào hữu ích cho các
hoạt động khai thác dữ liệu.
1. Mục đích của kho dữ liệu là gì?

2. Các yếu tố chính của kho dữ liệu là gì? Mô tả mỗi.
3. Các nguồn và loại dữ liệu cho kho dữ liệu là gì?

4. Kho dữ liệu sẽ phát triển như thế nào trong thời đại truyền thông xã hội?
Công ty Liberty Stores muốn được thông báo đầy đủ về doanh số bán sản phẩm của
mình và tận dụng các cơ hội tăng trưởng khi chúng phát sinh. Nó muốn phân tích doanh số
bán hàng của tất cả các sản phẩm của mình theo tất cả các vị trí cửa hàng. Giám đốc tri thức
mới được thuê đã quyết định xây dựng một kho dữ liệu.
1.Thiết kế một cấu trúc DW cho công ty để theo dõi hoạt động bán hàng
của nó. (Gợi ý: Thiết kế bảng trung tâm và bảng tra cứu.)
2.Thiết kế một DW khác cho các hoạt động từ thiện và bền vững của
công ty.
CHƯƠNG 4
Khai thác dữ liệu
Khai thác dữ liệu là nghệ thuật và khoa học khám phá kiến thức, hiểu biết
sâu sắc và các mẫu trong dữ liệu. Đó là hành động trích xuất các mẫu hữu
ích từ một bộ sưu tập dữ liệu có tổ chức. Các mẫu phải hợp lệ, mới lạ, có khả
năng hữu ích và dễ hiểu. Giả định ngầm là dữ liệu về quá khứ có thể tiết lộ
các mô hình hoạt động có thể được dự đoán trong tương lai.
Khai thác dữ liệu là một lĩnh vực đa ngành vay mượn các kỹ thuật từ nhiều
lĩnh vực khác nhau. Nó sử dụng kiến thức về chất lượng dữ liệu và tổ chức dữ
liệu từ khu vực cơ sở dữ liệu. Nó rút ra các kỹ thuật mô hình hóa và phân tích từ
các lĩnh vực thống kê và khoa học máy tính (trí tuệ nhân tạo). Nó cũng rút ra kiến
thức về việc ra quyết định từ lĩnh vực quản lý kinh doanh.
Lĩnh vực khai thác dữ liệu nổi lên trong bối cảnh nhận dạng mẫu trong phòng
thủ, chẳng hạn như xác định bạn hay thù trên chiến trường. Giống như nhiều công
nghệ lấy cảm hứng từ quốc phòng khác, nó đã phát triển để giúp đạt được lợi thế
cạnh tranh trong kinh doanh.
Ví dụ, “khách hàng muaphô maivàSữacũng muabánh mỳ90 phần trăm thời
gian” sẽ là một mô hình hữu ích cho cửa hàng tạp hóa, sau đó có thể dự trữ sản
phẩm một cách thích hợp. Tương tự như vậy, “những người có huyết áp lớn hơn
160 và độ tuổi trên 65 có nguy cơ tử vong cao do đột quỵ tim” có giá trị chẩn
đoán rất lớn đối với các bác sĩ, những người sau đó có thể tập trung vào việc
điều trị những bệnh nhân này với sự chăm sóc khẩn cấp và độ nhạy cao. .
Dữ liệu quá khứ có thể có giá trị tiên đoán trong nhiều tình huống phức tạp, đặc biệt là khi
mẫu có thể không dễ nhìn thấy nếu không có kỹ thuật lập mô hình. Đây là một trường hợp ấn
tượng về một hệ thống ra quyết định dựa trên dữ liệu đánh bại các chuyên gia giỏi nhất của
con người. Sử dụng dữ liệu trong quá khứ, một mô hình cây quyết định đã được phát triển để
dự đoán phiếu bầu cho Công lý Sandra Day O'Connor, người đã bỏ phiếu xoay chiều trong Tòa
án Tối cao Hoa Kỳ được chia theo tỷ lệ 5–4. Tất cả các quyết định trước đây của cô ấy đều được
mã hóa trên một vài biến số. Điều xuất hiện từ việc khai thác dữ liệu là một cây quyết định gồm
bốn bước đơn giản có thể dự đoán chính xác phiếu bầu của cô ấy
71 phần trăm thời gian. Ngược lại, các nhà phân tích luật chỉ có thể dự
đoán đúng 59% thời gian. (Nguồn: Martin et al. 2004)
Caselet: Target Corp—Khai thác dữ liệu trong bán lẻ
Target là một chuỗi bán lẻ lớn thu thập dữ liệu để phát triển thông tin chi tiết giúp
nhắm mục tiêu các chiến dịch tiếp thị và quảng cáo. Các nhà phân tích của Target đã
quản lý để phát triển điểm dự đoán mang thai dựa trên lịch sử mua 25 sản phẩm của
khách hàng. Trong một câu chuyện được công bố rộng rãi, họ phát hiện ra rằng một
cô gái tuổi teen đã mang thai trước khi cha cô mang thai. Việc nhắm mục tiêu điện tử
có thể khá thành công và ấn tượng như ví dụ được đăng trên tờ New York Times này
minh họa như sau:
Khoảng một năm sau khi Target tạo ra mô hình dự đoán mang thai của họ, một người
đàn ông bước vào cửa hàng Target và yêu cầu được gặp người quản lý. Anh ta đang nắm
chặt những phiếu giảm giá đã được gửi cho con gái mình và anh ta rất tức giận, theo một
nhân viên tham gia cuộc trò chuyện. “Con gái tôi nhận được cái này qua đường bưu điện!”
anh ấy nói. “Cô ấy vẫn đang học trung học, và bạn đang gửi cho cô ấy phiếu mua hàng quần
áo trẻ em và giường cũi? Bạn đang cố gắng khuyến khích cô ấy mang thai?
Người quản lý không biết người đàn ông đang nói về cái gì. Anh nhìn
người đưa thư. Chắc chắn rồi, nó được gửi cho con gái của người đàn ông và
chứa các quảng cáo về quần áo bà bầu, đồ dùng cho trẻ sơ sinh và hình ảnh
những đứa trẻ sơ sinh đang tươi cười. Người quản lý đã xin lỗi và sau đó vài ngày
lại gọi điện để xin lỗi lần nữa.
Tuy nhiên, trên điện thoại, người cha có phần dịu đi. Ông nói: “Tôi đã
nói chuyện với con gái mình. “Hóa ra có một số hoạt động trong nhà mà
tôi không hề hay biết. Tôi nợ bạn một lời xin lỗi." (Nguồn: Thời báo New
York)
Q1. Target và các nhà bán lẻ khác có toàn quyền sử dụng dữ liệu thu được của họ
khi thấy phù hợp và liên hệ với người tiêu dùng mong muốn bằng tất cả các
phương tiện và thông điệp được chấp nhận hợp pháp không? Các vấn đề liên
quan ở đây là gì?
Q2. Facebook và Google cung cấp nhiều dịch vụ miễn phí. Đổi lại, họ khai thác email và blog của chúng
tôi và gửi cho chúng tôi các quảng cáo được nhắm mục tiêu. Đó có phải là một thỏa thuận công
bằng?
KHAI THÁC DỮ LIỆU 47
Thu thập và chọn lọc dữ liệu

Tổng lượng dữ liệu trên thế giới đang tăng gấp đôi sau mỗi 18 tháng. trước đây là một trận
tuyết lở ngày càng tăng của dữ liệu với tốc độ, khối lượng và sự đa dạng cao hơn. Người ta phải
nhanh chóng sử dụng nó hoặc đánh mất nó. Khai thác dữ liệu thông minh yêu cầu chọn nơi để
chơi. Người ta phải đưa ra quyết định sáng suốt về những gì cần thu thập và những gì nên bỏ
qua, dựa trên mục đích của các bài tập khai thác dữ liệu. Nó giống như quyết định nơi để câu
cá; không phải tất cả các luồng dữ liệu đều có những thông tin chi tiết tiềm năng phong phú
như nhau.
Để học hỏi từ dữ liệu, người ta cần thu thập dữ liệu chất lượng một cách hiệu
quả, làm sạch và sắp xếp dữ liệu đó, sau đó xử lý dữ liệu đó một cách hiệu quả. Một
yêu cầu các kỹ năng và công nghệ để hợp nhất và tích hợp các yếu tố dữ liệu từ nhiều
nguồn. Hầu hết các tổ chức phát triển mô hình dữ liệu doanh nghiệp (EDM), là mô
hình cấp cao, thống nhất của tất cả dữ liệu được lưu trữ trong cơ sở dữ liệu của tổ
chức. e EDM sẽ bao gồm dữ liệu được tạo từ tất cả

các hệ thống nội bộ. e EDM cung cấp menu dữ liệu cơ bản để tạo
kho dữ liệu cho một mục đích ra quyết định cụ thể. Kho dữ liệu giúp tổ
chức tất cả dữ liệu này theo cách hữu ích để có thể chọn và triển khai dữ
liệu để khai thác. e EDM cũng có thể giúp hình dung nên thu thập dữ liệu
bên ngoài có liên quan nào để phát triển mối quan hệ dự báo tốt với dữ
liệu bên trong. Tại Hoa Kỳ, chính phủ và các cơ quan của họ cung cấp rất
nhiều loại và số lượng dữ liệu tại data.gov.
Việc thu thập và quản lý dữ liệu cần có thời gian và công sức, đặc biệt khi dữ
liệu không có cấu trúc hoặc bán cấu trúc. Dữ liệu phi cấu trúc có thể có nhiều
dạng như cơ sở dữ liệu, blog, hình ảnh, video và cuộc trò chuyện. Có rất nhiều
luồng dữ liệu truyền thông xã hội không có cấu trúc từ blog, cuộc trò chuyện và
tweet. Ngoài ra còn có các luồng dữ liệu do máy tạo ra từ các máy được kết nối,
thẻ RFID, internet vạn vật, v.v. Dữ liệu điện tử nên được đặt trong các hình dạng
dữ liệu hình chữ nhật với các cột và hàng rõ ràng trước khi đưa nó vào khai thác
dữ liệu.
Kiến thức về lĩnh vực kinh doanh giúp chọn đúng luồng dữ liệu để theo
đuổi những hiểu biết mới. Dữ liệu phù hợp với bản chất của vấn đề đang
được giải quyết nên được thu thập. Các yếu tố dữ liệu phải phù hợp và giải
quyết phù hợp vấn đề đang được giải quyết. chúng có thể tác động trực tiếp
đến vấn đề, hoặc chúng có thể là đại diện phù hợp cho tác động được đo
lường. Chọn dữ liệu cũng sẽ được thu thập từ kho dữ liệu.
Các ngành và chức năng sẽ có những yêu cầu và ràng buộc riêng. ngành chăm
sóc sức khỏe sẽ cung cấp một loại dữ liệu khác với các tên dữ liệu khác nhau. e
Chức năng nhân sự sẽ cung cấp các loại dữ liệu khác nhau. Sẽ có những vấn đề
khác nhau về chất lượng và quyền riêng tư đối với những dữ liệu này.
Làm sạch và chuẩn bị dữ liệu

Chất lượng của dữ liệu là rất quan trọng đối với sự thành công và giá trị của dự án
khai thác dữ liệu. Nếu không, tình huống sẽ thuộc loại rác vào và rác ra (GIGO). Chất
lượng của dữ liệu đến thay đổi tùy theo nguồn và bản chất của dữ liệu. Dữ liệu từ các
hoạt động nội bộ có thể có chất lượng cao hơn, vì nó sẽ chính xác và nhất quán. Dữ
liệu từ phương tiện truyền thông xã hội và các nguồn công cộng khác ít nằm dưới sự
kiểm soát của doanh nghiệp và ít có khả năng đáng tin cậy hơn.
Dữ liệu gần như chắc chắn cần phải được làm sạch và biến đổi trước khi có
thể sử dụng để khai thác dữ liệu. Có nhiều cách để làm sạch dữ liệu—điền các
giá trị còn thiếu, kiểm soát các tác động của giá trị ngoại lệ, chuyển đổi trường,
tạo nhóm các biến liên tục, v.v.—trước khi dữ liệu có thể sẵn sàng để phân tích.
Làm sạch và chuẩn bị dữ liệu là một hoạt động sử dụng nhiều lao động hoặc bán
tự động có thể chiếm tới 60 đến 70 phần trăm thời gian cần thiết cho một dự án
khai thác dữ liệu.
1. Dữ liệu trùng lặp cần được loại bỏ. e cùng một dữ liệu có thể được nhận từ
nhiều nguồn. Khi hợp nhất các tập dữ liệu, dữ liệu phải được loại bỏ trùng
lặp.
2. Các giá trị còn thiếu cần được điền vào hoặc các hàng đó phải được xóa khỏi phân tích. Các
giá trị bị thiếu có thể được điền bằng các giá trị trung bình hoặc phương thức hoặc giá trị
mặc định.
3. Các phần tử dữ liệu có thể cần được chuyển đổi từ đơn vị này sang đơn
vị khác. Ví dụ, tổng chi phí chăm sóc sức khỏe và tổng số bệnh nhân có
thể cần được giảm xuống thành chi phí/bệnh nhân để cho phép so
sánh giá trị đó.
4. Các giá trị liên tục có thể cần được phân loại thành một vài nhóm để giúp thực
hiện một số phân tích. Ví dụ: kinh nghiệm làm việc có thể được phân loại là
thấp, trung bình và cao.
5. Các yếu tố dữ liệu có thể cần được điều chỉnh để chúng có thể so sánh
được theo thời gian. Ví dụ: giá trị tiền tệ có thể cần được điều chỉnh
cho lạm phát; chúng sẽ cần được chuyển đổi sang cùng một năm gốc để có thể
so sánh được. ey có thể cần phải được chuyển đổi sang một loại tiền tệ chung.
6. Các yếu tố dữ liệu ngoại lai cần được loại bỏ sau khi xem xét cẩn thận để tránh
làm sai lệch kết quả. Ví dụ, một nhà tài trợ lớn có thể làm sai lệch phân tích của
các nhà tài trợ là cựu sinh viên trong môi trường giáo dục.
7. Bất kỳ sai lệch nào trong việc lựa chọn dữ liệu đều phải được điều chỉnh để
đảm bảo dữ liệu đại diện cho các hiện tượng được phân tích. Nếu dữ liệu
bao gồm nhiều thành viên thuộc một giới tính hơn mức tiêu biểu của dân
số quan tâm, thì cần áp dụng các điều chỉnh cho dữ liệu.
8. Dữ liệu phải được đưa về cùng một mức độ chi tiết để đảm bảo khả năng so
sánh. Dữ liệu bán hàng có thể có sẵn hàng ngày, nhưng dữ liệu bồi thường cho
nhân viên bán hàng chỉ có thể có sẵn hàng tháng. Để liên kết các biến này, dữ
liệu phải được đưa về mẫu số chung thấp nhất, trong trường hợp này là hàng
tháng.
9. Dữ liệu có thể cần được chọn lọc để tăng mật độ thông tin. Một số dữ
liệu có thể không thay đổi nhiều do dữ liệu không được ghi lại đúng
cách hoặc vì bất kỳ lý do nào khác. là dữ liệu có thể làm giảm tác động
của những khác biệt khác trong dữ liệu và cần được loại bỏ để cải thiện
mật độ thông tin của dữ liệu.
Đầu ra của khai thác dữ liệu
Các kỹ thuật khai thác dữ liệu có thể phục vụ các loại mục tiêu khác nhau. e ra-
vị trí khai thác dữ liệu sẽ phản ánh mục tiêu được phục vụ. Có rất nhiều biểu
diễn về kết quả đầu ra của khai thác dữ liệu.
Một dạng đầu ra khai phá dữ liệu phổ biến là cây quyết định. Nó là một cấu trúc
phân nhánh theo thứ bậc giúp theo dõi trực quan các bước để đưa ra quyết định dựa
trên mô hình. Cây e có thể có các thuộc tính nhất định, chẳng hạn như xác suất được
gán cho mỗi nhánh. Một định dạng liên quan là một tập hợp các quy tắc kinh doanh,
là các câu lệnh nếu-thì thể hiện quan hệ nhân quả. Một cây quyết định có thể được
ánh xạ tới các quy tắc nghiệp vụ. Nếu hàm mục tiêu là dự đoán, thì cây quyết định
hoặc quy tắc nghiệp vụ là phương thức thích hợp nhất để biểu diễn đầu ra.
Đầu ra có thể ở dạng phương trình hồi quy hoặc hàm toán học
biểu thị đường cong phù hợp nhất để biểu diễn dữ liệu. là phương trình
có thể bao gồm các điều khoản tuyến tính và phi tuyến tính. hồi quy
phương trình là một cách tốt để biểu diễn đầu ra của các bài tập phân
loại. ese cũng là một đại diện tốt cho các công thức dự báo.
Dân số "trung tâm" là một biện pháp thống kê để mô tả xu hướng trung tâm
của một tập hợp các điểm dữ liệu. ese có thể được định nghĩa trong một không
gian nhiều chiều. Ví dụ, một trung tâm có thể là “những chuyên gia trung niên,
có trình độ học vấn cao, thu nhập cao, đã kết hôn và có hai con, sống ở vùng ven
biển”. Hoặc một quần thể gồm “các doanh nhân công nghệ khoảng 20 tuổi, được
đào tạo bài bản, có trụ sở tại Thung lũng Silicon”. Hay một bộ sưu tập “xe hơn 20
năm tuổi, tiết kiệm nhiên liệu trên mỗi gallon, không qua kiểm tra môi trường”.
ese là những biểu diễn điển hình của đầu ra của một bài tập phân tích cụm.
Các quy tắc kinh doanh là một đại diện thích hợp cho đầu ra của một
bài tập phân tích rổ thị trường. Các quy tắc này là các câu lệnh nếu-thì
với một số tham số xác suất được liên kết với mỗi quy tắc. Ví dụ, những
người mua sữa và bánh mì cũng sẽ mua bơ (với xác suất 80%).
Đánh giá kết quả khai thác dữ liệu
Có hai loại quy trình khai thác dữ liệu chính: học có giám sát và học không
giám sát. Trong học có giám sát, một mô hình quyết định có thể được tạo bằng
cách sử dụng dữ liệu trong quá khứ và sau đó mô hình này có thể được sử dụng
để dự đoán câu trả lời chính xác cho các trường hợp dữ liệu trong tương lai.
Phân loại là phạm trù chính của hoạt động học có giám sát. Có nhiều kỹ thuật để
phân loại, cây quyết định là kỹ thuật phổ biến nhất. Mỗi kỹ thuật này có thể được
thực hiện với nhiều thuật toán. Một số liệu chung cho tất cả các kỹ thuật phân
loại là độ chính xác dự đoán.
Độ chính xác dự đoán5 (Dự đoán đúng) / Tổng dự đoán
Giả sử một dự án khai thác dữ liệu đã được bắt đầu để phát triển một mô hình dự
đoán cho bệnh nhân ung thư bằng cách sử dụng cây quyết định. Sử dụng một tập
hợp các biến và thể hiện dữ liệu có liên quan, một mô hình cây quyết định đã được
tạo. Sau đó, mô hình e được sử dụng để dự đoán các trường hợp dữ liệu khác. Khi
một điểm dữ liệu dương thực là dương, đó là một dự đoán đúng, được gọi là dương
thực (TP). Tương tự, khi một điểm dữ liệu âm tính thực sự được phân loại là âm tính,
thì đó là âm tính thực sự (TN). Mặt khác, khi một dữ liệu thực dương
Đúng Đẳng Cấp
tích cực âm phủ
Tư thế sai
âm phủ tích cực

Đúng Posi ve
lớp dự đoán
(TP) (FP)
Sai phủ nhận True Nega ve

(VN) (TN)
Hình 4.1 Ma trận nhầm lẫn
điểm được mô hình phân loại là âm tính, đó là một dự đoán không chính xác,
được gọi là âm tính giả (FN). Tương tự, khi một điểm dữ liệu âm tính thực được
phân loại là dương, điểm đó được phân loại là dương tính giả (FP). được gọi là
ma trận nhầm lẫn (Hình 4.1).
chúng tôi, độ chính xác dự đoán có thể được chỉ định theo công thức sau.
Độ chính xác dự đoán = (TP + TN) / (TP + TN + FP + FN).
Tất cả các kỹ thuật phân loại đều có độ chính xác dự đoán liên quan đến mô hình
dự đoán. Giá trị cao nhất có thể là 100 phần trăm. Trên thực tế, các mô hình dự đoán
với độ chính xác hơn 70 phần trăm có thể được coi là có thể sử dụng được trong các
lĩnh vực kinh doanh, tùy thuộc vào bản chất của hoạt động kinh doanh.
Không có biện pháp khách quan tốt nào để đánh giá độ chính xác của các
kỹ thuật học tập không giám sát, chẳng hạn như phân tích cụm. Không có câu
trả lời đúng duy nhất cho kết quả của những kỹ thuật này. Giá trị của mô hình
phân khúc phụ thuộc vào giá trị mà người ra quyết định nhìn thấy trong các kết
quả đó.
Kỹ thuật khai thác dữ liệu
Dữ liệu có thể được khai thác để giúp đưa ra các quyết định hiệu quả hơn trong
tương lai. Hoặc nó có thể được sử dụng để khám phá dữ liệu nhằm tìm ra các
mẫu kết hợp thú vị. Kỹ thuật phù hợp phụ thuộc vào loại vấn đề đang được giải
quyết (Hình 4.2).
Hình 4.2 Các kỹ thuật khai thác dữ liệu quan trọng
Loại bài toán quan trọng nhất được giải quyết bằng cách sử dụng khai phá
dữ liệu là các bài toán phân loại. Đây là những vấn đề trong đó dữ liệu từ các quyết
định trong quá khứ được khai thác để trích xuất một số quy tắc và mẫu có thể cải
thiện độ chính xác của quá trình ra quyết định trong tương lai. Dữ liệu của các quyết
định trong quá khứ được tổ chức và khai thác cho các quy tắc hoặc phương trình
quyết định, sau đó được hệ thống hóa để đưa ra các quyết định chính xác hơn. Các
kỹ thuật phân loại được gọi là học có giám sát vì có một cách để giám sát xem dự
đoán của mô hình là đúng hay sai.
Cây quyết định là một nhánh được tổ chức theo thứ bậc, được cấu
trúc để giúp đưa ra quyết định một cách dễ dàng và hợp lý.cây quyết
địnhlà kỹ thuật khai thác dữ liệu phổ biến nhất, vì nhiều lý do.
1. Cây quyết định dễ hiểu và dễ sử dụng bởi các nhà phân tích cũng như các
nhà điều hành. ey cũng cho thấy độ chính xác dự đoán cao.
2. Họ tự động chọn các biến phù hợp nhất trong số tất cả các
biến có sẵn để ra quyết định.
3. Cây quyết định chịu được các vấn đề về chất lượng dữ liệu và không yêu cầu
người dùng chuẩn bị nhiều dữ liệu.
4. Ngay cả các mối quan hệ phi tuyến tính cũng có thể được xử lý tốt bằng cây quyết định.
Có nhiều thuật toán để thực hiện cây quyết định. Một số cái
phổ biến là C5, GIỎ HÀNG và CHAID.
hồi quylà một kỹ thuật khai thác dữ liệu thống kê tương đối đơn giản và phổ biến nhất.
Mục tiêu của chúng tôi là làm khớp một đường cong mượt mà được xác định rõ ràng với dữ
liệu. Ví dụ, các kỹ thuật phân tích hồi quy có thể được sử dụng để lập mô hình và dự đoán mức
tiêu thụ năng lượng như là một hàm của nhiệt độ hàng ngày. Chỉ cần vẽ đồ thị dữ liệu sẽ hiển
thị một đường cong phi tuyến tính. Áp dụng phương trình hồi quy phi tuyến tính sẽ rất phù hợp
với dữ liệu với độ chính xác cao. chúng tôi, mức tiêu thụ năng lượng vào bất kỳ ngày nào trong
tương lai có thể được dự đoán bằng phương trình này.
Mạng lưới thần kinh nhân tạo (ANN) là một kỹ thuật khai thác dữ liệu tinh vi
từ dòng Trí tuệ nhân tạo trong Khoa học máy tính. Nó bắt chước hành vi của cấu
trúc thần kinh con người: Các tế bào thần kinh nhận các kích thích, xử lý chúng
và liên tục truyền đạt kết quả của chúng đến các tế bào thần kinh khác, và cuối
cùng một tế bào thần kinh đưa ra quyết định. Một nhiệm vụ quyết định có thể
được xử lý bởi chỉ một nơ-ron và kết quả có thể được thông báo sớm. Ngoài ra,
có thể có nhiều lớp tế bào thần kinh tham gia vào một nhiệm vụ quyết định, tùy
thuộc vào độ phức tạp của miền. Mạng thần kinh có thể được đào tạo bằng cách
đưa ra quyết định lặp đi lặp lại với nhiều điểm dữ liệu. Nó sẽ tiếp tục học hỏi
bằng cách điều chỉnh các thông số giao tiếp và tính toán bên trong dựa trên
phản hồi nhận được về các quyết định trước đó của nó. Các giá trị trung gian
được truyền trong các lớp tế bào thần kinh có thể không có ý nghĩa trực quan
đối với người quan sát. chúng tôi, các mạng lưới thần kinh được coi là một hệ
thống hộp đen.
Tại một thời điểm nào đó, mạng lưới thần kinh sẽ học đủ và bắt đầu
khớp với độ chính xác dự đoán của chuyên gia con người hoặc các kỹ thuật
phân loại thay thế. Dự đoán của một số ANN đã được đào tạo trong một thời
gian dài với lượng dữ liệu lớn đã trở nên chính xác hơn so với các chuyên gia
con người. Tại thời điểm đó, ANN có thể bắt đầu được xem xét nghiêm túc
để triển khai, trong các tình huống thực tế trong thời gian thực.
ANN phổ biến vì cuối cùng chúng có thể đạt được độ chính xác dự đoán cao.
ANN cũng tương đối đơn giản để triển khai và không có bất kỳ vấn đề nào về
chất lượng dữ liệu. ANNs yêu cầu rất nhiều dữ liệu để đào tạo nhằm phát triển
khả năng dự đoán tốt.
Phân tích clusterlà một kỹ thuật học khám phá giúp xác định một
tập hợp các nhóm tương tự trong dữ liệu. Nó là một kỹ thuật được sử
dụng để nhận dạng tự động các nhóm vật tự nhiên. Các trường hợp
dữ liệu tương tự (hoặc gần) nhau được phân loại thành một cụm,
trong khi các trường hợp dữ liệu rất khác nhau (hoặc ở xa) nhau
được phân loại thành các cụm ere có thể là bất kỳ số cụm e K-
riêng biệt. mà dữ liệu có thể tạo ra. means kỹ thuật là một phổ biến
kỹ thuật và cho phép hướng dẫn người dùng chọn đúng số
(K) cụm từ dữ liệu.
Phân cụm còn được gọi là kỹ thuật phân đoạn. nique hiển thị
công các
nghệ điện tử-
cụm sự vật từ dữ liệu trong quá khứ. Đầu ra là các trọng tâm cho mỗi
cụm và phân bổ các điểm dữ liệu cho cụm của chúng.
Định nghĩa trọng tâm được sử dụng để gán các phiên bản dữ liệu mới có thể
được gán cho các cụm nhà của chúng. Phân cụm cũng là một phần của nhóm kỹ
thuật trí tuệ nhân tạo.
quy tắc hiệp hộilà một phương pháp khai thác dữ liệu phổ biến trong kinh
doanh, đặc biệt là khi liên quan đến bán hàng. Còn được gọi là phân tích giỏ thị
trường, nó giúp trả lời các câu hỏi về cơ hội bán chéo. là trung tâm của công cụ
cá nhân hóa được sử dụng bởi các trang web thương mại điện tử như
Amazon.com và các trang web phát trực tuyến phim như Netflix.com. Kỹ thuật
này giúp tìm ra các mối quan hệ (ái lực) thú vị giữa các biến (mục hoặc sự kiện).
ese được biểu diễn dưới dạng các quy tắc có dạngX⇒Y,ở đâuXvàYlà tập hợp
các mục dữ liệu. Một hình thức học tập không giám sát, nó không có biến phụ
thuộc; và không có câu trả lời đúng hay sai. ere chỉ là mối quan hệ mạnh mẽ hơn
và yếu hơn. us, mỗi quy tắc có một mức độ tin cậy được gán cho nó. Là một
phần của gia đình máy học, kỹ thuật này đã đạt được vị thế huyền thoại khi
người ta tìm thấy mối quan hệ hấp dẫn trong việc bán tã và bia.
Công cụ và nền tảng để khai thác dữ liệu
Các công cụ khai thác dữ liệu đã tồn tại trong nhiều thập kỷ. Tuy nhiên, gần
đây chúng đã trở nên quan trọng hơn khi các giá trị của dữ liệu ngày càng
tăng và lĩnh vực phân tích dữ liệu lớn đã trở nên nổi bật. Có rất nhiều nền
tảng khai thác dữ liệu có sẵn trên thị trường hiện nay.
1. Có những công cụ khai thác dữ liệu đơn giản dành cho người dùng cuối, chẳng hạn như
MS Excel, và có những công cụ phức tạp hơn, chẳng hạn như IBM SPSS Modeler.
2. Có những công cụ độc lập và có những công cụ được nhúng trong hệ

thống xử lý giao dịch hoặc kho dữ liệu hoặc hệ thống ERP hiện có.
3. Có các công cụ mã nguồn mở và sẵn có miễn phí, chẳng hạn như Weka, và
có các sản phẩm thương mại.
4. Có các công cụ dựa trên văn bản yêu cầu một số kỹ năng lập trình và có
các công cụ định dạng kéo và thả dựa trên Giao diện người dùng đồ
họa (GUI).
5. Có những công cụ chỉ hoạt động trên các định dạng dữ liệu độc quyền và có những
công cụ chấp nhận trực tiếp dữ liệu từ một loạt các định dạng công cụ quản lý dữ
liệu phổ biến.
Ở đây, chúng tôi so sánh ba nền tảng mà chúng tôi đã sử dụng rộng rãi và
hiệu quả cho nhiều dự án khai thác dữ liệu (Bảng 4.1).
MS Excel là một công cụ khai thác dữ liệu tương đối đơn giản và dễ dàng. Nó có thể
trở nên khá linh hoạt sau khi gói phân tích và một số sản phẩm bổ trợ khác được cài đặt
trên đó.
IBM's SPSS Modeler là một nền tảng khai thác dữ liệu hàng đầu trong ngành. Nó
cung cấp một bộ công cụ và thuật toán mạnh mẽ cho hầu hết các khả năng khai thác dữ
liệu phổ biến. Nó có định dạng GUI đầy màu sắc với khả năng kéo và thả. Nó có thể chấp
nhận dữ liệu ở nhiều định dạng, bao gồm cả việc đọc tệp Excel trực tiếp.
Weka là một công cụ dựa trên GUI nguồn mở cung cấp một số lượng lớn các
thuật toán khai thác dữ liệu.
Hệ thống ERP cũng bao gồm một số khả năng phân tích dữ liệu. SAP có phần
mềm Business Objects BI. Đối tượng kinh doanh được coi là một trong những bộ BI
hàng đầu trong ngành và thường được sử dụng bởi các tổ chức sử dụng SAP.
Bảng 4.1 So sánh các nền tảng khai thác dữ liệu phổ biến
SPSS của IBM

Đặc tính Excel người làm mẫu Weka
quyền sở hữu Quảng cáo Quảng cáo, Mã nguồn mở, miễn phí
đắt tiền
Khai thác dữ liệu Hạn chế, mở rộng Tính năng phong phú, Sâu rộng,
Tính năng, đặc điểm với tiện ích bổ sung kích thước dữ liệu không giới hạn vấn đề hiệu năng
mô-đun với dữ liệu lớn
độc lập độc lập Được nhúng trong BI độc lập

bộ phần mềm
Kỹ năng người dùng cần thiết Người dùng cuối Nhà phân tích BI lành nghề Nhà phân tích BI lành nghề
Giao diện người dùng Chọn và bấm, Kéo và thả GUI, chủ yếu là đen trắng
dễ dàng đầy màu sắc, đầu ra văn bản
giao diện đẹp
định dạng dữ liệu Tiêu chuẩn công nghiệp Sự đa dạng của dữ liệu độc quyền
nguồn được chấp nhận
Thực tiễn tốt nhất về khai thác dữ liệu
Việc sử dụng hiệu quả và thành công hoạt động khai thác dữ liệu đòi hỏi cả kỹ năng
kinh doanh và công nghệ. Các khía cạnh kinh doanh điện tử giúp hiểu được miền và
các câu hỏi chính. Nó cũng giúp người ta tưởng tượng các mối quan hệ có thể có
trong dữ liệu và tạo ra các giả thuyết để kiểm tra nó. e Khía cạnh CNTT giúp tìm nạp
dữ liệu từ nhiều nguồn, làm sạch dữ liệu, lắp ráp dữ liệu để đáp ứng nhu cầu của vấn
đề kinh doanh, sau đó chạy các kỹ thuật khai thác dữ liệu trên nền tảng.
Một yếu tố quan trọng là theo đuổi vấn đề lặp đi lặp lại. Tốt hơn là phân
chia và chinh phục vấn đề với lượng dữ liệu nhỏ hơn và tiến gần hơn đến
trọng tâm của giải pháp theo trình tự lặp đi lặp lại các bước. Có một số
phương pháp hay nhất học được từ việc sử dụng các kỹ thuật khai thác dữ
liệu trong một thời gian dài. ngành công nghiệp khai thác dữ liệu đã đề xuất
Quy trình tiêu chuẩn xuyên ngành để khai thác dữ liệu (CRISP-DM). Nó có
sáu bước cơ bản (Hình 4.3):
Hình 4.3 Chu kỳ khai thác dữ liệu CRISP-DM

1. Bước đầu tiên và quan trọng nhất trong khai thác dữ liệu là hiểu biết về
nghiệp vụ, nghĩa là đặt ra các câu hỏi nghiệp vụ phù hợp. Một câu hỏi là
một câu hỏi hay nếu việc trả lời nó sẽ mang lại lợi ích lớn cho tổ chức, về
mặt tài chính và mặt khác. Nói cách khác, việc lựa chọn một dự án khai thác
dữ liệu cũng giống như bất kỳ dự án nào khác, trong đó nó sẽ cho thấy kết
quả tốt nếu dự án thành công. Cần có sự hỗ trợ điều hành mạnh mẽ cho
dự án khai thác dữ liệu, điều đó có nghĩa là dự án phù hợp tốt với chiến
lược kinh doanh.
2. Bước quan trọng thứ hai là phải sáng tạo và cởi mở trong việc đề xuất các
giả thuyết giàu trí tưởng tượng cho giải pháp. viết bên ngoài hộp là rất
quan trọng, cả về mô hình được đề xuất cũng như về các bộ dữ liệu có sẵn
và được yêu cầu.
3. Dữ liệu điện tử phải sạch và có chất lượng cao. Điều quan trọng là phải tập hợp
một nhóm có sự kết hợp giữa các kỹ năng kỹ thuật và kinh doanh, những người
hiểu rõ về miền và dữ liệu. Làm sạch dữ liệu có thể chiếm 60 đến 70 phần trăm
thời gian trong một dự án khai thác dữ liệu. Có thể mong muốn thêm các yếu
tố dữ liệu mới từ các nguồn dữ liệu bên ngoài có thể giúp cải thiện độ chính
xác của dự đoán.
4. Cần có sự kiên nhẫn khi liên tục tương tác với dữ liệu cho đến khi dữ liệu mang lại
một số thông tin chi tiết tốt. Một loạt các công cụ mô hình hóa và thuật toán nên
được sử dụng. Có thể thử một công cụ với các tùy chọn khác nhau, chẳng hạn như
chạy các thuật toán cây quyết định khác nhau.
5. Người ta không nên chấp nhận những gì dữ liệu nói lúc đầu. Tốt hơn là nên sắp xếp
tam giác phân tích bằng cách áp dụng nhiều kỹ thuật khai thác dữ liệu và thực hiện
nhiều tình huống giả định để xây dựng niềm tin vào giải pháp. Đánh giá độ chính
xác dự đoán của mô hình với nhiều dữ liệu thử nghiệm hơn.
6. Phổ biến và triển khai giải pháp là chìa khóa thành công của dự án.
Nếu không, dự án sẽ lãng phí thời gian và sẽ là một trở ngại cho
việc thiết lập và hỗ trợ văn hóa quy trình ra quyết định dựa trên dữ
liệu trong tổ chức. Mô hình điện tử nên được nhúng trong các quy
trình kinh doanh của tổ chức.
Huyền thoại về khai thác dữ liệu
Có rất nhiều huyền thoại về lĩnh vực này, khiến nhiều giám đốc kinh doanh sợ hãi
sử dụng khai thác dữ liệu.

Chuyện hoang đường số 1:Khai thác dữ liệu là về các thuật toán: Khai thác dữ
liệu được doanh nghiệp sử dụng để trả lời các câu hỏi kinh doanh quan trọng và thực
tế. Xây dựng chính xác tuyên bố vấn đề và xác định các giải pháp tưởng tượng để thử
nghiệm quan trọng hơn nhiều trước khi các thuật toán khai thác dữ liệu được gọi
vào.
Chuyện hoang đường số 2:Khai thác dữ liệu là về độ chính xác dự đoán: Mặc dù quan
trọng nhưng độ chính xác dự đoán là một tính năng của thuật toán. Như trong câu chuyện
hoang đường số 1, chất lượng đầu ra là một chức năng mạnh mẽ của vấn đề đúng, giả thuyết
đúng và dữ liệu đúng.
Chuyện hoang đường số 3:Khai thác dữ liệu yêu cầu kho dữ liệu: Mặc dù
sự hiện diện của kho dữ liệu hỗ trợ thu thập thông tin, đôi khi việc tạo kho
dữ liệu có thể được hưởng lợi từ một số hoạt động khai thác dữ liệu thăm
dò.
Chuyện hoang đường số 4:Khai thác dữ liệu yêu cầu số lượng lớn dữ liệu: Nhiều bài tập khai thác
dữ liệu thú vị được thực hiện bằng cách sử dụng các tập dữ liệu cỡ nhỏ hoặc trung bình.
Chuyện hoang đường số 5:Khai thác dữ liệu cần có chuyên gia công nghệ: Nhiều bài tập khai
thác dữ liệu thú vị được thực hiện bởi người dùng cuối và giám đốc điều hành bằng cách sử dụng các
công cụ đơn giản hàng ngày như bảng tính.
Sai lầm khai thác dữ liệu
Khai thác dữ liệu là một bài tập trong việc trích xuất các mẫu hữu ích không cần thiết
trong dữ liệu. Nó đòi hỏi rất nhiều sự chuẩn bị và kiên nhẫn để theo đuổi nhiều
khách hàng tiềm năng mà dữ liệu có thể cung cấp. Cần có nhiều kiến thức, công cụ
và kỹ năng về miền để tìm ra các mẫu như vậy. Dưới đây là một số sai lầm phổ biến
hơn trong việc khai thác dữ liệu và nên tránh.
Sai lầm #1:Chọn sai vấn đề để khai thác dữ liệu: Nếu không có mục tiêu
đúng hoặc không có mục tiêu, việc khai thác dữ liệu dẫn đến lãng phí thời gian.
Nhận được câu trả lời đúng cho một câu hỏi không liên quan có thể thú vị,
nhưng nó sẽ vô nghĩa.
Sai lầm #2:Bị chôn vùi dưới hàng núi dữ liệu mà không có siêu dữ liệu rõ
ràng: Tương tác với dữ liệu quan trọng hơn là có nhiều dữ liệu. Dữ liệu liên
quan được yêu cầu có thể ít hơn nhiều so với suy nghĩ ban đầu.
có thể không đủ kiến thức về dữ liệu hoặc siêu dữ liệu. Sai lầm #3:Khai thác dữ liệu vô
tổ chức: Không có mục tiêu rõ ràng, nhiều thời gian sẽ bị lãng phí. Thực hiện các bài
kiểm tra tương tự bằng cách sử dụng cùng một thuật toán khai thác
lặp đi lặp lại và mù quáng, không nghĩ đến giai đoạn tiếp theo, không có
kế hoạch, sẽ dẫn đến lãng phí thời gian và sức lực. có thể đến từ việc cẩu
thả trong việc theo dõi quy trình và kết quả khai thác dữ liệu.
Sai lầm #4:Kiến thức kinh doanh không đầy đủ: Nếu không có hiểu biết sâu sắc
về lĩnh vực kinh doanh, kết quả sẽ là vô nghĩa và vô nghĩa. Đừng đưa ra những giả
định sai lầm, lịch sự của các chuyên gia. Không loại trừ bất cứ điều gì khi quan sát kết
quả phân tích dữ liệu. Đừng bỏ qua những phát hiện đáng ngờ (tốt hay xấu) và
nhanh chóng tiếp tục. Hãy cởi mở với những điều bất ngờ. Ngay cả khi thông tin chi
tiết xuất hiện ở một cấp độ, điều quan trọng là phải chia nhỏ dữ liệu ở các cấp độ
khác để xem liệu có thể trích xuất thông tin chi tiết mạnh mẽ hơn hay không.
Sai lầm #5:Tính không tương thích của các công cụ khai thác dữ liệu: Tất cả các
công cụ từ thu thập, chuẩn bị, khai thác và trực quan hóa dữ liệu phải hoạt động
cùng nhau.
Sai lầm #6:Bị khóa trong nhà tù dữ liệu: Sử dụng các công cụ có thể hoạt
động với dữ liệu từ nhiều nguồn ở nhiều định dạng tiêu chuẩn ngành.
Sai lầm #7:Chỉ xem xét các kết quả tổng hợp chứ không phải các
bản ghi/dự đoán riêng lẻ. Có thể các kết quả đúng ở cấp độ tổng hợp
đưa ra những kết luận vô lý ở cấp độ hồ sơ cá nhân.
Sai lầm #8:Hết thời gian: Không dành đủ thời gian để thu thập, lựa chọn và
chuẩn bị dữ liệu có thể dẫn đến các vấn đề về chất lượng dữ liệu và GIGO. Tương
tự như vậy, việc không cung cấp đủ thời gian để thử nghiệm mô hình, đào tạo
người dùng và triển khai hệ thống có thể khiến dự án thất bại.
Sai lầm #9:Đo lường kết quả của bạn khác với cách nhà tài trợ của bạn
đo lường chúng: xuất phát từ việc mất ý thức về các mục tiêu kinh doanh và
bắt đầu khai thác dữ liệu vì lợi ích của chính nó.
Sai lầm #10:Tin tưởng một cách ngây thơ mọi thứ bạn được thông báo về dữ liệu:
Cũng ngây thơ tin vào mọi thứ bạn được thông báo về phân tích khai thác dữ liệu của
riêng bạn.
Phần kết luận
Khai thác dữ liệu giống như đi sâu vào vật liệu thô để khám phá ra một cục vàng thành
phẩm có giá trị. Mặc dù kỹ thuật này rất quan trọng, nhưng kiến thức miền cũng rất
quan trọng để cung cấp các giải pháp giàu trí tưởng tượng mà sau đó có thể được kiểm
tra bằng khai thác dữ liệu. Mục tiêu kinh doanh điện tử cần được hiểu rõ và
nên luôn luôn ghi nhớ để đảm bảo rằng các kết quả có lợi cho nhà
tài trợ của bài tập.
1. Khai thác dữ liệu là gì? Kỹ thuật học có giám sát và không giám
sát là gì?
2. Mô tả các bước chính trong quy trình khai phá dữ liệu. Tại sao điều quan trọng là phải
tuân theo các quy trình này?
3. Ma trận nhầm lẫn là gì?

4. Tại sao việc chuẩn bị dữ liệu lại quan trọng và tốn thời gian như vậy?
5. Một số kỹ thuật khai thác dữ liệu phổ biến nhất là gì?

6. Những sai lầm chính cần tránh khi thực hiện khai thác dữ liệu là gì?
7. Các yêu cầu chính đối với một nhà phân tích dữ liệu lành nghề là gì?
Liberty không ngừng đánh giá các cơ hội để cải thiện hiệu quả trong tất cả
các hoạt động của mình, bao gồm cả hoạt động thương mại cũng như các hoạt
động từ thiện.
1.Những kỹ thuật khai thác dữ liệu nào bạn sẽ sử dụng để phân tích và dự đoán các mẫu
bán hàng?
2.Bạn sẽ sử dụng kỹ thuật khai thác dữ liệu nào để phân loại khách hàng
của mình?
PHẦN 2
phần này sẽ trình bày chi tiết các kỹ thuật khai thác dữ liệu quan
trọng nhất. Ba kỹ thuật đầu tiên là những ví dụ về học có giám sát,
bao gồm các kỹ thuật phân loại.
Chương 5 sẽ đề cập đến cây quyết định, là hình thức phổ biến nhất
của kỹ thuật khai thác dữ liệu. Có nhiều thuật toán để phát triển cây
quyết định.
Chương 6 sẽ mô tả các kỹ thuật lập mô hình hồi quy. ese là các kỹ
thuật thống kê.
Chương 7 sẽ đề cập đến mạng nơ ron nhân tạo.
Hai kỹ thuật tiếp theo là những ví dụ về học không giám sát, bao
gồm các kỹ thuật khám phá dữ liệu.
Chương 8 sẽ đề cập đến phân tích cụm. còn được gọi là phân khúc thị trường
phân tích tâm lý.

Chương 9 sẽ đề cập đến kỹ thuật khai phá luật kết hợp, còn được gọi là phân
tích rổ thị trường.
Translated from English to Vietnamese - www.onlinedoctranslator.com
CHƯƠNG 5
Cây quyết định
Cây quyết định là một cách đơn giản để hướng dẫn con đường đưa ra quyết định của một
người. Quyết định có thể là một quyết định nhị phân đơn giản, có chấp thuận khoản vay
hay không. Hoặc nó có thể là một quyết định đa giá trị phức tạp, như những gì có thể là
chẩn đoán cho một căn bệnh cụ thể. Cây quyết định là cấu trúc phân nhánh theo thứ bậc
giúp người ta đưa ra quyết định dựa trên việc đặt một số câu hỏi nhất định theo một trình
tự cụ thể. Cây quyết định là một trong những kỹ thuật được sử dụng rộng rãi nhất để
phân loại. Một cây quyết định tốt nên ngắn gọn và chỉ hỏi một số câu hỏi có ý nghĩa.
Chúng rất hiệu quả để sử dụng, dễ giải thích và độ chính xác phân loại của chúng cạnh
tranh với các phương pháp khác. Cây quyết định có thể tạo ra kiến thức từ một vài
trường hợp thử nghiệm mà sau đó có thể được áp dụng cho một tập hợp rộng. Cây quyết
định được sử dụng chủ yếu để trả lời các quyết định nhị phân tương đối đơn giản.
Caselet: Dự đoán cơn đau tim bằng cách sử dụng

Cây quyết định
Một nghiên cứu đã được thực hiện tại UC San Diego liên quan đến dữ liệu bệnh nhân mắc bệnh tim.
bệnh nhân được chẩn đoán bị đau tim do đau ngực, được chẩn đoán bằng
điện tâm đồ, nồng độ enzyme cao trong cơ tim, v.v. Mục tiêu là dự đoán ai trong
số những bệnh nhân này có nguy cơ tử vong vì cơn đau tim thứ hai trong vòng 30
ngày tới. Dự đoán sẽ xác định kế hoạch điều trị, chẳng hạn như có nên giữ bệnh
nhân trong phòng chăm sóc đặc biệt hay không. Đối với mỗi bệnh nhân, hơn 100
biến số đã được thu thập, bao gồm nhân khẩu học, tiền sử bệnh và dữ liệu phòng
thí nghiệm. Sử dụng dữ liệu đó và thuật toán GIỎ HÀNG, một cây quyết định đã
được xây dựng.
cây quyết định cho thấy rằng nếu huyết áp (HA) thấp (≤90), khả năng
xảy ra cơn đau tim khác là rất cao (70 phần trăm). Nếu huyết áp của bệnh
nhân ổn, câu hỏi tiếp theo cần hỏi là tuổi của bệnh nhân. Nếu tuổi đã
thấp (≤62), thì khả năng sống sót của bệnh nhân gần như được đảm bảo
(98%). Nếu tuổi cao hơn, thì câu hỏi tiếp theo là về các vấn đề về xoang. Nếu
xoang của họ không sao, cơ hội sống sót là 89%. Nếu không, cơ hội sống sót
giảm xuống còn 50 phần trăm. là cây quyết định dự đoán chính xác 86,5
phần trăm các trường hợp. (Nguồn: Hệ thống Salford)
Q1.Cây quyết định có đủ tốt về độ chính xác, thiết kế,

khả năng đọc, đối với dữ liệu này, v.v.?
Q2. Xác định những lợi ích từ việc tạo ra một cây quyết định như vậy. Những điều này có thể
được định lượng?
Bài toán cây quyết định
Hãy tưởng tượng một cuộc trò chuyện giữa bác sĩ và bệnh nhân. e bác sĩ hỏi
câu hỏi để xác định nguyên nhân của bệnh. Bác sĩ sẽ tiếp tục đặt câu
hỏi cho đến khi họ có thể đi đến một quyết định hợp lý. Nếu không có
gì hợp lý, người đó có thể đề xuất một số thử nghiệm để tạo thêm dữ
liệu và tùy chọn.
là cách các chuyên gia trong bất kỳ lĩnh vực nào giải quyết vấn đề. Họ
sử dụng cây quyết định hoặc luật quyết định. Đối với mỗi câu hỏi họ đặt ra,
các câu trả lời tiềm năng sẽ tạo ra các nhánh riêng biệt để đặt câu hỏi tiếp
theo. Đối với mỗi nhánh, chuyên gia sẽ biết cách tiếp tục. Quá trình tiếp tục
cho đến khi đạt đến cuối cây, nghĩa là đạt đến nút lá.
Các chuyên gia về con người học hỏi từ kinh nghiệm hoặc điểm dữ liệu trong quá
khứ. Tương tự như vậy, một cỗ máy có thể được đào tạo để học hỏi từ các điểm dữ liệu
trong quá khứ và trích xuất một số kiến thức hoặc quy tắc từ đó. Cây quyết định sử dụng
các thuật toán học máy để trừu tượng hóa kiến thức từ dữ liệu. Cây quyết định sẽ có độ
chính xác dự đoán dựa trên tần suất nó đưa ra quyết định đúng.
1. Dữ liệu huấn luyện được cung cấp càng nhiều thì việc khai thác tri thức của nó
càng chính xác và do đó, nó sẽ đưa ra các quyết định chính xác hơn.
2. Càng nhiều biến mà cây có thể chọn, cây sẽ cho ra kết quả tốt hơn
với độ chính xác cao hơn.
3. Ngoài ra, một cây quyết định tốt cũng nên tiết kiệm để có
ít câu hỏi nhất và do đó, ít nỗ lực nhất để đi đến quyết
định đúng.
CÂY QUYẾT ĐỊNH 65
Đây là một bài tập để tạo một cây quyết định giúp đưa ra quyết định
về việc phê duyệt chơi một trò chơi ngoài trời. Mục tiêu là dự đoánchơi
quyết định đưa ra các điều kiện khí quyển ngoài kia. quyết định là: Trò
chơi có nên được phép hay không? Đây là vấn đề quyết định.
Quan điểm Nhiệt độ độ ẩm Có gió Chơi

Nhiều nắng Nóng bức Bình thường Thật ?
Để trả lời câu hỏi đó, người ta nên nhìn vào kinh nghiệm trong quá khứ và xem quyết định
nào đã được đưa ra trong một trường hợp tương tự, nếu một trường hợp như vậy tồn tại.
Người ta có thể tra cứu cơ sở dữ liệu về các quyết định trong quá khứ để tìm câu trả lời và cố
gắng đi đến câu trả lời. Dưới đây là danh sách các quyết định được đưa ra trong 14 tình huống
trong các trận đấu bóng đá trước đây (Bộ dữ liệu cung cấp: Witten, Frank và Hall 2010).

Nhiều nắng Nóng bức Cao Sai No
Nhiều nắng Nóng bức Cao Thật No
u ám Nóng bức Cao Sai các bạnS
Nhiều mưa Nhẹ nhàng Cao Sai các bạnS
Nhiều mưa Mát lạnh Bình thường Sai các bạnS
Nhiều mưa Mát lạnh Bình thường Thật No

u ám Mát lạnh Bình thường Thật các bạnS
Nhiều nắng Nhẹ nhàng Cao Sai No

Nhiều nắng Mát lạnh Bình thường Sai các bạnS
Nhiều mưa Nhẹ nhàng Bình thường Sai các bạnS
Nhiều nắng Nhẹ nhàng Bình thường Thật các bạnS
u ám Nhẹ nhàng Cao Thật các bạnS
u ám Nóng bức Bình thường Sai các bạnS
Nhiều mưa Nhẹ nhàng Cao Thật No
Nếu có một hàng chonắng/nóng/bình thường/gióđiều kiện trong bảng dữ

liệu, nó sẽ phù hợp với vấn đề hiện tại và quyết định từ tình huống đó có thể
được sử dụng để trả lời vấn đề ngày hôm nay. Tuy nhiên, không có trường hợp
quá khứ như vậy trong trường hợp này. Có ba nhược điểm của việc tra cứu bảng
dữ liệu:
1. Như đã đề cập trước đó, làm thế nào để quyết định nếu không có hàng tương ứng
với tình hình chính xác ngày nay? Nếu không có phiên bản phù hợp có sẵn trong cơ
sở dữ liệu, kinh nghiệm trong quá khứ không thể hướng dẫn quyết định.
2. Tìm kiếm trong toàn bộ cơ sở dữ liệu trước đây có thể tốn nhiều
thời gian, tùy thuộc vào số lượng biến và tổ chức của cơ sở dữ
liệu.
3. Điều gì xảy ra nếu các giá trị dữ liệu không có sẵn cho tất cả các biến? Trong
trường hợp này, nếu không có dữ liệu cho biến độ ẩm, việc tra cứu dữ liệu
trước đây sẽ không giúp ích gì.
4. Một cách giải quyết vấn đề tốt hơn có thể là trừu tượng hóa kiến thức từ dữ liệu
quá khứ thành cây quyết định hoặc quy tắc. Các quy tắc này có thể được biểu
diễn trong cây quyết định và sau đó cây đó có thể được sử dụng để đưa ra
quyết định. e cây quyết định có thể không cần giá trị cho tất cả các biến.
Xây dựng cây quyết định

Cây là một cấu trúc phân nhánh theo thứ bậc. Câu hỏi đầu tiên nên được
hỏi trong cây là gì? Người ta nên hỏi câu hỏi quan trọng nhất trước, và
những câu hỏi ít quan trọng nhất sau. Câu hỏi quan trọng nhất nên được
hỏi để giải quyết vấn đề là gì? Tầm quan trọng của các câu hỏi được xác
định như thế nào? Nút gốc của cây nên được xác định như thế nào?
Xác định nút gốc của cây:Trong ví dụ này, có bốn lựa chọn câu
hỏi dựa trên bốn biến số: triển vọng là gì, nhiệt độ là bao nhiêu, độ
ẩm là bao nhiêu và tốc độ gió là bao nhiêu? Một tiêu chí nên được
sử dụng theo đó một trong những câu hỏi này đưa ra cái nhìn sâu
sắc nhất về tình huống. Tiêu chí tiết kiệm là một tiêu chí tốt, nghĩa
là câu hỏi nào sẽ cung cấp cho chúng ta cây tối hậu ngắn nhất?
Một cách khác để xem xét vấn đề này là nếu một người chỉ được
phép hỏi một câu, thì người đó sẽ hỏi câu nào? Câu hỏi quan trọng
nhất phải là câu hỏi tự nó giúp đưa ra quyết định đúng đắn nhất
với ít sai sót nhất. Bốn câu hỏi có thể được so sánh một cách có hệ
thống để xem biến số nào giúp đưa ra quyết định đúng đắn nhất.
Người ta nên tính toán một cách có hệ thống tính đúng đắn của
các quyết định dựa trên từng câu hỏi. vi,
Bắt đầu với bất kỳ biến nào, trong trường hợp này là triển vọng. Nó có thể nhận ba
giá trị: nắng, u ám và mưa.

Bắt đầu với giá trị đầy nắng của triển vọng. có năm trường hợp mà
triển vọng là nắng. Trong hai trong số năm trường hợp,chơiquyết định là
Vâng,và trong ba người kia, quyết định làkhông. chúng tôi, nếu quy tắc quyết định
là triển vọng đó: nắng→không, thì ba trong số năm quyết định sẽ đúng,
trong khi hai trong số năm quyết định như vậy sẽ không chính xác. Có hai lỗi
trong số năm lỗi. is có thể được ghi vào Hàng 1.
Thuộc tính Quy tắc Lỗi Tổng số lỗi

Quan điểm Nhiều nắng→Không 2/5
Phân tích tương tự sẽ được thực hiện cho các giá trị khác của biến triển vọng.
Có bốn trường hợp mà triển vọng bị u ám. Trong tất cả bốn trong số
bốn trường hợp,chơiquyết định làVâng. chúng tôi, nếu quy tắc quyết định là
triển vọng đó: u ám→vâng, thì bốn trong số bốn quyết định sẽ đúng,
trong khi không có quyết định nào là sai. không có lỗi nào trong số
bốn lỗi. là có thể được ghi ở hàng tiếp theo.

Quan điểm Nhiều nắng→Không 2/5
u ám→Đúng 0/4
Có năm trường hợp mà triển vọng là mưa. Trong ba trong số năm

trường hợp,chơiquyết định làVâng,và trong ba người kia, quyết định là
không. chúng tôi, nếu quy tắc quyết định là triển vọng đó: mưa có, thì
ba trong số năm quyết định sẽ đúng, trong khi hai trong số năm quyết định sẽ
không chính xác. trước đây sẽ có hai lỗi trong số năm lỗi. là có thể được ghi ở
hàng tiếp theo.

Quan điểm Nhiều nắng→Không 2/5 14/4
u ám→Đúng 0/4
Nhiều mưa→Đúng 2/5
Cộng các lỗi cho tất cả các giá trị của triển vọng, có 4 lỗi trong số
14 lỗi. Có thể thực hiện phân tích tương tự cho ba biến còn lại. Khi
kết thúc bài tập phân tích đó, bảng lỗi sau sẽ được xây dựng.

Quan điểm Nhiều nắng→Không 2/5 14/4
u ám→Đúng 0/4
Nhiều mưa→Đúng 2/5
Nhiệt độ Nóng bức→Không 2/4 14/5
Nhẹ nhàng→Đúng 2/6
Mát lạnh→Đúng 1/4
độ ẩm Cao→Không 3/7 14/4
Bình thường→Đúng 1/7
Có gió Sai→Đúng 2/8 14/5
Thật→Không 3/6
e biến dẫn đến ít lỗi nhất (và do đó có nhiều quyết định

đúng nhất) nên được chọn làm nút đầu tiên. Trong trường hợp
này, hai biến có ít lỗi nhất. Có một sự ràng buộc giữa triển vọng
và độ ẩm, vì cả hai đều có 4 lỗi trong số 14 trường hợp.
Sự ràng buộc có thể bị phá vỡ bằng cách sử dụng một tiêu chí khác, độ tinh khiết của các cây con
kết quả.
Nếu tất cả các lỗi tập trung ở một số cây con và một số nhánh hoàn
toàn không có lỗi, điều này được ưu tiên hơn từ góc độ khả năng sử
dụng. Outlook có một nhánh không có lỗi, dành cho giá trị u ám của
triển vọng. Không có phân lớp thuần túy như vậy cho biến độ ẩm.
chúng tôi, mối quan hệ bị phá vỡ có lợi cho triển vọng. cây quyết định sẽ
sử dụng triển vọng làm nút đầu tiên hoặc biến phân tách đầu tiên. e câu hỏi
đầu tiên nên được hỏi để giải quyếtchơivấn đề là “Giá trị của triển vọng là
gì?”
Chẻ cây:Từ nút triển vọng, cây sẽ chia thành ba nhánh hoặc cây
con, tương ứng với từng giá trị trong ba giá trị của triển vọng. Dữ liệu
cho nút gốc (toàn bộ dữ liệu) sẽ được chia thành ba phân đoạn, mỗi
phân đoạn cho một giá trị của triển vọng.
Chi nhánh sunny sẽ kế thừa dữ liệu cho các trường hợp mà sunny
là giá trị của triển vọng. ese sẽ được sử dụng để xây dựng thêm cây con
đó. Tương tự như vậy, nhánh rain sẽ kế thừa dữ liệu cho các trường hợp
có Rain làm giá trị triển vọng. ese sẽ được sử dụng để xây dựng thêm cây
con đó. nhánh u ám sẽ kế thừa dữ liệu cho
các trường hợp đã u ám như triển vọng. Tuy nhiên, sẽ không cần phải xây dựng
thêm trên nhánh đó. trước là một quyết định rõ ràng,Vâng,cho tất cả các trường
hợp khi giá trị triển vọng bị u ám.
Cây quyết định sẽ trông như thế này sau lần chia tách đầu tiên. chúng tôi,
nếu một người chỉ được phép hỏi một câu hỏi, cái cây này sẽ giúp đưa ra quyết
định tốt nhất.
Quan điểm
Nhiều nắng Nhiều mưa
u ám
Nhiệt độ độ ẩm Có gió Chơi VÂNG Nhiệt độ độ ẩm Có gió Chơi

Nóng bức Cao Sai Không Nhẹ nhàng Cao Sai Đúng
Nóng bức Cao Thật Không Mát lạnh Bình thường Sai Đúng
Nhẹ nhàng Cao Sai Không Mát lạnh Bình thường Thật Không
Mát lạnh Bình thường Sai Đúng Nhẹ nhàng Bình thường Sai Đúng
Nhẹ nhàng Bình thường Thật Đúng Nhẹ nhàng Cao Thật Không
Xác định các nút tiếp theo của cây:Một logic tương tự của việc xây
dựng cây nên được áp dụng cho mỗi nhánh. Đối với nhánh nắng bên
trái, giá trị sai số sẽ được tính cho ba biến khác: nhiệt độ, độ ẩm và gió.
So sánh cuối cùng trông như thế này:

Nhiệt độ Nóng bức→Không 0/2 1/5
Nhẹ nhàng→Không 1/2
Mát lạnh→Đúng 0/1
Có gió Sai→Không 1/3 2/5
Thật→Đúng 1/2
e biến độ ẩm hiển thị ít lỗi nhất, nghĩa là bằng không

lỗi. e hai biến khác có sai số khác không. chúng tôi, chi nhánh trên
bên trái sẽ sử dụng độ ẩm làm biến phân chia tiếp theo.
Phân tích tương tự nên được thực hiện cho giá trị "mưa" của cây. so e
sánh cuối cùng sẽ trông như sau.

Nhiệt độ Nhẹ nhàng→Đúng 1/3 2/5
Mát lạnh→Vâng 1/2
Có gió Sai→Đúng 0/3 0/5
Thật→Không 1/2
Chonhiều mưanhánh, tương tự có thể thấy rằng biếncó gió đưa ra tất cả các câu
trả lời đúng, trong khi không có biến nào trong số hai biến còn lại đưa ra tất cả các
quyết định chính xác.
là cây quyết định cuối cùng trông như thế nào. Ở đây, nó được sản xuất bằng
cách sử dụng nền tảng khai thác dữ liệu mã nguồn mở Weka (Hình 5.1). là mô hình
trừu tượng hóa kiến thức về dữ liệu quá khứ của quyết định.
Hình 5.1 Cây quyết định cho bài toán thời tiết
is tree có thể được sử dụng để giải quyết vấn đề hiện tại. Đây là vấn đề
một lần nữa.

Nhiều nắng Nóng bức Bình thường Thật ?
Theo cái cây, câu hỏi đầu tiên cần hỏi là về triển vọng. Trong vấn đề
này, triển vọng là nắng. Vì vậy, vấn đề quyết định chuyển sangnhiều
nắngnhánh của cây. vấn đề, độ ẩm làtrong
nút e bình cây
thường.
con đócâu trảẩm.
là độ lời bên
chochơivấn
trong
đề làVâng. tại chi nhánh dẫn đến một câu trả lờiVâng. chúng ta,

Nhiều nắng Nóng bức Bình thường Thật Đúng
Bài học từ việc xây dựng cây xanh
Dưới đây là một số lợi ích của việc sử dụng cây quyết định này so với việc tra
cứu câu trả lời từ bảng dữ liệu (Bảng 5.1).
Bảng 5.1 So sánh cây quyết định với bảng tra cứu
cây quyết định Bảng tra cứu
Sự chính xác Mức độ chính xác đa dạng chính xác 100%
tổng quát Chung; áp dụng cho tất cả các Chỉ áp dụng khi đã xảy ra trường
tình huống hợp tương tự trước đó
tiết kiệm Chỉ cần ba biến Tất cả bốn biến là cần thiết
Đơn giản Chỉ một hoặc hai câu hỏi Tất cả bốn giá trị biến là cần
được hỏi thiết
Dễ dàng Logic và dễ hiểu Có thể rườm rà để tra cứu;

không hiểu logic đằng sau
quyết định
Dưới đây là một vài quan sát về cách cây được xây dựng:
1. là cây quyết định cuối cùng không có lỗi trong ánh xạ tới dữ liệu trước đó. Nói
cách khác, cây hoàn toàn phù hợp với dữ liệu; nó có độ chính xác dự đoán là
100 phần trăm. Trong các tình huống thực tế, độ chính xác dự đoán hoàn hảo
như vậy là không thể khi tạo cây quyết định. Khi có các tập dữ liệu lớn hơn,
phức tạp hơn, với nhiều biến hơn, thì không thể đạt được sự phù hợp hoàn
hảo. điều này đặc biệt đúng trong bối cảnh kinh doanh và xã hội, nơi mọi thứ
không phải lúc nào cũng hoàn toàn rõ ràng và nhất quán.
2. Thuật toán cây quyết định đã chọn số lượng biến tối thiểu cần thiết
để giải quyết vấn đề. chúng tôi, người ta có thể bắt đầu với
tất cả các biến có sẵn và để thuật toán cây quyết định chọn những gì hữu
ích và loại bỏ phần còn lại.
3. là cây đối xứng với tất cả các nhánh có độ dài gần như bằng nhau.
Tuy nhiên, trong các tình huống thực tế, một số nhánh có thể dài
hơn các nhánh khác.
4. Có thể tăng độ chính xác của dự đoán bằng cách tạo nhiều cây con
hơn và làm cho cây dài hơn. Tuy nhiên, độ chính xác cận biên thu
được từ mỗi cấp độ tiếp theo trong cây sẽ ít hơn và có thể không
đáng để mất đi tính dễ hiểu và dễ hiểu của cây. Nếu các nhánh dài
và phức tạp sẽ khó hiểu và khó sử dụng. Các nhánh dài hơn có thể
cần được cắt tỉa để giữ cho cây dễ sử dụng.
5. Một cây phù hợp hoàn hảo có nguy cơ làm quá khớp dữ liệu, do đó nắm bắt được tất cả các
biến thể ngẫu nhiên trong dữ liệu. Nó có thể phù hợp tốt với dữ liệu đào tạo, nhưng có
thể không hoạt động tốt trong việc dự đoán các trường hợp trong tương lai.
6. trước đây là một cây tốt nhất cho dữ liệu này. Tuy nhiên, có thể có hai hoặc
nhiều cây quyết định hiệu quả như nhau có độ dài tương tự với độ chính xác dự
đoán tương tự cho cùng một tập dữ liệu.
7. Cây quyết định hoàn toàn dựa trên việc quan sát các mẫu trong dữ liệu và
không dựa vào bất kỳ lý thuyết cơ bản nào của miền vấn đề. Khi có sẵn
nhiều cây ứng cử viên, tất cả chúng đều có thể được sử dụng, bất cứ khi
nào mỗi cây phản ánh tốt hơn cho các tình huống khác nhau. Sự dễ hiểu về
cây sẽ là một tiêu chí để chọn một cây. Nếu cả hai đều trực quan như nhau,
thì hãy sử dụng một trong hai tùy theo sở thích cá nhân.
Thuật toán cây quyết định
Cây quyết định sử dụng phương pháp chia để trị. phân nhánh tại mỗi nút
dữ liệutheo
điện tử là
các tiêu chí nhất định cho đến khi tất cả dữ liệu được gán cho các nút lá. Nó
phân chia đệ quy một tập huấn luyện cho đến khi mỗi phân chia bao gồm các ví
dụ từ một lớp.
Sau đây là mã giả để tạo cây quyết định:
1.Tạo một nút gốc và gán tất cả dữ liệu đào tạo cho nó.
2.Chọn thuộc tính tách tốt nhất theo các tiêu chí nhất định.
3.Thêm một nhánh vào nút gốc cho mỗi giá trị của phần tách.
4.Chia dữ liệu thành các tập con loại trừ lẫn nhau dọc theo các đường phân
chia cụ thể.
5.Lặp lại các bước 2 và 3 cho mỗi và mọi nút lá cho đến khi đạt được
tiêu chí dừng.
Có nhiều thuật toán để tạo cây quyết định. những cái phổ biến
nhất là C5, GIỎ HÀNG và CHAID. Chúng khác nhau ở ba yếu tố chính:
1.Tiêu chí phân chia

một. Biến nào sẽ được sử dụng cho lần phân tách đầu tiên? Làm
cách nào để xác định biến quan trọng nhất cho nhánh đầu
tiên và sau đó cho mỗi cây con? Có nhiều biện pháp như ít lỗi
nhất, thu được thông tin và hệ số Gini.
b. Những giá trị nào sẽ được sử dụng để phân chia? Nếu các biến có giá trị liên
tục, chẳng hạn như tuổi hoặc HA, thì nên sử dụng phạm vi giá trị nào để tạo
thùng?
c. Có bao nhiêu nhánh nên được phép cho mỗi nút? trước đây có
thể là cây nhị phân, chỉ có hai nhánh tại mỗi nút. Hoặc có thể có
nhiều chi nhánh hơn được phép.
2.tiêu chí dừng
một. Khi nào ngừng xây dựng cây? Có hai cách chính để đưa ra
quyết định đó. Quá trình tạo cây có thể bị dừng lại khi cành
cây đạt đến độ sâu nhất định và cây không thể đọc được sau
đó. Cây điện tử cũng có thể bị dừng khi mức lỗi tại bất kỳ nút
nào nằm trong mức chấp nhận được xác định trước.
3.cắt tỉa
một. Cắt tỉa trước và sau: cây có thể được cắt tỉa để cân đối hơn
và dễ sử dụng hơn. Việc cắt tỉa thường được thực hiện sau khi
cây được xây dựng để cân bằng cây và cải thiện khả năng sử
dụng.
Để tăng độ chính xác dự đoán, cây quyết định có thể hoàn toàn phù hợp với dữ liệu
huấn luyện và làm cho cây dài. Do đó, nó sẽ hiển thị độ chính xác tốt trên dữ liệu đào tạo.
Tuy nhiên, nó có thể không cho thấy độ chính xác tốt như vậy trên dữ liệu thử nghiệm.
Các triệu chứng của cây quá phù hợp là cây quá sâu, có quá nhiều nhánh, một số nhánh
có thể phản ánh sự bất thường do nhiễu hoặc ngoại lệ. chúng tôi, cây nên được cắt tỉa. Có
hai cách tiếp cận để tránh trang bị quá mức.

- Cắt tỉa trước có nghĩa là tạm dừng việc xây dựng cây sớm, khi các
tiêu chí nhất định được đáp ứng. Nhược điểm là rất khó để quyết
định sử dụng tiêu chí nào để tạm dừng xây dựng, bởi vì chúng tôi
không biết điều gì có thể xảy ra sau đó, nếu chúng tôi tiếp tục
trồng cây.
- Cắt tỉa sau: Loại bỏ các nhánh hoặc cây con khỏi cây “đã trưởng
thành hoàn toàn”. là phương pháp được sử dụng phổ biến. Thuật
toán C4.5 sử dụng phương pháp thống kê để ước tính lỗi tại mỗi
nút để cắt tỉa. Một bộ xác thực cũng có thể được sử dụng để cắt
xén (Bảng 5.2).
Bảng 5.2 So sánh các thuật toán cây quyết định phổ biến
cây quyết định C4.5 XE ĐẨY CHA
Họ và tên lặp đi lặp lại Phân loại cation và Chi vuông
Bộ phân đôi (ID3) cây hồi quy tự động
máy dò tương tác
thuật toán cơ bản Thuật toán Hunt Thuật toán Hunt Điều chỉnh
xét nghiệm dấu hiệu
nhà phát triển Ross Quinlan Bremman Gordon Kass
Khi phát triển 1986 1984 1980

Các loại cây phân loại cation Phân loại cation và Phân loại cation và
cây hồi quy hồi quy
nối tiếp Sự phát triển của cây và cắt Sự phát triển của cây và Sự phát triển của cây và
thực hiện tỉa cây tỉa cây tỉa cây

Loại dữ liệu rời rạc và rời rạc và dữ liệu không bình thường
tiếp diễn; tiếp diễn cũng được chấp nhận
dữ liệu không đầy đủ
Các loại phân chia chia nhiều đường Chỉ tách nhị phân; chia nhiều đường
đại diện thông minh như mặc định
chia nhỏ để giảm

độ sâu của cây
Tiêu chí phân chia thu được thông tin hệ số Gini, và những hệ số kiểm định chi bình phương
khác
Tiêu chí cắt tỉa Thông minh từ dưới lên Loại bỏ yếu nhất Cây cối có thể trở thành
kỹ thuật tránh liên kết đầu tiên rất lớn

qua tting
Thực hiện công khai công khai tại Phổ biến trên thị trường
hầu hết các gói Nghiên cứu cho
phân khúc
Phần kết luận
Cây quyết định là kỹ thuật khai thác dữ liệu phổ biến, linh hoạt và dễ sử dụng
nhất với độ chính xác dự đoán cao. ey cũng rất hữu ích như là công cụ giao tiếp
với giám đốc điều hành. Có rất nhiều thuật toán cây quyết định thành công. Tất
cả các nền tảng phần mềm khai thác dữ liệu có sẵn công khai đều cung cấp
nhiều triển khai cây quyết định.
1. Cây quyết định là gì? Tại sao cây quyết định là kỹ thuật phân loại
phổ biến nhất?
2. Biến tách là gì? Mô tả ba tiêu chí để lựa chọn biến tách.
3. Cắt tỉa là gì? Cắt tỉa trước và cắt tỉa sau là gì? Tại sao chọn cái
này hơn cái kia?
4. Hệ số Gini và độ lợi thông tin là gì? (Gợi ý: google nó.)
Bài tập thực hành: Tạo cây quyết định cho tập dữ liệu sau. Mục tiêu là
dự đoán hạng mục (khoản vay được chấp thuận hay không).
Tuổi Nghề nghiệp Căn nhà Tín dụng Khoản vay được phê duyệt
Trẻ Sai Không Công bằng No

Trẻ Sai Không Tốt No
Trẻ Thật Không Tốt các bạnS
Trẻ Thật Đúng Công bằng các bạnS
Trẻ Sai Không Công bằng No

Tên đệm Sai Không Công bằng No
Tên đệm Sai Không Tốt No
Tên đệm Thật Đúng Tốt các bạnS
Tên đệm Sai Đúng Xuất sắc các bạnS
Tên đệm Sai Đúng Xuất sắc các bạnS
Cũ Sai Đúng Xuất sắc các bạnS
Cũ Sai Đúng Tốt các bạnS
Cũ Thật Không Tốt các bạnS
Cũ Thật Không Xuất sắc các bạnS
Cũ Sai Không Công bằng No

vi giải bài toán sau bằng mô hình.
Tuổi Nghề nghiệp Căn nhà Tín dụng Khoản vay được phê duyệt
Trẻ Sai Không Tốt ?
Liberty liên tục đánh giá các yêu cầu mở cửa hàng mới. muốn mắt
chính thức hóa quy trình xử lý nhiều yêu cầu để những ứng viên
tốt nhất được lựa chọn để đánh giá chi tiết.
Phát triển cây quyết định để đánh giá các lựa chọn cửa hàng mới. Đây là
dữ liệu đào tạo:
Quy mô thành phố trung bình Địa phương LOHAS Phán quyết
Thu nhập = earnings nhà đầu tư Nhận thức
To lớn Cao Đúng Cao Đúng
y tế y tế Không y tế Không
Bé nhỏ Thấp Đúng Thấp Không
To lớn Cao Không Cao Đúng

Bé nhỏ y tế Đúng Cao Không
y tế Cao Đúng y tế Đúng

y tế y tế Đúng y tế Không
To lớn y tế Không y tế Không
y tế Cao Đúng Thấp Không
Bé nhỏ Cao Không Cao Đúng

Bé nhỏ y tế Không Cao Không
y tế Cao Không y tế Không
Sử dụng cây quyết định để trả lời câu hỏi sau.
trung bình Địa phương LOHAS

Quy mô thành phố Thu nhập = earnings nhà đầu tư Nhận thức Phán quyết
y tế y tế Không y tế ?
CHƯƠNG 6
hồi quy
Hồi quy là một kỹ thuật thống kê nổi tiếng để mô hình hóa mối quan hệ
dự đoán giữa một số biến độc lập (DV) và một biến phụ thuộc. Mục tiêu
là tìm đường cong phù hợp nhất cho biến phụ thuộc trong không gian
nhiều chiều, với mỗi biến độc lập là một thứ nguyên. Đường cong có thể
là một đường thẳng hoặc nó có thể là một đường cong phi tuyến tính.
Chất lượng phù hợp của đường cong với dữ liệu có thể được đo bằng hệ
số tương quan (r),là căn bậc hai của lượng phương sai được giải thích bởi
đường cong.
Các bước chính để hồi quy rất đơn giản:
1. Liệt kê tất cả các biến có sẵn để tạo mô hình.

2. Thiết lập một biến quan tâm phụ thuộc.
3. Kiểm tra mối quan hệ trực quan (nếu có thể) giữa các biến quan tâm.
4. Tìm cách dự đoán biến phụ thuộc bằng cách sử dụng các biến khác.
Caselet: Thị trường dự đoán dựa trên dữ liệu
Những người thăm dò ý kiến truyền thống dường như vẫn đang sử dụng các phương
pháp đã hoạt động tốt cách đây một hoặc hai thập kỷ. Nate Silver là một thế hệ mới của các
nhà dự báo chính trị dựa trên dữ liệu, những người đã thấm nhuần dữ liệu lớn và phân tích
nâng cao. Trong cuộc bầu cử năm 2012, ông dự đoán rằng Obama sẽ thắng cử với 291
phiếu đại cử tri, so với 247 của Mitt Romney, giúp Tổng thống dẫn trước 62% và tái đắc cử.
Ông đã làm choáng váng giới dự báo chính trị khi dự đoán chính xác người chiến thắng
trong cuộc bầu cử tổng thống ở tất cả 50 bang, bao gồm cả 9 bang dao động. Ông cũng dự
đoán chính xác người chiến thắng ở 31 trong số 33 cuộc đua vào Thượng viện Hoa Kỳ.
Nate Silver mang đến một cái nhìn khác về thế giới dự đoán các cuộc bầu cử chính trị,
xem nó như một ngành khoa học. Trình bày giả thuyết một cách khoa học, thu thập tất cả
thông tin có sẵn, phân tích dữ liệu và rút ra những hiểu biết sâu sắc bằng cách sử dụng các
mô hình và thuật toán tinh vi, cuối cùng, áp dụng phán đoán của con người để diễn giải
những hiểu biết đó. e kết quả có khả năng cao hơn e
có cơ sở và thành công. (Nguồn: Signal and the Noise: Why Most
Dự đoán thất bại nhưng một số thì không, bởi Nate Silver, 2012)
Q1.Tác động của câu chuyện này đối với những người thăm dò truyền thống là gì và
bình luận viên?
Tương quan và Mối quan hệ

Mối quan hệ thống kê là về phần tử nào của dữ liệu được kết hợp với
nhau và phần tử nào được kết hợp riêng biệt. Đó là về việc phân loại các
biến có mối quan hệ với nhau và phân loại các biến khác biệt và không
liên quan đến các biến khác. Đó là về việc mô tả các mối quan hệ tích cực
đáng kể và sự khác biệt tiêu cực đáng kể.
Thước đo đầu tiên và quan trọng nhất để đánh giá sức mạnh của một
mối quan hệ là đồng quan hệ (hoặc tương quan). Độ mạnh của mối tương
quan là thước đo định lượng được đo trong phạm vi chuẩn hóa từ 0 (không)
đến 1. Tương quan bằng 1 biểu thị mối quan hệ hoàn hảo, trong đó hai biến
đồng bộ hoàn hảo. Tương quan bằng 0 chỉ ra rằng không có mối quan hệ
giữa các biến.
Mối quan hệ này có thể thuận hoặc có thể là mối quan
hệ nghịch đảo, tức là các biến có thể cùng chiều hoặc ngược
chiều. do đó, một thước đo tương quan tốt là hệ số tương
quan, là căn bậc hai của tương quan. là hệ số, gọi là
r,do đó có thể dao động từ −1 đến +1. Giá trị r bằng 0 có nghĩa là không có mối quan hệ nào.
Mộtrgiá trị của 1 cho thấy mối quan hệ hoàn hảo trong cùng một hướng, và mộtr giá trị của -1
cho thấy một mối quan hệ hoàn hảo nhưng di chuyển theo hướng ngược lại.
Cho hai biến sốxvày,hệ số tương quanrđược tính toán

theo phương trình sau.x-là ý nghĩa củax, vày-là ý nghĩa củay.
[( - )][( - )]
5
[( - )2][( - )2]
HỒI QUY 79
Hình 6.1 Biểu đồ phân tán thể hiện các loại quan hệ giữa
hai biến
(Nguồn:Groebner và cộng sự. 2013)
Cái nhìn trực quan về các mối quan hệ
Biểu đồ phân tán (hoặc sơ đồ phân tán) là một bài tập đơn giản để vẽ tất cả
các điểm dữ liệu giữa hai biến trên biểu đồ hai chiều. Nó cung cấp một bố
cục trực quan về nơi đặt tất cả các điểm dữ liệu trong không gian hai chiều
đó. Biểu đồ phân tán có thể hữu ích để trực quan hóa mối quan hệ giữa hai
biến bằng đồ thị.
Đây là một hình ảnh cho thấy nhiều mẫu có thể có trong biểu đồ
phân tán (Hình 6.1).
Biểu đồ (a) cho thấy mối quan hệ tuyến tính rất chặt chẽ giữa các biến x
vày. tại có nghĩa là giá trị củaytăng tỷ lệ thuận vớix.Đồ thị
(b) cũng cho thấy mối quan hệ tuyến tính chặt chẽ giữa các biếnxvà
y.Ở đây nó là một mối quan hệ nghịch đảo. tại có nghĩa là giá trị củay
giảm tỷ lệ thuận vớix.
Biểu đồ (c) cho thấy một mối quan hệ đường cong. Đó là một mối quan hệ
nghịch đảo, có nghĩa là giá trị củaygiảm tỷ lệ thuận vớix.Tuy nhiên, có vẻ như đó là
một mối quan hệ tương đối rõ ràng, giống như một cung của một đường tròn, có thể
được biểu diễn bằng một phương trình bậc hai đơn giản (bậc hai có nghĩa là lũy thừa
của hai, nghĩa là sử dụng các thuật ngữ nhưx2vày2). Biểu đồ (d) cho thấy mối quan hệ
đường cong dương. Tuy nhiên, nó dường như không giống với hình dạng thông
thường và do đó sẽ không phải là một mối quan hệ bền vững. Biểu đồ (e) và (f)
không có mối quan hệ nào. tại phương tiện biếnxvàyđộc lập với nhau.
Biểu đồ (a) và (b) là những ứng cử viên tốt để mô hình hóa mô hình hồi quy
tuyến tính đơn giản (thuật ngữ mô hình hồi quy và phương trình hồi quy có thể được
sử dụng thay thế cho nhau). Biểu đồ (c) cũng có thể được lập mô hình với phương
trình hồi quy bậc hai phức tạp hơn một chút. Biểu đồ (d) có thể yêu cầu một phương
trình hồi quy đa thức bậc cao hơn để biểu diễn dữ liệu. Biểu đồ (e) và (f ) không có
mối quan hệ nào, do đó, chúng không thể được lập mô hình cùng nhau, bằng hồi
quy hoặc sử dụng bất kỳ công cụ mô hình hóa nào khác.
Bài tập hồi quy

e mô hình hồi quy được mô tả như một phương trình tuyến tính
sau.ylà biến phụ thuộc, nghĩa là biến được dự đoán.xlà biến độc lập,
hoặc biến dự đoán. ere có thể có nhiều biến dự đoán (chẳng hạn như
x1,x2, . . .) trong một phương trình hồi quy. Tuy nhiên, có thể chỉ có
một biến phụ thuộc (y)trong phương trình hồi quy.
y b0 b1x e
Một ví dụ đơn giản về phương trình hồi quy là dự đoán giá nhà từ
kích thước của ngôi nhà. Dưới đây là dữ liệu nhà mẫu:
Giá nhà Kích thước (sqft)
$229,500 1.850
$273,300 2.190
$247,000 2.100
$195,100 1.930
$261,000 2.300
$179,700 1.710
$168,500 1.550
$234,400 1.920
$168,800 1.840
$180,400 1.720
$156,200 1.660
$288,350 2,405
$186,750 1.525
$202,100 2.030
$256,800 2.240
HỒI QUY 81
Hình 6.2 Biểu đồ phân tán và phương trình hồi quy giữa Giá
nhà và quy mô nhà
Hai chiều của dữ liệu (một yếu tố dự đoán, một biến kết quả) có thể
được vẽ trên biểu đồ phân tán. Biểu đồ phân tán với đường phù hợp nhất
trông giống như biểu đồ sau (Hình 6.2).
Nhìn trực quan, người ta có thể thấy mối tương quan tích cực
giữa giá nhà và diện tích (sqft). Tuy nhiên, mối quan hệ không
hoàn hảo. Chạy mô hình hồi quy giữa hai biến tạo ra đầu ra sau
(cắt bớt).
Thống kê hồi quy

Nhiềur 0,891
r2 0,794
hiệu quảS
đánh chặn - 54,191
Kích thước (sqft) 139,48
Nó cho thấy hệ số tương quan là 0,891.r2, thước đo tổng

phương sai được giải thích bởi phương trình, là 0,794, hay 79
phần trăm. tại có nghĩa là hai biến có tương quan vừa phải và
tích cực. Hệ số hồi quy giúp tạo ra phương trình sau để dự đoán
giá nhà.
Giá Nhà ($) = 139,48×Kích thước (sqft) – 54.191
là phương trình chỉ giải thích được 79 phần trăm sự khác biệt
trong giá nhà. Giả sử có sẵn các biến dự đoán khác, chẳng hạn như số
phòng trong nhà, nó có thể giúp cải thiện mô hình hồi quy.
dữ liệu nhà điện tử bây giờ trông như thế này:
Giá nhà Kích thước (sqft) # Phòng

$229,500 1.850 4
$273,300 2.190 5
$247,000 2.100 4
$195,100 1.930 3
$261,000 2.300 4
$179,700 1.710 2
$168,500 1.550 2
$234,400 1.920 4
$168,800 1.840 2
$180,400 1.720 2
$156,200 1.660 2
$288,350 2,405 5
$186,750 1.525 3
$202,100 2.030 2
$256,800 2.240 4
Mặc dù có thể tạo biểu đồ phân tán ba chiều, nhưng người ta có thể
kiểm tra ma trận tương quan giữa các biến theo cách khác.
#
Giá nhà Kích thước (sqft) Phòng
Giá nhà 1
Kích thước (sqft) 0,891 1
Phòng 0,944 0,748 1
Nó cho thấy rằng giá nhà cũng có mối tương quan chặt chẽ với số lượng
phòng (0,944). chúng tôi, có khả năng là việc thêm biến này vào mô hình hồi
quy sẽ làm tăng thêm sức mạnh của mô hình.
Chạy mô hình hồi quy giữa ba biến này sẽ tạo ra đầu ra
sau.
HỒI QUY 83

Nhiềur 0,984
r2 0,968
hiệu quảS
đánh chặn 12,923
Kích thước (sqft) 65,60
Phòng 23,613
Nó cho thấy hệ số tương quan của mô hình hồi quy này là 0,984.r2,
tổng phương sai được giải thích bởi phương trình, là 0,968, hay 97 phần
trăm. tại có nghĩa là các biến có tương quan thuận và rất mạnh. Việc
thêm một biến liên quan mới đã giúp cải thiện sức mạnh của mô hình
hồi quy.
Sử dụng các hệ số hồi quy giúp tạo ra phương trình sau
để dự đoán giá nhà.
Giá Nhà ($) = 65,6×Kích thước (sqft) + 23.613×Phòng + 12.924
là phương trình cho thấy mức độ phù hợp 97 phần trăm với dữ liệu, điều
này rất tốt cho dữ liệu kinh doanh và kinh tế. Luôn luôn có một số biến thể ngẫu
nhiên trong dữ liệu kinh doanh xảy ra tự nhiên và không mong muốn mô hình
phù hợp với dữ liệu.
là phương trình dự đoán nên được sử dụng cho các giao dịch
trong tương lai. Với một tình huống sau đây, có thể tính giá của ngôi nhà
với 2.000 bộ vuông và 3 phòng.
Giá nhà Kích thước (sqft) # Phòng

? 2.000 3
Giá Nhà ($) = 65,6×2.000 (sqft) + 23.613×3 + 12,924 = $

214,963
Các giá trị dự đoán nên được so sánh với các giá trị thực tế để xem
mức độ gần đúng của mô hình có thể dự đoán giá trị thực tế. Khi các điểm
dữ liệu mới có sẵn, sẽ có nhiều cơ hội để tinh chỉnh và cải thiện mô hình.
Bài tập hồi quy phi tuyến tính

Mối quan hệ giữa các biến cũng có thể là đường cong. Ví dụ: đưa
ra dữ liệu trong quá khứ từ mức tiêu thụ điện (kWh) và nhiệt độ
(nhiệt độ), mục tiêu là dự đoán mức tiêu thụ điện từ giá trị nhiệt độ.
Dưới đây là một chục quan sát trong quá khứ.
KWatt Nhiệt độ (F)
12.530 46,8
10.800 52.1
10.180 55.1
9.730 59.2
9.750 61,9
10.230 66.2
11.160 69,9
13.910 76,8
15.690 79.3
15,110 79,7
17,020 80.2
17.880 83.3
Ở hai chiều (một yếu tố dự đoán, một biến kết quả), dữ liệu có thể được
vẽ trên sơ đồ phân tán. Biểu đồ phân tán với đường phù hợp nhất trông
giống như biểu đồ sau (Hình 6.3).
Rõ ràng là dòng đầu tiên không phù hợp với dữ liệu. mối quanehệ
lại
giữa nhiệt độ và Kwatts theo một mô hình đường cong,
Hình 6.3 Biểu đồ phân tán hiển thị hồi quy giữa (a) Kwatts và nhiệt
độ, và (b) Kwatts và temp-sq
HỒI QUY 85
nơi nó chạm đáy ở một giá trị nhiệt độ nhất định. e hồi quy
mô hình xác nhận mối quan hệ kể từrchỉ là 0,77 vàr2cũng chỉ 60%. chúng
tôi, chỉ có 60 phần trăm phương sai được giải thích.
mô hình hồi quy e sau đó có thể được tăng cường bằng cách sử dụng
biến temp-sq trong phương trình. Dòng thứ hai là mối quan hệ giữa kWh và
temp-sq. Biểu đồ trực quan mức tiêu thụ năng lượng cho thấy mối quan hệ
tuyến tính chặt chẽ với biến temp-sq bậc hai.
Chạy mô hình hồi quy sau khi thêm biến bậc hai ta được kết
quả như sau:

Nhiềur 0,992
r2 0,984
hiệu quảS
đánh chặn 67,245
Nhiệt độ (F) − 1,911
Nhiệt độ-sq 15,87
Cho thấy hệ số tương quan của mô hình hồi quy lúc này là 0,99.
r2, tổng phương sai được giải thích bởi phương trình, là 0,985 hay
98,5 phần trăm. tại có nghĩa là các biến có tương quan rất mạnh
và tích cực. e hệ số hồi quy giúp tạo phương trình sau cho
Tiêu thụ năng lượng = 15,87×tạm thời-sq-1.911×Nhiệt độ
+ 67,245
là phương trình cho thấy mức độ phù hợp 98,5 phần trăm, điều này
rất tốt cho bối cảnh kinh doanh và kinh tế. Bây giờ người ta có thể dự đoán
giá trị Kwatts khi nhiệt độ là 72 độ.
Tiêu thụ năng lượng = (15,87×72×72)-(1,911×72)
+ 67.245 = 11.923 Kwatt
Hồi quy logistic

Các mô hình hồi quy thường hoạt động với dữ liệu giá trị số liên tục cho các biến
phụ thuộc và biến độc lập. Tuy nhiên, các mô hình hồi quy logistic có thể hoạt
động với các biến phụ thuộc có giá trị nhị phân, chẳng hạn như liệu khoản vay
có được chấp thuận hay không (có hoặc không). Hồi quy logistic đo lường
mối quan hệ giữa một biến phụ thuộc phân loại và một hoặc nhiều biến độc lập.
Ví dụ: hồi quy logistic có thể được sử dụng để dự đoán liệu một bệnh nhân có
mắc một bệnh nào đó hay không (ví dụ: bệnh tiểu đường), dựa trên các đặc
điểm quan sát được của bệnh nhân (tuổi, giới tính, chỉ số khối cơ thể, kết quả xét
nghiệm máu, v.v.).
Các mô hình hồi quy logistic sử dụng điểm xác suất làm giá
trị dự đoán của biến phụ thuộc. Hồi quy logistic lấy logarit tự
nhiên của tỷ lệ biến phụ thuộc là một trường hợp (gọi tắt là
logit) để tạo ra một tiêu chí liên tục dưới dạng phiên bản biến
đổi của biến phụ thuộc. chúng tôi, phép biến đổi logit được sử
dụng trong hồi quy logistic làm biến phụ thuộc. Hiệu quả ròng
là mặc dù biến phụ thuộc trong hồi quy logistic là nhị thức
(hoặc phân loại, nghĩa là chỉ có hai giá trị có thể), logit là hàm
liên tục mà hồi quy tuyến tính được thực hiện. Đây là hàm
logistic chung, với biến độc lập trên trục hoành và biến phụ
thuộc logit trên trục tung (Hình 6.4).
Tất cả các nền tảng khai thác dữ liệu phổ biến đều cung cấp hỗ trợ cho nhiều mô
hình hồi quy thông thường, cũng như các tùy chọn cho hồi quy logistic.
Ưu điểm và nhược điểm của các mô hình hồi quy

Các mô hình hồi quy rất phổ biến vì chúng mang lại nhiều lợi thế.
Hình 6.4 Chức năng logit chung

HỒI QUY 87
1. Các mô hình hồi quy rất dễ hiểu vì chúng được xây dựng dựa trên các nguyên tắc
thống kê cơ bản, chẳng hạn như tương quan và sai số bình phương nhỏ nhất.
2. Các mô hình hồi quy cung cấp các phương trình đại số đơn giản, dễ
hiểu và dễ sử dụng.
3. Độ mạnh (hoặc mức độ phù hợp) của mô hình hồi quy được đo
lường theo các hệ số tương quan và các thông số thống kê
liên quan khác đã được hiểu rõ.
4. Các mô hình hồi quy có thể phù hợp và đánh bại khả năng dự đoán của các kỹ
thuật lập mô hình khác.
5. Mô hình hồi quy có thể bao gồm tất cả các biến mà người ta muốn
đưa vào mô hình.
6. Các công cụ mô hình hóa hồi quy rất phổ biến. ey được tìm thấy trong các gói
thống kê cũng như các gói khai thác dữ liệu. Bảng tính MS Excel cũng có thể
cung cấp khả năng lập mô hình hồi quy đơn giản.
Tuy nhiên, các mô hình hồi quy có thể tỏ ra không phù hợp trong nhiều
trường hợp.
1. Các mô hình hồi quy không thể giải quyết các vấn đề về chất lượng dữ liệu kém. Nếu dữ
liệu không được chuẩn bị tốt để loại bỏ các giá trị còn thiếu hoặc không hoạt động tốt
theo phân phối chuẩn, thì tính hợp lệ của mô hình sẽ bị ảnh hưởng.
2. Các mô hình hồi quy gặp phải vấn đề cộng tuyến (có nghĩa là
tương quan tuyến tính chặt chẽ giữa một số biến độc lập).
Nếu các biến độc lập có mối tương quan chặt chẽ với nhau thì
chúng sẽ ăn mòn khả năng dự đoán của nhau và các hệ số hồi
quy sẽ mất đi tính chắc chắn.
3. Các mô hình hồi quy sẽ không tự động chọn giữa các biến cộng
tuyến cao, mặc dù một số gói cố gắng làm điều đó. Các mô hình hồi
quy có thể khó sử dụng và không đáng tin cậy nếu một số lượng lớn
các biến được đưa vào mô hình. Tất cả các biến được nhập vào mô
hình sẽ được phản ánh trong phương trình hồi quy, bất kể đóng
góp của chúng vào khả năng dự đoán của mô hình. Không có khái
niệm tự động cắt tỉa mô hình.
4. Các mô hình hồi quy không tự động quan tâm đến tính phi tuyến tính.
Người dùng cần hình dung loại thuật ngữ bổ sung có thể cần được
thêm vào mô hình hồi quy để cải thiện mức độ phù hợp của nó.
5. Các mô hình hồi quy chỉ hoạt động với dữ liệu số và không hoạt
động với các biến phân loại. Có nhiều cách để xử lý các biến
phân loại bằng cách tạo nhiều biến mới với giá trị có/không.
Phần kết luận
Các mô hình hồi quy là các công cụ trực quan/đồ họa đơn giản, linh hoạt với khả
năng dự đoán cao. Chúng bao gồm các dự đoán phi tuyến tính cũng như nhị phân.
Các mô hình hồi quy nên được sử dụng cùng với các kỹ thuật khai thác dữ liệu khác
để xác nhận các phát hiện.
Xem lại bài tập
1. Mô hình hồi quy là gì?

2. Biểu đồ phân tán là gì? Nó giúp ích như thế nào?
3. So sánh cây quyết định với mô hình hồi quy?

4. Sử dụng dữ liệu sau, tạo một mô hình hồi quy để dự đoán Bài kiểm tra 2 từ
điểm của Bài kiểm tra 1. vi dự đoán điểm của người đạt 46 điểm trong Bài
kiểm tra 1.
kiểm tra 1 kiểm tra 2
59 56
52 63
44 55
51 50
42 66
42 48
41 58
45 36
27 13
63 50
54 81
44 56
50 64
47 50
HỒI QUY 89
Liberty muốn dự báo doanh số bán hàng của mình trong năm tới để lập ngân sách tài chính.
Toàn cầu # Cust #

chỉ số GDP phục vụ cuộc gọi Người lao động # Vật phẩm Doanh thu
Năm bình quân đầu người ('000s) ('000) ('000) ($M)
1 100 25 45 11 2.000
2 112 27 53 11 2.400
3 115 22 54 12 2.700
4 123 27 58 14 2.900
5 122 32 60 14 3.200
6 132 33 65 15 3.500
7 143 40 72 16 4.000
số 8 126 30 65 16 4.200
9 166 34 85 17 4.500
10 157 47 97 18 4.700
11 176 33 98 18 4.900
12 180 45 100 20 5.000
1. Tính toán các mối tương quan. Biến nào có tương quan mạnh?
2. Tạo mô hình hồi quy dự đoán doanh thu tốt nhất.
CHƯƠNG 7
Mạng thần kinh nhân tạo
Mạng thần kinh nhân tạo (ANN) được lấy cảm hứng từ mô hình xử lý thông
tin của tâm trí/bộ não. Bộ não con người bao gồm hàng tỷ tế bào thần kinh
liên kết với nhau theo một mô hình phức tạp. Mỗi nơ-ron nhận thông tin từ
nhiều nơ-ron khác, xử lý nó, có bị kích thích hay không và truyền thông tin
trạng thái của nó cho các nơ-ron khác.
Giống như bộ não là một hệ thống đa năng, ANN cũng là những hệ
thống rất linh hoạt. ey có thể được sử dụng cho nhiều loại nhận dạng mẫu ey
và dự đoán. cũng được sử dụng để phân loại, hồi quy, phân cụm
các hoạt động liên kết, liên kết và tối ưu hóa. ey được sử dụng trong tài chính,
tiếp thị, sản xuất, vận hành, ứng dụng hệ thống thông tin,
v.v.
ANN bao gồm một số lượng lớn các phần tử xử lý được kết nối với
nhau cao (nơ-ron) hoạt động trong một cấu trúc nhiều lớp nhận đầu vào,
xử lý đầu vào và tạo ra đầu ra. ANN được thiết kế cho một ứng dụng cụ
thể, chẳng hạn như nhận dạng mẫu hoặc phân loại dữ liệu và được đào
tạo thông qua quy trình học tập. Giống như trong các hệ thống sinh học,
ANN điều chỉnh các kết nối khớp thần kinh với từng trường hợp học tập.
ANN giống như một hộp đen được đào tạo để giải quyết một loại vấn đề cụ thể
và chúng có thể phát triển khả năng dự đoán cao. Các giá trị tham số khớp thần kinh
trung gian của eir phát triển khi hệ thống nhận được phản hồi về các dự đoán của nó
và do đó, ANN học hỏi từ nhiều dữ liệu huấn luyện hơn (Hình 7.1).
Hình 7.1 Mô hình ANN tổng quát

Caselet: IBM Watson—Analytics in Medicine
Lượng thông tin y tế có sẵn đang tăng gấp đôi sau mỗi năm năm và phần lớn
dữ liệu này không có cấu trúc. Các bác sĩ đơn giản là không có thời gian để đọc
mọi tạp chí có thể giúp họ cập nhật những tiến bộ mới nhất. Những sai lầm trong
chẩn đoán có khả năng xảy ra và khách hàng đã nhận thức rõ hơn về bằng
chứng. Phân tích sẽ biến lĩnh vực y học thành y học dựa trên bằng chứng. Làm
thế nào các nhà cung cấp dịch vụ chăm sóc sức khỏe có thể giải quyết những vấn
đề này?
Hệ thống điện toán nhận thức Watson của IBM có thể phân tích một
lượng lớn văn bản phi cấu trúc và phát triển các giả thuyết dựa trên phân tích
đó. Các bác sĩ có thể sử dụng Watson để hỗ trợ chẩn đoán và điều trị cho
bệnh nhân. Đầu tiên, bác sĩ có thể mô tả các triệu chứng và các yếu tố liên
quan khác đến hệ thống. Sau đó, Watson có thể xác định các mẩu thông tin
chính và khai thác dữ liệu của bệnh nhân để tìm các thông tin liên quan về
tiền sử gia đình, các loại thuốc hiện tại và các tình trạng hiện có khác. Nó kết
hợp thông tin này với những phát hiện hiện tại từ các xét nghiệm, sau đó
hình thành và kiểm tra giả thuyết bằng cách kiểm tra nhiều nguồn dữ liệu
khác nhau—hướng dẫn điều trị, dữ liệu hồ sơ y tế điện tử (EMR), ghi chú của
bác sĩ và y tá, cũng như đánh giá ngang hàng. nghiên cứu và nghiên cứu lâm
sàng. Từ đây,
Watson đã được triển khai tại nhiều cơ sở chăm sóc sức khỏe hàng đầu nhằm nâng cao
chất lượng và hiệu quả của các quyết định chăm sóc sức khỏe; để giúp các bác sĩ khám phá
những hiểu biết sâu sắc về thông tin bệnh nhân của nó trong hồ sơ y tế điện tử; trong số
các lợi ích khác.
Q1. IBM Watson sẽ thay đổi các hoạt động y tế như thế nào trong tương lai?
Q2. Công nghệ này có thể được áp dụng trong những ngành và chức năng nào
khác?
Ứng dụng kinh doanh của ANN
Mạng lưới thần kinh được sử dụng thường xuyên nhất khi hàm mục tiêu
phức tạp và có nhiều dữ liệu, đồng thời mô hình dự kiến sẽ cải thiện
trong một khoảng thời gian.
MẠNG LƯỚI THẦN KINH NHÂN TẠO 93
1. ey được sử dụng trong dự đoán giá cổ phiếu trong đó các quy tắc
của trò chơi cực kỳ phức tạp và rất nhiều dữ liệu cần được xử lý rất
nhanh.
2. ey được sử dụng để nhận dạng ký tự, chẳng hạn như nhận dạng văn bản
viết tay hoặc văn bản bị hỏng hoặc sai lệch. ey được sử dụng để nhận dạng
dấu vân tay. Đây là những mẫu phức tạp và là duy nhất cho mỗi người. Các
lớp tế bào thần kinh có thể dần dần làm rõ mô hình.
3. ey cũng được sử dụng trong các bài toán phân loại truyền thống, chẳng hạn như
phê duyệt đơn xin vay tiền.
Nguyên tắc thiết kế của một ANN
1. Nơ-ron là đơn vị xử lý cơ bản của mạng. Tế bào thần kinh (hoặc

phần tử xử lý) nhận đầu vào từ các nơ-ron (hoặc PE) trước nó,
thực hiện một số tính toán có trọng số phi tuyến tính trên cơ sở
các đầu vào đó, biến đổi kết quả thành giá trị đầu ra của nó, sau
đó chuyển đầu ra cho nơ-ron tiếp theo trong mạng (Hình 7.2). X
là đầu vào, w là trọng số cho mỗi đầu vào và y là đầu ra.
Hình 7.2 Sơ đồ khối Mô hình cho một nơ-ron nhân tạo đơn lẻ
2. Mạng nơ-ron là một mô hình nhiều lớp. có ít nhất một nơ-ron đầu
vào, một nơ-ron đầu ra và ít nhất một nơ-ron xử lý. Một
Hình 7.3 Mô hình cho ANN đa lớp
ANN chỉ với cấu trúc cơ bản này sẽ là một đơn vị tính toán một tầng
đơn giản. Một tác vụ đơn giản có thể được xử lý bởi chỉ một nơ-ron
đó và kết quả có thể được thông báo sớm. Tuy nhiên, ANN có thể có
nhiều lớp phần tử xử lý theo trình tự. có thể có nhiều nơ-ron tham
gia vào một chuỗi tùy thuộc vào mức độ phức tạp của hành động
dự đoán. Các lớp PE có thể hoạt động theo thứ tự hoặc chúng có
thể hoạt động song song (Hình 7.3).
3. Logic xử lý của mỗi nơ-ron có thể gán các trọng số khác nhau cho
các luồng đầu vào khác nhau. Logic xử lý cũng có thể sử dụng phép
biến đổi phi tuyến tính, chẳng hạn như hàm sigmoid, từ các giá trị
được xử lý sang giá trị đầu ra. đang xử lý logic và trọng lượng trung
gian và các chức năng xử lý chỉ là những gì hoạt động cho toàn bộ
hệ thống, với mục tiêu giải quyết vấn đề chung. chúng tôi, các mạng
lưới thần kinh được coi là một hệ thống hộp đen và mờ đục.
4. Mạng nơ-ron có thể được huấn luyện bằng cách đưa ra các quyết định tương tự
lặp đi lặp lại với nhiều trường hợp huấn luyện. Nó sẽ tiếp tục học bằng cách
điều chỉnh tính toán nội bộ và giao tiếp dựa trên phản hồi về các quyết định
trước đó của nó. chúng tôi, các mạng thần kinh trở nên tốt hơn trong việc đưa
ra quyết định khi chúng xử lý ngày càng nhiều quyết định.
Tùy thuộc vào bản chất của vấn đề và sự sẵn có của dữ liệu đào tạo tốt,
đến một lúc nào đó, mạng lưới thần kinh sẽ học đủ và bắt đầu khớp với độ
chính xác dự đoán của một chuyên gia con người. Trong nhiều tình huống
thực tế, các dự đoán của ANN, được đào tạo trong một thời gian dài
thời gian với một số lượng lớn dữ liệu đào tạo, đã bắt đầu trở nên chính xác hơn so
với các chuyên gia con người. Tại thời điểm đó, ANN có thể bắt đầu được xem xét
nghiêm túc để triển khai trong các tình huống thực trong thời gian thực.
Đại diện của một mạng lưới thần kinh
Mạng thần kinh là một loạt các nơ-ron (hoặc các phần tử xử lý) nhận đầu vào từ
các nơ-ron khác. Họ thực hiện chức năng tính tổng có trọng số của tất cả các đầu
vào, sử dụng các trọng số (hoặc mức độ quan trọng) khác nhau cho mỗi đầu
vào. Tổng trọng số sau đó được chuyển đổi thành giá trị đầu ra bằng cách sử
dụng hàm truyền.
Việc học trong ANN xảy ra khi các phần tử xử lý khác nhau trong
mạng thần kinh điều chỉnh mối quan hệ cơ bản (trọng số, hàm
truyền, v.v.) giữa đầu vào và đầu ra, để đáp ứng phản hồi về dự đoán
của chúng. Nếu dự đoán được đưa ra là chính xác, thì các trọng số sẽ
giữ nguyên, nhưng nếu dự đoán không chính xác, thì các giá trị tham
số sẽ thay đổi.
Chức năng chuyển đổi (chuyển giao) là bất kỳ chức năng nào phù hợp với
nhiệm vụ hiện tại. Nó có thể là một hàm tuyến tính, bằng cách chuyển đổi giá trị
thành giá trị nhỏ hơn hoặc lớn hơn. e chức năng truyền có thể là một chức năng
sigmoid phi tuyến tính. chúng tôi, nếu giá trị được tính toán chuẩn hóa nhỏ hơn
một số giá trị (giả sử 0,5), thì giá trị đầu ra sẽ bằng không. Nếu giá trị được tính
toán ở ngưỡng giới hạn, thì giá trị đầu ra sẽ là 1. Nó có thể là một hàm hypebol
phi tuyến tính trong đó đầu ra là −1 hoặc 1. Nhiều hàm khác có thể được thiết kế
cho bất kỳ hoặc tất cả các các phần tử xử lý.
chúng ta, trong một mạng thần kinh, mọi phần tử xử lý có thể có
một số lượng giá trị đầu vào khác nhau, một bộ trọng số khác nhau cho
các đầu vào đó và một loại hàm chuyển đổi khác. Các giá trị này hỗ trợ và
bù trừ cho nhau cho đến khi toàn bộ mạng thần kinh học cách cung cấp
đầu ra chính xác, như mong muốn của người dùng.
Kiến trúc một mạng lưới thần kinh nhân tạo
Có nhiều cách để kiến trúc chức năng của ANN bằng cách sử dụng
các quy tắc mở và khá đơn giản với mức độ linh hoạt cực lớn ở mỗi giai
đoạn. Kiến trúc phổ biến nhất là kiến trúc chuyển tiếp, nhiều lớp
Kiến trúc ANN cho các ứng dụng khác nhau

phân loại Mạng Feedforward (MLP), hàm cơ sở
xuyên tâm và xác suất
hồi quy Mạng Feedforward (MLP), chức năng cơ sở
xuyên tâm
phân cụm Lý thuyết cộng hưởng thích ứng (ART),
Bản đồ tự tổ chức (SOM)
Khai thác quy tắc hiệp hội mạng hopfield
tại
perceptron (MLP) với thuật toán học lan truyền ngược. có nghĩa là
có nhiều lớp PE trong hệ thống và đầu ra của các nơ-ron được đưa
tới các PE ở các lớp tiếp theo; và phản hồi về dự đoán được đưa trở
lại mạng thần kinh để quá trình học diễn ra.
về cơ bản là những gì đã được mô tả trong các đoạn trước đó.
Phát triển ANN

Cần có tài nguyên, dữ liệu đào tạo, kỹ năng và thời gian để phát triển mạng lưới
thần kinh. Hầu hết các nền tảng khai thác dữ liệu đều cung cấp ít nhất thuật
toán MLP để triển khai mạng thần kinh. Các bước cần thiết để xây dựng ANN
như sau:
1. Thu thập dữ liệu: Chia thành dữ liệu huấn luyện và dữ liệu kiểm tra. Dữ liệu
đào tạo cần được chia thành dữ liệu đào tạo và dữ liệu xác nhận.
2. Chọn kiến trúc mạng, chẳng hạn như mạng feedforward.
3. Chọn thuật toán, chẳng hạn như Nhận thức đa lớp.
4. Đặt thông số mạng.
5. Huấn luyện ANN với dữ liệu huấn luyện.
6. Xác thực mô hình bằng dữ liệu xác thực.

7. Đóng băng trọng lượng và các thông số khác.
8. Kiểm tra mạng được đào tạo với dữ liệu thử nghiệm.
9. Triển khai ANN khi đạt được độ chính xác dự đoán tốt.
Các kiến trúc mạng thần kinh khác bao gồm mạng xác suất và
bản đồ đặc trưng tự tổ chức.
Đào tạo ANN: Dữ liệu đào tạo được chia thành ba phần
Tập huấn luyện là tập dữ liệu được sử dụng để điều chỉnh trọng
số trên mạng thần kinh (∼60%).
bộ xác thực là tập dữ liệu được sử dụng để giảm thiểu quá
mức và xác minh độ chính xác (∼20%).
bộ kiểm tra là tập dữ liệu chỉ được sử dụng để thử nghiệm

giải pháp cuối cùng nhằm xác nhận khả năng dự
đoán thực tế của mạng (∼20%).
xác thực chéo k-fold phương pháp này có nghĩa là dữ liệu được chia
thành k phần bằng nhau và quá trình học được
lặp lại k lần với mỗi phần trở thành tập huấn
luyện. là quá trình dẫn đến ít sai lệch hơn và chính
xác hơn, nhưng tốn nhiều thời gian hơn.
Đây là mã giả cho Thuật toán bản đồ tự tổ chức
1. Khởi tạo trọng số của mỗi nút.

2. Trình bày một vectơ đầu vào được chọn ngẫu nhiên cho mạng.
3. Xác định nút (chiến thắng) giống nhất.

4. Xác định các nút lân cận.
5. Điều chỉnh các nút chiến thắng và nút lân cận (làm cho chúng giống vectơ
đầu vào hơn)
6. Lặp lại các bước 2-5 cho đến khi đạt đến tiêu chí dừng
Ưu điểm và nhược điểm của việc sử dụng ANN
Có rất nhiều lợi thế khi sử dụng ANN.
1. ANN áp đặt rất ít hạn chế đối với việc sử dụng chúng. ANN có thể tự xử lý (xác
định/mô hình hóa) các mối quan hệ phi tuyến tính cao mà không cần nhiều
công việc từ người dùng hoặc nhà phân tích. Chúng tôi giúp tìm ra các giải
pháp thực tế dựa trên dữ liệu khi các giải pháp thuật toán không tồn tại hoặc
quá phức tạp.
2. Không cần lập trình mạng thần kinh ANN vì chúng học từ các ví dụ. Chúng
trở nên tốt hơn khi sử dụng mà không cần nỗ lực lập trình nhiều.
3. ANN có thể xử lý nhiều loại vấn đề khác nhau, bao gồm phân
loại, phân cụm, liên kết, v.v.
4. ANN chấp nhận các vấn đề về chất lượng dữ liệu và chúng không hạn chế dữ liệu
tuân theo các giả định về tính quy tắc và/hoặc tính độc lập nghiêm ngặt.
5. ANN có thể xử lý cả biến số và biến phân loại.

6. ANN có thể nhanh hơn nhiều so với các kỹ thuật khác.
7. Quan trọng nhất, ANN thường cung cấp kết quả tốt hơn (dự đoán
và/hoặc phân cụm) so với các đối tác thống kê, một khi chúng đã
được đào tạo đủ.
Những nhược điểm chính phát sinh từ thực tế là chúng không dễ diễn
giải, giải thích hoặc tính toán.
1. Chúng được coi là giải pháp hộp đen, thiếu khả năng giải thích.
2. Thiết kế tối ưu ANN vẫn là một nghệ thuật: Nó đòi hỏi chuyên môn và
thử nghiệm sâu rộng.
3. Có thể khó xử lý một số lượng lớn các biến (đặc biệt là các thuộc tính
danh nghĩa phong phú) bằng ANN.
4. Cần có các tập dữ liệu lớn để huấn luyện ANN.
Phần kết luận
ANN là những hệ thống phức tạp phản ánh hoạt động của bộ não con người. Chúng
đủ linh hoạt để giải quyết nhiều nhiệm vụ khai thác dữ liệu với độ chính xác cao. Tuy
nhiên, chúng giống như những chiếc hộp đen và chúng cung cấp rất ít hướng dẫn về
logic trực quan đằng sau những dự đoán của chúng.

1. Mạng nơ-ron là gì? Làm thế nào nó hoạt động?
2. So sánh mạng nơ-ron với cây quyết định.

3. Điều gì khiến mạng nơ-ron đủ linh hoạt cho các nhiệm vụ học tập có giám sát
cũng như không giám sát?
4. Kiểm tra các bước phát triển mạng lưới thần kinh để dự đoán giá cổ
phiếu. Loại hàm mục tiêu nào và loại dữ liệu nào sẽ được yêu cầu cho
một hệ thống dự đoán giá cổ phiếu tốt sử dụng ANN?
CHƯƠNG 8
Phân tích cluster
Phân tích cụm được sử dụng để nhận dạng tự động các nhóm sự vật tự
nhiên. Nó còn được gọi là kỹ thuật phân khúc. Trong kỹ thuật này, các
trường hợp dữ liệu tương tự (hoặc gần) nhau được phân loại thành một
cụm. Tương tự, các trường hợp dữ liệu rất khác nhau (hoặc cách xa
nhau) được chuyển vào các cụm khác nhau.
Phân cụm là một kỹ thuật học tập không giám sát vì không có đầu ra
hoặc biến phụ thuộc nào có thể tính toán được câu trả lời đúng hay sai.
Số cụm chính xác hoặc định nghĩa của các cụm đó không được
biết trước. Các kỹ thuật phân cụm chỉ có thể gợi ý cho người dùng
có bao nhiêu cụm sẽ có ý nghĩa từ các đặc điểm của dữ liệu.
Người dùng có thể chỉ định số lượng cụm mong muốn khác nhau, lớn
hơn hoặc nhỏ hơn dựa trên ý nghĩa kinh doanh của chúng. Sau đó, kỹ thuật
phân tích cụm sẽ xác định nhiều cụm riêng biệt từ phân tích dữ liệu, với các
định nghĩa cụm cho từng cụm đó. Tuy nhiên, có những định nghĩa cụm tốt,
tùy thuộc vào mức độ phù hợp của các tham số cụm với dữ liệu.
Caselet: Phân tích cụm
Một công ty bảo hiểm quốc gia phân phối các sản phẩm bảo hiểm cá
nhân và thương mại nhỏ thông qua các đại lý độc lập. họ muốn
tăng doanh số bán hàng của họ bằng cách hiểu rõ hơn về khách hàng của họ. ey đã ở trong-
quan tâm đến việc tăng thị phần của họ bằng cách thực hiện một số chiến dịch
tiếp thị trực tiếp, tuy nhiên, không tạo ra xung đột kênh với các đại lý độc lập. Họ
cũng quan tâm đến việc kiểm tra các phân khúc khách hàng khác nhau dựa trên
nhu cầu của họ và khả năng sinh lời của từng phân khúc đó.
Họ đã thu thập dữ liệu về thái độ, hành vi và nhân khẩu học bằng cách sử dụng một cuộc
khảo sát qua thư đối với 2000 hộ gia đình ở Hoa Kỳ sở hữu bảo hiểm ô tô. Thêm vào
thông tin địa lý và tín dụng đã được thêm vào dữ liệu khảo sát. Phân
tích cụm dữ liệu cho thấy năm phân đoạn gần bằng nhau:
mua bảo hiểm tại nơi làm việc.
Điện thoại.
thỏa thuận tốt nhất.
mức độ phục vụ cá nhân.
dịch vụ trực tiếp.
Q1. Bạn sẽ chọn phân khúc khách hàng nào để tiếp thị trực tiếp? Những điều
này có tạo ra xung đột kênh không?
Q2. Phân khúc này có thể áp dụng cho các doanh nghiệp dịch vụ khác không? Những doanh nghiệp nào?
(Nguồn: greenbook.org)
Các ứng dụng của phân tích cụm
Phân tích cụm được sử dụng trong hầu hết mọi lĩnh vực có nhiều giao dịch
khác nhau. Nó giúp cung cấp đặc tính, định nghĩa và nhãn cho quần thể. Nó
có thể giúp xác định các nhóm khách hàng, sản phẩm, bệnh nhân, v.v. Nó
cũng có thể giúp xác định các ngoại lệ trong một lĩnh vực cụ thể và do đó
làm giảm quy mô và độ phức tạp của các vấn đề. Một ứng dụng kinh doanh
nổi bật của phân tích cụm là trong nghiên cứu thị trường. Khách hàng được
phân khúc thành các cụm dựa trên đặc điểm mong muốn và nhu cầu, địa lý,
độ nhạy cảm về giá, v.v.
Dưới đây là một số ví dụ về phân cụm:
1.Phân đoạn thị trường:Phân loại khách hàng theo những điểm tương đồng của
họ, ví dụ như theo mong muốn và nhu cầu chung của họ và xu hướng chi trả,
có thể giúp ích cho việc tiếp thị mục tiêu.
2.Danh mục sản phẩm:Những người có kích thước tương tự nhau có thể được nhóm lại với nhau để
tạo ra các kích cỡ nhỏ, trung bình và lớn cho các mặt hàng quần áo.
PHÂN TÍCH CLUSTER 101
3.Khai thác văn bản:Phân cụm có thể giúp tổ chức một tập hợp các tài liệu văn bản nhất
định theo những điểm tương đồng về nội dung của chúng thành các cụm chủ đề
liên quan.
Định nghĩa của một cụm
Một định nghĩa hoạt động của một cụm là, cho trước một đại diện của n đối tượng,
tìm K nhóm dựa trên thước đo độ tương tự, sao cho các đối tượng trong cùng một
nhóm giống nhau nhưng các đối tượng trong các nhóm khác nhau thì không giống
nhau.
Tuy nhiên, khái niệm về sự giống nhau có thể được giải thích theo nhiều
cách. Các cụm là các mẫu và có thể có nhiều loại mẫu. Một số cụm là cụm truyền
thống, chẳng hạn như các điểm dữ liệu treo cùng nhau. Tuy nhiên, có những
cụm khác, chẳng hạn như tất cả các điểm đại diện cho chu vi của một vòng tròn.
có thể là các vòng tròn đồng tâm với các điểm thuộc các vòng tròn khác nhau đại
diện cho các cụm khác nhau. Các cụm có thể khác nhau về hình dạng, kích thước
và mật độ của chúng. Sự hiện diện của nhiễu trong dữ liệu làm cho việc phát
hiện các cụm thậm chí còn khó khăn hơn.
Một cụm lý tưởng có thể được định nghĩa là một tập hợp các điểm nhỏ gọn và cô
lập. Trong thực tế, một cụm là một thực thể chủ quan mà ý nghĩa và cách giải thích
của nó đòi hỏi phải có kiến thức về miền. Trong dữ liệu mẫu tiếp theo, có bao nhiêu
cụm có thể hình dung? (tham khảo Hình 8.1 bên dưới)
Có vẻ như có ba cụm có kích thước xấp xỉ bằng nhau. Tuy nhiên, chúng có
thể được coi là hai cụm, tùy thuộc vào cách chúng ta vẽ đường phân chia. ere
không phải là một cách “thực sự tối ưu” để tính toán nó. Heuristics thường được
sử dụng để xác định số lượng cụm.
Hình 8.1
Đại diện cho các cụm

e cụm có thể được đại diện bởi một giá trị trung tâm hoặc phương thức. Một cụm có
thể được định nghĩa là “trọng tâm” của tập hợp các điểm thuộc về nó. Một centroid là
thước đo của xu hướng trung tâm. Đó là điểm mà từ đó tổng bình phương khoảng cách
từ tất cả các điểm là nhỏ nhất. Một điểm tương đương trong đời thực sẽ là trung tâm
thành phố vì đây là điểm được tất cả các thành phần của thành phố coi là dễ sử dụng
nhất. chúng tôi, tất cả các thành phố được xác định bởi các trung tâm hoặc khu vực trung
tâm thành phố.
Một cụm cũng có thể được biểu thị bằng giá trị xuất hiện thường xuyên nhất
trong cụm, nghĩa là cụm có thể được xác định bởi giá trị phương thức của nó.
chúng tôi, một nhóm cụ thể đại diện cho một quan điểm xã hội có thể được
gọi là “nhóm các bà mẹ bóng đá”, mặc dù không phải tất cả các thành viên của
nhóm đó hiện cần phải là một bà mẹ có con chơi bóng đá.
Kỹ thuật phân cụm

Phân tích cụm là một kỹ thuật học máy. e chất lượng của một ccl-
kết quả tering phụ thuộc vàothuật toán,cáckhoảng cáchchức năng, và ứng dụng.
Đầu tiên, hãy xem xét chức năng khoảng cách. Hầu hết các phương pháp phân
tích cụm sử dụng thước đo khoảng cách để tính toán mức độ gần gũi giữa các
cặp mục. Có hai phép đo khoảng cách chính: Khoảng cách Euclid (“đường chim
bay” hay đường thẳng) là phép đo trực quan nhất. Một thước đo phổ biến khác
là khoảng cách Manhattan (đường thẳng), nơi người ta chỉ có thể đi theo các
hướng trực giao. e Khoảng cách Euclidian là cạnh huyền của một tam giác
vuông, trong khi khoảng cách Manhattan là tổng hai cạnh góc vuông của tam
giác vuông.
Trong cả hai trường hợp, mục tiêu chính của thuật toán phân cụm là như nhau:
⇒ tối đa hóa
⇒ giảm thiểu
Có rất nhiều thuật toán để tạo ra các cụm. ere là từ trên xuống,
các phương pháp phân cấp bắt đầu bằng việc tạo một số cụm phù hợp nhất nhất
định. Ngoài ra còn có các phương pháp từ dưới lên bắt đầu bằng việc xác định các
cụm xuất hiện tự nhiên.

Thuật toán phân cụm phổ biến nhất là thuật toán K-means. Đây là một kỹ
thuật thống kê từ trên xuống, dựa trên phương pháp giảm thiểu khoảng cách
bình phương nhỏ nhất từ các điểm trung tâm của cụm. Các kỹ thuật học máy,
chẳng hạn như mạng lưới thần kinh, cũng được sử dụng để phân cụm. So sánh
các thuật toán cụm là một nhiệm vụ khó khăn vì không có số cụm đúng duy
nhất!
Đây là mã giả chung để phân cụm
1.Chọn một số nhóm/phân đoạn tùy ý sẽ được tạo.

2.Bắt đầu với một số giá trị trung tâm được chọn ngẫu nhiên ban đầu cho các nhóm.
3.Phân loại các trường hợp thành các nhóm gần nhất.
4.Tính toán các giá trị mới cho các trung tâm nhóm.
5.Lặp lại các bước 3 và 4 cho đến khi các nhóm hội tụ.
6.Nếu các cụm không đạt yêu cầu, hãy chuyển sang Bước 1 và chọn một số
nhóm/phân đoạn khác.
Bài tập phân cụm có thể được tiếp tục với số lượng cụm khác nhau
và vị trí khác nhau của các điểm đó. Các cụm được coi là tốt nếu các định
nghĩa cụm ổn định và các định nghĩa ổn định tỏ ra hữu ích cho mục đích
hiện tại. Nếu không, hãy lặp lại
bài tập phân cụm với số lượng cụm khác nhau và X Y
các điểm bắt đầu khác nhau cho các phương tiện 2 4
nhóm. 2 6
5 6
4 7
Bài tập phân cụm số 8 3
6 6
Đây là một bài tập đơn giản để xác định
5 2
trực quan và trực quan các cụm từ dữ
5 7
liệu. X và Y là hai chiều quan tâm. Mục
6 3
tiêu là xác định số cụm và điểm trung
4 4
tâm của các cụm đó.
Biểu đồ phân tán gồm 10 điểm dữ liệu trong 2 chiều cho thấy chúng được phân phối
khá ngẫu nhiên (Hình 8.2). Là một kỹ thuật từ dưới lên, số lượng cụm và trọng tâm của
chúng có thể được xác định bằng trực giác.
Các điểm được phân phối đủ ngẫu nhiên để nó có thể được coi là một
cụm. e vòng tròn sẽ đại diện cho điểm trung tâm (centroid) của những điểm
này.
Tuy nhiên, có một khoảng cách lớn giữa các điểm (2,6) và (8,3). Vì
vậy, dữ liệu này có thể được chia thành hai cụm. Ba điểm ở dưới cùng
bên phải có thể tạo thành một cụm và bảy điểm còn lại có thể tạo
thành cụm khác. Hai cụm sẽ trông như thế này (Hình 8.3). vòng tròn e
sẽ là trọng tâm mới.
cụm lớn hơn dường như quá xa nhau. Vì vậy, có vẻ như bốn điểm trên
cùng sẽ tạo thành một cụm riêng biệt. ba cụm có thể trông giống như
này (Hình 8.4).
là giải pháp có ba cụm. cụm e bên phải xa
hai cụm còn lại. Tuy nhiên, trọng tâm của nó không quá gần với tất cả các điểm
dữ liệu. Cụm e phía trên nhìn rất khít, cụm e thứ 3 đẹp,
Tâm. bên trái dàn trải và có thể không bằng
nhiều hữu ích.
Hình 8.2 Điểm dữ liệu ban đầu và trọng tâm (được hiển thị dưới dạng dấu chấm dày)
Hình 8.3 Chia thành hai cụm (trọng tâm được hiển thị dưới dạng chấm dày)
Hình 8.4 Chia thành ba cụm (các trọng tâm được hiển thị dưới dạng các chấm dày)
là một bài tập trong việc tạo ra ba định nghĩa cụm phù hợp
nhất từ dữ liệu đã cho. Số cụm phù hợp sẽ phụ thuộc vào dữ liệu
và ứng dụng mà dữ liệu sẽ được sử dụng.
Thuật toán K-Means để phân cụm

K-means là thuật toán phân cụm phổ biến nhất. Nó tính toán lặp đi lặp lại
các cụm và trọng tâm của chúng. Đó là một cách tiếp cận từ trên xuống để
phân cụm. Bắt đầu với một số cụm K nhất định, giả sử 3 cụm; do đó, ba
trọng tâm ngẫu nhiên sẽ được tạo ra làm điểm xuất phát của các tâm của ba
cụm (Hình 8.5). vòng tròn e là trọng tâm ban đầu của cụm.
Bước 1:Đối với một điểm dữ liệu, các giá trị khoảng cách sẽ từ một trong ba
trọng tâm. Điểm dữ liệu sẽ được gán cho cụm có khoảng cách ngắn nhất đến
tâm. Do đó, tất cả các điểm dữ liệu sẽ được gán cho một điểm dữ liệu này hoặc
điểm dữ liệu khác. Các mũi tên từ mỗi phần tử dữ liệu hiển thị trọng tâm mà
điểm được gán cho (Hình 8.6).
Bước 2: e centroid cho mỗi cụm bây giờ sẽ được tính toán lại như vậy
rằng nó gần nhất với tất cả các điểm dữ liệu được phân bổ cho cụm đó. Các mũi tên nét
đứt cho thấy các trọng tâm được di chuyển từ các giá trị cũ (được tô bóng) sang các giá trị
mới được sửa đổi (Hình 8.7).
Hình 8.5 Gán ngẫu nhiên ba trọng tâm cho ba cụm dữ liệu
Hình 8.6 Gán các điểm dữ liệu cho trọng tâm gần nhất
Hình 8.7 Tính toán lại trọng tâm cho mỗi cụm
Hình 8.8 Gán các điểm dữ liệu cho các trọng tâm được tính toán lại
Bước 3:Một lần nữa, các điểm dữ liệu được gán cho ba trọng tâm gần
nó nhất (Hình 8.8).
Các trọng tâm mới sẽ được tính toán từ các điểm dữ liệu trong cụm
cho đến khi các trọng tâm cuối cùng ổn định ở vị trí của chúng. ese là ba
cụm được tính toán bởi thuật toán này (Hình 8.9).
Ba cụm được hiển thị là cụm 3 điểm dữ liệu với trọng tâm
(6.5,4.5), cụm 2 điểm dữ liệu với trọng tâm (4.5,3) và cụm 5 điểm dữ
liệu với trọng tâm (3.5,3).
Các định nghĩa cụm này khác với các định nghĩa có nguồn gốc trực
quan. là một hàm của các giá trị centroid bắt đầu ngẫu nhiên. Các điểm
trọng tâm được sử dụng trước đó trong bài tập trực quan khác với các điểm
được chọn bằng thuật toán phân cụm K-mean. Do đó, bài tập phân cụm K-
means nên được chạy lại với dữ liệu này, nhưng với các giá trị bắt đầu ngẫu
nhiên ở tâm mới. Với nhiều lần chạy, các định nghĩa cụm có khả năng ổn
định. Nếu định nghĩa cụm không ổn định, đó có thể là dấu hiệu cho thấy số
lượng cụm được chọn quá cao hoặc quá thấp. Thuật toán e cũng nên được
chạy với các giá trị khác nhau của K.
Hình 8.9 Tính toán lại trọng tâm cho mỗi cụm cho đến khi cụm ổn định
Đây là mã giả để triển khai thuật toán K-means.

Thuật toán K-Means (K số cụm, D danh sách điểm dữ liệu)
1.Chọn K số điểm dữ liệu ngẫu nhiên làm trọng tâm ban đầu (trung tâm
cụm).
2.Lặp lại cho đến khi trung tâm cụm ổn định:
một. Phân bổ mỗi điểm trong D cho K trọng tâm gần nhất.
b. Tính trọng tâm cho cụm bằng cách sử dụng tất cả các điểm trong cụm.
Chọn số cụm
Việc lựa chọn đúng giá trị của K thường không rõ ràng. Nó phụ thuộc vào
hình dạng và tỷ lệ của các điểm phân phối trong tập dữ liệu và độ phân giải phân
cụm mong muốn của người dùng. Heuristics là cần thiết để chọn đúng số. Người
ta có thể vẽ biểu đồ phần trăm phương sai được giải thích bởi các cụm so với số
lượng cụm. Các cụm đầu tiên sẽ bổ sung thêm thông tin (giải thích rất nhiều
phương sai), nhưng tại một số điểm, mức tăng biên trong
Hình 8.10 Phương pháp khuỷu tay để xác định số cụm trong tập
dữ liệu
phương sai sẽ giảm xuống, tạo ra một góc nhọn cho đồ thị, trông giống như một
khuỷu tay. Tại điểm khuỷu tay đó, việc thêm nhiều cụm hơn sẽ không tăng thêm
nhiều giá trị gia tăng. at sẽ là giá trị mong muốn của K (Hình 8.10).
Để tương tác với dữ liệu và hiểu rõ hơn về các cụm, tốt hơn
là bắt đầu với một số lượng nhỏ các cụm, chẳng hạn như 2 hoặc
3, tùy thuộc vào tập dữ liệu và miền ứng dụng. Số e có thể được
tăng lên sau đó, nếu cần từ quan điểm ứng dụng.
giúp hiểu dữ liệu và các cụm dần dần tốt hơn.
Ưu điểm và nhược điểm của thuật toán K-Means

có rất nhiều lợi thế củaThuật toán K-Means
1. Thuật toán K-mean đơn giản, dễ hiểu, dễ thực hiện.
2. Nó cũng hiệu quả, trong đó thời gian dành cho cụm K-means tăng
tuyến tính với số lượng điểm dữ liệu.
3. Nói chung, không có thuật toán phân cụm nào khác hoạt động tốt hơn K-mean.
có rất nhiều nhược điểm củaThuật toán K-Means
1. Người dùng cần chỉ định giá trị ban đầu của K.
2. Quá trình tìm cụm có thể không hội tụ.
3. Nó không phù hợp để khám phá các cụm không phải là siêu elip
(hoặc siêu cầu).
Phân tích cụm cũng có thể được thực hiện bằng ANN với hàm
mục tiêu thích hợp. Mạng lưới thần kinh cũng có thể được triển khai
để phân cụm, sử dụng hàm mục tiêu thích hợp. Mạng thần kinh sẽ
tạo ra các trung tâm cụm và dân số cụm thích hợp cho mỗi cụm.
Phần kết luận
Phân tích cụm là một kỹ thuật học tập không giám sát hữu ích được sử dụng
trong nhiều tình huống kinh doanh để phân đoạn dữ liệu thành các nhóm
nhỏ có ý nghĩa. Thuật toán K-means là một kỹ thuật thống kê dễ dàng để lặp
lại phân đoạn dữ liệu. Tuy nhiên, chỉ có một kỹ thuật heuristic để chọn đúng
số cụm.

1. Học không giám sát là gì? Khi nào nó được sử dụng?
2. Mô tả ba ứng dụng kinh doanh trong ngành của bạn mà phân tích
cụm sẽ hữu ích.
3. Có sẵn dữ liệu về chiều cao và cân nặng của một số tình nguyện viên. Tạo
một tập hợp các cụm cho dữ liệu sau, để quyết định số lượng áo phông
nên được đặt hàng.
Chiều cao Cân nặng
71 165
68 165
72 180
67 113
72 178
62 101
70 150
69 172
72 185
63 149
69 132
61 115
tự domuốnđể tìm số lượng phân khúc phù hợp cho khách hàng của
mình, để tiếp thị mục tiêu. Sau đây là danh sách khách hàng đại diện.
khách hàng # # của Tổng Mua Hàng Thu nhập = earnings
giao dịch ($) ($ K)

1 5 450 90
2 10 800 82
3 15 900 77
4 2 50 30
5 18 900 60
6 9 200 45
7 14 500 82
số 8 số 8 300 22
9 7 250 90
10 9 1.000 80
11 1 30 60
12 6 700 80
1. Liberty phù hợp với phân khúc khách hàng nào?

2. Trọng tâm của chúng là gì?
Translated from English to Vietnamese - www.onlinedoctranslator.com
CHƯƠNG 9
Khai thác quy tắc hiệp hội
Khai thác quy tắc kết hợp là một kỹ thuật học phổ biến, không giám sát, được sử
dụng trong kinh doanh để giúp xác định các mẫu mua sắm. Nó còn được gọi là
phân tích rổ thị trường. Nó giúp tìm ra các mối quan hệ (ái lực) thú vị giữa các
biến (mục hoặc sự kiện). chúng tôi, nó có thể giúp bán chéo các mặt hàng có liên
quan và tăng quy mô bán hàng.
Tất cả dữ liệu được sử dụng trong kỹ thuật này là ere không phụ thuộc
phân loại. Biến đổi. Nó sử dụng các thuật toán học máy. và hấp dẫn “rela-
mối quan hệ giữa việc bán tã giấy và bia” là cách nó thường được giải thích
trong các tài liệu nổi tiếng. là kỹ thuật chấp nhận như đầu vào điểm thô-
Đầu ra được tạo ra là mô tả của
dữ liệu giao dịch bán hàng.
mối quan hệ thường xuyên nhất giữa các mặt hàng. Một ví dụ
về quy tắc kết hợp sẽ là, “70% khách hàng đã mua máy tính
xách tay và phần mềm chống vi-rút cũng đã mua gói dịch vụ mở
rộng.”
Caselet: Net ix—Khai thác dữ liệu trong giải trí
Các đề xuất và công cụ đề xuất của Netflix được cung cấp bởi một bộ thuật
toán sử dụng dữ liệu về hàng triệu xếp hạng của khách hàng về hàng nghìn
bộ phim. Hầu hết các thuật toán này đều dựa trên tiền đề rằng các kiểu xem
tương tự đại diện cho sở thích của người dùng tương tự. là bộ thuật toán,
được gọi là CineMatch, hướng dẫn các máy chủ của Netflix xử lý thông tin từ
cơ sở dữ liệu của nó để xác định những bộ phim mà khách hàng có thể sẽ
thích. Thuật toán điện tử tính đến nhiều yếu tố về bản thân các bộ phim, xếp
hạng của khách hàng và xếp hạng tổng hợp của tất cả người dùng Netflix.
Công ty ước tính rằng 75% hoạt động của người xem được thúc đẩy bởi các
đề xuất. Theo Netflix, những dự đoán này là hợp lệ
khoảng 75 phần trăm thời gian và một nửa số người dùng Netflix thuê phim
do Cine-Match đề xuất đã cho họ xếp hạng năm sao.
Để tạo ra các trận đấu, một máy tính
1.Tìm kiếm cơ sở dữ liệu CineMatch cho những người đã xếp hạng cùng
một bộ phim—ví dụ: “ e Sự trở lại của Jedi”.
2.Xác định ai trong số những người đó cũng đã xếp hạng một bộ phim thứ hai, chẳng
hạn như “e Matrix”.
3.Tính toán khả năng thống kê rằng những người thích “Sự trở lại
của Jedi” cũng sẽ thích “ e Matrix”.
4.Tiếp tục quá trình này để thiết lập một mô hình tương quan giữa xếp hạng của
người đăng ký đối với nhiều bộ phim khác nhau.
Netflix đã phát động một cuộc thi vào năm 2006 để tìm ra một thuật toán có
thể đánh bại CineMatch. Cuộc thi điện tử, được gọi là Giải thưởng Netflix, hứa
hẹn 1 triệu đô la cho người hoặc nhóm đầu tiên đáp ứng các mục tiêu về độ chính
xác khi đề xuất phim dựa trên sở thích cá nhân của người dùng. Mỗi lần gửi thuật
toán này được yêu cầu để chứng minh sự cải thiện 10 phần trăm so với
CineMatch. 3 năm sau, giải thưởng trị giá 1 triệu đô la đã được trao cho một đội
gồm bảy người. (nguồn: http://electronics.howstuffworks.com)
Q1. Có phải khách hàng của Netflix đang bị thao túng để xem những gì
Netflix muốn họ xem?
Q2. So sánh câu chuyện này với công cụ cá nhân hóa của Amazon.
Ứng dụng kinh doanh của quy tắc hiệp hội
Trong môi trường kinh doanh, một mẫu hoặc kiến thức có thể được sử dụng cho nhiều
mục đích. Trong bán hàng và tiếp thị, nó được sử dụng để tiếp thị chéo và bán chéo, thiết
kế danh mục, thiết kế trang web thương mại điện tử, tối ưu hóa quảng cáo trực tuyến,
định giá sản phẩm và cấu hình bán hàng/khuyến mãi. phân tích có thể đề xuất không bán
một mặt hàng tại một thời điểm mà thay vào đó tạo một gói sản phẩm được quảng cáo
dưới dạng gói để bán các mặt hàng không bán chạy khác.
Trong môi trường bán lẻ, nó có thể được sử dụng để thiết kế cửa hàng. Các mặt hàng liên
quan chặt chẽ có thể được giữ chặt chẽ hơn để thuận tiện cho khách hàng. Hoặc họ
KHAI THÁC QUY TẮC HIỆP HỘI 115
có thể được đặt cách xa nhau để khách hàng phải đi bộ trên lối đi và làm
như vậy có khả năng tiếp xúc với các mặt hàng khác.
Trong y học, kỹ thuật này có thể được sử dụng cho mối quan hệ giữa các triệu
chứng và bệnh tật; chẩn đoán và đặc điểm bệnh nhân/phương pháp điều trị; gen và
chức năng của chúng; và như thế.
Đại diện cho các quy tắc hiệp hội
Một quy tắc chung được thể hiện giữa một tập hợp X và Y: X⇒Y [S%, C%]
X, Y:sản phẩm và/hoặc dịch vụ
X:Bên trái (LHS hoặc Tiền đề)
Y:Bên tay phải (RHS hoặc Consequent)
S:Hỗ trợ: tần suấtXvàYđi cùng nhau trong tổng bộ giao dịch
C:Tự tin: mức độ thường xuyênYđi cùng vớiX
Thí dụ: {Máy tính xách tay, Phần mềm diệt virus}⇒ {Gói dịch vụ mở
rộng} [30%, 70%]
Thuật toán cho luật kết hợp

Không phải tất cả các luật kết hợp đều thú vị và hữu ích, chỉ những luật nào là
luật mạnh và cả những luật xảy ra thường xuyên. Trong khai thác luật kết hợp,
mục tiêu là tìm tất cả các luật thỏa mãn yêu cầu do người dùng chỉ địnhhỗ trợ tối
thiểuvàsự tự tin tối thiểu. e kết quả tập hợp các quy tắc là tất cả các
giống nhau bất kể thuật toán được sử dụng, nghĩa là, được cung cấp tập
dữ liệu giao dịch T, độ hỗ trợ tối thiểu và độ tin cậy tối thiểu, tập luật kết
hợp tồn tại trong T làxác định duy nhất.
May mắn thay, có một số lượng lớn các thuật toán có sẵn để tạo luật
kết hợp. Các thuật toán phổ biến nhất là Apriori, Eclat và FP-Growth,
cùng với các dẫn xuất và kết hợp khác nhau của ba thuật toán này. Tất cả
các thuật toán giúp xác định các tập phổ biến, sau đó được chuyển đổi
thành luật kết hợp.
Thuật toán Apriori
là thuật toán phổ biến nhất được sử dụng để khai phá luật kết
hợp. Mục tiêu là tìm các tập con chung cho ít nhất một số tối
thiểu các tập mục. Tập phổ biến là tập mục có độ hỗ trợ lớn hơn
hoặc bằng ngưỡng hỗ trợ tối thiểu. e Thuộc tính Apriori là một
thuộc tính đóng hướng xuống, nghĩa là bất kỳ tập con nào của tập
phổ biến cũng là tập phổ biến. chúng ta, nếu (A,B,C,D) là tập phổ
biến thì bất kỳ tập con nào như (A,B,C) hoặc (B,D) cũng là tập phổ
biến.
là sử dụng cách tiếp cận từ dưới lên; và kích thước của các tập con
phổ biến tăng dần, từ tập con một phần tử đến tập con hai phần tử, sau đó
là tập con ba phần tử, v.v. Các nhóm ứng viên ở mỗi cấp độ được kiểm tra
dựa trên dữ liệu để hỗ trợ tối thiểu.
Bài tập quy tắc hiệp hội

Dưới đây là một tá giao dịch mua bán. Có sáu sản phẩm đang được bán:
Sữa, Bánh mì, Bơ, Trứng, Bánh quy và Sốt cà chua. Giao dịch số 1 đã bán Sữa,
Trứng, Bánh mì và Bơ. Giao dịch số 2 đã bán Sữa, Bơ, Trứng và Sốt cà chua. Và
như thế. Mục tiêu là sử dụng dữ liệu giao dịch này để tìm mối quan hệ giữa các
sản phẩm, nghĩa là những sản phẩm nào thường được bán cùng nhau.
mức hỗ trợ sẽ được đặt ở mức 33 phần trăm; mức độ tin cậy sẽ
được đặt ở mức 50 phần trăm. nghĩa là chúng ta đã quyết định xem
xét các luật chỉ từ những tập mục xảy ra ít nhất 33% thời gian trong
tổng số giao dịch. Mức độ tin cậy có nghĩa là trong các tập mục đó,
các luật có dạng X→Y phải sao cho có ít nhất 50 phần trăm khả năng Y
xảy ra dựa trên X xảy ra.
Danh sách giao dịch
1 Sữa Trứng Bánh mỳ Bơ

2 Sữa Bơ Trứng Sốt cà chua
3 Bánh mỳ Bơ Sốt cà chua
4 Sữa Bánh mỳ Bơ
5 Bánh mỳ Bơ Bánh quy
6 Sữa Bánh mỳ Bơ Bánh quy

Danh sách giao dịch
7 Sữa Bánh quy
số 8 Sữa Bánh mỳ Bơ
9 Bánh mỳ Bơ Trứng Bánh quy
10 Sữa Bơ Bánh mỳ
11 Sữa Bánh mỳ Bơ
12 Sữa Bánh mỳ Bánh quy Sốt cà chua
Bước đầu tiên là tính toán các tập mục 1 mặt hàng, tức là tần suất bán bất kỳ sản
phẩm nào.
Bộ 1 món tần suất
Sữa 9
Bánh mỳ 10
Bơ 10
Trứng 3
Sốt cà chua 3
Bánh quy 5
chúng tôi, Sữa được bán trong 9 trên 12 giao dịch. Bánh mì bán được 10 trên
12 giao dịch. Và như thế.
Tại mọi thời điểm, có một cơ hội để chọn các tập mục quan tâm, và
do đó phân tích sâu hơn. Các tập mục khác ít xuất hiện có thể bị loại bỏ.
Nếu các tập mục xảy ra 4 lần trở lên trong số 12 lần được chọn, tương
ứng với việc đáp ứng mức hỗ trợ tối thiểu là 33 phần trăm (4 trên 12). Chỉ
có 4 mặt hàng làm cho việc cắt giảm. Các mục thường xuyên đáp ứng
mức hỗ trợ 33 phần trăm là:
Bộ 1 mục phổ biến tần suất
Sữa 9
Bánh mỳ 10
Bơ 10
Bánh quy 5
Bước thứ hai là đi tới cấp tiếp theo của tập mục bằng cách sử dụng các mục đã
chọn trước đó: tập mục 2 mục.

Bánh mì sữa 7
sữa, bơ 7
Sữa, bánh quy 3
Bơ bánh mì 9
Butter Cookies 3
bánh mì, bánh quy 4
us, (Sữa, Bánh mì) bán 7 lần trong tổng số 12. (Sữa, Bơ) bán cùng
nhau 7 lần, (Bánh mì, Bơ) bán cùng nhau 9 lần và (Bánh mì, Bánh quy) bán 4
lần.
Tuy nhiên, chỉ có 5 giao dịch trong số này đáp ứng mức hỗ trợ tối thiểu
là 33 phần trăm.
Bánh mì sữa 7
sữa, bơ 7
Bơ bánh mì 9
bánh mì, bánh quy 4
Bước tiếp theo là đi tới cấp cao hơn tiếp theo của tập mục: tập mục 3
mục.
Sữa, Bánh mì, Bơ 6

Sữa, Bánh mì, Bánh quy 1
Bánh mì, bơ, bánh quy 3
Một lần nữa, chỉ một tập hợp con trong số chúng đáp ứng các yêu cầu hỗ trợ
tối thiểu.
chúng tôi (Sữa, Bánh mì, Bơ) bán được 6 lần trên tổng số 12. (Bánh mì, Bơ,
Bánh quy) bán được 3 lần trên tổng số 12. Không còn chỗ để tạo bộ vật phẩm 4 vật
phẩm cho mức hỗ trợ này.

Tạo quy tắc kết hợp

Các quy tắc thú vị và phức tạp nhất ở các tập mục có kích thước cao hơn bắt
đầu từ trên xuống với các tập phổ biến nhất có số kích thước cao hơn. Các quy
tắc kết hợp được tạo đáp ứng mức độ hỗ trợ (>33 phần trăm) và mức độ tin cậy
(>50 phần trăm).
Tập mục cấp cao nhất đáp ứng yêu cầu hỗ trợ là tập
mục 3 mục. Bộ mục sau đây có mức hỗ trợ là 50 phần trăm (6
trên 12).
là tập mục có thể dẫn đến nhiều luật kết hợp ứng cử viên. Xét quy
luật :(Bơ bánh mì)→Sữa. Trong tổng số 12 giao dịch, (Bánh mì, Bơ)
xảy ra 9 lần; bộ vật phẩm (Sữa, Bánh mì, Bơ) xuất hiện 6 lần. Do đó, quy
tắc này có mức hỗ trợ là 6/12 (hoặc 50 phần trăm) và mức độ tin cậy là
6/9 (hoặc 67 phần trăm). Các ngưỡng hỗ trợ (>33 phần trăm) và mức độ
tin cậy (>50 phần trăm) được đáp ứng. us, quy tắc kết hợp hợp lệ đầu
tiên từ dữ liệu này như sau:
1. (Bơ bánh mì)→Sữa {S=50%, C=67%}.
Xét quy luật :(Bánh mì sữa)→Bơ. Trong tổng số 12 giao dịch,

(Sữa, Bánh mì) xảy ra 7 lần; và (Sữa, Bánh mì, Bơ) xảy ra 6 lần.
Quy tắc e có mức hỗ trợ là 6/12 (hoặc 50 phần trăm) và mức độ tin cậy là
6/7 (hoặc 84 phần trăm). us, quy tắc kết hợp hợp lệ tiếp theo như sau:
2. (Sữa, Bánh mì)→Bơ {S=50%, C=84%}.
Xét quy luật :(sữa, bơ)→Bánh mỳ. Trong tổng số 12 giao dịch
(Sữa, Bơ) xảy ra 7 lần trong khi (Sữa, Bánh mì, Bơ) xảy ra 6 lần. Quy
tắc này có mức hỗ trợ là 7/12 và mức tin cậy là 6/7 (hay 84 phần
trăm). us, quy tắc kết hợp hợp lệ tiếp theo như sau:
3. (Sữa, Bơ)→Bánh mì {S=50%, C=84%}.
Một tập mục cấp cao khác có thể đáp ứng các yêu cầu hỗ
trợ là tập mục 3 mục
chúng tôi, có ba quy tắc kết hợp hợp lệ từ dữ liệu này ở các giá
trị 2 tập mục của X, cho mức hỗ trợ và độ tin cậy này.
Nếu muốn, các quy tắc kết hợp tại các giá trị 1 mục của X có thể được chỉ
định. Xem xét quy tắc: Sữa→Bánh mỳ. Trong tổng số 12 giao dịch Sữa xảy ra
9 lần trong khi (Sữa, Bánh mì) xảy ra 7 lần. Quy tắc điện tử có mức hỗ trợ là 7/12
(hoặc 58 phần trăm) và mức độ tin cậy là 7/9 (hoặc 77 phần trăm).
us, quy tắc kết hợp hợp lệ tiếp theo như sau:
Sữa→Bánh mì {S=58%, C=77%}.
Nhiều quy tắc như vậy có thể được rút ra nếu doanh nghiệp yêu cầu quy tắc
1 tập hợp.
Số lượng các quy tắc kết hợp phụ thuộc vào nhu cầu kinh doanh. Việc
thực hiện mọi quy tắc trong kinh doanh sẽ đòi hỏi một số chi phí và nỗ lực, với
một số tiềm năng thu được. Những quy tắc mạnh nhất, với tỷ lệ ủng hộ và độ tin
cậy cao hơn, nên được sử dụng trước và những quy tắc khác nên được triển khai
dần dần sau đó.
Phần kết luận
Quy tắc kết hợp giúp tìm ra mối quan hệ giữa các sản phẩm trong giao
dịch. Nó giúp đưa ra các đề xuất bán chéo được nhắm mục tiêu và hiệu
quả hơn nhiều. Kỹ thuật Apriori là kỹ thuật phổ biến nhất và nó là một kỹ
thuật học máy.
1. Luật kết hợp là gì? Làm thế nào để họ giúp đỡ?
2. Nên sử dụng bao nhiêu luật kết hợp?

Đây là danh sách các giao dịch từ các cửa hàng của Liberty. Tạo quy tắc kết
hợp cho dữ liệu sau, với mức hỗ trợ 30 phần trăm và mức độ tin cậy 60 phần
trăm.
1 Một b C e F g
2 b e F g
3 Một C e F
4 b C F g
5 Một C e F g
6 C F g
7 Một Đ. F g
số 8 Đ. e F
9 Một b Đ. e
10 Một b C F g
11 b Đ. e g
12 Một C Đ. e F
PHẦN 3
là phần bao gồm một số chủ đề bổ sung.

Chương 10 sẽ đề cập đến khai thác văn bản, nghệ thuật và khoa học để tạo ra những hiểu
biết sâu sắc từ văn bản. Nó rất quan trọng trong thời đại truyền thông xã hội.
Chương 11 sẽ đề cập đến khai thác web, nghệ thuật và khoa học tạo ra những hiểu
biết sâu sắc từ World Wide Web, nội dung và cách sử dụng của nó. Điều này rất quan
trọng trong thời đại kỹ thuật số khi rất nhiều quảng cáo và bán hàng đang chuyển sang
trang web.
Chương 12 sẽ đề cập đến Dữ liệu lớn. là một biệt danh mới được tạo ra để
mô tả hiện tượng một lượng lớn dữ liệu được tạo ra từ nhiều

nguồn dữ liệu và không thể xử lý bằng các công cụ quản lý dữ
liệu truyền thống.
Chương 13 sẽ trình bày sơ lược về mô hình hóa dữ liệu. là hữu ích như
tăng cường khai thác dữ liệu, đặc biệt đối với những người chưa tiếp xúc
nhiều với quản lý dữ liệu truyền thống hoặc có thể cần ôn lại.
CHƯƠNG 10
Khai thác văn bản
Khai thác văn bản là nghệ thuật và khoa học khám phá kiến thức, hiểu biết sâu sắc và các
mẫu từ một bộ sưu tập cơ sở dữ liệu văn bản có tổ chức. Khai thác văn bản có thể giúp
phân tích tần suất của các thuật ngữ quan trọng và mối quan hệ ngữ nghĩa của chúng.
Văn bản là một phần quan trọng của dữ liệu ngày càng tăng trên thế giới. Các công
nghệ truyền thông xã hội đã cho phép người dùng trở thành nhà sản xuất văn bản,
hình ảnh và các loại thông tin khác. Khai thác văn bản có thể được áp dụng cho dữ
liệu truyền thông xã hội quy mô lớn để thu thập sở thích và đo lường tình cảm. Nó
cũng có thể được áp dụng cho quy mô xã hội, tổ chức và cá nhân.
Caselet: WhatsApp và Bảo mật cá nhân
Bạn có nghĩ rằng những gì bạn đăng trên phương tiện truyền thông xã hội vẫn
riêng tư? mực nữa. Trang tổng quan mới cho biết có bao nhiêu thông tin cá nhân
hiện có và cách các công ty có thể xây dựng các cách để sử dụng thông tin đó vì
lợi ích thương mại. Bảng điều khiển các cuộc trò chuyện giữa hai người Jennifer
và Nicole trong hơn 45 ngày trên whatsapp.
Có rất nhiều chủ đề mà Nicole và Jennifer nói đến, chẳng hạn như máy
tính, chính trị, giặt ủi và món tráng miệng. Sự phân cực trong suy nghĩ và
giọng điệu cá nhân của Jennifer hoàn toàn tích cực, và Jennifer đáp lại Nicole
nhiều hơn là ngược lại, xác định Nicole là người có ảnh hưởng trong mối
quan hệ của họ.
Trực quan hóa dữ liệu tiết lộ số giờ thức dậy của Jennifer, cho thấy cô ấy hoạt
động tích cực nhất vào khoảng 8 giờ tối và đi ngủ vào khoảng nửa đêm. Năm mươi ba
phần trăm cuộc trò chuyện của cô ấy là về thức ăn và 15 phần trăm về món tráng
miệng. Có thể cô ấy là người có chiến lược đẩy quảng cáo nhà hàng hoặc giảm cân.
Chi tiết thân mật nhất được tiết lộ trong cuộc trò chuyện này là Nicole và
Jennifer thảo luận về chủ nghĩa dân túy cánh hữu, các đảng cấp tiến và bảo thủ.
chính trị. Điều đó chứng tỏ rằng lượng thông tin cá nhân thu được từ các
cuộc hội thoại WhatsApp của bạn là vô hạn và có khả năng gây nguy hiểm.
WhatsApp là dịch vụ nhắn tin lớn nhất thế giới có hơn 450 triệu người
dùng. Facebook gần đây đã mua công ty ba tuổi này với giá khổng lồ 19 tỷ đô
la. Mọi người chia sẻ nhiều thông tin cá nhân nhạy cảm trên WhatsApp mà
họ thậm chí có thể không chia sẻ với các thành viên gia đình của mình.
(Nguồn: Facebook biết gì về bạn từ One WhatsApp Conv, bởi Adi
Azaria, trên Linked In, ngày 10 tháng 4 năm 2014)
Q1.Ý nghĩa kinh doanh và xã hội của loại hình này là gì?
phân tích?
Q2. Bạn có lo lắng không? Bạn có nên lo lắng?
Khai thác văn bản hoạt động trên các văn bản từ bất kỳ loại nguồn thực tế
nào từ bất kỳ lĩnh vực kinh doanh nào, ở bất kỳ định dạng nào, bao gồm tài liệu
Word, tệp PDF, tệp XML, v.v. Dưới đây là một số ví dụ tiêu biểu:
1.Trong nghề luật:các nguồn văn bản sẽ bao gồm luật, nghị án của tòa
án, lệnh của tòa án, v.v.
2.Trong nghiên cứu học thuật:nó sẽ bao gồm các văn bản phỏng vấn, các bài báo
nghiên cứu đã xuất bản, v.v.
3. Thế giới tài chính:sẽ bao gồm các báo cáo theo luật định, báo cáo
nội bộ, báo cáo của CFO, v.v.
4.Trong y học:nó sẽ bao gồm các tạp chí y tế, lịch sử bệnh nhân,
tóm tắt xuất viện, v.v.
5.Trong tiếp thị:nó sẽ bao gồm quảng cáo, nhận xét của khách
hàng, v.v.
6.Trong thế giới công nghệ và tìm kiếm:nó sẽ bao gồm các ứng
dụng bằng sáng chế, toàn bộ thông tin trên World Wide Web,
v.v.
Ứng dụng khai thác văn bản
Khai thác văn bản là một công cụ hữu ích trong tay của các giám đốc tri thức để trích
xuất tri thức liên quan đến một tổ chức. Khai thác văn bản có thể được sử dụng
KHAI THÁC VĂN BẢN 127
trên các lĩnh vực công nghiệp và lĩnh vực ứng dụng, bao gồm hỗ trợ quyết
định, phân tích tình cảm, phát hiện gian lận, phân tích khảo sát, v.v.
1.Tiếp thị: Giọng nói của khách hàng có thể được ghi lại bằng tiếng mẹ đẻ của nó
và định dạng thô, sau đó phân tích sở thích và khiếu nại của
khách hàng.
một. Diện mạo xã hội là một kỹ thuật phân cụm để phát triển các phân khúc
khách hàng quan tâm. Đầu vào của người tiêu dùng từ các nguồn truyền
thông xã hội, chẳng hạn như đánh giá, blog và tweet, chứa nhiều chỉ số
hàng đầu có thể được sử dụng để dự đoán và dự đoán hành vi của người
tiêu dùng.
b. “Nền tảng lắng nghe” là một ứng dụng, trong thời gian thực, thu thập các phương tiện
truyền thông xã hội, blog và các phản hồi bằng văn bản khác, đồng thời lọc ra các cuộc trò
chuyện để trích xuất cảm tính thực sự của người tiêu dùng. Những hiểu biết sâu sắc có thể
dẫn đến việc tiếp thị sản phẩm hiệu quả hơn và dịch vụ khách hàng tốt hơn.
c. Dữ liệu trung tâm cuộc gọi của khách hàng có thể được phân tích để tìm ra các
mẫu khiếu nại của khách hàng. Cây quyết định có thể sắp xếp dữ liệu này để tạo
ra các lựa chọn quyết định có thể trợ giúp cho các hoạt động quản lý sản phẩm
và trở nên chủ động trong việc tránh những lời phàn nàn đó.
2.Hoạt động kinh doanh:
một. Phân tích mạng xã hội và khai thác văn bản có thể được áp dụng cho e-mail, blog,
phương tiện truyền thông xã hội và các dữ liệu khác để đo lường trạng thái cảm xúc
và tâm trạng của nhân viên. Phân tích tình cảm có thể tiết lộ những dấu hiệu ban đầu
về sự không hài lòng của nhân viên và điều này sau đó có thể được quản lý một cách
chủ động.
b. Nghiên cứu mọi người với tư cách là nhà đầu tư cảm xúc và sử dụng
phân tích văn bản của mạng xã hội để đo lường tâm lý số đông có thể
giúp thu được lợi nhuận đầu tư vượt trội.
3.Hợp pháp:Trong các ứng dụng pháp lý, luật sư và trợ lý luật sư có thể dễ dàng
tìm kiếm lịch sử vụ án và luật để tìm các tài liệu liên quan trong một vụ việc cụ
thể để nâng cao cơ hội chiến thắng.
một. Khai thác văn bản cũng được nhúng trong các nền tảng khám phá điện tử giúp
ích trong quá trình chia sẻ các tài liệu bắt buộc về mặt pháp lý.
b. Lịch sử trường hợp, lời khai và ghi chú cuộc họp khách hàng có thể tiết lộ thông
tin bổ sung, chẳng hạn như bệnh đi kèm trong tình huống chăm sóc sức khỏe
có thể giúp dự đoán tốt hơn các thương tích chi phí cao và ngăn ngừa chi phí.
4.Quản trị và chính trị:Các chính phủ có thể bị lật đổ dựa trên một dòng
tweet từ một người bán trái cây tự thiêu ở Tunisia.
một. Phân tích mạng xã hội và khai thác văn bản dữ liệu mạng xã hội quy mô lớn có
thể được sử dụng để đo lường trạng thái cảm xúc và tâm trạng của các nhóm
dân số cấu thành. Các thành phần nhắm mục tiêu vi mô với các thông điệp cụ
thể thu thập được từ phân tích phương tiện truyền thông xã hội có thể là cách
sử dụng tài nguyên hiệu quả hơn.
b. Trong an ninh địa chính trị, trò chuyện trên Internet có thể được xử lý để lấy thông tin
theo thời gian thực và để kết nối các dấu chấm về bất kỳ mối đe dọa mới nổi nào.
c. Về mặt học thuật, các luồng nghiên cứu có thể được phân tích tổng hợp cho các xu
hướng nghiên cứu cơ bản.
Quy trình khai thác văn bản
Khai thác văn bản là một quá trình bán tự động. Dữ liệu văn bản cần được thu
thập, cấu trúc và sau đó khai thác theo quy trình ba bước (Hình 10.1).
1. Văn bản và tài liệu trước hết được tập hợp thành ngữ liệu và
sắp xếp.
2. e corpus sau đó được phân tích cho cấu trúc. Kết quả là một ma trận ánh xạ các
thuật ngữ quan trọng tới các tài liệu nguồn.
3. Sau đó, dữ liệu có cấu trúc được phân tích về cấu trúc từ, trình tự
và tần suất.
Ma trận tài liệu thuật ngữ (TDM): là trái tim của cấu trúc
tiến trình. Văn bản chảy tự do có thể được chuyển đổi thành dữ liệu số, sau đó có thể
được khai thác bằng các kỹ thuật khai thác dữ liệu thông thường.
Hình 10.1 Kiến trúc khai thác văn bản

Bảng 10.1 Ma trận tài liệu thuật ngữ (TDM)
Thuật ngữ-Ma trận tài liệu

Tài liệu/ Sự đầu tư lợi nhuận Sung sướng Sự thành công …
Điều kiện
tài liệu 1 10 4 3 4
tài liệu 2 7 2 2
tài liệu 3 2 6
tài liệu 4 1 5 3
tài liệu 5 6 2
tài liệu 6 4 2
…
1. Kỹ thuật sử dụng để cấu trúc văn bản được gọi là kỹ thuật túi từ.
là cách tiếp cận đo tần số của các từ và/hoặc cụm từ quan trọng
được chọn xuất hiện trong mỗi tài liệu. là tạo ra mộtt × d,ma trận
thuật ngữ theo tài liệu (TDM), trong đó t là số lượng thuật ngữ và
d là số lượng tài liệu.
2. Việc tạo một TDM yêu cầu đưa ra lựa chọn bao gồm các thuật ngữ nào. Các
thuật ngữ được chọn phải phản ánh mục đích đã nêu của bài tập khai
thác văn bản. Túi từ nên nhiều đến mức cần thiết, nhưng không nên bao
gồm những thứ không cần thiết sẽ làm rối loạn phân tích hoặc làm chậm
quá trình tính toán (Bảng 10.1).
Dưới đây là một số cân nhắc khi tạo TDM.
1. Một bộ sưu tập lớn các tài liệu được ánh xạ tới một túi từ lớn sẽ có
khả năng dẫn đến một ma trận rất thưa thớt nếu chúng có ít từ phổ
biến. Giảm số chiều của dữ liệu sẽ giúp cải thiện tốc độ phân tích và
ý nghĩa của kết quả. Các từ đồng nghĩa hoặc các thuật ngữ có ý
nghĩa tương tự nên được kết hợp và được tính cùng nhau, như một
thuật ngữ phổ biến. sẽ giúp giảm số lượng thuật ngữ riêng biệt của
từ hoặc “mã thông báo”.
2. Dữ liệu phải được làm sạch lỗi chính tả. Các lỗi chính tả phổ biến nên
được bỏ qua và các thuật ngữ nên được kết hợp. Các thuật ngữ viết
hoa, viết thường cũng nên được kết hợp.
3. Khi sử dụng nhiều biến thể của cùng một từ thì chỉ dùng
phần gốc của từ để giảm số lượng từ. Ví dụ, điều khoản
như đơn đặt hàng, đặt hàng và dữ liệu đặt hàng của khách hàng phải được kết hợp thành một từ mã
thông báo duy nhất, được gọi là “đơn đặt hàng”.
4. Mặt khác, các từ đồng âm (các từ có cách viết giống nhau nhưng nghĩa
khác nhau) nên được tính riêng. sẽ nâng cao chất lượng phân tích. Ví
dụ: thuật ngữ đơn đặt hàng có thể có nghĩa là đơn đặt hàng của khách
hàng hoặc thứ hạng của các lựa chọn nhất định. ese hai nên được xử lý
riêng. “Ông chủ đã ra lệnh trình bày bản phân tích dữ liệu khách hàng
theo trình tự thời gian.” is tuyên bố cho thấy ba khác biệt
ý nghĩa khác nhau cho từ "trật tự." chúng tôi, sẽ có một nhu cầu cho
đánh giá thủ công về TDM.

5. Những thuật ngữ ít xuất hiện trong rất ít tài liệu cần được
loại ra khỏi ma trận. sẽ giúp tăng mật độ của ma trận và
chất lượng phân tích.
6. Số đo e trong mỗi ô của ma trận có thể là một trong nhiều khả năng.
Nó có thể là một phép đếm đơn giản về số lần xuất hiện của mỗi
thuật ngữ trong một tài liệu. Nó cũng có thể là nhật ký của số đó.
Nó có thể là số phân số được tính bằng cách chia tần suất đếm cho
tổng số từ trong tài liệu. Hoặc có thể có các giá trị nhị phân trong
ma trận để biểu thị liệu một thuật ngữ có được đề cập hay không.
Việc lựa chọn giá trị trong các ô sẽ phụ thuộc vào mục đích phân
tích văn bản.
Khi kết thúc quá trình phân tích và làm sạch này, một TDM hình chữ nhật, có mật
độ dân cư tốt sẽ sẵn sàng để phân tích. e TDM có thể được khai thác bằng cách sử
dụng tất cả các kỹ thuật khai thác dữ liệu có sẵn.
khai thác TDM

e TDM có thể được khai thác để trích xuất các mẫu/kiến thức. Một loạt các kỹ
thuật có thể được áp dụng cho TDM để trích xuất kiến thức mới.
Những người dự đoán các thuật ngữ mong muốn có thể được phát hiện thông
qua các kỹ thuật dự đoán, chẳng hạn như phân tích hồi quy. Giả sử từ lợi nhuận là
một từ mong muốn trong một tài liệu. Số lần xuất hiện của từ lợi nhuận trong một
tài liệu có thể được hồi quy theo nhiều thuật ngữ khác trong TDM. Độ mạnh tương
đối của các hệ số của các biến dự đoán khác nhau sẽ cho thấy tác động tương đối
của các điều khoản đó trong việc tạo ra một cuộc thảo luận về lợi nhuận.
Dự đoán khả năng một tài liệu được yêu thích là một hình thức phân tích
khác. Ví dụ, các bài phát biểu quan trọng của CEO hoặc CFO trước các nhà đầu tư
có thể được đánh giá về chất lượng. Nếu có thể phân loại các tài liệu đó (chẳng
hạn như bài phát biểu hay hoặc bài phát biểu kém), thì các thuật ngữ của TDM
có thể được sử dụng để dự đoán lớp bài phát biểu. Một cây quyết định có thể
được xây dựng để tạo ra một cây đơn giản với một vài điểm quyết định dự đoán
80% khả năng thành công của một bài phát biểu. cây có thể được đào tạo với
nhiều dữ liệu hơn để trở nên tốt hơn theo thời gian.
Kỹ thuật phân cụm có thể giúp phân loại tài liệu theo hồ sơ chung. Ví dụ: các
tài liệu có chứa các từ đầu tư và lợi nhuận thường xuyên hơn có thể được nhóm
lại với nhau. Tương tự như vậy, các tài liệu có chứa các từ, đơn đặt hàng của
khách hàng và tiếp thị, thường có thể được nhóm lại với nhau. chúng tôi, một số
gói được phân định rõ ràng có thể nắm bắt được bản chất của toàn bộ TDM. Do
đó, các gói này có thể giúp xử lý thêm, chẳng hạn như bàn giao các tài liệu được
chọn cho người khác để khám phá hợp pháp.
Phân tích luật kết hợp có thể chỉ ra các mối quan hệ cùng tồn tại.
chúng ta, người ta có thể nói rằng các từ ngon và ngọt thường xuất
hiện cùng nhau (ví dụ 5 phần trăm thời gian); và hơn nữa, khi hai từ này
xuất hiện, 70 phần trăm thời gian, từ hạnh phúc, cũng xuất hiện trong tài
liệu.
So sánh khai thác văn bản và khai thác dữ liệu
Khai thác văn bản là một hình thức khai thác dữ liệu. ere rất phổ biến el-
giữa văn bản và khai phá dữ liệu. Tuy nhiên, có một số khác biệt chính. Điểm
khác biệt chính là việc khai thác văn bản yêu cầu chuyển đổi dữ liệu văn bản
thành dữ liệu tần số, trước khi có thể áp dụng các kỹ thuật khai thác dữ liệu
(Bảng 10.2).
Khai thác văn bản thực tiễn tốt nhất
Nhiều thực tiễn tốt nhất tương tự áp dụng cho việc sử dụng các kỹ thuật khai thác dữ
liệu cũng sẽ áp dụng cho khai thác văn bản.
1. Thực hành đầu tiên và quan trọng nhất là đặt câu hỏi đúng. Một
câu hỏi hay là một câu hỏi đưa ra câu trả lời và sẽ dẫn đến
Bảng 10.2 So sánh khai thác văn bản và dữ liệu
Kích thước Khai thác văn bản Khai thác dữ liệu
Bản chất của dữ liệu Dữ liệu phi cấu trúc: từ, cụm từ, Số; giá trị theo thứ tự bảng
câu chữ cái và logic
Ngôn ngữ được sử dụng Nhiều ngôn ngữ và phương ngữ được sử dụng Các hệ thống số tương tự
trên thế giới; trên toàn thế giới
nhiều ngôn ngữ đã biến mất, tài
liệu mới được phát hiện
rõ ràng và Các câu có thể mơ hồ; tình Con số là chính xác

độ chính xác cảm có thể mâu thuẫn với lời
nói
Tính nhất quán Các phần khác nhau của văn bản có Các phần khác nhau của dữ liệu có
thể mâu thuẫn với nhau thể không nhất quán, do đó, yêu
cầu phân tích ý nghĩa thống kê
tình cảm Văn bản có thể trình bày một tình cảm rõ không áp dụng
ràng và nhất quán hoặc hỗn hợp, xuyên

suốt một chuỗi liên tục. Lời nói tăng thêm
tình cảm
Phẩm chất Lỗi chính tả. Các giá trị khác nhau của Các vấn đề về giá trị bị
danh từ riêng, chẳng hạn như tên. thiếu, ngoại lệ, v.v.
Thay đổi chất lượng dịch thuật ngôn
ngữ
Bản chất của tìm kiếm dựa trên từ khóa; Đầy đủ các thống kê và học
phân tích sự cùng tồn tại của các chủ đề; máy
khai thác tình cảm phân tích cho các mối quan hệ và
sự khác biệt
lợi nhuận lớn cho tổ chức. mục đích và câu hỏi chính
sẽ xác định cách thức và mức độ chi tiết của TDM sẽ được thực hiện. Ví dụ:
TDM được xác định cho các tìm kiếm đơn giản hơn sẽ khác với các tìm kiếm
được sử dụng cho phân tích ngữ nghĩa phức tạp hoặc phân tích mạng.
2. Thực hành quan trọng thứ hai là phải sáng tạo và cởi mở trong việc đề xuất các
giả thuyết giàu trí tưởng tượng cho giải pháp. việc viết bên ngoài hộp là rất
quan trọng, cả về chất lượng của giải pháp được đề xuất cũng như việc tìm
kiếm các bộ dữ liệu chất lượng cao cần thiết để kiểm tra giải pháp được đưa ra
giả thuyết. Ví dụ: TDM của dữ liệu tâm lý người tiêu dùng nên được kết hợp với
dữ liệu đơn đặt hàng của khách hàng để phát triển

một cái nhìn toàn diện về hành vi của khách hàng. Điều quan trọng là tập hợp
một nhóm có sự kết hợp lành mạnh giữa kỹ năng kỹ thuật và kinh doanh.
3. Một yếu tố quan trọng khác là lặp đi lặp lại vấn đề. Quá nhiều dữ liệu có
thể áp đảo cơ sở hạ tầng và cũng làm rối trí. Tốt hơn là phân chia và
chinh phục vấn đề bằng một TDM đơn giản hơn, với ít thuật ngữ hơn, ít
tài liệu và nguồn dữ liệu hơn. Mở rộng khi cần, theo trình tự các bước
lặp đi lặp lại. Trong tương lai, hãy thêm các thuật ngữ mới để giúp cải
thiện độ chính xác của dự đoán.
4. Nên sử dụng nhiều công cụ khai thác dữ liệu để kiểm tra các mối quan hệ
trong TDM. Các thuật toán cây quyết định khác nhau có thể được chạy
cùng với phân tích cụm và các kỹ thuật khác. Việc sắp xếp tam giác các phát
hiện bằng nhiều kỹ thuật và nhiều tình huống giả định giúp xây dựng niềm
tin vào giải pháp. Kiểm tra giải pháp theo nhiều cách trước khi cam kết với
nó.
Phần kết luận
Khai thác văn bản là đi sâu vào văn bản phi cấu trúc để khám phá những hiểu biết có
giá trị về doanh nghiệp. Văn bản điện tử được tập hợp và sau đó được cấu trúc thành
một TDM dựa trên tần suất xuất hiện của một túi từ trong kho văn bản.
e TDM sau đó có thể được khai thác cho các mẫu mới, hữu ích và thông tin
chuyên sâu. Mặc dù kỹ thuật này rất quan trọng, nhưng mục tiêu kinh doanh
cần được hiểu rõ và phải luôn được ghi nhớ.

1. Tại sao khai thác văn bản hữu ích trong thời đại truyền thông xã hội?
2. Những loại vấn đề nào có thể được giải quyết bằng khai thác văn bản?
3. Những loại tình cảm nào có thể được tìm thấy trong văn bản?
Dưới đây là một vài nhận xét từ các cuộc gọi dịch vụ khách hàng mà Liberty nhận được.
1.Tôi yêu thiết kế của chiếc áo. kích thước e phù hợp với tôi rất tốt. Tuy nhiên
vải có vẻ mỏng. Tôi đang gọi để xem bạn có thể thay chiếc áo sơ mi khác
không. Hoặc xin vui lòng hoàn lại tiền của tôi.
2.Tôi đi làm về muộn và tôi ghé qua để mua một số đồ tạp hóa. Tôi
không thích cách người quản lý đóng cửa hàng trong khi tôi vẫn
đang mua sắm.
3.Tôi ghé qua hái hoa. hàng thanh toán rất dài. người quản lý
đã lịch sự nhưng không mở quầy thu ngân mới. Tôi đã trễ
hẹn.
4. Người quản lý của tôi đã hứa rằng sản phẩm sẽ ở đó, nhưng khi tôi đến
đó thì sản phẩm không có ở đó. e ghé thăm là một sự lãng phí. Người quản
lý đáng lẽ phải bồi thường cho tôi vì rắc rối của tôi.
5.Khi có vấn đề xảy ra với đơn đặt hàng suất ăn của tôi, người quản lý cửa
hàng đã nhanh chóng liên lạc với tôi và nhanh chóng tìm cách gửi đồ ăn
thay thế cho tôi ngay lập tức. họ rất lịch sự.
Tạo TDM với không quá sáu thuật ngữ chính. [Gợi ý: Hãy coi mỗi bình
luận là một tài liệu.]
CHƯƠNG 11
Khai thác web
Khai thác web là nghệ thuật và khoa học khám phá các mẫu và thông tin chi tiết từ
World Wide Web để cải thiện nó. e World Wide Web là trung tâm của cuộc cách mạng
kỹ thuật số. Nhiều dữ liệu được đăng trên Web mỗi ngày hơn là trên toàn bộ Web chỉ
20 năm trước. Hàng tỷ người dùng đang sử dụng nó mỗi ngày cho nhiều mục đích
khác nhau. e Web được sử dụng cho thương mại điện tử, giao tiếp kinh doanh và
nhiều ứng dụng khác. Khai thác web phân tích dữ liệu từ Web và giúp tìm ra những
hiểu biết sâu sắc có thể tối ưu hóa nội dung web và cải thiện trải nghiệm người dùng.
Dữ liệu để khai thác web được thu thập thông qua trình thu thập dữ liệu web, nhật
ký web và các phương tiện khác.
Dưới đây là một số đặc điểm của các trang web được tối ưu hóa:
1.Vẻ bề ngoài:Thiết kế thẩm mỹ; nội dung được định dạng tốt, dễ quét và điều
hướng; và độ tương phản màu sắc tốt.
2.Nội dung:Kiến trúc thông tin được lên kế hoạch tốt với nội dung hữu ích; nội dung
mới mẻ; công cụ tìm kiếm được tối ưu hóa; và liên kết đến các trang web tốt khác.
3.chức năng:Có thể truy cập được cho tất cả người dùng được ủy quyền; thời gian tải nhanh; hình thức sử
dụng được; và kích hoạt điện thoại di động.
là loại nội dung và cấu trúc của nó được quan tâm để đảm bảo rằng Web
dễ sử dụng. Phân tích việc sử dụng web cung cấp phản hồi về nội dung web và
cả thói quen duyệt web của người tiêu dùng. là dữ liệu có thể được sử dụng
rộng rãi cho quảng cáo thương mại và thậm chí cho kỹ thuật xã hội.
e Web có thể được phân tích về cấu trúc cũng như nội dung của nó. Mô
hình sử dụng của các trang web cũng có thể được phân tích. Tùy thuộc vào mục
tiêu, khai thác web có thể được chia thành ba loại khác nhau: khai thác sử dụng
web, khai thác nội dung web và khai thác cấu trúc web (Hình 11.1).
Hình 11.1 Cấu trúc khai thác web
Khai thác nội dung web
Một trang web được thiết kế dưới dạng các trang có một URL riêng biệt (bộ định vị
tài nguyên chung). Một trang web lớn có thể chứa hàng ngàn trang. Các trang này và
nội dung của chúng được quản lý bằng hệ thống quản lý nội dung. Mỗi trang có thể
có văn bản, đồ họa, âm thanh, video, biểu mẫu, ứng dụng và nhiều loại nội dung
khác, bao gồm cả nội dung do người dùng tạo. trang web điện tử
tạo một bản ghi tất cả các yêu cầu nhận được cho trang/URL của nó. các yêu cầu
nhậtcó
ký điện tử của những
thể được phân tích để đánh giá mức độ phổ biến của các trang đó. điện tử-
nội dung ứng dụng và nội dung cuối cùng có thể được phân tích để sử dụng nó bằng cách truy cập vào trang
web. bản thân các trang điện tử trên một trang web có thể được phân tích về chất lượng
của nội dung. e các trang không mong muốn có thể được chuyển đổi với cấu hình khác nhau
lều và phong cách, hoặc chúng có thể bị xóa hoàn toàn. Tương tự, nhiều tài nguyên hơn
có thể được chỉ định để giữ cho các trang phổ biến hơn luôn tươi mới và hấp dẫn hơn.
Khai thác cấu trúc web
e Web hoạt động thông qua một hệ thống các siêu liên kết sử dụng giao thức siêu
văn bản (http). Bất kỳ trang nào cũng có thể tạo liên kết đến bất kỳ trang nào khác.
Bản chất đan xen hoặc tự giới thiệu của Web tự nó phù hợp với một số thuật toán
phân tích độc đáo. Cấu trúc của các trang web cũng có thể được phân tích để kiểm
tra cấu trúc của các siêu liên kết giữa các trang. Có hai mô hình chiến lược cơ bản cho
các trang web thành công: trung tâm và chính quyền.
1.trung tâm: các trang điện tử có số lượng lớn các liên kết thú vị sẽ phục vụ
như một trung tâm hoặc một điểm tập hợp, nơi mọi người truy cập nhiều loại thông tin. Các
trang web truyền thông như Yahoo.com hoặc các trang web của chính phủ sẽ phục vụ
KHAI THÁC WEB 137
mục đích đó. Đã có những trung tâm tập trung như Traveladvisor.com và nhiều
trang web có thể mong muốn trở thành trung tâm cho các khu vực mới nổi.
2.Cơ quan chức năng:Cuối cùng, mọi người sẽ bị thu hút bởi các trang
cung cấp thông tin đầy đủ và có thẩm quyền nhất về một chủ đề cụ thể,
bao gồm cả đánh giá của người dùng. các trang web này sẽ có
số lượng liên kết trong nước nhiều nhất. chúng tôi, Mayoclinic.com sẽ
phục vụ như một trang có thẩm quyền cho ý kiến y tế chuyên gia.
Khai thác sử dụng web
Khi người dùng nhấp vào bất kỳ đâu trên trang web hoặc ứng dụng, hành động
đó được ghi lại bởi nhiều thực thể ở nhiều vị trí. Trình duyệt điện tử tại máy
khách sẽ ghi lại lần nhấp và máy chủ web cung cấp nội dung cũng sẽ đăng nhập
vào hoạt động do các trang phục vụ. Các thực thể giữa máy khách và máy chủ,
chẳng hạn như bộ định tuyến, máy chủ proxy hoặc máy chủ quảng cáo, cũng sẽ
ghi lại lần nhấp đó.
Mục tiêu của việc sử dụng web là trích xuất thông tin hữu ích từ dữ liệu được tạo thông
qua các lượt truy cập và giao dịch trang web. Dữ liệu hoạt động điện tử đến từ dữ liệu được lưu
trữ trong nhật ký truy cập máy chủ, nhật ký liên kết giới thiệu, nhật ký tổng đài viên và cookie
phía máy khách. Đặc điểm người dùng và hồ sơ sử dụng cũng được thu thập trực tiếp hoặc gián
tiếp thông qua dữ liệu được cung cấp. Hơn nữa, siêu dữ liệu, chẳng hạn như thuộc tính trang,
thuộc tính nội dung và dữ liệu sử dụng, cũng được thu thập.
nội dung web có thể được phân tích ở nhiều cấp độ.
1. Phân tích phía máy chủ sẽ cho thấy mức độ phổ biến tương đối của các trang
web được truy cập. Các trang web khác có thể là trung tâm và chính quyền.
2. Phân tích phía khách hàng có thể tập trung vào mô hình sử dụng hoặc nội dung
thực tế do người dùng sử dụng và tạo.
một. Mô hình sử dụng có thể được phân tích bằng cách sử dụng phân tích “luồng nhấp
chuột”, nghĩa là phân tích hoạt động web cho các mô hình trình tự nhấp chuột cũng
như vị trí và thời lượng truy cập trên các trang web. Phân tích dòng nhấp chuột hữu
ích cho phân tích hoạt động web, thử nghiệm phần mềm, nghiên cứu thị trường và
phân tích năng suất của nhân viên.
b. Thông tin văn bản được truy cập trên các trang được người dùng truy xuất có thể
được phân tích bằng kỹ thuật khai thác văn bản. văn bản điện tử sẽ được tập
hợp và cấu trúc bằng cách sử dụng kỹ thuật túi từ để xây dựng một
Hình 11.2 Kiến trúc khai thác sử dụng web
ma trận thuật ngữ-tài liệu. là ma trận sau đó có thể được khai thác bằng cách sử dụng
phân tích cụm và quy tắc liên kết cho các mẫu, chẳng hạn như các chủ đề
phổ biến, phân khúc người dùng và phân tích tình cảm (Hình 11.2).
Nó có thể giúp dự đoán hành vi của người dùng dựa trên các quy tắc đã học trước đó
và hồ sơ của người dùng, đồng thời có thể giúp xác định giá trị lâu dài của khách hàng. Nó
cũng có thể giúp thiết kế các chiến lược tiếp thị chéo giữa các sản phẩm, bằng cách tuân
thủ các quy tắc liên kết giữa các trang trên trang web. Việc sử dụng web có thể giúp đánh
giá các chiến dịch quảng cáo và xem liệu người dùng có bị thu hút bởi trang web và sử
dụng các trang có liên quan đến chiến dịch hay không.
Việc sử dụng web có thể được sử dụng để trình bày thông tin động cho người dùng dựa trên sở
thích và hồ sơ của họ. bao gồm các quảng cáo và phiếu giảm giá trực tuyến được nhắm mục tiêu theo
nhóm người dùng dựa trên các mẫu truy cập của người dùng.
Thuật toán khai thác web
Tìm kiếm chủ đề do siêu liên kết tạo ra (HITS) là một thuật toán phân tích liên kết
đánh giá các trang web là trung tâm hoặc cơ quan. Nhiều thuật toán dựa trên HITS
khác cũng đã được xuất bản. Nổi tiếng và mạnh mẽ nhất trong số các thuật toán này
là thuật toán PageRank. Được phát minh bởi người đồng sáng lập Google, Larry
Page, thuật toán này được Google sử dụng để sắp xếp các kết quả của chức năng tìm
kiếm. là thuật toán giúp xác định tầm quan trọng tương đối của bất kỳ trang web cụ
thể nào bằng cách đếm số lượng và chất lượng của các liên kết đến một trang. Các
trang web có số lượng liên kết nhiều hơn và/hoặc nhiều liên kết hơn từ các trang
web chất lượng cao hơn sẽ được xếp hạng cao hơn. Nó hoạt động tương tự như việc
xác định địa vị của một người trong xã hội của con người. Những người có quan hệ
với nhiều người hơn và/hoặc có quan hệ với những người có địa vị cao hơn sẽ được
phong địa vị cao hơn.

KHAI THÁC WEB 139
PageRank là thuật toán giúp xác định thứ tự của các trang được liệt
kê trong truy vấn Tìm kiếm của Google. Thuật toán gốc đã được cập nhật
theo nhiều cách và thuật toán mới nhất được giữ bí mật để các trang
web khác không thể lợi dụng thuật toán và thao túng trang web của họ
theo nó. Tuy nhiên, có nhiều yếu tố tiêu chuẩn không thay đổi. các yếu tố
này dẫn đến các nguyên tắc cho một trang web tốt. là quá trình còn được
gọi là tối ưu hóa công cụ tìm kiếm (SEO).
Phần kết luận
e Web có nguồn tài nguyên ngày càng tăng, với nhiều nội dung hơn mỗi ngày và nhiều
người dùng hơn truy cập vào nó với nhiều mục đích. Một trang web tốt phải hữu ích, dễ sử
dụng và linh hoạt để phát triển. Từ những hiểu biết thu thập được bằng cách sử dụng khai thác
web, các trang web phải được tối ưu hóa liên tục.
Khai thác sử dụng web có thể giúp khám phá nội dung nào người dùng thực sự thích và kiểm
duyệt, đồng thời giúp ưu tiên nội dung đó để cải thiện. Cấu trúc web có thể giúp cải thiện lưu lượng
truy cập vào các trang web đó bằng cách xây dựng thẩm quyền cho các trang web.

1. Ba loại khai thác web là gì?
2. Phân tích dòng nhấp chuột là gì?
3. Hai cách chính mà một trang web có thể trở nên phổ biến là gì?
4. Các vấn đề riêng tư trong khai thác web là gì?
5. Một người dùng dành 60 phút trên web, truy cập tất cả 10 trang web. Với
dữ liệu luồng nhấp chuột, bạn sẽ thực hiện loại phân tích nào?
CHƯƠNG 12
Dữ liệu lớn
Dữ liệu lớn là một thuật ngữ chung cho một tập hợp các tập dữ liệu lớn
và phức tạp đến mức khó xử lý chúng bằng các công cụ quản lý dữ liệu
truyền thống. Đã và đang gia tăng dân chủ hóa quy trình tạo và chia sẻ
nội dung qua Internet, sử dụng các ứng dụng truyền thông xã hội. Sự
kết hợp giữa lưu trữ dựa trên đám mây, ứng dụng truyền thông xã hội
và thiết bị truy cập di động đang giúp kết tinh hiện tượng dữ liệu lớn.
Công ty tư vấn quản lý hàng đầu, McKinsey & Co. đã gây chấn động khi
công bố một báo cáo vào năm 2011 cho thấy tác động của dữ liệu lớn
như vậy đối với các tổ chức. ey báo cáo rằng sẽ có hàng triệu việc làm
mới trong thập kỷ tới, liên quan đến việc sử dụng dữ liệu lớn trong nhiều
ngành công nghiệp.
Dữ liệu lớn có thể được sử dụng để khám phá những hiểu biết mới từ góc nhìn 360
độ về một tình huống có thể cho phép có một góc nhìn hoàn toàn mới về các tình huống,
các mô hình thực tế mới và các loại giải pháp tiềm năng mới. Nó có thể giúp phát hiện các
xu hướng và cơ hội kinh doanh. Ví dụ: Google có thể dự đoán sự lây lan của bệnh bằng
cách theo dõi việc sử dụng các cụm từ tìm kiếm liên quan đến các triệu chứng của bệnh
trên toàn cầu trong thời gian thực. Dữ liệu lớn có thể giúp xác định chất lượng nghiên
cứu, ngăn ngừa bệnh tật, liên kết các trích dẫn hợp pháp, chống tội phạm và xác định điều
kiện giao thông đường bộ theo thời gian thực. Dữ liệu lớn đang cho phép y học dựa trên
bằng chứng và nhiều đổi mới khác.
Dữ liệu đã trở thành tài nguyên thiên nhiên mới. Các tổ chức có quyền lựa
chọn cách tương tác với khối lượng, sự đa dạng và tốc độ dữ liệu đang tăng theo
cấp số nhân này. Họ có thể chọn bị chôn vùi dưới trận tuyết lở, hoặc họ có thể
chọn sử dụng nó để tạo lợi thế cạnh tranh. Những thách thức trong dữ liệu lớn
bao gồm toàn bộ phạm vi hoạt động từ thu thập, quản lý, lưu trữ, tìm kiếm, chia
sẻ, phân tích và trực quan hóa. Dữ liệu lớn có giá trị hơn khi được phân tích tổng
thể. Ngày càng có nhiều thông tin có thể suy ra được
từ việc phân tích một tập hợp lớn các dữ liệu liên quan, so với các tập hợp nhỏ hơn
riêng biệt. Tuy nhiên, cần có các công cụ và kỹ năng đặc biệt để quản lý các tập dữ
liệu cực lớn như vậy.
Caselet: Khuyến mãi dành riêng cho cá nhân tại Sears
Vài năm trước, Sears Holdings đã đi đến kết luận rằng họ cần tạo ra giá trị lớn hơn từ
lượng dữ liệu khổng lồ về khách hàng, sản phẩm và khuyến mãi mà họ thu thập được
từ nhiều thương hiệu của mình. Sears cần khoảng tám tuần để tạo các chương trình
khuyến mại được cá nhân hóa, tại thời điểm đó, nhiều chương trình trong số đó không
còn tối ưu cho công ty. Mất nhiều thời gian như vậy chủ yếu là do dữ liệu cần thiết cho
các phân tích quy mô lớn này vừa đồ sộ vừa bị phân mảnh cao—được chứa trong
nhiều cơ sở dữ liệu và “kho dữ liệu” do các thương hiệu khác nhau duy trì. Sears
chuyển sang các công nghệ và thực tiễn của dữ liệu lớn. Một trong những bước đầu
tiên của nó là thiết lập một cụm Hadoop, sử dụng một nhóm các máy chủ hàng hóa rẻ
tiền.
Sears bắt đầu sử dụng cụm Hadoop để lưu trữ dữ liệu đến từ tất cả các
thương hiệu của mình và từ các kho dữ liệu hiện có. Sau đó, nó tiến hành
phân tích trực tiếp trên cụm, tránh sự phức tạp tốn thời gian của việc lấy dữ
liệu từ nhiều nguồn khác nhau và kết hợp chúng để có thể phân tích. Cụm
Hadoop của Sears lưu trữ và xử lý vài petabyte dữ liệu với chi phí chỉ bằng
một phần nhỏ so với kho dữ liệu tiêu chuẩn có thể so sánh được. Thời gian
cần thiết để tạo ra một tập hợp toàn diện các chương trình khuyến mãi đã
giảm từ tám tuần xuống còn một tuần. Và những quảng cáo này có chất
lượng cao hơn vì chúng kịp thời hơn, chi tiết hơn và được cá nhân hóa hơn.
(Nguồn: McAfee và Brynjolfsson HBS tháng 10 năm 2012)
Q1. Sears có thể hưởng lợi từ dữ liệu lớn theo những cách nào khác?
Q2. Những thách thức trong việc sử dụng dữ liệu lớn là gì?
Định nghĩa dữ liệu lớn
Năm 2000, có 800.000 petabyte dữ liệu trên thế giới. Nó dự kiến sẽ tăng
lên 35 zettabyte vào năm 2020. Khoảng nửa triệu cuốn sách có giá trị dữ
liệu đang được tạo ra hàng ngày chỉ riêng trên mạng xã hội.
DỮ LIỆU LỚN 143
Dữ liệu lớn là dữ liệu lớn, nhanh, không có cấu trúc và thuộc nhiều loại. trước đây là một số
tính năng độc đáo:
1.Đa dạng:Có rất nhiều loại dữ liệu, bao gồm cả dữ liệu có cấu trúc và phi cấu trúc.
Dữ liệu có cấu trúc bao gồm các trường số và văn bản. Dữ liệu phi cấu trúc bao
gồm hình ảnh, video, âm thanh và nhiều loại khác. Ngoài ra còn có nhiều
nguồn dữ liệu. Các nguồn dữ liệu có cấu trúc truyền thống bao gồm dữ liệu từ
hệ thống ERP và các hệ thống vận hành khác. Các nguồn dữ liệu phi cấu trúc
bao gồm phương tiện truyền thông xã hội, Web, RFID, dữ liệu máy và các
nguồn khác. Dữ liệu phi cấu trúc có nhiều kích cỡ, độ phân giải khác nhau và
chịu các loại phân tích khác nhau. Ví dụ: các tệp video có thể được gắn nhãn và
chúng có thể được phát, nhưng dữ liệu video thường không được tính toán,
điều này giống với dữ liệu âm thanh. Dữ liệu đồ họa có thể được phân tích cho
khoảng cách mạng. Các văn bản và tweet trên Facebook có thể được phân tích
để tìm cảm xúc, nhưng không thể so sánh trực tiếp.
2.vận tốc:e Internet làm tăng đáng kể tốc độ di chuyển của dữ liệu, từ e-mail đến
phương tiện truyền thông xã hội đến tệp video, dữ liệu có thể di chuyển nhanh
chóng. Điện toán đám mây giúp chia sẻ tức thời và dễ dàng truy cập từ mọi nơi.
Các ứng dụng truyền thông xã hội cho phép mọi người chia sẻ dữ liệu của họ
với nhau ngay lập tức. Truy cập di động vào các ứng dụng này cũng tăng tốc độ
tạo và truy cập dữ liệu (Hình 12.1).
Hình 12.1 Nguồn dữ liệu lớn

(Nguồn: Hortonworks.com)
3.Âm lượng:Các trang web đã trở thành kho lưu trữ tuyệt vời cho tất cả các loại
dữ liệu. Dòng nhấp chuột của người dùng được ghi lại và lưu trữ để sử
dụng trong tương lai. Các ứng dụng truyền thông xã hội như Facebook,
Twitter, Pinterest và các ứng dụng khác đã cho phép người dùng trở thành
những người tiêu dùng dữ liệu (nhà sản xuất và người tiêu dùng). trước
đây là sự gia tăng về số lượng chia sẻ dữ liệu và cả kích thước của từng
thành phần dữ liệu. Video độ nét cao có thể tăng tổng số dữ liệu được chia
sẻ. Có các luồng dữ liệu tự động bao gồm video, âm thanh, văn bản, dữ
liệu, v.v. đến từ các trang truyền thông xã hội, trang web, ứng dụng RFID,
v.v.
4.Nguồn dữ liệu:Có một số nguồn dữ liệu, bao gồm một số nguồn mới.
Dữ liệu từ bên ngoài tổ chức có thể không đầy đủ và có chất lượng
bình thường.
một. Con người: Tất cả các hoạt động trên Web và phương tiện truyền thông xã hội được
coi là cửa hàng và có thể truy cập được. E-mail là nguồn dữ liệu mới chính đầu tiên.
Tìm kiếm trên Google, bài đăng trên Facebook, Tweet, video trên Youtube, phương
tiện truyền thông xã hội khác và blog cho phép mọi người tạo dữ liệu cho nhau.
b. Tổ chức: Các tổ chức kinh doanh và chính phủ là những người tạo dữ
liệu chính. Hệ thống ERP, hệ thống thương mại điện tử, nội dung do
người dùng tạo, nhật ký truy cập web và nhiều nguồn dữ liệu khác tạo
ra dữ liệu có giá trị cho các tổ chức.
c. Máy móc: e Internet vạn vật đang phát triển. Nhiều máy được
kết nối với mạng và tự tạo dữ liệu mà con người không chạm
vào. Thẻ RFID và viễn thông là hai ứng dụng chính tạo ra
lượng dữ liệu khổng lồ. Các thiết bị được kết nối, chẳng hạn
như điện thoại và tủ lạnh, tạo dữ liệu về vị trí và trạng thái của
chúng.
đ. Siêu dữ liệu: đây là dữ liệu khổng lồ về chính dữ liệu. Trình thu thập dữ liệu
web và bot web quét Web để nắm bắt các trang web mới, cấu trúc html và
siêu dữ liệu của chúng. là dữ liệu được sử dụng bởi nhiều ứng dụng, bao
gồm cả các công cụ tìm kiếm trên web.
Dữ liệu điện tử cũng bao gồm chất lượng dữ liệu đa dạng. Dữ liệu từ bên
trong tổ chức có thể có chất lượng cao hơn. Dữ liệu có sẵn công khai sẽ bao gồm
một số dữ liệu đáng tin cậy, cùng với dữ liệu kém hơn.
Bối cảnh dữ liệu lớn
Dữ liệu lớn có thể được hiểu ở nhiều cấp độ. Ở cấp độ cao nhất là các ứng dụng kinh
doanh phù hợp với các ngành cụ thể hoặc phù hợp với kinh doanh thông minh dành cho
giám đốc điều hành. Một khái niệm độc đáo về “dữ liệu dưới dạng dịch vụ” cũng có thể áp
dụng cho các ngành cụ thể. Ở cấp độ tiếp theo, có các yếu tố cơ sở hạ tầng cho các ứng
dụng đa ngành, chẳng hạn như phân tích và cơ sở dữ liệu có cấu trúc. cũng bao gồm việc
cung cấp cơ sở hạ tầng này như một dịch vụ với một số dịch vụ quản lý vận hành được
tích hợp sẵn. Về cốt lõi, đó là về các công nghệ và tiêu chuẩn để lưu trữ và thao tác các
luồng dữ liệu lớn với tốc độ nhanh.
Ý nghĩa kinh doanh của dữ liệu lớn
Dữ liệu lớn đang phá vỡ mọi ngành công nghiệp. Bất kỳ ngành nào sản xuất các sản phẩm
dựa trên thông tin đều có khả năng bị gián đoạn nhất. chúng tôi, ngành công nghiệp báo
chí đã bị ảnh hưởng từ phân phối kỹ thuật số, cũng như từ các blog chỉ xuất bản trên web.
Giải trí cũng bị ảnh hưởng bởi phân phối kỹ thuật số và vi phạm bản quyền, cũng như nội
dung do người dùng tạo và tải lên trên Internet. ngành giáo dục điện tử đang bị gián
đoạn bởi các khóa học mở trực tuyến ồ ạt (MOOC) và nội dung do người dùng tải lên. Việc
cung cấp dịch vụ chăm sóc sức khỏe bị ảnh hưởng bởi hồ sơ sức khỏe điện tử và thuốc kỹ
thuật số. ngành bán lẻ điện tử đã bị phá vỡ ồ ạt bởi các công ty thương mại điện tử. Các
công ty thời trang bị ảnh hưởng bởi những phản hồi nhanh chóng trên mạng xã hội.
ngành ngân hàng điện tử đã bị ảnh hưởng bởi hệ thống ngân hàng trực tuyến hiệu quả
về chi phí và điều này sẽ ảnh hưởng đến mức độ việc làm trong ngành.
Có sự thay đổi nhanh chóng trong các mô hình kinh doanh được hỗ trợ
bởi công nghệ dữ liệu lớn. Steve Jobs, cựu CEO của Apple, thừa nhận rằng các
sản phẩm của công ty ông sẽ bị phá vỡ. Ông muốn họ bị tiêu diệt bởi sản phẩm
của chính mình hơn là sản phẩm của đối thủ cạnh tranh.
Mọi hoạt động kinh doanh cũng sẽ bị gián đoạn. Vấn đề kinh doanh chính của
doanh nghiệp là làm thế nào để khai thác dữ liệu lớn cho doanh nghiệp để tạo cơ hội
tăng trưởng và vượt qua cạnh tranh. Các tổ chức cần tìm ra cách sử dụng dữ liệu
được tạo ra như một tài sản chiến lược trong thời gian thực, để xác định các cơ hội,
ngăn chặn các mối đe dọa và đạt được hiệu quả hoạt động. Các tổ chức cần học cách
tổ chức hoạt động kinh doanh của mình để không bị chôn vùi trong khối lượng lớn,
tốc độ và sự đa dạng của dữ liệu, mà thay vào đó hãy sử dụng

thông minh và chủ động để có được “lợi thế 2 giây” nhanh chóng so với đối thủ cạnh
tranh để giành lấy cơ hội trước. Giờ đây, các tổ chức có thể kết hợp chiến lược và kinh
doanh kỹ thuật số một cách hiệu quả, sau đó cố gắng thiết kế “chiến lược kinh doanh
kỹ thuật số” sáng tạo xung quanh các khả năng và tài sản kỹ thuật số.
Ý nghĩa công nghệ của dữ liệu lớn

Các tổ chức hiện buộc phải giải quyết nhiều loại tài sản thông tin mà
họ có quyền truy cập cũng như cách họ xử lý và sử dụng chúng. Đồng
thời, nhu cầu về thông tin liên tục thay đổi khi các mô hình kinh
doanh tiếp tục phát triển.
Việc tăng trưởng dữ liệu có thể thực hiện được một phần nhờ sự tiến bộ của
công nghệ lưu trữ. Biểu đồ đính kèm cho thấy sự tăng trưởng của ổ đĩa và chi
năng lực trung bình. phí lưu trữ đang giảm, dung lượng lưu trữ tăng lên
nhỏ hơn và tốc độ truy cập tăng lên. Ổ đĩa flash đang trở nên rẻ hơn. Lưu
trữ bộ nhớ truy cập ngẫu nhiên từng đắt tiền, nhưng hiện nay rẻ đến
mức toàn bộ cơ sở dữ liệu có thể được tải và xử lý nhanh chóng, thay vì
hoán đổi dữ liệu vào và ra khỏi bộ nhớ.
Các công nghệ xử lý và quản lý dữ liệu mới đã xuất hiện. Các chuyên gia CNTT
tích hợp các tài sản có cấu trúc “dữ liệu lớn” với nội dung và phải nâng cao kỹ năng
xác định yêu cầu kinh doanh của họ. Dữ liệu lớn đang trở nên dân chủ. Các chức
năng kinh doanh sẽ bảo vệ dữ liệu của họ và sẽ bắt đầu các sáng kiến xung quanh
việc khai thác dữ liệu đó. Các nhóm hỗ trợ CNTT cần tìm cách hỗ trợ các giải pháp dữ
liệu lớn do người dùng cuối triển khai. Kho dữ liệu doanh nghiệp sẽ cần bao gồm dữ
liệu lớn ở một số dạng. Nền tảng CNTT điện tử cần được tăng cường để giúp cung
cấp khả năng thực hiện “chiến lược kinh doanh kỹ thuật số” xung quanh các tài sản
và khả năng kỹ thuật số.
Công nghệ dữ liệu lớn
Các công cụ và kỹ thuật mới đã phát sinh trong 10 đến 20 năm qua để xử lý dữ
liệu lớn và vẫn đang phát triển này. Có những công nghệ để lưu trữ và truy cập
dữ liệu này.
1.Cấu trúc dữ liệu phi quan hệ:Dữ liệu lớn được lưu trữ bằng cấu trúc dữ
liệu phi truyền thống. Cơ sở dữ liệu phi quan hệ lớn như Hadoop có
nổi lên như một nền tảng quản lý dữ liệu hàng đầu cho dữ liệu lớn. Trong Hệ
thống tệp phân tán của Hadoop (HDFS), dữ liệu được lưu trữ dưới dạng kết hợp
“khóa và giá trị dữ liệu”. Google BigFile là một công nghệ nổi bật khác. NoSQL
đang nổi lên như một ngôn ngữ để quản lý cơ sở dữ liệu phi quan hệ. Tập hợp
các ngôn ngữ lập trình mã nguồn mở (chẳng hạn như Pig và Hive) và các công
cụ khác giúp biến Hadoop thành một công cụ mạnh mẽ và phổ biến.
2.Tính toán song song lớn:Với kích thước của dữ liệu, sẽ rất hữu ích khi
phân chia và giải quyết vấn đề một cách nhanh chóng bằng cách sử
dụng đồng thời nhiều bộ xử lý. Xử lý song song cho phép dữ liệu được
xử lý bởi nhiều máy để có thể đạt được kết quả sớm hơn. Thuật toán
MapReduce, ban đầu được tạo ra tại Google để thực hiện tìm kiếm
nhanh hơn, đã nổi lên như một cơ chế xử lý song song phổ biến. Vấn
đề ban đầu được chia thành các vấn đề nhỏ hơn, sau đó được ánh xạ
tới nhiều bộ xử lý có thể hoạt động song song. Đầu ra của các bộ xử lý
này được chuyển đến bộ xử lý đầu ra để giảm đầu ra thành một luồng
duy nhất, sau đó được gửi đến người dùng cuối. Đây là một ví dụ về
thuật toán MapReduce (Hình 12.2).
3. Kiến trúc quản lý thông tin phi cấu trúc (UIMA). là “công thức bí mật” đằng
sau hệ thống Watson của IBM đọc lượng dữ liệu khổng lồ và tổ chức để xử
lý đúng lúc. Watson đã đánh bại nhà vô địch Jeopardy (chương trình đố vui)
vào năm 2011 và hiện được sử dụng cho nhiều ứng dụng kinh doanh,
chẳng hạn như chẩn đoán, trong các tình huống chăm sóc sức khỏe. Xử lý
ngôn ngữ tự nhiên là một khả năng khác giúp mở rộng sức mạnh của công
nghệ dữ liệu lớn.
Hình 12.2 Ví dụ về thuật toán xử lý song song MapReduce

(nguồn: www.cs.uml.edu)
Quản lý dữ liệu lớn

Nhiều tổ chức đã bắt đầu các sáng kiến xung quanh việc sử dụng dữ liệu lớn. Tuy
nhiên, hầu hết các tổ chức không nhất thiết phải nắm bắt được nó. Dưới đây là một
số hiểu biết mới nổi về việc sử dụng dữ liệu lớn tốt hơn.
1. Trong tất cả các ngành, trường hợp kinh doanh cho dữ liệu lớn tập trung mạnh vào việc
giải quyết các mục tiêu lấy khách hàng làm trung tâm. Trọng tâm đầu tiên của việc triển
khai các sáng kiến dữ liệu lớn là bảo vệ và nâng cao mối quan hệ với khách hàng cũng
như trải nghiệm của khách hàng.
2. Nền tảng quản lý thông tin có thể mở rộng và mở rộng là điều kiện tiên
quyết để phát triển dữ liệu lớn. Dữ liệu lớn được xây dựng dựa trên môi
trường xử lý thông tin linh hoạt, an toàn, hiệu quả, linh hoạt và theo thời
gian thực.
3. Các tổ chức đang bắt đầu thử nghiệm và triển khai bằng cách sử dụng
các nguồn dữ liệu nội bộ hiện có và mới có thể truy cập được. Tốt hơn
là bắt đầu với dữ liệu dưới sự kiểm soát của một người và khi người đó
hiểu rõ hơn về dữ liệu.
4. Khả năng phân tích nâng cao là cần thiết nhưng còn thiếu đối với các tổ chức để
thu được giá trị cao nhất từ dữ liệu lớn. Có một nhận thức ngày càng tăng về
việc xây dựng hoặc tuyển dụng những kỹ năng và khả năng đó.
5. Bạn phân tích dữ liệu càng nhanh thì giá trị dự đoán của nó càng cao. Giá trị
của dữ liệu giảm dần theo thời gian. Nếu dữ liệu không được xử lý trong
năm phút, thì lợi thế ngay lập tức sẽ bị mất.
6. Duy trì một bản sao dữ liệu của bạn, không phải nhiều là sẽ giúp tránh
bản sao. nhầm lẫn và tăng hiệu quả.
7. Sử dụng dữ liệu đa dạng hơn, không chỉ nhiều dữ liệu hơn. là sẽ cung cấp một
quan điểm rộng hơn vào thực tế và hiểu biết chất lượng tốt hơn.
8. Dữ liệu có giá trị vượt xa những gì bạn dự đoán ban đầu. Đừng vứt bỏ dữ liệu
nếu không thể nhìn thấy việc sử dụng nó ngay lập tức. Dữ liệu có thể thêm
quan điểm cho dữ liệu khác theo cách nhân lên.
9. Lập kế hoạch tăng trưởng theo cấp số nhân. Dữ liệu dự kiến sẽ tiếp tục phát
triển với tốc độ theo cấp số nhân. Chi phí lưu trữ tiếp tục giảm, việc tạo dữ liệu
tiếp tục phát triển và các ứng dụng dựa trên dữ liệu tiếp tục phát triển về khả
năng và chức năng.

10. Giải quyết một điểm đau thực sự. Dữ liệu lớn nên được triển khai cho các mục
tiêu kinh doanh cụ thể để tránh bị choáng ngợp bởi quy mô tuyệt đối của tất
cả.
11. Đặt con người và dữ liệu lại với nhau để có được cái nhìn sâu sắc nhất. Kết hợp
phân tích dựa trên dữ liệu với trực giác và quan điểm của con người sẽ tốt hơn
là chỉ đi một chiều.
12. Dữ liệu lớn đang chuyển đổi hoạt động kinh doanh, giống như CNTT đã làm. Dữ liệu lớn là một
giai đoạn mới đại diện cho một thế giới kỹ thuật số. Doanh nghiệp và xã hội không tránh khỏi
những tác động mạnh mẽ của nó.
Phần kết luận
Dữ liệu lớn là một lực lượng tự nhiên và tài nguyên thiên nhiên mới. e theo cấp số nhân
khối lượng, sự đa dạng và tốc độ dữ liệu ngày càng tăng đang liên tục làm gián đoạn hoạt
động kinh doanh trong tất cả các ngành, ở nhiều cấp độ từ sản phẩm đến mô hình kinh
doanh. Các tổ chức cần bắt đầu các sáng kiến xung quanh dữ liệu lớn; có được các kỹ
năng, công cụ và công nghệ; và thể hiện tầm nhìn phá vỡ ngành công nghiệp của họ và đi
trước.

1. Ba Vs của dữ liệu lớn là gì?
2. Dữ liệu lớn tác động đến các mô hình kinh doanh như thế nào?
3. Hadoop là gì?
4. Thuật toán MapReduce hoạt động như thế nào?
5. Các vấn đề chính trong việc quản lý dữ liệu lớn là gì?

CHƯƠNG 13
Mô hình hóa dữ liệu Primer
Dữ liệu cần được cấu trúc và lưu trữ hiệu quả để bao gồm tất cả thông tin cần
thiết cho việc ra quyết định mà không bị trùng lặp và mất tính toàn vẹn. Dưới
đây là 10 phẩm chất hàng đầu của dữ liệu tốt.
Dữ liệu phải là:
1.Chính xác:Dữ liệu phải giữ lại các giá trị nhất quán trên các kho lưu trữ dữ liệu,
người dùng và ứng dụng. là khía cạnh quan trọng nhất của dữ liệu. Bất kỳ việc
sử dụng dữ liệu không chính xác hoặc bị hỏng nào để thực hiện bất kỳ phân
tích nào đều được gọi là tình trạng rác vào rác (GIGO).
2.Kiên trì:Dữ liệu phải có sẵn cho mọi thời điểm, bây giờ và sau này. Do đó, nó
phải không biến đổi, được lưu trữ và quản lý để truy cập sau này.
3.Có sẵn:Dữ liệu phải được cung cấp cho người dùng được ủy quyền, khi nào, ở
đâu và cách họ muốn truy cập dữ liệu đó, trong các ràng buộc chính sách.
4.Có thể truy cập:Dữ liệu không chỉ có sẵn cho người dùng mà còn phải dễ sử
dụng. chúng tôi, dữ liệu phải được cung cấp ở các định dạng mong muốn, với
các công cụ dễ dàng. MS Excel là phương tiện phổ biến để truy cập dữ liệu số,
sau đó chuyển sang các định dạng khác.
5.Toàn diện:Dữ liệu nên được thu thập từ tất cả các nguồn có liên quan
để cung cấp một cái nhìn đầy đủ và toàn diện về tình hình. Các thứ
nguyên mới sẽ được thêm vào dữ liệu khi chúng có sẵn.
6.có thể phân tích:Dữ liệu nên có sẵn để phân tích, cho các mục đích lịch sử và dự
đoán. chúng tôi, dữ liệu phải được tổ chức sao cho có thể sử dụng bằng các
công cụ phân tích, chẳng hạn như OLAP, khối dữ liệu hoặc khai thác dữ liệu.
7.Linh hoạt:Dữ liệu ngày càng đa dạng về chủng loại. chúng tôi, kho lưu trữ dữ
liệu sẽ có thể lưu trữ nhiều loại dữ liệu: nhỏ/lớn, văn bản/video, v.v.
số 8.có thể mở rộng:Dữ liệu ngày càng tăng về khối lượng. Lưu trữ dữ liệu nên được tổ
chức để đáp ứng nhu cầu khẩn cấp.

9.Chắc chắn:Dữ liệu phải được sao lưu hai lần và ba lần, đồng thời được bảo vệ khỏi mất
mát và hư hỏng. Không có cơn ác mộng CNTT nào lớn hơn dữ liệu bị hỏng. Dữ liệu
không nhất quán phải được sắp xếp theo cách thủ công dẫn đến mất mặt, mất công
việc kinh doanh, thời gian ngừng hoạt động và đôi khi công việc kinh doanh không
bao giờ phục hồi.
10.Hiệu quả về chi phí: Chi phí thu thập và lưu trữ dữ liệu đang đến
xuống nhanh chóng. Tuy nhiên, tổng chi phí thu thập, tổ chức và
lưu trữ một loại dữ liệu vẫn phải tỷ lệ thuận với giá trị ước tính từ
việc sử dụng nó.
Sự phát triển của hệ thống quản lý dữ liệu
Quản lý dữ liệu đã phát triển từ các hệ thống lưu trữ thủ công sang các hệ
thống trực tuyến tiên tiến nhất có khả năng xử lý hàng triệu yêu cầu truy cập
và xử lý dữ liệu mỗi giây.
Hệ thống quản lý dữ liệu đầu tiên được gọi là hệ thống tệp. các tệp và thư tiếng ese
mục giấy bắt chước. Tất cả mọi thứ đã được lưu trữ theo trình tự thời gian. Truy cập
vào dữ liệu này là tuần tự.
Bước tiếp theo trong mô hình hóa dữ liệu là tìm cách truy cập bất kỳ bản ghi ngẫu nhiên nào
một cách nhanh chóng. chúng tôi, các hệ thống cơ sở dữ liệu phân cấp đã xuất hiện. Họ có thể kết nối
tất cả các mặt hàng cho một đơn đặt hàng, được cung cấp một số đơn đặt hàng.
Bước tiếp theo là duyệt qua các mối liên kết theo cả hai cách, từ trên cùng của hệ
thống phân cấp xuống dưới cùng và từ dưới lên trên cùng. Với một mặt hàng được bán,
người ta có thể tìm thấy số thứ tự của nó và liệt kê tất cả các mặt hàng khác được bán
theo thứ tự đó. chúng tôi, đã có những mạng lưới liên kết được thiết lập trong dữ liệu để
theo dõi những mối quan hệ đó.
Bước nhảy vọt lớn đến khi bản thân mối quan hệ giữa các phần tử dữ liệu
trở thành trung tâm của sự chú ý. Mối quan hệ giữa các giá trị dữ liệu là yếu tố
chính của lưu trữ. Các mối quan hệ được thiết lập thông qua các giá trị phù hợp
của các thuộc tính chung, thay vì theo vị trí của bản ghi trong một tệp. được dẫn
đến mô hình hóa dữ liệu bằng đại số quan hệ. Các mối quan hệ có thể được nối
và trừ, với các phép toán tập hợp như hợp và giao. Tìm kiếm dữ liệu trở thành
một nhiệm vụ dễ dàng hơn bằng cách khai báo các giá trị của một biến quan
tâm.
Mô hình quan hệ e đã được cải tiến để bao gồm các biến có giá trị không thể
so sánh được như đối tượng nhị phân (chẳng hạn như ảnh), phải được xử lý
MÔ HÌNH DỮ LIỆU MÔ HÌNH MẪU 153
khác nhau. chúng tôi nảy ra ý tưởng đóng gói các thủ tục cùng
với các phần tử dữ liệu mà họ đã làm việc. dữ liệu điện tử và các phương pháp của nó là
được gói gọn trong một “đối tượng”. các đối tượng khác có thể được chuyên biệt hóa hơn
nữa. Ví dụ, một chiếc xe là một đối tượng với các thuộc tính nhất định. Một chiếc xe hơi và
một chiếc xe tải là những phiên bản chuyên dụng hơn của một chiếc xe. Chúng kế thừa
cấu trúc dữ liệu của phương tiện, nhưng có các thuộc tính bổ sung của riêng chúng.
Tương tự, đối tượng chuyên biệt kế thừa tất cả các thủ tục và chương trình liên quan đến
thực thể tổng quát hơn. đã trở thành mô hình hướng đối tượng.
Mô hình dữ liệu quan hệ
Mô hình quản lý dữ liệu dựa trên lý thuyết toán học đầu tiên được thiết kế
bởi Ed Codd vào năm 1970.
1. Cơ sở dữ liệu quan hệ bao gồm một tập hợp các quan hệ (bảng dữ liệu), có thể
được nối với nhau bằng các thuộc tính dùng chung. “Bảng dữ liệu” là một tập
hợp các phiên bản (hoặc bản ghi), với thuộc tính khóa để xác định duy nhất
từng phiên bản.
2. Các bảng dữ liệu có thể được THAM GIA bằng cách sử dụng các thuộc tính
“khóa” được chia sẻ để tạo các bảng tạm thời lớn hơn, có thể được truy vấn để
tìm nạp thông tin trên các bảng. Tham gia có thể đơn giản như giữa hai bảng.
Các phép nối cũng có thể phức tạp với AND, OR, UNION hoặc INTERSECTION và
nhiều phép nối khác.
3. Có thể sử dụng các lệnh cấp cao trong Ngôn ngữ truy vấn có cấu
trúc (SQL) để thực hiện nối, chọn và sắp xếp các bản ghi.
Các mô hình dữ liệu quan hệ chảy từ các mô hình khái niệm, sang các mô
hình logic đến các triển khai vật lý.
Dữ liệu có thể được hiểu là về các thực thể và các mối quan hệ giữa các
thực thể. Mối quan hệ giữa các thực thể có thể là phân cấp giữa các thực thể
hoặc giao dịch liên quan đến nhiều thực thể. ese có thể được biểu diễn bằng
đồ họa dưới dạng sơ đồ mối quan hệ thực thể (ERD).
1. Mộtthực thểlà bất kỳ đối tượng hoặc sự kiện nào mà ai đó chọn để thu thập dữ
liệu, có thể là một người, địa điểm hoặc sự vật (ví dụ: người bán hàng, thành
phố, sản phẩm, phương tiện, nhân viên).

2. Đơn vị cóthuộc tính.Thuộc tính là các mục dữ liệu có điểm chung với thực
thể. Ví dụ: id sinh viên, tên sinh viên và địa chỉ sinh viên đại diện cho các chi
tiết cho một thực thể sinh viên. Các thuộc tính có thể là một giá trị (ví dụ:
tên sinh viên) hoặc nhiều giá trị (danh sách các địa chỉ trước đây của sinh
viên). Thuộc tính có thể đơn giản (ví dụ: tên sinh viên) hoặc hỗn hợp (ví dụ:
địa chỉ sinh viên, bao gồm đường phố, thành phố và tiểu bang).
3.Các mối quan hệcó nhiều đặc điểm: mức độ, lực lượng và sự
tham gia.
4.Mức độ quan hệphụ thuộc vào số lượng thực thể tham gia vào một mối
quan hệ. Các mối quan hệ có thể là đơn nguyên (ví dụ: nhân viên và người
quản lý là nhân viên), nhị phân (ví dụ: sinh viên và khóa học) và tam cấp (ví
dụ: nhà cung cấp, bộ phận, nhà kho)
5.hồng ythể hiện mức độ tham gia của mỗi thực thể trong một mối
quan hệ.
một. Một đối một (ví dụ: nhân viên và chỗ đậu xe)
b. Một-nhiều (ví dụ: khách hàng và đơn đặt hàng)
c. Nhiều-nhiều (ví dụ: sinh viên và khóa học)

6.Sự tham giachỉ ra tính chất tùy chọn hoặc bắt buộc của mối
quan hệ.
một. Khách hàng và đơn đặt hàng (bắt buộc)
b. Nhân viên và khóa học (tùy chọn)

7. ere cũng làthực thể yếuphụ thuộc vào một thực thể khác để tồn
tại (ví dụ: nhân viên và người phụ thuộc). Nếu dữ liệu nhân viên
bị xóa, thì dữ liệu phụ thuộc cũng phải bị xóa.
8. trước đâythực thể liên kếtđược sử dụng để biểu diễn các mối quan hệ M–N
(ví dụ: sinh viên đăng ký khóa học).
9. ere cũng làthực thể loại siêu phụ. trợ giúp ese đại diện cho addi-
các thuộc tính riêng, trên một tập hợp con của các bản ghi. Ví dụ, xe cộ là một
siêu kiểu và xe chở khách là kiểu con của nó.
Trong Hình 13.1, hình chữ nhật phản ánh các thực thể sinh viên và khóa học. mối
quan hệ e là tuyển sinh.
Mỗi thực thể phải có (các) thuộc tính khóa có thể được sử dụng để xác định
một thực thể. Ví dụ, ID sinh viên có thể xác định một sinh viên. Khóa chính là
một giá trị thuộc tính duy nhất cho phiên bản (ví dụ: ID sinh viên). Bất kỳ thuộc
tính nào có thể đóng vai trò là khóa chính (ví dụ: địa chỉ sinh viên) là một
MÔ HÌNH DỮ LIỆU MÔ HÌNH MẪU 155
Hình 13.1 Mối quan hệ mẫu giữa hai thực thể
khóa ứng cử viên. Khóa phụ—một khóa có thể không phải là duy nhất—có thể được sử
dụng để chọn một nhóm bản ghi (thành phố sinh viên).
Một số thực thể sẽ có khóa tổng hợp—sự kết hợp của hai hoặc nhiều
thuộc tính cùng đại diện duy nhất cho khóa (ví dụ: số chuyến bay và ngày
chuyến bay).
Khóa ngoại rất hữu ích trong việc biểu diễn mối quan hệ một-
nhiều. Khóa chính của tệp ở một đầu của mối quan hệ phải được
chứa dưới dạng khóa ngoại trên tệp ở nhiều đầu của mối quan hệ.
Mối quan hệ nhiều-nhiều tạo ra nhu cầu về một en-liên kết
thành phố. Có hai cách để thực hiện nó. Nó có thể được chuyển đổi thành hai
mối quan hệ một-nhiều với một thực thể liên kết ở giữa. Ngoài ra,
sự kết hợp các khóa chính của các thực thể tham gia vào mối quan
hệ sẽ tạo thành khóa chính cho thực thể liên kết.
Triển khai mô hình dữ liệu quan hệ

Một khi mô hình dữ liệu lôgíc đã được tạo, thật dễ dàng để triển khai nó
bằng DBMS.
Mỗi thực thể nên được thực hiện bằng cách tạo một bảng cơ sở dữ liệu. Mỗi
bảng sẽ là một trường dữ liệu cụ thể (khóa) sẽ xác định duy nhất từng quan hệ
(hoặc hàng) trong bảng đó. Mỗi bảng chính hoặc quan hệ cơ sở dữ liệu nên có
các chương trình để tạo, đọc, cập nhật và xóa các bản ghi.
cơ sở dữ liệu điện tử phải tuân theo ba ràng buộc toàn vẹn.
1.toàn vẹn thực thểđảm bảo rằng thực thể hoặc một bảng là lành mạnh. e
khóa chính không thể có giá trị null. Mỗi hàng phải có một giá trị duy
nhất, nếu không thì hàng đó sẽ bị xóa. Như một hệ quả tất yếu, nếu
khóa chính là khóa tổng hợp, thì không có trường nào tham gia vào
khóa có thể chứa giá trị null. Mỗi khóa phải là duy nhất.
2.Toàn vẹn tên miềnđược thực thi bằng cách sử dụng các quy tắc để xác thực
dữ liệu thuộc phạm vi và loại thích hợp.
3.toàn vẹn tham chiếuchi phối bản chất của hồ sơ trong mối quan
hệ một-tomany. là đảm bảo rằng giá trị của khóa ngoại phải có
giá trị khớp với các khóa chính của bảng được tham chiếu bởi
khóa ngoại.
Hệ thống Quản lý Dữ liệu

Đây là nhiều gói phần mềm quản lý các hoạt động nền liên quan đến việc lưu
trữ các quan hệ, bản thân dữ liệu và thực hiện các thao tác trên các quan hệ. Dữ
liệu trong DBMS phát triển và nó phục vụ nhiều người dùng dữ liệu đồng thời. e
DBMS thường chạy trên một máy được gọi là máy chủ cơ sở dữ liệu—trong kiến
trúc ứng dụng web n tầng. chúng ta trong một hệ thống đặt vé máy bay, hàng
triệu giao dịch có thể đồng thời cố gắng truy cập vào cùng một bộ dữ liệu. Cơ sở
dữ liệu điện tử được quản lý liên tục để cung cấp quyền truy cập dữ liệu cho tất
cả người dùng được ủy quyền, một cách an toàn và nhanh chóng, đồng thời giữ
cho cơ sở dữ liệu nhất quán và hữu ích. Hệ thống quản lý nội dung giúp mọi
người quản lý dữ liệu của chính họ xuất hiện trên một trang web. Có nhiều cách
quản lý dữ liệu hướng đối tượng và phức tạp hơn, một số trong đó đã được trình
bày trong Chương 12.
Phần kết luận
Dữ liệu nên được mô hình hóa để đạt được các mục tiêu kinh doanh. Dữ liệu tốt
phải chính xác và có thể truy cập được để có thể sử dụng cho các hoạt động kinh
doanh. Mô hình dữ liệu quan hệ là hai cách quản lý dữ liệu phổ biến nhất hiện
nay.
1. Ai đã phát minh ra mô hình quan hệ và khi nào?
2. Mô hình quan hệ đánh dấu sự khác biệt rõ ràng với các mô hình cơ sở dữ liệu trước đó như
thế nào?
3. Sơ đồ mối quan hệ thực thể là gì?

4. Một thực thể có thể có những loại thuộc tính nào?
5. Các loại mối quan hệ khác nhau là gì?

D-Business Intelligence and Data Mining

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

D-Business Intelligence and Data Mining

Uploaded by

Copyright:

Available Formats

Translated from English to Vietnamese - www.onlinedoctranslator.

Sự toàn vẹn của kinh doanh

hàng. Và chu trình cứ thế tiếp diễn (Hình 1.1).

kinh doanh thông minh

Caselet: MoneyBall—Khai thác dữ liệu trong thể thao

World Series đầu tiên kể từ năm 1918. (Nguồn: Moneyball 2004)

làm thế nào?

Q2. Những bài học chung từ câu chuyện này là gì?

từ đó dẫn đến hoạt động kinh doanh hiệu quả hơn.

Nhận dạng mẫu

trong số ba phẩm chất trong mô hình.

xứng. cấu trúc và mô hình mà chúng ta đã biết.

có giá trị một cách hiệu quả.

cả các khả năng.

hạn như tên của nhân viên và khách hàng.

Hình 1.2 Chuỗi xử lý dữ liệu

dưới dạng phim và bài hát trong DVD, v.v.

Dữ liệu có thể thuộc các loại khác nhau.

rất nhiều giao dịch có giá trị dữ liệu mỗi giây.

Cơ sở dữ liệu giao dịch phim

2 Tháng năm 2013 Cuốn theo chiều gió Hoa Kỳ $15

3 Tháng 6 năm 2013 Monty Python Ấn Độ $9

4 Tháng 6 năm 2013 Monty Python thống nhất $12

5 Tháng 7 năm 2013 ma trận Hoa Kỳ $12

6 Tháng 7 năm 2013 Monty Python Hoa Kỳ $12

số 8 Tháng 8 năm 2013 ma trận Hoa Kỳ $12

9 tháng 9 năm 2013 ma trận Ấn Độ $12

10 tháng 9 năm 2013 Monty Python Hoa Kỳ $9

11 tháng 9 năm 2013 Cuốn theo chiều gió Hoa Kỳ $15

12 tháng 9 năm 2013 Monty Python Ấn Độ $9

13 tháng 11 năm 2013 Cuốn theo chiều gió Hoa Kỳ $15

14 tháng 12 năm 2013 Monty Python Hoa Kỳ $9

Kho dữ liệu doanh thu phim

Khai thác dữ liệu

Bảng 1.1 So sánh hệ thống cơ sở dữ liệu với hệ thống kho dữ liệu

thông qua các giao diện Kết nối Cơ

Doanh số bán phim theo quý—Bảng chéo

quý 2 $15 0 $30 $45

Tổng doanh thu $60 $36 $78 $174

sản phẩm, chẳng hạn như:

lý kho các bộ phim khác nhau.

1. Địa lý bán chạy nhất là gì?—Hoa Kỳ

quý thứ ba.

thống một cách đầy đủ.

Trực quan hóa dữ liệu

Hình 1.3 Bảng điều khiển mẫu

Hình 1.4 Trực quan hóa dữ liệu mẫu

Tổ chức của cuốn sách

nên được sử dụng nếu cần thiết.

câu hỏi ôn tập

1. Mô tả chu trình kinh doanh thông minh và khai thác dữ liệu.

5. Bảng điều khiển là gì? Nó giúp ích như thế nào?

là phần bao gồm ba chủ đề cấp cao quan trọng.

nhiều ngành công nghiệp.

Chương 3 sẽ mô tả các hệ thống kho dữ liệu, cách tạo và

nên để khai thác dữ liệu hiệu quả.

kinh doanh thông minh

những dự án kinh doanh có lãi.

Caselet: Khan Academy—BI trong giáo dục

cần sự giúp đỡ nhất định. (Nguồn: KhanAcademy.org)

nghiệm học tập của học sinh?

BI cho các quyết định tốt hơn

Các loại quyết định

dụng chính của kỹ thuật khai phá dữ liệu.