You are on page 1of 5

LỜI MỞ ĐẦU

Trong quá trình xã hội đang thay đổi để ngày càng phát triển và không ngừng đi lên đã
tạo ra một mạng lưới hệ thống thông tin phức tạp mang đến cho con người chúng ta vô
số những lợi ích. Nó góp phần đánh giá, nghiên cứu thị trường cũng như xây dựng
định hướng phát triển chiến lược các dự án của công ty. Mang là nhiều nguồn lực cũng
như lợi ích giúp nền kinh tế phát triển.
Và trong những năm gần đây, Data Science(Khoa học dữ liệu) trở thành một ngành
nghề quan trọng liên quan mật thiết đến mọi ngành công nghiệp khác trong xã hội.
Một doanh nghiệp khi mở ra, nếu muốn nắm bắt được thị trường và thị hiếu của khách
hàng phải biết phân tích nhưng thông tin cần thiết để tối ưu hóa các quyết định đưa ra.
Khoa học dữ liệu có thể chuyển đổi những thông tin giá trị thị trường để tạo ra các giá
dịch vụ và nhận ra xu thế thị trường.
Để nắm rõ hơn về vấn đề phân tích dưc liệu dựa trên khoa học, thì nhóm em đã tiến
hành làm đồ án phân tích cụ thể bộ dữ liệu Online Shoppers Purchasing Intention
thông qua công cụ Orange để có cái nhìn tổng quan hơn và nắm bắt được thị hiếu của
người tiêu dùng và nhờ vào những số liệu đó để có thể vạch ra được chiến lược giúp
doanh nghiệp phát triển.
Trong đồ án này, chương đầu tiên nhóm em sẽ trình bày giới thiệu tổng quan về Khoa
học dữ liệu và đề tài nghiên cứu của nhóm. Ở chương 2, nhóm em sẽ trình bày thêm về
tổng quan về chương trình sử dụng và các phương pháp sử dụng cho đồ án lần này. Và
để nắm rõ hơn các kiến thức ở chương 2 thì ở chương kế tiếp nhóm em đã Ứng dụng
các PP vào bài toán thực tế. Cuối cùng là đánh giá kết quả của mô hình cũng như đưa
ra kết luận và định hướng phát triển.
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ
TÀI
1.1 Giới thiệu về KHDL
1.1.1 Dữ liệu
Dữ liệu là tập hợp các các thông tin về mặt số liệu, hình ảnh hay ngôn ngữ được tạo ra
với mục đích nhằm đo lường, quan sát hay chỉ là để mô tả chi tiết hơn về sự vật, hiện
tượng đó giúp con người nắm rõ và hiểu biết hơn về chúng. Trong thời đại kỹ thuật số,
sự phát triển nhanh chóng của khoa học-công nghệ hiện đại đặc biệt về mảng điện
thoại thông minh đã đưa các văn bản, video, âm thanh trở thành dữ liệu cùng với nhật
kí trang web.
Big data là tập hợp một loạt các dữ liệu có khối lượng khổng lồ trên đủ mọi loại lĩnh
vực được biến đồi một cách nhanh chóng mà không một công cụ xử lí dữ liệu truyền
thống nào có thể nắm bắt cũng như xử lí một lượng công việc như thế cả.
Nhưng nhờ sợ bùng nổ và phát triển vượt bậc trong thời đại công nghệ thông tin như
hiện nay thì nhờ đó mà việc thu thập thông tin trở nên dễ dàng và tiết kiệm được thời
gian hơn trước đây rất nhiều. Tuy nhiên, bên cạnh đó cũng đem them vô số hệ lụy,
điển hình là việc thu nhập quá nhiều thông tin mà không loại trừ khiến tình trạng trùng
lặp và khối lượng thông tin là vô cùng lớn .
Thế nên , để có thể tận dụng và khai thác được hợp lí nguồn tài nguyên này chúng ta
cần có một công cụ tiên tiến giúp ta phân loại, chọn lọc và phân tích lượng lớn thông
tin một cách rõ ràng hơn giups ta có cái nhìn bao quát hơn, nhằm am hiểu mong muốn
của khách hàng và đưa ra quyết định chính xác và tối ưu hóa lợi nhuận của doanh
nghiệp.

 Có 2 loại dữ liệu chính là Structured VS. Unstructured data:


 Structured data (Dữ liệu có cấu trúc)
 Thường được gọi là dữ liệu định lượng
 Là dạng dữ liệu và số liệu khách quan
 Thường ở dạng số hoặc chữ
 Được lưu trữ trong Excel, SQL, Google Sheet
 Dễ dàng thu thập, truy xuất, lưu trữ và sắp xếp
 Dễ đang trích xuất thông tin
 Unstructured data (Dữ liệu không có cấu trúc)
 Thường được gọi là dữ liệu định tính
 Nó có thế là các ý kiến chủ quan và đánh giá thương hiệu của bạn dưới dạng
văn bản
 Chỉ ở dưới dạng văn bản
 Có thể được lưu trữ trong các tài liệu Word, Elasticsearch hoặc Solr, nơi có thể
thực hiện các truy vấn tìm kiếm từ và cụm từ.
 Khó có thể thu thập, gây khó khăn cho việc xuất, lưu trữ và sắp xếp trong cơ sở
dữ liệu thông thường
 Không thể kiểm tra các phương pháp và công cụ phân tích dữ liệu
1.1.2 Tổng quan về KHDL
Với mục tiêu tìm ra phương án tốt nhất để tối ưu được lợi nhuận cho doanh nghiệp và
để thực hiện điều đó, ta rất cần sàn lọc nhưng thông tin hữu ích giữa một số lượng
thông tin khổng lồ và cũng phải loại bỏ những thông tin trùng lặp, cong người sẽ mất
rất lâu thời gian để có thể thực hiện điều đó, vậy đâu là công cụ giúp chúng ta thực
hiện điều này? Và định nghĩa Khoa học dữ liệu cũng xuất hiện. Vậy Khoa học dữ liệu
là gì?
Khoa học dữ liệu là khoa học về việc quản trị và phân tích dữ liệu, trích xuất các giá trị
từ dữ liệu để tìm ra các hiểu biết, các tri thức hành động, các quyết định dẫn dắt hành
động.
Khoa học dữ liệu là lĩnh vực phân tích và nghiên cứu chuyên sâu những thông tin về
lĩnh vực nào đó nhằm phục vụ cho lĩnh vực hoạt động kinh doanh của doanh nghiệp.
 Khoa học dữ liệu gồm ba phần chính:
 Tạo ra và quản trị dữ liệu
 Phân tích dữ liệu
 Chuyển kết quả phân tích thành giá trị của hành động.
 Việc phân tích và dùng dữ liệu lại dựa vào ba nguồn tri thức:
 Toán học (thống kê toán học)
 Công nghệ thông tin (máy học)
 Tri thức của lĩnh vực ứng dụng cụ thể.
Bằng một loạt các hành động như quan sát, đưa ra câu hỏi, dẫn đến các giả thuyết, ứng
dụng vào đời sống nhằm phân tích được kết quả và từ đó giúp các nhà khoa học dữ
liệu trả lời được nhiều câu hỏi, nắm rõ được cách thức hoạt động và từ đó rút ra được
kết quả và phương pháp giúp doanh nghiệp giảm thiểu chí phí, gia tăng năng lực làm
việc, tối ưu được doanh thu, tăng lợi thế cạnh tranh với các doanh nghiệp khác
 Các lĩnh vực của khoa học dữ liệu:
 Khai thác dữ liệu (Data mining)
 Thống kê (Statistic)
 Học máy (Machine learning)
 Phân tích (Analyze)
 Lập trình (Programming).
Khoa học dũ liệu ngày càng được đề cao trong thời đại ngày này, những vấn đề mà ta
bỏ ra bao nhiêu thời gian, tiền bạc, sức lao động để giải quyết nhưng bây giờ chúng ta
hoàn toán có thể giải quyết nó một cách nhanh chóng, và thậm chí hiệu quả hơn lúc
trước đây rất nhiều. Cũng có thể nói, doanh nghiệp nào càng nắm giữ được nhiều
thông tin cũng như nắm bắt được khoa học dữ liệu thì doanh nghiệp đó càng có thêm
nhiều lợi thế trong thị trường.
1.1.3 Ứng dụng tiêu biểu của KHDL
Khoa học dữ liệu có rất nhiều ứng dụng trong đời sống, không chỉ giúp doanh nghiệp
đưa ra quyết định ảnh hưởng đến kinh tế mà còn đến đời sống nhân dân. Ví dụ như
nhờ vào phương pháp phân tích thói quen tiêu dùng cá nhân, mà các ứng dụng mua
sắm trực tuyến như lazada, shoppe, tiki… có thể đề xuất những mặt hàng mà bạn
thường xuyên tìm kiếm, mua sắm để rút ngắn thời gian hơn. Hay các ứng dụng mạng
xã hội như Facebook, TikTok…, dựa vào lượt thích, tym hay bình luận của người sử
dụng thì nó phỏng đoán được sở thích cá nhân của bạn à từ đó đề xuất các bài viết hay
video trở nên phổ biến hơn.
1.2 Giới thiệu đề tài
1.2.1 Lý do chọn đề tài
Trong giai đoạn năm cuối năm 2019, cả thế giới xuất hiện một chủng loại virus mới
mang tên Covid-19, và đại dịch này khiến hầu hết các quốc gia rơi vào cảnh khốn đốn
và Việt Nam cũng không ngoại lệ. Để hạn chế để dịch lây lan một cách nhanh chóng,
thì Chính phủ đã có các chỉ thị giãn cách xã hội khiến cho việc đi lại cũng như mua
sắm của người dân cũng bị ảnh hưởng. Chúng ta không thể mua sắm trực tiếp như lúc
trước nữa. Mà kể từ đó khái niệm “Mua hàng trực tuyến” cũng trở nên phổ biến hơn,
cụm từ này đã xuất hiện cách đây khá lâu nhưng không được quá nhiều người ưa
chuộng nhưng trong thời gian dịch bệnh bùng phát, thì đây là điều mà hầu hết tất cả
mọi người đều thực hiện. Mặc dù đến thời điểm hiện tại, dịch bệnh đã được khống chế
cũng không có chỉ thị nào hạn chế việc đi lại của người dân nữa nhưng việc “Mua sắm
trực tuyến” cũng đã trở thành khái niệm quen thuộc. Với mong muốn có cái nhìn tổng
quát hơn về thị hiếu và thói quen của người sử dụng , dựa vào số liệu đó có thể phân
tích thông tin dữ liệu người tiêu dùng để đưa ra các phương án giúp doanh nghiệp phát
triển hơn.
1.2.2 Khái niệm purchase intent, "Online shoppers purchasing intention"
Online shoppers là quá trình người tiêu dùng mua hàng hóa, dịch vụ của một người
bán trong thời gian xác định thông qua Internet mà không có một dịch vụ trung gian
nào. Mua sắm trực tuyến cũng là cách giúp người tiêu dùng có thể liệt kê hàng hóa và
dịch vụ cùng với hình ảnh kèm theo được hiển thị từ xa thông qua các phương tiện
điện tử. Khi sản phẩm hoặc dịch vụ được chọn, người mua sắm sẽ thanh toán bằng
cách chuyển khoản trực tiếp cho người bán hàng hoặc thanh toán khi đã nhận được
hàng.
Online shoppers purchasing intention là ý định mua hàng của những người mua sắm
trực tuyến
Do vậy các doanh nghiệp cần phải nghiên cứu, phân tích và nắm rõ được thị hiếu và
thói quen của người tiêu dùng để đưa ra các phương án phát triển một cách phù hợp để
cải thiện doanh thu cũng như thu hút nhiều khách hàng hơn nữa.

1.2.3 Mục tiêu nghiên cứu


1. Nghiên cứu thói quen mua sắm của khách hàng
2. Nghiên cứu độ hài lòng của khách hàng
2. Nghiên cứu những yếu tố tác động đến sự ra quyết định của khách hàng
3.Dự báo các tiềm năng phát triển, đẩy mạnh công cụ số
TÀI LIỆU THAM KHẢO
(2019, 11 25). Retrieved from Abiz: https://abiz.edu.vn/khoa-hoc-du-lieu-data-science-la-gi/

(2022, 12 13). Retrieved from Toploigiai: https://toploigiai.vn/tu-du-lieu-cac-mon-hoc-cua-hoc-sinh-


co-the-rut-ra-nhung-thong-tin-gi-mo-ta-so-bo-xu-li-de-rut-ra-mot-thong-tin-trong-so-do

Phạm, V. (2018, 10 15). Retrieved from bizfly cloud: https://bizflycloud.vn/tin-tuc/data-science-la-gi-


uu-diem-cua-data-science-20181015095724407.htm?gclid=EAIaIQobChMIi-Tilq34-
wIVkX4rCh1wcg3oEAAYASAAEgJzhfD_BwE

You might also like