Professional Documents
Culture Documents
Trong quá trình xã hội đang thay đổi để ngày càng phát triển và không ngừng đi lên đã
tạo ra một mạng lưới hệ thống thông tin phức tạp mang đến cho con người chúng ta vô
số những lợi ích. Nó góp phần đánh giá, nghiên cứu thị trường cũng như xây dựng
định hướng phát triển chiến lược các dự án của công ty. Mang là nhiều nguồn lực cũng
như lợi ích giúp nền kinh tế phát triển.
Và trong những năm gần đây, Data Science(Khoa học dữ liệu) trở thành một ngành
nghề quan trọng liên quan mật thiết đến mọi ngành công nghiệp khác trong xã hội.
Một doanh nghiệp khi mở ra, nếu muốn nắm bắt được thị trường và thị hiếu của khách
hàng phải biết phân tích nhưng thông tin cần thiết để tối ưu hóa các quyết định đưa ra.
Khoa học dữ liệu có thể chuyển đổi những thông tin giá trị thị trường để tạo ra các giá
dịch vụ và nhận ra xu thế thị trường.
Để nắm rõ hơn về vấn đề phân tích dưc liệu dựa trên khoa học, thì nhóm em đã tiến
hành làm đồ án phân tích cụ thể bộ dữ liệu Online Shoppers Purchasing Intention
thông qua công cụ Orange để có cái nhìn tổng quan hơn và nắm bắt được thị hiếu của
người tiêu dùng và nhờ vào những số liệu đó để có thể vạch ra được chiến lược giúp
doanh nghiệp phát triển.
Trong đồ án này, chương đầu tiên nhóm em sẽ trình bày giới thiệu tổng quan về Khoa
học dữ liệu và đề tài nghiên cứu của nhóm. Ở chương 2, nhóm em sẽ trình bày thêm về
tổng quan về chương trình sử dụng và các phương pháp sử dụng cho đồ án lần này. Và
để nắm rõ hơn các kiến thức ở chương 2 thì ở chương kế tiếp nhóm em đã Ứng dụng
các PP vào bài toán thực tế. Cuối cùng là đánh giá kết quả của mô hình cũng như đưa
ra kết luận và định hướng phát triển.
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ
TÀI
1.1 Giới thiệu về KHDL
1.1.1 Dữ liệu
Dữ liệu là tập hợp các các thông tin về mặt số liệu, hình ảnh hay ngôn ngữ được tạo ra
với mục đích nhằm đo lường, quan sát hay chỉ là để mô tả chi tiết hơn về sự vật, hiện
tượng đó giúp con người nắm rõ và hiểu biết hơn về chúng. Trong thời đại kỹ thuật số,
sự phát triển nhanh chóng của khoa học-công nghệ hiện đại đặc biệt về mảng điện
thoại thông minh đã đưa các văn bản, video, âm thanh trở thành dữ liệu cùng với nhật
kí trang web.
Big data là tập hợp một loạt các dữ liệu có khối lượng khổng lồ trên đủ mọi loại lĩnh
vực được biến đồi một cách nhanh chóng mà không một công cụ xử lí dữ liệu truyền
thống nào có thể nắm bắt cũng như xử lí một lượng công việc như thế cả.
Nhưng nhờ sợ bùng nổ và phát triển vượt bậc trong thời đại công nghệ thông tin như
hiện nay thì nhờ đó mà việc thu thập thông tin trở nên dễ dàng và tiết kiệm được thời
gian hơn trước đây rất nhiều. Tuy nhiên, bên cạnh đó cũng đem them vô số hệ lụy,
điển hình là việc thu nhập quá nhiều thông tin mà không loại trừ khiến tình trạng trùng
lặp và khối lượng thông tin là vô cùng lớn .
Thế nên , để có thể tận dụng và khai thác được hợp lí nguồn tài nguyên này chúng ta
cần có một công cụ tiên tiến giúp ta phân loại, chọn lọc và phân tích lượng lớn thông
tin một cách rõ ràng hơn giups ta có cái nhìn bao quát hơn, nhằm am hiểu mong muốn
của khách hàng và đưa ra quyết định chính xác và tối ưu hóa lợi nhuận của doanh
nghiệp.