You are on page 1of 44

CHÀO MỪNG

THẦY VÀ CÁC
BẠN ĐẾN VỚI BÀI
PHÂN TÍCH DỮ LIỆU XU
HƯỚNG TOÀN CẦU VỀ RỐI
LOẠN SỨC KHỎE TÂM THẦN

CÔNG NGHỆ DỮ LIỆU LỚN


Giảng viên hướng dẫn : Ths. Lê Quang Thiện
NHÓM 7:
STT HỌ VÀ TÊN MSSV

1
NGUYỄN NGỌC TÚ 0950080079

2
HUỲNH TẤN ĐẠT 0950080091
NỘI DUNG:

1 TỔNG QUAN 3 PHÂN TÍCH VÀ TRỰC


QUAN HÓA DỮ LIỆU

2 MÔ TẢ MÔ HÌNH
PHÂN LỚP DỮ LIỆU 4 KẾT LUẬN
1 TỔNG QUAN
1.1.Tổng quan về bigdata
Định nghĩa:
Big Data là các tập dữ liệu có khối lượng lớn
và phức tạp. Độ lớn đến mức các phần mềm
xử lý dữ liệu truyền thống không có khả năng
thu thập, quản lý và xử lý dữ liệu trong một
khoảng thời gian hợp lý.
 Tính chất bigdata
Big Data là bao gồm 5 tính chất
như sau:
Một số ứng dụng tiêu biểu của bigdata

Trong thực tế, ứng dụng


Big Data (Dữ liệu lớn) vào nhiều
lĩnh vực, giúp doanh nghiệp ở mọi
quy mô tạo nên biến chuyển ấn
tượng, gia tăng tính hiệu quả, năng
suất và lợi thế cạnh tranh so với đối
thủ trong kỷ nguyên chuyển đổi số.
Ứng dụng big data lĩnh vực ngân hàng:

Big Data đã và đang được ứng dụng


hiệu quả với các hoạt động: từ thu
tiền mặt đến quản lý tài chính. Từ
đó, giúp giảm bớt rắc rối của khách
hàng và gia tăng doanh thu cho các
ngân hàng.
Ứng dụng của big data trong Y tế :

Với Big Data, người dùng có thể


xác định phương hướng điều trị, cải
thiện quá trình chăm sóc sức khỏe,
giảm lãng phí tiền bạc và thời gian.
 Ứng dụng của big data trong thương mại điện tử

Big Data có thể tạo lợi thế cạnh


tranh cho doanh nghiệp bằng cách cung
cấp thông tin chuyên sâu và các bản báo
cáo phân tích xu hướng tiêu dùng.
Ứng dụng Big Data vào Giáo dục

Big Data tạo ra các


phương pháp tiếp cận
dựa trên dữ liệu để dạy
học sinh.
 Ứng dụng big data trong Digital
Marketing

Digital Marketing là chìa khóa để


doanh nghiệp tiếp cận gần nhất với
khách hàng. Quan trọng, với Digital
Marketing, tất cả các doanh nghiệp ở mọi
quy mô lớn nhỏ... đều có thể tiến hành
các hoạt động quảng cáo tiếp thị trên các
nền tảng truyền thông xã hội.. 
1.2.Tổng quan về python và phần mềm google colab trong
phân tích dữ liệu
 PYTHON:
Python là một ngôn ngữ lập trình được sử
dụng rộng rãi trong các ứng dụng web, phát
triển phần mềm, khoa học dữ liệu và máy học
(ML). Các nhà phát triển sử dụng Python vì
nó hiệu quả, dễ học và có thể chạy trên nhiều
nền tảng khác nhau. Phần mềm Python được
tải xuống miễn phí, tích hợp tốt với tất cả các
loại hệ thống và tăng tốc độ phát triển.
Phần mềm google colab:

Colaboratory hay còn gọi là Google


Colab, là một sản phẩm từ Google
Research, nó cho phép thực thi Python
trên nền tảng đám mây, đặc biệt phù
hợp với Data analysis, machine learning
và giáo dục
2 MÔ TẢ MÔ HÌNH PHÂN
LỚP DỮ LIỆU
2.1. Phương pháp phân lớp dữ liệu:

Ngày nay phân lớp dữ liệu (classification) là một trong


những hướng nghiên cứu chính của khai phá dữ liệu. Thực tế
đặt ra nhu cầu là từ một cơ sở dữ liệu với nhiều thông tin ẩn
con người có thể trích rút ra các quyết định nghiệp vụ thông
minh. Phân lớp và dự đoán là hai dạng của phân tích dữ liệu
nhằm trích rút ra một mô hình mô tả các lớp dữ liệu quan
trọng hay dự đoán xu hướng dữ liệu tương lai. Phân lớp dự
đoán giá trị của những nhãn xác định (categorical label) hay
những giá trị rời rạc (discrete value), có nghĩa là phân lớp
thao tác với những đối tượng dữ liệu mà có bộ giá trị là biết
trước
2.2. Các mô hình phân lớp dữ liệu
Các thuật toán phân lớp dữ liệu thông dụng nhất:
- Phân lớp với cây quyết định (decision tree):

Cây quyết định (DECISION TREE) là sơ


đồ trong phân tích tài chính thể hiện mối
tương tác của những tỷ số tài chính, và một tỷ
số ảnh hưởng đến tỷ số khác như thế nào, cho
phép nhà phân tích tài chính hoặc người kiểm
tra ngân hàng, xem xét mối quan hệ nguyên
nhân và kết quả trong những tỷ số khác nhau. 
- Phân lớp với Naïve Bayesian:
Naive Bayes là một thuật toán phân lớp
được mô hình hoá dựa trên định lý Bayes
trong xác suất thống kê:
2.3. Quá trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm hai bước :
- Bước thứ nhất (learning)
Quá trình học nhằm xây dựng một mô
hình mô tả một tập các lớp dữ liệu hay
các khái niệm định trước. Đầu vào của
quá trình này là một tập dữ liệu có cấu
trúc được mô tả bằng các thuộc tính và
được tạo ra từ tập các bộ giá trị của các
thuộc tính đó.
- Bước thứ hai (classification)
Bước thứ hai dùng mô hình đã xây
dựng ở bước trước để phân lớp dữ
liệu mới. Trước tiên độ chính xác
mang tính chất dự đoán của mô
hình phân lớp vừa tạo ra được ước
lượng.
2.4. Tính hiệu quả của mô hình phân lớp dữ liệu
 Phân lớp với cây quyết định:
Cây quyết định là một thuật toán đơn giản và phổ biến. Thuật toán này được sử
dụng rộng rãi bới những lợi ích của nó:
 Mô hình sinh ra các quy tắc dễ hiểu cho người đọc, tạo ra bộ luật với mỗi
nhánh lá là một luật của cây.
 Dữ liệu đầu vào có thể là là dữ liệu missing, không cần chuẩn hóa hoặc tạo
biến giả
 Có thể xác thực mô hình bằng cách sử dụng các kiểm tra thống kê
 Có khả năng là việc với dữ liệu lớn
Phân lớp với Naïve Bayesian:
Mô hình Naive Bayes là mô hình phân lớp đơn giản dễ cài đặt, có
tốc độ xử lý nhanh. Tuy nhiên có nhược điểm lớn là yêu cầu các
đặc trưng đầu vào phải độc lập, mà điều này khó xảy ra trong
thực tế làm giảm chất lượng của mô hình. Thuật toán này thường
được sử dụng trong phân tích sắc thái, lọc thư rác,
recommendation systems, ...
PHÂN TÍCH VÀ TRỰC QUAN
3 HOÁ DỮ LIỆU
3.1. Tổng quan về dữ liệu
3.1.1. Nguồn gốc dữ liệu :

Bộ dữ liệu này chứa dữ liệu thông tin từ các quốc gia trên toàn cầu về tỷ lệ rối
loạn sức khỏe tâm thần bao gồm tâm thần phân liệt, rối loạn lưỡng cực, rối loạn
ăn uống, rối loạn lo âu, rối loạn sử dụng ma túy, trầm cảm và rối loạn sử dụng
rượu. Bằng cách cung cấp dữ liệu này ở định dạng dễ hình dung, bạn có thể hiểu
rõ hơn về cách những vấn đề này ảnh hưởng đến cuộc sống; cho phép hiểu sâu
hơn về các điều kiện này và các tác động. Data được lấy từ trang : Kaggle.com
3.1.2. Cấu trúc dữ liệu:

Dữ liệu được lưu dưới dạng file .csv gồm 9648


dòng và 13 cột
Tên trường dữ liệu Kiểu dữ liệu
Entity Thực thể (tên quốc gia hoặc khu object
vực)
CODE Mã (mã của quốc gia hoặc khu vực) object
YEAR NĂM object
Schizophrenia (%) TÂM THẦN PHÂN LIỆT object
Bipolar disorder (%) RỐI LOẠN LƯỠNG CỤC object
Eating disorders RỐI LOẠN ĂN UỐNG object
(%)
Anxiety disorders RỐI LOẠN LO ÂU float64
(%)
Drug use disorders RỐI LOẠN SỮ DỤNG MA TÚY float64
(%)
Depression (%) TRẦM CẢM float64
Alcohol use RỐI LOẠN SỮ DỤNG RƯỢU float64
disorders (%)
3.2. Xử lí dữ liệu:
3.2.1. Khai báo thư viện và upload dữ liệu

from google.colab import files
 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
 
print("Chọn file data")
uploaded = files.upload()
 
df = pd.read_csv(input("Nhap 
ten file vua upload "))
print(df)
 
3.2.2. Kiểm tra dòng cột dữ liệu rỗng:

df.info()
print('----'*15)
df.isnull().sum()
 

 Có 9648 dòng và 13 cột , không có giá trị null


3.2.3. Đổi kiểu dữ liệu object thành datetime và xóa
những data trùng:
df['InvoiceDate'] = pd.to_datetime(df[‘
InvoiceDate’])
df.drop_duplicates(inplace = True)
print(df)

 Sau khi thực hiện xóa dữ liệu trùng thì


dường như data không có dữ liệu trung
vẫn là 9648 dòng
3.2. Phân tích và trực quan hóa dữ liệu :
Thêm cột năm và tháng :
df['Year'] = df.InvoiceDate
.
dt.year
df['Month'] = df.InvoiceDat
e
.dt.month
print(df)
print('-----'*30)
print(set(df['Month']))
print(set(df['Year']))
 
 Sau khi thêm tháng và năm thì dữ
liệu thành 15 cột
 

Nhóm DataFarme dựa trên City và tính tổng doanh thu của mỗi nhóm:
 Có thể thấy thì thành phố có doanh thu cao nhất là Charlestron : 39974797 và
thấp nhất là thành phố Omaha: 5929038
Sử dụng trực quan hóa dữ liệu để vẽ
biểu đồ doanh thu:
Tìm tháng có lợi nhuận cao nhất:
Thực hiện nhóm tháng và năm để tính lợi nhuận
 Ta có thể thấy là lợi nhuận cao nhất
Năm 2020:
o Tháng 4 có lợi nhuận cao nhất là
9301302
o Tháng 6 có lợi nhuận thấp nhất là
2292728
Năm 2021:
o Tháng 7 có lợi nhuận cao nhất là
29137256
o Tháng 3 có lợi nhuận thấp nhất là
14577799
 Tìm tháng có lợi nhuận trung bình cao nhất trong năm :
Ta thấy tháng có lợi nhuận trung bình cao nhất là
tháng 8 : 17225734.5
 Nhận xét: Qua việc phân dữ
liệu ở trên cho thấy được sự
phát triển mạnh mẽ của
thương hiệu giày Adidas với
lương doanh thu về cực
khủng
 
4 KẾT LUẬN
4.1. Những công việc đã thực hiện :

4.1.1. Tóm tắt:


Thời đại công nghệ đang và sẽ phát triển đay la su hướng thòi đại
công nghẹ đã ăn sâu vào tất cả các ngành nghề thì việc thu thập dữ liệu
và lưu trữ dữ liệu lớn không thể thiếu trong phương hướng phát
triển .Việc lưu trữ và sữ lý dữ liệu lớn là công việc hết sức quan trọng và
cũng là một lợi thế để phát triển . Bài báo cáo đề cập đến tổng quan về
công nghệ dữ liệu lớn cũng như ngôn ngữ lập trình Python và phần mềm
Google Colab, một số mô hình, thuật toán trong phân tích dữ liệu và
thực hiện phân tích dữ liệu Xu hướng toàn cầu về rối loạn sức khỏe tâm
thần .
4.1.2. Kết quả đạt được:

Có kiến thức về phân tích dữ liệu cũng như hiểu rõ hơn về ngôn
ngữ python các mô hình phân lớp dữ liệu. Cũng như hiểu rõ về việc
xem xét dữ liệu thực hiện các thao tác phân tích một cách rành
mạch . Biết thêm được các loại bệnh tâm thần và tác hại của chúng
thong qua số liệu nhìn ro vấn đề ngày cang nghiêm trọng của dành
cho cả nhóm em bài học về sức khỏe tâm lý .
4.2. Hướng phát triển và kiến nghị :
4.2.1. Hướng phát triển:
Qua bài thực hành big data nay của chúng em, em đã học được nhiều
hơn về big data và pypon.Kiến thức về Big data và pypon là kiến thức
quan trọng những kiến thức này là hành trangcho em trong con dường
tìm hiểu vè dữ liệu . Còn nhiều thứ hon để chúng ta tìm hiểu và cải
tiếng, chúng ta phải biết trao dồi kiến thức k ngừng để ngày cảm giúp
công nghệ chăm sốc sức khỏe taam thần này phat triển tốt hơn phực vụ
nhu cầu khám chữa bệnh của người dân.
4.2.2. Kiến Nghị:
Em mong mọi người có được nhiều cơ họi hợp tác nhóm để trao đổi về big
data và pypon cùng nhau phát triển kiến thức và kinh nghiệm hợp tác nhóm.
THANK YOU

You might also like