You are on page 1of 15

MAS291

Tutor : Thầy Nguyễn Việt Anh


Nhóm 2 - Lớp SE1842
Doãn Quốc Bảo Đặng Đình Minh
Nguyễn Quang Minh Nguyễn Đình Nghĩa
Nguyễn Tiến Đạt Hoàng Tuấn Long

Phần I : Giới thiệu


1, Dân số quan tâm
- Dân số bao gồm các công ty thuộc lĩnh vực công nghệ trên toàn thế
giới
- Các tham số được quan tâm bao gồm :
+ Trung bình số vốn tài trợ.
+ Sự khác nhau của trung bình số vốn tài trợ theo vùng miền, lĩnh
vực.

2, Bài toán :
Bài toán 1 : Ước lượng khoảng tin cậy

Ước lượng số tiền trung bình được tài trợ cho


các công ty công nghệ trên toàn thế giới

Bài toán 2 : Kiểm định giả thuyết

Kiểm định sự khác nhau về số tiền tài trợ cho


các công ty công nghệ của Mỹ với các nước
Châu Âu

Bài toán 3 : Hồi quy tuyến tính

Tìm mối liên hệ giữa lĩnh vực và số tiền tài trợ


Phần II : Thu thập dữ liệu mẫu
1, Nguồn dữ liệu sử dụng :

● Dữ liệu của dự án được lấy từ trang web https://www.kaggle.com/


● Link dẫn tới số liệu tham khảo:
● https://www.kaggle.com/datasets/shivamb/tech-company-fundings-
2020-onwards/data

2, Ghi chú về dữ liệu :

● Bộ dữ liệu này chứa thông tin mới nhất về việc hỗ trợ tài chính cho
các công ty công nghệ trên toàn cầu.
● Bộ dữ liệu này có thể được sử dụng để xác định các xu hướng gần
đây trong các công ty công nghệ và không gian đầu tư.

3 , Thông tin , phân tích chiết xuất từ dữ liệu :


- Mọi phân tích , kết luận và dữ liệu tạo dựng cụ thể được nhóm tìm
hiểu và đưa ra trên :
https://docs.google.com/spreadsheets/d/1Xc_g9F5BOtZoPNZvkWB
CECnIQS3HPZNQqhaxyJvXCwc/edit#gid=1798335819
Phần III: Mô tả dữ liệu

● Bộ dữ liệu này chứa thông tin mới nhất về việc hỗ trợ tài chính cho
các công ty công nghệ trên toàn cầu.
● Bộ dữ liệu chứa thông tin từ tháng 1 năm 2020 đến tháng 9 năm
2021 và chứa thông tin về hơn 3500 công ty công nghệ đã nhận
được hỗ trợ tài chính.
● Bảng excel bao gồm các thuộc tính: index (số thứ tự), company (tên
công ty), website của họ, quốc gia công ty đặt trụ sở (region),
continent (khu vực), lĩnh vực (vertical), số tiền được cấp làm vốn/tài
trợ với đơn vị USD (funding Amount), bước và ngày xin tài trợ, tần
suất lĩnh vực, trung bình số tiền được tài trợ dựa trên lĩnh vực
(nghìn đô)
● Bảng chi tiết mô tả dữ liệu
- Về Funding amount

Funding Amount
Count 3.575,00
Mean 57.560.141,00
Standard deviation 297.835.889,81
Min 40.000,00
25% 5.000.000,00
50% 15.496.301,50
75% 50.000.000,00
Max 16.600.000.000,00
- Về Company, Region,...
Company Region Continent Vertical Funding Stage
count 3.575,00 3.575,00 3.575,00 3.575,00 3.575,00
unique 3.224,00 72,00 6,00 143,00 21,00

-
Phần IV : Tính toán

Bài toán 1 : Ước lượng khoảng tin cậy

Ước lượng số tiền trung bình được tài trợ cho


các công ty công nghệ trên toàn thế giới
a, Tính trung bình (mean) của mẫu :
- Sử dụng công thức :
𝑇ổ𝑛𝑔 𝑐á𝑐 𝑔𝑖á 𝑡𝑟ị
𝑥 = 𝑀𝑒𝑎𝑛 = 𝑆ố 𝑙ượ𝑛𝑔 𝑔𝑖á 𝑡𝑟ị
= 57.560.141,00
Trong đó :
● Tổng của tất cả các giá trị của mẫu.
● Số lượng giá trị trong tập dữ liệu.

b, Tính độ lệch chuẩn của mẫu :


- Sử dụng công thức :
𝑛 2
( 𝑥𝑖 − 𝑥 )
2
𝑆 = ∑ 𝑛−1
𝑖=1
● Để tính phương sai , sau đó :
2
𝑆 = 𝑆 = 298.197.613,73
Để nhận được kết quả là độ lệch chuẩn của mẫu.
c, Tính khoảng tin cậy dựa trên ước lượng số tiền trung bình được
tài trợ cho các công ty công nghệ trên toàn thế giới :
a, Tính giá trị ngưỡng (α = 0. 05):
- Sử dụng công thức :
𝑡α = 1,960627964 : cho trường hợp two-tailed
2
; 𝑛−1
hay 𝑡α; 𝑛−1 = 1,645280087 : cho trường hợp one-tailed
Trong đó :
● 𝑛 − 1 : là bậc tự do

b, Tính sai số chuẩn :


- Sử dụng công thức :
𝑆
= 4987307,438
𝑛

Trong đó :
● S : là độ lệch chuẩn của mẫu
● n : là kích thước mẫu

c, Tính biên độ của sai số :


- Sử dụng công thức :
𝑆
𝐸 = 𝑡α × = 9778254,426
2
; 𝑛−1 𝑛

d, Tính khoảng tin cậy :


- Sử dụng công thức :
𝐶𝐼 = 𝑋 ± 𝐸 = ( 47.781.886,57 ; 67.338.395,42 ) - two-tailed
( 49.354.623,39 ; +∞ ) - left-tailed
( -∞ ; 65.765.658,61 ) - right-tailed
Trong đó :
● CI : ( 1 - α ) × 100% : khoảng tin cậy
● 𝑋 : trung bình của mẫu
● 𝐸 : biên độ sai số của mẫu
Bài toán 2 : Kiểm định giả thuyết

Kiểm định sự khác nhau về số tiền tài trợ cho


các công ty công nghệ của Mỹ với các nước
Châu Âu
❖ Dữ liệu đưa ra :
𝐻0 : số tiền trung bình tài trợ cho Mỹ với các nước Châu Âu là như nhau
𝐻1 : số tiền trung bình tài trợ cho Mỹ lớn hơn

Bước 1 :
Giả thuyết đề cập đến sự chênh lệch trong dòng tiền tài trợ cho các
công ty công nghệ tại Mỹ so với các công ty ở các quốc gia còn lại.

one-tailed : → µ > µ
0
Bước 2 : Tìm giá trị ngưỡng (α = 0. 05)

𝑡𝑛1 + 𝑛2; α = 1, 645384175

Bước 3 : Kiểm định ( dựa vào chương 8 )


2 2
Trong trường hợp : giả định σ1 = σ2
- Với lý thuyết giả định như vậy , ta sẽ phải buộc phải sử dụng đến
phương pháp tính độ lệch chuẩn gộp để đưa ra số liệu xấp xỉ.
Qua công thức :

= 1,26783E+16
Trong đó :
● 𝑛1 , 𝑛2 : là các kích thước mẫu

● 𝑆1 , 𝑆2 : là các độ lệch chuẩn của mẫu

● 𝑑𝑓 = 𝑛1 + 𝑛2 − 2 : bậc tự do của mẫu

- Với TH chưa xác định được độ lệch chuẩn ( σ ) của dân số, ta có
công thức như sau :

𝑋1−𝑋2−∆0
𝑇𝑠𝑡𝑎𝑡 = 2 2
= 2, 793018855
𝑆𝑝 𝑆𝑝
𝑛1
+𝑛
2

Trong đó :
● 𝑋1 , 𝑋2 : là các giá trị trung bình của mẫu

● 𝑆𝑝 : là các độ lệch chuẩn gộp giữa các mẫu


- Cuối cùng , so sánh giá trị của 𝑡 với giá trị ngưỡng để đưa ra kết
0
luận cuối cùng : 𝑇𝑠𝑡𝑎𝑡 > 𝑡𝑛1 + 𝑛2; α
⇒ Chấp nhận 𝐻1
⇔ Bác bỏ 𝐻0
Bài toán 3 : Hồi quy tuyến tính

Tìm mối liên hệ giữa lĩnh vực và số tiền tài trợ


❖ Dữ liệu đưa ra :
Dân số : Các nước khắp trên thế giới
𝑋 : Lĩnh vực được tài trợ (đại diện bằng số lượng tài trợ)
𝑌 : Số tiền tài trợ
n = 3566
𝑋 = 226, 24
𝑌 = 57, 560141
2
𝑆𝑥 = 44301, 41904
2
𝑆𝑦 = 88921, 81684
2
𝑆𝑆𝑇 = (𝑛 − 1) × 𝑆𝑦 = 317006277
2
𝑆𝑆𝑅 = 𝑆𝑆𝑇 × 𝑟 = 412370, 1852
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝑅 = 316593906, 8

1, Kiểm định giả thuyết :


𝐻0: X và Y không có mối quan hệ tuyến tính
𝐻1: X và Y có mối quan hệ tuyến tính
α = 0. 05
Bước 1 : Xác định hệ số giữa 𝑌 và 𝑋
𝑟 = Hệ số tương quan
Với : − 1 ≤ 𝑟 ≤ 1

r = -0,03606697327 (Tính bằng excel)


Bước 2 : Kiểm định mối tương quan (phương pháp
ANOVA)
2
(𝑛 − 1) × 𝑟
𝐹𝑠𝑡𝑎𝑡 = 2
= 4, 642184541
1−𝑟

𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎𝑙 = 𝐹1; 𝑛 − 2; α = 3, 844069319

𝐹𝑠𝑡𝑎𝑡 > 𝐹𝑐𝑟𝑖𝑡𝑖𝑐𝑎𝑙 𝑛ê𝑛 𝑏á𝑐 𝑏ỏ 𝐻0


X và Y có mối quan hệ tuyến tính
2, Tìm phương trình hồi quy:
Phương trình hồi quy có dạng: 𝑦 = 𝑏0 + 𝑏1𝑥 + ε
𝑆𝑦
𝑏1 = 𝑟 𝑆 =− 0, 05109813426
𝑥

𝑏0 = 𝑌 − 𝑏1𝑋 = 69, 12048488

Phương trình hồi quy có dạng:


𝑦 = 69, 12048488 − 0, 05109813426𝑥 + ε

3, Bài toán : Kiểm định β1 :


Giả thuyết : 𝐻0 : β1 = 0
𝐻1 : β1 ≠ 0
α = 0. 05
- Tính 𝑇𝑠𝑡𝑎𝑡 với công thức :
𝑏1 − 0
𝑇𝑠𝑡𝑎𝑡 = 𝑆(𝑏1)
= -2,154572937

với :
( )
2
𝑆𝑆𝐸 1 𝑥
● S(𝑏1) = 𝑛−2
× 𝑛
+ 𝑆𝑋𝑋
= 0,02371613111

- Tính giá trị ngưỡng :

±𝑡 α =± 1, 960629827
𝑛 − 2, 2

- So sánh 𝑇𝑠𝑡𝑎𝑡 với giá trị ngưỡng và đưa ra kết luận :

𝑇𝑠𝑡𝑎𝑡 ∉ ( -1, 960629827 ; 1, 960629827 )

⇒ Bác bỏ 𝐻1

4, Bài toán : Kiểm định β :


0

Giả thuyết : 𝐻0 : β0 = 0
𝐻1 : β0 ≠ 0
α = 0. 05
- Tính 𝑇𝑠𝑡𝑎𝑡 với công thức :
𝑏1 − 0
𝑇𝑠𝑡𝑎𝑡 = 𝑆(𝑏0)
= 0,2493794438

với :

( )
2
𝑆𝑆𝐸 1 𝑥
● S(𝑏0) = 𝑛−2
× 𝑛
+ 𝑆𝑋𝑋
= 277,1699376

- Tính giá trị ngưỡng :


±𝑡 α =± 1, 960629827
𝑛 − 2, 2

- So sánh 𝑇𝑠𝑡𝑎𝑡 với giá trị ngưỡng và đưa ra kết luận :

𝑇𝑠𝑡𝑎𝑡 ∈ ( -1, 960629827 ; 1, 960629827 )

⇒ Bác bỏ 𝐻0

Phần V : Lời kết


- Tổng kết kết quả:
+ Số tiền trung bình thế giới tài trợ cho lĩnh vực công nghệ
nằm vào tầm 47 đến 67 triệu đô.
+ Các công ty công nghệ của Mỹ được tài trợ nhiều hơn các
nước châu Âu.
+ Các lĩnh vực công nghệ ít phổ biến được tài trợ nhiều hơn.

- Ý nghĩa dự án:
+ Project được tạo ra để tính toán về số tiền được đầu tư
cho các công ty công nghệ ở trên thế giới, ở nhiều vùng
miền, nhiều khu vực và lĩnh vực khác nhau, để đưa ra được
đánh giá về xu hướng và các lĩnh vực được đầu tư

- Kỹ năng học được:


+ Biết được cách thống kê số liệu khi đã có dữ liệu cho
trước
+ Biết cách sử dụng excel và các hàm để tính các thông số
và các điều kiện kèm theo
+ Áp dụng lí thuyết vào thực tế, mang lại cái nhìn tổng
quan về thống kê một lượng dữ liệu lớn, để biết xu hướng
và quá trình.

You might also like