Professional Documents
Culture Documents
1. BA là gì
● Dùng data (dạng số, hình ảnh, …) để phân tích, từ đó đưa ra hành động
● Một số ứng dụng: Pricing, Customer Segment, Merchandise, Location, …
● BA gồm: phân tích mô tả, phân tích dự báo, phân tích đề xuất (giải bài toán tối ưu)
2. Về data:
● Dataset là 1 phần nhỏ của database
● Số liệu và phân loại data:
○ Metrics (đơn vị đo lường):
Vd đơn vị đo lường thời gian: giờ phút giây; đơn vị đo lường quãng đường: m, km, …
○ Measurement (sự đo lường): hành động đo lường cái gì đó dùng đơn vị đo lường
○ Measures (giá trị đo lường): giá trị đo lường được (vd như đo được khoảng cách từ UEH-A tới UEH-B là 5km
thì 5km là measures, km là metrics; hành động đo khoảng cách là measurements)
● Loại đơn vị đo lường:
○ Rời rạc: đếm được, có thể lường được cái giá trị thấp nhất với giá trị cao nhất, nó có vài loại khác nhau (vd như
số màu của một loại xe hơi)
○ Liên tục: Không được (nó đếm liên tục). Any metrics involving dollars, length, time, volume, or weight, for
example, are continuous
● Measurement scale:
○ Categorical/ Nominal scale (thang đo phân loại/ định danh): Nó là cái vi dụ của đống rời rạc, ngoài ra còn có
như tên, địa chỉ, ….
○ Ordinal (thang đo thứ bậc): ví dụ như Rating a service as poor, average, good, very good, or excellent
○ Interval (thang đo khoảng):
○ Ratio (thang đo tỉ lệ):
Trong SPSS gọi interval với ratio chung là scale, đo lường mấy cái đơn vị đo lường liên tục như dollars,
length, time, volume, or weight
3. Dự báo: dùng phân tích hồi quy, trung bình trượt
4. Break - even analysis:
Bài tập ví dụ:
7. Model Assumptions:
2. Đặc điểm
của trung bình là dễ bị ảnh hưởng bởi số ngoại lai (số chênh lệch nhiều so với những số còn lại).
Trung bình > trung vị -> giá trị ngoại lai rất lớn
6. Empirical Rules - quy tắc ba Sigma: 68% tư liệu quan sát sẽ nằm trong 2 lần độ
lệch chuẩn.
Bài toán chọn cây thước không quá 19-21cm => độ lệch chuẩn phải nhỏ hơn 1 để cả 99.7% nó đều
không quá 19-21cm
7. Chỉ số về khả năng xử lý
● Upper và lower là khoảng bắt buộc phải tuân theo (thường là khách hàng bắt buộc)
● Cp là tỉ số giữa khoảng yêu cầu của khách hàng với khoảng thực tế (khả năng hiện tại).
- Phân biệt CP, CPK, bài toán Manufacturing Measurement
● Giá trị tiêu chuẩn: đo lường khoảng cách của 1 giá trị tới giá trị trung bình bằng thước đo đơn
vị là độ lệch chuẩn (giá trị đó cách bao nhiêu độ lệch chuẩn so với giá trị trung bình).
Kiểm định H0,H1, 1 phía, 2 phía
=> Xét trên 1 trục thì giá trị nào dương nằm bên phải giá trị trung bình, giá trị nào âm thì nằm bên
trái.
Cách làm bằng spss (file demo trên lms):
Chọn Des => Nhớ bấm save nó mới ra Zcar (khoảng cách từ giá trị đó tới mean tính bằng đơn vị s, trong
đó mean là gốc)
● Hệ số của độ lệch:
● Chạy để tìm độ nhọn (file demo cột price): tìm Mean + Median …
Dùng đều được
=> Ứng dụng: Biết được phân bố của mean, median và mode. Bài toán lương nhân viên ngân
hàng.
Chọn Bivariate
Chương 7: Statistical Inference
1. T - test là gì?
1.1. One sample T - test (so sánh với một số liệu cụ thể)
● Giả thiết H0: là giả thiết hiện hữu mang tính chất hiện tại
● Giả thiết H1
Đề bài:
=> File demo: one sample T test
1. Nhóm M: 2. Nhóm U:
N = 3176 N = 3224
Mean = 69,6804 Mean = 69,2723
Std = 79,12361 Std = 78,32925
Bước 4:
Assumption: Equal Variance
Levene's Test:
F = 0,37
Với độ tin cậy p > 0,05 → Chọn Equal variances assumed
Bước 5:
t = 0,207
Với độ tin cậy p > 0,05 → Mean M = Mean U
Không thể bác bỏ H0, bác bỏ H1=> Không có sự chênh lệch nhiều giữa trung bình thu nhập của nhóm
người chưa cưới và đã cưới.
1.3. Paired- sample T - test:
● So sánh 1 nhóm trên 2 category khác nhau xem sự khác biệt giá trị trung bình của tụi nó có ý nghĩa thống kê không
(khác con independent ở trên là 2 nhóm trên 1 category) - tuy nhiên cũng phài có sự tương đồng
● [CHẠY SPSS] Kết quả chạy:
● Chỉ quan tâm đến phần Sig (2 - tailed)
○ Sig (2 - tailed) < 0,05 thì có sự khác biệt có ý nghĩa thống kê
○ Sig (2 - tailed) > 0,05 thì KHÔNG sự khác biệt có ý nghĩa thống kê
○ Mẫu: “This paired-samples t test analysis indicates that for the 105 subjects, the mean
score on the second quiz (M = 7.98) was significantly greater at the p < .01 level (note: p
= .005) than the mean score on the first quiz (M = 7.47)”.
Chọn paired
2. Anova Test:
● Giống T-test nma so sánh từ 2 nhóm trở lên (2 nhóm vẫn được, đây là lí do nó có thể thay thế T-
test)
● [CHẠY SPSS] One - way Anova
○ Tick 3 cái descriptive, homogeneity, welch
○ Bảng Test of Homogeneity of Variances: Chỉ để ý đến dòng Based on Mean, so sánh cái
Sig nó với 0,05 rồi làm theo lưu đồ
○ Mẫu kết luận: “The model has an F-value of 9.963, which yields a p-value of 0.00 (less
than 0.05), suggesting that at least two of the three groups differ significantly with regard
to the mean of overall price/performance satisfaction. (Có sự khác biệt có ý nghĩa thống
kê giữa ít nhất 2 nhóm khách hàng về giá trị trung bình của sự hài lòng về giá.)”
○ Cái này chỉ đưa ra được có ít nhất 2 nhóm có khác nhau không chứ không nói cụ thể là
các nhóm nào, muốn biết nhóm nào thì phải chạy T test từng cặp với nhau
ANALYSIS OF VARIANCE (ANOVA)
Analyze -> Compare Means -> 1 way ANOVA -> Option chọn Descriptive
Bài toán: so sánh income dựa trên sự khác biệt về education status
(LƯU Ý)
ANOVA dùng so sánh means của 2 nhóm trở lên: liệu sự khác biệt giữa 2 nhóm có ý nghĩa thống kê
hay không?
-> Ít nhất sẽ có 1 cặp mean có sự khác biệt
-> Sự khác biệt cụ thể nằm ở: Post-hoc Test
-> Có sự khác biệt = Có sự ảnh hưởng
ANOVA có sự khác biệt thì thường là không tốt với Marketing vì sẽ làm các biến khác giảm ý nghĩa.
Bài toán: liệu có sự khác biệt về thu nhập hộ gia đình của những người đi những loại xe khác nhau hay không => làm giống ở
trên
Chapter 13: Basic Linear Programming
1. KN
- Optimization (tối ưu hoá) là quá trình lựa chọn các giá trị của các biến quyết định
nhằm tối thiểu hoá hoặc tối đa hoá một số lượng quan tâm.
- Optimization models có khả năng ứng dụng rộng rãi trong các hoạt động và chuỗi
cung ứng, tài chính, tiếp thị và các linh vực khác.
=> tập trung tối ưu hóa tuyến tính
2. Vd 1
Lưu ý: có thể kéo từ E6 copy xuống vì hàm changing cells sẽ khum đổi
=> thêm điều kiện changing cells là số nguyên (nếu muốn số giày là từng đôi nguyên)