You are on page 1of 24

Chapter 1: Introduction to Business Analytics

1. BA là gì
● Dùng data (dạng số, hình ảnh, …) để phân tích, từ đó đưa ra hành động
● Một số ứng dụng: Pricing, Customer Segment, Merchandise, Location, …
● BA gồm: phân tích mô tả, phân tích dự báo, phân tích đề xuất (giải bài toán tối ưu)
2. Về data:
● Dataset là 1 phần nhỏ của database
● Số liệu và phân loại data:
○ Metrics (đơn vị đo lường):
Vd đơn vị đo lường thời gian: giờ phút giây; đơn vị đo lường quãng đường: m, km, …
○ Measurement (sự đo lường): hành động đo lường cái gì đó dùng đơn vị đo lường
○ Measures (giá trị đo lường): giá trị đo lường được (vd như đo được khoảng cách từ UEH-A tới UEH-B là 5km
thì 5km là measures, km là metrics; hành động đo khoảng cách là measurements)
● Loại đơn vị đo lường:
○ Rời rạc: đếm được, có thể lường được cái giá trị thấp nhất với giá trị cao nhất, nó có vài loại khác nhau (vd như
số màu của một loại xe hơi)
○ Liên tục: Không được (nó đếm liên tục). Any metrics involving dollars, length, time, volume, or weight, for
example, are continuous
● Measurement scale:
○ Categorical/ Nominal scale (thang đo phân loại/ định danh): Nó là cái vi dụ của đống rời rạc, ngoài ra còn có
như tên, địa chỉ, ….
○ Ordinal (thang đo thứ bậc): ví dụ như Rating a service as poor, average, good, very good, or excellent
○ Interval (thang đo khoảng):
○ Ratio (thang đo tỉ lệ):
Trong SPSS gọi interval với ratio chung là scale, đo lường mấy cái đơn vị đo lường liên tục như dollars,
length, time, volume, or weight
3. Dự báo: dùng phân tích hồi quy, trung bình trượt
4. Break - even analysis:
Bài tập ví dụ:

2.000Q = 10.000.000 + 1.000Q => Q = 10.000 (Q: quantity)


● Hòa vốn khi: DOANH THU = CHI PHÍ
● Không sản xuất hết 10000 cái mà phải tính trước nhu cầu thị trường. Nếu số lượng sản xuất
nhiều hơn nhu cầu thị trường, doanh nghiệp sẽ lỗ.
Ví dụ, trong trường hợp sx 50.000 sản phẩm:
● Chi phí: 10tr + 50.000 * 1.000=60tr
● Doanh thu: 30.000 * 2000 = 60tr => huề vốn
Ví dụ Cafe thất bại: tư duy hòa vốn. Câu hỏi kinh doanh nên nhắm vào khách hàng mục tiêu, không
hỏi về điểm hòa vốn (đủ trả tiền thuê nhà, đủ vốn,..). Trước khi quyết định, cần đưa ra những
đánh giá KHÁCH QUAN (khảo sát thực tế, nhiều nguồn dữ liệu khác nhau từ thứ cấp lẫn sơ cấp).
Phải xác định được tệp khách hàng.
● Hiệu ứng hawthorne: Kết quả nghiên cứu có thể sai vì người được nghiên cứu biết rằng mình đang
bị theo dõi, vì vậy họ sẽ cố gắng giữ vững một hiệu suất tốt (người lao động, người phỏng vấn,...)
5. Data for Business Analytics:
Biến nominal chỉ có thể đưa vào hồi quy khi nó là thông tin định danh (nam/ nữ), nếu có giới tính khác thì không
được đưa vào phương trình hồi quy mà phải tạo biến phụ.

6. Data Reliability and Validity:


● Reliability: Đánh giá sự ổn định
● Validity: Đánh giá độ chính xác (rõ ràng và không nhầm vấn đề).

7. Model Assumptions:

● Với P=80, D=20.000 - 10x80=19.200


● Với P=120, D=20.000 - 10x120=18.800
● P từ 80 đến 120: tăng 1.5 lần
● D từ 19.200 xuống 18.800: giảm 2% (19.200-18.800/20.000x100)
=> Nên tăng giá để thu lợi nhuận.

Chapter 4: Descriptive Statistical Measures


● Popular and sample: Mẫu mang tính đại diện cho nghiên cứu, được chọn ra vì nó mang tính đại diện cao
● Đo lường vị trí: Median (trung vị), mode, midrange (trung bình giữa giá trị lớn nhất và giá trị nhỏ nhất)
● [CHẠY SPSS] Bảng tần số: dùng cho biến phân loại
○ Chỉ tạo bảng tần số với biến phân loại
○ Phân tích: so sánh hơn; so sánh nhất
○ Khi đọc percent: percent với vali percent sẽ giống nhau nếu k có missing, nếu có missing thì đọc valid percent
● [CHẠY SPSS] Crosstab: dùng cho 2 biến phân loại
○ Muốn phần trăm thì vào Cells → Percentage
● [CHẠY SPSS] Bar:
○ Bar1: 1 biến phân loại
○ Bar 2: 1 biến phân loại + 1 biết liên tục
○ Bar 3: 2 biến phân loại + 1 biến liên tục xài clustered chart
● [CHẠY SPSS] Line
○ → Time series data theo chuỗi thời gian.
○ Cách phân tích: Trend (lên,xuống, đỉnh, đáy)
○ Date là trục X, Y là trục giá
● [CHẠY SPSS] Scattered plot thể hiện tương quan giữa hai biến
○ → thuận, nghịch
○ Y: Dependent variable
○ X: Independent variable

1. Xác định số trung bình (mean), trung vị (median)
● Trung bình = tổng/n
● Trung vị: số ở giữa, có thể có 1 hoặc 2 trung vị
Ví dụ:
1 2 3 4 5 -> trung vị là 3
2 5 6 7 8 11 -> trung vị là (6+7)/2=6.5
● Số yếu vị (mode): xuất hiện với tần suất lớn nhất.

2. Đặc điểm
của trung bình là dễ bị ảnh hưởng bởi số ngoại lai (số chênh lệch nhiều so với những số còn lại).
Trung bình > trung vị -> giá trị ngoại lai rất lớn

3. Midrange (khoảng giữa)


● là giá trị trung bình của giá trị lớn nhất (max) và nhỏ nhất (min). Mang tính chất nhạy cảm cực
kỳ cao với các số ngoại lai.
Ví dụ về bài toán chọn ngày hẹn để lấy máy tính sửa: chọn midrange cũng là cách tối ưu nhất nhưng mà sẽ bị quá phụ
thuộc vào số ngoại lai (quá lớn), không chọn mode, median và mean. Chọn quy tắc 8/2 (đánh đổi 20% khách hàng
để tối ưu 80% lợi nhuận).
4. Phương sai là trung bình của tổng bình phương độ lệch giữa các giá trị với
giá trị trung bình.
5. Độ lệch chuẩn là căn bậc 2 của phương sai
Một trong những ứng dụng của độ lệch chuẩn là phân tích rủi ro của cổ phiếu bằng cách
đánh giá độ phân tán.
Độ lệch chuẩn không phải là đánh giá duy nhất mà phải xem xét các yếu tố khác, trong
trường hợp của IBM thì do giá trị của cổ phiếu lớn nên độ dao động lớn và điều này khác với INTC
=> người mới chơi thường sợ chơi các cổ phiếu có giá trị lớn nhưng điều này không đúng hoàn
toàn => dựa vào hệ số biến thiên để đánh giá mức độ rủi ro:
CV (coefficient of variation - hệ số biến thiên) = STD/Mean (độ lệch chuẩn/giá trị trung bình) = x
% => Tính độ dao động trên giá trị trung bình để tính rủi ro trên giá trị trung bình
R2R= 1/CV = mean/STD => số càng nhỏ thì lợi nhuận càng cao nghĩa là giá trị càng thấp thì
sóng càng cao (độ dao động càng cao) nên dễ đón sóng mà tăng lợi nhuận.

6. Empirical Rules - quy tắc ba Sigma: 68% tư liệu quan sát sẽ nằm trong 2 lần độ
lệch chuẩn.

Bài toán chọn cây thước không quá 19-21cm => độ lệch chuẩn phải nhỏ hơn 1 để cả 99.7% nó đều
không quá 19-21cm
7. Chỉ số về khả năng xử lý
● Upper và lower là khoảng bắt buộc phải tuân theo (thường là khách hàng bắt buộc)
● Cp là tỉ số giữa khoảng yêu cầu của khách hàng với khoảng thực tế (khả năng hiện tại).
- Phân biệt CP, CPK, bài toán Manufacturing Measurement

● Giá trị tiêu chuẩn: đo lường khoảng cách của 1 giá trị tới giá trị trung bình bằng thước đo đơn
vị là độ lệch chuẩn (giá trị đó cách bao nhiêu độ lệch chuẩn so với giá trị trung bình).
Kiểm định H0,H1, 1 phía, 2 phía

=> Xét trên 1 trục thì giá trị nào dương nằm bên phải giá trị trung bình, giá trị nào âm thì nằm bên
trái.
Cách làm bằng spss (file demo trên lms):

Chọn Des => Nhớ bấm save nó mới ra Zcar (khoảng cách từ giá trị đó tới mean tính bằng đơn vị s, trong
đó mean là gốc)
● Hệ số của độ lệch:

● Chạy để tìm độ nhọn (file demo cột price): tìm Mean + Median …
Dùng đều được

=> Ứng dụng: Biết được phân bố của mean, median và mode. Bài toán lương nhân viên ngân
hàng.

8. Hiệp phương sai (Measures of Association: Covariance)


- Phương sai (s^2) cho biết sự biến động của dữ liệu là lớn hay nhỏ. Ví dụ khoảng cách quá lớn
thì hiệu của xi và trung bình lớn nên s^2 lớn.
- 2 biến tương quan thì có thể có mối quan hệ nhân quả.
- 2 biến có mối quan hệ nhân quả thì chắc chắn chúng có tương quan.
Ví dụ: Kích cỡ giày và làm toán. Sai lầm là đưa mối quan hệ tương quan thành mối quan hệ nhân quả. Cái vụ giày và
làm toán là do lứa tuổi nha chứ k phải do chân to là làm được toán.
File Colleges and Universities

Chọn Bivariate
Chương 7: Statistical Inference
1. T - test là gì?
1.1. One sample T - test (so sánh với một số liệu cụ thể)
● Giả thiết H0: là giả thiết hiện hữu mang tính chất hiện tại
● Giả thiết H1
Đề bài:
=> File demo: one sample T test

=> Lấy 50 làm giá trị so sánh

BT ĐÃ CHỮA: SO SÁNH EMPLOY VÀ 12


Tuy nhiên thầy khuyến khích kết luận bằng lời, dễ hiểu.

1.2. Independent sample T - test


● Có nhiều loại, loại phổ biến nhất là indepentdent sample T - test (so sánh giá trị trung bình của 2
mẫu/nhóm, chỉ 2 thôi, 3 trở lên thì chạy Annova)
● Sử dụng In T - test với những nhóm so sánh cùng loại (như giới tính)
● [Chạy SPSS] Sample T - test
○ Analyze - Compare Means - Chọn loại T - test
○ Test variable: Biến liên tục; Grouping Variable: Biến rời rạc
○ Kết quả chạy:
■ Bảng 1: Giá trị trung bình của 2 nhóm
■ Bảng 2
● Levene’s test: Sig (Significance = mức ý nghĩa thống kê) < 0,05 thì dùng kết quả ở
dòng Equal Variances not assumed, còn nếu Sig > 0,05 thì dùng kết quả dòng
Equal Variances assumed.
● T test:
○ Sig 2 tailed < ɑ (thường là 0,05) thì there is a significant difference in the
mean of the 2 populations (có sự khác biệt có ý nghĩa thống kê).
○ Sig 2 tailed > ɑ (thường là 0,05) thì there is NO significant difference in the
mean of the 2 populations.
2 sample T test:

Step 5: p > 0,05


p < 0,05 -> Phải báo cáo “mean difference"
Bước 1:
H0: Mean M = Mean U
H1: Mean M # Mean U
Bước 2:
Indep sample t-test
Bước 3:

1. Nhóm M: 2. Nhóm U:
N = 3176 N = 3224
Mean = 69,6804 Mean = 69,2723
Std = 79,12361 Std = 78,32925

Bước 4:
Assumption: Equal Variance
Levene's Test:
F = 0,37
Với độ tin cậy p > 0,05 → Chọn Equal variances assumed

Bước 5:
t = 0,207
Với độ tin cậy p > 0,05 → Mean M = Mean U
Không thể bác bỏ H0, bác bỏ H1=> Không có sự chênh lệch nhiều giữa trung bình thu nhập của nhóm
người chưa cưới và đã cưới.
1.3. Paired- sample T - test:
● So sánh 1 nhóm trên 2 category khác nhau xem sự khác biệt giá trị trung bình của tụi nó có ý nghĩa thống kê không
(khác con independent ở trên là 2 nhóm trên 1 category) - tuy nhiên cũng phài có sự tương đồng
● [CHẠY SPSS] Kết quả chạy:
● Chỉ quan tâm đến phần Sig (2 - tailed)
○ Sig (2 - tailed) < 0,05 thì có sự khác biệt có ý nghĩa thống kê
○ Sig (2 - tailed) > 0,05 thì KHÔNG sự khác biệt có ý nghĩa thống kê
○ Mẫu: “This paired-samples t test analysis indicates that for the 105 subjects, the mean
score on the second quiz (M = 7.98) was significantly greater at the p < .01 level (note: p
= .005) than the mean score on the first quiz (M = 7.47)”.
Chọn paired

Kéo nó vào 2 cột

2. Anova Test:
● Giống T-test nma so sánh từ 2 nhóm trở lên (2 nhóm vẫn được, đây là lí do nó có thể thay thế T-
test)
● [CHẠY SPSS] One - way Anova
○ Tick 3 cái descriptive, homogeneity, welch
○ Bảng Test of Homogeneity of Variances: Chỉ để ý đến dòng Based on Mean, so sánh cái
Sig nó với 0,05 rồi làm theo lưu đồ
○ Mẫu kết luận: “The model has an F-value of 9.963, which yields a p-value of 0.00 (less
than 0.05), suggesting that at least two of the three groups differ significantly with regard
to the mean of overall price/performance satisfaction. (Có sự khác biệt có ý nghĩa thống
kê giữa ít nhất 2 nhóm khách hàng về giá trị trung bình của sự hài lòng về giá.)”
○ Cái này chỉ đưa ra được có ít nhất 2 nhóm có khác nhau không chứ không nói cụ thể là
các nhóm nào, muốn biết nhóm nào thì phải chạy T test từng cặp với nhau
ANALYSIS OF VARIANCE (ANOVA)
Analyze -> Compare Means -> 1 way ANOVA -> Option chọn Descriptive
Bài toán: so sánh income dựa trên sự khác biệt về education status

Ở Step 5: nếu Not Equal thì chọn thêm Welch


Nếu Equal thì không cần.
Step 6:

Kết luận gộp, không cần so sánh từng cái.


Kết luận ví dụ: Không học hết cấp 3 có thu nhập thấp hơn tất cả các loại còn lại. Tuy nhiên, khi so với
tốt nghiệp cấp 3 thì không có ý nghĩa thống kê.
Kết luận toàn bài: 2 nhóm kề nhau thì thường sự khác biệt sẽ không có ý nghĩa thống kê, các nhóm xa
nhau thì sự khác biệt sẽ có ý nghĩa thống kê. Nhưng chung quy thì có học thì sẽ có khác biệt.

(LƯU Ý)
ANOVA dùng so sánh means của 2 nhóm trở lên: liệu sự khác biệt giữa 2 nhóm có ý nghĩa thống kê
hay không?
-> Ít nhất sẽ có 1 cặp mean có sự khác biệt
-> Sự khác biệt cụ thể nằm ở: Post-hoc Test
-> Có sự khác biệt = Có sự ảnh hưởng
ANOVA có sự khác biệt thì thường là không tốt với Marketing vì sẽ làm các biến khác giảm ý nghĩa.
Bài toán: liệu có sự khác biệt về thu nhập hộ gia đình của những người đi những loại xe khác nhau hay không => làm giống ở
trên
Chapter 13: Basic Linear Programming
1. KN
- Optimization (tối ưu hoá) là quá trình lựa chọn các giá trị của các biến quyết định
nhằm tối thiểu hoá hoặc tối đa hoá một số lượng quan tâm.
- Optimization models có khả năng ứng dụng rộng rãi trong các hoạt động và chuỗi
cung ứng, tài chính, tiếp thị và các linh vực khác.
=> tập trung tối ưu hóa tuyến tính
2. Vd 1

Một số biến cần quan tâm:


Bài Làm:
B1: Biến quyết định: 1. ? Table; 2. ? Chair (đặt tên biến)
B2 MAX (hàm mục tiêu): Profit = Table*100 + Chair*400
B3 Constraint (ràng buộc 1)
a. Chair <= 6
b. Chair*8 + Table*10 <= 80
c. Chair*2 + Table*6 <= 36
d. Chair,Table >= 0

- nhập By changing… là C11&D11


- Nhập subject…
3. VD 2
Thiết lập PT đại số

● Cách đổi tên các ô (để dễ phân biệt)


● Từ việc đổi tên => sử dụng hàm SUMPRODUCT

Tương tự trong việc tính toán với các điều kiện

Lưu ý: có thể kéo từ E6 copy xuống vì hàm changing cells sẽ khum đổi
=> thêm điều kiện changing cells là số nguyên (nếu muốn số giày là từng đôi nguyên)

You might also like