You are on page 1of 16

Data

+ categorical: nominal, oder

+ Quantatative: internal, ratio

- số đặc trưng cho độ phân tán của các số liệu trong tập dữ
Average( mean):
liệu so với giá trị trung bình
- Median
- Mode
- Variance( popular, sample) phương sai
- là một công cụ thống kê thước
Standard deviation( popular, sample) độ lệch chuẩn :
đo đo lường mức độ phân tán của một tập hợp các giá trị so với giá trị
trung bình của chúng.

- Coefficient of variation( popular, sample) hệ số biến thiên


- Percentile: quartile, IQR
- covariance( popular, sample) hiệp phương sai, thể hiện sự đồng- nghịch, KHÔNG THỂ HIỆN
sự chặt chẽ của MQH giữa 2 biến
-
- correlation coefficient hệ số tương quan – thể hiện sự đồng- nghịch, sự chặt chẽ của MQH giữa
2 biến
- XÁC SUẤT BIÊN, XS ĐỒNG THỜI, XS CÓ ĐIỀU KIỆN, biến cố xung khắc, biến cố độc lập

-
-
-
-

-
- Phân phối poisson
-

- Bnn rời rạc & liên tục


-

- Phân phối xs đều


-
-
- Pp gần chuẩn là pp t , pp t có bậc tự do ( cỡ mẫu n-1) , mũ càng nhỏ, đuôi càng béo
-

- Khoảng tin cậy: là khoảng biểu diễn xác suất tham số thống kê sẽ nằm giữa 2 gtri đc đặt trong 1

Ví dụ về hồi quy tuyến tính


Giả sử chúng ta sử dụng hồi quy tuyến tính để mô hình hóa nhiệt độ bên ngoài tính
bằng độ C và Độ dày cách nhiệt tính bằng cm, hai biến độc lập của chúng ta, có liên
quan đến chi phí điều hòa không khí tính bằng đô la (biến phụ thuộc).

Hãy giải thích kết quả của phương trình hồi quy tuyến tính bội sau:

Chi phí điều hòa không khí$ = 2 * Nhiệt độ C – 1,5 * CM cách nhiệt

Dấu hệ số cho Nhiệt độ là dương (+2), biểu thị mối quan hệ tích cực giữa Nhiệt độ và
Chi phí. Khi nhiệt độ tăng lên, chi phí điều hòa không khí cũng tăng theo. Cụ thể hơn,
giá trị hệ số 2 cho thấy cứ tăng 1 C thì chi phí điều hòa không khí trung bình tăng thêm
2 đô la.

Mặt khác, hệ số âm đối với vật liệu cách nhiệt (–1,5) thể hiện mối quan hệ nghịch chiều
giữa chi phí cách nhiệt và điều hòa không khí. Khi độ dày lớp cách nhiệt tăng lên, chi
phí điều hòa không khí sẽ giảm. Cứ tăng thêm 1 CM, chi phí điều hòa không khí trung
bình giảm 1,50 USD.

Chúng ta cũng có thể nhập các giá trị nhiệt độ và cách nhiệt vào phương trình hồi quy
tuyến tính này để dự đoán chi phí điều hòa không khí trung bình.

HỆ SỐ R VÀ R2 (trong pthqtt đơn giản), CÁC PHẦN MỀN PHÂN TÍCH THỐNG KÊ, BI
TOOL, PYTHON
CÁC LỆNH CƠ BẢN
SELECT
INSERT
UPDATE
DELETE
CREATE TABLE
ALTER TABLE
JOIN
GROUP BY
ORDER BY
WHERE
LIMIT : GIOI HAN SO LUONG KQ TRA VE
OFFSET + LIMIT: PHAN TRANG
COUNT, SUM, AVG, MAX, MIN
HAVING

Các kiểu dữ liệu….


SELECT INTO
view
Subquery: lệnh con trong lệnh mẹ
WF: thực hiện tính toán trên một vùng dữ liệu sử dụng các hàm( tính tổng, xếp
hạng, tính toán)
CTE: commom table expression: tạo temporary table, with …
View: trích xuất thông tin từ bảng gốc
Index: tạo mục lục để truy vấn nhanh hơn
Stored procedure: tạo hàm
Trigger: một nhóm lệnh đc chạy khi một sự kiện xảy ra
**ANOVA (Phân tích phương sai)** là một kỹ thuật thống kê được sử dụng để so
sánh các giá trị trung bình giữa các nhóm hoặc phương pháp điều trị khác nhau.
Khi chúng tôi có hai biến dự đoán (còn được gọi là "yếu tố") và muốn đánh giá tác
động của chúng đối với một biến phản hồi, chúng tôi có thể sử dụng **ANOVA hai
chiều**. Có hai loại mô hình ANOVA hai chiều chính:
T-Test - Meaning, Types, Examples, Formula, Calculation (wallstreetmojo.com)

**t test** là một phương pháp thống kê dùng để so sánh giá trị trung bình của
**hai nhóm**. Nó thường được sử dụng trong kiểm tra giả thuyết để xác định
xem một quy trình hoặc phương pháp điều trị có ảnh hưởng đáng kể đến nhóm
đối tượng được quan tâm hay không hoặc liệu hai nhóm có khác nhau¹ hay không.
Dưới đây là những điểm chính về bài kiểm tra t:

Chắc chắn! Hãy cùng khám phá sự khác biệt giữa thử nghiệm **t** và thử
nghiệm **z**:

1. **Thử nghiệm**:
- **Mục đích**: Phép kiểm t được dùng để so sánh giá trị trung bình của **hai
nhóm**.
- **Phân bổ**:
- Bài kiểm tra T dựa trên **phân phối t của Học sinh**.
- Thích hợp khi cỡ mẫu **nhỏ** (thường nhỏ hơn 30) và độ lệch chuẩn của
tổng thể là **không xác định**.
- **Giả định**:
- Tất cả các điểm dữ liệu đều **độc lập**.
- Cỡ mẫu còn nhỏ.
- Giá trị mẫu được ghi lại chính xác.
- **Ví dụ**:
- So sánh điểm thi giữa hai phương pháp giảng dạy.
- Đánh giá tác dụng của thuốc mới trên huyết áp.

2. **Thử nghiệm Z**:


- **Mục đích**: Phép thử z cũng so sánh giá trị trung bình của hai nhóm, nhưng
nó dựa trên **phân phối chuẩn chuẩn**.
- **Giả định**:
- Tất cả các điểm dữ liệu đều **độc lập**.
- Cỡ mẫu **lớn**.
- Đã biết phương sai tổng thể (hoặc phương sai mẫu xấp xỉ bằng phương sai
tổng thể).
- **Ví dụ**:
- Kiểm tra tỷ lệ (ví dụ: so sánh tỷ lệ thành công trong hai chiến dịch tiếp thị).
- Đánh giá tác động của thiết kế trang web mới đến mức độ tương tác của
người dùng.

You might also like