You are on page 1of 6

Descriptive vs.

Inferential Mô tả và suy luận


• Descriptive ~ Exploratory Data Analysis (EDA): • Mô tả ~ Phân tích dữ liệu thăm dò (EDA): mô
describes data you have using techniques for tả dữ liệu bạn đang sử dụng các kỹ thuật để trực
visualizing and summarizing data quan hóa và tóm tắt dữ liệu
– Histograms and Boxplots for understanding – Biểu đồ và Boxplots để hiểu phân phối: cực trị
distributions: extremes (min (tối thiểu và tối đa), phân vị trung vị và tứ phân
and max), median & quartiles, skewed & vị, phân phối lệch và phân phối dài
longtailed distributions – Biểu đồ phân tán cho mối quan hệ hai biến.
– Scatterplots for bivariate relationships. – Bản đồ nhiệt cho mối tương quan giữa các
– Heatmaps for correlations between variables. biến.
– Pair plots to visualize relationships between – Ghép các biểu đồ để trực quan hóa mối quan hệ
multiple variables at once. giữa nhiều biến cùng một lúc.
• What can the data tell us? • Dữ liệu có thể cho chúng ta biết điều gì?
 uncover underlying structure  khám phá cấu trúc cơ bản
 extract important variables  trích xuất các biến quan trọng
 detect outliers and anomalies  phát hiện các ngoại lệ và sự bất thường
 formulate hypotheses worth testing  xây dựng các giả thuyết có giá trị kiểm tra
 provide a basis for further data collection  cung cấp cơ sở cho việc thu thập dữ liệu sâu
through surveys or experiments hơn thông qua khảo sát hoặc thử nghiệm

Descriptive vs. Inferential Mô tả và suy luận


• Descriptive statistics describe the data, • Thống kê mô tả mô tả dữ liệu,
• Inferential statistics help you make predictions • Thống kê suy luận giúp bạn đưa ra dự đoán từ
from the data dữ liệu
EDA EDA
• No hypothesis at first • Ban đầu không có giả thuyết
• Generate hypothesis • Tạo giả thuyết
• Uses graphical methods • Sử dụng phương pháp đồ họa
(mostly) (hầu hết)
Inferential statistics Thống kê suy luận
• Start with hypothesis • Bắt đầu với giả thuyết
• Test the null hypothesis • Kiểm tra giả thuyết không
• Uses statistical models • Sử dụng mô hình thống kê

Descriptive vs. Inferential Mô tả và suy luận


• Inferential: e.g., t-test, that enable inferences • Suy luận: ví dụ: t-test, cho phép suy luận về dân
about the population beyond our data số ngoài dữ liệu của chúng tôi
 helps in making judgments of an observed  Giúp đưa ra phán đoán về sự khác biệt quan
difference between groups. sát được giữa các nhóm.
• Topics include: • Các chủ đề bao gồm:
 Point estimation  Ước lượng điểm
 Confidence intervals for unknown parameters  Khoảng tin cậy cho các tham số chưa biết
 Principles of testing of hypotheses  Nguyên tắc kiểm định giả thuyết
Multivariate analysis (đa chiều) Phân tích đa biến (đa chiều)
• The term "multivariate analysis" (MVA) refers to • Thuật ngữ "phân tích đa biến" (MVA) đề cập
any statistical technique used to analyze data on đến bất kỳ kỹ thuật thống kê nào được sử dụng
two or more attributes (variables) that may depend để phân tích dữ liệu về hai hoặc nhiều thuộc tính
on each other. Multivariate analysis encompasses (biến) có thể phụ thuộc trên nhau. Phân tích đa
a collection of techniques, which include: biến bao gồm một tập hợp các kỹ thuật, trong đó
bao gồm:
 Multivariate Regression: Extends multiple  Hồi quy đa biến: Mở rộng hồi quy bội để cho
regression to allow for multiple dependent phép thực hiện nhiều các biến phụ thuộc.
variables.
 Multivariate Analysis of Variance (MANOVA):  Phân tích phương sai đa biến (MANOVA):
An extension of ANOVA that allows for multiple Một phần mở rộng của ANOVA cho phép nhiều
dependent variables. biến phụ thuộc.
 Principal Component Analysis (PCA): A  Phân tích thành phần chính (PCA): Một kỹ
dimensionality reduction technique. thuật giảm kích thước.
 Factor Analysis: Aims to identify underlying  Phân tích nhân tố: Nhằm mục đích xác định
relationships between observed variables. mối quan hệ cơ bản giữa quan sát biến.
 Cluster Analysis: Groups similar data points  Phân tích cụm: Nhóm các điểm dữ liệu tương
together based on certain criteria. tự lại với nhau dựa trên các tiêu chí nhất định.
• Expected outputs: Depending on the specific • Kết quả đầu ra dự kiến: Tùy thuộc vào kỹ thuật
MVA technique, the output might be cluster MVA cụ thể, kết quả đầu ra có thể là các nhóm
groupings, factors, components, or multiple cụm, các yếu tố, thành phần hoặc nhiều phương
equations. trình.
• Example: Using MANOVA, you might study • Ví dụ: Sử dụng MANOVA, bạn có thể nghiên
how diet and exercise together affect both weight cứu cách ăn kiêng và tập thể dục cùng nhau
and blood pressure (two dependent variables). ảnh hưởng đến cả cân nặng và huyết áp (hai biến
phụ thuộc).
Cluster Analysis (phân tích gom cụm) Phân tích cụm (phân cụm cụm)
• Cluster Analysis is a statistical technique used to • Phân tích cụm là một kỹ thuật thống kê được sử
group similar objects or data points into sets dụng để nhóm các đối tượng hoặc điểm dữ liệu
tương tự vào bộ
• Types of Clustering: • Các kiểu phân cụm:
 Centroid-based Clustering: K-means  Phân cụm dựa trên centroid: Phân cụm K-
Clustering: Divides a dataset into 'K' number of mean: Chia tập dữ liệu thành số 'K' trọng tâm và
centroids, and data points are clustered based on các điểm dữ liệu được phân cụm dựa trên mức độ
the proximity to these centroids. gần với các trọng tâm này.
 Hierarchical Clustering: Creates a tree of  Phân cụm theo cấp bậc: Tạo một cây các cụm.
clusters. It can be either agglomerative (bottomup, Nó có thể là kết tụ (từ dưới lên, trong đó mỗi
where each data point starts as its own cluster and điểm dữ liệu bắt đầu dưới dạng cụm riêng của nó
pairs of clusters are merged) or divisive (top- và các cặp cụm được hợp nhất) hoặc phân chia
down, where all data points start in one cluster (từ trên xuống, trong đó tất cả các điểm dữ liệu
which is then split). bắt đầu trong một cụm, sau đó được phân chia).
 Density-based Clustering: DBSCAN (Density-  Phân cụm dựa trên mật độ: DBSCAN (Phân
Based Spatial Clustering of Applications with cụm không gian dựa trên mật độ của các ứng
Noise): Clusters are formed based on the density dụng với Nhiễu): Các cụm được hình thành dựa
of data points. It can find arbitrarily shaped trên mật độ của các điểm dữ liệu. Nó có thể tìm
clusters and identify noise/outliers. tùy ý các cụm có hình dạng và xác định
nhiễu/các ngoại lệ.
 Model-based Clustering: Assumes that the data  Phân cụm dựa trên mô hình: Giả sử rằng dữ
is generated by a mixture of underlying liệu được tạo ra bởi sự kết hợp của các phân phối
probability distributions, such as Gaussian xác suất, chẳng hạn như hỗn hợp Gaussian.
mixtures.
 Connectivity-based Clustering: Spectral  Phân cụm dựa trên kết nối: Phân cụm phổ: Sử
Clustering: Uses the spectrum (eigenvalues) of dụng phổ (giá trị riêng) của ma trận tương tự của
the similarity matrix of the data to reduce dữ liệu để giảm kích thước trước khi phân cụm
dimensionality before clustering in fewer theo ít hơn kích thước.
dimensions.
 Grid-based Clustering: Divides the data space  Phân cụm dựa trên lưới: Chia không gian dữ
into a finite number of cells that form a gridlike liệu thành một số hữu hạn các ô tạo thành cấu
structure. Clustering is then performed on this grid trúc dạng lưới. Việc phân cụm sau đó được thực
structure. hiện trên cấu trúc lưới này.
Nonparametric Statistics Thống kê phi tham số
• These statistical procedures make no • Các thủ tục thống kê này không đưa ra giả định
assumptions about the probability distributions of nào về phân bố xác suất của dân số.
the population.
• The model structure is not specified a priori but • Cấu trúc mô hình không được xác định trước
is instead determined from data. mà thay vào đó là xác định từ dữ liệu.
• As non-parametric methods make fewer • Vì các phương pháp phi tham số đưa ra ít giả
assumptions, their applicability is much wider định hơn nên chúng khả năng ứng dụng rộng hơn
nhiều
• Procedures described include: • Các thủ tục được mô tả bao gồm:
 Sign test  Kiểm tra dấu hiệu
 Mann-Whitney two sample test  Kiểm định hai mẫu Mann-Whitney
 Kruskal-Wallis test for comparing several  Kiểm định Kruskal-Wallis để so sánh nhiều
samples mẫu
• Density Estimation • Ước tính mật độ
Bootstrap Khởi động
• Bootstrap (khởi động nhanh) is a resampling • Bootstrap (khởi động nhanh) là một kỹ thuật lấy
technique used to estimate statistics on a mẫu lại dùng để ước lượng thống kê về dân số
population by sampling a dataset with bằng cách lấy mẫu một tập dữ liệu thay thế.
replacement.
• How Bootstrap Works: • Bootstrap hoạt động như thế nào:
 Resampling with Replacement: Given an  Lấy mẫu lại bằng thay thế: Cho một tập dữ
original dataset of size n, the bootstrap method liệu gốc có kích thước n, bootstrap Phương pháp
involves repeatedly and randomly drawing này liên quan đến việc lấy mẫu lặp đi lặp lại và
samples, with replacement, from the dataset. Each ngẫu nhiên, có sự thay thế, từ tập dữ liệu. Mỗi
of these samples is also of size n. mẫu này cũng có kích thước n.
 Calculating Statistics: For each resampled  Tính toán số liệu thống kê: Đối với mỗi tập dữ
dataset, the statistic of interest (e.g., mean, liệu được lấy mẫu lại, số liệu thống kê quan tâm
median, variance) is computed. (ví dụ: trung bình, trung vị, phương sai) được
tính toán.
 Distribution of the Statistic: After many  Phân phối số liệu thống kê: Sau nhiều lần lặp
iterations of this process, you'll have a distribution lại quá trình này, bạn sẽ có phân phối thống kê
of your statistic of interest, from which you can bạn quan tâm, từ đó bạn có thể tính toán những
compute things like its standard error, confidence thứ như lỗi tiêu chuẩn, khoảng tin cậy, v.v.
intervals, and more.
• Bootstrap is similar to Monte Carlo method but • Bootstrap tương tự như phương pháp Monte
the `simulation' is carried out from the data itself. Carlo nhưng việc `mô phỏng' được thực hiện
từ chính dữ liệu đó.
• A very general, mostly non-parametric • Một thủ tục rất tổng quát, chủ yếu là phi tham
procedure, and is widely applicable. số và được áp dụng rộng rãi.
• Applications to regression, cases where the • Ứng dụng hồi quy, trường hợp quy trình thất bại
procedure fails, and where it outperforms và trường hợp nó vượt trội so với các thủ tục
traditional procedures will be also discussed truyền thống cũng sẽ được thảo luận
Goodness of Fit Sự tốt lành của sự phù hợp
• "Goodness of Fit" refers to the measure of how • "Mức độ phù hợp" đề cập đến thước đo mức độ
well a statistical model's predicted values match thống kê giá trị dự đoán của mô hình khớp với
with the actual observed values. giá trị quan sát thực tế.
• Techniques of Goodness of Fit: • Kỹ thuật về sự phù hợp tốt:
 Chi-Squared (χ²) Goodness of Fit Test  Chi-Squared (χ²) Kiểm tra độ phù hợp
 Kolmogorov-Smirnov Test: This test is used to  Kiểm định Kolmogorov-Smirnov: Kiểm định
determine if a sample data follows a particular này được sử dụng để xác định xem dữ liệu mẫu
distribution. It is a non-parametric test that có tuân theo một phân phối cụ thể. Đây là một
compares the empirical distribution function of thử nghiệm phi tham số để so sánh hàm phân
sample data with the cumulative distribution phối thực nghiệm của dữ liệu mẫu với phân phối
function of a reference distribution or another tích lũy hàm của một phân phối tham chiếu hoặc
empirical distribution. một phân phối thực nghiệm khác.
 Anderson-Darling Test: Like the Kolmogorov-  Kiểm định Anderson-Darling: Giống như kiểm
Smirnov test, this test is used to test if a data định Kolmogorov-Smirnov, kiểm định này được
sample follows a particular distribution. The sử dụng để kiểm tra xem mẫu dữ liệu có tuân
AndersonDarling test gives more weight to the theo một phân phối cụ thể hay không. Phép thử
tails of the distribution. AndersonDarling mang lại nhiều ý nghĩa hơn cho
các phần cuối của phân phối.
 R-squared (Coefficient of Determination):  R-squared (Hệ số xác định): Thường dùng
Commonly used in regression analysis, R-squared trong hồi quy phân tích, R bình phương đo tỷ lệ
measures the proportion of the variance in the phương sai trong biến phụ thuộc có thể dự đoán
dependent variable that's predictable from the được từ các biến độc lập.
independent variables.
 Root Mean Square Error (RMSE) and Mean  Căn bậc hai Sai số bình phương trung bình
Absolute Error (MAE): These are measures of the (RMSE) và Sai số tuyệt đối trung bình (MAE):
differences between values predicted by a model Đây là những là thước đo sự khác biệt giữa các
and the values observed. They provide a way to giá trị được dự đoán bởi một mô hình và các giá
quantify the model's accuracy. trị được quan sát. Chúng cung cấp một cách để
định lượng độ chính xác của mô hình.
 Bayesian Information Criterion (BIC):  Tiêu chí thông tin Bayesian (BIC):
What is data? Dữ liệu là gì?
Categorical (Qualitative) Phân loại (Định tính)
– Nominal scales – number is just a symbol that – Thang đo danh nghĩa – con số chỉ là ký hiệu
identifies a quality xác định một chất lượng
• 0=male, 1=female • 0=nam, 1=nữ
• 1=green, 2=blue, 3=red, 4=white • 1=xanh lá cây, 2=xanh dương, 3=đỏ, 4=trắng
– Ordinal – rank order – Thứ tự – thứ tự xếp hạng
Quantitative (continuous and discrete) Định lượng (liên tục và rời rạc)
– Interval – units are of identical size (i.e. Years) – Khoảng – đơn vị có kích thước giống hệt nhau
(tức là Năm)
– Ratio – distance from an absolute zero (i.e. Age, – Tỷ lệ – khoảng cách từ điểm 0 tuyệt đối (tức là
reaction time) Data is a collection of facts, or Tuổi, phản ứng thời gian) Dữ liệu là tập hợp các
figures while information puts those facts into sự kiện, hoặc số liệu trong khi thông tin đặt
context. những sự thật đó vào bối cảnh.
=are processed, interpreted, organized, structured = được xử lý, diễn giải, có tổ chức, có cấu trúc
or presented hoặc trình bày
What is a measurement? Một phép đo là gì?
Every measurement has 2 parts: Mỗi phép đo đều có 2 phần:
The True Score (the actual state of things in the Điểm thực (trạng thái thực tế của mọi thứ trên thế
world) giới)
And Và
ERROR! (mistakes, bad measurement, report LỖI! (sai lầm, đo lường kém, báo cáo sai lệch,
bias, context effects, etc.) hiệu ứng bối cảnh, v.v.)
X=T+e X=T+e
/7

You might also like