You are on page 1of 34

概率与数理统计复习提纲

关于考试
• 考前调试好电脑
• 写清解题步骤
• 说明结果
• 注意时间

Descriptive Statistics 描述统

• Numerical measures for variables in
data sets
• 数据集的综合度量
– Measures of central location 位置度量
• The mean (average) (平)均值

– Measures of variability 变异度量
• Variance 方差
• Standard deviation 标准差

7%   2   3 . 平均值正负一个标准差之内的数据占全部数据 μ  2σ 约 68% • Approximately 95% of the data valuesμ3σ will  be within . 平均值正负两个标准差之内的数据占全部数据约 95% • Almost all of the data values will be within . 几乎所有的数据都在平均值正负三个标准差之内 68%    95% 99.Descriptive Statistics 描述统 计 Application of standard deviations 标准差的用途 ① Empirical Rule of Chebyshev’s theorem (经验法则) : For data having a bell-shaped distribution 对于钟形分布的 μσ 数据集 . • Approximately 68% of the data values will be within .

概率与分布主要内容 • Basic probability concepts 概率的基本概念 • Conditional probability 条件概率 • Bayes’s Theorem 贝叶斯定理 • Probability of discrete random variables 离 散型随机变量的概率分布 • Normal probability distributions and other continuous probability distributions 正态分 布和其他连续型分布 .

Decision Trees 决策树(不作 考核) • List options (including all possible action alternatives) 列出所有可能的选项(包括所有可能的行动) • List uncertain events (mutually exclusive and collectively exhaustive) 列出不确定性的事件(互斥且完备) • Construct a decision tree along a time line: 按照发生的先后顺序,构造决策树 – Decision nodes 决策结点 – Event nodes 事件结点 (list choices) (所有可能的选择) (list events) (所有可能的事件) .

随机变 量的方差或标准差是随机变量取值变化幅度的度量,常 表示风险大小或质量是否稳定。 . 随 机变量的均值代表随机变量取值的一般水平或平均水平 • The variance or standard deviation of a random variable reflects its variation and is often considered as a measure of risk or quality.Sum of Random Variables 随机变量和的均值、方差和标准差 • The expected value of a random variable is a measure of its average value or mean value.

normal distribution can be limit distribution of other probability distributions 由于中心极限定 • 理,正态分布还是其他分布的极限分布 – It has many excellent properties 正态分布具有很多很好的性质 It is an important basis for parameter estimation and regression analysis 正态分布是参数估计和回归分析的重 要基础 .Normal Probability Distribution 正态概率分布 • Normal Distribution is one of the most important distributions in the probability statistics 正态分布是概率统 计中最重要的概率分布之一 – It can describe many natural phenomena and hence is used very often 经常被用来描述很多现实现象 – With Central Limit Theory.

抽样与参数估计主要内容 • Sampling and Sampling Distributions 抽样与抽样分布 (Chap. 8) – Point estimation 参数的点估计 – Interval estimation 参数的置信区间估计 . 7) • Parameter Estimation 参数估计 (Chap.

the sample size can be even smaller than 30. 一般情况下,样本容量不小于 30 即可以认为 样本容量足够大,其样本均值的抽样分布近似服从正态分布。 • If a distribution is approximately bell-shaped. • But for 0-1 distribution. 如果总体分布 是钟型分布的,样本容量甚至可以小于 30. 但是,对于 0-1 分布,样本 容 量 将取决于成功的概率大小。 . a sample size of no smaller than 30 is considered large enough for the sample mean to be approximately normally distributed (a sample with n>30 is considered a large sample).Central Limit Theory 中心极限定 理 • As a general rule of thumb. sample size will depend on the probability of success.

Simulation 模拟(不作考核) • Advantage of a simulation model of a problem 使 用模拟解决问题 – It can be used to forecast the consequences of various management decisions before such decision must be made 模拟可以用来在实际决策前预测管理决策的各种可能后果 • Simulation modeling can be used in a very wide variety of management settings 模拟可以应用于很 多管理情形 • A simulation model is an extremely useful tool to help a manager make difficult decisions in an environment of uncertainty 特别是在不确定性条件下 进行决策时,模拟对于管理者来说是非常有用的方法 。 .

H 1 : 1   2 Whether one population mean is bigger or smaller than that of another population (one-sided test) 一个总体的均值是否大于或者小于另一 12 . H1 : 1   2 Whether two population means are equal (two-sided test) 两个总体的均值是否相等 H 0 : 1   2 . H1 :   0 H 0 :   0 .Hypothesis Testing 假设检验 Problem 假设检验问题 Whether a population mean is equal to a given number (two-sided test) 总体均值是否等于某给定常数 Statistical Expression 统计 表述 H 0 :   0 . H1 :    0 Whether a population mean is bigger or smaller than a given number (one-sided test) 总体均值是否大于或小于某给定常数 H 0 : 1   2 .

sigma sigma unknown unknown  Known Y z test z x  0  n PHStat2: PHStat2: One-Sample One-Sample Test Test .t test test for for mean. sigma sigma known PHStat2: PHStat2: OneOneSample Sample Test Test –– tt test test for for mean. sigma sigma unknown unknown . sigma sigma known known N t test t x  0 s n PHStat2: PHStat2: OneOneSample Sample Test Test . mean.Difference Cases Big Small Any Population Y Normal Populatio n Sample Size  Known z test N t test x  0 z  n x  0 t s n PHStat2: PHStat2: One-Sample One-Sample Test Test –– zz test test for for mean.zz test test for for mean. mean. mean.

Determine the appropriate test statistic and sampling distribution.e.05 the level of significance.. and the alternative H1 明确写出原假设与备择假设  2. 假设检验 6 步 . 验统计量就是样本均值的 z 值: . hypothesis. 选择显著性水平并确定样本容量。常用的显著性水平 为 0. . n . Choose  0.   ni. 确定适当的检验统计量和抽样分布 x   the test statistic is the zFor Oxford Cerealsz problem.05 。 3. is commonly chosen. H0 State the null hypothesis. 对牛津谷物早餐来说,检 score of the sample mean.Summary of Process 法 1. and the sample size.

Make the statistical decision and state the managerial conclusion. 根据 4 和 5 的结果,做出统计决策并给出管理结论 . Collect the sample data and compute the value of the test statistic. the critical values are 对于牛津谷物早餐问题,临界值为 z 2 5. 假设检验 6 步 Determine the critical values that divide the rejection and non-rejection regions.Summary of Process 法 4. 确定划分拒绝区域与不能拒绝区域的临界值 For Oxford Cereals problem. 收集样本数据,并计算检验统计量的观测值 6.

Normality Plot 正态概率图 • Method 1 方法一 – Histogram 采用直方图 • Method 2 方法二 – PHStat – 选择 Probability and probability distributions – 然后选择 Normal probability plot .

Normality Plot 正态概率图 Left-skewed (long tail on the left) 左偏的 Normal 正态的 Rightskewed (long tail on the right) 右偏的 .

H1:   0 当原假设中的 0 落入置信水平为 1 -的双侧区间 x  z 2  n 时,不能拒绝原假设。 • 说明:对总体为正态分布,总体标准差未知情况, 类似的结论同样成立。 .Hypothesis Testing: Connection to Confidence Intervals 假设检验:与置信区间估计的关系 • 在显著性水平下,对于总体均值的双侧检验 H0:  = 0.

Two-Sample Tests Two Sample Tests 双样本检验 Independe nt Population Means 独立总体的 均值 Means. Related Populations 非独立总体 的均值 Independe nt Population Proportions 独立总体的 比率 Independent Population Variances 独立总体的 方差 .

Regression Analysis 回归分析 • Simple regression analysis 简单回归分析 – Dependent variable depends on only one independent variable 因变量只依赖一个自变量 • Multiple regression analysis 多元回归分析 – Dependent variable depends on more than one independent variables 因变量依赖多个自变量 • Linear regression analysis 线性回归分析 – The relationship between the dependent variable and the independent variables is linear 因变量和自变量之 间是线性关系 .

The Linear Regression Model 线性回归模型 The linear regression model: 线性回归模型: Y 的截矩 因变量 斜率系数 自变量 随机误差项 Y  β0  β1 X  ε 线性部分 随机误差部分 .

Residual Analysis 残差分析 • Basic assumptions on the Simple Linear Regression Model 简单线性回归模型的基本 假设( LINE ): – Linearity 线性性 – Independence 独立性 (特别当自变量是时间 时) – Normality 正态性 – Equal variance 同方差性 • May use residual plot to see if the model violates any of the above assumptions. 可以利用残差散点图诊断上述假设是否存在问 题。 .

估计区间与预测区间的比较 Y Yˆ  b0  b1 X 预测区间 • 估计区间 X.Y  0 X .

选择一个简单回归模型(线性或非线性)。 If the model is linear. 4. interpret the meaning of estimated slope . 1 parameters and hence to determine Yˆ  b0  bthe 1X estimated equation 如果模型是线性的,用 Excel 对模型的参数做估计,得到估计 的回归方程。 b1 With the estimated regression equation. 3.General Steps for Simple Linear Regression Analysis 1. 根据估计的回归方程,对回归斜率做解释。 . 简单回归分析的一般步骤 Draw a scatter plot to investigate the type of relationship between X and Y with the assumption that the change in Y is caused by the change in X. use Excel to estimate the  0 . 画散点图以了解 X 与 Y 之间的关系类型(假设 Y 的变化是由 X 的变化引起的)。 Choose a simple regression model. 2.

Use p-value to perform F test or t test to see if there is a significant linear relationship between X and Y. independence. Use the estimated equation for application.General Steps for Simple Linear Regression Analysis 5.瓦特森检验检查线性性、独立 性、正态性和同方差性是否存在问题。 8. normality and equal variance. 通过残差分析和杜宾 . Perform residual analysis for linearity. 用 F 检验的 p 值判断 X 与 Y 之间是否存在显著的线性 关系。 7. 简单回归分析的一般步骤 Use R-square to determine the percentage of variation in Y explained by the variation of X. 用判定系数 R 平方解释 Y 的变化中能用 X 的变化解释 的百分比。 6. 应用估计的回归方程解答实际问题(预测与估计)。 .

多元回归主要内容 我们将在本章中学习如何 • How to develop a multiple regression model 建立多元回归 模型 • How to interpret the regression coefficients 解释回归系数 In this chapter. you learn • • How to determine which independent variables to include in the regression model 确定回归模型应当包含哪些自变量 How to determine which independent variables are most important in predicting a dependent variable 确定哪些自变 量是解释因变量的重要变量 • How to use categorical variables in a regression model 回归模型中使用分类变量 在 .

检验 – Shows if there is a linear relationship between all of the X variables considered together and Y 检验因变量 Y 与这组 X 之间是否存在(显著的)线性 相关关系 – Hypotheses 检验的假设为 H0: β1 = β2 = … = βk = 0 (no linear relationship 不存在显著的线 性相关关系 ) H1: at least one βi ≠ 0 (at least one independent variable SSR k MSR Y affects Y 至少有一个自变量对 F  有影响 ) SSE n  1  k MSE – Use F test statistic 检验统计量是   .检验 • F-Test for Overall Significance of the Model 回归模 型的全检验 F.F-Test for Overall Significance 全检验 F.

检验的 p 值 (SMT公司.检验 H0: βj = 0 (no linear relationship between Xi and Y Xi 与 Y 之间没有显著的线性相关关系 ) H1: βj ≠ 0 (linear relationship does exist between Xi and Y Xi 与 Y 之间存在显著的线性相关关系 ) • • b 0 ~ t  n  k  1 Test Statistic j检验统计量为: t Sb j p-value of t test 原假设为真时 t.xls) .Individual Variables Tests of Hypothesis 单个变量的显著性检验 t.

Using Dummy Variables 哑变量 • A dummy variable is a categorical independent variable with two levels 哑变量是只取两个值的分类型 随机变量 – yes or no. the number of dummy variables needed is (number of levels . male or female 是或否、开或关、男 或女 – coded as 0 or 1 两个不同的值分别用 0 和 1 表示 • If more than two levels. on or off.1) 如果分类 变量的取值超过两个不同水平的话,比如 p 个水平,则需 要使用 p–1 个哑变量。 .

模型建立主要内容 In this chapter. you learn • Nonlinear regression 我们将在本章中学习如何 非线性回归 • To measure the correlation among independent variables 度量自变量之间的相关性 • To build a regression model. using either the stepwise or best-subsets approach 运用逐步回归法或最佳子集法建立回归模型 • To avoid the pitfalls involved in developing a multiple regression model 在建立回归模型过程中规避缺陷 .

Collinearity 共线性 • Collinearity: High correlation exists among two or more independent variables 共线性:自变量之间存在较高相关性 • Possible problems it may bring: Including two highly correlated independent variables can adversely affect the regression results 可能带来的问题:高度相关的自变量可能给模型带来不 好的影响: – No new information provided 不提供新信息 – Can lead to unstable coefficients (large standard error and low t-values) 造成不稳定系数估计(较大的标准误差和较 小的估计值) – Coefficient signs may not match prior expectations 系数 估计的符号与预期的不符 .

Model Building 模型构建 • Goal is to develop a model with the best set of independent variables 构建模型的目的是找到包含自变量最佳子集的模型 – Easier to interpret if unimportant variables are removed 不重要的变量被去除时容易做出解释 – Lower probability of collinearity 能够保证较低的共线性 • Stepwise regression procedure 逐步回归法 – Provide evaluation of alternative models as variables are added 添加变量时给予可供选择模型的评价 • Best-subset approach 最佳子集法 – Try all combinations and select the model with the highest adjusted r2 以调整的 R 平方为标准寻找自变量最佳子 集模型 .

回归分析的一般步骤 • 对数据做初步的检查 • 画散点图 . 求相关系数矩阵,观察相关类型以及相关程度 • 求包含全部自变量的回归方程 . 并检查 R2 和所有方差膨 胀系数。对于方差膨胀系数 >5 ,去除方差膨胀系数最大 的自变量。可以重复此过程,直到所有方差膨胀系数都不 大于 5 为止。 • 用最佳子集回归和 / 或逐步回归法并考虑修正的 R 平方等 寻求“最佳”模型 • 检查模型的解释能力,是否还有重要的变量应当考虑 ? • 对确定的模型进行全面分析,包括 F 检验, t 检验以及残 差分析等,并做必要的修正 • 理解并解释回归系数的含义,并应用回归方程做预测 .

时间序列主要内容 • Time-series forecasting models 时间序列预测模型 – – – – – – – moving averages 移动平均 exponential smoothing 指数平滑 the linear trend 线性趋势 the quadratic trend 二次趋势 the exponential trend 指数趋势 the autoregressive 自回归 the least-squares models for seasonal data. 包含季节成分 时间序列的最小二乘模型 • Model selection criteria 模型选择标准 • Index numbers 指数 .