You are on page 1of 24

Applied Statistic For Machine Learning

Third Session

Ehsan Maminejad

May 2021
Outline
▪ Statistical Approaches
▪ Estimation
▪ Revies of some concepts
▪ Features of a good estimator
▪ Point Estimation
▪ Point Estimation of the Mean
▪ Point Estimation of the Variance
▪ Interval Estimation

▪ Example / Confidence Interval


▪ R Code
2
Applied Statistic For Machine Learning - Ehsan Maminejad
Statistical Approaches

‌‫روش‌های‬
‫آماری‬

‫آمار‌توصیفی‬ ‫آمار‌استنباطی‬

‫برآورد‬ ‫آزمون‌فرضیه‬

3
Applied Statistic For Machine Learning - Ehsan Maminejad
Estimation:

4
Applied Statistic For Machine Learning - Ehsan Maminejad
Estimation:

5
Applied Statistic For Machine Learning - Ehsan Maminejad
Review of Some Concepts:
‫پارامتر‬ ‫آماره‬

𝜇 𝑋ത

𝜎2 𝑆2

𝜇1 − 𝜇2 𝑋ത1 − 𝑋ത2

6
Applied Statistic For Machine Learning - Ehsan Maminejad
‫‪Estimation:‬‬

‫اگر هدف از تحلیل آماری‪ ،‬برآورد پارامتر جامعه آماری باشد بطوری که دقت برآورد نیز قابل محاسبه باشد‪« ،‬برآوردیابی»‬ ‫▪‬
‫(‪ )Estimation‬انجام شده است‪ .‬آماره‌ای که برای عمل برآوردیابی به کار گرفته شده نیز «برآوردگر» (‪ )Estimator‬و نتیجه‬
‫حاصل از آماره توسط مقدارهای نمونه تصادفی را «برآورد» (‪ )Estimate‬پارامتر جامعه می‌گویند‪.‬‬

‫‪7‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
Estimation:

:‫انواع برآوردگر‬ ▪
)Point Estimator(‫برآوردگر نقطه‌ای‬ ▪
)Interval Estimator(‫برآوردگر بازه‌ای‬ ▪

8
Applied Statistic For Machine Learning - Ehsan Maminejad
‫‪Features of a good estimator:‬‬
‫ویژگی‌های یک برآورد‌کننده خوب‪:‬‬ ‫▪‬
‫نااریب (‪:)Unbiased‬‬ ‫▪‬
‫ابزار و معیاری برای نشان دادن میزان نزدیکی پارامتر جامعه به برآوردگر آن پارامتر است‪ .‬از آنجایی که براساس هر‬ ‫▪‬
‫نمونه تصادفی‪ ،‬برآوردگر مربوط به پارامتر مقدار متفاوتی خواهد داشت‪ ،‬انتظار داریم که با تکرار نمونه‌گیری‌ها‪،‬‬
‫متوسط مقدار برآوردگرهای حاصل‪ ،‬با پارامتر واقعی جامعه تقریبا برابر شود‪.‬‬

‫کارآمد (‪:)Efficient‬‬ ‫▪‬


‫برآوردکننده کارآمد انحراف معیار کوچکی دارد‪.‬‬ ‫▪‬

‫‪9‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Features of a good estimator:‬‬

‫ویژگی‌های یک برآورد‌کننده خوب‪:‬‬ ‫▪‬


‫سازگار (‪:)Consistent‬‬ ‫▪‬
‫با افزایش حجم نمونه تا چه میزان برآوردکننده به میزان واقعی خود نزدیک می‌شود‪.‬‬ ‫▪‬

‫کافی (‪:)Sufficient‬‬ ‫▪‬


‫تا چه میزان از تمامی اطالعات موجود در نمونه استفاده می‌کند‪.‬‬ ‫▪‬

‫‪10‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Point Estimation:‬‬
‫برآورد نقطه‌ای‪:‬‬ ‫▪‬
‫برآورد یک عدد برای پارامتر جامعه‪:‬‬ ‫▪‬
‫میانگین‌جمعیت‬ ‫میانگین نمونه‬ ‫▪‬
‫انحراف‌معیار‌جمعیت‬ ‫انحراف معیار نمونه‬ ‫▪‬
‫نسبت‌در‌جمعیت‬ ‫نسبت در نمونه‬ ‫▪‬

‫برای این که نشان داده شود‪ ،‬برآورد‪ ،‬چقدر از پارامتر دور یا نزدیک است‪ ،‬از مالک‌هایی مانند «میانگین مربعات خطا»‬ ‫▪‬
‫(‪ )Mean Square Error‬که به ‪ MSE‬نیز معروف است‪ ،‬استفاده می‌شود‪ .‬به این ترتیب برای مقایسه دو برآوردگر کافی‬
‫است که مقدار‪ MSE‬را برای هر یک محاسبه کنیم و برآوردگری را انتخاب کنیم که دارای ‪ MSE‬کمتری است‪.‬‬

‫‪11‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Point Estimation of Mean:‬‬

‫برآوردکننده نقطه‌ای میانگین جامعه‪:‬‬ ‫▪‬


‫میانگین نمونه بهترین برآوردکننده میانگین جامعه است‪.‬‬ ‫▪‬
‫فرض نرمال بودن؟‬ ‫▪‬
‫توزیع نمونه تصادفی میانگین برای حالت‌هایی که اندازه نمونه بزرگ است (‪ )n>30‬تقریبا‌ نرمال است‪.‬‬ ‫▪‬

‫‪12‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
Point Estimation of Variance:

:‫برآوردکننده نقطه‌ای واریانس جامعه‬ ▪


:‫برآورد‌کننده اریب‬ ▪

:‫برآورده‌کننده نااریب‬ ▪

13
Applied Statistic For Machine Learning - Ehsan Maminejad
Some Examples:

14
Applied Statistic For Machine Learning - Ehsan Maminejad
‫‪Interval Estimator:‬‬

‫برآوردکننده بازه‌ای یا فاصله‌ای‪:‬‬ ‫▪‬


‫ممکن است برای برآورد پارامتر جامعه‪ ،‬از یک فاصله تصادفی استفاده شود‪ .‬دو سر این فاصله‪ ،‬توسط توابعی از نمونه‬ ‫▪‬
‫تابع مربوط به سر دیگر فاصله اطمینان باشد‪ ،‬خواهیم‬ ‫یک سر فاصله و‬ ‫تصادفی ساخته می‌شود‪ .‬بنابراین اگر‬
‫نوشت‪:‬‬

‫ویژگی‌ها‪:‬‬ ‫▪‬

‫اطالعاتی درباره خطا به‌ دست می‌دهد‪۵۰±۵ .‬‬ ‫▪‬


‫میزانی از اطمینان درباره برآورد پارامتر جامعه به دست می‌دهد‪.‬‬ ‫▪‬

‫‪15‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Interval Estimator:‬‬
‫سطح اطمینان (‪)Confidence Level‬‬ ‫▪‬
‫سطح اطمینان (‪ )Confidence Level‬گفته می‌شود‪.‬‬ ‫«سطح معنی‌داری» یا سطح آزمون و به‬ ‫به میزان‬ ‫▪‬
‫احتمالی که بازه حاوی پارامتر جامه است برابر است با‪:‬‬ ‫▪‬

‫سطوح اطمینان متداول در آمار‪:‬‬ ‫▪‬

‫‪16‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Interval Estimator:‬‬

‫ارتباط بین بازه اطمینان و سطح اطمینان‬ ‫▪‬


‫سطح اطمینان باالتر منجر به بازه اطمینان بزرگتر می‌شود‪.‬‬ ‫▪‬
‫بازه اطمینان کوچکتر منجر به سطح اطمینان پایین‌تر می‌شود‪.‬‬ ‫▪‬

‫اگر خط آبی مقدار واقعی پارامتر جامعه باشد‪ ،‬در بین ‪ ۲۰‬فاصله اطمینان‬ ‫▪‬
‫تولید شده با احتمال ‪ ، ۹۵٪‬تنها یکی از فواصل‪ ،‬شامل پارامتر جامعه‬
‫آماری نیست‪.‬‬

‫‪17‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Example / Confidence Interval‬‬

‫یک شرکت سیستم‌های ناوبری برای بازاریابی محصوالت قابل حمل خود میخواهد بداند هر یک از باتر‌ی‌های‬
‫محصوالت خود‪ ،‬به طور متوسط‪ ،‬قبل از سوختن چقدر دوام می‌آورد؟ کارمندان شرکت عالقه‌مند هستند با‬
‫اطمینان ‪ 95‬درصد این مقدار متوسط را تخمین بزنند‪ .‬آنها ‪ 100‬عدد باتری را به عنوان نمونه انتخاب می‌کنند و‬
‫متوجه می‌شوند که میانگین نمونه ‪ 60‬ساعت است و انحراف معیار استاندارد آن ‪ 20‬ساعت است‪.‬‬

‫‪18‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Example 2/ Confidence Interval‬‬
‫یک شرکت سیستم‌های ناوبری برای بازاریابی محصوالت قابل حمل خود میخواهد بداند هر یک از باتر‌ی‌های‬
‫محصوالت خود‪ ،‬به طور متوسط‪ ،‬قبل از سوختن چقدر دوام می‌آورد؟ کارمندان شرکت عالقه‌مند هستند با‬
‫اطمینان ‪ 95‬درصد این مقدار متوسط را تخمین بزنند‪ .‬آنها ‪ 100‬عدد باتری را به عنوان نمونه انتخاب می‌کنند و‬
‫متوجه می‌شوند که میانگین نمونه ‪ 60‬ساعت است و انحراف معیار استاندارد آن ‪ 20‬ساعت است‪.‬‬

‫𝜎‬ ‫𝑠‬ ‫‪20‬‬


‫= ‪𝜎𝑥ҧ‬‬ ‫???‬ ‫= ‪𝑠𝑥ҧ‬‬ ‫=‬ ‫‪=2‬‬
‫𝑛‬ ‫𝑛‬ ‫‪100‬‬

‫‪19‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Example / Confidence Interval‬‬

‫اگر بارها و بارها نمونه تصادفی با اندازه یکسان از جامعه آماری بگیرید‪ ،‬در‬
‫‪95‬درصد مواقع میانگین این نمونه‌ها در فاصله ‪ 56‬تا ‪ 64‬قرار می گیرد‪.‬‬

‫‪20‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Example / Confidence Interval‬‬

‫قضیه حد مرکزی(تقریبا) برای نمونه‌های بزرگ توزیع نرمال را در نظر می‌گیرد‪ .‬اما در دنیای واقعی‪ ،‬شما با نمونه‌های‬
‫کوچک‌تر سر و کار دارید و توزیع نرمال مناسب نیست‪ .‬در واقع اگر تعداد نمونه‌هایمان کمتر از ‪ 30‬بود باید چه کاری‬
‫انجام دهیم؟؟‬

‫مورد اول‪ :‬خطای استاندارد بیشتر‪( :‬دو برابر حالت قبل)‬

‫𝑠‬ ‫‪20‬‬
‫= ‪𝑠𝑥ҧ‬‬ ‫=‬ ‫‪=4‬‬
‫𝑛‬ ‫‪25‬‬

‫‪21‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Example / Confidence Interval‬‬

‫مورد دوم‪ :‬شما نمی‌توانید از توزیع نرمال استاندارد برای مشخص کردن توزیع نمونه تصادفی میانگین استفاده کنید‪.‬‬
‫برای نمونه‌های کوچک از توزیع ‪ t‬استفاده می‌کنیم‪ .‬پارامتری که اعضای این خانواده را از یکدیگر متمایز می‌کند درجه‬
‫آزادی نامیده می‌شود‪.‬‬

‫‪σ(𝑥 − 𝑥)ҧ 2 σ(𝑥 − 𝑥)ҧ 2‬‬


‫‪𝑠2‬‬ ‫=‬ ‫=‬
‫‪𝑛−1‬‬ ‫‪25 − 1‬‬

‫‪22‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
Example / Confidence Interval

23
Applied Statistic For Machine Learning - Ehsan Maminejad
Thank you!

Applied Statistic For Machine Learning - Ehsan Maminejad 24

You might also like