Professional Documents
Culture Documents
Applied Statistic For Machine Learning: Forth Session
Applied Statistic For Machine Learning: Forth Session
Forth Session
Ehsan Maminejad
July 2021
Outline
2
Applied Statistic For Machine Learning - Ehsan Maminejad
Randomized Controlled Experiment
آزمایش کنترلشده تصادفی
یکی از اولین افرادی که در توسعه مفهوم آزمایش کنترلشده پیشگام بود ،پزشک انگلیسی جیمز لیند بود .او مشاهدهگر دقیقی بود و میتوانست خود را از
پیشفرضهای ذهنیاش فاصله دهد و بر اساس منطق تحلیل و نتیجهگیری کند .یکی از بیماریهایی که لیند به مطالعه آن پرداخت بیماری اسکوربوت بود.
اسکوربوت بیماری است که براثر کمبود ویتامین ث ایجاد میشود .این بیماری میتواند موجب فلج شدن بیمار و یا حتی مرگ او شود.
این بیماری از دوران کهن شناخته شده بود .جان وودال در سال ۱۶۱۴میالدی مصرف میوههای تازه را برای درمان این بیماری توصیه کرده بود؛ اما لیند در
سال ۱۷۴۷میالدی تصمیم گرفت آزمایشی ترتیب دهد تا این توصیه را اثبات کند .او ۱۲بیمار را انتخاب کرد که همگی از نظر شدت بیماری در یک سطح قرار
داشتند .آنان را در یک مکان بستری کرد و همه آنها را تحت رژیم غذایی یکسانی قرار داد .این ۱۲نفر به شش گروه دو نفره تقسیم شدند .تنها تفاوت این
شش گروه در مصرف مقدار مشخصی از یک نوع ماده غذایی بود .این مواد غذایی شامل مواردی مانند آب سیب ،سرکه ،پرتقال و لیمو و مانند آن بود .به
یک گروه نیز هیچکدام از این موارد داده نمیشد.
3
Applied Statistic For Machine Learning - Ehsan Maminejad
Randomized Controlled Experiment
آزمایش کنترلشده تصادفی
اما این رونالد فیشر آماردان انگلیسی بود که در ابتدای قرن بیستم با مطالعاتی که در حوزه کشاورزی کرد ،آزمایش کنترلشده تصادفی را به شکل یک روش
علمی درآورد و آن را توسعه داد.
فرض کنید شما مدیر یک شرکت تولیدکننده محصوالت کشاورزی هستید و میخواهید بهرهوری تولید خود را افزایش دهید .دو ماده مغذی در بازار وجود
دارد که ادعا میکنند میتوانند رشد گیاهان را تسریع کنند .شما در مورد کارایی این دو محصول شک دارید؛ بنابراین تصمیم میگیرید یک آزمایش
کنترلشده تصادفی طراحی کنید تا ادعای آنها را بسنجید.
4
Applied Statistic For Machine Learning - Ehsan Maminejad
Randomized Controlled Experiment
آزمایش کنترلشده تصادفی
تعدادی گیاه یکسان انتخاب میکنید و آنها را در سه گروه تقسیم میکنید .در طول مدتزمان آزمایش ،گیاهان گروه Aاز ماده مغذی اول و گیاهان گروه Bاز
ماده مغذی دوم تغذیه میشوند .هر یک از این دو گروه ،گروه آزمایشی ( )Experimental Groupنامیده میشوند .گیاهان در گروه Cبهمانند گیاهان عادی تنها با
آب تغذیه میشوند .این گروه ،گروه کنترل ( )Control Groupنامیده میشود.
5
Applied Statistic For Machine Learning - Ehsan Maminejad
Randomized Controlled Experiment
آزمایش کنترلشده تصادفی
هر سه گروه در همهچیز یکسان هستند بهجز ماده مغذی که دریافت میکنند .متغیرهایی مانند سایز گلدان ،نوع خاک ،میزان نور دریافتی و یا دمای نگهداری که
ممکن است روی رشد گیاه تاثیر بگذارند ،در هر سه گروه یکسان نگه میدارید .این متغیرها ،متغیرهای کنترل نامیده میشوند .در اینجا شما مایل هستید اثر ماده
مغذی (متغیر مستقل) را بر روی رشد گیاه و سالمتی عمومی آن (متغیر وابسته) اندازهگیری کنید .در پایان دوره آزمایش ،در صورت تائید آزمونهای آماری میتوان
گفت گروهی که در آن میانگین رشد گیاهان باالتر بوده ،ماده مغذی کارآمدتری دریافت کرده است.
6
Applied Statistic For Machine Learning - Ehsan Maminejad
Randomized Controlled Experiment
آزمایش کنترلشده تصادفی
سوال :چرا میگوییم کنترلشده تصادفی؟
کنترل شده :علت اینکه به این آزمایشها کنترلشده گفته میشود به دو مورد برمیگردد.
مورد اول :با محدودیتهایی که در انجام آزمایش اعمال میشود ،نمیگذاریم همزمان با متغیر مستقل ،متغیر دیگری بر روی نمونهها اثر بگذارد .درواقع با ایزوله کردن سایر
متغیرها ما قادر هستیم اثر خالص متغیر مستقل را اندازهگیری کنیم .برای مثال اگر همزمان بااینکه گیاهان در هر گروه ماده مغذی متفاوتی دریافت میکنند ،میزان نور
خورشید متفاوتی هم دریافت کنند دیگر نمیتوان مشخص کرد رشد گیاهان تحت تأثیر کدام عامل بوده است.
مورد دوم به وجود گروه کنترل برمیگردد .ما در این نوع آزمایشها همواره مقایسه میکنیم .سؤال اینجاست که مقایسه نسبت به چه چیزی صورت میگیرد؟ مقایسه
معموال ا نسبت به وضع موجود انجام میشود .شما در حالت فعلی گیاهان را با آب تغذیه میکنید .این ،گروه کنترل را مشخص میکند .نتیجه آزمایش به شما نشان خواهد
داد که آیا استفاده از مواد مغذی جدید نسبت به وضع موجود کارایی بیشتری دارد یا خیر.
7
Applied Statistic For Machine Learning - Ehsan Maminejad
Randomized Controlled Experiment
آزمایش کنترلشده تصادفی
سوال :چرا میگوییم کنترلشده تصادفی؟
تصادفی :اما در عمل نمیتوان همه متغیرها را کنترل کرد .برخی از متغیرهای اثرگذار در مسئله ممکن است قابلشناسایی و کنترل باشند؛ اما ممکن است آزمایشگر همه
متغیرهای اثرگذار بر مسئله را نتواند تشخیص دهد .اینجاست که مفهوم تصادفی بودن اهمیت پیدا میکند .ایده فیشر این بود که آزمایشگر باید متغیرهایی را که نسبت به
آن شناخت دارد و میداند بر روی متغیر وابسته اثر میگذارند ،کنترل کند .او پیشنهاد داد آزمایشگر برای از بین بردن اثر سایر متغیرهایی که ممکن است به آن آشنا نباشد از
تخصیص تصادفی نمونهها به گروههای آزمایش بهره ببرد .برای مثال ممکن است برخی از گیاهان به لحاظ ژنتیکی از بقیه بهتر باشند و این روی سرعت رشد آنها اثر
بگذارد .شما نمیتوانید این عامل را کنترل کنید؛ بنابراین با توزیع کردن گیاهان به شکل تصادفی در سه گروه آزمایش سعی میکنید تا حد امکان اثر ژنتیک را خنثی کنید.
با روش علمی که فیشر پیشنهاد داد ما میتوانیم مطمئن باشیم که نتایج آزمایش تنها محدود به نمونههای آزمایششده نیستند و قابلتعمیم بهکل جامعه موردبحث
هستند.
8
Applied Statistic For Machine Learning - Ehsan Maminejad
Randomized Controlled Experiment
آزمایش کنترلشده تصادفی
تعریف آزمایش کنترلشده تصادفی
آزمایش کنترلشده تصادفی یک روش علمی است که با استفاده از آن میتوانید اثر یک عامل یا مداخله ( )Interventionرا بر روی جامعه موردمطالعه بسنجید .در
این روش نمونهها به شکل تصادفی از جامعه آماری انتخاب و به شکل تصادفی به گروه کنترل و آزمایش تخصیص داده میشوند .تنها تفاوت بین گروه کنترل و
آزمایش در دریافت آن عامل یا مداخله است .بهاینترتیب اثر آن عامل یا مداخله بر روی متغیرهای خروجی سنجیده میشود.
حال برای آنکه تصمیم گرفته شود که مداخله جدید موثر بوده است یا خیر ،به معنیداری آماری ( )Statistical Significanceبه عنوان یک معیار مهم باید توجه
کرد .در ادامه به بررسی این مفهوم میپردازیم.
9
Applied Statistic For Machine Learning - Ehsan Maminejad
Statistical Significance:
معنیداری آماری به چه معنی است؟
مدیر بازاریابی یک شرکت آبمعدنی ادعا میکند زنان بین ۲۰تا ۴۰سال ،به نسبت سایر مشتریان در روز آب بیشتری مینوشند ،بنابراین باید کمپین تبلیغاتی
جدیدی برای جذب این بخش از بازار شروع کرد.
مشاور مدیریت یک شرکت تولید لوازم الکترونیکی توصیه میکند که اگر کارگران خط تولید کمتجربه به یک دوره آموزشی درباره مدارهای الکترونیکی فرستاده
شوند ،در مدتزمان کمتری میتوانند مدارهای الکترونیکی را سرهمبندی کنند.
مدیر یک فروشگاه آنالین تصور میکند اگر کوپنهای تخفیف بیشتری را به مشتریان عرضه کند ،میتواند میزان خرید مشتریانش را افزایش دهد.
10
Applied Statistic For Machine Learning - Ehsan Maminejad
Statistical Significance:
معنیداری آماری به چه معنی است؟
11
Applied Statistic For Machine Learning - Ehsan Maminejad
Statistical Significance:
طراحی آزمایش فرضیه
چهار فنجان مخلوط شیر و چای که ابتدا شیر در آن ریخته شده و بعد چای و چهار فنجان
دیگر که ابتدا چای و سپس شیر در آن ریخته شده است .این هشت فنجان را در یک
سینی بهصورت تصادفی بچینیم.
اما چرا هشت فنجان؟ فیشر محاسبه کرده بود که ۷۰حالت مختلف برای چینش این
هشت فنجان در کنار یکدیگر وجود دارد.
در علم آمار به این احتمال ،مقدار pو یا p-valueگفته میشود .این مقدار نشان میدهد
چه میزان احتمال دارد نتایج بهدستآمده ،صرف اا تحت یک فرآیند تصادفی یا به صورت
شانصی اتفاق افتاده باشد.
12
Applied Statistic For Machine Learning - Ehsan Maminejad
Statistical Significance:
چون تحت شرایط باال درست حدس زدن همه فنجانها مقدار pبسیار کوچکی دارد (معادل ۱٫۴درصد) ،فیشر نتیجه گرفت اگر •
آن زن همه فنجانها را درست تشخیص دهد ،میتوان گفت ادعای زن درست است.
اگر حاشیه خطا ۵درصد باشد ،مفهومش این است که شما با احتمال ۹۵درصد میتوانید مطمئن باشید که نتایج بهدستآمده بر •
اساس تصادف حاصل نشده است.
اگر در این مثال ،فرد تنها یک اشتباه داشته باشد ،مقدار pنزدیک ۲۴درصد میشود که از حاشیه خطای ۵درصد بزرگتر است. •
بهاینترتیب نمیتوان گفت این فرد با کسی که صرف اا بر اساس تصادف حدس میزند ،به لحاظ آماری تفاوت معنیداری دارد.
فرآیندی که فیشر برای مواجهه با ادعای مطرحشده پیشنهاد کرد به آزمون فرضیه ( )Hypothesis Testingشناخته میشود و امروزه یکی از مهمترین
روشهای تصمیمگیری دادهمحور محسوب میشود.
13
Applied Statistic For Machine Learning - Ehsan Maminejad
Hypothesis Tests:
آزمون فرض آماری
فرض آماری ( :)hypothesisادعایی درباره جامعه است که قابل قبول بودن یا نبودن آن را بر اساس دادههای نمونه بررسی میکنیم.
مثال :در یک کارخانه تیم مهندسی آن ادعا میکند که با اصالحاتی که بر روی قطعهای خاص انجام داده ،طول عمر آن را افزایش داده است .حال
میخواهیم قابل قبول بودن این ادعا را بررسی نماییم.
فرض :۱میانگین طول عمر قطعه اصالح شده کوچکتر مساوی ۱۱۰۰ساعت است.
فرض :۲میانگین طول عمر قطعه اصالح شده بزرگتر از ۱۱۰۰ساعت است.
14
Applied Statistic For Machine Learning - Ehsan Maminejad
Hypothesis Tests:
آزمون فرض آماری
قواعد :همواره فرض 𝐻0شامل = یا ≤ و یا ≥ است .و همواره فرض صفر را آزمون میکنیم .در واقع ما چیزی را اثبات نمیکنیم و تنها در تالش هستیم
فرض صفر را رد کنیم.
ادعای مساله بنابر نوع بیان آن بر فرض 𝐻0یا فرض 𝐻1منطبق میشود.
𝐻0 : 𝜇 ≤ 30
مثال : ۱میانگین سن کارکنان شرکت بیش از ۳۰سال است.
𝐻1 : 𝜇 > 30
𝐻0 : 𝜇 ≥ 50 مثال : ۲میانگین ساعت کاری کارکنان شرکت حداکثر ۵۰ساعت است.
15
Applied Statistic For Machine Learning - Ehsan Maminejad
Hypothesis Tests:
آزمون فرض آماری
16
Applied Statistic For Machine Learning - Ehsan Maminejad
Hypothesis Tests:
خطای نوع اول و دوم
صرفنظر از تصمیم بر رد کردن یا نکردن فرض صفر احتمال خطا وجود دارد.
یک نوع خطا زمانی اتفاق میافتد که شما معتقد باشید ،دادهها مورد مهمی را نشان میدهند و فرض صفر را رد کنید ،در صورتی در واقعیت دادهها به
صورت شانصی بوده باشند .به این نوع خطا میگوییم ،خطای نوع اول و احتمال خطای نوع اول را 𝛼 𝑎 𝑎𝑙𝑝ℎمینامیم.
نوع دیگر خطا زمانی رخ میدهد که شما فرض صفر را رد نمیکنید ،در صورتی که دادهها واقعا به خاطر یک چیز غیرعادی هستند .به این نوع خطا
میگوییم خطای نوع دوم و احتمال آن را )𝛽(𝑎𝑡𝑒𝑏 مینامیم.
17
Applied Statistic For Machine Learning - Ehsan Maminejad
Hypothesis Tests:
18
Applied Statistic For Machine Learning - Ehsan Maminejad
Hypothesis Tests:
قالب کلی آزمونهای فرض یک نمونهای
𝐻0 : 𝜇 = 𝜇0
دو طرفه
𝐻1 : 𝜇 ≠ 𝜇0
𝐻0 : 𝜇 ≤ 𝜇0
𝐻1 : 𝜇 > 𝜇0
یک طرفه
𝐻0 : 𝜇 ≥ 𝜇0
𝐻1 : 𝜇 < 𝜇0
19
Applied Statistic For Machine Learning - Ehsan Maminejad
Hypothesis Tests:
آزمون با نمونه بزرگ و انحراف معیار معین
ഥتقریبا نرمال است .بنابراین آماره آزمون آن به صورت زیر خواهد بود:
در این حالت 𝒙
مثال : ۱نمونه تصادفی به اندازه 𝑛 = 100از جامعه دارای میانگین ۲۹و انحراف معیار ۳است .بر اساس اطالعات نمونه آزمون آماری زیر را در سطح
معناداری 𝛼 = 0.1انجام دهید .در واقع با توجه به آزمون زیر میخواهیم این ادعا را آزمون کنیم که میانگین جامعه ۳۵است.
𝐻0 : 𝜇 = 35
𝐻1 : 𝜇 ≠ 35
20
Applied Statistic For Machine Learning - Ehsan Maminejad
Hypothesis Tests:
آزمون با نمونه بزرگ و انحراف معیار معین
ഥ
𝒙 = 𝟐𝟗 & 𝑺 = 𝟑
29 −35
𝑛 = 100 > 30 𝑧= 3 = -20 𝑧 = 20
ൗ 100
21
Applied Statistic For Machine Learning - Ehsan Maminejad
Hypothesis Tests:
مثال : ۲ادعا شده است میانگین برق مصرفی فروردین در یک ناحیه تهران دست کم ۱۳۰۰کیلووات ساعت است .بدین منظور یک نمونه تصادفی به تعداد
۴۰۰خانوارد از آن ناحیه انتخاب شده که میانگین و انحراف معیار برق مصرفی آنها به ترتیب ۱۲۵۲و ۲۵۷کیلووات ساعت است .در سطح خطای ۱درصد.
این ادعا را بررسی کنید.
𝐻0 : 𝜇 ≥ 𝜇0 𝐻0 : 𝜇 ≥ 1300
𝛼 = 0.01
𝐻1 : 𝜇 < 𝜇0 𝐻1 : 𝜇 < 1300
=Z
1252 −1300
= -3.74 𝛼𝑍Z < − رد فرض صفر
𝑛 = 400 > 30 257
ൗ 400
22
Applied Statistic For Machine Learning - Ehsan Maminejad
Thank you!