You are on page 1of 23

Applied Statistic For Machine Learning

Forth Session

Ehsan Maminejad

July 2021
Outline

▪ Randomized Controlled Experiment


▪ Statistical Significance
▪ Introducing hypothesis tests

2
Applied Statistic For Machine Learning - Ehsan Maminejad
‫‪Randomized Controlled Experiment‬‬
‫آزمایش کنترلشده تصادفی‬

‫آزمایش کنترلشده تصادفی چگونه توسعه یافت؟‬

‫یکی از اولین افرادی که در توسعه مفهوم آزمایش کنترلشده پیشگام بود‪ ،‬پزشک انگلیسی جیمز لیند بود‪ .‬او مشاهدهگر دقیقی بود و میتوانست خود را از‬
‫پیشفرضهای ذهنیاش فاصله دهد و بر اساس منطق تحلیل و نتیجهگیری کند‪ .‬یکی از بیماریهایی که لیند به مطالعه آن پرداخت بیماری اسکوربوت بود‪.‬‬
‫اسکوربوت بیماری است که براثر کمبود ویتامین ث ایجاد میشود‪ .‬این بیماری میتواند موجب فلج شدن بیمار و یا حتی مرگ او شود‪.‬‬

‫این بیماری از دوران کهن شناخته شده بود‪ .‬جان وودال در سال ‪ ۱۶۱۴‬میالدی مصرف میوههای تازه را برای درمان این بیماری توصیه کرده بود؛ اما لیند در‬
‫سال ‪ ۱۷۴۷‬میالدی تصمیم گرفت آزمایشی ترتیب دهد تا این توصیه را اثبات کند‪ .‬او ‪ ۱۲‬بیمار را انتخاب کرد که همگی از نظر شدت بیماری در یک سطح قرار‬
‫داشتند‪ .‬آنان را در یک مکان بستری کرد و همه آنها را تحت رژیم غذایی یکسانی قرار داد‪ .‬این ‪ ۱۲‬نفر به شش گروه دو نفره تقسیم شدند‪ .‬تنها تفاوت این‬
‫شش گروه در مصرف مقدار مشخصی از یک نوع ماده غذایی بود‪ .‬این مواد غذایی شامل مواردی مانند آب سیب‪ ،‬سرکه‪ ،‬پرتقال و لیمو و مانند آن بود‪ .‬به‬
‫یک گروه نیز هیچکدام از این موارد داده نمیشد‪.‬‬
‫‪3‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Randomized Controlled Experiment‬‬
‫آزمایش کنترلشده تصادفی‬

‫اما این رونالد فیشر آماردان انگلیسی بود که در ابتدای قرن بیستم با مطالعاتی که در حوزه کشاورزی کرد‪ ،‬آزمایش کنترلشده تصادفی را به شکل یک روش‬
‫علمی درآورد و آن را توسعه داد‪.‬‬

‫فرض کنید شما مدیر یک شرکت تولیدکننده محصوالت کشاورزی هستید و میخواهید بهرهوری تولید خود را افزایش دهید‪ .‬دو ماده مغذی در بازار وجود‬
‫دارد که ادعا میکنند میتوانند رشد گیاهان را تسریع کنند‪ .‬شما در مورد کارایی این دو محصول شک دارید؛ بنابراین تصمیم میگیرید یک آزمایش‬
‫کنترلشده تصادفی طراحی کنید تا ادعای آنها را بسنجید‪.‬‬

‫‪4‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Randomized Controlled Experiment‬‬
‫آزمایش کنترلشده تصادفی‬

‫تعدادی گیاه یکسان انتخاب میکنید و آنها را در سه گروه تقسیم میکنید‪ .‬در طول مدتزمان آزمایش‪ ،‬گیاهان گروه ‪ A‬از ماده مغذی اول و گیاهان گروه ‪ B‬از‬
‫ماده مغذی دوم تغذیه میشوند‪ .‬هر یک از این دو گروه‪ ،‬گروه آزمایشی (‪ )Experimental Group‬نامیده میشوند‪ .‬گیاهان در گروه ‪ C‬بهمانند گیاهان عادی تنها با‬
‫آب تغذیه میشوند‪ .‬این گروه‪ ،‬گروه کنترل (‪ )Control Group‬نامیده میشود‪.‬‬

‫‪5‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Randomized Controlled Experiment‬‬
‫آزمایش کنترلشده تصادفی‬

‫هر سه گروه در همهچیز یکسان هستند بهجز ماده مغذی که دریافت میکنند‪ .‬متغیرهایی مانند سایز گلدان‪ ،‬نوع خاک‪ ،‬میزان نور دریافتی و یا دمای نگهداری که‬

‫ممکن است روی رشد گیاه تاثیر بگذارند‪ ،‬در هر سه گروه یکسان نگه میدارید‪ .‬این متغیرها‪ ،‬متغیرهای کنترل نامیده میشوند‪ .‬در اینجا شما مایل هستید اثر ماده‬

‫مغذی (متغیر مستقل) را بر روی رشد گیاه و سالمتی عمومی آن (متغیر وابسته) اندازهگیری کنید‪ .‬در پایان دوره آزمایش‪ ،‬در صورت تائید آزمونهای آماری میتوان‬

‫گفت گروهی که در آن میانگین رشد گیاهان باالتر بوده‪ ،‬ماده مغذی کارآمدتری دریافت کرده است‪.‬‬

‫‪6‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Randomized Controlled Experiment‬‬
‫آزمایش کنترلشده تصادفی‬
‫سوال‪ :‬چرا میگوییم کنترلشده تصادفی؟‬

‫کنترل شده‪ :‬علت اینکه به این آزمایشها کنترلشده گفته میشود به دو مورد برمیگردد‪.‬‬
‫مورد اول‪ :‬با محدودیتهایی که در انجام آزمایش اعمال میشود‪ ،‬نمیگذاریم همزمان با متغیر مستقل‪ ،‬متغیر دیگری بر روی نمونهها اثر بگذارد‪ .‬درواقع با ایزوله کردن سایر‬
‫متغیرها ما قادر هستیم اثر خالص متغیر مستقل را اندازهگیری کنیم‪ .‬برای مثال اگر همزمان بااینکه گیاهان در هر گروه ماده مغذی متفاوتی دریافت میکنند‪ ،‬میزان نور‬
‫خورشید متفاوتی هم دریافت کنند دیگر نمیتوان مشخص کرد رشد گیاهان تحت تأثیر کدام عامل بوده است‪.‬‬

‫مورد دوم به وجود گروه کنترل برمیگردد‪ .‬ما در این نوع آزمایشها همواره مقایسه میکنیم‪ .‬سؤال اینجاست که مقایسه نسبت به چه چیزی صورت میگیرد؟ مقایسه‬
‫معموال ا نسبت به وضع موجود انجام میشود‪ .‬شما در حالت فعلی گیاهان را با آب تغذیه میکنید‪ .‬این‪ ،‬گروه کنترل را مشخص میکند‪ .‬نتیجه آزمایش به شما نشان خواهد‬
‫داد که آیا استفاده از مواد مغذی جدید نسبت به وضع موجود کارایی بیشتری دارد یا خیر‪.‬‬

‫‪7‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Randomized Controlled Experiment‬‬
‫آزمایش کنترلشده تصادفی‬
‫سوال‪ :‬چرا میگوییم کنترلشده تصادفی؟‬

‫تصادفی‪ :‬اما در عمل نمیتوان همه متغیرها را کنترل کرد‪ .‬برخی از متغیرهای اثرگذار در مسئله ممکن است قابلشناسایی و کنترل باشند؛ اما ممکن است آزمایشگر همه‬
‫متغیرهای اثرگذار بر مسئله را نتواند تشخیص دهد‪ .‬اینجاست که مفهوم تصادفی بودن اهمیت پیدا میکند‪ .‬ایده فیشر این بود که آزمایشگر باید متغیرهایی را که نسبت به‬
‫آن شناخت دارد و میداند بر روی متغیر وابسته اثر میگذارند‪ ،‬کنترل کند‪ .‬او پیشنهاد داد آزمایشگر برای از بین بردن اثر سایر متغیرهایی که ممکن است به آن آشنا نباشد از‬
‫تخصیص تصادفی نمونهها به گروههای آزمایش بهره ببرد‪ .‬برای مثال ممکن است برخی از گیاهان به لحاظ ژنتیکی از بقیه بهتر باشند و این روی سرعت رشد آنها اثر‬
‫بگذارد‪ .‬شما نمیتوانید این عامل را کنترل کنید؛ بنابراین با توزیع کردن گیاهان به شکل تصادفی در سه گروه آزمایش سعی میکنید تا حد امکان اثر ژنتیک را خنثی کنید‪.‬‬

‫با روش علمی که فیشر پیشنهاد داد ما میتوانیم مطمئن باشیم که نتایج آزمایش تنها محدود به نمونههای آزمایششده نیستند و قابلتعمیم بهکل جامعه موردبحث‬
‫هستند‪.‬‬

‫‪8‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Randomized Controlled Experiment‬‬
‫آزمایش کنترلشده تصادفی‬
‫تعریف آزمایش کنترلشده تصادفی‬
‫آزمایش کنترلشده تصادفی یک روش علمی است که با استفاده از آن میتوانید اثر یک عامل یا مداخله (‪ )Intervention‬را بر روی جامعه موردمطالعه بسنجید‪ .‬در‬
‫این روش نمونهها به شکل تصادفی از جامعه آماری انتخاب و به شکل تصادفی به گروه کنترل و آزمایش تخصیص داده میشوند‪ .‬تنها تفاوت بین گروه کنترل و‬
‫آزمایش در دریافت آن عامل یا مداخله است‪ .‬بهاینترتیب اثر آن عامل یا مداخله بر روی متغیرهای خروجی سنجیده میشود‪.‬‬

‫حال برای آنکه تصمیم گرفته شود که مداخله جدید موثر بوده است یا خیر‪ ،‬به معنیداری آماری (‪ )Statistical Significance‬به عنوان یک معیار مهم باید توجه‬
‫کرد‪ .‬در ادامه به بررسی این مفهوم میپردازیم‪.‬‬

‫‪9‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Statistical Significance:‬‬
‫معنیداری آماری به چه معنی است؟‬

‫مدیر بازاریابی یک شرکت آبمعدنی ادعا میکند زنان بین ‪ ۲۰‬تا ‪ ۴۰‬سال‪ ،‬به نسبت سایر مشتریان در روز آب بیشتری مینوشند‪ ،‬بنابراین باید کمپین تبلیغاتی‬
‫جدیدی برای جذب این بخش از بازار شروع کرد‪.‬‬

‫مشاور مدیریت یک شرکت تولید لوازم الکترونیکی توصیه میکند که اگر کارگران خط تولید کمتجربه به یک دوره آموزشی درباره مدارهای الکترونیکی فرستاده‬
‫شوند‪ ،‬در مدتزمان کمتری میتوانند مدارهای الکترونیکی را سرهمبندی کنند‪.‬‬

‫مدیر یک فروشگاه آنالین تصور میکند اگر کوپنهای تخفیف بیشتری را به مشتریان عرضه کند‪ ،‬میتواند میزان خرید مشتریانش را افزایش دهد‪.‬‬

‫‪10‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Statistical Significance:‬‬
‫معنیداری آماری به چه معنی است؟‬

‫آزمایش رونالد فیشر‪:‬‬


‫• سوال‪ :‬ابتدا شیر ریخته شده است بعد چای یا برعکس؟‬
‫• ادعا‪ :‬زن در مقابل ادعا میکند او قادر است تفاوت فنجان چایی که ابتدا شیر در آن ریخته شده را باآنکه ابتدا در آن چای ریخته شده‪ ،‬تشخیص دهد‪.‬‬
‫• چگونه بفهمیم ادعای زن درست است؟ آیا او واقع اا استعدادی در شناسایی تفاوت این دو حالت دارد؟‬

‫‪11‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Statistical Significance:‬‬
‫طراحی آزمایش فرضیه‬

‫چهار فنجان مخلوط شیر و چای که ابتدا شیر در آن ریخته شده و بعد چای و چهار فنجان‬
‫دیگر که ابتدا چای و سپس شیر در آن ریخته شده است‪ .‬این هشت فنجان را در یک‬
‫سینی بهصورت تصادفی بچینیم‪.‬‬

‫اما چرا هشت فنجان؟ فیشر محاسبه کرده بود که ‪ ۷۰‬حالت مختلف برای چینش این‬
‫هشت فنجان در کنار یکدیگر وجود دارد‪.‬‬

‫در علم آمار به این احتمال‪ ،‬مقدار ‪ p‬و یا ‪ p-value‬گفته میشود‪ .‬این مقدار نشان میدهد‬
‫چه میزان احتمال دارد نتایج بهدستآمده‪ ،‬صرف اا تحت یک فرآیند تصادفی یا به صورت‬
‫شانصی اتفاق افتاده باشد‪.‬‬

‫‪12‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Statistical Significance:‬‬
‫چون تحت شرایط باال درست حدس زدن همه فنجانها مقدار ‪ p‬بسیار کوچکی دارد (معادل ‪ ۱٫۴‬درصد)‪ ،‬فیشر نتیجه گرفت اگر‬ ‫•‬
‫آن زن همه فنجانها را درست تشخیص دهد‪ ،‬میتوان گفت ادعای زن درست است‪.‬‬

‫اگر حاشیه خطا ‪ ۵‬درصد باشد‪ ،‬مفهومش این است که شما با احتمال ‪ ۹۵‬درصد میتوانید مطمئن باشید که نتایج بهدستآمده بر‬ ‫•‬
‫اساس تصادف حاصل نشده است‪.‬‬

‫اگر در این مثال‪ ،‬فرد تنها یک اشتباه داشته باشد‪ ،‬مقدار ‪ p‬نزدیک ‪ ۲۴‬درصد میشود که از حاشیه خطای ‪ ۵‬درصد بزرگتر است‪.‬‬ ‫•‬
‫بهاینترتیب نمیتوان گفت این فرد با کسی که صرف اا بر اساس تصادف حدس میزند‪ ،‬به لحاظ آماری تفاوت معنیداری دارد‪.‬‬

‫فرآیندی که فیشر برای مواجهه با ادعای مطرحشده پیشنهاد کرد به آزمون فرضیه (‪ )Hypothesis Testing‬شناخته میشود و امروزه یکی از مهمترین‬
‫روشهای تصمیمگیری دادهمحور محسوب میشود‪.‬‬

‫‪13‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Hypothesis Tests:‬‬
‫آزمون فرض آماری‬

‫فرض آماری (‪ :)hypothesis‬ادعایی درباره جامعه است که قابل قبول بودن یا نبودن آن را بر اساس دادههای نمونه بررسی میکنیم‪.‬‬

‫مثال‪ :‬در یک کارخانه تیم مهندسی آن ادعا میکند که با اصالحاتی که بر روی قطعهای خاص انجام داده‪ ،‬طول عمر آن را افزایش داده است‪ .‬حال‬
‫میخواهیم قابل قبول بودن این ادعا را بررسی نماییم‪.‬‬
‫فرض ‪ :۱‬میانگین طول عمر قطعه اصالح شده کوچکتر مساوی ‪ ۱۱۰۰‬ساعت است‪.‬‬
‫فرض ‪ :۲‬میانگین طول عمر قطعه اصالح شده بزرگتر از ‪ ۱۱۰۰‬ساعت است‪.‬‬

‫فرض صفر (‪)Null‬‬ ‫‪𝐻0 : 𝜇 ≤ 1100‬‬

‫فرض مقابل یا جایگزین (‪)Alternative‬‬ ‫‪𝐻1 : 𝜇 > 1100‬‬

‫‪14‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Hypothesis Tests:‬‬
‫آزمون فرض آماری‬

‫قواعد‪ :‬همواره فرض ‪ 𝐻0‬شامل = یا ≤ و یا ≥ است‪ .‬و همواره فرض صفر را آزمون میکنیم‪ .‬در واقع ما چیزی را اثبات نمیکنیم و تنها در تالش هستیم‬
‫فرض صفر را رد کنیم‪.‬‬

‫ادعای مساله بنابر نوع بیان آن بر فرض ‪ 𝐻0‬یا فرض ‪ 𝐻1‬منطبق میشود‪.‬‬

‫‪𝐻0 : 𝜇 ≤ 30‬‬
‫مثال ‪ : ۱‬میانگین سن کارکنان شرکت بیش از ‪ ۳۰‬سال است‪.‬‬
‫‪𝐻1 : 𝜇 > 30‬‬

‫‪𝐻0 : 𝜇 ≥ 50‬‬ ‫مثال ‪ : ۲‬میانگین ساعت کاری کارکنان شرکت حداکثر ‪ ۵۰‬ساعت است‪.‬‬

‫‪𝐻1 : 𝜇 < 50‬‬

‫‪15‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Hypothesis Tests:‬‬
‫آزمون فرض آماری‬

‫مراحل آزمون فرض آماری‪:‬‬


‫• فرمولبندی فرض صفر و فرض مقابل (جایگزین)‬
‫• جمعآوری داده‬
‫• تصمیم بر رد کردن یا نکردن فرض صفر‬

‫‪16‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
‫‪Hypothesis Tests:‬‬
‫خطای نوع اول و دوم‬

‫صرفنظر از تصمیم بر رد کردن یا نکردن فرض صفر احتمال خطا وجود دارد‪.‬‬
‫یک نوع خطا زمانی اتفاق میافتد که شما معتقد باشید‪ ،‬دادهها مورد مهمی را نشان میدهند و فرض صفر را رد کنید‪ ،‬در صورتی در واقعیت دادهها به‬
‫صورت شانصی بوده باشند‪ .‬به این نوع خطا میگوییم‪ ،‬خطای نوع اول و احتمال خطای نوع اول را 𝛼 𝑎‪ 𝑎𝑙𝑝ℎ‬مینامیم‪.‬‬
‫نوع دیگر خطا زمانی رخ میدهد که شما فرض صفر را رد نمیکنید‪ ،‬در صورتی که دادهها واقعا به خاطر یک چیز غیرعادی هستند‪ .‬به این نوع خطا‬
‫میگوییم خطای نوع دوم و احتمال آن را )𝛽(𝑎𝑡𝑒𝑏 مینامیم‪.‬‬

‫‪17‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
Hypothesis Tests:

18
Applied Statistic For Machine Learning - Ehsan Maminejad
Hypothesis Tests:
‫قالب کلی آزمونهای فرض یک نمونهای‬

𝐻0 : 𝜇 = 𝜇0
‫دو طرفه‬
𝐻1 : 𝜇 ≠ 𝜇0

𝐻0 : 𝜇 ≤ 𝜇0

𝐻1 : 𝜇 > 𝜇0
‫یک طرفه‬

𝐻0 : 𝜇 ≥ 𝜇0

𝐻1 : 𝜇 < 𝜇0

19
Applied Statistic For Machine Learning - Ehsan Maminejad
‫‪Hypothesis Tests:‬‬
‫آزمون با نمونه بزرگ و انحراف معیار معین‬

‫‪ഥ‬تقریبا نرمال است‪ .‬بنابراین آماره آزمون آن به صورت زیر خواهد بود‪:‬‬
‫در این حالت 𝒙‬

‫مثال ‪ : ۱‬نمونه تصادفی به اندازه ‪ 𝑛 = 100‬از جامعه دارای میانگین ‪ ۲۹‬و انحراف معیار ‪ ۳‬است‪ .‬بر اساس اطالعات نمونه آزمون آماری زیر را در سطح‬
‫معناداری ‪ 𝛼 = 0.1‬انجام دهید‪ .‬در واقع با توجه به آزمون زیر میخواهیم این ادعا را آزمون کنیم که میانگین جامعه ‪ ۳۵‬است‪.‬‬

‫‪𝐻0 : 𝜇 = 35‬‬

‫‪𝐻1 : 𝜇 ≠ 35‬‬

‫‪20‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
Hypothesis Tests:
‫آزمون با نمونه بزرگ و انحراف معیار معین‬


𝒙 = 𝟐𝟗 & 𝑺 = 𝟑

29 −35
𝑛 = 100 > 30 𝑧= 3 = -20 𝑧 = 20
ൗ 100

𝑍𝛼Τ2 = 𝑍0.05 = 1.645


𝑍 > 𝑍𝛼Τ2 ‫رد فرض صفر‬
𝑍 = 20

21
Applied Statistic For Machine Learning - Ehsan Maminejad
‫‪Hypothesis Tests:‬‬
‫مثال ‪ : ۲‬ادعا شده است میانگین برق مصرفی فروردین در یک ناحیه تهران دست کم ‪ ۱۳۰۰‬کیلووات ساعت است‪ .‬بدین منظور یک نمونه تصادفی به تعداد‬
‫‪ ۴۰۰‬خانوارد از آن ناحیه انتخاب شده که میانگین و انحراف معیار برق مصرفی آنها به ترتیب ‪ ۱۲۵۲‬و ‪ ۲۵۷‬کیلووات ساعت است‪ .‬در سطح خطای ‪ ۱‬درصد‪.‬‬
‫این ادعا را بررسی کنید‪.‬‬
‫‪𝐻0 : 𝜇 ≥ 𝜇0‬‬ ‫‪𝐻0 : 𝜇 ≥ 1300‬‬
‫‪𝛼 = 0.01‬‬
‫‪𝐻1 : 𝜇 < 𝜇0‬‬ ‫‪𝐻1 : 𝜇 < 1300‬‬

‫=‪Z‬‬
‫‪1252 −1300‬‬
‫‪= -3.74‬‬ ‫𝛼𝑍‪Z < −‬‬ ‫رد فرض صفر‬
‫‪𝑛 = 400 > 30‬‬ ‫‪257‬‬
‫‪ൗ 400‬‬

‫‪−𝑍𝛼 = −𝑍0.01= - 2.325‬‬

‫‪22‬‬
‫‪Applied Statistic For Machine Learning - Ehsan Maminejad‬‬
Thank you!

Applied Statistic For Machine Learning - Ehsan Maminejad 23

You might also like