Professional Documents
Culture Documents
סיכומי שיעורים עם ילנה-סמסטר א
סיכומי שיעורים עם ילנה-סמסטר א
2020
מרצה :ילנה סטוקלין
יום א' 08:15-10:45
תרגול :שעתיים
elena@mta.ac.il
לינק לZOOM: https://zoom.us/j/96304482336 -
נושאי הקורס
•סטטיסטיקה תיאורית
•הסתברות
•הסקה סטטיסטית
מטרת הקורס:
• לספק כלים לארגון נתונים והסקה ראשונית באמצעים גרפיים וחישובים בסיסיים.
• לנתח את התוצאות המתקבלות.
מבנה הציון:
בוחן אמצע15% -
מבחן מסכם( 85% -אמריקאי)
פרטים על הבוחן:
משך 30 :דק'
הבוחן יכלול 6-8שאלות על הנושאים שיילמדו עד השבוע בו יתקיים הבוחן.
מועד הבוחן :יום שישי 4.12.20בשעה 9:00
פרטים על המבחן המסכם:
שאלות חישוביות וכן הבנה תיאורטית.
Statisticsמהמילה State
השימושים הראשונים של הסטטיסטיקה היו בנושאים מדיניים וצבאיים.
כשמסתכלים על תוצאות (פשוטות ומורכבות ככל שיהיו) חשוב צריך לשאול את עצמינו :
-מי ענה על הסקר?
-את מי זה מייצג?
-האם המדגם שלי הוא מספיק גדול?
*אין צורך במס' משתתפים גבוה בסקר על מנת לייצג קבוצת אוכלוסייה מסויימת.
כל שאלה כזו מתארת תכונה מסוימת באוכלוסייה הנחקרת עליה רוצים ללמוד.
כל תכונה/שאלה נקראת משתנה.
התשובות השונות שנקבל הן למעשה ערכים שהמשתנה יכול לקבל.
אחרי שהסקר ייגמר נרכז את הנתונים ב"טבלה" הנקראת מסד נתונים ( טבלה זו כוללת את כל השאלות ואת כל התשובות.
כלומר -את כל המשתנים ואת כל הערכים שלהם .נתאר זאת משתנים בעמודות ,וכל שורה תייצג תצפית).
סולמות מדידה
תיאור המשתנה ,מספרית וגרפית ,תלוי בסוג הערכים שהוא מקבל.
סוג הערכים שמשתנה מקבל ,מגדיר את סולם המדידה של המשתנה.
*ההבדל בין בדיד לרציף מתבסס על הדרך בה מדדנו את המשתנה .כלומר מהי התשובה עצמה*
כדי שאנחנו נוכל לבנות טבלה מתאימה ,להכין גרף נכון -צריך לשאול "מה סולם המדידה של המשתנה?"
כי בהתאם לסולם המדידה ,בהתאם לסוג של המשתנה -אנחנו בונים טבלה ,גרף ומחשבים מדד מתאים.
אם נרצה לחשב ממוצע לדוגמה ,של מצב משפחתי ,צריך להבין קודם כל האם אפשר בכלל לבצע ממוצע למשתנה כמו מצב משפחתי .וזו
בדיוק הנקודה שחשובה להבהרה.
ברגע שהמשתנה הוא סדר ,ניתן לדרג את הערכים מהנמוך לגבוה .לכן חייבים להציג את זה גם בטבלה ,גם בגרף וגם במדדים.
חשוב לזכור!
הדבר הראשון שצריך לעשות כשבונים טבלת שכיחות של משתנה סדר זה לארגן את הנתונים מהנמוך לגבוה!
דוגמה:
מהו החציון בסדרת הנתונים הבאה? 1,7,4,5,21 :
ראשית כל -נסדר את הסדרה מהנמוך לגבוה .כלומר:
1,4,5,7,21
ואז נמצא את הנתון האמצעי -במקרה זה ,השלישי בגודלו.
ולכן הפתרון הוא. Me(x)=5 :
ב.
◘ מדדי מרכז :שכיח וחציון וממוצע .מתארים באמצעות מס' אחד את מה שקורה במרכז ההתפלגות.
כל אחד מהמדדים האלה עושה את זה בצורה שונה.
שכיח -איפה שנמצאים הרוב – Mo(x) -אפשר לחשב אותו עבור כל משתנה!
חציון -מתאר את האמצע בדיוק – Me(x) -ניתן לחשב רק למשתנה סדר/כמותי! הוא תמיד יהיה במקום ה n+1חלקי .2
ממוצע -מתאר את הרמה הכללית של התופעה-
במדדי המרכז ,כל הוספה/הפחתה/הכפלה/חילוק של קבוע גם מדדי המרכז ישתנו באופן ישיר באותו הקבוע.
בשאלה 27הטרנספורמציה הליניארית היא ( 2כי הוסיפו 2לכל ציון בתנך).
שכיחMo(x)=0 :
חציון( Me(x)=1 :הערך שבו בפעם הראשונה אני עוברת 50%מהמקרים).
כלומר ל 50%-מהנבדקים יש ילד 1או פחות ,ול 50%-האחרים יש יותר מ.1-
זה סימן שמקצר כתיבה סטטיסטית .משמעותו :לסכם מהאיבר הראשון עד האיבר האחרון. סימן סיגמה-
ברגע שהנתונים מסודרים בטבלת שכיחות ,חשוב להבין שכל ערך מופיע מס' שונה של פעמים.
על מנת לחשב ממוצע ,נכפיל את ה X-ב ,f(x) -נחבר את כל הערכים הללו ,ונחלק ב.N-
= בדוגמה לעיל ,זה ייראה כך2*4 + 1*3 + 5*2 + 4*1 + 8*0 :
N
שיעור -4יום א' 08/11/2020
שינוי ליניארי בנתונים
אם נוסיף ₪ 2,000לכל עובד ,כל עובד משתכר יותר באותה המידה ,ולכן נוכל להגיד בביטחון שהממוצע עלה מ 9-אש"ח ל11-
אש"ח.
*כל מדדי המרכז ניתנים לחישוב בצורה דומה :גם לשכיח ולחציון.
אותו עיקרון מתקיים גם כאשר כופלים (או מחלקים) כל נתון במספר קבוע .הממוצע משתנה בהתאם.
בדוגמה שלנו :תוספת של 10%שקולה לכך שנכפול כל נתון ב .1.1
*חשוב לציין ,ש 10%-זה לא כמו להוסיף מספר קבוע לכולם -זה אומר שהתוספת היא יחסית למה שהיה במקור ,לשכר הקודם
של העובד .אבל (!!!) ,כשמדברים על ממוצע (כלומר המס' שמייצג את כלל הערכים) לאחר השינוי ,ישתנה פי אותו נתון קבוע.
ולכן הממוצע החדש יהיה9 * 1.1 = 9.9 :
השכר הפך להיות 110%מהשכר הקודם ,ולכן הממוצע החדש באופן יחסי גדל להיות 9.9אש"ח.
כלומר למרות שהממוצע והחציון הוא אותו הדבר -עדיין יש הבדלים בין הקבוצות .מדדי מרכז לא נותנים את התמונה הרחבה.
טווח Range
טווח הערכים מתאר את פיזור הנתונים ,ונקבע ע"י הנתונים הקיצוניים ביותר (דוגמת ציוני התלמידים ,הכי גבוה 100והכי נמוך .)0
ההפרש בין הערך הגבוה ביותר והערך הנמוך יותר בנתונים.
מתבסס רק על הערכים של ה ,X-על הקצוות ,ומתעלם לגמרי ממה שקורה במרכז ההתפלגות.
סימוןR(x) :
לדוגמה:
• מה טווח הערכים של המשכורות בחברה א'?
תשובה=R(x) 12 – 5 = 7 :
– Inter Quartile Rangeהפער בין שני הרבעונים תחום בין רבעוני-
מדד שלא רגיש לתצפיות חריגות (מתעלמים מהתצפיות הנמוכות והגבוהות ביותר).
המטרה :לתאר את הפיזור של 50%מהנבדקים שנמצאים במרכז ההתפלגות.
אם כך יש להוריד 25%מהתצפיות מכל צד.
סימוןIQR(x) :
בדוגמה שלהלן:
• רבעון תחתוןQ1 = 0 :
• רבעון עליוןQ3 = 2 :
כלומר ,התחום הבין רבעוני הוא:
IQR = 2-0 = 2
שונות ( )Varianceוסטיית תקן (
)Standard deviation
כדי לחשב את הפיזור של כל הערכים ,צריך משהו לייחס
אליו את הערכים ,ולכן נחשב קודם כל את הממוצע.
שונות -בשביל לקבל מדד אחד שמייצג את כל הנתונים ,היה נכון לחשב ממוצע של המרחקים.
לפני זה ,עלינו לוודא שכל המרחקים חיוביים .הפתרון :נעלה כל מרחק בריבוע.
כלומר -שונות זה מדד שמתאר את הפערים מהממוצע ,בריבוע.
שונות היא ממוצע של ריבועי ההפרשים מהממוצע.
סטיית תקן
מדד הפיזור הנפוץ ביותר בתיאור משתנים כמותיים.
על מנת לקבל מדד שיחידות המדידה שלו זהות למשתנה המקורי ,מוציאים שורש מהשונות ומקבלים סטיית תקן.
ככל שסטיית התקן גדולה יותר -הפערים גדולים יותר .זה הוא סדר גודל של מרחק מהממוצע.
בדוגמה שלנו-
באופן כללי-
תשובה:
הממוצע של המשכורות9 :
השונות6 :
סטיית התקן2.45 :
אם השכר הממוצע היה ,9אז לאחר השי לחג בסך 2,000שקלים הממוצע יעלה ל.11-
במקרה כמו זה של תוספת ב ,10%-נוכל לחשב במהירות את השונות ע"י הכפלת השונות פי הקבוע ,בריבוע!
לסיכום,
♦ סטיית התקן אינה מושפעת מתוספת/חיסור של קבוע ,אך משתנה בהתאם כתוצאה מהכפלה/חילוק בקבוע.
♦ כל מדדי הפיזור ,למעט השונות ,ניתנים לחישוב בצורה דומה :הכלל נכון גם לטווח הערכים וגם לתחום הבין רבעוני.
♦ לגבי השונות :כשמכפילים/מחלקים את כל הנתונים באותו קבוע יש לכפול את השונות פי הקבוע בריבוע.
מדדי מיקום יחסי-אחוזונים
♦ הכרנו כבר את החציון ,שמחלק את המדגם ל 2-חלקים :נמוך וגבוה ,כשחצי מהמדגם נמצא בכל צד.
♦ רבעונים חילקו את המדגם לחלק נמוך וגבוה ,אך לא בחלקים שווים:
ברבעון התחתון קיבלנו שרבע מהמדגם נמוך ממנו או שווה לו ,והשאר -גבוה.
ברבעון העליון קיבלנו ש 75%-מהמדגם נמוכים ממנו או שווים לו ,והשאר= גבוהים.
♦ בצורה דומה -ניתן להגדיר חלוקה של המדגם לחלק נמוך וגבוה לפי כל אחוז שהוא.
למשל :אנו מכירים חלוקה לעשירונים -העשירון העליון של השכר מחלק את כלל המשכורות כך ש 90%-נמוכות ממנו או שוות לו ,והשאר -גבוהות.
ציוני תקן
מדד לחריגות של נתונים ,המודד כמה סטיות תקן יש מעל/מתחת לממוצע נמצא נתון כלשהו.
בנוסף ,ציוני תקן מאפשרים לנו להשוות נתונים שמגיעים מהתפלגויות שונות.
לדוגמה:
זו הנוסחה:
עוד דוגמא:
שכר:
ממוצע7,200 :
סטיית תקן1,500 :
נתון העובד₪ 6,000 :
שנות לימוד:
ממוצע12.6 :
סטיית תקן3.2 :
נתון העובד 11 :שנים
לדוגמה:
הערכה סובייקטיבית -לא מבוססת על ניסיון .הערכה אישית שיכולה להשתנות בין כל אחד ואחד.
לדומה כששואלים "מה הסיכוי שהכנסת הבאה תתפזר לפני הזמן?" .אין לזה תשובה חד משמעית.
כללים:
♦ כל תוצאה חייבת להופיע במרחב המדגם ,ויכולה להופיע פעם אחת בלבד (כל אפשרות נרשמת פעם אחת).
♦ סדר התוצאות בתוך מרחב המדגם הוא חסר משמעות.
חשוב להבין!
הסדר בין הזוגות (התוצאות) הוא חסר משמעות.
לעומת זאת ,הסדר בתוך כל תוצאה הוא משמעותי.
מאורע
הגדרה :מאורע הוא אוסף חלקי של מרחב המדגם.
מאורעות זרים
מאורעות כאלו ,החיתוך ביניהם הוא מאורע ריק.
מדובר על מאורעות שלא יכולים להתרחש בו זמנית.
הצגה גרפית
דוגמה נוספת:
המאורע המשלים ("לא")
הגדרה :המאורע " Aמשלים" הוא אוסף כל המאורעות הפשוטים שנכללים במרחב המדגם אך לא במאורע .A
משמעות :מאורע המכיל את כל תוצאות הניסוי שיתרחשו כאשר המאורע Aלא מתרחש .כל מה ששייך למרחב
המדגם אבל לא שייך למאורע עצמו.
כל מה שהוא לא Aזה אומר מרחב המדגם חוץ מ.A-
הצגה גרפית:
הגדרת ההסתברות במרחב המדגם
מגדירים לכל מאורע Aבמרחב המדגם הסתברות )=Probability( P(Aהסתברות).
הסתברות חייבת לקיים את הדרישות הבאות:
.1הסתברות זה תמיד מספר בין 0ל .1-זה יהיה 0כשזה מאורע בלתי אפשרי (מאורע ריק).
נוסחאות
תיאור מילולי:
) =(Aענת לא תזכה ()0.6 P
) =(Bאו ענת או נירית יזכו ()0.55=0.4+0.15 P
) =(Cענת+נירית+יונתן ()0.75=0.4+0.15+0.2 P
תשובות:
בהצגה גרפית:
דוגמה נוספת
לבוחן:
♦ מותר דף נוסחאות
♦ מחשבון
♦ שאלות אמריקאיות
מומלץ :לעשות את התירגול באתר ,ולתרגל את ההסתברות מחוברת תרגילים.
שיעור -8יום א' 06/12/20
הסתברות מותנית
לפעמים ידע חלקי על תוצאת הניסוי יכול להשפיע על ההסתברות של מאורע מסוים.
כשיודעים מידע חלקי על תוצאות הניסוי ,יכול להיות שזה משפיע ויכול להיות שלא.
אם זה משפיע -הסתברות מותנית.
לדוגמה:
-ההסתברות שתתרחש תאונה
-ההסתברות שתתרחש תאונה אם ידוע שיורד שלג
סימון -P(B\A) :ההסתברות שיקרה מאורע Bבתנאי שידוע כי מאורע Aכבר קרה.
לפני הסלאש -כותבים את מה שמחפשים או רוצים לגלות ,ואחרי הסלאש -כותבים את מה שידוע (את התנאי).
במצב כזה -מרחב המדגם משתנה בהתאם לתנאי.
P(A\B)= 2/4
מרחב המדגם שלי הצטמצם ל .3,4,5,6ואז הסיכוי יהיה.4\2 -
○ כלומר -ברגע שיש לנו תנאי >--זה משנה את מרחב המדגם ומשנה את ההסתברות של המאורע.
זה הופך להיות הסתברות של 2מתוך 4ולא מתוך ! 6
חישוב הסתברות מותנית
מתבסס על החלק היחסי של מרחב המדגם.
ההסתברות המותנית היא הסיכוי להתרחשות של שני מאורעות ,חלקי ההסתברות המותנית (ההסתברות של התנאי
שידוע לנו).
המשמעות :הסתברות מותנית הינה הסיכוי שיתרחש גם Aוגם Bמתוך מרחב מדגם מצומצם -מתוך הידוע.
P(A)= 0.6
P(B)=0.2
P(C)=0.2
3סוגי טחינות :דקה ,בינונית וגסה.
שאלה :לקוח קנה קפה מטחינה בינונית .מה ההסתברות שהקפה נטחן ע"י מכונה ?A
כלומר ,התנאי (מה שידוע) הוא הסתברות הטחינה הבינונית.
מה שאנחנו מחפשתים הוא ההסתברות שהקפה נטחן ע"י מכונה A
דוגמה :2
דוגמה :1
**חשוב לשים לב -כתוב בצורה מפורשת שהם בלתי תלויים.
מה הסיכוי שבני יחליט לצפות ב"אח החורג"? א.
תשובה0.4 :
מה הסיכוי שבני יחליט לצפות ב"האח החורג" ויוחנן ב"נולד לשיר"? ב.
תשובה0.12=0.3*0.4 :
מה הסיכוי ששניהם לא יצפו ב"נולד לשיר"? ג.
תשובה0.49=0.7*0.7 :
דוגמה : 2
n....0,1,2 = X
לדוגמה:
מס' הענפים בדוגמת הצלף המתאימים ל-
2הצלחות בדיוק הוא:
**חוק-
כל מס' מעל 1יהיה שווה למספר במונה.
כל מס' מעל 0תמיד יהיה שווה .1
אופן החישוב:
מס' הצלחות מבוקש = K
כ
זה מה שאנחנו מצפים לקבל בממוצע אם אנחנו חוזרים על הניסוי אינסוף פעמים. תוחלת
שיעור מס' -10יום א' 20/12/2020
התפלגות נורמלית
התפלגות שמתארת משתנים כמותיים רציפים. -
סימטרית -
השכיח נמצא במרכז ההתפלגות -
דעיכה בקצוות -
מאמינים שרוב התכונות הפיסיקליות ,פסיכולוגיות וכו מתאימות להתפלגות זו. -
בעלת חשיבות רבה בהסקה סטטיסטית. -
מאחר שמדובר בהתפלגות רציפה ,נצטרך טכניקות חדשות לחשב הסתברות. -
צורת הפעמון נקבעת ע"י 2פרמטרים של ההתפלגות והם התוחלת של ההתפלגות והשונות של ההתפלגות.
התוחלת קובעת את מיקום מרכז ההתפלגות ,והשונות את הפיזור סביב התוחלת.
,ואת השונות באות נהוג לסמן את התוחלת של ההתפלגות הנורמלית באות היוונית
בהתפלגות מס' 1התוחלת שווה לתוחלת של התפלגות מס' .2אם כי הפיזור שלהן שונה.
התפלגות 3דומה בפיזור שלה להתפלגות ,1אך התוחלת שונה.
לפי ציון התקן ,ניתן לראות כי עובד ב' רחוק יותר מהממוצע ,ולכן נרצה להעסיק את עובד ב'.
דוגמה נוספת:
עדיף כמה שפחות זמן שירוץ או ישחה -כי ככה זה אומר שיש לו סיכוי גבוה יותר לנצח בתחרות.
ב 2-הענפים מצבו לא רע.
אבל!
בשחייה מצבו טוב יותר ,מכיוון שהוא רחוק יותר מהממוצע ,משמע הוא שוחה מהר יותר.
בהקשר לסיפור הזה ,עדיף להיות כמה שיותר רחוק מהממוצע ומתחת מהממוצע (כי מדובר בריצה ושחיה).
כל מספר שהוא מעבר למס' האחרון הטבלה -הוא למעשה כל השטח ,כלומר -הוא שווה ל . 1
סכום של כל ההסתברויות חייב להשלים ל.1-
דוגמה נוספת:
נחשב זאת כך :נחשב את השטח עד 2.3ונחסיר ממנו את השטח עד 1.23
אם מחפשים ערך כמו -0.25נחפש אותו בטבלה של המינוס (כי הטבלה של המינוס מסתיימת בערך הכי גבוה .)0.5
דוגמה נוספת:
תשובה:
* חשוב לזכור -התוחלת של ציוני תקן היא תמיד ,0וסטיית התקן של ציוני תקן היא תמיד .1
אם כן ,התשובה היא 3.84% :מהנבחנים קיבלו ציון מעל 725בפסיכומטרי.
אם נחפש את אחוז הנבחנים שקיבלו מעל ,590בהתפלגות נורמלית סימטרית נוכל לענות על השאלה הזאת בקלות ללא
חישוב נוסף.
בגלל ש 590הוא 60מעל הממוצע ,ו 470-הוא 60מתחת לממוצע ,נוכל לדעת בקלות את ה Z-מעל ,590אותו מספר רק
בפלוס .כלומר ,ציון התקן יהיה , 0.55ולכן השטח יהיה אותו השטח .נחפש את השטח בטבלה ונעשה 1פחות השטח שמצאנו.
כי כזכור -בטבלה תמיד מופיע השטח עד אותו ציון תקן .ולכן יש לבצע חישוב נוסף על מנת למצוא את השטח שהוא מעל .590
החישוב הוא:
שאלה נוספת :מהו אחוז הנבחנים שציונים נמצא בטווח של לכל היותר סטיית תקן אחת מהתוחלת?
נצטרך לחפש את אחוז הנבחנים שבין הציונים 420ל640-
זה הוא חישוב אוניברסלי ,כי בעצם לפי התרגיל ,השטח שאנחנו מחפשים הוא בין ציון תקן 1לבין ציון תקן . -1
לסיכום,
שלב -1נצייר מה אנחנו מחפשים על מנת להבין איזה ערך אנחנו מחפשים. ב.
שלב -2נחפש ציון תקן בטבלת Zלפי חיפוש שטח שהוא ,0.3קיבלנו Z = -0.52
לסיכום,
מקרה ראשון :כשהאוכלוסייה מתפלגת נורמלית (היקף חזה ממוצע של חיילים סקוטיים)
ככל שלוקחים מדגם יותר גדול >--הפיזור הולך ונהיה יותר ויותר קטן
התפלגות הממוצעים
♦ ממוצע ההתפלגות זהה לממוצע האוכלוסייה (תוחלת).
♦ במדגם גדול התפלגות הממוצעים תתפלג נורמלית ,ללא קשר להתפלגות המקורית של האוכלוסייה.
כלומר זוהי סטיית התקן של הממוצעים. ♦ לסטיית תקן זו (של התפלגות הממוצעים) קוראים טעות תקן-
דוגמה :ציונים
נכתוב זאת כך :
א .לא ניתן לחשב! אם לא אמרו לנו בפירוש שזה מתפלג נורמלי -אי אפשר לגשת לשאלה ולחפש בטבלת .Z
בn=400 .
ההתפלגות של הממוצעים כן תהיה נורמלית אם אותה התוחלת ( )7000עם סטיית תקן חלקי שורש .n
לסיכום,
♦ אם השאלה מתייחסת לערך משתנה ( ,)Xאז נעשה פעולת תקנון לפי הנוסחה שאנחנו מכירים ,ונחפש בטבלה.
♦ אם השאלה מתייחסת לממוצע המדגם ,אז צריך לדעת את ההתפלגות של הממוצעים (שידוע שהיא תהיה
נורמלית אם ניקח מדגם של לפחות ,30עם אותה תוחלת ,אך סטיית התקן תהיה יותר קטנה -בשורש .) n
כלומר נחפש את טעות התקן .במקום Xנכתוב ממוצע ,ונחלק בסטיית התקן חלקי שורש .n
שאלת חזרה
פתרון
שיעור מס' -11יום א' 03/01/2020
הגדרות:
○ מדגם :קבוצה קטנה ,חלקית
○ אוכלוסייה :אינסופי
○ סטטיסטי :גודל שמאפיין את המדגם
○ פרמטר :גודל שמאפיין את האוכלוסייה
ממוצע המדגם הוא סטטיסטי. של ההתפלגות היא פרמטר ,ואילו כלומר :התוחלת
= אומד נקודתי( .מס' אחד בלבד שבאמצעותו אני מעריכה מה אני מצפה לקבל באוכלוסייה).
אומדים:
לשם כך יש צורך במדגם ,ממנו מפיקים סטטיסטי ,ומקוים (מאוד) שיהיה קרוב לפרמטר (לתוחלת ,הממוצע באוכלוסייה).
הבעיה:
באמצעות אמידה נקודתית אי אפשר לדעת עד כמה ההערכה היא מדויקת.
○ נתון מדגם ,עבורו חישבנו את הממוצע .ממוצע זה יכול לתת הערכה ראשונית לגבי ערכה של התוחלת באוכלוסייה.
○ אבל -האם נוכל לדעת בוודאות כמה רחוק הממוצע הזה מהתוחלת?
למשל :נמצא שהגובה הממוצע של קבוצת ילדים הוא 158ס"מ.
נוכל להעריך:
בביטחון גבוה :שתוחלת הגובה היא בין 62ס"מ ל 210-ס"מ .אבל זה לא מדויק ולא באמת אינפורמטיבי.
בביטחון נמוך :שתוחלת הגובה היא בין 157ל 159-ס"מ .זוהי הערכה מדויקת ,אבל קיים סיכוי לא מבוטל שהיא אינה נכונה.
הפתרון:
◘ אם כך ,קיימת תחלופה ( )Tradeoffבין רמת הדיוק של טווח הערכים ורמת הביטחון של הטווח (פשרה).
◘ הפתרון המקובל הוא לקבוע מהי רמת הביטחון (רמת הסמך) בה אנחנו מעוניינים ,והדיוק מתקבל בהתאם.
◘ רמת הביטחון המקובלת נקבעת ברמה של ( 95%אך זה לא חובה) שזהו למעשה מרחק של 2טעויות תקן.
זה משהו שקובעים מראש בתחילת התרגיל ,תמיד יגידו לנו את זה בשאלה.
רמת סמך/רמת ביטחון מסמנים כך:
○ ברמת בטחון של 68%נסיק ,ששגיאת האמידה היא =( 0.2טעות תקן אחת) ,ותוחלת זמן ההמתנה היא בין 2.8ל 3.2-דקות.
○ ברמת בטחון של 95%נסיק ,ששגיאת האמידה היא =( 0.4שתי טעויות תקן) ,ותוחלת זמן ההמתנה היא בין 2.6ל 3.4-דק'.
○ ברמת בטחון של כמעט 100%נסיק ,ששגיאת האמידה היא 3( 0.6טעויות תקן) ,ותוחלת זמן ההמתנה היא בין 2.4ל. 3.6-
אם בפנים ,0.9ובצדדים זה 5%מכל צד ,אז השטח הוא השטח עד אחוזון .95
ובאופן כללי:
טעויות תקן מהממוצע שהתקבל במדגם. נוכל לקבוע שהתוחלת נמצאת במרחק של ברמת ביטחון של
רווח בר סמך לתוחלת (כאשר השונות ידועה):
שגיאת האמידה/טעות הדגימה -עד כמה התוצאה שקיבלתי במדגם יכולה לסטות מהתוצאה האמיתית באוכלוסייה
עצמה ,לכל כיוון .נקראת גם "הסטייה המרבית בין ממוצע המדגם לתוחלת" ,כי ניתן להראות ש:
סימוןd :
תשובה:
שגיאת האמידה:
נתון ש:
לכן:
כי מותר לי לדגום יותר ,אסור לי לדגום פחות . ≤ הסימון הוא
באופן כללי חישוב גודל המדגם:
אם נרצה למצוא את גודל המדגם כך שהשגיאה באמידה (הסטייה המירבית) לא תעלה על גודל מסוים:
דוגמה
מהו רווח הסמך? מהי שגיאת האמידה? מהו אורך הרווח? השאלה:
פתרון:
◘ בדיקת השערות -ישאלו במבחן על המושגים של השיטה ,אבל השיטה עצמה ניבחן כבר בסמסטר הבא...
השערת -H0תמיד תתאר את המצב הקיים /ברירת המחדל .נקרא לה -השערת האפס /השערה סקפטית.
השערת -H1זו תמיד השערה שטוענת לחדשנות .נקרא לה -השערת המחקר /טענת החוקר /ההשערה האלטרנטיבית.
במחקרים ,בפועל ,השערות אלו מתורגמות להשערות לגבי פרמטר כלשהו של האוכלוסיה הנבדקת.
למשל:
תוחלת מס' ההחלטות ה"מסוכנות" שקיבלו נשים בסימולציה כלשהי ,לעומת תוחלת מס' ההחלטות ה"מסוכנות" שקיבלו גברים
באותה סימולציה.
כללי החלטה:
בסופו של דבר ,החוקר צריך להכריע בין 2ההשערות על סמך תוצאות המדגם.
הגישה היא שמאמינים להשערת האפס אלא אם כן תוצאת המדגם לא סבירה תחת השערה זו.
האם תוצאות המדגם מספקות אותנו?
דוגמה:
במערכת המשפט מקובלת חזקת החפות.
כלומר -נאשם נחשב חף מפשע עד שלא הוכחה אשמתו מעבר לספק סביר.
בהנחה שבתי המשפט אכן פועלים לפי גישה זו:
שאלה :מהו החשד לגביו? על סמך הראיות? האם כל שופט יסיק מסקנה זהה?
טעות מסוג ראשון :טעות בה מחליטים ש H1-נכונה ,אבל בפועל H0נכונה .זה נקרא -תגלית שגויה.
טעות מסוג שני :עלולה להתרחש כאשר החוקרים מחליטים ש H0-נכונה ,אבל בפועל H1נכונה .זה נקרא -פספוס תגלית
סימון:
- H0אומרת שהתרופה החדשה יעילה באותה המידה כמו התרופה הקיימת (עד שלא הוכחנו אחרת ,התרופה החדשה
יעילה באותה במידה לתרופה הקיימת .תמיד השערת H0תתאר את המצב הקיים ,זו תמיד השערה סקפטית).
- H1אומרת שהתרופה של חברת התרופות יותר יעילה (השערת החוקר טוענת לחדשנות).
אנחנו מחפשים טעות מסוג שני ,זה הסיכוי שהחוקר יגיד שהשערת H0נכונה ,אבל בפועל H1תהיה הנכונה.
תשובה:
בשאלה 11
אם רמת הביטחון גדלה (וכל יתר הגורמים נשארים קבועים) >--גדל אורך רווח הסמך.
כשמגדילים את רמת הביטחון ,ממוצע המדגם לא משתנה.
תשובות: