You are on page 1of 91

‫שיעור ראשון בסטטיסטיקה ‪18.10.

2020‬‬
‫מרצה‪ :‬ילנה סטוקלין‬
‫יום א' ‪08:15-10:45‬‬
‫תרגול‪ :‬שעתיים‬
‫‪elena@mta.ac.il‬‬
‫לינק ל‪ZOOM: https://zoom.us/j/96304482336 -‬‬

‫נושאי הקורס‬
‫•סטטיסטיקה תיאורית‬
‫•הסתברות‬
‫•הסקה סטטיסטית‬

‫מטרת הקורס‪:‬‬
‫• לספק כלים לארגון נתונים והסקה ראשונית באמצעים גרפיים וחישובים בסיסיים‪.‬‬
‫• לנתח את התוצאות המתקבלות‪.‬‬

‫מבנה הציון‪:‬‬
‫בוחן אמצע‪15% -‬‬
‫מבחן מסכם‪( 85% -‬אמריקאי)‬
‫פרטים על הבוחן‪:‬‬
‫משך‪ 30 :‬דק'‬
‫הבוחן יכלול ‪ 6-8‬שאלות על הנושאים שיילמדו עד השבוע בו יתקיים הבוחן‪.‬‬
‫מועד הבוחן‪ :‬יום שישי ‪ 4.12.20‬בשעה ‪9:00‬‬
‫פרטים על המבחן המסכם‪:‬‬
‫שאלות חישוביות וכן הבנה תיאורטית‪.‬‬

‫בשעת התירגול יינתנו ‪ 9‬תרגילי הגשה‬


‫הגשת ‪ 8‬מתוך ‪ 9‬התרגילים תזכה בבונוס של ‪ 3‬נק לציון הסופי‪ .‬ההגשה מתבצעת דרך ה"מאמא"‪.‬‬
‫תוך בערך שבוע מקבלים תשובות על התרגילים שהגשנו‪.‬‬
‫*חובה לעקוב אחרי רישום ההגשה‪ ,‬ולשמור את התרגילים הבדוקים עד לפרסום ציון סופי בקורס*‬

‫*מומלץ לשמור את המצגת שהועלתה‬


‫*השיעורים לא יוקלטו!‬
‫מהי סטטיסטיקה ?‬
‫כמעט בכל מחקר אמפירי צריך ידע בניתוח נתונים סטטיסטי‪.‬‬
‫• הסטטיסטיקה היא מדע העוסק בנתונים כמותיים‪ ,‬איסופם‪ ,‬עיבודם והסקת מסקנות מהם‪.‬‬
‫• סטטיסטיקה תיאורית עוסקת בארגון‪ ,‬סיכום‪ ,‬והצגה גרפית של מידע מתוך הנתונים‪.‬‬
‫• הסקה סטטיסטית עוסקת בהסקת מסקנות מן המדגם לגבי האוכלוסייה‪.‬‬

‫‪ Statistics‬מהמילה ‪State‬‬
‫השימושים הראשונים של הסטטיסטיקה היו בנושאים מדיניים וצבאיים‪.‬‬
‫כשמסתכלים על תוצאות (פשוטות ומורכבות ככל שיהיו) חשוב צריך לשאול את עצמינו ‪:‬‬
‫‪ -‬מי ענה על הסקר?‬
‫‪ -‬את מי זה מייצג?‬
‫‪ -‬האם המדגם שלי הוא מספיק גדול?‬

‫‪Fun Fact ‬‬


‫סקרי בחירות מתבססים על ‪ 500‬איש (בלבד)‪.‬‬

‫*אין צורך במס' משתתפים גבוה בסקר על מנת לייצג קבוצת אוכלוסייה מסויימת‪.‬‬

‫• חשוב לדווח על התוצאות כמו שצריך‪.‬‬


‫• לא חובה להציג תוצאה בגרף‬
‫(ראו דוגמה "הלשכה המרכזית לסטטיסטיקה מפרסמת את השכר הממוצע של השכירים במשק‪ ,‬שהוא ‪." ₪ 11,651‬‬
‫המשמעות היא שאם היינו מחלקים את הכסף שווה בשווה זה מה ששכיר היה מרוויח)‪.‬‬
‫דוגמה‪ :‬מפקד אוכלוסין‬
‫איזה שאלות שואלים במפקד אוכלוסין? (דוגמה מארה"ב ‪)1993‬‬
‫‪-‬גיל‬
‫‪-‬מין‬
‫‪-‬השכלה‬
‫‪-‬מצב משפחתי‬
‫‪-‬דת (או מידת דתיות)‬
‫‪-‬מס' ילדים‬

‫כל שאלה כזו מתארת תכונה מסוימת באוכלוסייה הנחקרת עליה רוצים ללמוד‪.‬‬
‫כל תכונה‪/‬שאלה נקראת משתנה‪.‬‬
‫התשובות השונות שנקבל הן למעשה ערכים שהמשתנה יכול לקבל‪.‬‬
‫אחרי שהסקר ייגמר נרכז את הנתונים ב"טבלה" הנקראת מסד נתונים ( טבלה זו כוללת את כל השאלות ואת כל התשובות‪.‬‬
‫כלומר‪ -‬את כל המשתנים ואת כל הערכים שלהם‪ .‬נתאר זאת משתנים בעמודות‪ ,‬וכל שורה תייצג תצפית)‪.‬‬

‫זוהי סטטיסטיקה תיאורית‪.‬‬

‫איך נתאר משתנים? (‪ 3‬שיטות)‬


‫• ארגון נתונים בטבלת שכיחויות‪.‬‬
‫• הצגה גרפית של הנתונים‪.‬‬
‫• חישוב מדדים מייצגים‪ ,‬והבנת המשמעויות שלהם‪.‬‬

‫סולמות מדידה‬
‫תיאור המשתנה‪ ,‬מספרית וגרפית‪ ,‬תלוי בסוג הערכים שהוא מקבל‪.‬‬
‫סוג הערכים שמשתנה מקבל‪ ,‬מגדיר את סולם המדידה של המשתנה‪.‬‬

‫•איזה סוגים של תשובות קיבלנו?‬


‫לדוגמה‪ :‬מספריות‪ ,‬מילוליות‪.‬‬
‫גם בתשובות מילוליות ישנם הבדלים בין‬

‫נבחין בין ‪ 3‬סוגי משתנים‪ -‬סולמות מדידה‬


‫• שמי (נומינלי)– הערכים הם שמות או תוויות (ללא משמעות לגודל או לסדר)‪.‬‬
‫למשל ‪ :‬מין‪ ,‬מצב משפחתי‪ ,‬דת‪ ,‬צבע עיניים‪ ,‬מס' ת"ז‪ .‬הערכים הם במילים ("רווק‪/‬גרוש‪/‬אלמן")‪.‬‬
‫• סדר (אורדינלי)‪ -‬הערכים הם שמות או תוויות עם סדר ביניהם (ללא משמעות כמותית)‪.‬‬
‫למשל‪- :‬מידת שביעות רצון (יש היררכיה ברורה‪ ,‬ניתן לסדר ערכים מהנמוך לגבוה‪ ,‬ומצד שני אין משמעות כמותית)‪.‬‬
‫‪-‬דרגות בצבא (יש סדר ברור‪ ,‬אבל אי אפשר לבדוק את המשמעות הכמותית של הדרגות עצמן)‪.‬‬
‫‪-‬רמת ההשכלה (יסודי‪ ,‬תיכון‪ ,BA ,‬דוקטורט‪ )...‬לא ניתן לכמת את המרחקים אבל ברור לנו שיש היררכיה‪.‬‬
‫• כמותי בדיד‪/‬רציף‪ -‬הערכים הם מספרים שניתנים למדידה מדויקת‪.‬‬
‫למשל‪ :‬מס' ילדים‪ ,‬משקל‪ ,‬גובה‪.‬‬
‫משתנה כמותי מתחלק ל‪ 2-‬תתי קבוצות ‪:‬‬
‫*בדיד – חייב להיות מספר‪ ,‬אבל הערכים שלו בדידים‪ .‬יש קפיצות ברורות בין הערכים‪.‬‬
‫לדוגמה ‪ :‬מס' ילדים‪ ,‬מס' מכוניות במשפחה‪ ,‬מס' איחורים לשיעור‪ ,‬מס' חדרים בדירה‪ ,‬גם גיל יכול להיכנס לכאן‪.‬‬
‫*רציף‪ -‬בין ‪ 2‬ערכים עוקבים יש אינסוף קפיצות‪ .‬בין ‪ 2‬ערכים יש המון אופציות (אפשר למדוד משקל לפי‬
‫קילוגרמים‪ ,‬גרמים וכ"ו)‪.‬‬
‫לדוגמה‪ :‬משקל‪ ,‬גובה‪ ,‬טמפ'‪ ,‬גיל‪.‬‬

‫*ההבדל בין בדיד לרציף מתבסס על הדרך בה מדדנו את המשתנה‪ .‬כלומר מהי התשובה עצמה*‬

‫שיעור ‪ -2‬יום א' ‪25/10/2020‬‬


‫דוגמה למשתנה שמי (אין כאן היררכיה‪ ,‬ואין כאן מספור לכל סיבה וסיבה)‪:‬‬

‫כדי שאנחנו נוכל לבנות טבלה מתאימה‪ ,‬להכין גרף נכון‪ -‬צריך לשאול "מה סולם המדידה של המשתנה?"‬
‫כי בהתאם לסולם המדידה‪ ,‬בהתאם לסוג של המשתנה‪ -‬אנחנו בונים טבלה‪ ,‬גרף ומחשבים מדד מתאים‪.‬‬
‫אם נרצה לחשב ממוצע לדוגמה‪ ,‬של מצב משפחתי‪ ,‬צריך להבין קודם כל האם אפשר בכלל לבצע ממוצע למשתנה כמו מצב משפחתי‪ .‬וזו‬
‫בדיוק הנקודה שחשובה להבהרה‪.‬‬

‫‪( X‬העמודה השמאלית) – שם המשתנה‪.‬‬


‫)‪( f(x‬העמודה האמצעית)‪ -‬השכיחות ‪,‬‬
‫כלומר מס' הפעמים שאותו ערך‬
‫חוזר על עצמו‪ .‬כמה נבדקים יש בכל‬
‫ערך‪.‬‬
‫‪( N‬עמודה אמצעית למטה)‪ -‬זה ה‪.Total‬‬
‫כלומר גודל הקבוצה הנחקרת‪.‬‬
‫‪( Percent‬העמודה הימנית) – שכיחות‬
‫יחסית באחוזים (העמודה האמצעית חלקי‬
‫ה‪ TOTAL‬כפול ‪.)100‬‬

‫טבלת שכיחויות משותפת‬


‫• לפעמים נתעניין בשכיחויות של שני‬
‫משתנים בבת אחת‪.‬‬
‫• למשל‪ ,‬בדוגמה הקודמת תיארנו‬
‫בטבלה את השכיחויות של המצב המשפחתי‪ .‬אך מה אם נרצה להשוות את המצב המשפחתי של נשים וגברים?‬
‫• לצורך זה עלינו לספור כמה נבדקים יש בכל צירוף של מצב משפחתי ומגדר (למשל‪ :‬כמה גברים נשואים יש? כמה‬
‫נשים רווקות יש?)‬
‫• נשים לב‪ :‬לא נתאר מדדים או גרפים של שני משתנים בבת אחת‪.‬‬
‫כיצד נחשב אחוזים בטבלה דו מימדית?‬
‫•‬

‫ניתן לחשב אחוזים ב‪ 3-‬אופנים‪:‬‬


‫א‪ .‬מתוך סך כל התצפיות‪.‬‬
‫ב‪ .‬ביחס למשתנה שבשורות‬
‫(בדוגמה‪ :‬אחוז מתוך הנשים או‬
‫אחוז מתוך הגברים)‪.‬‬
‫ג‪ .‬ביחס למשתנה שבטורים‬
‫(בדוגמה‪ :‬אחוז מתוך הנשואים‪,‬‬
‫אחוז מתוך הרווקים)‪.‬‬

‫איך נחשב את אחוז הגברים הרווקים מתוך כל המדגם?‬


‫‪ 1‬חלקי ‪ 20‬כפול ‪.100‬‬
‫שכיחות חלקי ה‪ TOTAL-‬כפול ‪.100‬‬
‫‪ 3‬השיטות‪ :‬טבלה‪ ,‬גרף ומדדים‪.‬‬
‫בגלל שאין חשיבות במשתנה שמי‬
‫לסדר‪ ,‬הכי קל זה להציג את זה‬
‫בעוגה‪ .‬ולכן העוגה ממחישה כמה‬
‫אחוז תופס כל ערך של המשתנה‪.‬‬
‫בדר"כ לא בונים גרפים עבור ‪2‬‬
‫משתנים (תיאורטית אפשר‪ ,‬מעשית לא‬
‫עושים את זה)‪,‬‬
‫אבל זה פחות מעניין אותנו‪ .‬אנחנו‬
‫רוצים לייצר מגמה ותמונת מצב עבור‬
‫אותו משתנה שאנחנו בודקים‪.‬‬
‫כשהוספנו שכיחות יחסית באחוזים‪,‬‬
‫אנחנו רואים מה האחוז שתופס כל פלח‬
‫בעוגה‪.‬‬

‫חישוב מדדים למשתנה שמי‬

‫הערך הנפוץ ביותר בנתונים נקרא "שכיח" (‪ )Mode‬ומסומן ב‪.Mo(x)-‬‬


‫בדוגמה שראינו‪ :‬מהו השכיח של המשתנה "מצב משפחתי" ? תשובה‪ :‬רווקים‪.‬‬
‫נכתוב זאת כך‪Mo(x)= Never Married :‬‬
‫(מסתכלים בעמודת השכיחות ומחפשים את הערך הגבוה ביותר)‪.‬‬
‫*יכול להיות שיהיו גם ‪ 2‬שכיחים עם ערך זהה‪.‬‬
‫*במצב בו כל הערכים של השכיחות זהים (לדוגמה‪ ,‬כולם ‪ -)9‬אפשר להגיד שאין שכיח בכלל‪ ,‬ואפשר להגיד שכולם שכיחים‪.‬‬
‫זה אותו הדבר‪.‬‬

‫איך מתאים משתנה סדר?‬


‫ארגון נתונים בטבלת שכיחויות‪ :‬נוסיף עמודה של שכיחות מצטברת‪.‬‬
‫שכיחות מצטברת היא אחוז המקרים עד וכולל ערך מסוים‪ -‬נותן אפשרות להתרשם בצורה אחרת מהנתונים‪ ,‬תמונת מצב‬
‫נוספת‪ .‬בטור של שכיחות מצטברת ניתן לחשב מדדים‪( .‬לדוגמה‪ -‬חציון)‪.‬‬

‫ברגע שהמשתנה הוא סדר‪ ,‬ניתן לדרג את הערכים מהנמוך לגבוה‪ .‬לכן חייבים להציג את זה גם בטבלה‪ ,‬גם בגרף וגם במדדים‪.‬‬
‫חשוב לזכור!‬
‫הדבר הראשון שצריך לעשות כשבונים טבלת שכיחות של משתנה סדר זה לארגן את הנתונים מהנמוך לגבוה!‬

‫• הטור השמאלי (המשתנה‪ -‬רמת השכלה) נקרא ‪.X‬‬


‫• הטור השני משמאל הוא ה‪f(x) -‬‬
‫• הטור השלישי הוא שכיחות יחסית‪ -‬להפוך מספר לאחוז (‪.)Percent‬‬
‫‪ Frequency‬חלקי ה‪ TOTAL-‬כפול ‪.100‬‬
‫• הטור הימני ביותר הוא שכיחות מצטברת – מה אחוז הנבדקים שיש לי עד אותו ערך וכולל אותו ערך‪.‬‬
‫שאלות‪:‬‬
‫• מה אחוז הנשאלים שיש להם השכלה תיכונית?‬
‫תשובה‪45% :‬‬
‫• מה אחוז הנשאלים שיש להם השכלה תיכונית לכל היותר?‬
‫תשובה‪60% :‬‬
‫• מה אחוז הנשאלים שהשכלתם גבוהה מהשכלה תיכונית?‬
‫תשובה‪40% :‬‬

‫המטרה של הגרף (במשתנה סדר) היא להציג את הסדר של‬


‫המשתנים מהנמוך לגבוה‪.‬‬
‫בציר ה‪ X-‬יש לנו את המשתנים‪.‬‬
‫בציר ה‪ Y-‬יש לנו את האחוזים (אפשר להכניס ערכים של‬
‫שכיחות[המספר] או של שכיחות יחסית)‪.‬‬

‫אילו מדדים ניתן לחשב במשתנה סדר?‬


‫• שכיח )‪ = Mo(x‬מה הערך הכי נפוץ‪.‬‬
‫• חציון ‪ Me‬או ‪ – Md‬הערך שנמצא בדיוק באמצע‪.‬‬
‫ערך שמחצית מהמקרים קטנים או שווים לו‪ ,‬ומחצית מהמקרים גדולים או שווים‬
‫לו‪ .‬הערך שמחלק את ההתפלגות בחצי‪.‬‬
‫אין שום בעיה לחשב אותו כשמשתנה הוא "סדר" (במשתנה "שמי" זה לא‬
‫אפשרי)‪ .‬כשרוצים לחשב חציון חשוב מאוד לסדר את הערכים מהנמוך לגבוה‪,‬‬
‫ומחפשים את הערך שמחלק את ההתפלגות ל‪.2-‬‬

‫דוגמה‪:‬‬
‫מהו החציון בסדרת הנתונים הבאה‪? 1,7,4,5,21 :‬‬
‫ראשית כל‪ -‬נסדר את הסדרה מהנמוך לגבוה‪ .‬כלומר‪:‬‬
‫‪1,4,5,7,21‬‬
‫ואז נמצא את הנתון האמצעי‪ -‬במקרה זה‪ ,‬השלישי בגודלו‪.‬‬
‫ולכן הפתרון הוא‪. Me(x)=5 :‬‬

‫*מה היה קורה אם יש היה מספר זוגי של סדרה?‬

‫איך נמצא חציון בטבלת שכיחויות?‬


‫הערך האמצעי הוא כזה שהשכיחות המצטברת עד אליו היא לפחות ‪. 50%‬‬
‫יש לבדוק איפה בפעם הראשונה אנחנו עוברים ‪ 50%‬מהמקרים ‪ ‬שם נמצא החציון‪.‬‬
‫לכן התשובה שלנו תהיה‪High Scholl -‬‬
‫שיעור ‪ -3‬יום א' ‪01/11/2020‬‬

‫צורת ההגעה לעבודה= ‪ X ‬משתנה שמי (לא ניתן‬


‫לדרג את הערכים מנמוך לגבוה‪ ,‬אין משמעות‬
‫למרחקים)‪.‬‬
‫מס' עובדים )‪ - f(x‬השכיחות‬

‫ברכב פרטי‪62.5% -‬‬ ‫א‪.‬‬


‫אופניים‪7.5% -‬‬
‫אוטובוס‪17.5% -‬‬
‫אחר‪12.5% -‬‬

‫ב‪.‬‬

‫שכיח‪ :‬רכב פרטי )‪=Mo(x‬‬ ‫ג‪.‬‬

‫איך נתאר משתנה כמותי?‬


‫תזכורת‪ :‬ישנם ‪ 2‬סוגים של משתנים כמותיים‪ :‬בדיד ורציף‪.‬‬
‫ההבדל ביניהם יבוא לידי ביטוי רק בתיאור הגרפי‪.‬‬
‫◘ ארגון נתונים בטבלת שכיחויות (כמו משתנה סדר)‪.‬‬
‫הצגה גרפית למשתנה כמותי‪-‬בדיד‬
‫אז יש היררכיה‪ ,‬הערכים הם בדידים‪ ,‬ולכן נציג זאת בדיאגרמת עמודות (כמו במשתנה סדר)‬

‫תיאור גרפי של משתנה כמותי רציף‬


‫משתנה כמותי רציף מקבל בדר"כ‪ ,‬ערכים רבים ושונים זה מזה‪.‬‬
‫כל ערך מתקבל בשכיחות נמוכה‪ .‬לכן‪ -‬נוח יותר לתאר משתנה כזה‬
‫כשמקבצים את הערכים שלו לטווחים‪.‬‬
‫*לעולם לא נבצע חישוב מדדים על הערכים המקובצים לקבוצות*‬
‫בדוגמה‪ :‬משתנה הגיל‬

‫כשאנחנו מציירים גרף‪-‬‬


‫• אם המשתנה הוא שמי‪ -‬מציירים דיאגרמת עוגה (אין סדר)‪.‬‬
‫• אם המשתנה הוא סדר‪ -‬מציירים דיאגרמת עמודות‪ .‬במשתנה סדר אפשר לחשב שכיח וחציון‪.‬‬
‫• אם המשתנה כמותי בדיד‪ -‬מציירים דיאגרמת עמודות ‪ .‬בדיוק כמו במשתנה סדר‪ ,‬מהנמוך לגבוה‪.‬‬
‫• אם המשתנה הוא כמותי רציף‪ -‬מציירים היסטוגרמה ‪ .‬את כל החישובים נבצע על הנתונים המקוריים ולא על הטווחים‪.‬‬
‫חישוב מדדים במשתנה כמותי‪ -‬מדדי מרכז‬
‫מה שמתאים לכמותי ‪ ‬לא יתאים לשמי‪.‬‬
‫מה שמתאים לשמי ולסדר ‪ ‬יתאים למשתנה כמותי‪.‬‬

‫◘ מדדי מרכז‪ :‬שכיח וחציון וממוצע‪ .‬מתארים באמצעות מס' אחד את מה שקורה במרכז ההתפלגות‪.‬‬
‫כל אחד מהמדדים האלה עושה את זה בצורה שונה‪.‬‬
‫שכיח‪ -‬איפה שנמצאים הרוב ‪ – Mo(x) -‬אפשר לחשב אותו עבור כל משתנה!‬
‫חציון‪ -‬מתאר את האמצע בדיוק ‪ – Me(x) -‬ניתן לחשב רק למשתנה סדר‪/‬כמותי! הוא תמיד יהיה במקום ה ‪ n+1‬חלקי ‪.2‬‬
‫ממוצע‪ -‬מתאר את הרמה הכללית של התופעה‪-‬‬

‫במדדי המרכז‪ ,‬כל הוספה‪/‬הפחתה‪/‬הכפלה‪/‬חילוק של קבוע ‪ ‬גם מדדי המרכז ישתנו באופן ישיר באותו הקבוע‪.‬‬
‫בשאלה ‪ 27‬הטרנספורמציה הליניארית היא ‪( 2‬כי הוסיפו ‪ 2‬לכל ציון בתנך)‪.‬‬

‫לדוגמה‪ :‬מה השכיח והחציון של מס' הילדים?‬

‫שכיח‪Mo(x)=0 :‬‬
‫חציון‪( Me(x)=1 :‬הערך שבו בפעם הראשונה אני עוברת ‪ 50%‬מהמקרים)‪.‬‬
‫כלומר ל‪ 50%-‬מהנבדקים יש ילד ‪ 1‬או פחות‪ ,‬ול‪ 50%-‬האחרים יש יותר מ‪.1-‬‬

‫ממוצע המדגם‪Mean -‬‬


‫במשתנה שמי‪/‬סדר‪ -‬אי אפשר לחשב ממוצע‪( .‬אי אפשר לעשות ממוצע ברמת השכלה)‪.‬‬
‫לכן‪ -‬ממוצע אפשר לחשב רק עבור משתנה כמותי‪.‬‬
‫הסימון של הממוצע‪:‬‬

‫סך כל הנבדקים = ‪N‬‬

‫זה סימן שמקצר כתיבה סטטיסטית‪ .‬משמעותו‪ :‬לסכם מהאיבר הראשון עד האיבר האחרון‪.‬‬ ‫סימן סיגמה‪-‬‬

‫‪ = i‬אינדקס המשתנה (מאיפה מתחילים לספור)‬

‫מה המשמעות של הממוצע?‬


‫אילו חילקנו את השכר בצורה שווה בין כל העובדים‪ ,‬כל אחד היה משתכר ב‪. ₪ 9,000-‬‬

‫ברגע שהנתונים מסודרים בטבלת שכיחות‪ ,‬חשוב להבין שכל ערך מופיע מס' שונה של פעמים‪.‬‬

‫על מנת לחשב ממוצע‪ ,‬נכפיל את ה‪ X-‬ב‪ ,f(x) -‬נחבר את כל הערכים הללו‪ ,‬ונחלק ב‪.N-‬‬

‫=‬ ‫בדוגמה לעיל‪ ,‬זה ייראה כך‪2*4 + 1*3 + 5*2 + 4*1 + 8*0 :‬‬
‫‪N‬‬
‫שיעור ‪ -4‬יום א' ‪08/11/2020‬‬
‫שינוי ליניארי בנתונים‬
‫אם נוסיף ‪ ₪ 2,000‬לכל עובד‪ ,‬כל עובד משתכר יותר באותה המידה ‪ ,‬ולכן נוכל להגיד בביטחון שהממוצע עלה מ‪ 9-‬אש"ח ל‪11-‬‬
‫אש"ח‪.‬‬
‫*כל מדדי המרכז ניתנים לחישוב בצורה דומה‪ :‬גם לשכיח ולחציון‪.‬‬
‫אותו עיקרון מתקיים גם כאשר כופלים (או מחלקים) כל נתון במספר קבוע‪ .‬הממוצע משתנה בהתאם‪.‬‬
‫בדוגמה שלנו‪ :‬תוספת של ‪ 10%‬שקולה לכך שנכפול כל נתון ב ‪.1.1‬‬
‫*חשוב לציין‪ ,‬ש‪ 10%-‬זה לא כמו להוסיף מספר קבוע לכולם‪ -‬זה אומר שהתוספת היא יחסית למה שהיה במקור‪ ,‬לשכר הקודם‬
‫של העובד‪ .‬אבל (!!!)‪ ,‬כשמדברים על ממוצע (כלומר המס' שמייצג את כלל הערכים) לאחר השינוי‪ ,‬ישתנה פי אותו נתון קבוע‪.‬‬
‫ולכן הממוצע החדש יהיה‪9 * 1.1 = 9.9 :‬‬
‫השכר הפך להיות ‪ 110%‬מהשכר הקודם‪ ,‬ולכן הממוצע החדש באופן יחסי גדל להיות ‪ 9.9‬אש"ח‪.‬‬

‫מדדי פיזור במשתנה כמותי‬

‫כלומר למרות שהממוצע והחציון הוא אותו הדבר‪ -‬עדיין יש הבדלים בין הקבוצות‪ .‬מדדי מרכז לא נותנים את התמונה הרחבה‪.‬‬

‫סוגי מדדי פיזור‪ -‬אך ורק למשתנה כמותי!‬


‫‪ .1‬טווח‬
‫‪ .2‬תחום בין רבעוני‬
‫‪ .3‬שונות‬
‫‪ .4‬סטיית תקן‬
‫* מדדי פיזור מושפעים מכפל וחילוק‪ ,‬אבל מחיבור וחיסור מדדי פיזור לא מושפעים‪.‬‬
‫טווח וסטיית תקן מושפעים באופן ישיר‪ ,‬שונות מושפעת מאותו הקבוע‪ ,‬בריבוע (השונות הישנה‪ ,‬כפול השינוי בריבוע)‪.‬‬

‫טווח ‪Range‬‬
‫טווח הערכים מתאר את פיזור הנתונים‪ ,‬ונקבע ע"י הנתונים הקיצוניים ביותר (דוגמת ציוני התלמידים‪ ,‬הכי גבוה ‪ 100‬והכי נמוך ‪.)0‬‬
‫ההפרש בין הערך הגבוה ביותר והערך הנמוך יותר בנתונים‪.‬‬
‫מתבסס רק על הערכים של ה‪ ,X-‬על הקצוות ‪ ,‬ומתעלם לגמרי ממה שקורה במרכז ההתפלגות‪.‬‬
‫סימון‪R(x) :‬‬
‫לדוגמה‪:‬‬
‫• מה טווח הערכים של המשכורות בחברה א'?‬
‫תשובה‪=R(x) 12 – 5 = 7 :‬‬

‫• מה טווח הערכים של המשכורות בחברה ב'?‬


‫תשובה‪=R(x) 9 – 9 = 0 :‬‬

‫• מה טווח הערכים של מס' הילדים?‬


‫תשובה‪=R(x) 4 – 0 = 4 :‬‬

‫‪ – Inter Quartile Range‬הפער בין שני הרבעונים ‪‬‬ ‫תחום בין רבעוני‪-‬‬
‫מדד שלא רגיש לתצפיות חריגות (מתעלמים מהתצפיות הנמוכות והגבוהות ביותר)‪.‬‬
‫המטרה‪ :‬לתאר את הפיזור של ‪ 50%‬מהנבדקים שנמצאים במרכז ההתפלגות‪.‬‬
‫אם כך ‪ ‬יש להוריד ‪ 25%‬מהתצפיות מכל צד‪.‬‬
‫סימון‪IQR(x) :‬‬

‫◘ רבעון תחתון (‪ -)Q1‬ערך שמחלק את ההתפלגות ל‪.2-‬‬


‫‪ 25%‬מהמקרים נמוכים ממנו או שווים לו‪.‬‬
‫נמצא את הרבעון התחתון ע"פ הערך שהשכיחות המצטברת עד אליו היא לפחות ‪.25%‬‬
‫◘ רבעון עליון (‪ -)Q3‬ערך שמחלק את ההתפלגות ל‪.2-‬‬
‫‪ 75%‬מהמקרים נמוכים ממנו או שווים לו‪.‬‬
‫נמצא את הרבעון העליון ע"פ הערך שהשכיחות המצטברת עד אליו היא לפחות ‪.75%‬‬
‫למעשה‪ ,‬תחום בין רבעוני מחשב את המרחק בין הרבעון העליון לבין הרבעון התחתון‪.‬‬
‫‪Q4 = 100%‬‬
‫‪ = Q2‬חציון‬

‫בדוגמה שלהלן‪:‬‬
‫• רבעון תחתון‪Q1 = 0 :‬‬
‫• רבעון עליון‪Q3 = 2 :‬‬
‫כלומר‪ ,‬התחום הבין רבעוני הוא‪:‬‬
‫‪IQR = 2-0 = 2‬‬
‫שונות (‪ )Variance‬וסטיית תקן (‬
‫‪)Standard deviation‬‬
‫כדי לחשב את הפיזור של כל הערכים‪ ,‬צריך משהו לייחס‬
‫אליו את הערכים‪ ,‬ולכן נחשב קודם כל את הממוצע‪.‬‬

‫שונות‪ -‬בשביל לקבל מדד אחד שמייצג את כל הנתונים‪ ,‬היה נכון לחשב ממוצע של המרחקים‪.‬‬
‫לפני זה‪ ,‬עלינו לוודא שכל המרחקים חיוביים‪ .‬הפתרון‪ :‬נעלה כל מרחק בריבוע‪.‬‬
‫כלומר‪ -‬שונות זה מדד שמתאר את הפערים מהממוצע‪ ,‬בריבוע‪.‬‬
‫שונות היא ממוצע של ריבועי ההפרשים מהממוצע‪.‬‬

‫ההבדל בין שונות לסטיית התקן הוא הבדל מתמטי‪ -‬שורש‪.‬‬

‫סטיית תקן‬
‫מדד הפיזור הנפוץ ביותר בתיאור משתנים כמותיים‪.‬‬
‫על מנת לקבל מדד שיחידות המדידה שלו זהות למשתנה המקורי‪ ,‬מוציאים שורש מהשונות ‪ ‬ומקבלים סטיית תקן‪.‬‬
‫ככל שסטיית התקן גדולה יותר‪ -‬הפערים גדולים יותר‪ .‬זה הוא סדר גודל של מרחק מהממוצע‪.‬‬

‫בדוגמה שלנו‪-‬‬

‫באופן כללי‪-‬‬

‫שיעור מס' ‪ -5‬יום א' ‪15/11/2020‬‬


‫בחישוב שונות מטבלת שכיחויות ‪:‬‬
‫*כדי לחשב את סטיית התקן הזאת‪ -‬נצטרך להכפיל במס' הפעמים שכל ערך חוזר על עצמו‬
‫עבודה בקבוצות‪:‬‬

‫תשובה‪:‬‬
‫הממוצע של המשכורות‪9 :‬‬
‫השונות‪6 :‬‬
‫סטיית התקן‪2.45 :‬‬
‫אם השכר הממוצע היה ‪ ,9‬אז לאחר השי לחג בסך ‪ 2,000‬שקלים ‪ ‬הממוצע יעלה ל‪.11-‬‬

‫♦ האם סטיית התקן תשתנה במקרה של הוספת ‪ 2,000‬לכל עובד?‬


‫התשובה‪ :‬לא!‬
‫בגלל שהקבוע הוא עבור כל המשתנים‪ ,‬אז הפערים יישארו בדיוק אותו הדבר‪.‬‬
‫תוספת קבועה לא משנה את המרחק בין הערכים השונים‪ ,‬כלומר‪ -‬לא משנה את הפיזור של התצפיות‪.‬‬

‫♦ האם סטיית התקן תשתנה במקרה של תוספת של ‪ 10%‬מהשכר לכל עובד?‬


‫התשובה‪ :‬כן!‬
‫בגלל שהתוספת היא יחסית לכל שכר של עובד‪ ,‬אזי התוספת לא שווה לכולם‪.‬‬
‫ולכן‪ ,‬סטיית התקן תשתנה בהתאם‪ ,‬כלומר תגדל פי ‪.1.1‬‬
‫סטיית התקן החדשה תהיה‪2.45* 1.1 = 2.7 :‬‬

‫במקרה כמו זה של תוספת ב‪ ,10%-‬נוכל לחשב במהירות את השונות ע"י הכפלת השונות פי הקבוע‪ ,‬בריבוע!‬

‫לסיכום‪,‬‬
‫♦ סטיית התקן אינה מושפעת מתוספת‪/‬חיסור של קבוע‪ ,‬אך משתנה בהתאם כתוצאה מהכפלה‪/‬חילוק בקבוע‪.‬‬
‫♦ כל מדדי הפיזור‪ ,‬למעט השונות‪ ,‬ניתנים לחישוב בצורה דומה‪ :‬הכלל נכון גם לטווח הערכים וגם לתחום הבין רבעוני‪.‬‬
‫♦ לגבי השונות‪ :‬כשמכפילים‪/‬מחלקים את כל הנתונים באותו קבוע ‪ ‬יש לכפול את השונות פי הקבוע בריבוע‪.‬‬
‫מדדי מיקום יחסי‪-‬אחוזונים‬
‫♦ הכרנו כבר את החציון‪ ,‬שמחלק את המדגם ל‪ 2-‬חלקים‪ :‬נמוך וגבוה‪ ,‬כשחצי מהמדגם נמצא בכל צד‪.‬‬
‫♦ רבעונים חילקו את המדגם לחלק נמוך וגבוה‪ ,‬אך לא בחלקים שווים‪:‬‬
‫ברבעון התחתון קיבלנו שרבע מהמדגם נמוך ממנו או שווה לו‪ ,‬והשאר‪ -‬גבוה‪.‬‬
‫ברבעון העליון קיבלנו ש‪ 75%-‬מהמדגם נמוכים ממנו או שווים לו‪ ,‬והשאר= גבוהים‪.‬‬
‫♦ בצורה דומה‪ -‬ניתן להגדיר חלוקה של המדגם לחלק נמוך וגבוה לפי כל אחוז שהוא‪.‬‬
‫למשל ‪ :‬אנו מכירים חלוקה לעשירונים‪ -‬העשירון העליון של השכר מחלק את כלל המשכורות כך ש‪ 90%-‬נמוכות ממנו או שוות לו‪ ,‬והשאר‪ -‬גבוהות‪.‬‬
‫ציוני תקן‬
‫מדד לחריגות של נתונים‪ ,‬המודד כמה סטיות תקן יש מעל‪/‬מתחת לממוצע נמצא נתון כלשהו‪.‬‬
‫בנוסף‪ ,‬ציוני תקן מאפשרים לנו להשוות נתונים שמגיעים מהתפלגויות שונות‪.‬‬

‫לדוגמה‪:‬‬

‫על מנת לענות על השאלה הזאת‪-‬‬


‫חשוב לדעת מה הממוצע ומה סטיית התקן (כדי לדעת איפה למקם את התלמיד ביחס לשאר הכיתה)‬

‫♦ הממוצע של כלל הנבחנים בסטטיסטיקה היה‪80 :‬‬


‫סטיית תקן‪1 :‬‬
‫♦ הממוצע של כלל הנבחנים במבוא לסוציולוגיה היה‪90 :‬‬
‫סטיית תקן‪2 :‬‬
‫באיזה מקצוע מצבו של הסטודנט טוב יותר?‬
‫תשובה‪ :‬סטטיסטיקה‬
‫שיעור ‪ -6‬יום א' ‪22/11/20‬‬
‫*כשמוסיפים ערכים שקרובים לממוצע‪ -‬הפערים למעשה קטנים‪ ,‬כלומר ‪ ‬סטיית התקן תקטן‪.‬‬
‫*הבוחן יהיה ממוחשב ב‪ .4/12-‬יהיה בו גם קצת הסתברות‪.‬‬

‫המשך ציוני תקן‬

‫זו הנוסחה‪:‬‬

‫עוד דוגמא‪:‬‬
‫שכר‪:‬‬
‫ממוצע‪7,200 :‬‬
‫סטיית תקן‪1,500 :‬‬
‫נתון העובד‪₪ 6,000 :‬‬
‫שנות לימוד‪:‬‬
‫ממוצע‪12.6 :‬‬
‫סטיית תקן‪3.2 :‬‬
‫נתון העובד‪ 11 :‬שנים‬

‫התשובה‪ :‬במשתנה השכר העובד חריג יותר‪.‬‬


‫התפלגות סימטרית‬
‫♦ ישנן צורות רבות שהן סימטריות‪ ,‬אנו נתעניין בעיקר בהתפלגות שצורתה כפעמון‪.‬‬
‫♦ התפלגות זו מתאפיינת על ידי כך שכל מדדי המרכז בה שווים‪:‬‬
‫הממוצע = חציון = שכיח = מתכון להתפלגות סימטרית‬

‫התפלגות א‪-‬סימטרית (שלילית)‬


‫♦ נקראת גם התפלגות עם זנב שמאלי‪.‬‬
‫♦ מתאפיינת בכך שהערכים הנמוכים שלה רחוקים מהמרכז באופן משמעותי יותר מהערכים הגבוהים‪.‬‬
‫מה יאפיין את מדדי המרכז בהתפלגות זו?‬
‫הממוצע יהיה תמיד נמוך מהחציון‪.‬‬

‫התפלגות א‪-‬סימטרית (חיובית)‬


‫♦ נקראת גם התפלגות עם זנב ימני‪.‬‬
‫♦ מתאפיינת בכך שהערכים הגבוהים שלה רחוקים מהמרכז באופן משמעותי יותר‬
‫מהערכים הנמוכים‪.‬‬
‫בדר"כ ניתן לראות את ההתפלגות הא‪-‬סימטרית בשכר (הרוב מרוויחים נמוך יותר‬
‫מהממוצע‪.)...‬‬
‫מדדי המרכז בהתפלגות זו‪:‬‬
‫חציון‪ -‬באמצע‬
‫הממוצע‪ -‬יושפע לכיוון הערכים החיוביים‬
‫בהתפלגות א‪-‬סימטרית ימנית הממוצע יהיה תמיד גבוה מהחציון‪.‬‬
‫הסתברות‬
‫הסתברות מודדת היתכנות של מאורע‪ -‬עד כמה המאורע ייתכן‪/‬אפשרי‪.‬‬

‫לדוגמה‪:‬‬

‫זו בעצם השכיחות היחסית!‬

‫הערכה סובייקטיבית‪ -‬לא מבוססת על ניסיון‪ .‬הערכה אישית שיכולה להשתנות בין כל אחד ואחד‪.‬‬
‫לדומה כששואלים "מה הסיכוי שהכנסת הבאה תתפזר לפני הזמן?"‪ .‬אין לזה תשובה חד משמעית‪.‬‬

‫כיצד מחשבים הסתברות?‬


‫ניתן להגיע להסתברות ב‪ 2-‬דרכים עיקריות‪:‬‬
‫‪ .1‬ע"פ שכיחות יחסית‪.‬‬
‫‪ .2‬ע"פ הערכה סובייקטיבית‬
‫בכל מקרה‪ ,‬לא כל מספר יכול לשמש הסתברות‪ ,‬אלא צריכים להתקיים מס' תנאים‪.‬‬
‫כדי להגדיר הסתברות‪ ,‬ראשית נגדיר מס' מושגים‪.‬‬
‫ניסוי מקרי ותוצאותיו‬
‫♦ מושג ההסתברות רלוונטי כשאנו מבצעים ניסוי מקרי (כמו הטלת קוביה‪ ,‬הטלת מטבע‪ ,‬הטלת סביבון‪)...‬‬
‫ניסוי מקרי הוא ניסוי שאין לדעת בוודאות את תוצאות הניסוי‪ .‬יש מס' תוצאות אפשריות‪.‬‬
‫למשל‪ :‬הטלת מטבע היא ניסוי מקרי‪.‬‬
‫אנו יודעים מהן התוצאות האפשריות‪ ,‬אך לא מה יתקבל בפעם הבאה שנבצע את הניסוי‪.‬‬
‫♦ למשל‪ ,‬בהטלת מטבע‪ :‬אנו יודעים שנקבל "עץ" ‪" /‬פלי"‪ ,‬אך לא יודעים איזו תוצאה תתקבל בהטלה הבאה‪.‬‬

‫מרחב המדגם של ניסוי‬


‫מרחב המדגם של ניסוי מקרי הוא אוסף כל התוצאות האפשריות של ניסוי מסוים‪.‬‬

‫כללים‪:‬‬
‫♦ כל תוצאה חייבת להופיע במרחב המדגם‪ ,‬ויכולה להופיע פעם אחת בלבד (כל אפשרות נרשמת פעם אחת)‪.‬‬
‫♦ סדר התוצאות בתוך מרחב המדגם הוא חסר משמעות‪.‬‬

‫חשוב להבין!‬
‫הסדר בין הזוגות (התוצאות) הוא חסר משמעות‪.‬‬
‫לעומת זאת‪ ,‬הסדר בתוך כל תוצאה הוא משמעותי‪.‬‬
‫מאורע‬
‫הגדרה‪ :‬מאורע הוא אוסף חלקי של מרחב המדגם‪.‬‬

‫דוגמה‪ :‬הטלת קובייה בודדת‪.‬‬


‫נגדיר‪:‬‬

‫‪ – A‬התקבלה תוצאה זוגית‪.‬‬

‫‪ – B‬התקבל ‪=( 5‬מאורע פשוט)‪.‬‬

‫‪ – C‬התקבל לפחות ‪( 7‬מאורע ריק)‪.‬‬

‫מאורע פשוט‪ -‬הוא מאורע שכולל תוצאה בודדת של מרחב המדגם‪.‬‬


‫מאורע ריק‪ -‬מאורע שאין בו אף תוצאה אפשרית‪ .‬סימון =‬
‫פעולות על מאורעות‬
‫כפי שבין מספרים מוגדרות פעולות (חיבור‪ ,‬כפל‪ )...‬שבאמצעותם מתקבלים מספרים חדשים‪ ,‬כך גם מוגדרות פעולות שניתן‬
‫לבצע על מאורעות‪ ,‬והתוצאה של פעולות אלו היא מאורע חדש‪.‬‬
‫נגדיר ‪ 3‬פעולות על מאורעות‪ :‬חיתוך‪ ,‬איחוד ומשלים‪.‬‬

‫שיעור מס' ‪ -7‬יום א' ‪29/11/20‬‬

‫חיתוך מאורעות ("גם")‬


‫המאורע "‪ A‬חיתוך ‪ "B‬הוא אוסף של כל המאורעות הפשוטים שנכללים גם במאורע ‪ A‬וגם במאורע ‪.B‬‬

‫משמעות‪ :‬מה שמשותף לשני המאורעות‪ .‬כלומר ‪ A‬וגם ‪ B‬יתרחשו בו זמנית‪.‬‬

‫המחשה גרפית‪ -‬דיאגרמת ואן‬


‫מקובל לתאר מאורעות בתרשים בנקרא "דיאגרמת ואן"‪.‬‬
‫בתרשים זה המלבן החיצוני מתאר את מרחב המדגם‪ ,‬ואילו כל עיגול מתאר מאורע במרחב מדגם זה‪.‬‬

‫דוגמה‪ :‬הטלת קוביה‬

‫ובמילים‪ :‬התקבלה תוצאה שהיא גם זוגית וגם גדולה או שווה ל‪.3-‬‬


‫‪ A‬ו‪ B-‬אינם יכולים להתקיים בו זמנית‪ .‬החיתוך ביניהם הוא מאורע ריק‬

‫מאורעות זרים‬
‫מאורעות כאלו‪ ,‬החיתוך ביניהם הוא מאורע ריק‪.‬‬
‫מדובר על מאורעות שלא יכולים להתרחש בו זמנית‪.‬‬

‫איחוד מאורעות‪"( -‬או")‬


‫הגדרה‪ :‬המאורע "‪ A‬איחוד ‪ – " B‬אוסף כל המאורעות הפשוטים שנכללים או במאורע ‪ ,A‬או במאורע ‪ ,B‬או בשניהם‪.‬‬
‫משמעות‪ :‬לפחות אחד משני המאורעות‪ A ,‬או ‪ ,B‬יתרחש‪.‬‬

‫הצגה גרפית‬

‫דוגמה נוספת‪:‬‬
‫המאורע המשלים ("לא")‬
‫הגדרה‪ :‬המאורע "‪ A‬משלים" הוא אוסף כל המאורעות הפשוטים שנכללים במרחב המדגם אך לא במאורע ‪.A‬‬

‫משמעות‪ :‬מאורע המכיל את כל תוצאות הניסוי שיתרחשו כאשר המאורע ‪ A‬לא מתרחש‪ .‬כל מה ששייך למרחב‬
‫המדגם אבל לא שייך למאורע עצמו‪.‬‬
‫כל מה שהוא לא ‪ A‬זה אומר מרחב המדגם חוץ מ‪.A-‬‬
‫הצגה גרפית‪:‬‬
‫הגדרת ההסתברות במרחב המדגם‬
‫מגדירים לכל מאורע ‪ A‬במרחב המדגם הסתברות )‪=Probability( P(A‬הסתברות)‪.‬‬
‫הסתברות חייבת לקיים את הדרישות הבאות‪:‬‬

‫‪ .1‬הסתברות זה תמיד מספר בין ‪ 0‬ל‪ .1-‬זה יהיה ‪ 0‬כשזה מאורע בלתי אפשרי (מאורע ריק)‪.‬‬

‫‪ .2‬ההסתברות של כל מרחב המדגם‪:‬‬


‫בהטלת מטבע‪ ,‬הסיכוי לקבל פאלי הוא ‪ ,0.5‬וגם הסיכוי לקבל עץ הוא ‪ .0.5‬ביחד הסכום של ההסתברויות = ‪. 1‬‬
‫‪ .3‬ההסתברות של האיחוד תמיד תהיה שווה להסתברות המאורעות עם "‪ "+‬ביניהם‪.‬‬

‫נוסחאות‬

‫‪ .1‬חישוב הסתברות של מאורע משלים ‪-‬‬


‫הסתברות של איחוד מאורעות שאינם בהכרח זרים‪ -‬כלל החיבור‪:‬‬ ‫‪.2‬‬
‫חייבים להוריד את מה שמשותף כדי לא לכתוב פעמים את אותם הערכים‪.‬‬
‫דוגמה‪:‬‬

‫תיאור מילולי‪:‬‬
‫)‪ =(A‬ענת לא תזכה (‪)0.6‬‬ ‫‪P‬‬
‫)‪ =(B‬או ענת או נירית יזכו (‪)0.55=0.4+0.15‬‬ ‫‪P‬‬
‫)‪ =(C‬ענת‪+‬נירית‪+‬יונתן (‪)0.75=0.4+0.15+0.2‬‬ ‫‪P‬‬

‫ההסתברות של ‪ A‬איחוד ‪ B‬משלים על הכל היא = ‪0‬‬


‫המאורע עצמו של ‪ A‬איחוד ‪ B‬משלים על הכל הוא מאורע ריק‪.‬‬

‫חשוב לשים לב איך לכתוב את זה‪.‬‬

‫תשובות‪:‬‬
‫בהצגה גרפית‪:‬‬
‫דוגמה נוספת‬

‫הסיכוי שאביב שותה רק קפה הוא ‪0.4‬‬


‫(כי )‪ P(B‬הוא ‪ 0.6‬אבל המשותף הוא ‪ .0.2‬אז כשמחסירים זה יוצא ‪)0.4‬‬

‫לבוחן‪:‬‬
‫♦ מותר דף נוסחאות‬
‫♦ מחשבון‬
‫♦ שאלות אמריקאיות‬
‫מומלץ‪ :‬לעשות את התירגול באתר‪ ,‬ולתרגל את ההסתברות מחוברת תרגילים‪.‬‬
‫שיעור ‪ -8‬יום א' ‪06/12/20‬‬

‫הסתברות מותנית‬
‫לפעמים ידע חלקי על תוצאת הניסוי יכול להשפיע על ההסתברות של מאורע מסוים‪.‬‬
‫כשיודעים מידע חלקי על תוצאות הניסוי‪ ,‬יכול להיות שזה משפיע ויכול להיות שלא‪.‬‬
‫אם זה משפיע‪ -‬הסתברות מותנית‪.‬‬
‫לדוגמה‪:‬‬
‫‪-‬ההסתברות שתתרחש תאונה‬
‫‪-‬ההסתברות שתתרחש תאונה אם ידוע שיורד שלג‬

‫סימון‪ -P(B\A) :‬ההסתברות שיקרה מאורע ‪ B‬בתנאי שידוע כי מאורע ‪ A‬כבר קרה‪.‬‬
‫לפני הסלאש‪ -‬כותבים את מה שמחפשים או רוצים לגלות‪ ,‬ואחרי הסלאש‪ -‬כותבים את מה שידוע (את התנאי)‪.‬‬
‫במצב כזה‪ -‬מרחב המדגם משתנה בהתאם לתנאי‪.‬‬
‫‪P(A\B)= 2/4‬‬
‫מרחב המדגם שלי הצטמצם ל ‪ .3,4,5,6‬ואז הסיכוי יהיה‪.4\2 -‬‬
‫○ כלומר‪ -‬ברגע שיש לנו תנאי ‪ >--‬זה משנה את מרחב המדגם ומשנה את ההסתברות של המאורע‪.‬‬
‫זה הופך להיות הסתברות של ‪ 2‬מתוך ‪ 4‬ולא מתוך ‪! 6‬‬
‫חישוב הסתברות מותנית‬
‫מתבסס על החלק היחסי של מרחב המדגם‪.‬‬
‫ההסתברות המותנית היא הסיכוי להתרחשות של שני מאורעות‪ ,‬חלקי ההסתברות המותנית (ההסתברות של התנאי‬
‫שידוע לנו)‪.‬‬

‫המשמעות‪ :‬הסתברות מותנית הינה הסיכוי שיתרחש גם ‪ A‬וגם ‪ B‬מתוך מרחב מדגם מצומצם‪ -‬מתוך הידוע‪.‬‬

‫דוגמה לשימוש בנוסחת ההסתברות המותנית‪:‬‬

‫**בסעיף ד‪ ,‬זה בעצם ‪ 1‬פחות‪ ,‬מה שמצאנו בסעיף ג‪.‬‬


‫מהסיכום של בויה‪:‬‬

‫חישוב הסתברות בעזרת דיאגרמת עץ‬

‫**בין ענפים מחברים‪ ,‬באותו ענף מכפילים‬


‫שלב ראשון‪ :‬האם אדם חולה‪/‬בריא‬
‫שלב שני‪ :‬האם הבדיקה נותנת תגובה חיובית‪/‬שלילית‬

‫בעזרת הדיאגרמה נוכל לחשב הסתברויות‪:‬‬


‫‪ .1‬מה הסיכוי שאדם יהיה בריא והבדיקה תאבחן אותו כחולה?‬

‫‪ .2‬מה שיעור התגובות החיוביות של הבדיקה?‬

‫‪ .3‬מה הסיכוי לטעות בבדיקה?‬

‫‪ .4‬אדם נבדק ואובחן כחולה‪ .‬מה הסיכוי שהוא אכן חולה?‬


‫(שאלה שמורכבת ממה שאני יודעת כבר שקרה‪ ,‬למה שיקרה בפועל)‬
‫נוסחה‪ :‬הסתברות משותפת‪ ,‬ומחלקת בתנאי (מה שכבר ידוע)‬

‫‪ .5‬אדם נבדק ואובחן כבריא‪ .‬מה הסיכוי שהוא חולה?‬


‫דוגמה נוספת‬

‫‪P(A)= 0.6‬‬
‫‪P(B)=0.2‬‬
‫‪P(C)=0.2‬‬
‫‪ 3‬סוגי טחינות‪ :‬דקה‪ ,‬בינונית וגסה‪.‬‬

‫נצייר דיאגרמת עץ‪:‬‬

‫שאלה‪ :‬לקוח קנה קפה מטחינה בינונית‪ .‬מה ההסתברות שהקפה נטחן ע"י מכונה ‪?A‬‬
‫כלומר‪ ,‬התנאי (מה שידוע) הוא הסתברות הטחינה הבינונית‪.‬‬
‫מה שאנחנו מחפשתים הוא ההסתברות שהקפה נטחן ע"י מכונה ‪A‬‬

‫תשובה‪0.529 = 0.18/0.34 :‬‬


‫אי תלות בין מאורעות‪ -‬מאורעות בלתי תלויים‬
‫○ כאשר הסיכוי שמאורע ‪ A‬יתרחש אינו תלוי בהתרחשותו של מאורע ‪- B‬‬
‫נאמר כי המאורעות ‪ A‬ו‪ B-‬בלתי תלויים (ב"ת)‪.‬‬
‫○ הגדרה‪ :‬המאורעות ‪ A‬ו‪ B-‬אינם תלויים אם מתקיים‪ P(A\B)=P(A) :‬או )‪P(B\A)=P(B‬‬

‫ניתן לזהות אי תלות בין מאורעות ב‪ 2-‬אופנים‪:‬‬


‫כאשר ברור שהתרחשות המאורעות אינה תלויה זו בזו‪.‬‬ ‫‪.1‬‬
‫לדוגמה‪ :‬תוצאות הטלת קובייה אחת אינה משפיעה על תוצאות ההטלה השנייה‪.‬‬
‫להוכיח אי תלות בעזרת חישוב‪.‬‬ ‫‪.2‬‬
‫לשם כך צריכה להיות נתונה לנו ההסתברות להתרחשות משותפת של שני המאורעות‪ ,‬כלומר‪-‬‬
‫הסתברות החיתוך של שני המאורעות‪.‬‬

‫נסביר את הוכחת האי תלות בעזרת ‪ 2‬דוגמאות‪.‬‬


‫דוגמה ‪:1‬‬

‫תשובה‪ :‬המאורעות הם לא בלתי תלויים‪ A .‬ו ‪ B‬אכן תלויים‪.‬‬

‫דוגמה ‪:2‬‬

‫‪ 0.1‬לא שווה למכפלת המאורעות ‪ 0.2‬ו‪0.15-‬‬

‫תשובה‪ :‬המאורעות הם לא בלתי תלויים‪ A .‬ו ‪ B‬אכן תלויים‪.‬‬

‫השימוש באי תלות‬


‫○ אם ‪ A‬ו‪ B-‬בלתי תלויים‪ -‬אזי ניתן לחשב את הסתברות החיתוך ע"י מכפלת הסתברויות של המאורעות זה בזה‪.‬‬
‫חוק מס' ‪ :1‬מותר לי להשתמש במכפלה אך ורק אם המאורעות הם בלתי תלויים!!!!‬

‫דוגמה ‪:1‬‬
‫**חשוב לשים לב‪ -‬כתוב בצורה מפורשת שהם בלתי תלויים‪.‬‬
‫מה הסיכוי שבני יחליט לצפות ב"אח החורג"?‬ ‫א‪.‬‬
‫תשובה‪0.4 :‬‬
‫מה הסיכוי שבני יחליט לצפות ב"האח החורג" ויוחנן ב"נולד לשיר"?‬ ‫ב‪.‬‬
‫תשובה‪0.12=0.3*0.4 :‬‬
‫מה הסיכוי ששניהם לא יצפו ב"נולד לשיר"?‬ ‫ג‪.‬‬
‫תשובה‪0.49=0.7*0.7 :‬‬

‫דוגמה ‪: 2‬‬

‫א‪ .‬מה הסיכוי שתבחר מאיה ספר שירה?‬


‫תשובה‪0.4 :‬‬
‫ב‪ .‬מה הסיכוי שבמשך יומיים רצופים מאיה תבחר ספרי שירה?‬
‫תשובה‪( 0.16 =0.4*0.4 :‬בחירת הספרים היא באופן מקרי)?‬
‫ג‪ .‬חשבו את ההסתברות שבמשך יומיים מאיה תבחר לפחות ספר שירה אחד‪.‬‬
‫תשובה‪0.64 =1-)0.6*0.6( :‬‬
‫(אין ספרי שירה)‪(= P-1‬ספר לפחות של אחד שירה) ‪P‬‬

‫שיעור מס' ‪13.12.2020 -9‬‬


‫אם המאורעות הם זרים ‪ ‬הם בהכרח יהיו תלויים!‬
‫כי בהכרח ההסתברות המשותפת ששווה ל‪ ,0-‬בחיים לא תהיה שווה למכפלה של שתי ההסתברויות של המאורעות‪.‬‬
‫הסיכוי כל פעם לפגוע הוא ‪.0.7‬‬
‫מרכיבי הנוסחה‪:‬‬
‫‪ .1‬מס המסלולים שיש לנו‬
‫‪ .2‬סיכוי להצלחה (לפגיעה)‪( 0.7 -‬בחזקת כמות הפעמים שההסתברות קיימת)‬
‫‪ .3‬סיכוי לכישלון (להחטאה)‪0.3 -‬‬

‫הניסוי בדוגמה זו נקרא‪ -‬ניסוי בינומי‪.‬‬


‫נזהה ניסוי בינומי אם מתקיימים שלושת המצבים הבאים גם יחד‪:‬‬
‫‪ .1‬סדרה של ‪ N‬ניסויים (או ‪ N‬חזרות על אותו הניסוי)‪.‬‬
‫‪ .2‬הניסויים או החזרות בלתי תלויים אחד בשני‪.‬‬
‫‪ 3‬בכל ניסוי ‪ 2‬תוצאות אפשריות בלבד‪:‬‬
‫א‪ .‬התוצאה הרצויה נקראת "הצלחה" והיא קורית בסיכוי ‪.p‬‬
‫ב‪ .‬התוצאה האחרת נקראת "כשלון" והיא קורית בסיכוי ‪.p-1‬‬

‫‪‬‬ ‫הרבה פעמים נסמן את הסיכוי לכישלון באות ‪ , q‬ואז ‪q+p=1‬‬


‫סימונים והגדרות‬
‫נסמן ב‪ X-‬את מס' ההצלחות מתוך ‪ N‬חזרות (ניסויים) בלתי תלויות‪.‬‬
‫אילו ערכים יכול המשתנה ‪ X‬לקבל?‬

‫‪n....0,1,2 = X‬‬

‫מה הסיכוי ש‪ X-‬יקבל ערך מסוים מתוכם?‬


‫חישוב ההסתברות מורכב ממכפלה של הסתברויות של מאורעות בלתי תלויים בהתאם למס' ההצלחות והכישלונות במס'‬
‫התוצאות השונות שעבורן ‪ X‬מקבל אותו ערך (מס' הענפים בעץ)‪.‬‬

‫חישוב מספר המסלולים המתאימים בעץ‪:‬‬


‫בעץ המתאר ‪ N‬ניסויים‪ ,‬מס' הענפים בהם ישנן בדיוק ‪ k‬הצלחות‪ ,‬מסומן באמצעות המקדם הבינומי‪:‬‬

‫לדוגמה‪:‬‬
‫מס' הענפים בדוגמת הצלף המתאימים ל‪-‬‬
‫‪ 2‬הצלחות בדיוק הוא‪:‬‬
‫**חוק‪-‬‬
‫כל מס' מעל ‪ 1‬יהיה שווה למספר במונה‪.‬‬
‫כל מס' מעל ‪ 0‬תמיד יהיה שווה ‪.1‬‬

‫אופן החישוב‪:‬‬
‫מס' הצלחות מבוקש = ‪K‬‬
‫כ‬

‫זה מה שאנחנו מצפים לקבל בממוצע אם אנחנו חוזרים על הניסוי אינסוף פעמים‪.‬‬ ‫תוחלת‬
‫שיעור מס' ‪ -10‬יום א' ‪20/12/2020‬‬

‫התפלגות נורמלית‬
‫התפלגות שמתארת משתנים כמותיים רציפים‪.‬‬ ‫‪-‬‬
‫סימטרית‬ ‫‪-‬‬
‫השכיח נמצא במרכז ההתפלגות‬ ‫‪-‬‬
‫דעיכה בקצוות‬ ‫‪-‬‬
‫מאמינים שרוב התכונות הפיסיקליות‪ ,‬פסיכולוגיות וכו מתאימות להתפלגות זו‪.‬‬ ‫‪-‬‬
‫בעלת חשיבות רבה בהסקה סטטיסטית‪.‬‬ ‫‪-‬‬
‫מאחר שמדובר בהתפלגות רציפה‪ ,‬נצטרך טכניקות חדשות לחשב הסתברות‪.‬‬ ‫‪-‬‬

‫צורת הפעמון נקבעת ע"י ‪ 2‬פרמטרים של ההתפלגות והם התוחלת של ההתפלגות והשונות של ההתפלגות‪.‬‬
‫התוחלת קובעת את מיקום מרכז ההתפלגות‪ ,‬והשונות את הפיזור סביב התוחלת‪.‬‬
‫‪ ,‬ואת השונות באות‬ ‫נהוג לסמן את התוחלת של ההתפלגות הנורמלית באות היוונית‬

‫בהתפלגות מס' ‪ 1‬התוחלת שווה לתוחלת של התפלגות מס' ‪ .2‬אם כי הפיזור שלהן שונה‪.‬‬
‫התפלגות ‪ 3‬דומה בפיזור שלה להתפלגות ‪ ,1‬אך התוחלת שונה‪.‬‬

‫חישוב הסתברויות בהתפלגות נורמלית‪:‬‬


‫כדי לחשב הסתברויות צריך לחשב שטחים מתחת לעקומת ההתפלגות הנורמלית‪.‬‬
‫נובע מכך‪ ,‬שהסתברות של ערך בודד בהתפלגות היא ‪.0‬‬
‫אין נוסחה לחישוב השטח‪ ,‬ולכן נעזר בטבלה‪ .‬כדי להתאים כל התפלגות נורמלית לטבלה יש לבצע פעולת תקנון‪.‬‬
‫נחשב ציון תקן‪:‬‬

‫לפי ציון התקן‪ ,‬ניתן לראות כי עובד ב' רחוק יותר מהממוצע‪ ,‬ולכן נרצה להעסיק את עובד ב'‪.‬‬
‫דוגמה נוספת‪:‬‬

‫עדיף כמה שפחות זמן שירוץ או ישחה‪ -‬כי ככה זה אומר שיש לו סיכוי גבוה יותר לנצח בתחרות‪.‬‬
‫ב‪ 2-‬הענפים מצבו לא רע‪.‬‬
‫אבל!‬
‫בשחייה מצבו טוב יותר‪ ,‬מכיוון שהוא רחוק יותר מהממוצע‪ ,‬משמע ‪ ‬הוא שוחה מהר יותר‪.‬‬
‫בהקשר לסיפור הזה‪ ,‬עדיף להיות כמה שיותר רחוק מהממוצע ומתחת מהממוצע (כי מדובר בריצה ושחיה)‪.‬‬

‫ציון תקן בהתפלגות נורמלית‪:‬‬

‫תכונות של ציון תקן‬


‫ציון תקן הוא מדד לחריגות של נתון בודד‬ ‫‪-‬‬
‫ממוצע ציוני התקן הוא ‪0‬‬ ‫‪-‬‬
‫סטיית התקן של ציוני התקן היא ‪1‬‬ ‫‪-‬‬
‫כל משתנה נורמלי ניתן לתקנון ע"י חישוב ‪ Z‬כאמור‬ ‫‪-‬‬
‫הטבלה של ההתפלגות הנורמלית הסטנדרטית מקשרת ציוני תקן ואחוזונים‪.‬‬ ‫‪-‬‬

‫לגלות את השטח של ההתפלגות ‪ ‬זה כמו למצוא את ההסתברות‪.‬‬


‫לדוגמה‪:‬‬
‫ידוע שציון בפסיכומטרי של תלמיד הוא ‪ .700‬הממוצע הוא ‪ 530‬וסטיית התקן היא ‪.100‬‬

‫נוכל לחשוב בקלות את ציון התקן‪.‬‬


‫באמצעות הערך של ה‪ Z-‬ניתן לחשב את השטח עד ל‪ Z-‬המסוים‪ ,‬באמצעות טבלה‪.‬‬
‫בעמוד ה‪ 1-‬הערכים של ‪ Z‬במינוס‪ .‬בעמוד השני הערכים של ‪ Z‬בפלוס‪.‬‬
‫הטבלה מקשרת בין הערכים של ‪ Z‬שמופיעים בשוליים‪ ,‬לבין הערכים של השטח‪ ,‬שנמצאים בפנים‪.‬‬
‫חשוב להבין‪ -‬בטור הכי שמאלי מופיעה ספרה אחת לפני הנקודה‪ ,‬וספרה אחת אחרי הנקודה‪.‬‬
‫למעלה בשורה הראשונה מופיעה ספרה שניה אחרי הנקודה‪.‬‬
‫בגוף הטבלה מופיעים ערכים של שטח עד הערך של ה‪.Z-‬‬

‫אם נרצה לחשב את השטח הלבן (שאחרי ה‪)Z-‬‬


‫נוכל לחשב בקלות ע"י ‪ 1‬פחות השטח שמצאנו‪.‬‬

‫טבלת התפלגות נורמלית סטנדרטית‬


‫בטבלה‪ ,‬ערכי ‪ Z‬נמצאים בשוליים (בדיוק של שתי ספרות אחרי הנקודה העשרונית) והשטח עד לנקודה ‪ Z‬נמצא בחלק הפנימי‬
‫של הטבלה‪.‬‬

‫כל מספר שהוא מעבר למס' האחרון הטבלה‪ -‬הוא למעשה כל השטח‪ ,‬כלומר‪ -‬הוא שווה ל ‪. 1‬‬
‫סכום של כל ההסתברויות חייב להשלים ל‪.1-‬‬

‫נחשב זאת כך‪0.1056 = 1-0.8944 :‬‬

‫דוגמה נוספת‪:‬‬
‫נחשב זאת כך‪ :‬נחשב את השטח עד ‪ 2.3‬ונחסיר ממנו את השטח עד ‪1.23‬‬

‫השטח‬ ‫תרגיל הפוך‪ -‬מציאת אחוזונים של ‪ Z‬בעזרת‬


‫דוגמה ‪ :1‬מהו האחוזון ה‪ 85.77-‬של ‪? Z‬‬
‫אם נדע את השטח ‪ ‬נחפש בגוף הטבלה ‪ 85.77‬וממנו נצא אל השוליים לחפש את האחוזון‪.‬‬
‫תשובה‪Z = 1.07 :‬‬

‫דוגמה ‪ :2‬מהו האחוזון ה‪ 0.9115 -‬של ‪? Z‬‬


‫תשובה‪Z = 1.35 :‬‬

‫דוגמה ‪ :3‬מהו האחוזון ה‪ 0.75-‬של ‪? Z‬‬


‫תשובה‪Z =0.67 :‬‬
‫במקרה זה‪ -‬עבור שטח שלא ניתן למצוא לו ערך מדויק ‪ ‬נבחר את הערך הקרוב ביותר‪.‬‬

‫אם מחפשים ערך כמו ‪ -0.25‬נחפש אותו בטבלה של המינוס (כי הטבלה של המינוס מסתיימת בערך הכי גבוה ‪.)0.5‬‬

‫התפלגות נורמלית היא התפלגות סימטרית – כלומר יש תמונת ראי‬


‫אם מצאנו שהאחוזון ‪( 0.75‬כלומר השטח) הוא ציון תקן של ‪ ,0.67‬אז נוכל למצוא בקלות את ציון התקן של אחוזון ‪  0.25‬זה‬
‫יהיה אותו מספר במינוס‪ .‬כלומר‪-0.67 :‬‬

‫דוגמה נוספת‪:‬‬

‫בראש ובראשונה ‪ ‬נצייר‪.‬‬

‫כלומר אנחנו מחפשים את השטח האדום‪.‬‬

‫‪ .1‬מה אחוז הנבחנים שקיבלו ציון עד ‪? 640‬‬


‫נחפש קודם כל את ציון התקן לפי הנתונים שקיבלנו‪:‬‬

‫נחפש בטבלה את השטח של ציון התקן ‪ 1‬עם ‪0.00‬‬

‫תשובה‪:‬‬

‫כעת‪ ,‬נכפיל ב‪ 100-‬כדי לקבל את התשובה באחוזים‪.‬‬


‫כלומר‪ 84.13% ,‬מהנבחנים קיבלו ציון לכל היותר ‪.640‬‬

‫* חשוב לזכור‪ -‬התוחלת של ציוני תקן היא תמיד ‪ ,0‬וסטיית התקן של ציוני תקן היא תמיד ‪.1‬‬

‫שקיבלו ציון מעל ‪? 725‬‬ ‫‪ .2‬מהו אחוז הנבחנים‬


‫שוב‪ -‬נצייר‪ ,‬ונחפש את ציון התקן‪.‬‬
‫השטח שמופיע בגוף הטבלה הוא השטח שמופיע עד אותו ה‪.Z-‬‬
‫אבל אם אנחנו מחפשים את השטח מעל אותו ה‪ ,Z‬נצטרך לעשות ‪ 1‬פחות השטח שמצאנו‪.‬‬
‫כלומר‪:‬‬

‫אם כן‪ ,‬התשובה היא‪ 3.84% :‬מהנבחנים קיבלו ציון מעל ‪ 725‬בפסיכומטרי‪.‬‬

‫‪ .3‬מהו אחוז הנבחנים שקיבלו ציון פסיכומטרי עד ‪?470‬‬


‫שוב‪ -‬נצייר על מנת להבין איזה שטח אנחנו מחפשים‪.‬‬
‫ציון התקן הוא‪:‬‬

‫לאור התשובה שקיבלנו ‪ ‬נחפש בטבלה של המינוסים‪.‬‬


‫התשובה‪0.2912 :‬‬
‫כלומר‪ 29.12% -‬מהנבחנים קיבלו ציון פסיכומטרי עד ‪.470‬‬

‫אם נחפש את אחוז הנבחנים שקיבלו מעל ‪ ,590‬בהתפלגות נורמלית סימטרית נוכל לענות על השאלה הזאת בקלות ללא‬
‫חישוב נוסף‪.‬‬
‫בגלל ש‪ 590‬הוא ‪ 60‬מעל הממוצע‪ ,‬ו‪ 470-‬הוא ‪ 60‬מתחת לממוצע‪ ,‬נוכל לדעת בקלות את ה‪ Z-‬מעל ‪ ,590‬אותו מספר רק‬
‫בפלוס‪ .‬כלומר‪ ,‬ציון התקן יהיה ‪ , 0.55‬ולכן השטח יהיה אותו השטח‪ .‬נחפש את השטח בטבלה ונעשה ‪ 1‬פחות השטח שמצאנו‪.‬‬
‫כי כזכור‪ -‬בטבלה תמיד מופיע השטח עד אותו ציון תקן‪ .‬ולכן יש לבצע חישוב נוסף על מנת למצוא את השטח שהוא מעל ‪.590‬‬

‫‪ .4‬מהו אחוז הנבחנים שקיבלו ציון בין ‪ 500‬ל‪? 700-‬‬


‫במקרה כזה נגלה את השטח עד ‪ ,500‬ואת השטח עד ל‪700-‬‬
‫ולהחסיר מהשטח הגדול את השטח הקטן‪.‬‬

‫החישוב הוא‪:‬‬

‫אם כן‪ ,‬התשובה היא ‪ 54.58%‬מהנבחנים קיבלו ציון בין ‪ 500‬ל‪.700-‬‬

‫שאלה נוספת‪ :‬מהו אחוז הנבחנים שציונים נמצא בטווח של לכל היותר סטיית תקן אחת מהתוחלת?‬
‫נצטרך לחפש את אחוז הנבחנים שבין הציונים ‪ 420‬ל‪640-‬‬
‫זה הוא חישוב אוניברסלי‪ ,‬כי בעצם לפי התרגיל‪ ,‬השטח שאנחנו מחפשים הוא בין ציון תקן ‪ 1‬לבין ציון תקן ‪. -1‬‬

‫כלומר החישוב יהיה‪:‬‬

‫לכן‪ ,‬המרחק בין ‪ -1‬ל‪ 1‬יהיה תמיד ‪.68%‬‬


‫החישוב הזה נכון עבור כל התפלגות נורמלית! בלי קשר לתוחלת ולסטיית התקן!‬
‫בטווח הזה תמיד יהיו בדיוק ‪ 68%‬מהנבדקים‪.‬‬

‫הדבר דומה אם היינו שואלים‪:‬‬

‫נסכם‪ ,‬כי בכל התפלגות נורמלית‪:‬‬


‫כ‪ 68%-‬מהאוכלוסייה נמצאים בטווח של סטיית תקן אחת מהתוחלת‪.‬‬ ‫‪-‬‬
‫כ‪ 95%-‬מהאוכלוסייה נמצאים בטווח של ‪ 2‬סטיות תקן מהתוחלת‪.‬‬ ‫‪-‬‬
‫כמעט ‪ 100%‬מהאוכלוסייה נמצאים בטווח של ‪ 3‬סטיות תקן מהתוחלת‪.‬‬ ‫‪-‬‬
‫שאלה נוספת‬
‫ציוני מנת המשכל (‪ )IQ‬מתפלגים נורמלית עם ממוצע ‪ 100‬וסטיית תקן ‪.15‬‬
‫‪ .1‬מהי מנת המשכל של‪ 30%-‬מהאוכלוסייה מנת משכל נמוכה ממנה?‬
‫דבר ראשון‪ -‬נצייר את ההתפלגות!‬
‫לאחר מכן‪ ,‬נפנה אל הטבלה (הטבלה של המינוסים) ונחפש ‪ 0.3‬בתוך הטבלה (ולא בשוליים!)‪.‬‬
‫אם השטח הוא ‪  0.3‬אז ה‪( Z-‬לפי הטבלה) הוא ‪. -0.52‬‬

‫כדי לחלץ את ‪ ,X‬נחשב לפי הנוסחה‪:‬‬

‫לסיכום‪,‬‬

‫שיטת העבודה בהתפלגות נורמלית של אוכלוסייה‪:‬‬


‫‪ .1‬נכתוב נתונים‬
‫‪ .2‬נצייר פעמון גאוס תואם‪ ,‬נסמן בבירור על מה אנו נשאלים‬
‫‪ .3‬באמצעות נוסחת התקנון‪ ,‬הבענו את הערך (המשקל) כמרחקו במונחי סטיות תקן ממרכז הפעמון‪.‬‬
‫‪ .4‬הצבנו את ציון התקן (מס' ס‪.‬ת שהמשקל היה מרוחק ממרכז הפעמון) בנוסחה של חישוב שטח משמאל‪.‬‬
‫*חשוב לעשות את ההבדל‪ -‬ערכי התקן (ה‪ )Z-‬נמצאים תמיד בשולי הטבלה‪ ,‬והאחוזונים נמצאים תמיד בתוכן הטבלה‪.‬‬

‫שיעור מס' ‪27/12/2020 -11‬‬

‫שאלת חזרה‪ -‬התפלגות נורמלית‬


‫א‪ .‬שלב ‪ -1‬נצייר את הפעמון ונצבע את השטח אותו אנחנו מחפשים‪.‬‬
‫במקרה זה‪ -‬מחפשים את השטח שמעל ‪ 70‬קמ"ש‪ ,‬כלומר‪ -‬מימין‪.‬‬

‫שלב ‪ -2‬פעולת תקנון‪ .‬נקבל ש ‪Z= -1.25‬‬

‫שלב ‪ -3‬נחפש את השטח בטבלת ‪ Z‬לפי ציון התקן שמצאנו‪.‬‬


‫השטח הוא ‪ .0.1056‬לכן השטח המשלים מימין יהיה ‪ 1‬פחות השטח שמצאנו‪ .‬כלומר‪0.8944 -‬‬
‫התשובה הסופית היא‪ :‬כמעט ‪ 90%‬מהנהגים לא מפריעים לתנועה‪.‬‬

‫שלב ‪ -1‬נצייר מה אנחנו מחפשים על מנת להבין איזה ערך אנחנו מחפשים‪.‬‬ ‫ב‪.‬‬
‫שלב ‪ -2‬נחפש ציון תקן בטבלת ‪ Z‬לפי חיפוש שטח שהוא ‪ ,0.3‬קיבלנו ‪Z = -0.52‬‬

‫שלב ‪ -3‬נחפש את ה‪ X-‬שלנו לפי הנוסחה‬


‫‪X = 78.76‬‬

‫לסיכום‪,‬‬

‫סיכום התפלגות נורמלית וסטנדרטית‬


‫♦ תכונות של התפלגות נורמלית‪ :‬סימטריה‪ ,‬שכיח במרכז‬
‫♦ תקנון‪ :‬מרחק מהתוחלת‪ -‬במספר סטיות תקן‬
‫♦ התפלגות נורמלית סטנדרטית‬
‫♦ חישוב הסתברויות‪:‬‬
‫• עד‪ :‬ישר מהטבלה‬
‫• מעל‪ 1 :‬פחות הערך בטבלה‬
‫• בין שני ערכים‪ :‬הפרש שטחים (הגדול פחות הקטן)‪.‬‬
‫♦ חישוב אחוזונים‪ :‬מתוך הטבלה ‪ >--‬החוצה‪ .‬מוצאים ‪ Z‬לפי השטח‪.‬‬
‫♦ התפלגות נורמלית כללית‪:‬‬
‫• הסתברות‪ :‬קודם תקנון‪ ,‬אחרי זה טבלה‬
‫• אחוזון‪ :‬קודם טבלה‪ -‬מוצאים ‪ , Z‬אח"כ "הופכים את התקנון"‬

‫ממוצע של משתנים נורמליים ומשפט הגבול המרכזי‬


‫♦ ניקח מאוכלוסייה מדגם בגודל ‪.N‬‬
‫♦ נחשב את ממוצע המדגם‬
‫♦ נחזור על התהליך אינסוף פעמים‪.‬‬

‫שאלה‪ :‬איך תראה התפלגות של ממוצעי המדגמים?‬


‫אם ההתפלגות נורמלית גם הממוצע של הממוצעים היא תמיד תראה נורמלית‪.‬‬

‫מקרה ראשון‪ :‬כשהאוכלוסייה מתפלגת נורמלית (היקף חזה ממוצע של חיילים סקוטיים)‬

‫ככל שלוקחים מדגם יותר גדול ‪ >--‬הפיזור הולך ונהיה יותר ויותר קטן‬

‫מקרה שני‪ :‬כשהאוכלוסייה אינה מתפלגת נורמלית‬


‫כשמהדגם מספיק גדול ההתפלגות תהיה נורמלית ללא קשר להתפלגות המקורית של האוכלוסייה‪.‬‬

‫התפלגות הממוצעים ומשפט הגבול המרכזי‬


‫נתאר התפלגות תיאורטית של ממוצעי אינסוף מדגמים בגודל ‪ n‬מהאוכלוסייה ‪:‬‬
‫◘ באוכלוסייה שמתפלגת נורמלית‪ ,‬ממוצע מדגם בכל גודל יהיה מתפלג נורמלית‪.‬‬
‫◘ באוכלוסייה שאינה נורמלית‪ ,‬עבור מדגמים בגודל ‪( 30‬בערך!) ומעלה‪ ,‬ממוצע המדגם מתפלג בקירוב נורמלית‪.‬‬

‫*הממוצע של הממוצעים הוא תמיד התוחלת‪.‬‬


‫סטיית התקן של הממוצעים תהיה מה שהיה קודם‪ ,‬שמחולקת בשורש ‪ .N‬זאת בעצם תהיה סטיית התקן של‬
‫הממוצעים‪ .‬לכן‪ ,‬ככל שהמדגם גדול יותר‪ ,‬הפיזור קטן יותר‪.‬‬

‫התפלגות הממוצעים‬
‫♦ ממוצע ההתפלגות זהה לממוצע האוכלוסייה (תוחלת)‪.‬‬
‫♦ במדגם גדול התפלגות הממוצעים תתפלג נורמלית‪ ,‬ללא קשר להתפלגות המקורית של האוכלוסייה‪.‬‬

‫♦ סטיית התקן של התפלגות הממוצעים תהיה‬

‫כלומר זוהי סטיית התקן של הממוצעים‪.‬‬ ‫♦ לסטיית תקן זו (של התפלגות הממוצעים) קוראים טעות תקן‪-‬‬
‫דוגמה‪ :‬ציונים‬
‫נכתוב זאת כך ‪:‬‬

‫א‪ .‬מה הסיכוי שציון של תלמיד במבחן כזה יעלה על ‪? 72‬‬

‫קודם כל‪ -‬נצייר‪.‬‬

‫נעשה פעולת תקנון ונחפש בטבלת ‪:Z‬‬


‫לאחר מכן‪ ,‬נעשה ‪ 1‬פחות השטח שמצאנו ‪:‬‬

‫מה הסיכוי שממוצע הציונים של ‪ 25‬תלמידים יעלה על ‪? 72‬‬ ‫ב‪.‬‬


‫דוגמה נוספת‪:‬‬

‫א‪ .‬לא ניתן לחשב! אם לא אמרו לנו בפירוש שזה מתפלג נורמלי‪ -‬אי אפשר לגשת לשאלה ולחפש בטבלת ‪.Z‬‬

‫ב‪n=400 .‬‬
‫ההתפלגות של הממוצעים כן תהיה נורמלית אם אותה התוחלת (‪ )7000‬עם סטיית תקן חלקי שורש ‪.n‬‬

‫לסיכום‪,‬‬
‫♦ אם השאלה מתייחסת לערך משתנה (‪ ,)X‬אז נעשה פעולת תקנון לפי הנוסחה שאנחנו מכירים‪ ,‬ונחפש בטבלה‪.‬‬
‫♦ אם השאלה מתייחסת לממוצע המדגם‪ ,‬אז צריך לדעת את ההתפלגות של הממוצעים (שידוע שהיא תהיה‬
‫נורמלית אם ניקח מדגם של לפחות ‪ ,30‬עם אותה תוחלת‪ ,‬אך סטיית התקן תהיה יותר קטנה‪ -‬בשורש ‪.) n‬‬
‫כלומר נחפש את טעות התקן‪ .‬במקום ‪ X‬נכתוב ממוצע‪ ,‬ונחלק בסטיית התקן חלקי שורש ‪.n‬‬
‫שאלת חזרה‬

‫פתרון‬
‫שיעור מס' ‪ -11‬יום א' ‪03/01/2020‬‬

‫הסקה סטטיסטית‪ -‬רווח סמך לתוחלת כשהשונות ידועה‬


‫המטרה בהסקה סטטיסטית זה להסיק מסקנות מהמדגם אל כלל האוכלוסייה‪ ,‬זה תמיד יהיה בהסתברות גבוהה עם סיכוי‬
‫מסוים לטעות‪ .‬זה תמיד לא יהיה ב‪.100%-‬‬
‫‪ 2‬שיטות להסקה סטטיסטית‪:‬‬
‫שיטה ראשונה‪ :‬אמידה (בעלת ‪ 2‬שלבים)‪.‬‬
‫‪ .1‬אמידה נקודתית‬
‫‪.2‬אמידה על ידי התחום ‪" /‬רווח סמך"‬
‫שיטה שניה‪ :‬בדיקת השערות‬

‫חזרה ותזכורת על תכונות של התפלגות נורמלית‬


‫הסקה סטטיסטית‪ -‬מה ניתן ללמוד מהמדגם לגבי האוכלוסייה‬
‫◘ עד עכשיו עסקנו בשאלות בהן היה מידע מלא על תכונות האוכלוסייה‪.‬‬
‫למשל‪ :‬ידענו שאוכלוסייה מתפלגת נורמלית‪ ,‬וחישבנו סיכוי לגבי אדם בודד או ממוצע של מדגם‪.‬‬
‫◘ בהסקה סטטיסטית המצב הפוך ‪ :‬יש לנו נתוני מדגם‪ ,‬ואנו מעוניינים ללמוד מתוכם לגבי התכונות של האוכלוסייה כולה‪.‬‬
‫כלומר במציאות‪ -‬אין לנו מידע לגבי כלל האוכלוסייה‪ ,‬אלא לוקחים מדגם של נבדקים‪ ,‬ועל סמך אותו מדגם מסיקים מסקנות‬
‫לגבי כלל האוכלוסייה‪.‬‬
‫דוגמה‪ :‬סקר לפני בחירות‪.‬‬

‫הגדרות‪:‬‬
‫○ מדגם‪ :‬קבוצה קטנה‪ ,‬חלקית‬
‫○ אוכלוסייה‪ :‬אינסופי‬
‫○ סטטיסטי‪ :‬גודל שמאפיין את המדגם‬
‫○ פרמטר‪ :‬גודל שמאפיין את האוכלוסייה‬
‫ממוצע המדגם הוא סטטיסטי‪.‬‬ ‫של ההתפלגות היא פרמטר‪ ,‬ואילו‬ ‫כלומר‪ :‬התוחלת‬

‫= אומד נקודתי‪( .‬מס' אחד בלבד שבאמצעותו אני מעריכה מה אני מצפה לקבל באוכלוסייה)‪.‬‬

‫ההבדל המהותי בין השניים‪:‬‬


‫התוחלת היא גודל קבוע‪ ,‬ואילו ממוצע המדגם הוא משתנה מקרי‪.‬‬

‫אומדים‪:‬‬
‫לשם כך יש צורך במדגם‪ ,‬ממנו מפיקים סטטיסטי ‪ ,‬ומקוים (מאוד) שיהיה קרוב לפרמטר (לתוחלת‪ ,‬הממוצע באוכלוסייה)‪.‬‬

‫הבעיה‪:‬‬
‫באמצעות אמידה נקודתית אי אפשר לדעת עד כמה ההערכה היא מדויקת‪.‬‬
‫○ נתון מדגם‪ ,‬עבורו חישבנו את הממוצע‪ .‬ממוצע זה יכול לתת הערכה ראשונית לגבי ערכה של התוחלת באוכלוסייה‪.‬‬
‫○ אבל‪ -‬האם נוכל לדעת בוודאות כמה רחוק הממוצע הזה מהתוחלת?‬
‫למשל‪ :‬נמצא שהגובה הממוצע של קבוצת ילדים הוא ‪ 158‬ס"מ‪.‬‬

‫נוכל להעריך‪:‬‬
‫בביטחון גבוה‪ :‬שתוחלת הגובה היא בין ‪ 62‬ס"מ ל‪ 210-‬ס"מ‪ .‬אבל זה לא מדויק ולא באמת אינפורמטיבי‪.‬‬
‫בביטחון נמוך‪ :‬שתוחלת הגובה היא בין ‪ 157‬ל‪ 159-‬ס"מ‪ .‬זוהי הערכה מדויקת‪ ,‬אבל קיים סיכוי לא מבוטל שהיא אינה נכונה‪.‬‬

‫הפתרון‪:‬‬
‫◘ אם כך‪ ,‬קיימת תחלופה (‪ )Tradeoff‬בין רמת הדיוק של טווח הערכים ורמת הביטחון של הטווח (פשרה)‪.‬‬
‫◘ הפתרון המקובל הוא לקבוע מהי רמת הביטחון (רמת הסמך) בה אנחנו מעוניינים‪ ,‬והדיוק מתקבל בהתאם‪.‬‬
‫◘ רמת הביטחון המקובלת נקבעת ברמה של ‪( 95%‬אך זה לא חובה) שזהו למעשה מרחק של ‪ 2‬טעויות תקן‪.‬‬
‫זה משהו שקובעים מראש בתחילת התרגיל‪ ,‬תמיד יגידו לנו את זה בשאלה‪.‬‬
‫רמת סמך‪/‬רמת ביטחון מסמנים כך‪:‬‬

‫כיצד נעריך את שגיאת האמידה‪ ,‬בהתאם לרמת הביטחון?‬


‫ניזכר בתכונות של התפלגות נורמלית‪:‬‬
‫○ ראינו שבסיכוי של כ‪ , 68%-‬ממוצע המדגם צפוי להיות בטווח של טעות תקן אחת מהתוחלת‪.‬‬
‫○ אם כך‪ -‬נכון באותה מידה לומר‪ ,‬שבביטחון של ‪ ,68%‬התוחלת רחוקה לכל היותר טעות תקן אחת מהממוצע שהתקבל‪.‬‬
‫○ אם אנחנו מעוניינים בטווח ערכים שיכלול את התוחלת ברמת ביטחון של ‪ >-- 68%‬עלינו לקחת טווח של טעות תקן אחת‬
‫לכל כיוון‪.‬‬
‫○ אם הטווח שלי הוא ‪ 68%‬אז הסיכוי שאני פוגעת הוא קטן יותר‪.‬‬
‫החוכמה שלנו היא למצוא טווח צר בהסתברות גבוהה‪.‬‬
‫○ באותה מידה ניתן לומר שברמת בטחון של כ‪ ,95%-‬התוחלת רחוקה לכל היותר שתי טעויות תקן מהממוצע שהתקבל‪.‬‬
‫○ כך שעבור רמת ביטחון של ‪ 95%‬ניקח טווח של שתי טעויות תקן מהממוצע‪,‬‬
‫וברמת ביטחון של כמעט ‪ -100%‬התוחלת רחוקה לכל היותר ‪ 3‬טעויות תקן מהממוצע שהתקבל‪.‬‬
‫○ כלומר עבור רמת בטחון של כמעט ‪ 100%‬ניקח טווח של ‪ 3‬טעויות תקן מהממוצע‪.‬‬
‫ניישם את הרעיון באמידת התוחלת (כאשר השונות ידועה) בדוגמה הבאה‪:‬‬
‫אנו רוצים להעריך את תוחלת זמן ההמתנה למענה במרכז שירות‪.‬‬
‫התקשרנו למוקד ‪ 25‬פעמים (באופן מקרי) ומצאנו שזמן ההמתנה הממוצע היה ‪ 3‬דקות‪.‬‬
‫(הניחו התפלגות נורמלית)‪.‬‬

‫• ידוע שסטיית התקן של זמן ההמתנה היא דקה אחת‪.‬‬


‫*סטיית התקן לא תמיד נתונה לנו!‬
‫בסמסטר א' כן‪ ,‬אבל בסמסטר הבא לא נדע זאת מראש‪.‬‬

‫• מכאן‪ -‬שטעות התקן (בדקות) היא‪:‬‬

‫○ ברמת בטחון של ‪ 68%‬נסיק‪ ,‬ששגיאת האמידה היא ‪=( 0.2‬טעות תקן אחת)‪ ,‬ותוחלת זמן ההמתנה היא בין ‪ 2.8‬ל‪ 3.2-‬דקות‪.‬‬
‫○ ברמת בטחון של ‪ 95%‬נסיק‪ ,‬ששגיאת האמידה היא ‪=( 0.4‬שתי טעויות תקן)‪ ,‬ותוחלת זמן ההמתנה היא בין ‪ 2.6‬ל‪ 3.4-‬דק'‪.‬‬
‫○ ברמת בטחון של כמעט ‪ 100%‬נסיק‪ ,‬ששגיאת האמידה היא ‪ 3( 0.6‬טעויות תקן)‪ ,‬ותוחלת זמן ההמתנה היא בין ‪ 2.4‬ל‪. 3.6-‬‬

‫ואם אנחנו מעוניינים ברמת בטחון שונה?‬


‫○ למשל ‪ :‬מהי תוחלת הזמן עד למענה‪ ,‬ברמת בטחון ‪? 90%‬‬
‫אם אנחנו בטוחים ב‪ >-- 90%-‬יש לנו סיכוי של ‪ 10%‬שאנחנו טועים‪.‬‬
‫○ לחילופין ניתן לשאול‪ :‬כמה טעויות תקן מסביב לממוצע יש לקחת?‬

‫אם בפנים ‪ ,0.9‬ובצדדים זה ‪ 5%‬מכל צד‪ ,‬אז השטח הוא השטח עד אחוזון ‪.95‬‬

‫ובאופן כללי‪:‬‬

‫טעויות תקן מהממוצע שהתקבל במדגם‪.‬‬ ‫נוכל לקבוע שהתוחלת נמצאת במרחק של‬ ‫ברמת ביטחון של‬
‫רווח בר סמך לתוחלת (כאשר השונות ידועה)‪:‬‬

‫שגיאת האמידה‪/‬טעות הדגימה‪ -‬עד כמה התוצאה שקיבלתי במדגם יכולה לסטות מהתוצאה האמיתית באוכלוסייה‬
‫עצמה‪ ,‬לכל כיוון‪ .‬נקראת גם "הסטייה המרבית בין ממוצע המדגם לתוחלת"‪ ,‬כי ניתן להראות ש‪:‬‬
‫סימון‪d :‬‬

‫בהמשך לדוגמה על זמן ההמתנה‪:‬‬


‫מהו רווח סמך‪ ,‬ברמת ביטחון ‪ 90%‬לתוחלת זמן ההמתנה?‬
‫נחפש את הגבול העליון והגבול התחתון‪ ,‬כלומר את ‪ a‬ו‪.b-‬‬

‫תשובה‪:‬‬
‫שגיאת האמידה‪:‬‬

‫ומכאן רווח הסמך הוא‪:‬‬

‫כלומר הרווח סמך הוא הטווח בו נופלת התוחלת האמיתית של האוכלוסייה‪.‬‬

‫כלומר אופן הפעולה הוא כזה‪:‬‬


‫• רמת הביטחון ידועה‪ -‬כלומר השטח הוא ידוע‪ .‬הוא ‪.90%‬‬
‫• נחפש קודם כל את ה‪ Z-‬של אחוזון ‪ 90‬פלוס חצי אלפא‪.‬‬
‫• נכפיל את ה‪ Z‬שמצאנו בטעות התקן‪.‬‬
‫• התוצאה תהיה רווח סמך‪ ,‬והיא תסומן בפלוס מינוס ‪ .-+‬מהסטטיסטי נוסיף ונגרע את התוצאה שמצאנו‪ ,‬כלומר את ‪,d‬‬
‫וכך נקבל את ‪ a‬ו‪.b-‬‬
‫שגיאת האמידה ואורך הרווח‬
‫סימון אורך הרווח‪l :‬‬

‫תכונות שגיאת האמידה (הסטייה המרבית)‬


‫המשך הדוגמה‪ -‬תוחלת זמן ההמתנה‬

‫כלומר מחפשים את ה‪.n-‬‬

‫נתון ש‪:‬‬

‫לכן‪:‬‬

‫ראשית‪ ,‬נחפש את ה‪ Z-‬ולאחר מכן נציב בנוסחה‪.‬‬


‫כלומר נחפש את האחוזון ה‪( 97.5-‬אם כי קל להגיד בקלות ש ‪ Z=2‬כי מדובר ב‪.)95%‬‬

‫לאחר שנציב בנוסחה נקבל‪:‬‬

‫כי מותר לי לדגום יותר‪ ,‬אסור לי לדגום פחות ‪.‬‬ ‫≤‬ ‫הסימון הוא‬
‫באופן כללי חישוב גודל המדגם‪:‬‬
‫אם נרצה למצוא את גודל המדגם כך שהשגיאה באמידה (הסטייה המירבית) לא תעלה על גודל מסוים‪:‬‬

‫דוגמה‬

‫מהו רווח הסמך? מהי שגיאת האמידה? מהו אורך הרווח?‬ ‫השאלה‪:‬‬

‫פתרון‪:‬‬

‫א‪ .‬תחילה נחשב את ממוצע המדגם‪:‬‬

‫ב‪ .‬נחפש את ‪( Z‬כלומר את האחוזון ה‪)99-‬‬


‫‪Z = 2.326‬‬

‫ג‪ .‬נחפש את שגיאת האמידה‪ ,‬כלומר את ‪ .d‬מצאנו ש ‪ d=5.8‬כך‪:‬‬

‫ד‪ .‬רווח הסמך יחושב כך‬

‫ה‪ .‬אורך הרווח = ‪ 11.6‬מכייון שהוא שווה לפעמיים ‪d‬‬


‫שיעור אחרון‪ -‬יום א' ‪10/01/2021‬‬

‫למדנו שיש ‪ 2‬שיטות להסקה סטטיסטית‪:‬‬


‫◘ אמידה נקודתית‪ -‬להעריך ע"י מספר אחד‪ ,‬ע"י ערך בודד (שהוא ממוצע המדגם‪ ,‬האומד הנקודתי)‪.‬‬

‫◘ בדיקת השערות ‪ -‬ישאלו במבחן על המושגים של השיטה‪ ,‬אבל השיטה עצמה ניבחן כבר בסמסטר הבא‪...‬‬

‫מושגים בבדיקת השערות‬


‫○ בכל מחקר מדעי שנערך‪ ,‬החוקר מעוניין לערער על הנחת "ברירת מחדל" כלשהי ולהראות חדשנות‪.‬‬
‫למשל‪ :‬חוקר מעוניין להראות ש‪:‬‬
‫• יש קשר בין חשיפה של ילדים לתכנים אלימים בטלוויזיה ומוערבותם בתקריות אלימות‪.‬‬
‫• יש הבדל בין הנכונות של נשים לקחת סיכונים לבין הנכונות של גברים לקחת סיכונים‪.‬‬

‫מגדירים שתי השערות לגבי הפרמטר הלא ידוע‪:‬‬

‫השערת ‪ -H0‬תמיד תתאר את המצב הקיים ‪ /‬ברירת המחדל‪ .‬נקרא לה‪ -‬השערת האפס ‪ /‬השערה סקפטית‪.‬‬
‫השערת ‪ -H1‬זו תמיד השערה שטוענת לחדשנות‪ .‬נקרא לה‪ -‬השערת המחקר ‪ /‬טענת החוקר ‪ /‬ההשערה האלטרנטיבית‪.‬‬

‫במחקרים‪ ,‬בפועל‪ ,‬השערות אלו מתורגמות להשערות לגבי פרמטר כלשהו של האוכלוסיה הנבדקת‪.‬‬
‫למשל‪:‬‬
‫תוחלת מס' ההחלטות ה"מסוכנות" שקיבלו נשים בסימולציה כלשהי‪ ,‬לעומת תוחלת מס' ההחלטות ה"מסוכנות" שקיבלו גברים‬
‫באותה סימולציה‪.‬‬

‫כללי החלטה‪:‬‬
‫בסופו של דבר‪ ,‬החוקר צריך להכריע בין ‪ 2‬ההשערות על סמך תוצאות המדגם‪.‬‬
‫הגישה היא שמאמינים להשערת האפס אלא אם כן תוצאת המדגם לא סבירה תחת השערה זו‪.‬‬
‫האם תוצאות המדגם מספקות אותנו?‬

‫דוגמה‪:‬‬
‫במערכת המשפט מקובלת חזקת החפות‪.‬‬
‫כלומר‪ -‬נאשם נחשב חף מפשע עד שלא הוכחה אשמתו מעבר לספק סביר‪.‬‬
‫בהנחה שבתי המשפט אכן פועלים לפי גישה זו‪:‬‬

‫שאלה‪ :‬מהי הנחת היסוד לגבי נאשם?‬


‫תשובה‪:‬‬
‫‪ = H0‬חף מפשע‬
‫‪ = H1‬אשם‬

‫שאלה‪ :‬מהו החשד לגביו? על סמך הראיות? האם כל שופט יסיק מסקנה זהה?‬

‫שאלה ‪ :‬האם ניתן לדעת בוודאות אם השופט צודק בהכרעתו?‬


‫תשובה ‪ :‬חד משמעית לא‪ .‬כי ברגע שהשופט לא היה בזירת האירוע ולא ראה באמת‪ -‬אנחנו לא יכולים להגיד ב‪ 100%-‬שהוא‬
‫צודק‪ .‬בכל החלטה שמתקבלת תיתכן טעות‪.‬‬
‫דוגמה נוספת‪:‬‬

‫מהן ההשערות הנבדקות?‬


‫‪ – H0‬הפעלה של המצלמות לא תוריד את מפלס האלימות‪.‬‬
‫‪ -H1‬פיקוח הדוק יכול להוריד את מפלס האלימות‪.‬‬

‫בדיקת השערות‪ -‬הטעויות האפשריות‬


‫בכל תהליך של בדיקת השערות תיתכן טעות במסקנה שמתקבלת‪.‬‬
‫ישנן ‪ 2‬טעויות אפשריות‪ ,‬ונרצה לדעת מה ההסתברות של כל אחת מהן‪.‬‬

‫טעות מסוג ראשון‪ :‬טעות בה מחליטים ש‪ H1-‬נכונה‪ ,‬אבל בפועל ‪ H0‬נכונה‪ .‬זה נקרא‪ -‬תגלית שגויה‪.‬‬
‫טעות מסוג שני‪ :‬עלולה להתרחש כאשר החוקרים מחליטים ש‪ H0-‬נכונה‪ ,‬אבל בפועל ‪ H1‬נכונה‪ .‬זה נקרא‪ -‬פספוס תגלית‬

‫מה המשמעות של כל אחת מהטעויות בדוגמאות שראינו?‬


‫בדוגמת בית המשפט‬
‫אלפא‪ -‬טעות מסוג ראשון זה לשים מאחורי סורג ובריח אדם חף מפשע‬
‫בתא‪ -‬טעות מסוג שני זה שהשופט החליט לשחרר את הפושע מחוסר ראיות‪ ,‬אבל בפועל הוא דווקא כן עשה את העבירה‪.‬‬
‫*שתי הטעויות כמובן חמורות במקרה הנ"ל‪ ,‬אבל דרגת החומרה היא בהתאם לסיפור‪.‬‬
‫ועצמת המבחן זה הסיכוי שאנחנו מחליטים שטענת החוקר נכונה‪ ,‬ובפועל מתברר לנו שאכן ‪ H1‬נכונה‪.‬‬
‫הסיכוי ששופט אכן החליט שהאדם אשם‪ ,‬והאדם אכן עשה את העבירה‪.‬‬
‫המטרה של החוקר זה שהעוצמה של המבחן תהיה כמה שיותר גבוהה‪ ,‬וטעויות יהיו כמה שיותר קטנות‪.‬‬

‫סימון‪:‬‬

‫זה הסיכוי (‪ )P‬לדחות את ‪ , H0‬ובפועל באמת‪ H1‬נכונה‪ .‬דחיית ‪ H0‬בצדק‪.‬‬

‫דוגמה לשאלה מהמבחן‪:‬‬

‫‪ - H0‬אומרת שהתרופה החדשה יעילה באותה המידה כמו התרופה הקיימת (עד שלא הוכחנו אחרת‪ ,‬התרופה החדשה‬
‫יעילה באותה במידה לתרופה הקיימת‪ .‬תמיד השערת ‪ H0‬תתאר את המצב הקיים‪ ,‬זו תמיד השערה סקפטית)‪.‬‬
‫‪ - H1‬אומרת שהתרופה של חברת התרופות יותר יעילה (השערת החוקר טוענת לחדשנות)‪.‬‬
‫אנחנו מחפשים טעות מסוג שני‪ ,‬זה הסיכוי שהחוקר יגיד שהשערת ‪ H0‬נכונה‪ ,‬אבל בפועל ‪ H1‬תהיה הנכונה‪.‬‬

‫פספוס התגלית היא בעצם השלמה של עוצמת המבחן‪.‬‬

‫התשובה היא‪ :‬א'‪.‬‬


‫♦ לא בודקים דפי נוסחאות‪ -‬אז אפשר להכין איך שרוצים (לא מראים אותם למצלמה בתחילת המבחן או משהו)‪.‬‬
‫♦ יש להדפיס את טבלת ההתפלגות הנורמלית‬
‫♦ אין מגבלה על דפי טיוטה‪.‬‬
‫♦ לא צריך לסרוק שום דבר‪.‬‬
‫♦ תהיה אופציה להיכנס ל"חדר" לשאול שאלות מתרגל‪/‬מרצה‪.‬‬

‫תרגול ממבחן משנה שעברה‪:‬‬

‫תשובה‪:‬‬
‫בשאלה ‪11‬‬
‫אם רמת הביטחון גדלה (וכל יתר הגורמים נשארים קבועים) ‪ >--‬גדל אורך רווח הסמך‪.‬‬
‫כשמגדילים את רמת הביטחון‪ ,‬ממוצע המדגם לא משתנה‪.‬‬
‫תשובות‪:‬‬

‫תשובה לשאלה ‪:3‬‬

You might also like