You are on page 1of 36

‫יסודות המחקר הכמותי ב – סיכום למבחן‬

‫פרק ‪ – 1‬סטטיסטיקה – מה ומדוע‬

‫‪.‬קורס זה מתמקד בשלב ניתוח הנתונים והערכת השערות (שלבים ‪ 4‬ו‪ )5‬כחלק מתהליך המחקר‬

‫סולמות מדידה‬
‫החוקר מחליט איזה משתנה הוא מודד‪ ,‬כיצד הוא מודד אותו‪ ,‬אילו ערכים ניתן לקבל‪ .‬החוקר יגדיר את‬
‫‪.‬מערכת המספרים טרם המדידה‪ .‬יש ‪ 4‬סולמות מדידה‬

‫סולם שמי – מסמן את הזהויות הנמדדות באופן שיאפשר הבחנה בין זהותן בלבד‪ .‬אין משמעות לסדר‬
‫‪.‬או לרווח‪ .‬דוגמא‪ :‬צבע שיער‪ ,‬סוג דת‪ ,‬לאום‪ .‬אין מדרג‬

‫סולם סדר – ערכים בסולם זה מעבר לזהות‪ ,‬מייצגים גם סדר בין הערכים‪ .‬יש דירוג‪ .‬יש משמעות לסדר‬
‫אך לא לרווח‪ .‬דוגמא‪ :‬מידת הדתיות של אדם‪ .‬אפשר להגיד שחילוני פחות דתי ומחרדי‪ ,‬אך לא ניתן‬
‫להגדיר עד כמה‪ .‬מותר לנו להתייחס למשתנה שנמדד בסולם סדר עם ‪ 5‬רמות ומעלה כאל משתנה‬
‫‪.‬שנמדד בסולם רווח – מנה‬

‫סולם רווח – בנוסף לזהות וסדר‪ ,‬יש משמעות למרווחים (הפרשים) בין הערכים‪ .‬יש יחידת מדידה‬
‫קבועה‪ .‬בסולם זה אין לנו מידע לגבי היחסים בין הערכים ונק' האפס אינה שרירותית‪ .‬לא ניתן לומר פי‬
‫כמה רק בכמה‪ .‬דוגמא‪ :‬מסתכלים על גבהים‪ .‬אפשר שהגובה יתחיל במינוס ולא נדע‪ .‬אפשר לרדת‬
‫‪.‬מתחת ל‪ 0‬בסולם רווח‬

‫סולם מנה – בנוסף לזהות‪,‬סדר ומרווחים יש משמעות גם ליחסים בין הערכים‪ .‬נק' האפס אינה‬
‫שרירותית‪ .‬אפס משמעותו "היעדר המהות הנמדדת"‪ .‬ניתן לדבר על היחס לא רק של יותר ופחות‪ ,‬אלא‬
‫‪.‬גם כפול וחלקי‪ .‬אי אפשר לרדת מתחת ל‪0‬‬

‫‪.‬בקורס הזה מחברים בין סולם רווח לסולם מנה וקוראים לזה סולם רווח‪-‬מנה‬

‫הגדרות חדשות‬
‫משתנה דיכוטומי – משתנה בעל שני ערכים בלבד‪ .‬למשל‪ ,‬האם הוא שכיר (כן או לא)‪ ,‬מין ביולוגי (זכר‬
‫‪.‬או נקבה)‬
‫משתנה רציף – בין כל שני ערכים‪ ,‬אפשר להכניס אינסוף ערכים אחרים‪ .‬למשל‪ ,‬גובה או טמפרטורה‪.‬‬
‫‪.‬יכול להיות טמפ' ‪ 57‬וטמפ' ‪ ,58‬בין שני ערכים אלו אפשר להכניס עוד אינסוף ערכים שהם בין השניים‬

‫משתנה בדיד – משתנה שיכול לקבל רק מספר סופי של ערכים‪ .‬לדוגמא‪ ,‬מידת נעליים או מספר אנשים‪.‬‬
‫נגיד יש ‪ 62‬אנשים וערך נוסף של ‪ 64‬אנשים‪ ,‬בין שני ערכים אלו לא ניתן להכניס ערכים נוספים חוץ מ‪63‬‬
‫‪.‬כי אין חציי אדם‬

‫שלב ראשון ‪ -‬סטטיסטיקה תיאורית – פרוצדורות שעוזרות לנו לארגן ולתאר נתונים שנאספו ממדגם‬
‫‪.‬או מאוכלוסייה‪ .‬חישובים על נתוני המדגם שלנו‬

‫שלב שני ‪ -‬סטטיסטיקה היסקית – הלוגיקה והפרוצדורות הנוגעות להפקת תחזיות או היסקים לגבי‬
‫אוכלוסייה מתוך תצפיות וניתוחים של המדגם‪ .‬האם אפשר להסיק משהו מהנתונים כלפי האוכלוסייה‬
‫‪.‬הרחבה‪ .‬חישובים שבהם משתמשים כדי להכליל את התוצאות על כל האוכלוסייה‬

‫פרק ‪ – 2‬התפלגויות שכיחויות‬

‫התפלגות שכיחויות‬

‫‪.‬זוהי טבלה המדווחת על מספר התצפיות השייכות לכל קטגוריה של משתנה‬

‫לדוגמא‪ :‬התפלגות שכיחויות בקטגוריה של מספר הילדים במשפחה עבור אזרחים ישראלים בישראל‪,‬‬
‫‪2018‬‬

‫הסימון‪.N‬הוא למספר המדגם‬

‫התפלגות‬ ‫שכיחות‬ ‫שכיחות אחוזים‬ ‫שכיחות‬ ‫מספר ילדים‪Y‬‬


‫אחוזים‬ ‫מצטברת‬ ‫‪P‬‬ ‫במשפחה‬
‫)‪f(y‬‬
‫מצטברת‬ ‫‪F‬‬
‫‪20%‬‬ ‫‪50‬‬ ‫‪0.2‬‬ ‫‪50‬‬ ‫‪1‬‬

‫‪100%‬‬ ‫‪250‬‬ ‫‪0.8‬‬ ‫‪200‬‬ ‫‪2‬‬

‫‪N=250‬‬
‫שכיחות יחסית ואחוזים‬

‫כאשר רוצים להשוות בין קבוצות במחקר‪ ,‬יש להסתכל על האחוזים‪ .‬כאשר מספר המקרים גדול‪,‬‬
‫‪.‬לפעמים קשה לקלוט את השכיחויות‪ .‬אפשר להפוך את השכיחויות ליחסיות (ליחס או אחוזים)‬

‫( יחס‪ (P‬חלוקה של השכיחות בכל קטגוריה – )‪ (F‬במספר המקרים הכולל )‪.N‬פי שווה לאף חלקי אן ‪).‬‬

‫‪.‬אפשר כמובן גם לתרגם את זה לאחוזים‬

‫התפלגות שכיחויות מצטברת‬

‫לעיתים יש לנו עניין באיתור המיקום היחסי של תוצאה נתונה בתוך התפלגות‪ .‬לשם כך משתמשים‬
‫בהתפלגות שכיחויות מצטברת – מראה את השכיחויות בכל קטגוריה של המשתנה או מתחת לה‪ .‬פשוט‬
‫‪.‬כל פעם מחברים את השכיחויות יחדיו אחת אחרי השנייה‪ .‬התפלגות אחוזים מצטברת היא אותה הדבר‬

‫פרק ‪ – 3‬הצגה גרפית‬


‫תרשים עוגה (פאי) ‪ -‬מראה את ההבדלים בשכיחויות או באחוזים בין קטגוריות של משתנה שמי או‬
‫סדר‪ .‬הקטגוריות מוצגות כפלחי מעגל‪ ,‬ויחד הן מהוות ‪ 100%‬מכלל השכיחויות‪ .‬נו אני מכיר‪ .‬צריך‬
‫‪.‬שהעוגה תראה הגיונית‪ ,‬אסור לעוות‬

‫תרשים עמודות ‪ -‬זוהי דרך חלופית להצגה גרפית של נתונים שמיים או סדר (במקום פאי)‪ .‬תרשים‬
‫המראה את ההבדלים בשכיחויות או באחוזים בין הקטגוריות של משתנה שמי או סדר‪ .‬צריך גם פה‬
‫‪.‬להיזהר מעיוותים‬

‫היסטוגרמה ‪ -‬תרשים המראה את ההבדלים בשכיחויות או באחוזים בין קטגוריות של משתנה רווח‪-‬יחס‪.‬‬
‫הקטגוריות מוצגות כעמודות רציפות‪ ,‬ברוחב יחסי לרוחב הקטגוריה ובגובה יחסי לשכיחות או לאחוז של‬
‫אותה קטגוריה‪ .‬ההבדל פה לעומת עמודות‪ ,‬שהן עומדות אחת צמוד לשנייה ואין רווח ביניהן‪ .‬משמש‬
‫‪.‬במקרה של רווח‪-‬יחס‬
‫תרשים קו – אותו דבר כמו היסטוגרמה‪ ,‬גם הוא למשנה רווח‪-‬יחס‪ .‬הוא מופיע כקו רציף שעולה ויורד‪.‬‬
‫‪.‬לפי המדד‬

‫פרק ‪ – 4‬מדדי נטייה מרכזית – חישובים בפועל‬


‫לעתים קרובות נרצה לתאר מספר רב של משתנים‪ .‬למטרה זו‪ ,‬לא תמיד יהיה כדאי להשתמש בטבלאות‬
‫‪.‬ותרשימים‬

‫נניח שמעניין אתכם לדעת על מספר הילדים‪ ,‬רמת ההכנסה‪ ,‬ההשכלה ושייכות למפלגה פוליטית‬
‫מסוימת‪ .‬יקל עלינו להשתמש במספר אחד‪ ,‬שמתאר או מסכם את ההתפלגות בצורה תמציתית יותר‪.‬‬
‫‪.‬מספרים אלה נקראים מדדי נטייה מרכזית (שכיח‪ ,‬חציון‪ ,‬ממוצע)‬

‫( שכיח‪)MODE‬‬

‫‪.‬מחושב מסולם שמי ומעלה‬

‫הקטגוריה או הערך בעל השכיחות (או בעלת האחוז) הגבוהה ביותר בהתפלגות‪ .‬השכיח הוא תמיד‬
‫‪.‬קטגוריה או ערך‪ ,‬לא שכיחות‬

‫למשל‪ ,‬מה השפה הזה המדוברת ביותר בישראל? מה מספר הדוברים הגבוהה ביותר מכל השפות‬
‫?בארץ‬

‫( חציון‪)MEDIAN‬‬
‫מחושב מסולם סדר ומעלה‪ .‬חציון מציין את אמצע ההתפלגות‪ ,‬כך שמחלק את ההתפלגות לשני חלקים‬
‫‪.‬שווים – מחצית המקרים נמצאים מתחתיו‪ ,‬ומחצית ‪ -‬מעליו‬

‫למשל‪ ,‬הערך החציוני למשתנה מספר כוסות המיץ שסטודנט שותה בשבוע הוא ‪ .4‬מה המשמעות? ‪50‬‬
‫‪.‬אחוז שותים יותר‪ ,‬ויש ‪ 50‬אחוז ששותים פחות‪ .‬חציון לא מושפע מערכים קיצוניים‬

‫‪.‬אם זה זוגי ויש שני ערכים‪ ,‬לוקחים את שניהם ומחלקים ב‪2‬‬

‫חישוב חציון בהתפלגות שכיחויות – לוקחים את השכיחות המצטברת ‪ , 1+‬מחלקים ב‪ 2‬ורואים על זה‬
‫איזה מספר נופל החישוב מבחינת השכיחות המצטברת‪ .‬נגיד נפל על ‪ ,452.5‬ואני יודע שיש לי שכיחות‬
‫‪.‬מצטברת שנופלת במקרה השלישי שהוא עד ‪ ,715‬ולכן הוא החציון‬

‫‪.‬החציון ואחוזונים ‪ -‬החציון הוא מקרה מיוחד של מערך כללי יותר של מדדי מיקום הנקראים אחוזונים‬

‫אחוזון ‪ -‬ערך שמתחתיו נופל אחוז מסוים מתוך ההתפלגות‪ .‬לדוגמה‪ ,‬האחוזון ה‪ 75-‬הוא הערך המחלק‬
‫‪.‬את ההתפלגות כך ש‪ 75%-‬מהמקרים נופלים מתחתיו‬

‫החציון הוא האחוזון ה‪ .50-‬במקרה זה‪ ,‬יוצרים עמודה של אחזוים מצטברים ובודקים איפה נופל האחוזון‬
‫‪.‬ה‪50‬‬

‫( ממוצע‪)MEAN‬‬

‫ניתן לחשב רק בסולם רווח‪-‬מנה‪ .‬מדד נטייה מרכזית המתקבל מחיבור כל הערכים וחלוקת הסכום‬
‫‪.‬במספר הערכים הכולל‪ .‬מתאים למשתנים מסולם רווח ומעלה‪ .‬יש לזכור שממוצע רגיש לערכים קיצוניים‬

‫!סכום סטיות הממוצע הוא יהיה ‪ 0‬תמיד‬


‫חישוב ממוצע בהתפלגות שכיחויות – לדוגמא‪ ,‬שאלו הורים כמה ילדים יש להם‪ .‬לוקחים את סכום‬
‫הילדים הכולל‪ ,‬ומחלקים זאת במספר ההורים אשר נשאלו‪ .‬כך נקבל מה מספר הילדים על כל הורה‪.‬‬
‫‪.‬במקרה למטה‪ 2100 ,‬לחלק ל‪ 852‬שווה ל‪ ,2.46‬לכן זהו הממוצע‬

‫צורת ההתפלגות‬

‫התפלגות סימטרית – השכיחויות בקצה הימני והשמאלי של ההתפלגות זהות‪ .‬כל מחצית של‬
‫‪.‬ההתפלגות היא תמונת מראה של האחרת‪ .‬ממוצע=חציון=שכיח‬

‫התפלגות מוטה חיובית (ימינה) – ההתפלגות בעלת כמה ערכים קיצוניים גבוהים‪ .‬הממוצע יהיה גבוה‬
‫‪.‬מהשכיח ומהחציון‬

‫התפלגות מוטה שלילית (שמאלה) – התפלגות בעלת כמה ערכים קיצוניים נמוכים‪ .‬הממוצע יהיה נמוך‬
‫‪.‬מהשכיח ומהחציון‬

‫פרק ‪ – 5‬מדדי פיזור‬


‫מדדי נטייה מרכזית אינם מציגים לנו את התמונה השלמה‪ .‬אם נתייחס רק אליהם‪ ,‬הם עלולים להטעות‪.‬‬
‫לכן‪ ,‬אנו נוהגים להציג מדדי נטייה מרכזית עם מדדי פיזור‪ .‬מדדי פיזור מתארים גיוון או שונות‬
‫‪.‬בהתפלגות של משתנה מסויים‬

‫מדד ההשתנות האיכותית‪IQV‬‬

‫ניתן לחשב אותו רק בסולם שמי‪ .‬מקבל ערך בין ‪ 0‬ל‪ .1-‬אם התוצאה היא ‪ ,0‬זה אומר שההתפלגות‬
‫‪.‬בכלל לא מגוונת‪ .‬אם התוצאה היא ‪ ,1‬זוהי ההתפלגות הכי מגוונת שיכולה להיות‬

‫לדוגמא‪ :‬יש ‪ 100‬נשים ו‪ 0‬גברים‪ ,‬אז התוצאה היא ‪ 0‬כי אין גיוון בהתפלגות‪ .‬אם יש ‪ 50‬נשים ו‪50‬‬
‫‪.‬גברים‪ ,‬התוצאה היא ‪ ,1‬כי הגיוון בהתפלגות הוא המקסימלי‬

‫הנוסחא‬

‫‪!K‬מספר הקטגוריות‪ .‬אם יש ‪ 0‬ילדים חומים‪ 2 ,‬לבנים ו‪ 3‬שחורים‪ .‬הקיי יהיה ‪= 2‬‬

‫‪ Epct2‬סכום כל ריבועי האחוזים בהתפלגות =‬

‫שלבי החישוב‬

‫מייצרים עמודה של אחוזים‪ ,‬מייצרים עמודה של אחוזים בריבוע‪ ,‬נסכום את עמודת האחוזים בריבוע‪,‬‬
‫‪.‬נציב בנוסחא‬

‫טווח‬

‫מתאים למשתני רווח‪-‬מנה‪ .‬ההפרש בין התוצאה הגבוהה ביותר (המקסימום) לתוצאה הנמוכה ביותר‬
‫‪(.‬מינימום)‪ .‬טווח מושפע מערכים קיצוניים בלבד‬

‫‪.‬דוגמא‪ :‬בדגימה האדם הכי מבוגר הוא ‪ 40‬והכי צעיר הוא ‪ .30‬אז ‪ .10 = 40-30‬הטווח הוא ‪10‬‬

‫– טווח בין רבעוני‪IQR‬‬


‫מתאים למשתני רווח‪-‬מנה‪ .‬מדד טווח שלא מושפע מערכים קיצוניים‪ .‬טווח בין רבעוני מחשב את ‪50‬‬
‫אחוז מהמקרים שנמצאים באמצע אחוזון ההתפלגות (אחוזון החציון)‪ ,‬זאת אומרת ‪ 25‬אחוז פחות‬
‫‪.‬מאחוזון החציון ו‪ 25‬אחוז מעל לאחוזון החציון ( ‪)75%-25%‬‬

‫באופן כללי‪ ,‬בשביל החישוב צריכים למצוא את אחוזון ‪ 25%‬ואת אחוזון ‪ .75%‬אח"כ עושים את אחוזון‬
‫‪ 75%.‬פחות אחוזון ‪25%‬‬

‫שלבי החישוב‬

‫מסדרים את הערכים מהנמוך לגבוה‬

‫נמצא את את האחוזונים – כדי למצוא את אחוזון ‪ 25%‬עושים – ‪ 0.25‬כפול מספר המדגם‪ .‬כדי למצוא‬
‫‪.‬את אחוזון ‪ 75%‬עושים אותו דבר רק עם ‪0.75‬‬

‫התוצאה‪ ,‬היא תגיד לנו איפה נמצא האחוזון‪ ,‬האם הוא בין המקרה השני לשלישי‪ ,‬או בין החמישי לשישי‪.‬‬
‫לדוגמא‪ – 2.5 = 0.25*10 :‬האחוזון ‪ 25%‬הוא בין המקרה השני לשלישי‪ .‬האחוזון ‪ 75%‬הוא בין המקרה‬
‫‪.‬השביעי לשמיני‬

‫לאחר מכן‪ ,‬לוקחים את אחוזי המקרה השני והשלישי‪ ,‬מחברים אותם ומחלקים ב‪ – 2‬זה יוצא האחוזון ה‬
‫‪ 25%‬במקרה זה‪ .‬באותה הדרך‪ ,‬לוקחים את אחוזי המקרה השביעי והשמיני‪ ,‬מחברים אותם ומחלקים ב‬
‫‪ – 2.‬זה יוצא האחוזון ה‪ 75%‬במקרה זה‬

‫‪.‬לאחר מכן‪ ,‬מחסירים את אחוזון ‪ 75%‬באחוזון ‪ 25%‬וזו התוצאה של טווח בין רבעוני‬

‫חישוב‪IQR‬בהתפלגות שכיחויות‬

‫‪.‬מייצרים עמודה של שכיחות מצטברת‪ .‬עושים את אותו הדבר פשוט בעמודת השכיחות המצטברת‬

‫כדי למצוא פה את האחוזונים‪ ,‬מכפילים בשכיחות המצטברת ולא במספר האפשרויות במדגם! לאחר‬
‫‪.‬מכן‪ ,‬מחסירים את האחוזונים לפי מיקומם במקרים כמו בחישוב הרגיל ומקבלים את התוצאה‬

‫שונות‬

‫‪.‬ניתנים לחישוב רק בסולם רווח‪-‬מנה‪ .‬שונות וסטיית תקן – אלו הן פיזור ביחס לממצוע‬

‫ממוצע ריבועי של הסטיות ממרכז ההתפלגות (מהממוצע)‪ .‬בחישוב‪ ,‬נעלה בריבוע כל סטייה מהממוצע‪.‬‬
‫השונות היא‪ ,‬איפוא‪ ,‬ממוצע ריבועי הסטויות מהממוצע‪ .‬ראשית מחשבים את הממוצע‪ ,‬לאחר מכן‬
‫‪.‬מחשבים את סכום ריבועי הסטיות מהממוצע‬
‫‪.‬השונות היא ‪ 74014.33‬דוגמא‪ :‬הממוצע הוא – ‪392.5‬‬

‫‪Y‬‬
‫‪230‬‬
‫‪(230  392.5) 2  (300  392.5) 2  (242  392.5) 2  (798  392.5) 2‬‬
‫‪S2 ‬‬ ‫‪ 74014.33‬‬
‫)‪(4  1‬‬ ‫‪300‬‬
‫‪242‬‬
‫‪798‬‬

‫חישוב בהתפלגות שכיחויות‬

‫‪.‬בהתפלגות שכיחויות‪ ,‬מחשבים ממוצע לפי התפלגות שכיחויות כמו שלמדנו קודם‬

‫‪.‬מחשבים את הממוצע‪ ,‬אח"כ מייצרים עמודה של ערכים פחות הממוצע (‪)0.85- = 2-2.85‬‬

‫‪.‬לאחר מכן‪ ,‬מעלים את התוצאות בעמודה בריבוע‬

‫‪.‬את התוצאה שהעלינו בריבוע‪ ,‬אנו מכפילים בשכיחות‬

‫‪.‬בשלב האחרון‪ ,‬מציבים בנוסחא‬


‫סטיית תקן‬

‫ניתנים לחישוב רק בסולם רווח‪-‬מנה‪ .‬שונות וסטיית תקן – אלו הן פיזור ביחס לממצוע‪ .‬עושים את זה‬
‫‪.‬כדי להגיע למספר שיהיה יותר קרוב לערכים המקוריים‬

‫‪.‬מחשבים לפי השורש הריבועי של השונות‬

‫‪.‬לדוגמא מדוגמא קודמת‪ :‬השורש של ‪ 74014.33‬הוא ‪272.05‬‬

‫פרק ‪ – 6‬התפלגות נורמלית‬

‫‪.‬זוהי התפלגות תיאורטית‪ ,‬סימטרית (ממוצע = חציון = שכיח)‪ ,‬בצורת פעמון‬

‫‪.‬הממוצע‪ ,‬החציון והשכיח שלה נמצאים בשיאה‪ .‬השכיחויות פוחתות בהדרגה משני צידי העקומה‬

‫‪.‬אחוז מהתצפיות יהיו בצד ימין של ההתפלגות‪ ,‬ו‪ 50‬אחוז בצד שמאל שלה ‪50‬‬
‫הרבה מאוד משתנים באוכלוסייה מתפלגים בצורה מאוד דומה להתפלגות זו‪ .‬על כן זו התפלגות מאוד‬
‫‪.‬שימושית‬

‫ציון תקן‬

‫ציון תקן‪ ,‬הוא מספר סטיות התקן שערך גולמי מסויים נמצא מעל או מתחת לממוצע‪ .‬כדי לדעת כמה‬
‫‪.‬סטיות תקן ערך מסויים נמצא מעל או מתחת לממוצע‪ ,‬אפשר להפוך אותו לציון תקן‬

‫לדוגמא‪ :‬הממוצע הוא שמונים‪ ,‬וסטיית התקן היא עשר‪ .‬אם למישהו יש ציון תקן ‪ ,2‬אז הציון שהוא קיבל‬
‫‪.‬זה ‪100‬‬

‫שימוש בציוני תקן מאפשר לנו להשוות בין ציונים מהתפלגויות שונות‪ .‬למשל‪ ,‬נניח שדנה קיבלה ‪80‬‬
‫בחשבון ו‪ 85‬בספרות‪ .‬האם נוכל להגיד שדניאלה טובה יותר בספרות? לא בהכרח‪ .‬במבחן בחשבון‬
‫‪.‬הממוצע היה ‪ ,60‬עם סטיית תקן של ‪ ,2‬ואילו במבחן בספרות הממוצע היה ‪ ,95‬עם סטיית תקן של ‪3‬‬

‫הפיכת ציון תקן לציון גולמי‬


‫כדי להציג התפלגות נורמלית סטנדרטנית במונחים של ציוני תקן‪ ,‬נשתמש בטבלת הזד‬

‫פרק ‪ – 7‬התפלגות דגימה וחזרה – פרמטר (סטטיסטיקה היסקית) – יופיע‬


‫במבחן‬

‫‪.‬בד"כ‪ ,‬נאסוף נתונים ממדגם ונרצה להסיק על האוכלוסייה‬

‫סטטיסטי – הוא המדד לתיאור התפלוגת המדגם‪ .‬נקרא גם סטטיסטיקה תיאורית‬

‫פרמטר – הוא מדד המשמש לתיאור התפלגות האוכלוסייה‪ .‬נקרא גם סטטיסטיקה היסקית‪ .‬האם‬
‫‪.‬אפשר להכליל את תוצאות המדגם על כל האוכלוסייה‬

‫סימון באוכלוסיה (פרמטר)‬ ‫סימון במדגם (סטטיסטי)‬

‫ממוצע‬

‫סטיית תקן‬

‫שונות‬

‫שימוש בהתפלגות דגימה לשם הסקה על האוכלוסייה‬

‫לשם הסקה סטטיסטית מהמדגם לאוכלוסיה‪ ,‬ההסתברות של הפריטים צריכות להיות שוות (או לפחות‬
‫‪.‬ידועות ואז ניתן לעשות "תיקון")‬

‫‪.‬ומכאן נובע – בשביל הסקה סטטיסטית אנחנו צריכים לדגום מדגם באמצעות דגימה הסתברותית‬
‫רק בדגימה הסתברותית נוכל להעריך כמה ממצאי המדגם שלנו שונים מאלו שהיו מתקבלים אילו חקרנו‬
‫‪.‬את כלל האוכלוסייה (למעשה‪ ,‬כמה המדגם שלנו מייצג וכמה טעות הדגימה שלנו היא גדולה)‬

‫‪.‬נשתמש בהתפלגות דגימה כדי להעריך האם המדגם שלנו הוא מדגם מייצג של האוכלוסייה‬

‫התפלגות הדגימה היא תיאורטית‪ .‬אנחנו לא מחשבים אותה באמת‪ ,‬אבל מסתמכים על תכונותיה‪ .‬היא‬
‫מאפשרת לנו להשוות את תוצאות המדגם שלנו לערכי מדגם אחרים‪ ,‬ולחשב את הסבירות של התוצאה‬
‫‪.‬שקיבלנו‬

‫‪:‬התכונות של התפלגות הדגימה‬

‫)‪( :‬סימון הממוצע של התפלגות דגימה)‬ ‫‪.‬הממוצע שלה שווה תמיד לממוצע באוכלוסייה(‬

‫‪:‬סטיית תקן (טעות התקן) בסימון התפלגות הדגימה‬

‫ככל ש‪. N‬גדל‪ ,‬כך‪ :‬ההפלגות הדגימה הופכת פחות מפוזרת‬

‫כאשר‪.N‬גדול או שווה ל‪ ,50‬נתייחס את התפלגות הדגימה כמתפלגת נורמלית‬

‫אם ידוע לנו שמשתנה מסויים מתפלג נורמלית באוכלוסייה‪ ,‬התפלגות הדגימה תיחשב לנורמלית כאשר‬
‫‪.N‬יהיה שווה או גדול מ‪ .30‬התפלגות נורמלית חייבת להיות קיימת כדי להשתמש בטבלת זד‬

‫איך לחשב סטיית תקן‬


‫פרק ‪ – 8‬אמידה (רווח בר‪-‬סמך)‬

‫הרציונאל‬

‫יש לנו את הפרטים הסטטיסטים על המדגם‪ :‬ממוצע‪ ,‬ס‪.‬תקן ושונות‪ .‬אנחנו רוצים לעמוד את הממצוע‬
‫‪.‬באוכלוסייה‪ .‬כדי לגלות את הפרמטרים – משתמשים באמידה‬

‫אומדני נקודה‬

‫זה אומר לקחת את הסקר שעשינו על המדגם ולהניח אותו על כל האוכלוסייה בלי שינוי‪ .‬שיטה לא טובה‬

‫רווח בר‪-‬סמך‬

‫טווח ערכים (שמוגדר ע"י רמת ביטחון כלשהי) שבו מעריכים שהפרמטר נמצא‪ .‬מעריכים טווח שבו‬
‫‪.‬הפרמטר נמצא‪ .‬טווח הערכים יוגדר לפי רמת הביטחון‬

‫רמת ביטחון‬

‫‪.‬דוגמא‪ 90% :‬ביטחון ‪ -‬הסיכוי לטעות הוא ‪ . 10%‬טעות היא כאשר הממוצע לא נמצא בטווח שהגדרנו‬

‫רווח בר‪-‬סמך – הנוסחא‬


‫‪.‬ציון הזד במקרה זה ייקבע לפי מרווח הביטחון עליו נחליט‬

‫‪:‬אם גודל המדגם גדול או שווה לחמישים‪ ,‬וסטיית התקן באוכלוסייה לא ידועה‪ ,‬אז מתקיים‬

‫דוגמא לשימוש ברווח בר‪-‬סמך – יש לנו סטיית תקן באוכלוסייה‬

‫רוצים להערך כמה זמן בממוצע סטודנטים משקיעים בנסיעות לקמפוס‪ .‬באוניברסיטה יש ‪ 15‬אלף‬
‫סטודנטים‪ ,‬אבל יש לנו תקציב רק ל‪ .500‬אני אנסה להבין את הממוצע של ה‪ 15‬אלף בעזרת רווח‬
‫‪.‬בר‪-‬סמך‬

‫ערכנו מדגם אקראי וקיבלנו שזמן הנסיעות הממוצע הוא ‪ 7.5‬שעות בשבוע‪ .‬סטיית התקן באוכלוסייה‬
‫‪.‬היא ‪( 1.5‬ברוב השאלות אין נתונים על כל האוכלוסייה)‬

‫שלב ראשון – מחשבים טעות תקן‬

‫שלב שני – קביעת רמת ביטחון רצויה ומציאת ציון זד מתאים‬

‫גודל המדגם הוא מעל ‪ 50‬ולכן יש פה התפלגות נורמלית‪ .‬ביקשו מאיתנו בשאלה‪ ,‬לקבוע את הזד לפי‬
‫‪.‬רמת ביטחון של ‪95%‬‬
‫נשאר ‪ - 5%‬אותו אנחנו מחלקים ‪( 2‬התוצאה היא ‪ )2.5%‬ומציבים אותם בקצה ההתפלגויות משני‬
‫‪.‬הצדדים‪ ,‬כל צד ‪ .2.5%‬נמיר את האחוז למספר רגיל (‪ )0.025‬ונחפש אותו בטבלת זד בעמודת סי‬

‫‪.‬ייצאו לנו שני זדים – אחד יהיה שווה ‪ , 1.96‬והשני יהיה שווה מינוס ‪1.96‬‬

‫שלב שלישי – חישוב רווח בר‪-‬סמך‬

‫‪.‬הגבול העליון הוא ‪ .7.64‬הגבול התחתון הוא ‪7.36‬‬

‫שלב רביעי – פירוש התוצאות‬

‫אנחנו בטוחים ברמת בטחון של ‪ 95%‬שזמן הנסיעה הממוצע בפועל‪ ,‬באוכלוסייה‪ ,‬אינו קטן מ‪ 7.36-‬ואינו‬
‫‪.‬גדול מ‪ 7.64-‬שעות‬

‫מה הסיכוי שאנחנו טועים? ‪ .5%‬בחמישה מתוך ‪ 100‬מקרים‪ ,‬ממוצע האוכלוסייה האמיתי לא ייכלל‬
‫‪.‬בטווח שחישבנו‬

‫דוגמא לשימוש ברווח בר‪-‬סמך – בלי סטיית תקן באוכלוסייה‬

‫רוצים לדעת מה האורך הממוצע של דגים באגם גדול‪ .‬יש מדגם של ‪ .58‬הממוצע בו הוא ‪ 14.2‬וסטיית‬
‫‪.‬התקן של המדגם היא ‪ .1.8‬בעיה‪ ,‬לא יודעים את הממוצע של האוכלוסייה‬

‫שלב ראשון – חישוב טעות תקן‬

‫‪.‬עובדים אותו דבר כי המדגם מספיק גדול‪ ,‬גם אם אין סטיית תקן של האוכלוסייה‬
‫שלב שני – קביעת רמת ביטחון רצויה ומציאת ציון זד מתאים‬

‫גודל המדגם הוא מעל ‪ 50‬ולכן יש פה התפלגות נורמלית‪ .‬ביקשו מאיתנו בשאלה‪ ,‬לקבוע את הזד לפי‬
‫‪.‬רמת ביטחון של ‪95%‬‬

‫נשאר ‪ - 5%‬אותו אנחנו מחלקים ‪( 2‬התוצאה היא ‪ )2.5%‬ומציבים אותם בקצה ההתפלגויות משני‬
‫‪.‬הצדדים‪ ,‬כל צד ‪ .2.5%‬נמיר את האחוז למספר רגיל (‪ )0.025‬ונחפש אותו בטבלת זד בעמודת סי‬

‫‪.‬ייצאו לנו שני זדים – אחד יהיה שווה ‪ , 1.96‬והשני יהיה שווה מינוס ‪1.96‬‬

‫שלב שלישי – חישוב רווח בר‪-‬סמך‬

‫‪.‬גבול עליון‪ .14.66 :‬גבול תחתון‪13.73 :‬‬

‫שלב רביעי – פירוש התוצאות‬

‫‪.‬ממוצע האוכלוסייה נמצא בטווח שבין ‪ 13.73‬ועד ‪ 14.66‬ס"מ‪ ,‬ברמת ביטחון של ‪95%‬‬

‫שינויים ברמת הביטחון‬

‫‪.‬החיובי‪ :‬כאשר מגדילים את רמת הביטחון‪ :‬הסיכוי לטעות קטן‬

‫השלילי‪ :‬הוא שרמת הדיוק קטנה (הטווח‪ ,‬הרווח בר‪-‬סמך הופך להיות רחב יותר)‬

‫מה משפיע על רמת הדיוק‬

‫גודל המדגם – ככלל‪ ,‬מדגמים קטנים יותר ייצרו רווחים ברי‪-‬סמך רחבים יותר ובכך יכוונו אותו לפחות‬
‫‪.‬דיוק‬

‫‪.‬גודל מרווח הביטחון – מרווח ביטחון גדול יותר ייצור לנו רווחים ברי‪-‬סמך רחבים יותר‪ .‬פחות דיוק‬
‫סטיית התקן – ככל שהיא גדולה יותר‪ ,‬הרווח בר‪-‬הסמך יהיה רחב יותר‪ .‬פחות דיוק‪ .‬סטיית תקן גדולה‬
‫‪.‬היא מאוד מפוזרת‪ ,‬ככל שהיא יותר קטנה ככה היא מתפלגת להרבה פחות נתונים שונים‬

‫רווח בר‪-‬סמך עבור שיעורים‪/‬אחוזים‬

‫דוגמא רווח בר סמך עבור שיעורים אחוזים‬

‫‪:‬מהמשיבים חושבים שהתחממות היא בעיה‪ .‬לכן ‪41%‬‬

‫‪P = 0.41‬‬

‫‪.‬גודל המדגם הוא ‪1501‬‬

‫שלב ראשון ‪ -‬מחשבים את טעות התקן של התפלגות הדגימה‬

‫‪.‬חישבנו‪ ,‬יצא ‪0.013‬‬

‫שלב שני – נמצא את זד לפי רמת ביטחון כמו שבדקנו בתרגילים‬

‫הזד במקרה זה‪1.96 :‬‬

‫שלב שלישי – מציבים בנוסחא‬

‫‪.‬הגבול העליון הוא ‪ 0.435‬והגבול התחתון הוא ‪0.385‬‬


‫שלב רביעי – פירוש התוצאות‬

‫השיעור באוכ' שאנשים מאמינים שהתחממות גלובלית היא בעיה חמורה אינו קטן מ‪ 0.385‬ואינו גדול מ‬
‫‪ 0.435.‬ברמת ביטחון של ‪95%‬‬

‫פרק ‪ – 9‬בדיקת השארות‬


‫טכניקות סטטיסטיות שיעזרו לנו להחליט‪ ,‬האם הייתה טעות דגימה או שיש הבדל אמיתי בין המדגם‬
‫‪.‬לאוכלוסייה הכללית‪ .‬צריך לבדוק את ההשארות האלו‬

‫שלבי בדיקה סטטיסטית של השערות – מבחן זד – חייבים סטיית תקן באוכלוסייה‬

‫קביעת הנחות ‪1.‬‬

‫כדי להתחיל ולבחון השערות מחקרים‪ ,‬מניחים שהדגימה הינה דגימה אקראית‪ .‬מניחים שרמת המדידה‬
‫‪.‬היא של רווח‪-‬מנה‪ .‬מניחים שהאוכלוסייה מתפלגת נורמלי או שהמדגם יהיה גדול מ‪50-‬‬

‫אם משתנה מסויים נמדד בסולם סדר שלו יותר מארבע רמות – מותר להתייחס אליו כאל משתנה‬
‫‪.‬שנמדד בסולם רווח‪-‬מנה‬

‫ניסוח השערת המחקר והשערת אפס‪ ,‬קביעת אלפא ‪2.‬‬

‫השערות מחקר חד זנביות‬

‫‪.‬יש כיוון מוגדר ומסויים‪ .‬לדוגמא‪ :‬בת"א אנשים יותר מאושרים או פחות מאושרים‪ ,‬יש כיוון מוגדר‬

‫השערה חד זנבית ימנית – התוצאות בבדיקת ההשערה של תוצאת המדגם תהיה בצד הימני להתפלגות‬
‫‪.‬הדגימה‬

‫השערה חד זנבית שמאלית – התוצאות בבדיקת ההשערה של תוצאת המדגם תהיה בצד השמאלי‬
‫‪.‬להתפלגות הדגימה‬

‫השערות מחקר דו זנביות‬

‫אין כיוון מוגדר‪ .‬יש הבדל בין מה שקורה בת"א לבין כלל האוכלוסייה‪ .‬אין התחייבות‪ .‬מדברים רק על כך‬
‫‪.‬שיש הבדל אבל לא יודעים לאיזה כיוון‬
‫‪-‬השערת המחקר תהיה מסומנת ב‪.H1‬דוגמא‪ :‬הממוצא באוכלסייה שמעניינת את החוקר קטן מ‪. 4.4-‬‬

‫‪μ y < 4.4‬‬ ‫‪:H1‬‬ ‫‪:‬לכן‪ ,‬זהו יסומן כך‬

‫‪.‬חייבים לזכור שההשערות תמיד יהיו במונחים של פרמטרים על כל האוכלוסייה‬

‫השערת אפס‬

‫זו השערה שאומרת שאין הבדל בין הקבווצת‪ .‬הממוצע באוכלוסייה שאותה דגמנו (ת"א) אינו שונה‬
‫‪.‬ממוצע האוכלוסייה הכללית‬

‫‪:‬לדוגמא‪ :‬הממוצע באוכלוסייה שמעניית את החוקר הוא ‪ .4.4‬לכן‪ :‬זהו יסומן כך‬

‫‪H 0 : μ y =4.4‬‬

‫מבחינת טרמינולוגיה‪ ,‬ננסחה לדחות את השערת אפס – משמעות קבלת אישוש להשערת‬
‫לא אומרים קיבלתי ‪. .H1‬המחקר‬

‫?איך מעריכים בין השערת המחקר להשערת אפס‬

‫נשאל את השאלה הבאה‪ :‬תחת ההנחה שהשערת אפס נכונה‪ ,‬מה הסיכוי לקחת מדגם אקראי (מכל‬
‫הארץ) ולקבל את התוצאה שאנחנו קיבלנו במדגם שלנו בת"א? אם הסיכוי נמוך‪ ,‬אנו מתרחקים‬
‫‪.‬מהשערת אפס‬

‫קביעת אלפא‬

‫אלפא – ערך סף שממנו ומטה דוחים את השערת אפס‪ .‬דוגמא‪ :‬אם אלפא הוא ‪ ,0.05‬אז הסיכוי שאנחנו‬
‫דורשים הוא ‪ .5%‬הדרישה היא שהסיכוי לקחת מדגם אקראי ולקבל את התוצאה שאנחנו קיבלנו במדגם‬
‫שלנו (מת"א) יהיה ‪ 5%‬ומטה‪ .‬ככל שאלפא יותר נמוכה‪ ,‬ככה יותר קשה לדחות את השערת אפס‪ .‬אך‬
‫‪.‬ככל שמקטינים את אלפא‪ ,‬הסיכוי לטעות גם קטן‬

‫בחירת התפלגות הדגימה והגדרת הסטטיסטי של המבחן ‪ +‬חישוב ססטיסטי המבחן ‪3.‬‬

‫חישוב בפועל – מבחן זד‬


‫הזד בדוגמא‪ . -18.42 :‬נלך לטבלת זד ונסתכל על עמודה סי‪ .‬במקרה הזה‪ ,‬העמודה תיתן לנו את‬
‫הסיכוי המחושב בפועל לקחת מדגם אקראי מהאוכלוסייה (מכל הארץ) ולקבל את התוצאה שאנחנו‬
‫‪.‬קיבלנו במדגם שלנו (מת"א)‬

‫‪.‬בטבלת זד‪ ,‬אני הולך לערך הקטן ביותר בסי‬

‫הסיכוי בפועל לקחת מדגם אקראי ולקבל את התוצאה שאנחנו קיבלנו (במדגם מת"א)‪. (0.0001)P‬‬

‫קבלת החלטה ופירוש תוצאות ‪4.‬‬

‫הגדרתי בהתחלה את אלפא כ‪ ,0.05‬ובגלל שהפי יותר קטן נדחה את השערת אפס‪ .‬גם אם זה שווה‬
‫זה בסדר‪ .‬התוצאה נחשבת למובהקת מבחינה סטטיסטית‪ .‬ניתן להסיק שבת"א באמת אנשים פחות‬
‫‪.‬מאושרים בהשוואה לכלל האוכלוסייה‬

‫‪.‬אלפא יוגדר עבורינו בתרגילים‬

‫סוגי טעויות אפשריים‬

‫טעות מסוג ראשון‬

‫דחינו את השערת אפס בטעות‪ ,‬למרות שהיא נכונה‪ .‬הסקנו שיש אפקט‪ ,‬למרות שבמציאות אין אפקט‪.‬‬
‫הסיכוי לטעות מסוג ראשון תמיד יהיה שווה לאלפא‪ .‬הסיכוי לטעות קטן ככל שהאלפא קטן‪ ,‬אך גם‬
‫‪.‬הסיכוי לדחות את השערת אפס קטן‬

‫טעות מסוג שני‬

‫‪.‬לא דחינו את השערת אפס‪ ,‬למרות שהיא שגויה‪ .‬הסקנו שאין אפקט‪ ,‬למרות שבמציאות יש אפקט‬

‫בדיקה ססטיסטית של השערות ‪ -‬מבחן טי – למדגם בודד‬

‫משתמשים במבחן זה‪ ,‬כאשר סטיית התקן באוכלוסייה אינה ידועה‪ .‬אם יש לנו רק את סטיית התקן‬
‫‪.‬במדגם‪ ,‬נשתמש בה‬
‫‪:‬הנוסחא‬

‫התפלגות מבחן טי‬

‫התפלגות טי היא למעשה משפחה של עקומות‪ ,‬שכל אחת מהן נקבעת בהתאם לדרגות החופש שלה‪.‬‬
‫נעשה שימוש בהתפלגות זו כאשר סטיית התקן באוכלוסייה לא ידועה‪ .‬המחיר שמשלמים הוא שאנו‬
‫‪.‬נאבד דרגת חופש אחת‬

‫– דרגות חופש‪Df‬‬

‫‪.‬מספר הערכים החופשיים להשתנות בחישוב הסטטיסטי‬

‫בחישוב טי למדגם יחיד‪ ,‬כיוון שאנו אומדים את סטיית התקן באוכלוסייה באמצעות סטיית התקן של‬
‫‪.‬המדגם‪ ,‬אנחנו מאבדים דרגת חופש אחת‪ .‬לוקחים את גודל המדגם ומחסרים באחד‬

‫‪df =N−1‬‬

‫טבלת טי‬

‫מחפשים את מה שהכי קרוב לדרגת חופש‪ .‬אח"כ בודקים אם המבחן חד זנבי או דו זנבי‪ .‬אח"כ בודקים‬
‫‪.‬איזו אלפא הייתה לנו ולפי זה בוחרים את התשובה בטבלה‪ .‬התשובה בטבלה היא ה‪-‬טי הקריטי‬
‫הסקת מסקנות‬

‫אם ה‪-‬טי הקריטי(שבטבלה) נמוך יותר מאשר הטי המחושב‪ ,‬אנחנו יודע ש‪-‬פי קטן מאלפא ולכן ניתן‬
‫‪.‬לדחות את השערת אפס‬

‫בדיקה ססטיסטית של השערות ‪ -‬מבחן טי – למדגמים בלתי תלויים‬

‫במקרה זה‪ ,‬יהיו נתונים משני מדגמים‪ .‬זה מקרה יותר נפוץ כי בד"כ אין את הנתונים על כל האוכלוסייה‪.‬‬
‫‪.‬בד"כ יש נתונים רק על מדגמים‬

‫‪.‬דוגמא‪ :‬רוצים לדעת איזו שיטת לימוד סטטיסטיקה עדיפה‪ :‬פרונטלית או בקבוצת לימוד‬

‫‪.‬השערת המחקר שלנו היא שיש הבדל בין שיטות הלימוד‬

‫‪.‬המב"ת‪ :‬סוג שיטת הלימוד (פרונטלית‪/‬קבוצת לימוד)‪ .‬המ"ת‪ :‬ציון במבחן סוף קורס (‪)0-100‬‬

‫‪.‬ניקח שתי קבוצות – אחת למדה בצורה פרונטלית‪ ,‬השנייה בקבוצת לימוד‬

‫הנתונים שיהיו לנו על כל מדגם הוא‪ :‬גודל‪ ,‬ממוצע‪ ,‬סטיית תקן ושונות‪ .‬בעזרתם נבדוק האם הממוצעים‬
‫‪.‬שונים זה מזה באוכלוסייה והאם יש הבדל בין סוגי הלימוד באוכלוסייה‬

‫שלבי בדיקת השערות‬

‫קביעת הנחות – לא משנה למבחן‪ .‬המדגמים אקראיים ואינם תלויים‪ ,‬המשתנה התלוי נמדד ברמת ‪1.‬‬
‫‪.‬מדידה של רווח‪/‬מנה‪ ,‬יש התפלגות נורמלית‪ ,‬והשוניות באוכלוסייה זהות‬

‫ניסוח השערות המחקר וקביעת אלפא (אלפא יינתן) ‪2.‬‬

‫‪:‬דוגמא לכתיבה של השערת מחקר‬


‫חישוב הסטטיסטי ‪3.‬‬

‫חישוב טעות התקן‬

‫חישוב טי‬

‫קבלת החלטה ופירוש תוצאות ‪4.‬‬

‫הולכים לטבלת טי‪ ,‬מחפשים לפי הדי‪.‬אף (הוא יהיה סך שני המדגמים פחות ‪ .)2‬מחפשי תחת רמת‬
‫מובהקות עבור מבחן דו זנבי במקרה של הדוגמא במצגת‪ .‬אם הטי בטבלה גבוהה יותר מאשר הערך‬
‫‪.‬שאנחנו קיבלנו‪ ,‬נסיק כי לא קיים הבדל בין שיטות הלימוד באוכלוסייה‬

‫הגדלת המדגמים תשפיע על טעות התקן‪ .‬ככל שהמדגמים יהיו גדולים יותר‪ ,‬כך טעות התקן תהיה‬
‫קטנה יותר וכך ה‪-‬טי המחשוב יהיה גדול יותר‪ .‬הגדלת המדגמים תשפיע גם על טי הקריטי‪ .‬בטבלת‬
‫‪.‬טי‪ ,‬ככל שיש יותר ד"ח כך הטי הקריטי קטן וכך קל לנו יותר לדחות את השערת האפס‬

‫פרק ‪ – 11 + 10‬מבחן חי בריבוע‬

‫‪.‬בודקים‪ ,‬האם יש קשר בין ‪ 2‬משתנים שנמדדו בסולם שמי‪/‬סדר באוכלוסייה עצמה‬

‫דוגמא‪ :‬האם יש קשר בין מגדר (נשים‪/‬גברים) לבין עישון (מעשנים‪/‬לא מעשנים)‪ .‬האם ניתן להכליל‬
‫?מהנתונתים של המדגם למה שקורה באוכלוסייה‬

‫טבלת אובזרבד‬
‫סה"כ‬ ‫לא מעשנים‬ ‫מעשנים‬
‫‪50‬‬ ‫‪35‬‬ ‫‪15‬‬ ‫נשים‬
‫‪40‬‬ ‫‪25‬‬ ‫‪15‬‬ ‫גברים‬
‫‪90‬‬ ‫‪60‬‬ ‫‪30‬‬ ‫סה"כ‬

‫תהליכי חישוב‬

‫בניית טבלת אקספקטד‬

‫‪.‬הטבלה מראה איך היו נראים הנתונים אם לא היה קשר בין המשתנים‬

‫דוגמא לחישוב נשים מעשנות‪ 30 :‬כפול ‪ 50‬לחלק ל‪ .90-‬זה יוצא ‪16.67‬‬

‫סה"כ‬ ‫לא מעשנים‬ ‫מעשנים‬


‫‪50‬‬ ‫‪33.33‬‬ ‫‪16.67‬‬ ‫נשים‬
‫‪40‬‬ ‫‪26.67‬‬ ‫‪13.33‬‬ ‫גברים‬
‫‪90‬‬ ‫‪60‬‬ ‫‪30‬‬ ‫סה"כ‬

‫שימוש בנוסחאת חי בריבוע (בקורס תמיד משתמשים בתיקון ייטס)‬

‫נשתמש בתיקון ייטס כאשר מחשבים חי בריבוע עם דרגת חופש אחת‪ .‬תמיד תהייה טבלה של שתי‬
‫‪.‬אפשרויות ולא יותר‬

‫טבלת אובזרבד – ‪Fo‬‬

‫טבלת אקספקטד – ‪Fe‬‬

‫‪:‬דוגמא מהמצגת לחישוב‬


‫|‪|fo-fe‬‬ ‫‪-0.5‬‬ ‫בריבוע‬

‫‪|15-13.33| = 1.67‬‬ ‫‪1.17‬‬ ‫‪1.368‬‬

‫‪|15-16.67| = 1.67‬‬ ‫‪1.17‬‬ ‫‪1.368‬‬

‫‪|25-26.67| = 1.67‬‬ ‫‪1.17‬‬ ‫‪1.368‬‬

‫‪|35-33.33| = 1.67‬‬ ‫‪1.17‬‬ ‫‪1.368‬‬

‫= ‪1.368/16.67‬‬ ‫‪0.082064‬‬

‫= ‪1.368/13.33‬‬ ‫‪0.102626‬‬

‫= ‪1.368/26.67‬‬ ‫‪0.051294‬‬

‫= ‪1.368/33.33‬‬ ‫‪0.041044‬‬

‫‪:‬לוקחים את ‪ 4‬התוצאות הסופיות ומחברים‪ .‬התוצאה היא החי בריבוע‪ .‬במקרה זה‬

‫‪0.082064 + 0.102626 + 0.051294 + 0.041044 = 0.277‬‬

‫הסקת מסקנות‬

‫הולכים לטבלת חי בריבוע‪ .‬הולכים לדי‪.‬אף ‪ 1‬ולפי האלפא שאמרו לנו‪ .‬אם החי בריבוע נמוך יותר‬
‫‪.‬מהחי המובהק(זה שבטבלה) ‪ ,‬אי אפשר לדחות את השערת אפס‬

‫שימו לב שאחרי חישוב חי בריבוע נוכל לדעת האם יש או אין קשר בין משתנים‪ .‬לא נוכל לדעת האם‬
‫‪.‬הקשר הוא חלש‪/‬חזק‬

‫!גודלו של חי בריבוע נמצא ביחס ישר לגודל המדגם ואינו תלוי בעוצמת הקשר בין משתנים‬

‫מבחן חי בריבוע‬ ‫למדגמים ב"ת ‪ T‬מבחן‬ ‫למדגם בודד ‪ T‬מבחן‬ ‫למדגם בודד ‪ Z‬מבחן‬

‫האם יש קשר בין שני‬ ‫האם יש הבדל בין שתי‬ ‫האם המדגם נלקח‬ ‫האם המדגם נלקח‬ ‫?מה בדקנו‬
‫משתנים (בד"כ בסולם‬ ‫'קבוצות באוכ‬ ‫מהאוכ' הכללית‪ ,‬או‬ ‫מהאוכ' הכללית‪ ,‬או‬
‫'שמי או סדר) באוכ‬ ‫שהוא שייך לאוכ' אחרת‬ ‫שהוא שייך לאוכ' אחרת‬

‫נתוני מדגם שמאורגנים‬ ‫ממוצעים‪ ,‬סטיות תקן‬ ‫ממוצע אוכ'‪ ,‬ממוצע‬ ‫ממוצע אוכ'‪ ,‬ס‪.‬ת אוכ'‪,‬‬ ‫הנתונים שהיו‬
‫בטבלה דו‪-‬משתנית‬ ‫‪.‬של שני מדגמים ‪-N‬ו‬ ‫ס‪.‬ת מדגם ‪, N,‬מדגם‬ ‫‪, N‬ממוצע מדגם‬ ‫לנו‬

‫יש קשר בין המשתנים‬ ‫יש הבדל בין הקבוצות‬ ‫המדגם נלקח מאוכ'‬ ‫המדגם נלקח מאוכ'‬ ‫אם נדחה את‬
‫'באוכ‬ ‫'באוכ‬ ‫אחרת‪-‬שונה מהאוכ'‬ ‫אחרת‪-‬שונה מהאוכ'‬ ‫השערת אפס‬
‫הכללית‬ ‫הכללית‬ ‫‪:‬נסיק ש‬

‫פרק ‪ – 13‬רגרסיה‬

‫רגרסיה לינארית פשוטה (‪ 2‬משתנים)‬

‫נרצה לבדוק את הקשר בין שני משתנים‪ ,‬שהם בסולם רווח – מנה‪ .‬לעתים נרצה לנבא את הערכים‬
‫‪.‬במשתנה אחד‪ ,‬באמצעות המשתנה האחר (לנבא את ערכי המ"ת באמצעות הערכים של המב"ת)‬

‫‪.‬דוגמא‪ :‬ניבוי היכולת של אדם לעמוד בתנאי הלוואה מתוך ידיעת המשכורת שלו‬

‫קשר חיובי‬

‫עלייה בערכים של משתנה אחד מלווה בעליית הערכים של המשתנה השני‪ .‬אם אחד עולה‪ ,‬גם השני‬
‫‪.‬יעלה‪ .‬אם אחד יורד‪ ,‬גם השני יורד‬

‫קשר שלילי‬

‫עלייה בערכים של משתנה אחד מלווה בירידת הערכים של המשתנה השני‪ .‬אם אחד עולה‪ ,‬השני‬
‫‪.‬ירד‪ .‬אם אחד יורד‪ ,‬השני עולה‬

‫פעולות עבודה‬

‫דיאגרמת הפיזור‬

‫‪.‬זוהי שיטה חזותית להצגת קשר בין שני משתנים ברמת מדידה של רווח‪-‬מנה‬
‫‪.‬בדוגמא שלפנינו‪ :‬כל נק' מייצגת שולחן אחד שישב במסעדה‬

‫‪.‬במצב זה‪ ,‬נראה שיש קשר ליניארי בין המשתנים כיוון שנראה שאפשר להעביר קו ישר בין הנקודות‬

‫‪.‬דוגמא לחוסר קשר‪ :‬הקשר בין מידת הנעליים לבין גודל הטיפ שמשאירים במסעדה‬

‫לא כל קשר הוא קשר לינארי‪ .‬אבל אנחנו בודקים פה רק‬


‫!לינארים‬
‫כאשר הקשר הוא מושלם (דטרמיניסטי) כל הנקודות יהיו על הקו הישר‪ .‬ככל שהנקודות יותר קרובות לקו‬
‫‪ –.‬הקשר חזק יותר‪ .‬למעשה‪ ,‬הקו הישר מספק ערך מנובא של וואי עבור כל ערך של איקס‬
‫הערכים האפשריים בחישוב מתאם נעים בין ‪ 1‬ל ‪ .-1‬ככל שהמתאם יותר גבוהה‪ ,‬ככה יותר קל‬
‫‪.‬לנבות את ערכי וואי (מ"ת)‪ .‬כל פער בין הנק' לבין הקו מציין טעות בניבוי‬

‫חישוב משוואת הרגרסיה‬

‫איך נדע איזה קו ישר לבנות? עפ"י משוואת ניבוי‪ .‬צריך שהנק' יהיו כמה שיותר קרובות אליו‪ .‬כל סטייה‬
‫‪.‬מהקו הישר היא טעות בניבוי‪ .‬טעות בניבוי היא פער בין הוואי האמיתי לוואי המנובא‬

‫‪.‬וואי אמיתי – הערך האמיתי במ"ת (הטיפ שהשאירו בפועל)‬

‫‪.‬וואי מנובא (וואי כובע) – הערך המנובא במ"ת (הטיפ שניבאנו שישאירו)‬

‫‪.‬הנוסחא לחישוב הוואי המנובא (בקורס לא מחשבים את איי ובי)‬

‫מהי המשמעות התיאורטית של איי – קבוע – נקודת החיתוך של משוואת הרגרסיה עם ציר הוואי‪ .‬כאשר‬
‫איקס שווה ל‪ 0-‬מה יהיה הערך של הוואי המנובא‪ .‬דוגמא‪ :‬אם סכום החשבון שווה ל‪ ,0-‬הטיפ הצפוי הוא‬
‫מינוס ‪ .0.8188‬זה לא הגיוני‪ ,‬לכן‪ ,‬נק' החיתוך עם ציר הוואי יכולה להיות חסרת משמעות בעולם‬
‫‪.‬האמיתי‬

‫מהי המשמעות התיאורטית של בי – שיפוע – השינוי הצפוי בוואי המנובא בהינתן עלייה ביחידה אחת‬
‫בציר האיקס‪ .‬דוגמא‪ :‬על כל עלייה בשקל אחד בסכום הארוחה‪ ,‬גובה הטיפ יגדל בסכום של בי (‪0.1462‬‬
‫‪.‬ש"ח)‪ .‬אם הבי חיובי‪ ,‬יש קשר חיובי‪ .‬אם הבי שלילי‪ ,‬יש קשר שלילי‬

‫מתאם פירסון‬

‫מדד מספרי לעוצמת הקשר בין ‪ 2‬משתנים שנמדדו בסולם רווח‪-‬מנה‪ .‬יסומן ב‪-‬אר – לא נצטרך לחשב‪.‬‬
‫‪-.‬המדד הוא בין ‪ 1‬ל‪1‬‬

‫אם לוקחים את פירסון ועושים אותו בריבוע (אר בריבוע) – נקבל את אחוז השונות המוסברת‪ .‬זה אומר‪,‬‬
‫‪.‬אם אני יודע מהו איקס‪ ,‬אני אוכל לנבא ‪ 75%‬משיעור השונות הכוללת‬

‫רגריסה מרובה (יותר מ‪ 2-‬משתנים)‬

‫כאשר יש יותר ממב"ת אחד שמעניין אותנו‪ ,‬נחשב רגרסיה מרובה‪ .‬למשל‪ :‬אולי לא רק סכום הארוחה‬
‫‪(.‬מב"ת ‪ ) 1‬משפיע על גודל הטיפל (מ"ת)‪ ,‬אלא גם זמן הגעת האוכל מרגע ההזמנה (מב"ת ‪)2‬‬

‫‪:‬המשוואה תיראה כך‬

‫תרגול מתוך פלטי‪SPSS‬‬


‫בי ‪1.189 = 1‬‬

‫‪-‬בי ‪0.51 = 2‬‬

‫איי = ‪41.187‬‬

‫‪.‬עמוד סטד‪.‬ארור – טעןת תקן‬

‫עמודת בטא – מקדם מתוקנן – התרומת הייחודית של משתנה מסויים בניבוי המשתנה התלוי‪ .‬כאשר‬
‫נרצה לדעת איזה משתנה מנבא בצורה טובה יותר את המ"ת‪ ,‬נסתכל על המקדם המתוקנן‪ .‬במקרה‬
‫‪.‬הזה‪ ,‬מי שמצליח לנבות יותר טוב היא הבטא של המשתנה גיל‬

‫‪.‬עמודת סיג בטבלה (הכי ימין בטבלה למטה) – רמת מובהקות (פי)‬

‫מהי משוואת הרגרסיה‬

‫‪^y =1.189 ( x 1 )+ (−0.51 ( x 2 ) ) + 41.187‬‬

‫?דוגמא‪ :‬כמה שעות עבודה הייתם מנבאים לאדם שלמד ‪ 12‬שנים (מב"ת‪ )1‬והוא בן ‪( 32‬מב"ת ‪)32‬‬

‫‪^y =1.189 ( 12 ) + (−0.51 ( 32 ) ) + 41.187=39.13‬‬

‫‪.‬היינו מנבאים שהאדם המסויים הזה היה עובד בשבוע ‪ 39.13‬שעות‬


‫‪,‬פרק ‪ – 14‬ניתוח שונות‪ANOVA‬‬

‫?מתי נשתמש באנובה‬

‫המבחן המתאים‬ ‫תנאים‬ ‫שאלת המחקר‬


‫מבחן ‪Z‬‬ ‫שונות באוכלוסייה‬ ‫האם יש הבדל בין‬
‫ידועה‬ ‫המדגם לאוכלוסייה‬
‫מבחן ‪t‬‬ ‫שונות באוכלוסייה לא‬ ‫?הכללית‬
‫ידועה‬
‫מדגמים ‪ 2‬מבחן ‪ t‬למדגמים ב"ת‬ ‫האם יש הבדל בין‬
‫יותר מ‪ 2-‬מדגמים ניתוח שונות ‪ANOVA‬‬ ‫?מדגמים‬
‫משתנים בסולם שמי ‪ 2‬מבחן חי בריבוע‬ ‫האם יש קשר בין‬
‫או סדר‬ ‫?משתנים‬
‫((‪ x,y‬רגרסיה‪ ,‬מקדם‬ ‫משתנים‬ ‫‪2‬‬
‫המתאם של פירסון (‪)r‬‬ ‫בסולם רווח או מנה‬
‫רגרסיה מרובה‪ ,‬מקדם‬ ‫יותר מ‪ 2-‬משתנים (‬
‫המתאם ‪R‬‬ ‫‪ )y,x1,x2‬בסולם רווח‬
‫או מנה‬

‫מתי משתמשים? כאשר רוצים לעשות ניתוח שונות ליותר מ‪ 2-‬מדגמים ב"ת‪ ,‬יש להשתמש באנובה‬
‫‪(.‬ניתוח שונות)‪ .‬אפשר להשתמש בניתוח זה גם כאשר יש רק ‪ 2‬מדגמים‬

‫במסגרת הקורס לומדים ניתוח שונות חד כיווני – המב"ת יהיה תמיד משתנה בדיד והמשתנה‬
‫התלוי יהיה משתנה רציף (בסולם רווח‪/‬מנה)‬

‫‪.‬בניתוח שונות‪ ,‬נרצה שהשונות בין הקבוצות תהיה גדולה‪ ,‬ושהשונות בתוך הקבוצות תהיה קטנה‬
‫‪.‬דוגמא‪ :‬מב"ת‪ :‬עיר מגורים‪ ,‬מ"ת‪ :‬מחיר כוס יין בפאב‬

‫חיפה‬ ‫ב"ש‬ ‫ת"א‬ ‫מחיר כוס יין‬


‫‪20‬‬ ‫‪33‬‬ ‫‪42‬‬ ‫בפאב‬
‫‪35‬‬ ‫‪35‬‬ ‫‪35‬‬
‫‪27‬‬ ‫‪26‬‬ ‫‪32‬‬
‫‪25.6‬‬ ‫‪27.6‬‬ ‫‪38.2‬‬ ‫ממוצע‬
‫‪5.41‬‬ ‫‪6.02‬‬ ‫‪4.9‬‬ ‫‪.‬ס‪.‬ת‬
‫‪29.3‬‬ ‫‪36.26‬‬ ‫‪24.2‬‬ ‫שונות‬

‫?השאלה ששואלים היא‪ ,‬האם באמת ת"א יותר יקרה מהערים האחרות‬

‫ניתוח שונות מתמקד ביחס הבא‪ :‬שונות בין הקבוצות לחלק לשונות בתוך הקבוצות‪ .‬ככל שהיחס‬
‫הזה גדול יותר‪ ,‬כך גדל הסיכוי שההבדל בין ממוצעי המדגמים משקף הבדלים אמיתיים (ולא‬
‫מקריים)‪ .‬יחס זה נרשם תחת האות ‪.F‬‬

‫מבחן ניתוח שונות ‪F-‬‬

‫קביעת הנחות‬

‫המדגמים הינם בלתי‪-‬תלויים זה בזה‪ ,‬ואקראיים‪ ,‬המשתנה התלוי בסולם מדידה רווח או מנה‪ ,‬המשתנה‬
‫התלוי מתפלג נורמלית באוכלוסייה‪ ,‬השונויות באוכלוסיות שוות (נעריך לפי שונויות המדגם‪ ,‬כך שיהיו‬
‫פחות או יותר שוות)‪.‬‬

‫ניסוח השערת האפס‪ ,‬השערת המחקר וקביעת אלפא‬

‫לפי השערת המחקר‪ ,1H ,‬לפחות אחד הממוצעים שונה מהשאר‪ .‬לא נדע איזה מהממוצעים הוא שונה‪.‬‬
‫אלפא יהיה ברמה של ‪.0.05‬‬

‫הגדרת התפלגות הדגימה וסטטיסטי המבחן‬

‫חישוב שונות בין הקבוצות‬

‫לא נצטרך לחשב‪SSB−‬‬


‫‪dfb=k −1‬‬

‫לחשב את די‪.‬אף‪.‬בי – מספר המדגמים פחות ‪ .1‬דוגמא‪ :‬יש לנו ת"א‪ ,‬ב"ש‪ ,‬חיפה‪ .‬עושים ‪ 3-1‬ויוצא‬
‫‪.2‬‬

‫חישוב שונות בתוך הקבוצות‬

‫לא נצטרך לחשב‪SSW −‬‬


‫‪dfw =N −k‬‬

‫לחשב את די‪.‬אף‪.‬דאבל יו – מספר העצמים הנחקרים פחות ‪ .1‬דוגמא‪ :‬בדקו ‪ 17‬מחירים שונים‪.‬‬
‫עושים ‪ 17-1‬ויוצא ‪.16‬‬

‫הסטטיסיטי ‪F‬‬

‫ככל ש‪ F-‬גדול יותר‪ ,‬כך גדל הסיכוי לדחות את השערת אפס‪.‬‬


‫האם התוצאה מובהקת וניתן לדחות את השערת אפס? נצטרך לבדוק בטבלת ‪F‬‬

‫מחפשים בטבלה לפי דרגת החופש שלנו של המונה ושל המכנה‬

‫לדוגמא במקרה זה‪ :‬רמת החופש של המונה((‪ df1‬הוא ‪ ,3‬רמת החופש של המכנה(‪ )df2‬הוא ‪.17‬‬

‫מחפשים את ה‪ F-‬הקריטי בטבלה‪ .‬אם הערך של ה‪ F-‬שלנו יותר גדול מה‪ F-‬הקריטי‪ ,‬אז אפשר לדחות‬
‫את השערת האפס והתוצאה מובהקת‪ .‬אם דחינו את השערת האפס‪ ,‬אנו מסיקים שקיים הבדל‬
‫מובהק בין ממוצעי הקבוצות‪ .‬לפחות אוכלוסייה אחת שונה מהשאר‪.‬‬

‫דוגמא לטבלה מהתוכנה‬

‫הסיג של בין הקבוצות – ‪ 0.014‬הוא ה‪ !P-‬אם יש לנו את ה‪ ,P-‬לא צריך לבדוק את ה‪ F-‬כי כבר‬
‫אפשר לדחות את השערת האפס‪ .‬ה‪ P-‬יותר חשוב מה‪.F-‬‬
‫ניתן להסיק רק שקבוצה אחת שונה מהשאר‪ .‬אנחנו לא נדע איזו קבוצה זו! רק אם נשתמש בניתוחי‬
‫המשך‪.‬‬

You might also like