Professional Documents
Culture Documents
יסודות המחקר הכמותי ב - סיכום למבחן
יסודות המחקר הכמותי ב - סיכום למבחן
.קורס זה מתמקד בשלב ניתוח הנתונים והערכת השערות (שלבים 4ו )5כחלק מתהליך המחקר
סולמות מדידה
החוקר מחליט איזה משתנה הוא מודד ,כיצד הוא מודד אותו ,אילו ערכים ניתן לקבל .החוקר יגדיר את
.מערכת המספרים טרם המדידה .יש 4סולמות מדידה
סולם שמי – מסמן את הזהויות הנמדדות באופן שיאפשר הבחנה בין זהותן בלבד .אין משמעות לסדר
.או לרווח .דוגמא :צבע שיער ,סוג דת ,לאום .אין מדרג
סולם סדר – ערכים בסולם זה מעבר לזהות ,מייצגים גם סדר בין הערכים .יש דירוג .יש משמעות לסדר
אך לא לרווח .דוגמא :מידת הדתיות של אדם .אפשר להגיד שחילוני פחות דתי ומחרדי ,אך לא ניתן
להגדיר עד כמה .מותר לנו להתייחס למשתנה שנמדד בסולם סדר עם 5רמות ומעלה כאל משתנה
.שנמדד בסולם רווח – מנה
סולם רווח – בנוסף לזהות וסדר ,יש משמעות למרווחים (הפרשים) בין הערכים .יש יחידת מדידה
קבועה .בסולם זה אין לנו מידע לגבי היחסים בין הערכים ונק' האפס אינה שרירותית .לא ניתן לומר פי
כמה רק בכמה .דוגמא :מסתכלים על גבהים .אפשר שהגובה יתחיל במינוס ולא נדע .אפשר לרדת
.מתחת ל 0בסולם רווח
סולם מנה – בנוסף לזהות,סדר ומרווחים יש משמעות גם ליחסים בין הערכים .נק' האפס אינה
שרירותית .אפס משמעותו "היעדר המהות הנמדדת" .ניתן לדבר על היחס לא רק של יותר ופחות ,אלא
.גם כפול וחלקי .אי אפשר לרדת מתחת ל0
.בקורס הזה מחברים בין סולם רווח לסולם מנה וקוראים לזה סולם רווח-מנה
הגדרות חדשות
משתנה דיכוטומי – משתנה בעל שני ערכים בלבד .למשל ,האם הוא שכיר (כן או לא) ,מין ביולוגי (זכר
.או נקבה)
משתנה רציף – בין כל שני ערכים ,אפשר להכניס אינסוף ערכים אחרים .למשל ,גובה או טמפרטורה.
.יכול להיות טמפ' 57וטמפ' ,58בין שני ערכים אלו אפשר להכניס עוד אינסוף ערכים שהם בין השניים
משתנה בדיד – משתנה שיכול לקבל רק מספר סופי של ערכים .לדוגמא ,מידת נעליים או מספר אנשים.
נגיד יש 62אנשים וערך נוסף של 64אנשים ,בין שני ערכים אלו לא ניתן להכניס ערכים נוספים חוץ מ63
.כי אין חציי אדם
שלב ראשון -סטטיסטיקה תיאורית – פרוצדורות שעוזרות לנו לארגן ולתאר נתונים שנאספו ממדגם
.או מאוכלוסייה .חישובים על נתוני המדגם שלנו
שלב שני -סטטיסטיקה היסקית – הלוגיקה והפרוצדורות הנוגעות להפקת תחזיות או היסקים לגבי
אוכלוסייה מתוך תצפיות וניתוחים של המדגם .האם אפשר להסיק משהו מהנתונים כלפי האוכלוסייה
.הרחבה .חישובים שבהם משתמשים כדי להכליל את התוצאות על כל האוכלוסייה
התפלגות שכיחויות
לדוגמא :התפלגות שכיחויות בקטגוריה של מספר הילדים במשפחה עבור אזרחים ישראלים בישראל,
2018
N=250
שכיחות יחסית ואחוזים
כאשר רוצים להשוות בין קבוצות במחקר ,יש להסתכל על האחוזים .כאשר מספר המקרים גדול,
.לפעמים קשה לקלוט את השכיחויות .אפשר להפוך את השכיחויות ליחסיות (ליחס או אחוזים)
( יחס (Pחלוקה של השכיחות בכל קטגוריה – ) (Fבמספר המקרים הכולל ).Nפי שווה לאף חלקי אן ).
לעיתים יש לנו עניין באיתור המיקום היחסי של תוצאה נתונה בתוך התפלגות .לשם כך משתמשים
בהתפלגות שכיחויות מצטברת – מראה את השכיחויות בכל קטגוריה של המשתנה או מתחת לה .פשוט
.כל פעם מחברים את השכיחויות יחדיו אחת אחרי השנייה .התפלגות אחוזים מצטברת היא אותה הדבר
תרשים עמודות -זוהי דרך חלופית להצגה גרפית של נתונים שמיים או סדר (במקום פאי) .תרשים
המראה את ההבדלים בשכיחויות או באחוזים בין הקטגוריות של משתנה שמי או סדר .צריך גם פה
.להיזהר מעיוותים
היסטוגרמה -תרשים המראה את ההבדלים בשכיחויות או באחוזים בין קטגוריות של משתנה רווח-יחס.
הקטגוריות מוצגות כעמודות רציפות ,ברוחב יחסי לרוחב הקטגוריה ובגובה יחסי לשכיחות או לאחוז של
אותה קטגוריה .ההבדל פה לעומת עמודות ,שהן עומדות אחת צמוד לשנייה ואין רווח ביניהן .משמש
.במקרה של רווח-יחס
תרשים קו – אותו דבר כמו היסטוגרמה ,גם הוא למשנה רווח-יחס .הוא מופיע כקו רציף שעולה ויורד.
.לפי המדד
נניח שמעניין אתכם לדעת על מספר הילדים ,רמת ההכנסה ,ההשכלה ושייכות למפלגה פוליטית
מסוימת .יקל עלינו להשתמש במספר אחד ,שמתאר או מסכם את ההתפלגות בצורה תמציתית יותר.
.מספרים אלה נקראים מדדי נטייה מרכזית (שכיח ,חציון ,ממוצע)
( שכיח)MODE
הקטגוריה או הערך בעל השכיחות (או בעלת האחוז) הגבוהה ביותר בהתפלגות .השכיח הוא תמיד
.קטגוריה או ערך ,לא שכיחות
למשל ,מה השפה הזה המדוברת ביותר בישראל? מה מספר הדוברים הגבוהה ביותר מכל השפות
?בארץ
( חציון)MEDIAN
מחושב מסולם סדר ומעלה .חציון מציין את אמצע ההתפלגות ,כך שמחלק את ההתפלגות לשני חלקים
.שווים – מחצית המקרים נמצאים מתחתיו ,ומחצית -מעליו
למשל ,הערך החציוני למשתנה מספר כוסות המיץ שסטודנט שותה בשבוע הוא .4מה המשמעות? 50
.אחוז שותים יותר ,ויש 50אחוז ששותים פחות .חציון לא מושפע מערכים קיצוניים
חישוב חציון בהתפלגות שכיחויות – לוקחים את השכיחות המצטברת , 1+מחלקים ב 2ורואים על זה
איזה מספר נופל החישוב מבחינת השכיחות המצטברת .נגיד נפל על ,452.5ואני יודע שיש לי שכיחות
.מצטברת שנופלת במקרה השלישי שהוא עד ,715ולכן הוא החציון
.החציון ואחוזונים -החציון הוא מקרה מיוחד של מערך כללי יותר של מדדי מיקום הנקראים אחוזונים
אחוזון -ערך שמתחתיו נופל אחוז מסוים מתוך ההתפלגות .לדוגמה ,האחוזון ה 75-הוא הערך המחלק
.את ההתפלגות כך ש 75%-מהמקרים נופלים מתחתיו
החציון הוא האחוזון ה .50-במקרה זה ,יוצרים עמודה של אחזוים מצטברים ובודקים איפה נופל האחוזון
.ה50
( ממוצע)MEAN
ניתן לחשב רק בסולם רווח-מנה .מדד נטייה מרכזית המתקבל מחיבור כל הערכים וחלוקת הסכום
.במספר הערכים הכולל .מתאים למשתנים מסולם רווח ומעלה .יש לזכור שממוצע רגיש לערכים קיצוניים
צורת ההתפלגות
התפלגות סימטרית – השכיחויות בקצה הימני והשמאלי של ההתפלגות זהות .כל מחצית של
.ההתפלגות היא תמונת מראה של האחרת .ממוצע=חציון=שכיח
התפלגות מוטה חיובית (ימינה) – ההתפלגות בעלת כמה ערכים קיצוניים גבוהים .הממוצע יהיה גבוה
.מהשכיח ומהחציון
התפלגות מוטה שלילית (שמאלה) – התפלגות בעלת כמה ערכים קיצוניים נמוכים .הממוצע יהיה נמוך
.מהשכיח ומהחציון
ניתן לחשב אותו רק בסולם שמי .מקבל ערך בין 0ל .1-אם התוצאה היא ,0זה אומר שההתפלגות
.בכלל לא מגוונת .אם התוצאה היא ,1זוהי ההתפלגות הכי מגוונת שיכולה להיות
לדוגמא :יש 100נשים ו 0גברים ,אז התוצאה היא 0כי אין גיוון בהתפלגות .אם יש 50נשים ו50
.גברים ,התוצאה היא ,1כי הגיוון בהתפלגות הוא המקסימלי
הנוסחא
!Kמספר הקטגוריות .אם יש 0ילדים חומים 2 ,לבנים ו 3שחורים .הקיי יהיה = 2
שלבי החישוב
מייצרים עמודה של אחוזים ,מייצרים עמודה של אחוזים בריבוע ,נסכום את עמודת האחוזים בריבוע,
.נציב בנוסחא
טווח
מתאים למשתני רווח-מנה .ההפרש בין התוצאה הגבוהה ביותר (המקסימום) לתוצאה הנמוכה ביותר
(.מינימום) .טווח מושפע מערכים קיצוניים בלבד
.דוגמא :בדגימה האדם הכי מבוגר הוא 40והכי צעיר הוא .30אז .10 = 40-30הטווח הוא 10
באופן כללי ,בשביל החישוב צריכים למצוא את אחוזון 25%ואת אחוזון .75%אח"כ עושים את אחוזון
75%.פחות אחוזון 25%
שלבי החישוב
נמצא את את האחוזונים – כדי למצוא את אחוזון 25%עושים – 0.25כפול מספר המדגם .כדי למצוא
.את אחוזון 75%עושים אותו דבר רק עם 0.75
התוצאה ,היא תגיד לנו איפה נמצא האחוזון ,האם הוא בין המקרה השני לשלישי ,או בין החמישי לשישי.
לדוגמא – 2.5 = 0.25*10 :האחוזון 25%הוא בין המקרה השני לשלישי .האחוזון 75%הוא בין המקרה
.השביעי לשמיני
לאחר מכן ,לוקחים את אחוזי המקרה השני והשלישי ,מחברים אותם ומחלקים ב – 2זה יוצא האחוזון ה
25%במקרה זה .באותה הדרך ,לוקחים את אחוזי המקרה השביעי והשמיני ,מחברים אותם ומחלקים ב
– 2.זה יוצא האחוזון ה 75%במקרה זה
.לאחר מכן ,מחסירים את אחוזון 75%באחוזון 25%וזו התוצאה של טווח בין רבעוני
חישובIQRבהתפלגות שכיחויות
.מייצרים עמודה של שכיחות מצטברת .עושים את אותו הדבר פשוט בעמודת השכיחות המצטברת
כדי למצוא פה את האחוזונים ,מכפילים בשכיחות המצטברת ולא במספר האפשרויות במדגם! לאחר
.מכן ,מחסירים את האחוזונים לפי מיקומם במקרים כמו בחישוב הרגיל ומקבלים את התוצאה
שונות
.ניתנים לחישוב רק בסולם רווח-מנה .שונות וסטיית תקן – אלו הן פיזור ביחס לממצוע
ממוצע ריבועי של הסטיות ממרכז ההתפלגות (מהממוצע) .בחישוב ,נעלה בריבוע כל סטייה מהממוצע.
השונות היא ,איפוא ,ממוצע ריבועי הסטויות מהממוצע .ראשית מחשבים את הממוצע ,לאחר מכן
.מחשבים את סכום ריבועי הסטיות מהממוצע
.השונות היא 74014.33דוגמא :הממוצע הוא – 392.5
Y
230
(230 392.5) 2 (300 392.5) 2 (242 392.5) 2 (798 392.5) 2
S2 74014.33
)(4 1 300
242
798
.בהתפלגות שכיחויות ,מחשבים ממוצע לפי התפלגות שכיחויות כמו שלמדנו קודם
.מחשבים את הממוצע ,אח"כ מייצרים עמודה של ערכים פחות הממוצע ()0.85- = 2-2.85
ניתנים לחישוב רק בסולם רווח-מנה .שונות וסטיית תקן – אלו הן פיזור ביחס לממצוע .עושים את זה
.כדי להגיע למספר שיהיה יותר קרוב לערכים המקוריים
.הממוצע ,החציון והשכיח שלה נמצאים בשיאה .השכיחויות פוחתות בהדרגה משני צידי העקומה
.אחוז מהתצפיות יהיו בצד ימין של ההתפלגות ,ו 50אחוז בצד שמאל שלה 50
הרבה מאוד משתנים באוכלוסייה מתפלגים בצורה מאוד דומה להתפלגות זו .על כן זו התפלגות מאוד
.שימושית
ציון תקן
ציון תקן ,הוא מספר סטיות התקן שערך גולמי מסויים נמצא מעל או מתחת לממוצע .כדי לדעת כמה
.סטיות תקן ערך מסויים נמצא מעל או מתחת לממוצע ,אפשר להפוך אותו לציון תקן
לדוגמא :הממוצע הוא שמונים ,וסטיית התקן היא עשר .אם למישהו יש ציון תקן ,2אז הציון שהוא קיבל
.זה 100
שימוש בציוני תקן מאפשר לנו להשוות בין ציונים מהתפלגויות שונות .למשל ,נניח שדנה קיבלה 80
בחשבון ו 85בספרות .האם נוכל להגיד שדניאלה טובה יותר בספרות? לא בהכרח .במבחן בחשבון
.הממוצע היה ,60עם סטיית תקן של ,2ואילו במבחן בספרות הממוצע היה ,95עם סטיית תקן של 3
פרמטר – הוא מדד המשמש לתיאור התפלגות האוכלוסייה .נקרא גם סטטיסטיקה היסקית .האם
.אפשר להכליל את תוצאות המדגם על כל האוכלוסייה
ממוצע
סטיית תקן
שונות
לשם הסקה סטטיסטית מהמדגם לאוכלוסיה ,ההסתברות של הפריטים צריכות להיות שוות (או לפחות
.ידועות ואז ניתן לעשות "תיקון")
.ומכאן נובע – בשביל הסקה סטטיסטית אנחנו צריכים לדגום מדגם באמצעות דגימה הסתברותית
רק בדגימה הסתברותית נוכל להעריך כמה ממצאי המדגם שלנו שונים מאלו שהיו מתקבלים אילו חקרנו
.את כלל האוכלוסייה (למעשה ,כמה המדגם שלנו מייצג וכמה טעות הדגימה שלנו היא גדולה)
.נשתמש בהתפלגות דגימה כדי להעריך האם המדגם שלנו הוא מדגם מייצג של האוכלוסייה
התפלגות הדגימה היא תיאורטית .אנחנו לא מחשבים אותה באמת ,אבל מסתמכים על תכונותיה .היא
מאפשרת לנו להשוות את תוצאות המדגם שלנו לערכי מדגם אחרים ,ולחשב את הסבירות של התוצאה
.שקיבלנו
)( :סימון הממוצע של התפלגות דגימה) .הממוצע שלה שווה תמיד לממוצע באוכלוסייה(
אם ידוע לנו שמשתנה מסויים מתפלג נורמלית באוכלוסייה ,התפלגות הדגימה תיחשב לנורמלית כאשר
.Nיהיה שווה או גדול מ .30התפלגות נורמלית חייבת להיות קיימת כדי להשתמש בטבלת זד
הרציונאל
יש לנו את הפרטים הסטטיסטים על המדגם :ממוצע ,ס.תקן ושונות .אנחנו רוצים לעמוד את הממצוע
.באוכלוסייה .כדי לגלות את הפרמטרים – משתמשים באמידה
אומדני נקודה
זה אומר לקחת את הסקר שעשינו על המדגם ולהניח אותו על כל האוכלוסייה בלי שינוי .שיטה לא טובה
רווח בר-סמך
טווח ערכים (שמוגדר ע"י רמת ביטחון כלשהי) שבו מעריכים שהפרמטר נמצא .מעריכים טווח שבו
.הפרמטר נמצא .טווח הערכים יוגדר לפי רמת הביטחון
רמת ביטחון
.דוגמא 90% :ביטחון -הסיכוי לטעות הוא . 10%טעות היא כאשר הממוצע לא נמצא בטווח שהגדרנו
:אם גודל המדגם גדול או שווה לחמישים ,וסטיית התקן באוכלוסייה לא ידועה ,אז מתקיים
רוצים להערך כמה זמן בממוצע סטודנטים משקיעים בנסיעות לקמפוס .באוניברסיטה יש 15אלף
סטודנטים ,אבל יש לנו תקציב רק ל .500אני אנסה להבין את הממוצע של ה 15אלף בעזרת רווח
.בר-סמך
ערכנו מדגם אקראי וקיבלנו שזמן הנסיעות הממוצע הוא 7.5שעות בשבוע .סטיית התקן באוכלוסייה
.היא ( 1.5ברוב השאלות אין נתונים על כל האוכלוסייה)
גודל המדגם הוא מעל 50ולכן יש פה התפלגות נורמלית .ביקשו מאיתנו בשאלה ,לקבוע את הזד לפי
.רמת ביטחון של 95%
נשאר - 5%אותו אנחנו מחלקים ( 2התוצאה היא )2.5%ומציבים אותם בקצה ההתפלגויות משני
.הצדדים ,כל צד .2.5%נמיר את האחוז למספר רגיל ( )0.025ונחפש אותו בטבלת זד בעמודת סי
.ייצאו לנו שני זדים – אחד יהיה שווה , 1.96והשני יהיה שווה מינוס 1.96
אנחנו בטוחים ברמת בטחון של 95%שזמן הנסיעה הממוצע בפועל ,באוכלוסייה ,אינו קטן מ 7.36-ואינו
.גדול מ 7.64-שעות
מה הסיכוי שאנחנו טועים? .5%בחמישה מתוך 100מקרים ,ממוצע האוכלוסייה האמיתי לא ייכלל
.בטווח שחישבנו
רוצים לדעת מה האורך הממוצע של דגים באגם גדול .יש מדגם של .58הממוצע בו הוא 14.2וסטיית
.התקן של המדגם היא .1.8בעיה ,לא יודעים את הממוצע של האוכלוסייה
.עובדים אותו דבר כי המדגם מספיק גדול ,גם אם אין סטיית תקן של האוכלוסייה
שלב שני – קביעת רמת ביטחון רצויה ומציאת ציון זד מתאים
גודל המדגם הוא מעל 50ולכן יש פה התפלגות נורמלית .ביקשו מאיתנו בשאלה ,לקבוע את הזד לפי
.רמת ביטחון של 95%
נשאר - 5%אותו אנחנו מחלקים ( 2התוצאה היא )2.5%ומציבים אותם בקצה ההתפלגויות משני
.הצדדים ,כל צד .2.5%נמיר את האחוז למספר רגיל ( )0.025ונחפש אותו בטבלת זד בעמודת סי
.ייצאו לנו שני זדים – אחד יהיה שווה , 1.96והשני יהיה שווה מינוס 1.96
.ממוצע האוכלוסייה נמצא בטווח שבין 13.73ועד 14.66ס"מ ,ברמת ביטחון של 95%
השלילי :הוא שרמת הדיוק קטנה (הטווח ,הרווח בר-סמך הופך להיות רחב יותר)
גודל המדגם – ככלל ,מדגמים קטנים יותר ייצרו רווחים ברי-סמך רחבים יותר ובכך יכוונו אותו לפחות
.דיוק
.גודל מרווח הביטחון – מרווח ביטחון גדול יותר ייצור לנו רווחים ברי-סמך רחבים יותר .פחות דיוק
סטיית התקן – ככל שהיא גדולה יותר ,הרווח בר-הסמך יהיה רחב יותר .פחות דיוק .סטיית תקן גדולה
.היא מאוד מפוזרת ,ככל שהיא יותר קטנה ככה היא מתפלגת להרבה פחות נתונים שונים
P = 0.41
השיעור באוכ' שאנשים מאמינים שהתחממות גלובלית היא בעיה חמורה אינו קטן מ 0.385ואינו גדול מ
0.435.ברמת ביטחון של 95%
כדי להתחיל ולבחון השערות מחקרים ,מניחים שהדגימה הינה דגימה אקראית .מניחים שרמת המדידה
.היא של רווח-מנה .מניחים שהאוכלוסייה מתפלגת נורמלי או שהמדגם יהיה גדול מ50-
אם משתנה מסויים נמדד בסולם סדר שלו יותר מארבע רמות – מותר להתייחס אליו כאל משתנה
.שנמדד בסולם רווח-מנה
.יש כיוון מוגדר ומסויים .לדוגמא :בת"א אנשים יותר מאושרים או פחות מאושרים ,יש כיוון מוגדר
השערה חד זנבית ימנית – התוצאות בבדיקת ההשערה של תוצאת המדגם תהיה בצד הימני להתפלגות
.הדגימה
השערה חד זנבית שמאלית – התוצאות בבדיקת ההשערה של תוצאת המדגם תהיה בצד השמאלי
.להתפלגות הדגימה
אין כיוון מוגדר .יש הבדל בין מה שקורה בת"א לבין כלל האוכלוסייה .אין התחייבות .מדברים רק על כך
.שיש הבדל אבל לא יודעים לאיזה כיוון
-השערת המחקר תהיה מסומנת ב.H1דוגמא :הממוצא באוכלסייה שמעניינת את החוקר קטן מ. 4.4-
השערת אפס
זו השערה שאומרת שאין הבדל בין הקבווצת .הממוצע באוכלוסייה שאותה דגמנו (ת"א) אינו שונה
.ממוצע האוכלוסייה הכללית
:לדוגמא :הממוצע באוכלוסייה שמעניית את החוקר הוא .4.4לכן :זהו יסומן כך
H 0 : μ y =4.4
מבחינת טרמינולוגיה ,ננסחה לדחות את השערת אפס – משמעות קבלת אישוש להשערת
לא אומרים קיבלתי . .H1המחקר
נשאל את השאלה הבאה :תחת ההנחה שהשערת אפס נכונה ,מה הסיכוי לקחת מדגם אקראי (מכל
הארץ) ולקבל את התוצאה שאנחנו קיבלנו במדגם שלנו בת"א? אם הסיכוי נמוך ,אנו מתרחקים
.מהשערת אפס
קביעת אלפא
אלפא – ערך סף שממנו ומטה דוחים את השערת אפס .דוגמא :אם אלפא הוא ,0.05אז הסיכוי שאנחנו
דורשים הוא .5%הדרישה היא שהסיכוי לקחת מדגם אקראי ולקבל את התוצאה שאנחנו קיבלנו במדגם
שלנו (מת"א) יהיה 5%ומטה .ככל שאלפא יותר נמוכה ,ככה יותר קשה לדחות את השערת אפס .אך
.ככל שמקטינים את אלפא ,הסיכוי לטעות גם קטן
בחירת התפלגות הדגימה והגדרת הסטטיסטי של המבחן +חישוב ססטיסטי המבחן 3.
הסיכוי בפועל לקחת מדגם אקראי ולקבל את התוצאה שאנחנו קיבלנו (במדגם מת"א). (0.0001)P
הגדרתי בהתחלה את אלפא כ ,0.05ובגלל שהפי יותר קטן נדחה את השערת אפס .גם אם זה שווה
זה בסדר .התוצאה נחשבת למובהקת מבחינה סטטיסטית .ניתן להסיק שבת"א באמת אנשים פחות
.מאושרים בהשוואה לכלל האוכלוסייה
דחינו את השערת אפס בטעות ,למרות שהיא נכונה .הסקנו שיש אפקט ,למרות שבמציאות אין אפקט.
הסיכוי לטעות מסוג ראשון תמיד יהיה שווה לאלפא .הסיכוי לטעות קטן ככל שהאלפא קטן ,אך גם
.הסיכוי לדחות את השערת אפס קטן
.לא דחינו את השערת אפס ,למרות שהיא שגויה .הסקנו שאין אפקט ,למרות שבמציאות יש אפקט
משתמשים במבחן זה ,כאשר סטיית התקן באוכלוסייה אינה ידועה .אם יש לנו רק את סטיית התקן
.במדגם ,נשתמש בה
:הנוסחא
התפלגות טי היא למעשה משפחה של עקומות ,שכל אחת מהן נקבעת בהתאם לדרגות החופש שלה.
נעשה שימוש בהתפלגות זו כאשר סטיית התקן באוכלוסייה לא ידועה .המחיר שמשלמים הוא שאנו
.נאבד דרגת חופש אחת
– דרגות חופשDf
בחישוב טי למדגם יחיד ,כיוון שאנו אומדים את סטיית התקן באוכלוסייה באמצעות סטיית התקן של
.המדגם ,אנחנו מאבדים דרגת חופש אחת .לוקחים את גודל המדגם ומחסרים באחד
df =N−1
טבלת טי
מחפשים את מה שהכי קרוב לדרגת חופש .אח"כ בודקים אם המבחן חד זנבי או דו זנבי .אח"כ בודקים
.איזו אלפא הייתה לנו ולפי זה בוחרים את התשובה בטבלה .התשובה בטבלה היא ה-טי הקריטי
הסקת מסקנות
אם ה-טי הקריטי(שבטבלה) נמוך יותר מאשר הטי המחושב ,אנחנו יודע ש-פי קטן מאלפא ולכן ניתן
.לדחות את השערת אפס
במקרה זה ,יהיו נתונים משני מדגמים .זה מקרה יותר נפוץ כי בד"כ אין את הנתונים על כל האוכלוסייה.
.בד"כ יש נתונים רק על מדגמים
.דוגמא :רוצים לדעת איזו שיטת לימוד סטטיסטיקה עדיפה :פרונטלית או בקבוצת לימוד
.המב"ת :סוג שיטת הלימוד (פרונטלית/קבוצת לימוד) .המ"ת :ציון במבחן סוף קורס ()0-100
.ניקח שתי קבוצות – אחת למדה בצורה פרונטלית ,השנייה בקבוצת לימוד
הנתונים שיהיו לנו על כל מדגם הוא :גודל ,ממוצע ,סטיית תקן ושונות .בעזרתם נבדוק האם הממוצעים
.שונים זה מזה באוכלוסייה והאם יש הבדל בין סוגי הלימוד באוכלוסייה
קביעת הנחות – לא משנה למבחן .המדגמים אקראיים ואינם תלויים ,המשתנה התלוי נמדד ברמת 1.
.מדידה של רווח/מנה ,יש התפלגות נורמלית ,והשוניות באוכלוסייה זהות
חישוב טי
הולכים לטבלת טי ,מחפשים לפי הדי.אף (הוא יהיה סך שני המדגמים פחות .)2מחפשי תחת רמת
מובהקות עבור מבחן דו זנבי במקרה של הדוגמא במצגת .אם הטי בטבלה גבוהה יותר מאשר הערך
.שאנחנו קיבלנו ,נסיק כי לא קיים הבדל בין שיטות הלימוד באוכלוסייה
הגדלת המדגמים תשפיע על טעות התקן .ככל שהמדגמים יהיו גדולים יותר ,כך טעות התקן תהיה
קטנה יותר וכך ה-טי המחשוב יהיה גדול יותר .הגדלת המדגמים תשפיע גם על טי הקריטי .בטבלת
.טי ,ככל שיש יותר ד"ח כך הטי הקריטי קטן וכך קל לנו יותר לדחות את השערת האפס
.בודקים ,האם יש קשר בין 2משתנים שנמדדו בסולם שמי/סדר באוכלוסייה עצמה
דוגמא :האם יש קשר בין מגדר (נשים/גברים) לבין עישון (מעשנים/לא מעשנים) .האם ניתן להכליל
?מהנתונתים של המדגם למה שקורה באוכלוסייה
טבלת אובזרבד
סה"כ לא מעשנים מעשנים
50 35 15 נשים
40 25 15 גברים
90 60 30 סה"כ
תהליכי חישוב
.הטבלה מראה איך היו נראים הנתונים אם לא היה קשר בין המשתנים
נשתמש בתיקון ייטס כאשר מחשבים חי בריבוע עם דרגת חופש אחת .תמיד תהייה טבלה של שתי
.אפשרויות ולא יותר
= 1.368/16.67 0.082064
= 1.368/13.33 0.102626
= 1.368/26.67 0.051294
= 1.368/33.33 0.041044
:לוקחים את 4התוצאות הסופיות ומחברים .התוצאה היא החי בריבוע .במקרה זה
הסקת מסקנות
הולכים לטבלת חי בריבוע .הולכים לדי.אף 1ולפי האלפא שאמרו לנו .אם החי בריבוע נמוך יותר
.מהחי המובהק(זה שבטבלה) ,אי אפשר לדחות את השערת אפס
שימו לב שאחרי חישוב חי בריבוע נוכל לדעת האם יש או אין קשר בין משתנים .לא נוכל לדעת האם
.הקשר הוא חלש/חזק
!גודלו של חי בריבוע נמצא ביחס ישר לגודל המדגם ואינו תלוי בעוצמת הקשר בין משתנים
מבחן חי בריבוע למדגמים ב"ת Tמבחן למדגם בודד Tמבחן למדגם בודד Zמבחן
האם יש קשר בין שני האם יש הבדל בין שתי האם המדגם נלקח האם המדגם נלקח ?מה בדקנו
משתנים (בד"כ בסולם 'קבוצות באוכ מהאוכ' הכללית ,או מהאוכ' הכללית ,או
'שמי או סדר) באוכ שהוא שייך לאוכ' אחרת שהוא שייך לאוכ' אחרת
נתוני מדגם שמאורגנים ממוצעים ,סטיות תקן ממוצע אוכ' ,ממוצע ממוצע אוכ' ,ס.ת אוכ', הנתונים שהיו
בטבלה דו-משתנית .של שני מדגמים -Nו ס.ת מדגם , N,מדגם , Nממוצע מדגם לנו
יש קשר בין המשתנים יש הבדל בין הקבוצות המדגם נלקח מאוכ' המדגם נלקח מאוכ' אם נדחה את
'באוכ 'באוכ אחרת-שונה מהאוכ' אחרת-שונה מהאוכ' השערת אפס
הכללית הכללית :נסיק ש
פרק – 13רגרסיה
נרצה לבדוק את הקשר בין שני משתנים ,שהם בסולם רווח – מנה .לעתים נרצה לנבא את הערכים
.במשתנה אחד ,באמצעות המשתנה האחר (לנבא את ערכי המ"ת באמצעות הערכים של המב"ת)
.דוגמא :ניבוי היכולת של אדם לעמוד בתנאי הלוואה מתוך ידיעת המשכורת שלו
קשר חיובי
עלייה בערכים של משתנה אחד מלווה בעליית הערכים של המשתנה השני .אם אחד עולה ,גם השני
.יעלה .אם אחד יורד ,גם השני יורד
קשר שלילי
עלייה בערכים של משתנה אחד מלווה בירידת הערכים של המשתנה השני .אם אחד עולה ,השני
.ירד .אם אחד יורד ,השני עולה
פעולות עבודה
דיאגרמת הפיזור
.זוהי שיטה חזותית להצגת קשר בין שני משתנים ברמת מדידה של רווח-מנה
.בדוגמא שלפנינו :כל נק' מייצגת שולחן אחד שישב במסעדה
.במצב זה ,נראה שיש קשר ליניארי בין המשתנים כיוון שנראה שאפשר להעביר קו ישר בין הנקודות
.דוגמא לחוסר קשר :הקשר בין מידת הנעליים לבין גודל הטיפ שמשאירים במסעדה
איך נדע איזה קו ישר לבנות? עפ"י משוואת ניבוי .צריך שהנק' יהיו כמה שיותר קרובות אליו .כל סטייה
.מהקו הישר היא טעות בניבוי .טעות בניבוי היא פער בין הוואי האמיתי לוואי המנובא
.וואי מנובא (וואי כובע) – הערך המנובא במ"ת (הטיפ שניבאנו שישאירו)
מהי המשמעות התיאורטית של איי – קבוע – נקודת החיתוך של משוואת הרגרסיה עם ציר הוואי .כאשר
איקס שווה ל 0-מה יהיה הערך של הוואי המנובא .דוגמא :אם סכום החשבון שווה ל ,0-הטיפ הצפוי הוא
מינוס .0.8188זה לא הגיוני ,לכן ,נק' החיתוך עם ציר הוואי יכולה להיות חסרת משמעות בעולם
.האמיתי
מהי המשמעות התיאורטית של בי – שיפוע – השינוי הצפוי בוואי המנובא בהינתן עלייה ביחידה אחת
בציר האיקס .דוגמא :על כל עלייה בשקל אחד בסכום הארוחה ,גובה הטיפ יגדל בסכום של בי (0.1462
.ש"ח) .אם הבי חיובי ,יש קשר חיובי .אם הבי שלילי ,יש קשר שלילי
מתאם פירסון
מדד מספרי לעוצמת הקשר בין 2משתנים שנמדדו בסולם רווח-מנה .יסומן ב-אר – לא נצטרך לחשב.
-.המדד הוא בין 1ל1
אם לוקחים את פירסון ועושים אותו בריבוע (אר בריבוע) – נקבל את אחוז השונות המוסברת .זה אומר,
.אם אני יודע מהו איקס ,אני אוכל לנבא 75%משיעור השונות הכוללת
כאשר יש יותר ממב"ת אחד שמעניין אותנו ,נחשב רגרסיה מרובה .למשל :אולי לא רק סכום הארוחה
(.מב"ת ) 1משפיע על גודל הטיפל (מ"ת) ,אלא גם זמן הגעת האוכל מרגע ההזמנה (מב"ת )2
איי = 41.187
עמודת בטא – מקדם מתוקנן – התרומת הייחודית של משתנה מסויים בניבוי המשתנה התלוי .כאשר
נרצה לדעת איזה משתנה מנבא בצורה טובה יותר את המ"ת ,נסתכל על המקדם המתוקנן .במקרה
.הזה ,מי שמצליח לנבות יותר טוב היא הבטא של המשתנה גיל
.עמודת סיג בטבלה (הכי ימין בטבלה למטה) – רמת מובהקות (פי)
?דוגמא :כמה שעות עבודה הייתם מנבאים לאדם שלמד 12שנים (מב"ת )1והוא בן ( 32מב"ת )32
מתי משתמשים? כאשר רוצים לעשות ניתוח שונות ליותר מ 2-מדגמים ב"ת ,יש להשתמש באנובה
(.ניתוח שונות) .אפשר להשתמש בניתוח זה גם כאשר יש רק 2מדגמים
במסגרת הקורס לומדים ניתוח שונות חד כיווני – המב"ת יהיה תמיד משתנה בדיד והמשתנה
התלוי יהיה משתנה רציף (בסולם רווח/מנה)
.בניתוח שונות ,נרצה שהשונות בין הקבוצות תהיה גדולה ,ושהשונות בתוך הקבוצות תהיה קטנה
.דוגמא :מב"ת :עיר מגורים ,מ"ת :מחיר כוס יין בפאב
?השאלה ששואלים היא ,האם באמת ת"א יותר יקרה מהערים האחרות
ניתוח שונות מתמקד ביחס הבא :שונות בין הקבוצות לחלק לשונות בתוך הקבוצות .ככל שהיחס
הזה גדול יותר ,כך גדל הסיכוי שההבדל בין ממוצעי המדגמים משקף הבדלים אמיתיים (ולא
מקריים) .יחס זה נרשם תחת האות .F
קביעת הנחות
המדגמים הינם בלתי-תלויים זה בזה ,ואקראיים ,המשתנה התלוי בסולם מדידה רווח או מנה ,המשתנה
התלוי מתפלג נורמלית באוכלוסייה ,השונויות באוכלוסיות שוות (נעריך לפי שונויות המדגם ,כך שיהיו
פחות או יותר שוות).
לפי השערת המחקר ,1H ,לפחות אחד הממוצעים שונה מהשאר .לא נדע איזה מהממוצעים הוא שונה.
אלפא יהיה ברמה של .0.05
לחשב את די.אף.בי – מספר המדגמים פחות .1דוגמא :יש לנו ת"א ,ב"ש ,חיפה .עושים 3-1ויוצא
.2
לחשב את די.אף.דאבל יו – מספר העצמים הנחקרים פחות .1דוגמא :בדקו 17מחירים שונים.
עושים 17-1ויוצא .16
הסטטיסיטי F
לדוגמא במקרה זה :רמת החופש של המונה(( df1הוא ,3רמת החופש של המכנה( )df2הוא .17
מחפשים את ה F-הקריטי בטבלה .אם הערך של ה F-שלנו יותר גדול מה F-הקריטי ,אז אפשר לדחות
את השערת האפס והתוצאה מובהקת .אם דחינו את השערת האפס ,אנו מסיקים שקיים הבדל
מובהק בין ממוצעי הקבוצות .לפחות אוכלוסייה אחת שונה מהשאר.
הסיג של בין הקבוצות – 0.014הוא ה !P-אם יש לנו את ה ,P-לא צריך לבדוק את ה F-כי כבר
אפשר לדחות את השערת האפס .ה P-יותר חשוב מה.F-
ניתן להסיק רק שקבוצה אחת שונה מהשאר .אנחנו לא נדע איזו קבוצה זו! רק אם נשתמש בניתוחי
המשך.