סיכום 2 עם שאלות לדוגמה

‫מתודולוגיה וסטטיסטיקה מתקדמת במחקר בחינוך‬
‫ד"ר יעקב ישראלאשוילי‬

‫‪12.03.2020‬‬
‫רציונל‪ :‬להפוך את תחום החינוך ליותר אקדמי ומבוסס על נתונים‪ ,‬וכאשר מציגים לנו מחקרים על התערבות או‬
‫הצעות למדיניות בבית הספר – שנוכל לפנות לספרות ולבחון עד כמה חזקות הראיות בכיוון מסוים‪.‬‬
‫מטרות הקורס הן שנוכל לפתח חשיבה ביקורתית על ידע בתחום החינוך‪...‬‬
‫דרכים לרכישת מידע‪:‬‬

‫לכתחילה התחיל באפיסטמולוגיה‪ ,‬איך מתחיל הידע שאנחנו יודעים‪ .‬זהו מחקר פילוסופי במהותו‪ .‬יש להבדיל בין‬
‫משהו שאני בטוח בו‪ ,‬שאז אנחנו מתייחסים לזה כאל עובדה‪ ,‬לעומת ידע שאנחנו לא בטוחים בו ואז אנחנו‬
‫מתייחסים אליו כאמונה ולא כידע‪  .‬רמת הביטחון של האדם קובעת האם הוא יתייחס למידע שלו כאל ידע או‬
‫כאל אמונה‪.‬‬
‫יש ‪ 4‬דרכים באמצעותן אנו מנסים להניח הנחות על העולם סביבנו‪:‬‬
‫שיטת הדבקות – אני דבק בתפיסה מסוימת ולא עסוק בלבחון אם זה נכון או לא נכון‪ .‬זה מה שאני רוצה‬ ‫•‬
‫לחשוב כרגע‪.‬‬
‫שיטת הסמכות – להישען על אדם או גוף שאנו מתייחסים אליו כבעל ידע‪ ,‬מתוך הנחה שלי כאדם פשוט‬ ‫•‬
‫אין יכולת לדעת מה קורה בעולם ולכן אני נסמך ונשען על מישהו אחר שיודע‪.‬‬
‫שיטה אינטואיטיבית – האינטואיציה שלנו‪ ,‬מה כדאי או לא כדאי לעשות‪ .‬זובי בחינה עצמאית ובחירה‬ ‫•‬
‫בדבר ההגיוני ביותר‪.‬‬
‫שיטה מדעית – מנסה לקחת את האינטואיציה ולאסוף מתוך תצפיות האם יש תמיכה באינטואיציה‬ ‫•‬
‫הזאת‪ .‬האם זה שאני חושב יש פתרון מסוים זה אכן מחזיק מים לאורך מספר של תצפיות‪ .‬לדוגמה‪:‬‬
‫בעבר טיפלו במוגלות על ידי עלוקות שהיו מניחים על המוגלה והעלוקה היתה מוצצת את המוגלה – זו‬
‫היתה האינטואיציה המדעית באותה תקופה‪ .‬אבל כאשר עשו בדיקה מדעית ואמרו לנבדק – תנוח‬
‫שבועיים ואז תחלים‪ ,‬וזה לבד הספיק! כלומר העלוקה הכריחה את האדם לנוח וזה מה שעזר לו‪.‬‬
‫ההנחה היא שיש חוקיות לדברים‪ .‬כל המדע נשען על האמונה שיש סדר וחוקיות בעולם ואנו רוצים‬
‫לחשוף ולהבין אותה‪.‬‬
‫הניסיון הוא לגלות משהו שנכון על העולם ולא נכון רק בעיני המתבונן – לכן יש פה עניין של‬
‫אובייקטיביות ואמפיריות (מדעיות‪ ,‬ניסויי)‪.‬‬
‫גם הפרשנות של המדענים היא לא תמיד נקיה‪ .‬התהליך הבסיסי ביותר הוא להעלות השערות על מה‬
‫שקורה בעולם‪ ,‬ואז לעשות ניסוי ולראות האם התצפיות האלה מקבלות תמיכה או מופרכות‪ .‬יש לשמור‬
‫כל הזמן על ראש פתוח ולהבין שלא בטוח שמה שחשבנו שעובד זה אכן כך‪ .‬התהליך הזה צריך להיות‬
‫פתוח ופומבי כי כאשר יותר מאדם אחד חושב על זה אז יש יותר סיכוי שנגיע לתוצאה הנכונה‪.‬‬
‫כדי שהסבר יהיה מדעי הוא צריך לעמוד בשתי דרישות בסיסיות‪:‬‬
‫‪ .1‬רלוונטיות למדע – מתאר דפוס‪ ,‬למשל‪" :‬ככל ש‪."....‬‬
‫‪ .2‬בחינות מעשיות – כלומר הדפוס הזה ניתן לבחינה מעשית‪ .‬מה הכוונה?‬
‫א‪ .‬יכולת ניבוי ולא רק בדיעבד‪ .‬אם הגעתי להנחה כלשהי היא אמורה לעבוד גם במצבים אחרים‪ .‬כלומר‬
‫לא רק להסביר מה היה בעבר אלא להיות מוכוון לפצור בעיות בעתיד‬
‫ב‪ .‬תוצאות קוהרנטיות ולא סותרות‪ .‬לתת הסבר עקבי וברור‪ ,‬שלא משתנה מפעם לפעם או מעלה‬
‫תוצאות אחרות‪ ,‬כי אז זה אומר שאין לנו הסבר טוב ומימלא אי אפשר לעשות איתו ניבוי לעתיד‪.‬‬
‫ג‪ .‬ניסוי קונקרטי ולא מעורפל‪ .‬אם טענו טענה מסוימת אז צריך להסביר מה בדיוק זה אומר בפועל‪.‬‬
‫למשל אם דברנו על שיטת חינוך מסויימת צריך לפרוט אותה מה זה אומר בפועל‪.‬‬
‫ד‪ .‬ניתן לבדוק בתצפית אובייקטיבית‪ .‬זה לא ניתן בכל דבר (אהבה וכו') אבל זה שימושי מאד‪.‬‬
‫איך זה עובד בפועל?‬
‫יש סדרה של שלבים ונסביר זאת באמצעות מחקר‪( :‬רפרנס במצגת‪ – Impact factor .‬כך מודדים אם הז'ורנל‬
‫נחשב‪ ,‬זה בעצם כמה ציטוטים של מאמרים מהז'ורנל הזה נעשו בשנתיים\חמש שנים האחרונות)‪.‬‬
‫ב‪ 2013‬יצא מאמר שטוען טענה חינוכית‪ :‬אם תאפשרו לילדים לקרוא ספרות טובה אז הבנת הזולת שלהם תשתפר‬
‫= ‪ .TOM‬במחקר הראו עיניים של אדם והביאו ‪ 4‬אפשרויות לאיך הוא מרגיש ונטען שכשאנשים קראו ספרות‬
‫טובה זה גרם להם לחשוב יותר על הדמויות האחרות וגם הצליחו יותר לזהות ולתאר טוב יותר את רגשותיו של‬
‫האחר‪.‬‬
‫יש פה תיאוריה כלשהי‪ .‬עם שאלה ‪ ‬נעשה ניסוח של ההשערה בנוגע לקשר בין קריאת ספרות ויכולות ‪ TOM‬‬
‫ניסוח השערה הנודעת לקשר התצפיתי בין המשתנים (מה אנחנו מצפים לראות)‪ .‬ואז גרמו לאנשים לתרגל את זה‪,‬‬
‫לקרוא ספרות טובה ‪ ‬בדיקת של הקשר על ידי השוואה בין שתי קבוצות שנחשפו או לא נחשפו לספרות כזאת‬
‫‪ ‬מגיעים למסקנה‪.‬‬
‫איך בפועל נעשתה המדידה של הבנת הרגשות של אחרים‪ :‬הראו להם את המבחן של בארון‪-‬כהן של זיהוי רגשות‬
‫לפי מראה העיניים בלבד‪.‬‬
‫לסיכום‪:‬‬
‫תהיה תיאורטית וניסוחה כשאלה ממוקדת‬ ‫א‪.‬‬

‫ניסוח השערה הנוגעת לקשר התיאורטי בין משתנים‬ ‫ב‪.‬‬
‫ניסוח השערה הנוגעת לקשר התצפיתי בין המשתנים‬ ‫ג‪.‬‬
‫בדיקה אמפירית של הקשר‬ ‫ד‪.‬‬
‫מסקנה האם הקשר אושש או לא‪.‬‬ ‫ה‪.‬‬
‫אנשים אחרים שהתרשמו מהמחקר רצו גם הם לבחון את הדבר הזה ובדקו האם סשן אחד כזה כמו שטוענים‬
‫החוקרים הראשונים אכן משפר את תפקודי ה‪ .TOM‬מה שקרה זה‪ ,‬לאחר ‪ 4‬סשנים כאלה (ב‪ 4‬מחקרים)‪ ,‬שאף‬
‫מחקר לא הצליח לשחזר את המחקר המקורי‪  .‬כלומר לא תמיד המחקרים הם אובייקטיבים‪ ,‬לא כל ממצא‬
‫מדעי מתאר לנו מה קורה באמת‪ ,‬ולא משנה בעד כמה יוקרתי המאמר שבו זה פורסם (הנחה שז'ורנלים כאלה‬
‫עשו תהליך שיפוט מאד מתקדם וביקורתי)‪...‬‬
‫אותו מחקר ביקורת טעם שאנשים שקוראים ספרות באופן כללי מצליחים יותר במבחני זיהוי רגשות‪ ,‬אבל פעם‬
‫אחת של קריאת ספרות טובה לא עושה את השינוי הדרמטי‪ .‬עם המסקנה הזאת הוא מחזיר את השאלה אל‬
‫השולחן‪.‬‬
‫‪ - Effect size‬כמה שונות מהתופעה זה מסביר לנו‪ ,‬על איזה אחוז של אנשים אנחנו יכולים להסיק מסקנות? –‬
‫גודל האפקט שנמצא במחקר המקורי היה בפועל לא באמת משמעותי (מדדים של גודל האפשק שונים‬
‫ממובהקות‪ ,‬שהיא רק אומרת אם זה מקרי או לא‪ ,‬ואילו גודל האפקט אומר עד כמה זה משמעותי)‪.‬‬
‫באיזה מידה ניתן לסמוך על ממצאי מחקרים?‬
‫פנו ליותר מ‪ 1500-‬חוקרים עם השאלה הזאת‪ ,‬והתשובה שלהם מופיעה בעיגול במצגת‪ .‬רוב קהילת החוקרים‬
‫אומרת שלא ניתן לסמוך על כל פרסום בגלל שלא ניתן לשחזר את התוצאות (התשובה הזאת חזרה במחקרים‬
‫מתחומים שונים!)‪ .‬מה שמעניין שזה נמצא נכון גם על מחקרים של אחרים וגם על מחקרים אישיים – כלומר יש‬
‫פה איזה הבנה שגם משהו שגילינו שעובד אנחנו לא תמיד יודעים בהבנה עמוקה איך‪ ,‬מתי‪ ,‬ולמה זה עובד‪.‬‬
‫לאור זאת החלו סדרה של פרוייקטים רב‪-‬מעבדתיים על מנת לבדוק מה היכולת לשחזר ולבדוק מחקרים‪ .‬מובן‬
‫שיש בזה קושי‪ ,‬במיוחד במחקרי התערבות או מחקרי אורך‪...‬‬
‫לקחו ‪ 100‬מחקרים בפסיכו' וחינוך וניסו לשחזר אותם וגילו ש‪ 36%‬מחקרים אכן העלו תוצאות כמו המחקר‬
‫המקורי‪ ,‬כלומר ‪ 1‬מתוך שלושה! (במצגת‪ ,‬ככל שהנתונים יורת כהים אז הנתונים יותר שונים בין המחקר המקורי‬
‫וניסיון השחזור שלו‪ .‬בהיר – קרוב למחקר המקורי‪ .‬כן\לא – עד כמה זה מובהק)‪.‬‬
‫אח"כ לקחו ‪ 100‬מחקרים בתחום מדעי החברה שהופיעו בז'ורנלים הכי טובים שיש והסיכוי לפרסם שמה נמוך‬
‫מאד‪ ,‬אז הצליחו לשחזר ‪ ,62%‬שניים מתוך שלושה!‬
‫‪ ‬כך התפתח משבר בתחום המחקרים‪ ,‬לאור מימדי כשל הרפלקציה‪.‬‬
‫ומה בתחום החינוך???‬
‫פורסם מאמר שנקרא "עובדות יותר חשובות מחידוש"‪ ,‬המסקנה שלו היא שאנחנו לא רוצים רק לפרסם חדשנות‪,‬‬
‫התערבויות נהדרות‪ ,‬להמציא את הגלגל‪ ,‬אלא אנחנו רוצים שאת התבונות שיש לנו נוכל לסמוך עליהן! נמצא‬
‫במאמר הזה שרק אחד מכל אלף מחקרים בודק האם מה שכבר פורסם בעבר הוא בכלל נכון או לא‪ ,‬וכל השאר‬
‫רק מנסים לחדש!‬
‫‪ ‬מסקנה‪ :‬אין ברירה אלא להבין טוב יותר שיטות מחקר וסטטיסטיקה‪.‬‬
‫גורמים לכשל הרפלקציה‪:‬‬
‫פרסום סלקטיבי – (רק מחקר אחד מתוך אלף בודק האם הטענות נכונות‪ .‬הפוקוס הזה של לפרסם‬ ‫•‬
‫דברים חדשים במקום לבחון את השאר הוא בעייתי)‪ .‬אנחנו מפרסמים רק מה שיוצא מובהק ולא מה‬
‫שלא יוצא מובהק וזה פרסום סלקטיבי! עלינו לשכנע שגם תוצאות לא מובהקות הן עדיין משמעותיות‪,‬‬
‫זוהי אמירה חשובה‪ .‬כלומר המטרה היא לפרסם משהו משמעותי ולא רק אם הוא מובהק או לא‪( .‬זה לא‬
‫רק באשמת החוקרים אלא הלחץ של הז'ורנלים שמפרסמים רק מה שמובהק‪ .)..‬זוהי בעיה מובנית של‬
‫פרסום מחקרים מוצלחים אך בפועל אנו יודעים שבשביל להגיע להצלחה במשהו נמצאים בתוך תהליך‬
‫ארוך של חוסר הצלחה‪.‬‬
‫שוני בפרוצדורה – פרק השיטה צריך להיות מאד ברור כדי שאחרים יוכלו לשחזר את הפרוטוקול שלך‪,‬‬ ‫•‬
‫מה השלבים‪ ,‬מה קורה בכל חלק‪ ,‬מה קורה בשפות אחרות‪ ,‬באוכלוסיות אחרות‪ ,‬מה המרכיבים שכדאי‬
‫וצריך לשמור ומה ניתן להקל לאור ההתאמות למצבים אחרים‪ .‬אחרת – זה מוביל לשוני בפרוצדורה‪,‬‬
‫כלומר זה לא שהמחקר המשחזר סותר ומפריך את המחקר המקורי אלא שהמקורי פשוט לא היה מספיק‬
‫מדויק ולכן יש קושי מובנה לשחזר אותו‪.‬‬
‫(שיחזור לא מוקפד) – יש פה תהליך סמוי של אנשים שמנסים לעשות קריירה בזה שהם פוסלים אחרים‪,‬‬ ‫•‬
‫אלה אנשים שביקורתיים כלפי הממצא הראשוני ולכן לא מקפידים לעשות את מחקר הששחזור שלהם‬
‫באותו אופן שבו הוא אמור להיעשות‪ .‬בעצם המחקר המשחזר לא עומד בסטנדרטים של המקורי‪ .‬זוהי‬
‫תופעה קיימת אך אינה מרכזית‪ ,‬יותר מרכזי זה השוני בפרוצדורה שנובע מחוסר בהירות ודיוק‬
‫בפרוטוקול של המחקר המקורי‪.‬‬
‫אוכלוסייה הטרוגנית – כל אוכלוסייה שעוברת מחקר היא שונה‪ .‬השונות באוכלוסיה מביאה לשונות‬ ‫•‬
‫בתוצאות‪ .‬יצאה כתבה שעוסקת בתהליך הארוך של שחזור מחקרים‪ ,‬החוקרים פה העלו מחקר לז'ורנל‬
‫יוקרתי שנעשה על תולעים ואז לקח להם עוד ‪ 4‬שנים כדי לשחזר את המחקר הזה! הם גילו ששני‬
‫המחקרים התחילו אותו דבר אבל יש בשלב מסוים בתהליך שוני בין קבוצות התולעים במחקר המקורי‬
‫והמשחזר וזה מעיד על שוני בין האוכלוסיות‪.‬‬
‫חוסר הבנה של שיטות מחקר נכונות וסטטיסטיקה – זהו המרכיב המרכזי ביותר מבחינתנו‪ .‬בחנו‬ ‫•‬
‫במחקר מהם הגורמים שהכי יעזרו לשחזור מחקרים וזו היתה התשובה‪ ,‬שיפור ההבנה הסטטיסטית‪.‬‬
‫‪19.03.2020‬‬
‫רקע קצר על הפילוסופיה של המדע‪ :‬אריסטו מוטרד משאלת ההסקה הלוגית‪ ,‬כלומר איך אפשר להסיק שמשהו‬
‫אחד קשור לשני‪ .‬הוא נותן דוגמה לאדם שהולך לטייל במרכז העיר ונופל עליו פסל‪ ,‬הוא מביא ‪ 2‬אופציות לכך‪:‬‬
‫יום קודם האדם הזה רצח מישהו ועכשיו זה העונש שלו‪ ,‬אופציה נוספת שהאדם נגע בפסל והוא נפל‪ ...‬סביב‬
‫הדוגמה הזאת הוא מפתח מאפיינים לסיבתיות‪.‬‬
‫כדי שיהיה אפשר להוכיח ששני דברים קשורים זה לזה‪:‬‬
‫א‪ .‬מציאת קשר סטטיסטי – צריך להוכיח ששניהם התרחשו יחד‪.‬‬

‫ב‪ .‬ביסוס סדר זמנים (באמצעות התערבות או הישענות על אילוף כרונולוגי) – צריך להוכיח שהגורם התרחש‬
‫לפני התוצאה‪ ,‬איך בודקים את זה? באמצעות התערבות‪ ,‬לבצע איזושהי מניפולציה על קבוצה לפני‬
‫שמודדים תפקוד‪.‬‬
‫ג‪ .‬הפרכת הסברים חלופיים – צריך לשלול כל סיבה אחרת‪ .‬ננסה לברר באיזה מידה ראיות להשפעה אחרת‬
‫הן חזקות‪ .‬ככל שנצליח לשלול טוב יותר הסברים חלופיים ככה ניתן יותר קרדיט להסבר שלנו‪..‬‬
‫תפקיד המשתנים במחקר‪:‬‬
‫משתנה תלוי (‪ – )DV‬זוהי התופעה הנלמדת‪ ,‬למשל יכולת ההבנה של הזולת בדוגמה של שבוע שעבר‪ .‬זהו‬
‫המשתנה המושפע\המוסבר והנמדד‪.‬‬
‫משתנה בלתי תלוי (‪ – )IDV‬מועמד להיות גורם להבדלים בין אנשים בתופעה הנלמדת‪ .‬זה מוצע כהסבר על ידי‬
‫החוקרים‪ .‬למשל בדוגמה משבוע שעבר – עצם החשיפה לספרות יפה מעלה את יכולות ה‪ .TOM‬זה המשתנה‬
‫המשפיע\המסביר‪ ,‬והוא מתופעל\מיוחס (‪-‬מאפיין שמיוחס לתופעה הנחקרת והוא מובנה במשתנה עצמו כלומר‬
‫אני כחוקר לא יצרתי אותו אלא יכול רק לשלוט במאפיין הזה)‪.‬‬
‫לדוגמה‪:‬‬
‫ההשערה שהיתה לחוקרים‪ :‬קריאה איכותית ‪ ‬הבנת הזולת‪ .‬החוקרים מציעים פה שמה שמסביר יכולות שונות‬
‫בהבנת הזולת זה קריאה של ספרות איכותית‪ .‬זוהי הרמה התיאורטית‪ ,‬זה מה שמעניין אותנו‪ ,‬אבל כל מערך‬
‫מחקר צריך להיות מתורגם לרמה המעשית שניתן לצפות בה‪.‬‬
‫ברמה התצפיתית (תרגום יישומי‪ ,‬הצורה האופרציונלית = התפעולית)‪:‬‬
‫ז'אנר הסיפורת (משתנה בלתי תלוי) ‪ ‬מבחן זיהוי רגשות (משתנה תלוי)‪.‬‬
‫כל אחד משני המשתנים האלו מתורגם למשהו מעשי‪ .‬הבנת הזולת תורגמה למבחן זיהוי רגשות‪ ,‬והקריאה‬
‫האיכותית תורגמה לסוגים שונים של ז'אנר ספרותי‪ .‬ובפועל‪ :‬נוצרו שתי קבוצות לכל משתנה‪ :‬ז'אנר ‪ -‬קריאה‬
‫עממית וקריאה ספרותית‪ ,‬מבחן זיהוי רגשות ‪ -‬מבחן זיהוי רגשות הועבר לשתי קבוצות שונות‪.‬‬
‫נעסוק כעת בסוגי תקפים שקשורים לקשיים ולביקורות שניתן להציג על מערך המחקר‪.‬‬
‫קשיים ובעיות שניתן להציג על כל מערכי מחקר‪:‬‬
‫תוקף סטטיסטי ‪ -‬בהמשך נעסוק בכמה סוגים של תקפים‪ ,‬כשהעיקרון הוא האם ההבדל הוא מהימן‬ ‫‪.1‬‬
‫ומובהק ‪ -‬יכול להיות שההבדל הזה הוא זניח‪ ,‬לא מובהק‪ ,‬ואם נחזור על הפרוצדורה נראה שההבדל הוא‬
‫חסר משמעות‪ ,‬חסר מהימנות כי אי אפשר לסמוך עליו‪.‬‬
‫קשר בין הסיבה והתוצאה ‪ -‬האם הקשר הזה הוא אמיתי או שיש משהו אחר שגרם להבדלים בין שתי‬ ‫‪.2‬‬
‫הקבוצות‪ ,‬למשל אם קבוצה אחת קראה את הספרות היפה בתוך מסגרת בית הספר וקבוצה שניה לא‬
‫קראה ספרות יפה כי בגלל הקורונה כל אחד קרא בבית מה שיש לו – אז בעצם ההבדל שחשבנו בין‬
‫ספרות יפה ועממית לא קשור לסוג הספרות אלא לנסיבות‪ .‬כלומר הקשר הפנימי שניסינו לצייר פה הוא‬
‫קשר שאולי יש בו בעיה‪.‬‬
‫ביקורת על התרגום שעשינו בין המשתנים התיאורטיים לאלה האופרטיביים‪ .‬האם ככה באמת בודקים‬ ‫‪.3‬‬
‫את הבנת הזולת? אולי יש דרך אחרת טובה יותר ואמיתית יותר לבדוק זאת?‬
‫ביקרות רביעית קשורה לתרגום של כל המחקר הזה לעולם האמיתי‪ ,‬לכיתה שלי‪ .‬האם זה יישומי‬ ‫‪.4‬‬
‫ושימושי בעולם בחוץ? האם אני יכולה להפוך את זה להתערבות בית ספרית?‬
‫נרחיב על כל נקודה‪:‬‬
‫תוקף סטטיסטי‪:‬‬
‫האם ההבדל שראינו בין הקבוצות הוא מהימן (הבדל בין ממוצעים)‪ ,‬או בשפה הסטטיסטית ‪-‬האם הוא מובהק‪,‬‬
‫כלומר האם כשנחזור על אותה פרוצדורה נצפה לאותו ההבדל‪ .‬אם כן – ההבדל אמין ומהימן וקיים באמת‪ .‬אם‬
‫לא – לא ניתן לסמוך על ההבדל הזה‪ ,‬הוא היה תוצאה מקרית וספציפית רק לאותם אנשים שדגמנו‪ .‬הוא לא‬
‫יעבוד על אוכלוסייה אחרת ולכן לא ניתן לסמוך עליו‪ .‬ובמילים אחרות – האם ההבדל אומר משהו עקרוני??‬
‫מה משפיע על התוקף הסטטיסטי?‬
‫א‪ .‬מצאנו משהו במקרה – 'נפלנו' על כל קבוצה מסוימת שבמקרה אצלה ראינו הבדל בין שני הממוצעים‬
‫(בין שתי הקבוצות‪ :‬קריאה עממית\ספרותית)‪ ,‬אבל בפועל הקבוצה הטובה יותר היתה כזאת שממילא‬
‫מורכבת מאנשים עם יכולות ‪ TOM‬גבוהות יותר וזה לא קשור למה שאנחנו עשינו‪.‬‬
‫מה גורם לזה?‬
‫‪ -‬בדיקות מרובות‪ :‬ניסוי שנעשה מלא פעמים אבל בסוף מדווח רק על הפעם היחידה שהצליחה‪ ,‬או‬
‫שבודקים בטרייה של מבחנים כשרק אחד מהם מצליח ואתה מדווח רק על זה ומתעלם מכל שאר‬
‫המדדים‪.‬‬
‫‪ -‬קריטריון החלטת החוקר‪ ,‬כלומר נקודה שאנחנו החלטנו שממנה נתייחס לתוצאות כמובהקות‬
‫(מובהקות קטנה מ‪ ,)0.05‬אבל אנחנו תמיד לוקחים ריזיקה שאנחנו טועים‪ ,‬כלומר שאחד מתוך ‪20‬‬
‫מקרים שהצהרנו שיש משהו אמיתי – הוא במקרה‪( .‬למשל ברפואה לוקחים סיכון של אחד מתוך‬
‫אלף!)‪ ,‬אז כל תחום‪ ,‬לפי חומרת הטעויות בתחום הזה‪ ,‬בוחר לעצמו את הנקודה שממנה הוא מצהיר‬
‫על הבדלים מסוימים כמשמעותיים‪.‬‬
‫כשמצאנו משהו במקרה לא ניתן לומר שיש פה תוקף סטטיסטי‪.‬‬
‫הביקורת כאן היא למה לא יצא מובהק במחקרי השחזור‪.‬‬
‫ב‪ .‬פספסנו במקרה – מצאנו משהו אבל הוא לא יחזור על עצמו עוד פעם‪.‬‬
‫מה גורם לזה?‬
‫‪ -‬גודל מדגם‪ :‬לקחנו כמות קטנה של אנשים (כך שלא היה מספיק מקום לשונות‪)?..‬‬
‫‪ -‬גודל באוכלוסייה‪ :‬לקחנו אנשים מאד שונים‪ ,‬הטרוגניות גבוהה ואם היינו שומרים על קבוצות‬
‫הומוגניות ואז מפעילים את ההתערבות אז היינו רואים את ההבדל (למשל אם נעביר מערך שיעור על‬
‫שתי קבוצות של תלמידים ברמות אינטליגנציה שונות)‪.‬‬
‫‪ -‬רמת מובהקות‪ :‬בחרתי קריטריון מאד מחמיר‪ ,‬למשל ‪ ,0.001‬זה קריטריון מאד נוקשה על מנת‬
‫להצהיר על הבדל ולכן לא יכולתי לזהות הבדלים עדינים יותר‪.‬‬
‫‪ -‬גודל האפקט‪ :‬אם ההבדל הוא מאד קטן יכול להיות שלא תראה אותו אם לא תיקח מספיק נבדקים‬
‫אבל אם ניקח מערכים גדולים של נבדקים אז‬
‫נוכל לזהות הבדלים עדינים‪ .‬למשל‪ ,‬אם יש לי‬
‫תרופה להצטננות עם אפקט גדול מאד אז מהר‬
‫נראה את ההבדלים אבל אם האפקט שלה קטן‬
‫נראה את זה רק כשיהיו יותר אנשים‪.‬‬
‫תוקף פנימי‪:‬‬
‫מטרה‪ :‬לתקף את ההשפעה הבלעדית של המשתנה הבלתי תלוי על התוצאה‪ .‬החשש שלנו הוא שההבדל שמצאנו‬
‫הוא מלאכותי‪ ,‬זה נקרא ארטיפקט‪ .‬היה פה משתנה חיצוני להתערבות שלנו שהשפיע על גודל האפקט‪ .‬לדוגמה‪:‬‬
‫שינויים בהליך הניסוי‪ :‬למשל הנסיין בקבוצה אחת מאד מאמין בקריאה כדי לשפר הבנת רגשות‪,‬‬ ‫‪-‬‬
‫ואילו בקבוצה השניה הנסיין מאד נטרלי בנוגע לתוצאות‪ ,‬אז ההבדל בין הקבוצות קשור לא רק לסוג‬
‫הטקסט אלא למי שהעביר את המחקר‪ .‬שתי הקבוצות פה עברו תהליך שונה! כל קבוצה קבלה‬
‫טקסט שמתווך על ידי גורם שונה! לכן המסקנה פה יכולה להיות שיש הסבר חלופי לתוצאה‪.‬‬
‫חוסר שוויון התחלתי בין הקבוצות‪ :‬אמנם יצא לי שבקבוצה אחת היה תפקוד גבוה יותר מהשניה‪,‬‬ ‫‪-‬‬
‫אבל יכול להיות שההבדל הזה לא קשור לטקסט אלא הוא הבדל מוקדם בין הקבוצות‪ ,‬קבוצה אחת‬
‫מלכתחילה הם פחות טובים ואז גם אם לא היינו עושים כלום עדיין היה אותו הבדל! זה הסבר‬
‫חיצוני בכלל להתערבות של הקריאה‪.‬‬
‫שינויים במהלך הניסוי‪ :‬יכול להיות שתנאי מסוים התרחש כמו רעש חיצוני‪ ,‬תקופה מלחיצה‪ ...‬והוא‬ ‫‪-‬‬
‫גרם להבדלים בתוצאה של המבחן וזה בכלל לא קשור לסוג הטקסט שקראנו‪.‬‬
‫‪ ‬בכל הדוגמאות האלה יש לנו הסבר חיצוני אחר להשערה של החוקר‪.‬‬
‫פתרונות‪:‬‬
‫שליטה מקסימלית – תנאים כמה שיותר שווים‪ ,‬שתי קבוצות שבהן אני בודק את זיהוי הרגשות בלי‬ ‫•‬
‫הפרעות של משהו בחוץ למשל‪ :‬אותו נסיין לשתי הקבוצות‪.‬‬
‫השמה רנדומלית – משתתף יסווג לכל קבוצה בצורה מקרית‪ .‬זה אומר שבשתי הקבוצה יהיו אנשים‬ ‫•‬
‫חזקים יותר וחלשים יותר בתפקוד שלהם‪.‬‬
‫קבוצת ביקורת – למשל אפשר ליצור ‪ 3‬קבוצות‪ :‬קבוצה אחת שקוראת קריאה ספרותית‪ ,‬קבוצת‬ ‫•‬
‫שנייה שקוראת קריאה עממית וקבוצת ביקורת שקוראת קריאה עממית והנסיין עם מוטיבציה גבוהה‬
‫להעברה‪ ,‬כך שאם נוצרו עדיין הבדלים‪ ,‬אנו יכולים לשלול את המוטיבציה של הנסיין כהסבר אפשרי‪.‬‬
‫כל אלה היו דוגמאות למצב של הסבר חלופי בין‬

‫הקבוצות שהוא לא ההתערבות שלנו‪ .‬ממילא‬
‫המסקנה היא שאם נחזור על ההתערבות פעם‬
‫נוספת לא נמצא הבדל בין הקבוצות‪ .‬ההבדל הזה‬
‫לא קיים במציאות‪ ,‬אלא הוא הבדל מלאכותי‬
‫מלכתחילה‪.‬‬
‫תוקף מבנה‪:‬‬
‫החשש הוא שההתערבות כן עובדת אבל לא בגלל מה שחשבנו אלא בגלל משהו אחר בתוך ההתערבות‪ .‬אמנם אם‬
‫נחזור שוב על ההתערבות נגיע שוב להבדלים אבל זה לא בגלל מה שאנחנו חושבים‪ .‬למשל יכול להיות שההבדל‬
‫בין הביצוע במבחנים לא קשור לז'אנר אלא לכמה התוכן הספציפי הוא מעניין ומהנה יותר‪ .‬במילים אחרות –‬
‫המניפולציה שלך עובדת אבל לא בגלל מה שאתה חושב‪ .‬זהו משתנה מתערב = קונפאונד‪ .‬זה אומר שהתיאוריה‬
‫שלך חסרת בסיס‪ ,‬ויש תיאוריה חלופית‪ ,‬למשל קריאה של טקסט מעניין ומהנה גורמת לרצות להבין את הזולת‬
‫בטקסטים‪ .‬יש לנו פה הסבר חלופי לתאוריה‪ .‬לבדוק אם פספסתי פה משהו‪.‬‬
‫השוואה בין קונפאונד וארטיפקט‪:‬‬
‫ארטיפקט אומר שההבדל לא קיים‪ ,‬המניפולציה לא עובדת‪ ,‬ההבדל שמצאת התקבל במקרה בגלל משהו אחר‬
‫שגרם לזה (כמו הבדלים ראשוניים בין הקבוצות עוד לפני המחקר)‪ .‬זוהי טענה של תוקף פנימי‪.‬‬
‫טענה של תוקף מבנה‪ :‬קונפאונד – ההתערבות כן עובדת‪ ,‬אם תחזור על זה שוב תקבל את אותו הבדל אבל זה לא‬
‫בגלל הסיבה שאתה חושב‪ ,‬התרגום היישומי שאתה עשית לטקסט מסוים עממי או טקסט מסוים ספרותי הוא לא‬
‫הולם את מה שרצית באמת לבחון (קריאה עממית\איכותית)‪ ,‬פשוט בחרת טקסט מעניין יותר בהשוואה לטקסט‬
‫פחות מעניין‪ .‬ללמד ולגרום להנאה ניתן לעשות בכל ז'אנר ולכן ההלימה שאתה עשית לסוג הקריאה היא לא‬
‫נכונה‪.‬‬
‫תוקף חיצוני‬
‫זה נוגע לשאלה מה אומר המחקר על העולם האמיתי‪ ,‬באיזה מידה החוקרים עזרו לנו להגיע להחלטות הנכונות‬
‫מציאותית‪ ,‬האם ההחלטות שלהם מאפשרות לנו לקחת את המסקנות שלהם גם לעולם האמיתי‪ .‬אפשר להעלות‬
‫כמה סוגים של ביקורות בהקשר הזה‪:‬‬
‫האם המבחן הזה מייצג היטב הבנה של אנשים במציאות?‬ ‫•‬

‫למשל אפשר להעלות ביקרות שכל המבחן של זיהוי רגשות הוא לא טוב כי בחיים אנחנו לא נותנים ‪4‬‬
‫אופציות לרגשות ומתוכם האדם בוחר את הרגש הכי נכון‪...‬‬
‫כמה התערבות נדרשת ולכמה זמן היא משפיעה?‬ ‫•‬
‫אתם החוקרים אומרים שההתערבות שלכם עוזרת לשפר אבל תהיו יותר מפורטים – כמה התערבות‬
‫צריך? פעם אחת? כל המחצית? כמה זמן קריאה – ‪ 10‬דקות בלבד או ‪ 10‬דקות כל יום?‪ ,‬כלומר הביקורת‬
‫היא שתהיו יותר קונקרטיים!‬
‫עבור איזה אוכלוסייה זה תקף?‬ ‫•‬
‫לאיזה אוכלוסייה זה עובד‪ ,‬רק למי שיכולים ומיומנים בספרות גבוהה או גם למי שאין לו אוצר מילים‬
‫רלוונטי?‬
‫האם השיפור הוא משמעותי ביחס להתערבויות אחרות?‬ ‫•‬
‫האם זה בכלל מוביל לשיפור משמעותי ביחס לשיפור שאני יכול להגיע עם התערבויות אחרות? אני צריך‬
‫לדעת למה לנצל את הזמן שיש לי‪...‬‬
‫שאלת התקפים שעסקנו בהם היום שואלת האם ומה ניתן ללמוד מהחקר שעשינו‪ ,‬כאשר החששות השונים‬
‫גורמים לנו להיות מודעים לטעויות בהסקה‪.‬‬
‫התקף הסטטי והתוקף הפנימי מתייחסים ספציפית למה שמצאנו ושואלים האם ההבדל הוא מהותי ונגרם‬
‫מההתערבות שעשינו‪ ,‬תוקף המבנה והתוקף החיצוני שואלים מה המשמעות של ההבדל הזה‪.‬‬
‫‪26.03.2020‬‬
‫מערכי מחקר ניסויים‬

‫מה היה קורה אם היינו נשארים במערכי מחקר מאד פשוטים?‬
‫לפעמים מורכב להבין ממצאי מחקר פשוט‪:‬‬
‫מקרה שהיה ‪ -‬אוני' ברקלי מואשמת שהיא מפלה נשים באופן שיטתי בקבלה לתואר שני‪ .‬כל שנה מתקבלים ‪10%‬‬
‫גברים יותר בהשוואה לנשים‪ .‬נוצרה סערה גדולה‪ .‬לאוני' לא היתה כוונה מוצהרת לעשות הפליה כזאת‪ ,‬נעשה‬
‫ניסיון להבין איך זה קרה‪ ,‬האם יש פה הטייה סמויה או שניתן להסביר את הנתונים באופן אחר? יכול להיות שיש‬
‫משהו נוסף שאנחנו לא מודעים לו‪...‬‬
‫לכן האוני' ביקשה מכל אחד מהחוגים לדווח מה שכיחות הגברים והנשים שיש שם‪ ,‬כדי לזהות את "החוג‬
‫החולה" שבגללו נוצרו הנתונים האלה‪.‬‬
‫אם מסתכלים בטבלה על החוג (תחום) אנחנו לא‬

‫רואים מי הפלה‪ ,‬כי האחוזים הם דומים פחות או‬
‫יותר ואפילו בחוג א' וב' אנחנו רואים שהתקבלו‬
‫אחוזים גבוהים יותר של נשים‪ .‬כלומר צריך לחשוב‬
‫פה על פתרון אחר ‪ -‬ההתמקדות בהבחנה הפשוטה‬
‫בין גברים ונשים היא מצומצמת מדי ויצרה רושם‬
‫כאילו יש פה הפליה‪ ,‬אבל אם מסתכלים על מערך‬
‫מורכב יותר שמתייחס גם למין של הפונה וגם‬
‫לאיזה חוג הוא פנה וגם למדיניות הקבלה החוגית‬
‫אז רואים שהחוג שקיבל הכי הרבה נשים – חוג א'‪,‬‬
‫חוג להנדסה‪ ,‬פנו אליו הרבה גברים ולא כולם‬
‫התקבלו‪ ,‬ולעומת זאת רוב הנשים שפנו התקבלו‪.‬‬
‫פשוט החוגים שקל להתקבל אליהם פנו אליהם יותר גברים ואילו חוגים שקשה יותר להתקבל אליהם פנו יותר‬
‫נשים‪ ,‬ואז באמת גם התקבלו פחות נשים (כמו ספרות אנגלית בג')‪.‬‬
‫כלומר יש לנו פה משהו נוסף‪ ,‬כאשר רק סוכמים את הנתונים בצורה פשוטה רואים הטיה אבל כאשר מסתכלים‬
‫פנימה יותר על סוג החוג ומדיניות הקבלה הדברים יותר מתאזנים‪.‬‬
‫‪ ‬לפעמים צריך לעשות מערכי מחקרי מתקדמים יותר שיעמיקו את ההבנה לנו‪ ,‬במיוחד כאשר הממצאים לא‬
‫מתיישבים עם ההבנה הבסיסית שלנו‪ .‬אז קודם נראה אם יש בעיה בתקפים ואם זה לא מסביר את התוצאות אז‬
‫אולי צריך מערך מחקר יותר מעמיק ומתוחכם שיביא לידי ביטוי דקויות נוספות‪.‬‬
‫זהו תהליך שקורה בכל תחומי הדעת כאשר מנסים לבחון שאלות מעמיקות‪.‬‬
‫רואים בשקופית הזו נתונים של מאמר שסקר את כל שיטות המחקר שנעשו‬

‫במחקרים שפורסמו לאורך ‪ 80‬שנה בז'ורנל מכובד של התפתחות הילד‪ .‬כל‬
‫מחקר סווג ל‪ 4‬קטגוריות של מערך המחקר – של איך חקרו את הנתונים‪,‬‬
‫מהרמה הבסיסית אל המעמיקה ביותר‪:‬‬
‫‪ .1‬הקטגוריה הכי פשטנית של תיאור בלבד ללא נתונים כמותיים‪.‬‬

‫‪ .2‬השוואה פשוטה שהיא השוואה בין שני מצבים‪.‬‬
‫‪ .3‬השוואה פשוטה על פני מגוון מדדים (למשל בדוגמה שלנו של ספרות איכותית או עממית‪ ,‬אז בדקו את‬
‫זה עם כמה מדדים אבל עדיין תוך השוואה פשוטה באותו מצב על שתי קבוצות המחקר)‪.‬‬
‫‪ .4‬השוואות מורכבות בין כמה משתנים וכמה רמות ניתוח – זהו ניסיון להשוואה מורכבת יותר שמעמיקה‬
‫את ההבנה שלנו על איך עובד השינוי (למשל ראינו שספרות איכותית משפיעה על הבנת הזולת אבל איך?‬
‫מה קרה שם בדרך? זה יעזור לנו אח"כ בהמשך לתרגם את זה להקשרים אחרים כמו למשל אם הבנתי‬
‫שזאת ההנאה באמצע שיוצרת את האפקט אני יכולה אח"כ להשליך את זה גם על משחקים)‪ ,‬אז בעצם‬
‫יש פה הוספה של עוד משתנים‪ ,‬או רמות ניתוח שונות של אותם נתונים‪ ,‬יכול להיות שיש פה נקודות זמן‬
‫שונות שמשפיעות‪ ,‬מסגרות שונות שבהן חושבים על המצב‪...‬‬
‫‪ ‬כלומר עלינו להתקדם מעבר להשוואה הפשוטה כדי שנצליח לומר משהו מדויק‪ ,‬מעמיק ומרחיב יותר וכך נבין‬
‫את התמונה יותר טוב‪ .‬מסקנה בשבילנו‪ :‬כאשר אנחנו מתכננים מחקר עלינו לנסות שהוא יהיה כמה שיותר עשיר‬
‫מבחינת האינפורמציה שהוא אוסף‪ ,‬גם אם מעניינת אותנו בסוף השוואה פשוטה בין שתי קבוצות כדאי לנו‬
‫לאסוף עוד נתונים שיכולים להעשיר את התמונה שלנו‪.‬‬
‫כיצד למדוד?‬
‫קודם כל יש להשוות בין מחקר מתאמי ומחקר ניסויי‪ .‬מחקר מתאמי (קורלטיבי) הוא מחקר שבו אנחנו רואים‬
‫פשוט מה קורה בעולם‪ ,‬אנחנו לא מנסים להשפיע על המצב‪ ,‬אנחנו ניגשים למציאות ומודדים מה קורה שם‪ .‬אז‬
‫למשל בדוגמה שלנו על קריאה והבנת הזולת‪ ,‬אני אגש לאנשים ופשוט אשאל אותם כמה שעות אתם מקדישים‬
‫לקריאה ואיזה סוג קריאה‪ ,‬אני אבדוק איך הם מתפקדים בזיהוי רגשות‪ ,‬ככה יהיה לי את שני הנתונים האלה‬
‫ואני אבצע מתאם בין השניים‪ .‬כאמור‪ ,‬לא השפעתי כלל על הנתונים‪.‬‬
‫סוג מחקר זה רווח בספרות אבל הבעיה שלו היא שהוא לא מאפשר לדעת מה גרם למה‪ .‬למשל הדוגמה הקלאסית‬
‫של מידת הנעליים ויכולת הצלחה בבגרות ‪ -‬נמצא קשר חיובי בין מידת הנעליים והצלחה בבגרות‪ .‬הסיבה‪ :‬כי‬
‫ילדים עם מידת נעליים קטנה לא יצליחו בבגרות ולהיפך‪ ,‬כלומר יש פה השתנות משותפת אבל מחקר מתאמי לא‬
‫מאפשר לנו להגיד משהו סיבתי כזה על הקשר שנמצא‪ .‬מצד שני‪ ,‬היתרון שבו הוא הקלות והנוחות שניתן לאסוף‬
‫את הנתונים‪.‬‬
‫בקצה השני יש מחקר ניסויי שמנסה לתפעל ולהשפיע על אחד המשתנים כדי שנצליח לטעון משהו נוסף‪ .‬אז למשל‬
‫אקח קבוצה רנדומלית של אנשים‪ ,‬אחלק לשתי קבוצות‪ ,‬כל קבוצה תקרא ז'אנר אחר ואז אראה את יכולות הבנת‬
‫הנקרא‪ .‬כלומר אני כחוקר יצרתי איזשהו הבדל‪ ,‬התערבתי והשוויתי בין המצבים ולכן נוכל לדבר על השפעה!‬
‫בדוגמה הקודמת למשל אני אתן לחלק לנעול נעליים קטנות ולחלק גדולות ואבדוק אם יש הבדל בציוני הבגרות‪.‬‬
‫זה יאפשר לנו לדבר על סיבתיות‪ ,‬מה שלא ניתן במערך המתאמי‪.‬‬
‫בין שני הקצוות האלה יש שני סוגי מחקרים רווחים בתחום החינוך‪:‬‬
‫מחקר אורך‪ :‬בדיקה לאורך זמן‪ .‬אני כחוקר לא מייצר את הזמן אלא זה סדר התפתחות כרונולוגי שאני‬ ‫•‬
‫יכול לעקוב ולראות מה קורה בכל שלב בהתפתחות ואז להניח על זה הנחות ומסקנות מסוימות‪ .‬זה לא‬
‫ניסויי כי לא עשיתי התערבות‪ ,‬אבל כן הייתי כפוף לאילוץ כרונולוגי‪ .‬זה מחקר קוואזי ניסויי‪ ,‬דמוי ניסויי‬
‫אבל לא ממש ניסויי‪ ,‬רק כפוף לנסיבות‪ .‬זה לא אני מתפעל את הסיטואציה אלא הזמן‪.‬‬
‫עוד אופציה‪ :‬מחקר אורך בין קבוצות שעברו התערבות מסוימת‪ ,‬ואז יש לי יכולת לטעון על סיבתיות‬
‫בנוגע למשתנה אחד של ההתערבות‪ ,‬אך אין לי יכולת לטעון לסיבתיות בנוגע למשתנה השני של הגיל (וזה‬
‫הקוואזי)‪.‬‬
‫מחקר חוצה קבוצות (מחקר רוחב)‪ :‬החוקר בכוונה פונה לאנשים שהם מקבוצות שונות (מקום מגורים‬ ‫•‬
‫שונה‪ ,‬גיל אחר‪ ,)...‬לא יצרתי את התפעול הזה‪ ,‬יש פה הבחנה קיימת וברורה בין קבוצות ואני יכולה‬
‫לראות מה קורה בכל קבוצה למרות שלא יצרתי את ההבדל‪ .‬זה גם יכול להיות ניסויי אם הוספתי‬
‫התערבות בכל אחת מהקבוצות אבל רק על זה אני אוכל לטעון לסיבתיות‪.‬‬
‫המצב הנקי ביותר‪ ,‬שלא תמיד אפשרי‪ ,‬הוא שאני יוצר את ההבדל בין הקבוצות מלכתחילה – מחקר ניסויי‪ .‬אם‬
‫זה אפשרי זה מאד עוזר להגיע למסקנות נקיות וברורות יותר‪.‬‬
‫שיטות איסוף נתונים‪:‬‬

‫יש לנו שתי אפשרויות של איסוף על כל משתנה‪:‬‬
‫א‪ .‬מערך מחקר תוך נבדקי – כל בנאדם נבדק בשתי מדידות לפני התערבות ואחרי התערבות‪ .‬למשל גם‬
‫כשהוא קורא ספרות פופולרית וגם ספרות עממית ואז ממלא שאלון הבנת הזולת‪ .‬זה אותו בנאדם בשני‬
‫תנאים‪.‬‬
‫יתרונות‪:‬‬
‫✓ אקונומי‪ ,‬חסכוני – דורש פחות נבדקים ופשוט עובדים איתם לאורך זמן‪.‬‬
‫✓ מצמצם השפעת הבדלים בין אישיים – זה חשוב ביותר‪ .‬לדוגמה בדוגמה שלנו על קריאה‪ ,‬היו לנו‬
‫שתי קבוצות עם רמה גבוהה\נמוכה של קריאה או הבנת הזולת‪ ,‬היה לנו הרבה אלמנטים‬
‫שיוצרים שונות בין אישית שהיא בכלל לא קשורה להשפעת ההתערבות שלנו (שהיא סוג‬
‫הספרות)‪ ,‬וזה מכניס רעש למדידה ומפחית את הסיכוי שלנו למצוא הבדלים מובהקים‪ .‬אבל אם‬
‫עושים תוך נבדקי והאדם מושווה ביחס לעצמו‪ ,‬למשל לפני ואחרי התערבות‪ ,‬אז ההבדלים שיש‬
‫בין אנשים הם לא רלוונטיים בכלל‪ ,‬לא נכנסים לתמונה‪ ,‬וזה מגדיל את הסיכוי למצוא ממצאים‬
‫מובהקים במידה וההתערבות עובדת‪ ,‬זה מגדיל את התוקף הסטטי‪.‬‬
‫✓ מחזק עוצמה סטטיסטית – עוצמה זה הסיכוי למצוא הבדלים במידה והם קיימים‪.‬‬
‫חסרונות‪:‬‬
‫‪ -‬חשיפה חוזרת‪ :‬עייפות‪ ,‬שעמום‪ ,‬אימון‪ ,‬ואז האדם מבין מה קורה פה ומתאמץ במיוחד ולא בגלל‬
‫ההתערבות שלי‪ .‬זה מייצר בעיה בתוקף של המסקנה שלנו‪( .‬כדי להתגבר על זה עושים קבוצת ביקורת)‪.‬‬
‫ב‪ .‬בין נבדקי – זה לא אותו אדם בשני המצבים‪ ,‬אלא המדגם מחולק לשתי קבוצות וכל קבוצה מקבלת מצב‬
‫אחד בלבד‪.‬‬
‫יתרונות‪:‬‬
‫✓ נמנעים מהטיות שנובעות מחשיפה חוזרת‬
‫✓ המשך של זה ‪ -‬ככה הנבדק נשאר עיוור לתנאים ולמטרות של המחקר‪.‬‬
‫חסרונות‪( :‬אלה היתרונות של התוך נבדקי)‬
‫‪ -‬רעש אפשרי כתוצאה מהבדלים אינדיבידואליים‪.‬‬
‫‪ -‬דורש יותר נבדקים‪.‬‬
‫דוגמאות למשתנים‪ :‬מין זה תמיד בין נבדקי‪ .‬ז'אנר‬

‫הקריאה ניתן לבחון כך או כך‪ .‬ציוני בגרות זה כמו‬
‫מבחן קריאה‪ .‬כל מערך מחקר מחליט איך הוא מתייחס‬
‫אל הנתונים שלו‪.‬‬
‫הערה על עוצמה סטטיסטית ורגישות של מערך מחקר‪( :‬מדוע מערך תוך נבדקי מחזק עוצמה? הזכרנו את זה‬
‫מקודם וכעת נרחיב)‬
‫עוצמה = הסיכוי למצוא הבדל במידה והוא קיים‪.‬‬
‫רגישות = הסיכוי למצוא הבדלים קטנים במידה וקיימים‪.‬‬
‫איך מחושב כל אחד מהמושגים האלה?‬
‫אפקט ‪ -‬ההבדל בין הממוצעים‪ .‬אז למשל קבוצה ‪ 1‬הצליחו לזהות הבדלים ברגשות של ‪ 25‬דמויות‪ ,‬והקבוצה‬
‫השניה הצליחה אצל ‪ 27‬דמויות‪ .‬זהו האפקט – ההבדל בין הממוצעים‪ .‬ככל שההתערבות יותר משמעותית אז‬
‫ההבדל יגדל‪.‬‬
‫שונות – באיזה מידה יש הבדלים בין אנשים בצורה שאני לא יודעת להסביר אותם‪ ,‬שונות שלא קשורה‬
‫להתערבות שעשיתי‪ .‬כל יתר ההבדלים שלא קשורים לקבוצה שבה הם היו זה רעש‪ ,‬זה שונות שכרגע אנחנו לא‬
‫יודעים להסביר‪ .‬יכול להיות שהמדידה שלי לא טובה (כמו משקל מקולקל) או הבדלים בינאישיים‪...‬‬
‫אפשר לראות שהסיכוי למצוא הבדלים קטנים מושפע רק משונות‪ .‬ככל שההבדלים המקריים הם גדולים יותר‬
‫אז הרגישות של המחקר היא קטנה יותר‪ .‬ככל שיש שונות מאד גדולה‪ ,‬למשל שונות באינטליגנציה‪ ,‬בקבוצה‬
‫שקראה ספרות גבוהה‪ ,‬אז הרגישות שלי להשפעה של ספרות גבוהה תהייה נמוכה כי אני לא אזהה הבדלים‬
‫קטנים‪ .‬אבל ככל שהשונות בין אנשים היא קטנה אז מערך המחקר שלי יותר רגיש גם להבדלים קטנים‪ .‬רואים‬
‫את זה בגרף‪ .‬כל התפלגות מייצגת ערכים של קבוצה מסוימת‪.‬‬
‫אנחנו רואים שהממוצעים שונים וגם שיש שונות‪ .‬בטן גדולה = שונות גדולה‪ ,‬בטן קטנה = שונות קטנות‪ .‬מרחק‬
‫גדול = אפקט גדול‪ ,‬מרחק קטן = אפקט קטן‪.‬‬
‫אפשר גם לראות שעוצמה קשורה לאפקט ולשונות ורגישות קשורה לשונות‪.‬‬
‫ככל שהשונות קטנה יותר אז הרגישות עולה‪ ,‬לכן כדאי לעשות שימוש במחקר שבו השונות קטנה‪ .‬איך משיגים‬
‫את זה? – כלי מדידה מהימנים‪ ,‬הומוגניות גבוהה בתוך הקבוצה (לדאוג לזה מלכתחילה למשל שכולם באותה‬
‫רמת אינטליגנציה או רמת התפתחות‪ ,‬וכן גם על ידי הקצאה רנדומלית ככה שאם יש הבדלים הם יהיו בשתי‬
‫הקבוצות לא ירוכזו הקבוצה אחת)‪.‬‬
‫עוצמה מושפעת גם מהשונות וגם מהאפקט‪ .‬ככל שההתערבות יותר דרמטית (קריאה של חודש ולא של ‪10‬‬
‫דקות!) אז יש אפקט גדול יותר‪ ,‬כלומר יש סיכוי גבוה יותר למצוא הבדל‪.‬‬
‫בשקופית יש ‪ 4‬מצבים‪ .‬כאשר מצליחים לצמצם את השונות בתוך הקבוצה‪ ,‬שזה המעבר מ‪ a‬ל‪ ,b‬אז צמצמנו את‬
‫השונות ואז הגדלנו גם את הרגישות וגם את עוצמת המחקר‪ .‬פספסתי פה משהו על מעריכים שונים‪ .‬ואז ממילא‬
‫גם העלתי את העוצמה‪ .‬יש יותר סיכוי שאמצא הבדלים‪( .‬אם אני רוצה לשפר את העוצמה והרגישות אני צריכה‬
‫לצמצם את השונות)‪.‬‬
‫דרך נוספת לחזק את העוצמה זה לפנות לאפקט‪ .‬כלומר אם אני חושבת שיש השפעה להתערבות מסוימת אני‬
‫אפעיל אותה במידה יותר חזקה‪ .‬למשל בתרופות‪ ,‬אני יכולה לקחת מינון נמוך אבל אם אני חושבת שיש לזה‬
‫אפקט אז אני אקח מינון גבוה ואז הציפיה היא שיהיה אפקט יותר גדול‪ .‬יהיה לי סיכוי גבוה יותר לזהות הבדלים‪.‬‬
‫זה המעבר בין ‪ b‬ל‪ .d‬הרחקתי ממוצעים והגדלים עוצמה‪ .‬זוהי אותה שונות רק הרחקת ממוצעים לאור התערבות‬
‫יותר דרמטית‪.‬‬
‫‪ c‬פשוט מראה שבכל מצב‪ ,‬גם אם השונות גדולה או קטנה‪ ,‬אני יכולה לעבור בין התערבות חלשה וחזקה שתגרום‬
‫לפער יותר גדול בין המצבים‪.‬‬
‫אז אם רוצים לגלות הבדלים בין קבוצות אנחנו רוצים לצמצם הבדלים שלא קשורים למערך המחקר (‪-‬צמצום‬
‫השונות) או להגדיל את ההתערבות (‪ -‬חיזוק העוצמה)‪ .‬במערך תוך נבדקי אנחנו מצמצמים הבדלים בין אישיים‬
‫ואז אנחנו רגישים יותר להבדלים של ההתערבות כלומר הרגישות שלי עלתה וממילא העוצמה עלתה ולכן מערך‬
‫תוך נבדקי מחזק את העוצמה‪.‬‬
‫כאמור זה מחזק את התוקף הסטטי‪ .‬דברנו שבוע שעבר על טעות ביתא – פספוס אפקט קיים‪ ,‬ייתכן שלא מצאתי‬
‫את האפקט כי המדידה לא היתה מספיק רגישה‪ ,‬ולכן אם אנחנו מעלים רגישות אנחנו מצמצים את טעות ביתא!‬
‫יכולת הסקה טובה על סיבתיות (סולומון)‬
‫סולומון אומר שאם יש אפשרות לעשות תוך נבדקי ובין נבדקי‪ ,‬אז למה שלא נעשה את שניהם? – זהו מערך‬
‫מעורב‪ .‬הוא הציע את מערך המחקר האידאלי מבחינת הסקה על סיבתיות – וכך צריך לכלול ‪ 4‬תנאים‪:‬‬
‫‪ - R‬זה סימון של המילה רנדומלי‪ ,‬כלומר המשתתפים בקבוצה הגיעו בצורה מקרית‪ .‬זהו סיווג רנדומלי שמחלק‬
‫בצורה שווה הבדלים מוקדמים‪.‬‬
‫‪ - O‬מייצג את המילה מדידה‪ O .‬מופיע פעמיים כי הוא מסמן שמדדתי פעמיים‪ .‬למשל לפני ואחרי התערבות‪.‬‬
‫‪ – X‬זהו סימון של ההתערבות‪ ,‬של מניפולציה‪.‬‬
‫במצגת רואים איך נראות ‪ 4‬הקבוצות במחקר‪.‬‬
‫קבוצה ראשונה ושניה עוברות מדידה‬

‫מוקדמת של הביצוע שלהם בהבנת הזולת‬
‫וגם מדידה מאוחרת של הבנת הזולת‪.‬‬
‫ההבדל ביניהן הוא האיקס‪ ,‬האם עברו או‬
‫לא עברו התערבות‪ .‬ההבחנה הזאת עוזרת‬
‫לנו להבין אם להתערבות היה אפקט‪ .‬חוץ‬
‫מההתערבות כל יתר המאפיינים היו זהים‪.‬‬
‫אם היתה השפעה נראה את זה ב‪2O‬‬
‫לעומת ‪.4O‬‬
‫אבל סלומון אומר שזה לא מספיק וצריך גם‬

‫את קבוצות ‪ 3‬ו‪.4‬‬
‫אין בהן מדידה מוקדמת כי יכול להיות‬
‫שהיא יוצרת השפעה‪ ,‬לכן היה צריך עוד‬
‫שתי קבוצות שבהן לא היתה מדידה‬
‫מוקדמת ואז להשוות ביניהן‪.‬‬
‫בקבוצה ‪ 3‬יש התערבות וב‪ 4‬אין‪.‬‬
‫אם נשווה את קבוצות ‪ 3‬ו‪ 1‬זה יראה האם עצם המדידה המוקדמת עשתה השפעה‪ :‬השוואה בין ‪ 2O‬ו‪ 5O-‬מראה‬
‫את השפעת המדידה הקודמת‪ .‬אם רואים את אותו ערך אז זה מראה שהמדידה המוקדמת לא השפיעה‪ ,‬אבל אם‬
‫היה להם ערך שונה זה מראה שהמדידה המוקדמת כן השפיעה‪  .‬זהו הערך של הוספת קבוצה ‪ 3‬וכנ"ל לגבי ‪:4‬‬
‫אנחנו רוצים לדעת מה הערך ללא התערבות מוקדמת וללא מניפולציה כלל – אולי היתה פה בשילה טבעית או‬
‫החלמה טבעית מבלי לעשות כלום‪ .‬נשווה את ‪ 4‬לקבוצה ‪ 3‬ונראה אם ההתערבות עזרה בלי המדידה המוקדמת‪.‬‬
‫אפשר לומר שגם קבוצות ‪ 2,4‬הם קבוצות ביקורת‪ 2 .‬מבקרת את השפעה של ההתערבות‪ 4 ,‬מבקרת את ההשפעה‬
‫של ההתערבות הממוקדת וגם של המדידה המוקדמת‪ .‬קבוצת הניסוי היא כאילו קבוצה ‪.1‬‬
‫ברגע שיש לנו את ארבע הקבוצות האלה היכולת שלנו לדעת מה השפיע על מה היא דיי גבוהה כי כל איום או‬
‫סכנה לטעות נבדק פה‪ ,‬לכן הצורה של סלומון היא הצורה הכי אידאלית לעשות מחקר‪ .‬החיסרון – נוספו עוד‬
‫קבוצות‪ ,‬זה דורש זמן ומשאבים‪ ,‬אבל אם חשוב להבין משהו אז זאת הדרך הנכונה כדי להסיק על סיבתיות‪.‬‬
‫‪23.04.2020‬‬
‫חזרה על מה שדברנו עד עכשיו‪:‬‬
‫(אימפקט פקטור מעל ‪ 1‬בתחומי חינוך נחשב טוב)‪.‬‬
‫מחקר שנעשה בהרווארד‪ ,‬פורסם ממש לאחרונה‪ ,‬בנוגע‬

‫למשבר שעסקנו בו על הממצאים במחקר העלה שרק‬
‫אחוז אחד מתוכניות התערבות שמיושמות בחינוך‬
‫מבוסס על תוכניות שנבדקו במחקר עם לפחות קבוצת‬
‫ביקורת אחת‪ .‬זה לא המחקר האידאלי של סלומון עם‬
‫ארבע קבוצות‪ ,‬אלא מדובר פה על לפחות אחת‪ .‬בנוסף לא‬
‫היתה הקצאה רנדומלית של המשתתפים‪ .‬במילים‬
‫אחרות‪ ,‬רק אחוז אחד מהתכוניות האלה מבוססות על‬
‫מחקר‪ randomize, control, trial = RCT .‬כלומר‬
‫הקצרה מקרית לקבוצות השונות (החוקר מקצה‬
‫רנדומלית ולא הבנאדם בוחר) ‪.‬‬
‫מחקר עדכני יותר על כמות גדולה של התערבויות בחינוך‪ ,‬בדק האם האפקט שלהן חוזר על עצמו בתנאי מעבדה‬
‫אידאליים‪ ,‬רק ‪ 42%‬מהן עבדו שוב בפעם השניה‪.‬‬
‫לאחר מכן עשו סקירה נוספת על ‪ 90‬התערבויות ובדקו מה קורה כשהתוכנית מיושמת בשטח – עם מורה אחר‪,‬‬
‫תלמידים אחרים‪ ,‬אזור אחר בארץ‪ ,‬שעה אחרת וכדומה‪ ,‬וראו שזה צונח ל‪ 12%‬כלומר רק התערבות אחת מתוך‬
‫‪  .10‬כלומר יש לנו קושי אמיתי לדעת איזה מההתערבויות שלנו עובדות‪ .‬יש עליה הדרגתית בראיות שמראות‬
‫שמדדי התוצאה בשיפור של התלמידים ‪ -‬בפועל הם לא מראים תוצאה כשחוזרים עליהם‪.‬‬
‫אז יש לנו פה שאלה אמיתית‪ ,‬כשאנחנו קוראים במחקר על התערבות שעובדת זה בכלל לא בטוח שהיא תעבוד‬
‫כשמישהו אחר מיישם אותה‪ ,‬או בפועל בכיתה‪ ,‬עם נסיבות של הכיתה‪ ,‬מדינה‪ ,‬וכו'‪...‬‬
‫לכן החוקר הזה אומר קודם כל לבדוק את האמינות של המחקר שאנחנו מתבוננים עליו לפני שמיישמים אותו‪.‬‬
‫קודם להיות בטוחים שהמידע שיש לנו על ההתערבויות הוא אמין ואמיתי‪ .‬צריך להיות יותר ערניים באיזה הקשר‬
‫ההתערבות עובדת‪ ,‬על מה היא משפיעה שאמור להוביל לתוצאה הרצויה‪ .‬כל המידע המתסכל הזה שעלה פה יכול‬
‫לעזור לנו לגשת בצורה שיטתית ולהסיר את המחסומים שהיו ביישום התוכניות הללו‪.‬‬
‫חזרה על סוגי התקפים שלמדנו – הגדרה שלהם פה‬

‫בשקף‪:‬‬
‫המערך של סלומון מציע את ארבעת הקבוצות‬

‫שנותנות מענה לכל קושי שהצגנו‪.‬‬
‫הערה מסכמת ‪ :1‬אין מחקר מושלם‪ .‬תמיד השמיכה תהיה קצרה‪ .‬תמיד יש מגבלה כלשהי לכסות את כל‬
‫הדברים שיכולים להשתבש‪ ,‬לדוגמה‪:‬‬
‫יצירת תנאי מעבדה להצלחת ההתערבות – זה המצב האידאלי כי יש מקסימום שליטה על נטרול הפרעות‬ ‫•‬
‫חיצוניות‪ ,‬זוהי בדיקה של יישום התוכנית בצורה מדויקת – זה מגדיל את הסיכוי שנמצא אפקט‪( .‬מחזק‬
‫ת‪ .‬סטטי ופנימי) (זה גם מה שראינו עם המחקר בהרווארד‪ ,‬שכשחוזרים על מחקר בתנאי מעבדה הוא‬
‫אכן עובד ב‪ 40%‬מהמקרים)‪ .‬המחיר של הסטריליות הזאת זה שבמציאות המחקר פחות רלוונטי (פוגע‬
‫בת‪ .‬החיצוני)‪  .‬אי אפשר לתפוס את שתי הנקודות‪ ,‬בוחרים מה יותר חשוב בשלב של המחקר‪ ,‬האם‬
‫אתה בהתחלה ורוצה לבדוק שזה עובד‪ ,‬או שכבר הגעת לזה ואתה רוצה לבחון את המצב בשטח‪ ,‬אז אתה‬
‫מלכלך את תנאי המעבדה אבל מקבל אפקט מציאותי יותר‪ .‬זהו פער מובנה ביכולת לתפוס את השליטה‬
‫וגם את הרלוונטיות למציאות‪.‬‬
‫סלומון הציע לעשות מדידה מוקדמת (וגם קבוצה אחת בלי מדידה מוקדמת) כי המדידה הזאת מאפשרת‬ ‫•‬
‫לזהות הבדלים מאד קטנים ועדינים‪ ,‬בגלל שהאדם נבדק ביחס לעצמו (זה ת‪ .‬סטטיסטי)‪ ,‬אבל זה יוצר‬
‫סוג של התערבות‪ ,‬כי כשאדם יודע שהוא נמדד זה כבר משפיע עליו‪ ,‬וככה זה לא משקף את המצב הטבעי‬
‫(פוגע בת‪ .‬פנימי וחיצוני)‪ .‬עצם המדידה מכניסה התערבות ואז אני לא יודעת מה השפיע‪ ,‬אני לא אוכל‬
‫לומר שההתערבות עובדת תמיד‪ ,‬אולי נגיד רק שכשאדם יודע שמודדים אותו זה עובד‪ .‬כלומר יש פה‬
‫פגיעה בתוקף פנימי וחיצוני‪ .‬שוב רואים את הפער המובנה‪ ,‬אני רוצה להגדיל את רגישות המחקר אבל‬
‫יש לזה מחיר‪ .‬הפתרון של סלומון זה הוספת עוד קבוצות‪.‬‬
‫השמה רנדומלית (ולא שהאדם בוחר) מחזקת את התוקף הפנימי אבל זה גם מייצר שתי קבוצות עם‬ ‫•‬
‫אנשים שונים במאפיינים שלהם וזה מכניס שונות גדולה ולכן גם מחליש את הרגישות להבדלים (פוגע‬
‫בת‪ .‬סטטיסטי)‪.‬‬
‫אז מה עושים?‬
‫הפתרון הוא לשאול את עצמנו באיזה שלב של בניית הידע אנחנו נמצאים‪ .‬שלב ראשוני של ביסוס התערבות‬
‫מסוימת שהיא אכן עובדת – צריך לתעדף את מאפייני המחקר שמגדירים את התוקף הפנימי‪ ,‬את היכולת לדעת‬
‫מה הסיבה לתוצאה שראינו ‪ -‬שנצליח לשחזר אותה‪ ,‬שהיא לא מקרית מתוך סיבה שרירותית‪ .‬שלב מאוחר יותר‬
‫כשרוצים להבין את התערבות ‪ -‬אחרי שכבר ראינו בשטח שהיא עובדת‪ ,‬אנחנו רוצים לדעת מה המרכיב הגרעיני‬
‫שההתערבות משפיעה ומקדמת אותו‪ ,‬אנחנו עכשיו שואלים את עצמנו מה קורה כאן מבחינה תיאורטית‪ ,‬אז‬
‫נתעדף את מה שמחזק תוקף מבנה‪ .‬בנוסך‪ ,‬נתעדך את מערכי המחקר שמחזקים תוקף חיצוני כלומר התאמת‬
‫המחקר להקשרים שונים‪.‬‬
‫יש מאמר שיצא לפני עשור שטען שכל הגילויים הכי חשובים במדע היו אצל אנשים שסובלניים לעמימות‪ .‬כי‬
‫מתחילים מחקר ויש הרבה קשיים‪ ,‬אנחנו בודקים משהו שלא ברור איך זה עובד ולכן ברור שניתקל במצבים שמה‬
‫שנרצה לא יעבוד בצורה חלקה‪ ,‬התגובה הראשונה היא אומנם התסכול אבל התגובה הבאה צריכה להיות סבלנות‬
‫ולבדוק מה פה לא עבד‪ .‬רק ככה מתקדמים‪.‬‬
‫הערכה מסכמת ‪ :2‬יש שאלות שאנחנו שצריכים לשאול את עצמנו כשרואים מחקר‪ ,‬והתשובות עליהן יגידו לנו‬
‫אם ההתערבות טובה או לא (מתוך האגודה למחקרי מניעה)‪:‬‬
‫א‪ .‬האם ההתערבות על מרכיביה השונים אכן אפקטיבית? איך עושים את זה – רואים שנעשו מחקרים עם‬
‫קבוצת ביקורת בהשמה רנדולמית‪ .‬אם זה לא נעשה לא נוכל להסיק על ת‪ .‬סטטי ופנימי‪ .‬הראיות חלשות‪.‬‬
‫אבל אם זה נעשה עם לפחות קבוצת ביקורת אחת (סלומון זה האידאל) עם השמה רנדומלית לקבוצות –‬
‫אז כבר אנחנו יודעים שחשבו על ההתערבות הזאת בצורה מסודרת‪ .‬דבר נוסף‪ ,‬צריך שבמחקר יהיו‬
‫מינימום שתי נקודות מדידה‪ ,‬למשל לפני ואחרי או שהתוכנית הצליחה להוכיח שהיא עובדת אחרי שנה‬
‫(אם בדקו את התלמידים אחרי שנה וראו שקבוצת ההתערבות טובה יותר מקבוצת הביקורת)‪ .‬דבר נוסף‪,‬‬
‫לראות שהמדדים של התוצאות באמת משקפים את המדדים שההתערבות מנסה להשפיע עליהם‪ .‬המדד‬
‫שאתה מראה בו השתפרות אמור להיות קשור למרכיב שלך בתוכנית‪.‬‬
‫ב‪ .‬עבור מי ובאילו תנאים ההתערבות אפקטיבית?‬

‫כדי לדעת שההתערבות ברמה גבוהה צריך להיות זיהוי מדויק של מי האנשים שזה ישפיע עליהם ובאיזה‬
‫מצבים‪ .‬מה הפרופיל של התלמיד שמועד לשינוי (זה חשוב מאד כי יש תלמידים שההתערבות יכולה‬
‫דווקא לפגוע בהם)‪ .‬גורם ממתן הוא גורם נוסף שמשפיע אם ההתערבות תהיה יותר אפקטיבית או פחות‪.‬‬
‫ככל שההתערבות יותר ברורה בנוגע לפרופיל של הנתרמים ובמרכיבים הנוספים שמשפיעים על המידה‬
‫של ההשפעה ‪ -‬ככה זאת עבודה יותר טובה‪.‬‬
‫ג‪ .‬מרכיב שהרבה התערבויות נופלות בו‪ :‬האם יש תיאוריה ברורה לגבי הגורם לאפקטיביות של‬
‫ההתערבות?‬
‫(איך אפשר להסביר את הפער בין מדידות שמצליחות במעבדה וצונחות בביצוע שלהם בשטח –)‬
‫צריך לזהות משתנים מתווכים – צריך לזהות מה בדיוק ההתערבות עושה‪ ,‬זה קשור לתוקף מבנה‪,‬‬
‫התערבות טובה היא כזאת שיודעת להגיד מה קרה באמצע‪ ,‬בין ההתערבות ובין התוצאות‪ .‬לדוגמה‬
‫התערבות שעושה הנחיית הורים ואז תוצאה שההתנהגות של הילד השתפרה ‪ -‬מה קרה שם באמצע? אולי‬
‫זה התגובות של ההורים שהן רגועות יותר‪ ,‬אולי זה ההקשבה שלהם‪ ,‬בעצם מה המשתנה המתווך שהוביל‬
‫לתוצאה הרצויה‪.‬‬
‫לפרוט את כל שלבי ההצלה זה חשוב מאד‪ ,‬כי זה מאפשר לתוכנית להיות גמישה בפוטנציאל שלה‬
‫להתאים למקומות נוספים‪.‬‬
‫ד‪ .‬פוטנציאל התאמה והטעמה של ההתערבות‪:‬‬
‫עכשיו כשאני רוצה להמליץ על ההתערבות אני חייבת לציין מה יעזור לה לפעול כראוי באוכלוסייה‬
‫הרחבה‪ ,‬למשל מספר מפגשים שנחוצים‪ ,‬זה משהו שממש משפיע‪ .‬הירידה הזאת לפרטים יכולה להנחות‬
‫אנשים על העיקרון‪ ,‬כלומר זה לא חובה לעשות בדיוק איקס מפגשים‪ ,‬אבל חובה לעשות מספיק מפגשים‬
‫עד שרואים שהמיומנות שרציתי להשפיע עליהם אכן נרכשה‪ .‬זה בעצם התאמה אישית של ארסנל הכלים‬
‫שדרכם עושים את ההתערבות‪ ,‬אבל ההתערבות עצמה היא אותה התערבות‪ .‬נגיד הבנו שחשובה תשומת‬
‫הלב וההקשבה‪ ,‬עכשיו המטפל עצמו יתאים איך לעשות את זה‪ ,‬בשיחה‪ ,‬או במשחק (זה לא חייב להיות‬
‫דווקא מה שאני כחוקר עשיתי‪ ,‬אבל זה על אותו עיקרון)‪...‬זה נותן הרבה גמישות לך ולאחרים להשתמש‬
‫בתוכנית‪.‬‬
‫סוכנים חלופיים הכוונה למי שמעביר את ההתערבות‪ .‬יש תוכנית שבנויות בצורה שנועדה לא לאפשר‬
‫בקלות לאנשים אחרים לעשות את ההתערבות (למשל כי הם רוצים להרוויח כסף מהתוכנית‪ ,‬אין להם‬
‫עניין להסביר לך בדיוק איך תוכל להחליף אותם וליישם את ההתערבות)‪.‬‬
‫‪30.04.2020‬‬
‫שיטות מחקר ויזואליות להבנת מגמה מרכזית לצד הבדלים אינדיבידואליים‬

‫דוגמה ‪ :1‬הצגה ויזואלית בגרף‪.‬‬
‫ציר ‪ – y‬מספר הסיוטים בשבוע שאנשים דווחו‬

‫עליהם‪ ,‬ציר ‪ – x‬לפני ואחרי שאכלו גבינה‪ .‬מצב‬
‫אחד מציג הבדל קטן‪ ,‬מצב שני הבדל גדול‪ .‬אז האם‬
‫אכילת גבינות גורמת לסיוטי לילה? מהגרפים לא‬
‫ברור אם ההבדל מובהק או לא‪ ,‬יש פה משחק עם‬
‫אמות המידה שמשפיע על איך שזה נראה‪ .‬כמובן‬
‫שצריך לקרוא את הנתונים כדי לדעת אם זה‬
‫מובהק או לא‪ ,‬אבל היינו רוצים שגם הצגת‬
‫הנתונים תתמוך בזה‪ .‬דבר כל כך שולי כמו משחק‬
‫עם טווח הערכים משנה את התמונה (זה לא באמת‬
‫שני מחקרים אלא אותו מחקר בשתי צורות הצגה)‪.‬‬
‫כשאנחנו בודקים אם מאמר עומד בסטנדרטים טובים‪ ,‬אחת‬

‫האינדיקציות היא באיזה מידה הגרפים מתקשרים את‬
‫ממצאים בצורה נוחה‪ .‬היינו מצפים שיהיה סימון של‬
‫כוכבים עם מקרא שאומר שזה מובהק ברמת מתבקשת‪ ,‬כמו‬
‫כאן‪.‬‬
‫בתחילה לא תקשרו לנו מה ההבדלים והאם הם מובהקים‪.‬‬

‫זה דורש מאיתנו לרוץ לכתוב ולחפש את זה‪ .‬זה גורם לקורא‬
‫לתהות אם ההבדל הוא קטן או גדול‪.‬‬
‫דבר נוסף‪ ,‬בנוגע לסטיות התקן – חוץ מלדעת על ממוצע הקבוצה כמספר אחד כללי‪ ,‬אנחנו רוצים לדעת עד כמה‬
‫המספר הזה משקף בצורה טובה מה קורה בקבוצה‪ ,‬וזה סטיית התקן‪ .‬כשהפיזור בתוך הקבוצה גדול מאד אז‬
‫נוכל להסיק שהממוצע לא משקף את המצב באמת‪ ,‬לכן כדאי להוסיף מדדי מרכז כמו חציון‪ ,‬שכיח‪ ...‬ככל‬
‫שהשונות בנתונים היא יותר גדולה זה אומר שמדד מרכז שמתייחס לכל הנתונים‪ ,‬כמו ממוצע‪ ,‬הוא מוטה יותר‬
‫(בגלל הפיזור הגדול)‪ .‬במצב כזה כדאי להתייחס לחציון ולא לממוצע עצמו כי הוא מתייחס רק למיקום של‬
‫הערכים‪ .‬נחזור בהמשך להצגת סטיות התקן‪.‬‬
‫דוגמה ‪ :2‬תחום ריפוי בעיסוק‪ ,‬מחקר שבדק שתי קבוצות התערבות‪ ,‬המדד הוא כמה זמן לוקח לאנשים שעברו‬
‫אירוע מוחי לעשות פעולה מסוימת‪.‬‬
‫מצוינות פה שורה של פעולות כמו להרים סל‪ ,‬לקפל מגבת‪ ,‬אלה המדדים התלויים בתחום ריפוי בעיסוק‪ .‬ההנחה‬
‫היא שככל שלוקח לאדם יותר זמן לעשות את הפעולה אז המצב המוטורי שלו ירוד יותר‪ .‬זה המשתנה התלוי‪.‬‬
‫יש התערבות מסורתית שפשוט חוזרים על הפעולה עם הבנאדם שוב ושוב‪ ,‬והחוקרים רוצים לעודד התערבות‬
‫חדשה שבה לא אומרים לאדם איך לעשות את הפעולה אלא שימצא בעצמו דרך לעשות אותה – זוהי ההתערבות‬
‫החדשה‪ .‬זה דומה מאד לשאלות שיעניינו אותנו בהקשר חינוכי ‪ -‬רוצים שאדם ירכוש מיומנות כלשהי בכיתה‪,‬‬
‫והשאלה היא האם להראות לו את הפעולה הזאת או לתת לו לגלות לבד את הדרך שעובדת בשבילו‪ .‬הרעיון ברמה‬
‫התיאורטית הוא שיש הבדלים אישיים ולכל אחד יש דרך משלו‪ .‬ברמה האופרציונלית‪ ,‬ההתערבות נעשית כך‬
‫שאומרים לאדם מה לעשות ושימצא את הדרך‪.‬‬
‫יש פה קבוצת ביקורת וניסוי‪ ,‬ורואים ביחד לכל אחת מהפעולות‪ :‬אדום – לפני התערבות‪ ,‬כחול – אחריה‪.‬‬
‫קבוצת התערבות מסורתית‪:‬‬

‫בהרמת סל‪ ,‬אין הבדל לפני‬
‫ואחרי‪ ,‬בקיפול מגבת יש‪ .‬פה‬
‫יישמו את מה שאמרנו‬
‫בשקף הקודם‪ ,‬העזרת‬
‫כוכביות אומרים לנו איזה‬
‫הבדל הוא מובהק‪ ,‬ואז‬
‫אנחנו כבר יכולים לראות‬
‫שבקבוצת הביקורת יש ‪3‬‬
‫תחומים עם הבדל מובהק‪,‬‬
‫אבל בהתערבות החדשה יש‬
‫סדרה של כוכביות מובהקות‬
‫בהרבה תחומים‪.‬‬
‫מה שיפה בהצגה הזאת‬

‫שהציגו כמה מדדים‪ ,‬על פני‬
‫מגוון תפקודים שדורשים‬
‫שרירים שונים‪ ,‬ומצליחים‬
‫להראות לנו על ידי כמות המטלות שהשתפרו בצורה מבוהקת שיש יתרון להתערבות החדשה‪ .‬במובן הזה זה‬
‫תקשור טוב של ההבדלים המובהקים‪.‬‬
‫לפי מה שאנחנו עכשיו רואים‪ ,‬כדאי או לא כדאי לעשות את ההתערבות החדשה? – לפי הגרפים נראה שכן‪ .‬אבל‬
‫עדיין יש הבדל בקנה מידה‪ ,‬בהתערבותה ישנה הזמנים נעים בין ‪ ,0-18‬בקבוצת הניסוי הזמנים נעים בין ‪!0-12‬‬
‫למה? אם זה היה על גרף אחד אחיד זה היה נראה ככה‪:‬‬
‫הטריק הוויזואלי של למתוח את זה כאילו זה‬

‫שווה באורך‪ ,‬ומנפח את התוצאות‪ ,‬מסתיר‬
‫מאיתנו משהו אחר – מה היה התפקוד‬
‫מלכתחילה של האנשים לפני ההתערבות‬
‫(באדום)‪ .‬אם מסתכלים רק על זה רואים שמי‬
‫שהשתתף בהתערבות החדשה‪ ,‬בקנה מידה‬
‫אחיד בזמן‪ ,‬רואים שהעמודות הכחולות‬
‫נמוכות יותר בהתערבות החדשה מאשר‬
‫בקבוצת הביקורת‪ ,‬כלומר מי שהלך להשתתף‬
‫בקבוצת הניסוי היה כאלה שהתפקוד שלהם‬
‫היה מהיר יותר‪ ,‬ואז לא פלא שהם מגיבים‬
‫טוב יותר להתערבות (זה היה נכון לגבי כל‬
‫התערבות‪ ,‬מי שמלכתחילה טוב יותר מגיב טוב‬
‫יותר)‪ .‬ולהיפך‪ ,‬מי שהפגיעה המוטורית שלו קשה יותר מגיב פחות טוב‪ ,‬ואלה האנשים שהגיעו לקבוצת‬
‫ההתערבות המסורתית‪ .‬בעצם ההצגה הגרפית הזאת שהחוקרים בחרו בה‪ ,‬מטשטשת את זה שהיו הבדלים‬
‫מוקדמים בין הקבוצות‪ .‬עצם הצגת הנתונים בצורה כזאת‪ ,‬שמראה כאילו מלכתחילה העמודות היו דומות‪ ,‬זה‬
‫הטיה מסוימת בנוגע להבדלים המוקדמים‪ .‬היו צריכים להראות שאין הבדל מלכתחילה‪ .‬מי שעשה שיפוט על‬
‫המאמר לא דאג לזה‪..‬‬
‫מה שאמור היה לפתור את זה זוהי הקצאה רנדומלית ואז הדברים מתאזנים‪ .‬אם היו מעט מדי משתתפים אז‬
‫מאד קל לטעות ולייחס אפקט להתערבות כשבפועל זה אפקט שקשור להבדלים המוקדמים בין אנשים‪.‬‬
‫‪ ‬צריכה להיות צורת דיווח אחידה‪ ,‬וגם כשקוראים תוצאות של מחקרים אחרים יש לבחון את הסקאלות‬
‫(לשאול את עצמנו האם זוהי טעות אנוש או הסתרה של אחד ההבדלים)‪ .‬בכל אופן‪ ,‬בהצגה אנחנו רואים בעזרת‬
‫הכוכביות שמי שעשה התערבות חדשה היו לו מגוון תפקודים שהשתפרו‪ .‬כאן זה לא שהדיווח הסטטי הוא‬
‫מוטעה‪ ,‬כי באמת היו יותר מטלות עם שיפור מובהק‪ ,‬אבל הפרשנות של הממצא יכולה להיות קשורה לזה‬
‫שההתערבות עבדה‪ ,‬או שהיא לא עבדה אלא שמצאו הבדל במקרה (טעות אלפא)‪.‬‬
‫דוגמה ‪ :3‬גידול כלכלי בארצות הברית בשנות ה‪ 80-‬וה‪.90-‬‬

‫בשנות ה‪ 80‬היתה צמיחה גדולה של המשק ב‪ ,3%‬על פניו לא‬
‫קרה משהו דרמטי בשנים האלה‪.‬‬
‫נתמקד בטווח שבתוך כל עשור‪:‬‬
‫בתוך שנות ה‪ 80‬הממוצע הזה אומר מעט‬

‫מאד‪ ,‬כי היו שינויים קיצוניים‪ ,‬היה הכל חוץ‬
‫מיציבות של ‪ .3.1%‬כלומר הממוצע אומר‬
‫בגדול מה היה אבל בלי מדד כלשהו של פיזור‪,‬‬
‫של שונות (סטיית תקן)‪ ,‬אז אפשר לטעות‬
‫ולחשוב שלא קרה שום דבר שונה מהעשור‬
‫הבא‪.‬‬
‫בשנות ה‪ 90‬היתה עליה אבל עם פחות תנודות‪,‬‬

‫אז בממוצע הגידול היה דומה‪ ,‬אבל‬
‫ההתנהלות בשנות ה‪ 90‬היתה יציבה יותר‪.‬‬
‫‪ ‬כאשר מציגים גרף כלשהו‪ ,‬צריך לחפש מדד שנותן אינדיקציה האם הממוצע מייצג טוב את מה שקרה שם‬
‫או לא‪ .‬בהקשר הזה נכנס רווח בר סמך‪ ,‬סטיית תקן וטעות תקן‪ .‬יש מגוון מדדים שמנסים לאמוד עד כמה‬
‫הממוצע מייצג טוב את הנתונים שמרכיבים אותו‪.‬‬
‫דוגמה ‪ :4‬מדד של מספר התנהגויות ומחשבות שמטרידות את האדם‪ 3 ,‬קבוצות‪ :‬טיפול התנהגותי‪ ,‬קוגניטיבי‪-‬‬
‫התנהגותי‪ ,‬ללא טיפול‪.‬‬
‫עמודה שחורה‪ -‬ממוצע המחשבות‬

‫המטרידות‪ .‬אפורה – מספר ההתנהגויות‬
‫שמטרידות את האדם‪.‬‬
‫רואים גם את הממוצע וגם אנטנה‬

‫שמציגה את הפיזור סביב הממוצע‪.‬‬
‫הגרף בצד שמאל זוהי הצגה טובה של‬

‫הנתונים‪ ,‬בצד ימין הצגה לא טובה של‬
‫אותם הנתונים‪ :‬ההצגה השמאלית נקיה‬
‫יותר‪ ,‬הימנית אולי מיוחדת יותר אבל‬
‫היא ממש מכניסה הרבה רעש‪ .‬התלת‬
‫ממדיות מבלבלת כי מה שממוקם קרוב‬
‫נתפס גדול יותר‪ ,‬לכן זה שימוש לא טוב להצגה של גרפים‪.‬‬
‫(בעיקרון הז'ורנלים עצמם צריכים לעשות ביקורת ולבדוק שהמאמרים מדווחים כמו שצריך‪ ,‬לא מכניסים רעש‪.)..‬‬
‫‪ ‬לתקשר בצורה נקיה ואחידה את מה שחשוב‪ .‬יש להימנע מאסוציאציות לא קשורות‪.‬‬
‫האנטנה זה הממוצע של העמודה‪ ,‬מצפים שב‪ 95%‬מהמקרים הממוצע יהיה ‪ ,15‬ואם הממוצע חורג מהאנטנות זה‬
‫אומר שיש משהו שונה שהוא לא הטיפול הרגיל‪...‬‬
‫(למקד הכוונה מובהק או לא‪ .‬גם אם זה נראה הבדל צריך להדגיש)‪.‬‬
‫ז'ורנל ברמה גבוהה יותר או שפונה לקהל יותר רחב – אז ינסו לעשות עבודה טובה יותר בתקשור של הממצאים‪.‬‬
‫עד כאן דרכים טובות ולא טובות לדווח על מאמרים‪.‬‬
‫דרכים ויזואליות להצגת נתונים‪:‬‬
‫היסטוגרמה‪ :‬גרף עמודות לתיאור משתנה רציף (אפשר למדוד כמה אנשים נמצאים בכל נקודה על הרצף)‪.‬‬
‫ישנן צורות שונות של התפלגויות‪ ,‬לדוגמה פה‪ ,‬ציר ‪ - x‬מדובר על ציונים של ‪ .0-100‬ציר ‪ - y‬צפיפות או שכיחות‬
‫המקרים‪.‬‬
‫אז ההתפלגות העליונה משקפת מרכז ברור‪ ,‬יש ציון ממוצע‪ ,‬דומה להתפלגות אחידה‪ ,‬השכיחות לקבל את‬
‫המקרים עם הציון הנמוך היא אותה שכיחות כמו לקבל את החלק הגבוה או האמצעי‪ .‬כלומר השכיחות היא‬
‫דומה בכל הערכים השונים‪ .‬רואים את זה גם בקווים למטה שהם פזורים לאורך ציר האיקס‪ .‬בעצם הרבה אנשים‬
‫קבלו ציון בכל אחד מהציונים‪ ....‬ולכן חישוב הציון הממוצע בהתפלגות כזאת יגיד מעט מאד כי השונות היא‬
‫גדולה!‬
‫הגרף האמצעי‪ ,‬השכיח יותר‪:‬‬
‫התפלגות כאילו נורמלית‪ ,‬מה‬
‫שאנחנו רואים זה את הציונים‬
‫השונים בציר איקס והשכיחות‬
‫שלהם‪ ,‬ציר וואי אחוז המקרים‪.‬‬
‫סביב המרכז היו הכי הרבה מקרים‪,‬‬
‫ובחלקים הגבוהים והנמוכים פחות‪.‬‬
‫הקווים למטה מראים את הערכים‬
‫בפועל‪ .‬הרבה תופעות בטבע נראות‬
‫ככה‪.‬‬
‫חישוב הממוצע והחציון פה אומר‬

‫הרבה על מה שקורה בקבוצה‬
‫הזאת‪ ,‬יותר מאשר בגרף העליון‪.‬‬
‫הגרף התחתון‪ :‬אפקט רצפה‪ ,‬כלומר‬

‫כל הערכים נמצאים ברצפה‪ .‬מונח‬
‫דומה אבל הפוך זה אפקט תקרה‪ .‬המשמעות של זה היא שצורת המדידה שלי לא מספיק היתה טובה‪ ,‬היא לא‬
‫רגישה למדדים שונים‪ .‬עשיתי מבחן כל כך קשה שהוא לא הצליח להבדלים בין התלמידים‪ ,‬כי כולם קבלו‬
‫בסביבות ה‪( .0‬או המאה באפקט תקרה)‪( .‬כל מבחן שעובר באוני' מצפים לקבל התפלגות נורמלית)‪.‬‬
‫‪ ‬לסיכום‪ ,‬ההסטוגרמה מראה לנו את ערכי המשתנה שאני מודד בציר איקס (ביצוע במבחן) וציר וואי שכיחות‬
‫הערכים‪.‬‬
‫בעזרתה מבינים את המגמה המרכזית‪ ,‬יכולים לראות אם יש בעיה במבחן (כמו אפקט תקרה ורצפה)‪ ,‬או בכלל‬
‫אם אין מגמה מרכזית כי השונות כל כך גדולה‪..‬‬
‫כאשר אנחנו מראים התפלגות חשוב לנו גם לדעת את השונות האינדיבידואלית סביב המאפיין המרכזי‪.‬‬
‫צורת ההתפלגות‪ ,‬בנוסף למגמה המרכזית ולשונות‪ ,‬מראה לנו גם מדדים של הטיה וגבנון‪ .‬הטיה – מתייחסת‬
‫לזנבות ‪ -‬באיזה מידה הזנבות הם סימטריים‪ ,‬האם הם שיקוף אחד של השני (כמה ערכים חריגים יש)‪ .‬בהתפלגות‬
‫נורמלית אין הטיה (גם בהתפלגות אחידה)‪ .‬גבנוניות – הדבשת של ההתפלגות‪ ,‬כמה היא רחבה‪ ,‬כמה פחוסה‪,‬‬
‫לעומת הזנבות‪ .‬את כל זה מבינים מההסטוגרמה‪ ,‬והעיקר זה המגמה המרכזית וגם השונות האינדיבידואלית‬
‫(מדדי פיזור) ‪.‬‬
‫(זה לא משנה אם הממוצע הוא ‪ 50‬או ‪ ,95‬חובה להיות התפלגות נורמלית סביב הממוצע‪ .‬זה המטרה של מבחן‪,‬‬
‫למצוא הבדלים בין תלמידים כדי שנוכל לתת מענה בהתאם)‪.‬‬
‫מה השימוש שיש למגמה מרכזית ולפיזור סביבה? (למדדי מרכז ופיזור)‬
‫מגמה מרכזית = ניבוי‪ .‬אם אני יודעת מה הממוצע וישאלו אותי כמה תלמיד קיבל בערך‪ ,‬אז אני אגיד את‬
‫הממוצע‪ .‬החשיבות הגדולה של מדדי המרכז היא להבין את המגמה המרכזית כי זה עוזר לי לעשות ניבוי על‬
‫התופעה הנחקרת‪ .‬אבל זה רק ניבוי‪ ,‬והשאלה הבאה היא מה הוודאות של הניבוי הזה?? ‪ -‬זה משהו שתלוי בפיזור‬
‫סביב הממוצע‪ ,‬מתייחס אל המדדי הפיזור‪.‬‬
‫רואים את זה בשתי ההתפלגויות פה‪ ,‬בשתיהן אותו‬
‫ממוצע‪ ,‬רק שאחת עם גבנון נמוך וזנבות מאסיביים‬
‫והשניה להיפך‪.‬‬
‫השימוש בממוצע בצד שמאל הוא פחות טוב כי יש‬

‫יותר שונות‪ .‬יש הרבה מקרים ששונים מהממוצע‪.‬‬
‫לעומת זאת בהתפלגות הימנית יש מעט מקרים‬
‫מעל ומתחת לממוצע‪ ,‬ולכן הוא פוגע יותר‪.‬‬
‫‪ ‬אם אני צריכה לעשות ניבוי כמה קיבל תלמדי בכיתה – אני אגיד את ציון הממוצע‪ .‬אבל אם ישאלו אותי עד‬
‫כמה אני בטוחה בניבוי ‪ -‬אז כשיש פיזור קטן יותר השימוש בממוצע הוא יותר מוצלח‪ .‬הוא יותר אומר מה שקורה‬
‫באמת בכיתה‪ ,‬לעומת זאת במצב שיש שונות גבוהה‪ ,‬זה אומר שהממוצע פחות מייצג‪ .‬זה אומר שאם ננסה לתאר‬
‫מה קורה בכיתה באמצעות הממוצע‪ ,‬זה לא יגיד הרבה‪ .‬השלכה של זה‪ :‬אם אנחנו רוצים לעשות התערבות בכיתה‬
‫בתחום מסוים‪ ,‬ומדדנו את התפקוד הזה ורואים שיש שונות גבוהה מאד אז אנחנו צריכים לעשות התערבויות‬
‫שמותאמות פרטנית למי שגבוה\נמוך בתפקוד‪ .‬מצד שני‪ ,‬אם אנחנו רואים שהשונות קטנה אז אנחנו יכולים‬
‫להתאים מערך אחד לכל האנשים‪.‬‬
‫(איך מגדירים שונות קטנה\גדולה כך שיהיה אפשר\אי אפשר להסתמך על הממוצע? – זה תלוי בתחום שעוסקים‬
‫בו‪ ,‬או שאם אני לא יודעת את זה אז להשוות לשונות שיש בקבוצה אחרת)‪.‬‬
‫‪07.05.2020‬‬
‫כיצד אפשר להשתמש בשיטות הצגה ויזואליות וסטטיסטיות כדי להבין יותר טוב את הנתונים‪ ,‬למשל אם‬
‫התערבות בכיתה עובדת?‬
‫כאן לדוגמה היסטוגרמה עם תוצאות מבחן מסוים‪ ,‬הציונים‬

‫בין ‪ ,20-90‬שכיחות הנתונים בטבלה למעלה‪.‬‬
‫אמרנו שכשהפיזור יותר רחב יש יותר הבדלים בין המשתתפים‬

‫ואם אנחנו מתכננים התערבות צריך לקחת בחשבון את‬
‫השונות הרבה (‪ SD‬בטבלה)‪.‬‬
‫עוד דרך להצגת הנתונים‪:‬‬
‫בוקספלוט‪:‬‬
‫בכל תוכנה סטטיסטית יש אפשרות לייצר גרף כזה‪.‬‬
‫הנקודות אלה התצפיות‪ ,‬אלה הנתונים עצמם של המשתתפים‬

‫(כדאי לעשות את זה כי זה סוג של בקרה על הזנת הנתונים‬
‫שלנו‪ ,‬רואים שאין משהו חריג‪ .)...‬מה שמעניין אותנו זה‬
‫הבוקספלוט‪ ,‬כלומר הקופסה הירוקה הזאת‪ .‬החלק המרכזי‬
‫מייצג מדד של מידת הפיזור (‪ .)SD‬יש מדד נוסף של פיזור‬
‫(שמשקף את כל הנתונים שהיו בהיסטוגרמה) ומציין מהן‬
‫הנקודות שמחלקות את הנתונים ל‪ 4‬נקודות שוות‪ :‬הקופסה‬
‫עצמה היא הטווח הבין‪-‬רבעוני‪ ,‬עד תחתית הקופסה יש ‪25%‬‬
‫מהמשתתפים – אלה קיבלו ציון בין ‪ 20‬ל‪ ,40‬עד הקו החוצה (= החציון) יש עוד ‪ 25%‬מהמשתתפים‪ ,‬ממנו ועד‬
‫הקצה העליון של הקופסה עוד ‪ ,25%‬ועד קצה הגרף עוד ‪ .25%‬בעצם הקופסה אומרת לנו איפה נמצאים ‪50%‬‬
‫מרכזיים‪ .‬לפי גודל הקופסה‪ :‬קטנה – פיזור קטן‪ ,‬גדולה – פיזור גדול‪ .‬זה נוח‪ ,‬כאן אפשר לראות פיזור נורמלי‪.‬‬
‫הבוקספלוט לא כולל ערכים חריגים‪ ,‬אם למשל מישהו קיבל ‪ 0‬הוא לא יתכנס בין שתי האנטנות‪ ,‬הן מראות את‬
‫הטווח של כל הציונים למעט אנשים שקיבלו ציון מאד חריג‪ .‬איך קובעים מה חריג? ברירת המחדל של‬
‫הבוקספלוט זה לבדוק מה הגודל של הקופסה‪ ,‬ומי שמעל פעם וחצי של הגודל הזה בשני הקצוות לא נכנס‪ ,‬ככה‬
‫קובעים את גבולות האנטנה‪ .‬זה עוזר למקד את הנתונים‪.‬‬
‫עוד אופציה היא להציג את הנתונים בחתך של שתי‬

‫הקבוצות‪ ,‬נגיד אם חלק מהמשתתפים היו בקבוצה‬
‫שעשיתי התערבות וחצי ללא התערבות‪ ,‬זה נראה ככה‪:‬‬
‫מאד נוח לראות ויזואלית שיש איזשהו אפקט‪ ,‬הפיזור‬

‫סביב החציון שונה‪.‬‬
‫כדי לדעת אם ההבדל הוא משמעותי או לא‪ ,‬נעשה מבחן של‬

‫השוואה בין קבוצות‪ ,‬כאן המבחן המתאים הוא מבחן ‪.t‬‬
‫המבחן פה אומר שיש ערך מובהק‪ ,‬כלומר שההבדל בין‬
‫ממוצעי שתי הקבוצות הוא לא הבדל מקרי‪ ,‬כנראה הוא נובע‬
‫מההתערבות‪ .‬לפי הרמת מובהקות נוכל לומר בביטחון של‬
‫‪ 99%‬שההתערבות עובדת‪.‬‬
‫(הערה‪ :‬הבוקספלוט לא מתייחס לממוצע אם זה לא‬

‫התפלגות נורמלית‪ ,‬אפשר לבקש בהגדרות שיציג את זה)‪.‬‬
‫מדד סטטיסטי נוסף קשור לגודל האפקט‪ .‬בעצם יש שתי שאלות נפרדות שמעניין אותנו לדעת כחוקרים‪ ,‬על מנת‬
‫להבין את ההבדלים שיש בין הקבוצות‪:‬‬
‫‪ .1‬האם בכלל יש לנו הבדל או שכל ההבדל שאנחנו רואים התקבל במקרה? ככל שהמובהקות יותר נמוכה‬
‫זה אומר שיש יותר סיכוי שאם תחזור על זה תגיע לאותם נתונים‪( .‬מובהקות של ‪ 0.01‬או ‪)0.05‬‬
‫‪ .2‬עד כמה ההבדל הזה הוא משמעותי? (האם ההתערבות הביאה לשיפור קטן או גדול?) זה המשמעות של‬
‫גודל האפקט‪ .‬זה קשור לתוקף חיצוני ששואל עד כמה ההתערבות שעשינו אפשר ללמוד ממנה על העולם‬
‫החיצוני‪ ,‬גודל האפקט נותן נתון סטטיסטי שאומר עד כמה זה מסביר הבדלים בעולם האמיתי‪.‬‬
‫‪ ‬מובהקות = מה הסיכוי שנקבל הבדל פעם נוספת‪ .‬גודל אפקט = עד כמה ההבדל הזה הוא משמעותי‪ ,‬עד‬
‫כמה ההתערבות מוצלחת‪.‬‬
‫במבחני טי המדד הפופולרי שנראה בהשוואה לשתי‬

‫קבוצות הוא ‪ cohen's d‬שלוקח את המרחק בין שני‬
‫הממוצעים של ההתפלגויות ונותן מספר‪ .‬איך נדע אם‬
‫המספר גדול או קטן? אז יש פה קישור לאתר שלוקח את‬
‫גודל האפקט שיוצא ואומר בצורה פשוטה ואינטואיטיבית‬
‫אם זה מוצלח או לא‪ d .‬זה הדי של מדד ‪ ,cohen‬ולכל ערך‬
‫שהוא נותן הוא אומר מה הפרשנות שלו‪ .‬למשל גודל אפקט‬
‫שנע בין ‪ 0‬ל‪ – 0.1‬זה לא נחשב אפקט‪ .‬בין ‪ 0.2-0.4‬זה אפקט‬
‫קטן‪ .‬מ‪ 0.6‬זה בינוני‪ ,‬מעל ‪ 0.8‬זה אפקט שנחשב גדול‪.‬‬
‫לפי הנתונים אנחנו רואים שגודל האפקט בדוגמה‬

‫הנוכחית‪ ,‬שהוא כמעט ‪ ,1.5‬הוא אפקט מאד גדול‪ .‬אפשר‬
‫לתרגם את זה גם לאחוזים של שיפור‪.‬‬
‫כל מחקר שעושה מטא‪-‬אנליזה מנסה לבדוק את האפקט‬

‫הגדול לאורך הרבה מאד מחקרים‪ ,‬מחקר כזה מחפש בעצם רק גודל אפקט (ומספר משתתפים)‪ ,‬ולכן זה מדד מאד‬
‫חשוב כי הוא נותן לנו הבנה אינטואיטיבית של הנתונים שלנו‪.‬‬
‫דבר חשוב נוסף שיש לבחון כאשר משווים בין שתי קבוצות הוא מבחן לוין – בודק הנחה של שוויון בין השונויות‪,‬‬
‫כלומר לכל אחת מקבוצות המחקר יש את ה‪ SD‬שלה והשאלה היא עד כמה ההבדל הזה בין הקבוצות הוא‬
‫משמעותי‪ .‬בדוגמה פה יש הבדל של ‪ 3‬נקודות ב‪ SD‬ורואים את זה גם בטווח של האנטנות‪ .‬מבחן לוין משווה את‬
‫המרחק בין האנטנות ואומר עד כמה זה זניח או חשוב‪.‬‬
‫תוצאה מבוהקת במבחן לוין אומרת שההבדל בין השונויות‬
‫בקבוצה הוא משמעותי‪ .‬כאשר אין מובהקות במבחן לוין זה‬
‫אומר שההבדלים לא משמעותיים‪.‬‬
‫תכלס אנחנו רוצים שמבחן לוין לא יצא מובהק‪ ,‬כלומר שלא תהיה הפרה של השוויון‪ .‬לא מעניין אם יש פיזור‬
‫גדול או קטן בתוך הקבוצות אלא שהוא יהיה דומה‪.‬‬
‫מזה משנה אם יש הומוגניות בין השונויות או לא? אם השונות בשתי הקבוצות היא לא זהה יש משהו נוסף‬
‫שהשפיע על הציונים‪ .‬יש פה בעצם משתנים מתערבים‪ .‬לוין אומר טענה עקרונית‪ :‬אם הפיזור לא זהה בין‬
‫הקבוצות אז יש משהו נוסף שהשפיע על אחת הקבוצות‪ ,‬חוץ מזה שעשיתי התערבות‪ ,‬וגרם לה להיות לא רק‬
‫בממוצע שונה אלא בפיזור שונה‪ .‬פיזור שונה אומר תיזהר מלעשות טענה פשוטה כמו – ההתערבות עובדת או לא‬
‫עובדת כי כנראה יש משהו נוסף שהשפיע כפי שמעיד הפיזור השונה‪ .‬לוין מזמין אותנו להבין יותר טוב מה קורה‬
‫בנתונים שלנו‪ .‬נראה עוד כמה דוגמאות כדי להמחיש את זה‪:‬‬
‫יש פה נתונים של ארבע קבוצות‪ 4 ,‬תוצאות של מבחנים‪:‬‬
‫מבחן ‪ :1‬החציון שונה בין‬

‫הקבוצות אבל הפיזור דומה‬
‫פחות או יותר (ליון לא‬
‫מובהק)‪.‬‬
‫מבחן ‪ :2‬החציון של שתי‬

‫הקבוצות הוא דומה והיינו‬
‫מצפים שלא יהיה הבדל‬
‫מובהק‪ .‬ויזואלית ההבדל לא‬
‫נראה מובהק‪ ,‬וגם אם נסתכל‬
‫על הנתונים הסטטיסטים‬
‫רואים שההבדל לא מובהק‪.‬‬
‫נבדוק את ההומוגניות‪ ,‬אין‬
‫הפרה של השונויות בשני‬
‫המבחנים הראשונים (לוין לא‬
‫מובהק)‪ .‬אבל במבחן הראשון טי‬
‫טסט אומר שזה מובהק ובשני‬
‫לא‪.‬‬
‫מבחן ‪( :3‬רואים שנתון ‪ 8‬הוא חריג‪ ,‬הוא מצוין מחוץ לאנטנות ולכן כדאי‬
‫לבדוק אותו)‬
‫ההבדל בממוצע נראה בעין שמובהק‪ ,‬ומסתכלים על הנתונים של מבחן ‪t‬‬

‫בטבלה ורואים שכן‪ ,‬זה מובהק‪ .‬מדד ‪ cohen's d‬מובהק וזה אומר שיש‬
‫הבדל בינוני‪-‬גבוה בין השונויות‪ .‬מה שמעניין עכשיו זה בנוגע להומוגניות‬
‫של השונויות – מבחן לוין‪ ,‬שמראה תוצאה מובהקת אבל הסיכוי כל כך‬
‫קטן שכנראה שההתערבות עובדת‪ ,‬כי כנראה שהיה הבדל אחר מהשונויות‬
‫(כלומר יש הבדל קטן בין השונויות אבל הוא לא יכול לסביר את התוצאות‬
‫בפני עצמו‪ ,‬ככה שנראה שזה השפעת ההתערבות)‪.‬‬
‫לוין בעצם מציע לנו לחשוב על הנתונים בצורה יותר עמוקה‪ .‬אם יש הפרה של שוויון שונויות‪ ,‬לוין אומר לנו שלא‬
‫נכון לעשות הכללה פשטנית‪ ,‬רק האם התערבות עובדת או לא‪ ,‬אם אתם רוצים להבין יותר טוב את הנתונים צריך‬
‫להבין שיש פה משהו לא טריוויאלי – יש לנו שונות בין הנתונים והטענה הכללית שלנו שיש הבדל מובהק‬
‫(‪,‬התערבות עובדת") זה מסקנה פשטנית‪ ,‬כי אומנם בממוצע או בחציון בסך הכל מי שהיה בניסוי תפקד יותר טוב‪,‬‬
‫אבל זה לא נכון לכולם‪ ,‬יש אנשים שזה הוריד אותם‪ ,‬שאפילו תפקדו פחות טוב‪ .‬במילים אחרות‪ ,‬נכון שההבדל‬
‫בין הממוצעים הוא מובהק‪ ,‬אבל עצם ההפרה של מבחן לוין‪ ,‬של השונויות‪ ,‬מלמדת שיש דבר נוסף שמשפיע‬
‫מעבר להתערבות (כנראה שונות בין האנשים או מי שהעביר את ההתערבות או משהו אחר –היה פה משהו נוסף)‪.‬‬
‫[‪ Df‬זה דרגות חופש‪ ,‬זה נותן עוגן למספר המשתתפים (צריך להוסיף ‪ 2‬במבחן טי וזה אומר שהיה ‪ 44‬משתתפים‪.‬‬
‫‪ - T‬לוקח את ההבדל בין הממוצעים ואומר כמה זה משמעותי במושגים של ציוני תקן (‪ 2 .)Z‬ומעלה זה מובהק‪.‬‬
‫‪ - P‬זה מובהקות‪ - Cohen's d .‬גודל אפקט]‬
‫‪ ‬מבחן לוין בדוגמה פה בעצם אומר שכדאי לנו לחקור יותר טוב את הנתונים ולהבין עבור מי ההתערבות שלנו‬
‫עובדת‪.‬‬
‫מבחן ‪ :4‬לפי הבוקספלוט אפשר להניח שלא יהיה הבדל מובהק בממוצעים‪ ,‬נבדוק בנתונים – וזה באמת מעיד על‬
‫הבדל לא מובהק (‪ ,)0.3 = p‬אבל אם נסתכל על מבחן לוין אנחנו מבינים שההומוגניות לא שווה בצורה מובהקת‬
‫לחלוטין‪ ,‬יש הפרה מובהקת של השווין (באנטנות)‪ .‬בגלל שמדד לוין אומר את זה – אם היינו עושים רק את מבחן‬
‫‪ t‬היינו מגיעים למסקנה שההתערבות לא עובדת‪ ,‬שזה בזבוז זמן וכסף וסוגרים את הסיפור‪ .‬אבל אם מעמיקים‬
‫לכיוונים סטטיסטיים נוספים כמו בעזרת מבחן לוין אנחנו מבינים שסה"כ ההתערבות לא עבדה‪ ,‬אבל זה בגלל‬
‫השונות בין האנשים! ואז המסקנה תהיה‪ :‬כהכללה פשטנית ההתערבות לא עובדת‪ ,‬אבל אם אני מסתכל לעומק‬
‫על הנתונים והפרת ההומוגניות זה אומר לי לעשות בדיקה נוספת על מי זה כן עובד ועל מי לא‪( .‬לוין מזהיר לא‬
‫לעשות הכללה פשטנית של עובד לא עובד)‪.‬‬
‫מסקנות מהשיעור‪:‬‬
‫‪ .1‬הבנה שכדאי ללמוד יותר לעומק את הנתונים שיש לנו‪ ,‬איך? קודם כל להסתכל על המובהקות ועל גודל‬
‫אפקט (עד כמה זה מתרגם להיות משהו משמעותי?)‪ ,‬אפקט גדול ‪ -‬זאת ההתערבות שכדאי להתחיל‬
‫איתה‪ .‬זה קריטי בעולם של משאבים מוגבלים‪ .‬גודל אפקט עוזר לנו לעשות מדרג של ההתערבויות ואז‬
‫לבחור אחת מתוך בחירה מושכלת‪.‬‬
‫‪ .2‬לא לחשוב רק על השפעות פשטניות‪ ,‬אלא יש השפעות חשובות נוספות כמו הפרת ההומוגניות‪ ,‬שזה אומר‬
‫שגורם נוסף השפיע על הנתונים וממלא המסקנה הפשטנית לא מספיקה וצריך להעמיק מתי ואיך ולמי‬
‫זה עובד או לא‪.‬‬
‫‪14.05.2020‬‬
‫נדבר על מצב אחר של השוואה בין שתי קבוצות‪ :‬כאשר מדובר באותם האנשים‪ ,‬למשל כשבודקים אותם לפני‬
‫ואחרי התערבות‪ ,‬או כשאותו אדם נבדק בשני סוגים של מבחנים‪ ,‬למשל כישורים קוגניטיביים וכישורים‬
‫חברתיים – ורואים אם יש הבדל בין התפקוד שלו בשני ההיבטים‪ .‬כל זה נכנס לקטגוריה של מדידה חוזרת‪.‬‬
‫נדבר גם על רווח בר סמך (‪ .)CI‬ועל המשמעות של אינטראקציה בהקשר הזה‪.‬‬
‫טעות הדגימה‪:‬‬
‫בעניין המובהקות‪ ,‬חשוב לדייק את המושג טעות הדגימה‪:‬‬
‫מה גורם לחוסר מובהקות? ‪ -‬חוסר מובהקות הוא כאשר הבדל בין שני ממוצעים הוא מקרי‪ .‬כיצד זה ייתכן?‬
‫טעות הדגימה – כאשר אני עושה דגימה של אנשים מתוך כלל המשתתפים‪ ,‬אני בעצם לוקח רק חלק מהאנשים‬
‫ולא את כולם‪ ,‬ובגלל שלקחתי רק חלק אז יכול להיות פער בין קבוצת הדגימה והקבוצה הכללית‪ .‬הדוג' המוכרת‬
‫היא סקרים של דעת קהל לפני הבחירות‪ ,‬לא תמיד דעת הקהל משקפת את התוצאות האמיתיות של האוכלוסייה‪.‬‬
‫טעות הדגימה אומרת שהמסקנה לא בטוח מייצגת את המציאות בצורה טובה‪ ,‬כי התבססנו רק על חלק‬
‫מהאוכלוסייה‪.‬‬
‫תזכורת‪ :‬אוכלוסייה = כלל האנשים שמעניין אותי לדעת לגביהם (אוכ' לא חייב להיות מלא אנשים‪ ,‬זה פשוט‬
‫אלה שמעניין אותי להסיק עליהם מסקנות‪ ,‬ומתוכם לוקחים מדגם)‪ ,‬מדגם – מי שהשתתף במחקר שלי‪ .‬מה‬
‫שבפועל מעניין אותנו זה האוכלוסייה‪.‬‬
‫בדוגמה פה על ציוני אינטליגנציה מעניין אותי‬

‫להבין משהו על כלל האוכ' שהיא ‪ 5‬אנשים‪,‬‬
‫אבל המדגם שלי הוא ‪ 3‬אנשים (‪ 60%‬מהאוכ')‪.‬‬
‫האם ה‪ 3‬אנשים הם מדגם טוב? מה מינימום‬

‫האנשים שצריך לקחת כדי לקבל מדגם טוב?‬
‫איזה ממוצעים אני צריכה לקחת? (כמובן‬
‫חובה שהדגימה תהיה מקרית‪ ,‬כדי לא להטות‬
‫את התוצאות)‪.‬‬
‫בטבלה למטה יש סימולציה שמראה מה יקרה‬

‫אם אני כל פעם אקח ‪ 3‬אנשים אחרים מתוך‬
‫האוכ' פה‪ .‬רואים שטווח הממוצע של המדגם‬
‫הוא גדול מאד‪ ,‬נע בין ‪ 92‬ל‪( !104‬התוכנה מחשבת את הטווח שבו יפלו ‪ 95%‬מהממוצעים) ופה זה אוכ' קטנטנה‪,‬‬
‫הפער הזה משמעותי הרבה יותר כשהאוכ' היא גדולה‪ .‬זה מדגים את המשמעות של טעות הדגימה – ככל שיש‬
‫כמות קטנה של אנשים שמייצגים את הקבוצה‪ ,‬הממוצע שיצא למדגם הקטן שונה מהממוצע של הקבוצה כולה‬
‫(רואים פה למשל כשלקחתי ‪ 3‬אנשים מסוימים הממוצע שלהם היה ‪ ,92‬והממוצע בפועל של האוכ' זה ‪ .102‬זה‬
‫פער משמעותי‪ .‬אם נבסס את המסקנה על ‪ 3‬אנשים‪ ,‬אנו עלולים להגיע למסקנה שהם פחות או יותר חכמים‬
‫מהממוצע של כלל הקבוצה)‪.‬‬
‫‪ ‬הציונים שאני עלולה לקבל על המדגמים הקטנים נותנים לי טווח מסוים (נגיד פה ‪ )92-104‬ולטווח הזה אנחנו‬
‫קוראים טווח ביטחון‪ ,‬רווח בר סמך‪ .‬ואז כל דגימה שניקח נופלת בתוך הטווח הזה‪ ,‬ומשקפת שונות סביב‬
‫הממוצע‪ .‬אם יוצאת תוצאה בתוך הטווח הזה‪ ,‬יהיה אפשר להשליך ממנה על קבוצה אחרת באוכ'‪.‬‬
‫בכל מחקר יש טעות דגימה כי כמעט ולא ניתן לעשות מחקר על האוכ' כולה‪ ,‬לכן תמיד יצאו לי תוצאות‬
‫גבוהות\נמוכות יותר מהאוכ' עצמה‪.‬‬
‫במילים אחרות‪ ,‬יכולים להיות הבדלים בין ממוצעים שהם מקריים‪ ,‬פשוט נובעים מהעובדה שלקחתי מדגם‪ ,‬וזה‬
‫נקרא טעות הדגימה‪ ,‬ואז למרות שנראה הבדל בין שתי קבוצות (למשל אחת שעברה התערבות ואחת שלא) הוא‬
‫בעצם נובע מזה שלקחתי אנשים שונים למחקר שלי ולא בגלל ההתערבות‪ .‬לדוגמה אם אנשים שעברו התערבות‬
‫קבלו ממוצע ‪ ,104‬ומי שלא עבר התערבות הממוצע היה ‪ ,100‬שזה אמנם הבדל של ‪ 4‬נקודות אבל יכול להיות שזה‬
‫לא מובהק‪ ,‬כי גם מתוך אלה שלא עברו התערבות היו כאלה שהיו יכולים לקבל בין ‪ ...92-104‬טעות הדגימה‬
‫אומרת שזה לא מובהק‪ ,‬סתם נפלת על אנשים כאלה במדגם שלך‪ .‬אלה הבדלים מקריים שנובעים מטעות‬
‫הדגימה‪ .‬וזה בדיוק הערך של ‪ P‬שמשמעותו מה הסיכוי שההבדל שמצאנו בין הקבוצות נובע מטעות הדגימה‪.‬‬
‫כאשר ‪ 0.14=P‬זה אומר שיש ‪ 14%‬שכל ההבדלים שמצאנו נבעו מטעות הדגימה‪ 0.9=P ,‬זה אומר שכל ההבדלים‬
‫שמצאנו נובעים מטעות הדגימה‪ 0.1=P ,‬זה אומר שיש רק סיכוי של אחוז אחד שניתן לייחס את ההבדלים האלה‬
‫לטעות הדגימה‪ ,‬לזה שסתם בדקתי אנשים שונים‪ .‬זוהי רמת המובהקות!‬
‫במדעי החברה‪ :‬אם הסיכוי של ההבדלים שמצאתי נמוך מחמישה אחוז‪ ,‬כנראה שזה לא טעות הדגימה‪ ,‬כנראה‬
‫שהחוקר עשה משהו שבאמת גרם להבדלים‪ ,‬אבל כל עוד ‪ P>0.05‬זה אומר שיש סיכוי גדול שההבדלים שמצאני‬
‫הם כי דגמתי אנשים שונים‪ ,‬ואפילו אם לא הייתי מסתכלת על קבוצת ההתערבות אלא על קבוצתה ביקורת הייתי‬
‫רואה שיש הבדלים‪.‬‬
‫נראה את זה ויזואלית‪:‬‬
‫רואים את הבוקספלוט של הציונים‪ ,‬הממוצעים נעו בין ‪ 92‬ל‪:104‬‬
‫כאמור טווח האנטנות הוא של כל הערכים‪ ,‬והקופסה מייצגת את הרבעונים‪.‬‬
‫יש דרך אחרת שבודקת ומחשבת את כל הממוצעים שניתן להוציא מהאוכ'‪,‬‬

‫ומראה את הממוצע של כל הממוצעים האלה ואת הטווח של כל הממוצעים‪,‬‬
‫זה נקרא רווח בר סמך‪ :‬זוהי צורה שדי דומה לבוקספלוט‪ ,‬ובמקום שהחציון‬
‫יהיה בקו האמצע נמצא שם הממוצע כלומר הממוצע של כל הממוצעים‬
‫הקטנים‪ ,‬והאנטנות של הרווח בר סמך זה הטווח של כל הממוצעים הקטנים‪.‬‬
‫הממוצע של כל הממוצעים של המדגמים שהיה ניתן לבדוק זהה לממוצע של‬

‫כל האוכ'‪ .‬למשל בדוגמה שראינו לקחתי את כל הממוצעים שיצאו לי בטבלת‬
‫הדמיה הזאת‪ ,‬עשיתי להם ממוצע אחד וקבלתי את הממוצע של כל האוכ' =‬
‫‪ .102.6‬מה שרואים פה זה הממוצע של חמשת האנשים‪ ,‬והאנטנות זה הטווח‬
‫שבו נמצאים כל הממוצעים של המדגמים הקטנים של שלושה אנשים‪ .‬זה‬
‫מראה בעצם את הטווח של טעות הדגימה בתוך הקבוצה הזאת‬
‫ניקח דוגמה ממחקר שראינו לפני שני שיעורים‪ ,‬מחקר שבו אנשים התבקשו לומר עד כמה מתעוררות בהם‬
‫תחושות של חמלה ודאגה כאשר הם‬
‫שומעים שמישהו אובחן בקורונה‪ .‬ציר ‪y‬‬
‫זה הממוצע של רגש דאגה ורואים את‬
‫הממוצע אצל גברים ונשים‪ .‬התשובות‬
‫היו בין ‪ .0-6‬ממוצע הגברים היה ‪4‬‬
‫וממוצע הנשים היה מעט גבוה יותר‪.‬‬
‫בראש העמודות בשמאל זה עמודות‬

‫הטעות‪ ,‬מה שמייצג את הרווח בר סמך‪.‬‬
‫(גם כתוב למטה בקטן‪ .)95% ,‬זה אומר‬
‫שאם נסתכל למשל על קבוצת הנשים‪ ,‬שהיו בה ‪ 1000‬נשים‪ ,‬כל פעם אנחנו כאילו לוקחים מדגם אחר מהקבוצה‬
‫ומחשבים את הממוצע שלו‪ ,‬בחלק מהמדגמים הממוצע קטן ובחלק גדול כך שהממוצעים האפשריים נעים בטווח‬
‫מסוים והממוצע שלו דומה לשל האוכ' (כמו שראינו בדוגמה של ציוני אינט')‪ .‬האנטנות פה על העמודות מציגות‬
‫את השונות בממוצעים אם היינו פונים רק לחלק מהמדגם‪ .‬הרווח בר סמך הוא הטווח האפשרי של מדגמים‬
‫קטנים בתוך הקבוצה‪.‬‬
‫זה מדגם של ‪ 1000‬איש כאן‪ ,‬וכלל שיש יותר אנשים הרווח בר סמך נמוך (אבל זה גם תלוי ברווח שאנחנו שמים על‬
‫ציר הווי כמו שראינו באחד השיעורים קודם)‪.‬‬
‫הסימן הקטן הזה בעצם אומר שאם נפנה ל‪ 1000‬נשים אחרות יצא לנו עמודה מעט שונה‪.‬‬
‫השרטוט מימין בעצם אומר שלא צריך את כל העמודות‪ ,‬מספיק שיביאו לי רק את הטווחים עצמם‪ .‬הנקודה‬
‫באמצע זה הממוצע של כל הממוצעים וסביב הנקודות של הממוצעים זה הטווח של הרווח בר סמך‪.‬‬
‫בגלל זה צריך כמות מסוימת של אנשים‪ ,‬כי ככל שמשתתפים יותר אנשים אז ההשפעה של ערך חריג‬
‫מצטמצמת‪ .‬הרווח בר סמך מצטמצם ככל שהמדגם יותר גדול‪.‬‬
‫למה אנחנו מסתכלים על התצוגה הזאת ולמה היא שימושית? – בעצם זה עוזר לנו לראות בעין האם יש הבדלים‬
‫שהם מובהקים‪ .‬סורקים את הגרף ובלי לקרוא את המאמר יודעים אם זה מובהק‪ .‬כאשר ממוצע של קבוצה אחת‬
‫לא נופל בתוך הרווח בר סמך של קבוצה שניה‪ ,‬וגם להיפך ‪ -‬הממוצע של הקבוצה השניה לא נופל ברווח בר סמך‬
‫של הקבוצה האחרת אז זה מובהק בוודאות‪ ,‬כי הרווח בר סמך מתייחס לטווח שבו יפלו ‪ 95%‬מהמדגמים‬
‫החלקיים שמתייחסים לקבוצה הזאת‪ ,‬ואם יש לנו ממוצע של קבוצה אחרת והוא לא נופל בטווח הזה של‬
‫המדגמים בין אנשים זה מצביע על כך שכאשר עושים מבחן סטטי ההבדל הוא מובהק‪ .‬לכן הסתכלות כזאת היא‬
‫מאד נוחה‪.‬‬
‫בינתיים הבנו שיש את הרעיון של המובהקות שאומר מה הסיכוי שהבדלים בין שתי קבוצות נובעים כולם מזה‬
‫שלקחתי אנשים שונים‪ ,‬שזה נקרא טעות הדגימה ‪ -‬עצם פעולת הדגימה של אנשים ספציפיים ולא אחרים‪.‬‬
‫הערך של ‪ P‬אומר לנו את הסיכוי שההבדלים האלה נובעים מטעות הדגימה ובאיזה סיכוי‪ .‬אם ההבדל הזה גדול‬
‫מ‪ 5%‬זה מצב שבו התוצאה שלי לא מובהקת‪ .‬לבדוק אם לא פספסתי‬
‫אתר שמראה איך אפשר לדעת‪/http://statcheck.io ...‬‬
‫האתר נקרא בדיקת סטטיסטיקה‪ .‬אפשר להעלות אליו קבצים‪ ,‬והאתר ישר‬
‫לוקח את כל הדיווחים של ‪ R F t‬ואומר‪ :‬זה מה שדווח בפועל במאמר‪ ,‬וזה‬
‫מה שהיה אמור להיות מדווח כשמחשבים את הערכים האלה ביחס לנתונים‬
‫חשובים נוספים‪...‬ובעצם רואים אם מה שהחוקרים דיווחו הוא עקבי עם‬
‫מה שהיו אמורים לדווח‪ .‬זה טוב כדי לראות כשאנחנו כותבים מאמר שלא דיווחנו על משהו טעות‪ ,‬אפילו טעות‬
‫הקלדה‪...‬‬
‫מדידת הבדלים בין אנשים‪:‬‬

‫אפשרות אחת היא לקחת את כל המשתתפים שנבדקו פעמיים (לפני ואחרי ההתערבות‪ ,‬או ביחס לשני מדדים‬
‫שונים)‪ .‬זה מתאים לנו למבחן ‪ t‬למדגמים תלויים‪.‬‬
‫הדוגמה שאנחנו רואים מתייחסת לשאלה עד כמה אנשים נבהלים כאשר הם רואים מרבה רגליים‪( ,‬אין פה‬
‫התערבות אלא נטו כמה אנשים נבהלים)‪ .‬אמרנו שבמדידה חוזרת אנחנו חוזרים אל האנשים האלה ובודקים‬
‫אותם במספר נקודות של זמן או ביחס לכמה פרמטרים‪ .‬בניסוי הזה בדקו אותם ביחס לכמה החרק הזה הוא‬
‫מבהיל והנתונים שמופיעים פה מתייחסים לשני משתנים‪ :‬כמה זה מגעיל‪ ,‬כמה זה מבהיל‪ .‬כל אדם ראה ‪ 4‬תמונות‬
‫של חרקים שונים ונשאל אותה שאלה – כמה בא לך להרוג את החרק הזה‪ .‬בעצם יש פה שני אופציות‪ :‬מגעיל\לא‬
‫מגעיל‪ ,‬מבהיל\לא מבהיל‪ ,‬ולכל אחת היו שתי רמות – גבוה\נמוך‪ ,‬וככה יוצאים ‪ 4‬תנאים‪ :‬מסוכן ומגעיל‪ ,‬מסוכן‬
‫ולא מגעיל‪ ,‬לא מסוכן ומגעיל‪ ,‬לא מסוכן ולא מגעיל‪.‬‬
‫בתמונה רואים שני מצבים של חרק מגעיל אבל‬

‫בשמאל הוא נמוך במבהיל ובימין הוא גבוה‬
‫במבהיל‪ .‬אותו תלמיד דירג את שתי התמונות‬
‫ועושים מבחן ‪ t‬להבדלים בין שני המצבים‬
‫האלה‪.‬‬
‫הניתוחים האלה הם רק של חרק שנראה‬

‫מגעיל‪ .‬רק שפעם אחת הוא נמוך במבהיל ופעם‬
‫שניה גבוה במבהיל‪.‬‬
‫המבחן הוציא לנו ‪ P‬לא מובהק של ‪ 0.16‬כלומר‬

‫יש סיכוי של ‪ 16%‬שההבדלים האלה בין‬
‫הממוצעים הם מקריים (כלומר רצו להרוג אותו‬
‫בין אם הוא מגעיל או לא)‪.‬‬
‫אנחנו רואים באנטנות שהממוצע של קבוצה‬

‫אחת נופל בתוך האנטנות של הקבוצה השניה‪,‬‬
‫וגם הממוצע השני נופל באנטנה של הקבוצה‬
‫השניה‪ .‬ולכן גם ויזואלית אנחנו רואים את מה‬
‫שמראה לנו המבחן ‪ t‬בצורה סטטית ‪ -‬שאין‬
‫הבדל מובהק‪ ,‬כלומר שההבדלים האלה יכולים לנבוע פשוט מזה שדגמתי אנשים מסוימים – טעות הדגימה‪.‬‬
‫‪21.05.2020‬‬
‫עד כה הסתכלנו על אבחנה בין שני מצבים‪ .‬היתה לנו הנחה שיש הבדל בין שתי קבוצות מסיבה מסוימת‬
‫(התערבות‪ ,‬הבדלים אישיים‪ .)..‬העניין הוא שבחיים עצמם יש יותר מגורם אחד שמשפיע על התוצאות שאנחנו‬
‫רואים‪.‬‬
‫להשלים‪ .‬רוב המחקרים שנעסוק בהם ננסה לראות גורמים נוספים שעשויים להיות רלוונטיים‪ ,‬ואז לראות למי‬
‫מהם יש יותר 'כוח' להשפיע על התוצאות‪ .‬אמנם אנחנו אוהבים לעשות הכללות פשוטות אבל בחיים זה לא כך‪...‬‬
‫ביטא – המדד של גודל אפקט‪ .‬הוא קשור למדד ‪ cohen‬במבחני ‪t‬‬
‫והוא אומר כמה מוצלח המשתנה הזה בהבדלים בנתונים שלנו‪ .‬אם‬
‫זה מסביר לנו סביב ה‪ 5%‬הוא מוצלח במידה נמוכה‪ – 10% ,‬בינונית‪,‬‬
‫‪ – 20%‬מעולה‪ .‬פה במקרה הוא מסביר ‪ 2‬אחוז וזה קטן‪ .‬אפשר לראות‬
‫את זה גם בטבלה של גודל המדד כהן‪.‬‬
‫היתרון של ‪ F‬שהוא מאפשר לנו להתייחס לגורמים שונים‪.‬‬

‫נסתכל על טבלת התיאור‪ .‬כל המשתתפים השתתפו ב‪ 4‬תנאים‪:‬‬
‫עכביש מגעיל במידה גבוהה\נמוכה‪ ,‬ארסי מסוכן במידה‬

‫גבוהה\נמוכה‪.‬‬
‫ואז הוא נשאל אם הוא היה רוצה לדרך על החרק‪.‬‬
‫ניתן לחקור את המידה של כל משתנה וגם את ההשפעה‬

‫המשולבת שלהם‪ ,‬זה בעצם ‪ 3‬אפקטים‪ :‬מה ההשפעה של כמה‬
‫הוא מגעיל (נמוך\גבוה)‪ ,‬מה ההשפעה של כמה הוא מבהיל‬
‫(נמוך\גבוה)‪ ,‬אינטראקציה – האם המגעילות של העכביש‬
‫משפיעה על המידה שאני רוצה להרוג אותו‪ ,‬כתלות בכמה הוא מבהיל או לא מבהיל אותי‪.‬‬
‫בניתוח רואים שהעוינות היתה הכי גבוהה‬

‫כאשר המקק היה גם מגעיל וגם מבהיל‪,‬‬
‫הכי נמוכה כאשר מעט מגיל‪ ,‬מעט מבהיל‪.‬‬
‫שאר המצבים היו איפשהו באמצע‪ ,‬קרוב‬
‫לגבוה‪.‬‬
‫בניתוח אנובה רואים ‪ 3‬שורות לבנות‪ ,‬כל‬

‫אחת מתייחסת לאחד האפקטים‪ ,‬בכל אחד‬
‫מהם יש את התוצאה של מבחן ‪ F‬אבל מה‬
‫שמעניין אותנו זה שתי העמודות משמאל –‬
‫האם זה מובהק‪ ,‬ומה גודל האפקט‪ .‬אנחנו‬
‫רואים שבמשתנה של כמה זה מגעיל (האם‬
‫עורר עוינות אצל התלמידים) – ה‪ p‬יצא מובהק‪ ,‬כלומר שזה משפיע‪ .‬זהו מדד רלוונטי‪ .‬בנוגע למשתנה המבהילות‬
‫– כנ"ל‪ .‬השילוב של שניהם – כנ"ל‪  .‬יש לנו ‪ 3‬אפקטים שמעצבים את ההבדלים בכמה הילדים הרגישו עוינות‬
‫ביחס לחרק‪.‬‬
‫נראה את ויזואלית‪:‬‬
‫הנקודה כאמור מייצגת ממוצע‪ ,‬האנטנות את הרווח בר סמך (‪ -‬הטווח שבו אנחנו צופים שיצאו הממוצעים של‬
‫‪ 95%‬של אותן דגימות קטנות מתוך הקבוצה הגדולה‪ ,‬לכן כשממוצע של קבוצה אחת הוא מחוץ לטווח של קבוצה‬
‫אחרת אז נגיד שהוא לא אחד מאותן דגימות קטנות אפשריות ולכן כנראה שהוא שונה מהותית מהקבוצה‬
‫השניה)‪ .‬לא במקרה יצא כך‪.‬‬
‫ציר איקס – מגעיל‪ .‬הצבעים – מבהיל‪ .‬ציר וי – עוינות‪.‬‬
‫אנחנו רואים את שני המצבים של מבהיל מאד ושני המצבים‬

‫של מבהיל מעט‪ .‬אם אנחנו רוצים לדעת את האפקט של מידת‬
‫המבהילות אנחנו צריכים להשוות את הקו השחור מול הקו‬
‫הלבן‪ .‬ובשביל להשוות ביניהם בוחרים את הנקודה באמצע‬
‫של כל אחד מהם‪ .‬ההבדל הזה נתן לנו את האפקט העיקרי של‬
‫המבהילות (הגודל שלו לפי הטבלה היה גבוה – ‪ ,0.2‬כלומר‬
‫‪ 20%‬מההבדלים במידת העוינות כלפי המקק קשורים לכמה‬
‫הוא היה מבהיל‪ .‬כאשר הוא היה מבהיל במידה נמוכה – זה‬
‫עורר פחות עוינות ולהיפך)‪ .‬אפשר לבקש גם מהתוכנה שתראה‬
‫לנו את הנקודה הממוצעת של שני המצבים‪ .‬ואז יוצאת לנו‬
‫טבלה רק של אחד המשתנים‪.‬‬
‫בנוגע למדד המגעילות‪ :‬אנחנו יודעים שזה מובהק‪ ,‬גודל אפקט גבוה‪.‬‬
‫בגרף אנחנו מתעלמים מכמה זה מבהיל‪ ,‬אנחנו משווים את המרחק בין‬
‫הנקודות בכל אחד מהעמודות בתנאים – גבוה\נמוך‪ .‬הממוצע של כל שתי‬
‫נקודה בעמודה יצא איפשהו באמצע‪ ,‬ומראה שכשהחרק מגעיל יש יותר‬
‫עוינות כלפיו‪( .‬ומופיע בטבלה העליונה בצילום מסך הקודם)‪.‬‬
‫בנוגע לאינטראקציה‪ :‬המבהיל לא תמיד משפיע – במצב שזה מגעיל אותי‬

‫גם ככה אני עוינת גם בלי קשר לכמה הוא מבהיל‪ .‬ואותו דבר כאשר‬
‫נסתכל רק על המגעילות‪ ,‬זה לא משנה כמה זה מגעיל גבוה\נמוך כשזה‬
‫מבהיל אותי‪( ..‬כשהוא מגעיל במידה גבוהה אין משמעות לכמה הוא‬
‫מבהיל‪ ,‬כשהוא מגעיל במידה נמוכה יש משמעות לכמה הוא מבהיל‪).‬‬
‫נראה את הגודל אפקט – אנחנו כבר יודעים לומר כמה משתנה מסוים הוא חשוב או לא לפי גודל האפקט שלו‪.‬‬
‫(אם היינו מסתכלים רק על המובהקות היינו אומרים שכולם חשובים‪ ,‬אבל לא יודעים מה יותר או פחות‪ ,‬עכשיו‬
‫אנחנו יודעים שמגעיל ומפחיד חשובים באותה מידה)‪ .‬גודל האפקט אינטראקציה הוא חצי מהגודל אפקט של‬
‫מגעיל ומפחידות‪ .‬אמנם בגרף זה נראה יותר אבל בניתוח הסטטי זה מסביר רק ‪( 10%‬לעומת האחרים שמסבירים‬
‫‪ .20%‬איך אפשר להסביר את זה?‬
‫יש הערה קטנה שמופיעה מתחת לטבלה של האפקטים שאומרת שהאפקטים שאנחנו רואים מתעדפים הפשטה‪,‬‬
‫מתעדפים הסברים שנותנים יתרון לאפקטים עיקריים‪ ,‬לטענות כלליות (כמו‪ :‬ההתערבות עובדת‪ .‬המגעילות של‬
‫העכביש חשובה‪ .‬המצב הקודם קריטי)‪ .‬ניתוחי השונות של פישר‪ ,‬בצורה מובנית‪ ,‬הולכים לפי מתן קרדיט גבוה‬
‫יותר להסברים פשטניים יותר‪ .‬רק אחרי שניתן מקום להבדלים העיקריים ניתן קרדיט לאינטראקציה‪ ,‬אבל זוהי‬
‫בחירה‪ ,‬זוהי גישה אחת ולאו דווקא הנכונה (למרות שהיא ברירת המחדל כאן) כי כאשר יש לנו מצב של‬
‫אינטראקציה היכולת להגיד מתי משהו משפיע היא יותר מעניינת מאשר הטענה הכללית הפשטנית‪ .‬לכן כיום‬
‫ההנחיות של המאמרים דורשות קודם לדווח על אינט'‪ ,‬כי היא מאפילה על האפקטים הכלליים‪  .‬אפקט עיקרי‬
‫הכוונה "האפקט תמיד עובד"‪ .‬אפקט האינטראקציה המדויק יותר הוא ‪" -‬תלוי ב‪."..‬‬
‫יש אפשרות בניתוח של רגרסיה לבחור לאיזה אפקט נותנים משקל גבוה יותר‪.‬‬
‫[לסיכום‪ :‬מבחן ‪ - t‬משתנה אחד‪ .‬מבחן ‪ – F‬כמה גורמים והשוואה ביניהם באמצעות גודל אפקט והתרומה‬
‫היחסית של כל גורם‪ ,‬ואינט' – מורכבת‪ ,‬האפקט תלוי בגורמים נוספים]‪.‬‬
‫נתמקד באינטראקציה ברגרסיה‪ ,‬ונראה כלי חינמי שימושי לחקור את זה‪:‬‬
‫מאמר של קובי‪:‬‬
‫‪https://www.tandfonline.com/doi/figure/10.1080/02699931.2020.1724893?scroll=top&needAccess=true‬‬
‫האם אנשים שיותר אמפתיים הם גם מצליחים יותר להבין רגשות של הזולת (האם הבנת הזולת הולכת יחד עם‬
‫אכפתיות?)‪ .‬אכפתיות נבדקה בשני מובנים – האם כשאדם שומע על קושי של הזולת זה גורם לו להיכנס גם ללחץ‬
‫בעצמו (מדד‪ :‬לחץ)‪ ,‬ועד כמה זה מעורר אכפתיות (קונסורן)‪.‬‬
‫נכנס ישר לגרפים‪:‬‬
‫ציר וי – ביצוע של המשתתפים בזיהוי‬

‫רגשות הזולת‪ .‬ציר איקס – ביטוי חמלה‪ .‬כל‬
‫זה בחמישה מצבים שונים‪ :‬ממצב שבו יש‬
‫לאדם נתונים נמוכים של מצוקה (מידה‬
‫נמוכה של לחץ שמתעורר כשמישהו אחר‬
‫סובל)‪ ,‬ועד נתונים גבוהים‪.‬‬
‫רואים פה דוגמה קלאסית לאינט' – מה‬

‫התרומה של כמה אני אכפתי כלפי מישהו‬
‫לזה שאצליח להבין את הרגשות שלו? – זה‬
‫תלוי כמה אני מרגיש יחד איתו את המצוקה‬
‫שלו‪.‬‬
‫באופן כללי מצאו פה אפקט כללי לדאגה – ככל שאני דואג יותר לזולת אני יותר מבין אותו‪ .‬יש אפקט עיקרי‬
‫שלילי למצוקה – ככל שזה גורם לי יותר לחץ אני פחות אעזור‪ .‬וגם אפקט אינט' כנ"ל‪.‬‬
‫מדידת המשתנים פה היא רציפה‪ .‬בניגוד למבחני ‪ t‬ו‪ F‬שראינו עד עכשיו שהיו שתי קטגוריות (גבוה\נמוך)‪.‬‬
‫קישור לאתר שדרכו ניתן לעשות את הגרפים האלה‪https://connorjmccabe.shinyapps.io/interactive/:‬‬
‫טוענים פה קובץ נתונים‪ ,‬מציינים את המשתנים בצד‪ ,‬יוצא פלט עם‬

‫הגפים וטבלת הסטטי'‪.‬‬
‫‪04.06.2020‬‬
‫רגרסיה‬
‫רגרסיה היא ניסיון לחזות את הקשר בין שני משתנים‪.‬‬
‫לדוגמה‪ :‬האם יש קשר בין גודל העכביש לחשש שהוא עשוי‬

‫להעלות בצופים‪ .‬המשתנה שמעניין אותנו הוא ‪ - y‬החשש‪.‬‬
‫משוואת הרגרסיה היא משוואת הניבוי‪ ,‬משוואה של קו‬
‫ישר‪ ,‬מכניסים את הנתונים ובודקים אם הם מתאימים לקו‬
‫ישר כלשהו כלומר האם שינוי במשתנה אחד מביא לשינוי‬
‫קבוע במשתנה השני‪.‬‬
‫הדרך לנבא את החרדה באמצעות גודל העכביש היא כאמור‬

‫להכניס את הנתונים לתוך משוואה של קו ישר‪. y=b0+b1X:‬‬
‫‪ - Y‬התופעה שמעניינת אותנו (חרדה)‪ - X ,‬המשתנה שעשוי להשפיע עליה‪ b .‬זה המקדם של איקס‪...‬להשלים‪.‬‬
‫קירוב לינארי – הניסיון להתאים קו ישר‪.‬‬

‫איך עושים את זה? קודם נגדיר את מאפייניו של קו ישר‪:‬‬
‫א‪ .‬קבוע (‪ - )b0‬הערך של התופעה הנחקרת כאשר האיקס נמצא‬

‫על ‪( 0‬לדוגמה יכול להיות שיש חשש מהעכביש גם בלי קשר‬
‫לגודל שלו)‬
‫ב‪ .‬שיפוע הקו (‪ - )b1‬השיפוע בעצם אומר לי עד כמה יש שינוי‬
‫בערכים של ציר ‪ ,y‬כאשר אני מתקדם בערכים של ציר‬
‫האיקס‪.‬‬
‫רואים במצגת שההתקדמות הזאת היא בעצם המקדם של‬
‫השיפוע‪.‬‬
‫שני הנתונים האלה הם בלתי תלויים אחד בשני‪ .‬אני יכולה לבחור קווים‬
‫שונים עם אותו שיפוע‪ ,‬אבל הקבוע שלהם שונה – כלומר נקודת החיתוך עם‬
‫ציר ה‪ y‬היא שונה‪( .‬צד ימין)‪ .‬וכנ"ל הפוך‪ ,‬ייתכן קבוע זהה אבל המגמה היא‬
‫שונה לחלוטין‪ ,‬כמו בצד שמאל שבה רואים שיש ירידה ועליה‪ ,‬עם מקדם‬
‫זהה‪.‬‬
‫מהו הקו האופטימלי?‬
‫כאמור קו הרגרסיה מנסה להתאים את הנתונים שלנו לקו ישר כדי שיהיה אפשר לעשות ניבוי‪ .‬ניתן לבחור הרבה‬
‫סוגים של קו‪ ,‬הרבה שיפועים‪...‬ונשאלת השאלה מהי הדרך הטובה ביותר לקבוע איזה קו להעביר?‬
‫אנחנו בעצם רוצים להתאים קו ישר לנתונים שלנו‪ ,‬שיש לו את שני המאפיינים הנ"ל‪ ,‬ולשאול איזה ערכים נבחר‬
‫ל‪ .b1 ,b0‬יש לנו הרבה נתונים שמיוצגים בנקודות‪ ,‬ואפשר להעביר ביניהן הרבה קווים‪ ,‬אז איך נדע איזה הנכון?‬
‫יש שיטה סטטיסטית שנקראת שיטת הריבועים הפחותים ‪ -‬אנחנו רוצים להעביר קו ישר שכשאר נבדוק כמה‬
‫הוא רחוק בפועל מכל נקודה שלנו‪ ,‬ונחבר את כל המרחקים האלה‪ ,‬יצא לנו המרחק הנמוך ביותר‪ .‬אי אפשר סתם‬
‫לחבר את כל המרחקים האלה‪ ,‬צריך לזכור שחלקם מעל וחלקם מתחת לקו והחיבור שלהם יתקזז אחד את השני‬
‫ואנחנו לא רוצים את זה‪ ,‬אנחנו רוצים את המרחק הכללי‪ ,‬ולכן נעלה אותם בריבוע ויצא לנו ערך חיובי – ומכאן‬
‫השם "הריבועים הפחותים"‪ ,‬ריבועים = המרחק בריבוע של כל אדם מהקו (כדי להיפטר מערכים שליליים) ואז‬
‫סוכמים את כל המרחקים הריבועיים האלה ובודקים מתי יוצא לי קו שמגיע למספר הכי פחות‪ ,‬הכי נמוך‪ .‬בסוף‬
‫זה קו שהכי קרוב לכל הנקודות‪ .‬ברגע שנבחר קו ספציפי אנחנו יודעים איפה נקודת החיתוך עם ציר הוי (‪ )b0‬ויש‬
‫לנו גם את השיפוע (‪.)1b‬‬
‫הקו הישר הזה הוא לא מושלם‪ ,‬תמיד יש בו טעות‪ ,‬כי יש נקודות‬

‫שאותן הקו מתאר ממש טוב ‪ -‬אלה שקרובות לקו או ממש עליו‪,‬‬
‫ויש את אלה הרחוקות יותר‪ .‬ולכן אפשר לחשב עד כמה הקו‬
‫מוצלח‪ ,‬כלומר ככל שהוא מצליח לצמצם את המרחקים‬
‫מהנקודות הרחוקות‪ .‬זה נקרא אפסילון – והוא מתייחס לטעות‪,‬‬
‫לכמה מרחקים ריבועיים הקו הזה עדיין השאיר רחוקות‪ .‬אומנם‬
‫זה הקו הזה טוב מקווים אחרים אבל עדיין יש בו קושי‪.‬‬
‫אפסילון זה הסימון הימני במשוואה‪:‬‬
‫דוגמה חישובית ‪ -‬מכירות שיש לתקליטי מוזיקה‪ .‬יש קובץ נתונים מצורף‪.‬‬
‫‪ 200‬אלבומים שחברה מסוימת מכרה‪ ,‬אנחנו יודעים כמה היא הרוויחה על כל‬
‫אלבום‪ ,‬ויש לנו גם פרטים על כמה היא השקיעה באלבום זה‪ ,‬ועכשיו החברה‬
‫רוצה לבנות מודל שמנבא כמה היא תרוויח על אלבום מסוים כאשר היא‬
‫מפרסמת אותו כדי להתנהל בצורה כלכלית יותר טובה‪.‬‬
‫נתונים מהחברה על המכירות – ‪ ,y‬כמה השקיעו בפרסום – ציר ‪ .x‬כל נקודה זה אלבום שנמכר והקו הישר הוא‬
‫ניסיון להתאים את קו הרגרסיה‪ .‬במצגת רואים את אותו דבר בצורה פחות נקיה בפלט של ‪( .spss‬את הערכים‬
‫המספריים של הקבוע והמקדם – התוכנה מוציאה לנו)‪.‬‬
‫כשנדע מהו קו הישר נוכל גם לעשות בו שימוש‪ ,‬נוכל לנבא עם המאפיינים הללו מצב עתידי ‪ -‬אם אציב סכום‬
‫מסוים ב‪ x‬מה יצא לי ה‪( .y‬השורה התחתונה זה שמות המשתנים עצמם במקום להשתמש באיקס ווי)‪.‬‬
‫לאחר שמצאנו את הקו רוצים לדעת עד כמה הוא מוצלח‪ ,‬בשביל זה יש לנו ערך נוסף שמופיע מעל הישר‪ ,‬וזה ‪R‬‬
‫בריבוע‪ ,‬עם ערכים בין אפס למאה‪ .‬דומה לגודל אפקט שדברנו במבחני ‪ ,F‬זה מתאר עד כמה מוצלח הקו הזה‪ .‬ככל‬
‫שהערכים נמוכים יותר וקרובים לאפס זה אומר שהוא מצליח להסביר מעט הבדלים בין נתונים‪ ,‬ככל שהערכים‬
‫קרובים ל‪ 1‬זה אומר שהוא מצליח להסביר יותר שונות בנתונים‪( .‬בדוגמה‪ :‬אחוז השונות המוסברת במכירות על‬
‫ידי האיקס שלנו)‪ .‬משתנה ‪ R‬חייב להיות קשור לשיפוע – יש ביניהם קשר ישיר‪ .‬בעצם השאלה שלנו היתה עד כמה‬
‫מוצלח הקו הישר שהתאמנו ובשביל זה צריך לחשב את הדיוק שלו שזה אותו ערך של ‪ R‬בריבוע‪ .‬דיוק של ‪33%‬‬
‫אומר שמשתנה האיקס שלי‪ ,‬ההשקעה בפרסום‪ ,‬מסביר כשליש מההבדלים בכמות המכירות‪.‬‬
‫לסיכום‪ :‬בונים קו רגרסיה‪ ,‬מכניסים משתנים לתוך הקו הזה (קבוע‪ ,‬מקדם שיפוע)‪ ,‬ורואים מה ה‪ R‬בריבוע שהקו‬
‫נותן‪( .‬למשל ננסה כיתות גדולות\קטנות יותר‪ ,‬וכמה קיבלו בממוצע ארצי‪ ,‬ואז לפי זה משרד החינוך יכול לבדוק‬
‫אם כמות התלמידים בכיתה קשורה לזה‪ ,‬כנ"ל עם ובלי מזגן בחודש יוני ולראות אם הבדלים טמפ' משפיעים‪,‬‬
‫הרבה מעט עזרים‪ ,‬חומר פתוח\סגור‪ - ...‬המשותף הוא שצריך לעשות קירוב לינארי – להתאים קו ישר)‪.‬‬
‫אחוז השונות המוסברת – עד כמה השינוי בערכים של משתנה איקס הוא משמעותי‪ ,‬כי הוא מסביר ערכים‬
‫במשתנה התלוי‪ .‬זה נותן מושג כמותי לכמה משמעותי המשתנה הזה וככה אפשר לדעת אם שווה לי להשקיע בו‪.‬‬
‫[מתאם ורגרסיה‪ :‬מתאם זה השיפוע‪ ,‬זה ‪ ,b1‬והרגרסיה משתמשת במתאם שיש בין הנתונים כדי לייצר קו שאומר‬
‫ניבוי ספציפי‪ .‬אני לא יכולה להשתמש במתאם כי אין לי את המשוואה‪ ,‬הוא רק אומר את השיפוע‪ ,‬ולא נותן את‬
‫כל המשוואה לניבוי ספציפי)‪ .‬משוואת רגרסיה לא רק נותנת ‪ b1‬שזה המתאם‪ ,‬אלא גם נותנת את הקבוע ואז‬
‫כשיש לי את שניהם אני יכולה להשתמש בניבוי שלי]‪.‬‬
‫כללי אצבע לפרשנות האם המודל מוצלח‪:‬‬
‫יש להבדיל בין ניבוי ובין וודאות בניבוי‪ .‬כשיש רק משתנה אחד שמעניין‬
‫אותנו‪ ,‬למשל כמה נרוויח על מכירה של אלבום‪ ,‬הדרך לעשות ניבוי היא‬
‫באמצעות מדד מרכז כמו ממוצע (אני אשאל כמה הרווחתי בממוצע על‬
‫אלבום חדש)‪ .‬זה כשאין לי אינפורמציה על שום דבר אחר כמו כמה‬
‫השקעתי בפרסום‪ .‬אבל יש גם וודאות בניבוי – כמה אתה חושב שהניבוי‬
‫שלך נכון‪ .‬ככל שהאנטנות‪ ,‬הפיזור סביב הממוצע‪ ,‬הוא קטן יותר אז אני‬
‫יותר בטוח‪ ,‬אבל כשהפיזור הוא גדול אז אני יכולה לתת ניבוי רק על סמך‬
‫מדד מרכז אבל זה יהיה יותר בהיסוס‪.‬‬
‫היתרון של הרגרסיה הוא שיש משתנים נוספים שקשורים לתופעה שלי‪ ,‬קו הרגרסיה מאפשר לי לעשות ניבוי וגם‬
‫לעשות חישוב יותר ספציפי שמתייחס לאינפורמציה שיש לי גם על המשתנה השני – כמות הפרסום שהושקע‬
‫באלבום‪ .‬ואז ישאלו אותי לגבי הוודאות וזה יהיה תלוי במתאם‪ ,‬בשיפוע‪ .‬ככל שהקשר הוא חזק יותר אז אהיה‬
‫יותר בטוח‪ ,‬או במדד של ה‪ R‬בריבוע זה נותן את אותה תובנה‪ .‬אם יהיה ‪ R‬שמסביר רק שני אחוז‪ ,‬זה בעצם אומר‬
‫שאני יכולה לעשות ניבוי אבל שיש עוד מלא משתנים שיכולים להשפיע על זה‪...‬‬
‫מקבלים את ‪ R‬בריבוע בפלט‪.‬‬
‫אפסילון זה העמודה הכי ימנית‪.‬‬
‫‪ - adjusted R square‬עדיף להסתכל שמה במקום‬

‫על ‪ R‬בריבוע‪ ,‬זה תיקון שהמחשב עושה בהתאם‬
‫לכמות התצפיות‪ .‬כאשר בונים מודל של קו ישר על‬
‫סמך מעט משתתפים אז לא ממש אפשר לסמוך על‬
‫זה ולכן הוציאו נוסחה שמראה את התיקון‪ ,‬כלומר‬
‫כמה להתייחס בפועל לאחוז השונות המוסברת‪.‬‬
‫בדוגמה הזאת ספציפית יש ‪ 200‬משתתפים ולכן‬
‫לפני ואחרי התיקון אין ממש הבדל‪ .‬לפעמים יש‬
‫פער גדול כשמספר המשתתפים ממש קטן‪.‬‬
‫רואים פה שני ערכים‪ ,‬אחד נקרא הקבוע‬

‫)‪ ,(constant‬ואחד השיפוע שקשור לאיקס ‪ -‬כמות‬
‫הכסף שהושקע בפרסום‪ .‬נוסחת הקו הישר לפי‬
‫הדוגמה מופיעה למטה‪.‬‬
‫תחת האות ‪ b‬אפשר לראות את הערכים‪:‬‬

‫‪( b1 , 134.140 = b0‬השיפוע) = ‪.0.96‬‬
‫אם אני משקיע ‪ 0‬פאונד בפרסום אני אצפה‬
‫להרוויח ‪ 134.140‬על המכירות (כי זה הקבוע של‬
‫הרגרסיה‪ ,‬זה משהו שקורה בכל מצב)‪ .‬אם אני‬
‫אשקיע אלף פאונד אני מצפה להגדיל את כמות‬
‫ההכנסות ב ‪ 96‬פאונד (כל צעד אחד‪ ,‬השקעה של ‪ 1000‬פאונד אנו מצפים לשינוי של ‪ 0.96‬במשתנה התלוי שהוא‬
‫אלבום המכירות‪ 0.96 .‬מתוך ‪ 1000‬יוצא ‪ 96‬פאונד‪.).‬‬
‫נגיד אני רוצה להגיע למכירות מסוימות‪ ,‬אני אציב נתון כזה‪ ,‬ואדע את מידת ההשקעה שלי‪.‬‬
‫יש ערך נוסף שמעניין אותנו וזה הביתא שמציינת‬

‫את אותו הקשר שיש בין איקס לווי‪ ,‬אבל ביחידות‬
‫מתוקננות (כמו שכתוב למעלה)‪ ,‬הוא מתעלם‬
‫מיחידות המדידה של פאונד‪ ,‬שקלים‪ ,‬מעלות‪ ,‬גודל‬
‫עכביש‪...‬לא מעניין אותו יחידות המדידה – זה‬
‫נמצא ב‪ ,b‬הערכים כמו שהם נמדדו‪ ,‬שפה גולמית‪.‬‬
‫הביתא אומר מה הקשר‪ ,‬המתאם‪ ,‬בין איקס ווי‪,‬‬
‫בשפה של ערכים שנעים בין ‪ 1‬למינוס אחד‪ .‬זאת‬
‫שפה של קשר‪ ,‬מתאם‪ ,‬ולא שפה גולמית‪ .‬הקורלציה‬
‫פה היא ‪ . 57.‬אם ניקח את המתאם הזה ונעלה‬
‫בריבוע יש לנו ה‪ R‬בריבוע‪ ,‬אחוז השונות המוסברת‪ .‬אותו ערך שמופיע בטבלה שראינו בשקופית הקודמת‪[ .‬מתאם‬
‫חזק יותר – מודל מוצלח יותר]‪.‬‬
‫משוואת הרגרסיה היא לא מוגבלת לעבודה עם משתנה אחד‪ ,‬היא כללית ואפשר להכיל אותה בהרבה מאד‬
‫משתנים‪ .‬נכניס עוד משתנים ונראה ביחד לכל אחד מהם אם הוא עוזר או לא עוזר‪ ,‬נסתכל על ערך הביתא שלו‬
‫ונראה עד כמה הוא משמעותי‪ .‬ביתא גדולה ‪ -‬משתנה משמעותי‪ ,‬נמוכה – לא משמעותי‪ ,‬ולפעמים היא כל כך‬
‫נמוכה שיגידו לנו שהוא בכלל לא רלוונטי‪ ,‬הוא לא שונה בצורה מובהקת מהקו השטוח (שיפוע אפס) ואת זה נראה‬
‫בעמודת מובהקות הימנית‪ .‬מובהק זה אומר שהשיפוע כל כך קטן שהוא לא באמת שונה מקו שטוח לחלוטין ולכן‬
‫הוא בעצם לא משמעותי‪.‬‬
‫לסיכום‪ ,‬קו הרגרסיה אומר‪:‬‬
‫א‪ .‬איך לעשות ניבוי ספציפי‪ .‬תנו לי ערכי איקס ואכניס למשוואה ואגלה על התופעה המעניינת‪.‬‬
‫ב‪ R .‬בריבוע – עד כמה הקו הזה הוא מוצלח ואולי צריך לחשוב על לבנות קווים אחרים‪.‬‬
‫ג‪ .‬ניתן להוסיף עוד משתנים ועל כל אחד אראה ערך שונה‪...‬‬
‫[הערה‪ :‬השתנות לינארית = השתנות קבועה‪ .‬רגרסיה היא מודל כללי‪ ,‬היא לא חייבת להיות רק בקו לינארי‪,‬‬
‫אפשר גם קו אקספוננציאלי למשל‪ .‬לוקחים נוסחה לא של קו ישר אלא נוסחה של קו כזה‪ ,‬ומחשבים איזה ערכים‬
‫של בי אפס‪ ,‬אחד ושתיים שהוא המקדם של האיקס‪...‬מתאימים באותה צורה של ריבועי פחותים ומתארים ככה‬
‫את המגמה‪]...‬‬
‫להסתכל על האר בריבוע הוא זה הכי חשוב‪.‬‬
‫‪11.06.2020‬‬
‫שימוש אפקטיבי בדיווח העצמי ‪ -‬חקירת מבנה השאלון ומהימנות‬

‫יש בעיות בדיווח העצמי‪...‬‬
‫השיעור היום – איך אפשר להשתמש בדיווח העצמי כדי להפיק ממנו מידע מדויק כמה שיותר‪..‬‬
‫להשלים – שקופית שימוש אפקטיבי בדיווח עצמי‬
‫הדגש שלנו – איך עושים שימוש יעיל בדיווח עצמי‪ .‬לכן‬

‫נמפה בעיות וכלים סטטיסטיים שיכולים לעזור להתגבר‬
‫עליהן‪.‬‬
‫בעיות כמו‪:‬‬
‫שאלה לא מובנת (להשלים) – נתגבר בעזרת ניסוח‬ ‫•‬

‫במגוון אופנים‪.‬‬
‫הנבדק לא מרוכז – נתגבר על זה בעזרת פריטים הפוכים וגם שאלות קשב – "שאלת מלכודת" שלא שמים‬ ‫•‬
‫לב אליה כמו "אם אתה קורא את הסעיף הנוכחי אנה השב במידה רבה מאד" ואז נתייחס רק למי שענה‬
‫במידה רבה מאד‪ .‬אם רוצים לעשות את קשה יותר אז נתחיל בשאלה רגילה כמו "ס‪.‬ת מרגשת אותי‪ ,‬אם‬
‫אתם קוראים את המשפט הזה סמנו כן\לא"‪ .‬נמצא ש‪ 17%‬מתלמידים\סטודנטים לא קוראים בכלל את‬
‫השאלות‪..‬‬
‫הנבדק לא כנה – נבחן גם במדדים חלופיים‪ ,‬למשל מדד ביצועי בנוסף לאיך אני תופס את עצמי‪( .‬לא כל‬ ‫•‬
‫מדד הוא מדד טוב‪ ,‬למשל בנוגע לשאלה איך להכשיר אנשי טיפול (איך בעצם נזהה למי יש הרבה איכויות‬
‫שמתאימות לתפקיד?) – לא בטוח שהמבחן תקף ורלוונטי לתופעה שמעניינת אותנו‪ ...‬אבל עדיין זה נותן‬
‫לנו עוד מבט על התופעה הנחקרת‪ ,‬ובשלב הבא נצליב תשובות בשאלון עם מדד ביצועי‪ ...‬בודקים תוקף‬
‫מתכנס – מי שגבוה בשאלון אחד גבוה גם בשאלון אחר‪.)....‬‬
‫המטרה שלנו היא להוציא מהשאלון הזה יחס אל התופעה‪ ,‬ולא שאלה ספציפית ולכן אנחנו לוקחים את כל‬
‫הנתונים שנאספו בשאלון ומנסים לצמצם אותם‪.‬‬
‫אחד הכלים לכך הוא "ניתוח גורמים"‪.‬‬
‫אני רואה בנאדם שמח‪ ,‬ושואל מה הביא אותם לשם‪ ,‬אני‬

‫מקבל המון תשובות אפשריות לזה‪ .‬אח"כ אני לוקח את כל‬
‫הפריטים האלה ומנסה לצמצם ולהתאים קטגוריות‪-‬על‪,‬‬
‫קיבוץ תשובות ל‪ 4‬קטגוריות‪ .‬על פניו נראה שיש הגיון‬
‫בקיבוץ הזה‪ ,‬ואז במקום להתעסק ב‪ 10‬ציונים לכל אחד‬
‫מהפריטים‪ ,‬אני מתרגמת את זה ל‪ 4‬ציונים עבור ארבעת‬
‫המדדים‪ .‬הניתוח גורמים מזהה את ארבעת המדדים‬
‫באמצעות קורלציות‪ ,‬קשר בין משתנים‪ .‬זאת פרוצדורה‬
‫סטטי' פשוטה‪ .‬על ידי זה שאני מסתכל על קשרים בין‬
‫משתנים אני יכול לראות איזה קבוצות יש להן קשר גבוה‬
‫בתוכן וקשר נמוך עם פריטים אחרים‪ .‬אם אני רואה שלמשל כל השאלות בסטטוס נפשי יש להן קשר גבוה –‬
‫כנראה שהן מייצגות גורם אחד‪ ,‬זה נקרא פקטור‪.‬‬
‫‪ ‬הנבדק עונה על כל שאלה\מדד\פריט‪ ,‬ואז אני בודק אם כמה כאלה קשורים ביניהם‪ ,‬וכשקיים קשר זה נקרא‬
‫פקטור‪.‬‬
‫איך עושים את זה? יש שתי אופציות‪:‬‬
‫ניתוח גורמים מגשש (‪ – )EFA‬התוכנה הסטטי' מחשבת את‬

‫כל הקורלציות שיש בין הפריטים השונים ורואים מה מתחבר‬
‫ביחד‪ ,‬כלומר לאיזה שאלות יש קורלציה גבוהה והן מתאגדות‬
‫לפקטור אחד‪.‬‬
‫אפשרות שניה היא לצאת מתוך התיאוריה‪ ,‬על סמך הידע‬

‫שיש לי אני מניחה שפריטים מסוימים מתאגדים יחד וזה‬
‫נקרא ניתוח גורמים מאשש‪.‬‬
‫הכל תלוי אם כבר יש לי ידע על הנושא או לא‪ .‬כשאני מפתח שאלון חדש אני לא יודע כמה גורמים יש שם אז אלך‬
‫על האופציה של ניתוח גורמים מגשש‪ .‬המטרה של ניתוח כזה היא לעבור מהרבה משתנים שיש ביניהם מתאם‬
‫גבוה\נמוך למצב של כמות קטנה של משתנים שבתוכם יש מגוון פריטים עם קורלציה גבוה ביניהם‪ ,‬ואילו‬
‫הקורלציה בין הגורמים היא נמוכה‪( .‬לסיכום‪ :‬בתוך כל גורם‪ ,‬פקטור – קורלציה גבוהה בין הפריטים‪ .‬בין‬
‫הפקטורים השונים – קורלציה נמוכה)‪.‬‬
‫לדוגמה בשאלון על חרדה מ‪:SPSS‬‬
‫התוכנה זיהתה ‪ 4‬פקטורים‪ .‬המחשב לא אומר מהו‬

‫עולם התוכן‪ ,‬אלא רק יודע לחשב את הקורלציות‪.‬‬
‫אנחנו רואים את כל התשובות השייכות לכל אחד‬
‫מהפקטורים‪ .‬אנחנו כחוקרים נסתכל על התוכן של‬
‫הפריטים הקשורים ביניהם וניתן שם לפקטור‪.‬‬
‫פרשנות המספרים בטור של כל פקטור (נעים בין‬

‫‪0‬ל‪ 1‬בערך מוחלט)‪ :‬ככל שהמספר גבוה יותר‬
‫הפריט הזה טעון יותר לגבי הפטור‪ ,‬או במילים‬
‫אחרות הוא מייצג טוב יותר את הפקטור‪ .‬לכן אם‬
‫אני תוהה איזה שם לתת לפריט הזה כדאי לי לתת‬
‫שם שמסתמך על הפריטים שמשקפים טעינות‬
‫גבוהה‪ .‬בעיקרון המחשב מציג את הטעינות של כל אחד מהפריטים‪ ,‬אבל פה קובי הגדיר לתוכנה להציג רק‬
‫פריטים עם טעינות על ‪ .0.3‬כשיש מינוס ליד מהמספר זה מאותת לנו שאולי היה פה פריט הפוך‪ ,‬ואז הוא באמת‬
‫קשור לעולם תוכן אבל צריך להפוך את הקידוד שלו‪.‬‬
‫זיהוי עולמות תוכן משותפים נקרא מהימנות פנימית‪.‬‬
‫מהי מהימנות?‬
‫ניקח למשל את התשובות לפקטור הראשון‪ ,‬אבל רק‬

‫כאלה שהיו מעל ‪ 0.5‬כי אלה הנמוכות יותר נמצאו עם‬
‫קשר חזק יותר לפקטורים אחרים ולכן נקשר אותם‬
‫לשם‪( ...‬אם יש שאלה עם טעינות זהה לשני פקטורים‬
‫או יותר אז זה אומר שהפריט הזה לא מספיק עומד‬
‫על ההבדלים ביניהם ולכן פחות יעיל)‪.‬‬
‫כשאני שואלת האם מדד מסוים הוא מהימן אני‬

‫בעצם רוצה לדעת האם הוא נותן לי תשובה שהיא‬
‫אמיתית‪ .‬אם אני מקבלת שתי תשובות שונות כשאני‬
‫עולה על המשקל זה אומר שהמדד הזה לא מהימן‪ ,‬התוצאה לא אמיתית כי היא מעלה תשובות שונות כל פעם‪.‬‬
‫בדוגמה פה‪ ,‬אם אדם שחושש מסטטי' נותן פעם אחת תשובה גבוהה‪ ,‬ועל פריט אחר שבודק אותו דבר הוא נותן‬
‫תשובה לא נכונה = המדד הזה לא נאמן‪ .‬רק תשובה עקבית לשאלות דומות משקפת מהימנות‪.‬‬
‫מהימנות = היכולת של מדד לייצר את אותן התוצאות תחת אותם תנאים (*כמובן לשים לב לפריטים הפוכים‪.)..‬‬
‫יש לנו מדד של קרונבך אלפא שאומר עד כמה יש מדידה טובה באמצעות כל הפריטים האלה‪ .‬מעל ‪ 0.7‬זה נחשב‬
‫מדד מהימן‪ .‬צריך להיות מינימום של ‪ 0.6‬כדי להגיד שיש עולם תוכן אחיד‪ ,‬מ‪ 0.7-‬זה בסדר‪ 0.8-0.9 ,‬זה‬
‫מצוין‪.‬‬
‫יש לנו גם אפשרות סטטי' לבקש מהתוכנה לזהות שאלות שכנראה לא הבינו אותם כראוי ולכן הוציאו ציון נמוך‪.‬‬
‫זה העמודה הימנית שאומרת מה תהיה המהימנות אם נסיר כל אחד מהפריטים (בהקשר לבעיה שציינו מקודם‬
‫בדיווח אישי‪ ,‬כאשר ניסוח השאלה לא מובן‪ ,‬וזה הכלי הסטטי' להתגבר על זה)‪.‬‬
‫כל פעם שאנחנו מחברים שאלות אנחנו צריכים לבדוק שהן מייצגות עולם תוכן אחיד‪ ,‬וזה בעזרת אלפא קרונבך‬
‫מעל ‪.0.7‬‬
‫יש נוסחה של אלפא קרונבך שמשמעותה – אלפא קורנבך קשור ישירות למספר הפריטים שיש‪ ,‬ככל שיש יותר‬
‫פריטים המהימנות הפנימית תהיה יותר גבוהה כי המשקל של פריט אחד שלא תואם לפריט אחר הוא קטן יותר‪.‬‬
‫לכן יש חוקרים ששואלים את אותה שאלה בהרבה דרכים כדי‪ :‬א‪ .‬לא ליפול בבעיית הניסוח שלל השאלה‪ .‬ב‪ .‬כדי‬
‫להגדיל את המהימנות‪ .‬עושים ניתוח גורמים החל מ‪ 100‬משתתפים‪ ,‬ככל שיש יותר אנשים הנתונים יותר יציבים‬
‫ופחות תלויים במדגם ספציפי‪ .‬אם אני רוצה לתקף שאלון שישתמשו בו בספרות צריך מאות אנשים‪.‬‬
‫אחרי שהצלחנו לפשט את עולם התוכן עם ניתוח גורמים‪ ,‬אני בודק אם אני רוצה את כל השאלות או שכדאי‬
‫להוריד חלק כי לא הבינו אותן או כי לא הפכתי את הפריט‪ ,‬עכשיו אני יכולה לזהות ולומר – זה המדד שלי‪ .‬זה‬
‫הפקטור‪ .‬הכלל הוא שכל שאלה בפני עצמה כוללת רעש כי אולי אנשים הבינו אותה בצורה מאד ספציפית ואז‬
‫כדאי להוציא אותה‪.‬‬
‫זה השימוש האפקטיבי של דיווח עצמי‪.‬‬
‫יש במצגת דוגמה לשימוש בניתוח גורמים בחינוך‪:‬‬
‫רצו לפתח שאלון חדש – אמרו שייקחו שאלונים קודמים וינסו‬

‫לאמץ מתוכם פריטים‪.‬‬
‫רואים בצד ימין את השאלונים הקודמים בהם‬

‫השתמשו‪ ,‬העתיקו מהם שאלות ובהתחלה חשבו שיש‬
‫שישה גורמים שונים‪...‬‬
‫הריצו את זה בבית ספר ואז עשו ניתוח גורמים‬
‫כדי לבדוק שבאמת יצאו ‪ 6‬הגורמים האלה‪ ,‬ויצא‬
‫שבפועל יש רק ‪ 4‬גורמים‪.‬‬
‫(כי תמיכה אקדמית ותמיכה אישית הצטמצמו –‬

‫התוכנה אמרה שמי שענה גבוה באחד ענה גבוה‬
‫גם בשני ולכן זה נחשב פקטור אחד‪( .‬זאת תובנה‬
‫בפני עצמה שעליה ביססו את המאמר))‪.‬‬
‫להשלים את הדוגמה החוקרים חישבו לכל אחד‬

‫מהגורמים ממוצע‪ .‬לאחר מכן בטבלה הקטנה‬
‫בדקו קורלציות בין הגורמים‪ .‬אם הקורלציה‬
‫היתה מאוד גבוהה בין הגורמים ה‪ SPSS-‬היה‬
‫אומר לנו שיש לחברם יחדיו לגורם אחד‪.‬‬
‫‪18.06.2020‬‬
‫כיצד לומדים תחום חדש? – הזדמנויות ומגבלות של מטא אנליזה‬

‫מטא אנליזה היא דרך קלה‪ ,‬קצרה ומהירה שלנו להבין בנושא כלשהו מבלי לעשות מחקר בעצמנו‪ .‬לוקחים את כל‬
‫התוצאות של המחקרים שעסקו בשאלה שמעניינת אותי וכך אוכל להגיד מה התוצאה הממוצעת‪ .‬מחקרי מטא‬
‫אנליזה כאשר הם מבוצעים להלכה‪ ,‬נחשבים למהימנים יותר מכיוון שהם סוקרים מחקרים שונים שנעשו‬
‫בתחום‪.‬‬
‫מחקר ‪ :‬מה הקשר בין משחקי וידאו אלימים להתנהגות אלימה?‬
‫הגרף באפור מראה את הפופולריות של מכירה של משחקי וידאו‪,‬‬

‫כשיש עליה משמעותית לאורך השנים‪ .‬הקו הכחול זה כמות הפשיעה‬
‫שדווחה – רואים שיש מגמה לפיה ככל שקונים יותר משחקי וידאו‬
‫אז גם יש יותר דיווח על מקרי אלימות‪.‬‬
‫בנוסף פורסם מאמר מטא אנליזה על סקירה של הקשר בין שני‬

‫המשתנים האלה‪ .‬המאמר הזה העלה את הנקודה שצריך לקחת את‬
‫רמת האלימות הראשונית של הנחקרים‪ ,‬עצם זה שנמצא קשר בין משחקים‬
‫אלימות למקרי אלימות זה לא מעיד בהכרח על סיבתיות‪ .‬כלומר‪ ,‬זה לא מעיד‬
‫שהמשחק במשחקים אלימים מעלה את שיעור האלימות‪( .‬לקחו מחקרים‬
‫שמתעסקים במדידה של כמות המשחקים ואת ההתנהגות האלימה שלו‪,‬‬
‫ושלטו גם על ההבדלים המוקדמים שהיה בהתנהגות האלימה – זה על ידי‬
‫ניתוח רגרסיה‪ .‬כאשר מכניסים יותר ממשתנה אחד לרגרסיה מקבלים את הקשר של כל משתנה בצורה בלתי‬
‫תלויה למשתנים האחרים)‪.‬‬
‫הם מצאו ‪ 24‬מחקרים בתחום הזה והסתכלו על התוצאות‬

‫שלהם‪ .‬הפירמידה פה מדרגת את האיכות והמהימנות שיש‬
‫למערכי מחקר שונים (כלומר עד כמה איכותי מהחקר הזה לפי‬
‫מערך המחקר שהשתמשו בו)‪.‬‬
‫מטא אנליזה לוקחת מה שנעשה קודם לכן ומנסה לסכם אותו‪,‬‬

‫לכן בראש הפירמידה נמצא טקסט בוק כי הוא נותן תמונה יותר‬
‫רחבה‪.‬‬
‫* ההבדל בין סקירה למטא אנליזה שבמאמרי סקירה יש רק תיאור של מחקרים ובמטא אנליזה יש חישוב‬
‫סטטיסטי‪ -‬חישוב ממוצע של כל המחקרים כדי לתת גודל כמותי לתופעה הנחקרת‪.‬‬
‫‪ ‬חשיבות המטא אנליזה היא סינתזה של מאמרים כשבסוף אנחנו רוצים תשובה לשאלה האם קיים קשר בין‬
‫המשתנים (במילים אחרות – האם יש מובהקות) ‪ ,‬ומה גודל האפקט?‬
‫יש מספר בעיות בהקשר הזה‪:‬‬
‫כיסוי חלקי של הממצאים הקיימים – יכול להיות שלא התייחסנו בחישוב לכל הספרות הקיימת‪ .‬מטא‬ ‫•‬
‫אנליזה זה כמו שם קוד כזה שכאילו משדר יותר אמינות וכאילו אפשר לחשוב שהממצא שהיא מציגה‬
‫טוב יותר‪ ,‬אבל יכול להיות שלא דאגו לחפש את כל המחקרים הרלוונטיים‪.‬‬
‫פתרון‪ :‬בכל מטא אנליזה נצפה לראות התייחסות ברורה לדרך שבה הם בחרו מחקרים שנכסים למטא‬
‫אנליזה‪ .‬לרוב גם תהיה טבלה שמתארת את המחקרים‪ ,‬מהן מילות החיפוש‪ ,‬הערות כמו – רק מחקר‬
‫שהיה לו קבוצת ביקורת נכנס וכו'‪ ...‬זה משהו שצריך לחפש אותו כשאנחנו קוראים מטא אנליזה‪ .‬אם‬
‫הכללים לפיהם הכניסו מחקרים נשמעים לנו הגיוניים אז זה סבבה‪ ,‬אם לא‪ ,‬זה מחקר שמנסה להתהדר‬
‫במטא אנליזה אבל בפועל יש בחירה סלקטיבית של מחקרים‪...‬‬
‫דוגמה לבעיה הזאת יש בשקף‬

‫הזה ‪ :‬החוקרים כותבים שהם‬
‫בחרו מאמרים שהכילו את‬
‫מילות החיפוש הספציפיות‪...‬‬
‫אפשר לקחת כמות מצומצמת‬

‫של מחקרים‪ ,‬לא חובה מאות‪,‬‬
‫אבל הקריטריונים לצמצום‬
‫צריכים להיות מאוד ברורים‪,‬‬
‫למשל פה הם אמרו שהם‬
‫רוצים חשיפה למשחקי וידאו‬
‫אלימים‪ ,‬אלימות שדווחה על‬
‫ידי מורה\הורה‪...‬‬
‫טשטוש ההבדלים בין מחקרים שונים‪ :‬מטא אנליזה עושה הפשטה של המציאות‪ .‬היא בעצם סוג של‬ ‫•‬
‫ממוצע של כל המחקרים בתחום‪ ,‬אבל אין התייחסות לפרטים כמו אוכלוסיות שונות‪ ,‬פרוצדורות שונות‪,‬‬
‫דרכי מדידה שונות של ההתנהגות‪ ,‬סוגים שונים של מחקרי וידאו‪ ,‬סוג מערך המחקר שנעשה – יש שונות‬
‫גדולה בין מחקרים שעוסקים באותה שאלה‪ ,‬ולקחת רק את הקשר שהם מצאו בצורה מספרית‪ ,‬מאבדים‬
‫בעצם את הרזולוציה שהיתה לגבי ההבדלים בין המחקרים‪ .‬הביקורת הזאת היא על שימוש פשטני במטא‬
‫אנליזה ולא על עצם השימוש במטא אנליזה‪ .‬כלומר השיטה עצמה היא טובה‪ ,‬אבל יש ליישם אותה גם‬
‫בצורה טובה שמכילה הבדלים בין המחקרים‪ ,‬בעצם לאסוף יותר מידע על המחקרים שנכללים‪ .‬יכול‬
‫להיות שהמחקרים נבדלו בתוצאה שלהם – ואנחנו לא נדע את זה‪ ,‬או שזה קרה כי הם נעשו באיכות‬
‫ובצורה שונה והקורא לא יודע את זה אלא רק רואה את המספר הכוללני הסופי של המחקר‪ .‬הקריאה פה‬
‫היא להוסיף לקובץ הנתונים גם אינפורמציה נוספת‪.‬‬
‫דוג מהמאמר הנוכחי‪ :‬טבלה שמכילה את הבדלי‬

‫הלאום‪ ,‬המוצא האתני‪ ,‬איך נמדדה ההתנהגות‬
‫האלימה‪ ,‬מספר המשתתפים‪ ,‬גיל ממוצע‪ ,‬משך‬
‫הזמן של המחקר וכמובן העמודה שמראה את‬
‫הקשר בין המשתנים (‪ .)none‬טבלה כזו עונה על‬
‫הביקורת‪ ,‬היא מכילה עוד המון מידע נוסף מעבר‬
‫לקורלציה שכל מחקר מצא‪.‬‬
‫דיווח חלקי של ממצאים‪ :‬גם אם כחוקר אעשה עבודה טובה‪ ,‬סקירת ספרות טובה‪ ,‬טבלה עם כל‬ ‫•‬
‫המשתנים שיש להם ערך להבנת התופעה – עדיין אין לי שליטה על מה שמפורסם בפעול‪ ,‬יכול להיות שיש‬
‫מחקרים שהתוצאה שלהם היתה שההתערבות לא עובדת‪ ,‬או שמשחקי מחשב לא מגבירים אלימות –‬
‫והם פשוט לא מספיקים לפרסם את זה כי הז'ורנלים לא מקבלים את המחקר שלהם (כי זה פחות מעניין‬
‫– פרסום סלקטיבי)‪ .‬כלומר אני כחוקר עשיתי סקירה טובה‪ ,‬אבל לא היתה לי אפשרות לעשות את זה‬
‫באמת כי אנשים לא מפרסים את המחקרים שלהם (נגיד הם הציגו קשר אבל לא מאד מרשים ולכן‬
‫הז'ורנלים בחרו לא לפרסם אותם)‪.‬‬
‫הפתרון‪ :‬יש דרכים סטטי' וויזואליות לראות אם‬

‫יש סימנים להטיה בפרסום‪ .‬זה נראה ככה‪:‬‬
‫אמרנו שהמטא אנליזה עושה ממוצע של כל‬

‫הציונים‪ ,‬נניח בכיתה העברנו סדרה של מבחנים‬
‫בחשבון‪ .‬יכול להיות לתלמיד ציון ממוצע של ‪70‬‬
‫ואם מסתכלים על הציונים הבודדים בכל מבחן‬
‫רואים שהוא קיבל קצת יותר או קצת פחות‪...‬או‬
‫מקרה אחר של ממוצע ‪ 70‬אבל הציונים הבודדים‬
‫לא מסתדרים בצורה הגיונית וסימטרית סביב‬
‫הממוצע‪ ,‬כמו עליה פתאומית שחורגת משאר הציונים‪ .‬מקרי קיצון שמשקפים שקרה משהו שונה במבחן‬
‫הזה‪.‬‬
‫הרעיון הזה עוזר לנו לתאר הטיה בפרסום‪ ,‬בשקף‪ ,‬זה שיש מחקר חריג מעיד שהגיוני שיש עוד מחקרים‬
‫חריגים שכנראה לא פורסמו‪ ,‬לא הוצגו‪ ...‬זה מעורר אצלנו תהיה איך רק מחקר אחד הגיע לתוצאה‬
‫קיצונית וכל האחרים לא‪ ,‬זה קצת לא הגיוני אם כולם בחנו פחות או יותר באותה דרך‪ ,‬אולי זה כי הוא‬
‫היחיד שהיה לו האומץ לפרסם את זה‪ ,‬ואחרים שגם קיבלו תוצאה כזאת לא פרסמו‪.‬‬
‫הקו המרכזי זה גודל אפקט‪ ,‬הנקודות הספציפיות זה מחקרים בודדים והגודל אפקט שלהם‪ .‬ציר איקס‬
‫משקף את גודל הקורלציה (מרחק כהן)‪ ,‬פיזור הנקודות סביב הקו‪...‬‬
‫גם בשני התרשימים למטה רואים פיזור סימטרי למעלה או פיזור לא סימטרי למטה – שזה מעיד על‬
‫הטיית פרסום‪ .‬יש מחקר עם תוצאה חריגה שמטה את הממוצע‪ .‬יש מבחן סטטי' שבודק את זה –‬
‫‪ egeer's test‬והציון שלו משקף את פיזור המחקרים סביב הממוצע‪.‬‬
‫מטא אנליזה רצינית צריכה לתת דיווח של הטיית פרסום‪ ,‬כדי שנדע שהבעיה הזאת טופלה‪ .‬הרבה פעמים‬
‫יופיע הגרף הזה‪ ,‬ואם לא אז יהיה נתון סטטי' כמו איגר טסט‪ .‬כאשר הוא לא מובהק זה אומר שהפיזור‬
‫תקין‪.‬‬
‫סיכום‪:‬‬
‫כאמור מטרת המטא אנליזה היא לבדוק אם‬

‫קיים אפקט ומה גודלו‪ .‬אז בדוגמה שלנו יש‬
‫תיאור של המחקרים שנבדקו‪ ,‬מספר נבדקים‬
‫בכל מחקר וגודל אפקט‪:‬‬
‫הקו האנכי השחור (רציף ומקווקו צמוד לו)‬

‫מייצג את הממוצע והריבועים הירוקים‬
‫מייצגים שונות שהיתה סביב הממוצע של‬
‫מחקר ספציפי‪ .‬ככל שהן יותר ימינה יש‬
‫קורלציה יותר גבוהה וחיובית ולהיפך‪ .‬הקו‬
‫החזק השמאלי מייצג את ה‪ !!0‬משמאל לו זה‬
‫קורלציות שליליות ומימין חיוביות‪ ,‬וכך גם הקו המתאר את הממוצע של כל המחקרים‪.‬‬
‫בשורות התחתונות בצבע ירוק יש תיאור של הקשר הממוצע שהם מצאו‪ .0.12 :‬כלומר לאורך כל המחקרים‬
‫הקשר בין משחקי וידאו אלימים ובין התנהגות אלימה יש קשר חיובי‪ ,‬מובהק‪ ,‬מבוסס על יותר מ‪11,000‬‬
‫משתתפים‪ ,‬יש פיזור טבעי סביב הממוצע‪.‬‬
‫מתקבל גם פלט שאומר לנו אם התוצאה מובהקת או לא‪:‬‬
‫אז ראינו שהם עשו כיסוי של כל הממצאים הקיימים – מילות חיפוש וכו'‪ ,‬הם גם תיארו את הטיית הפרסום‬
‫במקום אחר במאמר‪ ,‬בנוגע לבעיה השניה על שונות בין מחקרים – הם הציגו את הטבלה‪ ,‬אבל הדגש הוא לבדוק‬
‫האם ההבדלים האלה הם משתנים ממתנים (כלומר לבדוק שאין שונות משמעותית בין המחקרים ואם יש אז‬
‫לבדוק מה בדיוק פה הם משתנים ממתנים)‪.‬‬
‫החוקרים במקרה הזה אומרים‬

‫שיש הטרוגניות בממצאים הקשורה‬
‫למוצא האתני‪ .‬יש למטה גם ציון‬
‫מובהקות שמודד הטרוגניות‪ ,‬וזה‬
‫מובהק‪ ,‬ולכן משקף שונות גדולה‬
‫בין התוצאות‪.‬‬
‫החוקרים החליטו לבדוק האם‬

‫למוצא יש השפעה על התוצאות‬
‫והם השוו בין האוכלוסיה הלבנה‬
‫ההיספנית והאסייאתית‪ .‬נבדקה‬
‫מטא אנליזה עבור כל קבוצה‬
‫(מסומנת בירוק)‪ .‬אנחנו רואים שיש הטרוגניות בממצאים השונים עבור כל אחת משלושת הקבוצות‪ .‬במידה‬
‫וההבדלים מובהקים אנו יכולים להסיק שלמוצא יש השפעה על התוצאות‪.‬‬
‫שתי השורות התחתונות מתייחסות למטא אנליזה כללית של כל המחקרים‪:‬‬

‫‪ =fixed‬חישוב ממוצע רק של המחקרים שהשתתפו‬
‫‪ =random‬תיקון מתמטי שלוקח בחשבון שונות‪ ,‬כמות משתתפים‪ ...‬מאפשר הכללה של הממצא לגבי‬
‫פריטים אחרים שלא נבדקו במחקר (למשל‪ :‬אם בדקנו מדינות מסוימות במחקר ולא כללנו אחרות נוכל‬
‫להכליל את הממצאים גם על מדינות נוספות שלא נבדקו)‪ -‬מתייחסים לנתון זה ולא ל‪ ,fixed-‬בד"כ מדווחים‬
‫רק עליו‪.‬‬
‫הערה‪ :‬בשקף הזה אלה בעצם מחקרים שמחולקים לפי מוצא אתני‪ ,‬וגם ממוצע כללי לכולם ביחד‪ .‬השקף הקודם‬
‫זה התייחסות רק לקבוצה אתנית אחת ובשקף הנוכחי אנחנו רואים את של כל המחקרים ביחד‪.‬‬
‫יש מבחן סטטי שאומר עד כמה הממוצע הגלובלי שראינו ברנדום הוא מייצג טוב את כל המחקרים שנסקרו או‬
‫שהוא קצת מלאכותי כי יש שונות גבוהה‪ ,‬וזה יעודד אותי כחוקר לחפש מה מסביר את ההבדלים האלה‪ .‬כאן‬
‫החוקרים טענו שהמוצא האתני עוזר להסביר את ההבדלים‪( .‬רואים את זה ברנדום של כל אחת מהקבוצות‬
‫האתניות)‪.‬‬
‫במבחן הטרוגניות אפשר להכניס משתנים ספציפיים שעלו בטבלה הקודמת‪ ,‬ולראות איך כל אחד מהם משפיע על‬
‫ההטרו גניות וככה נדע מה המשתנה הממתן (זה יוצא כמו פלט של רגרסיה עם כל אחד מהמשתנים וציון‬
‫ההטרוגניות שהוא מגורם לו)‪ .‬במחקר כאן הם לא הביאו את הפלט הזה ולכן אנחנו לא רואים‪ ,‬אבל יצא להם‬
‫שהמוצא האתני הוא זה המשפיע‪ ,‬ולכן הם הציגו חלוקה כזאת בפלט פה למעלה‪.‬‬
‫דוגמה למחקר של קובי‪:‬‬
‫נבדק מה הקשר בין אמפתיה ויותר הגשת עזרה ב‪ 55‬מדינות‬

‫בעולם‪ 150 .‬איש בכל מדינה‪ .‬רואים את הקשר בכל אחת‬
‫מהמדינות‪ :‬רואים אם הקשר חיובי או שלילי‪ ,‬גודל האפקט‪...‬‬
‫בסוף רואים את הרנדום‪ .0.18 :‬כלומר יש קשר חיובי בין מידת‬

‫האמפתיה ומידת ביצוע פעולות של עזרה לזולת‪.‬‬
‫[אנחנו יודעים שזה תוצאה מובהקת כי הסוגריים מציגים את טווח‬

‫הביטחון (‪ )CI‬בו אנחנו מצפים שיהיו ‪ 95%‬מהמחקרים שבודקים‬
‫את השאלה באותם תנאים‪ ,‬אם הטווח הזה כולל את האפס זה‬
‫אומר שהקורלציה לא מובהקת‪ ,‬אבל אם זה לא כולל את האפס זה‬
‫מובהק)‪.‬‬
‫גם רואים את זה במקום אחר בפלט‪:‬‬
‫טבלה אמצעים של מובהקות מראה שהיא נמוכה מ‪ .0.01‬טבלה‬

‫ראשונה של השונות מראה יש שונות בין התוצאות (גם מובהקות‬
‫מתח ל‪.)0.001‬‬
‫עכשיו אנחנו רוצים לראות מה יכול להיות משתנה ממתן‪ ,‬נכניס‬

‫לתוכנה שתחשב איך משפיע המשתנה‪ :‬כמה אנשים במדינה מתו‬
‫מהקורונה‪.‬‬
‫התוכנה מחשבת ויוצא‪ :‬לא מובהק‪p= :‬‬
‫‪ .0.164‬כלומר לא זה מסביר את השונות בין‬
‫המדינות במידת העזרה בהקשר למידת‬
‫האמפתיה‪.‬‬
‫(בניגוד למחקר שראינו עם החלוקה לקבוצות אתניות – שהם עשו את החישוב הזה‪ ,‬וזה יצא משתנה מתווך‪ ,‬ולכן‬
‫ככה הציגו לנו את התוצאות!)‬
‫‪25.06.2020‬‬
‫השלמות‪:‬‬
‫מטא אנליזה – מעניין אותנו רק קשר מסוים בין שני משתנים‪ ,‬אמרנו שיש מדד שבודק את האפקט שאנחנו‬
‫מחפשים‪ ,‬לוקחים הרבה בדיקות כאלה‪ ,‬עם הרבה חזרות ובסוף מוציאים מסקנה כללית‪.‬‬
‫רגרסיה‪ :‬בודקים מה המשקל של גורמים שונים בעיצוב במציאות‪ .‬בפועל התופעות שמעניינות אותנו מושפעות‬
‫מגורמים שונים‪ ,‬והשאלה היא איך אנחנו יכולים לדעת מה המשקל של כל גורם פה‪ .‬הניתוח הסטטי' הוא‬
‫רגרסיה‪ ,‬אנחנו עסקנו במקרה הפשוט‪" ,‬רגרסיה פשוטה" – גורם אחד שאנחנו מחפשים את המשקל שלו‪ ,‬כמו‬
‫כמות הכסף שהושקעה בפרסום ואיך היא משפיעה על כמות המכירות‪ .‬לא נכנס שם סוג המוזיקה‪ ,‬המגדר של‬
‫האומנים‪ ,‬נראות וכו'‪...‬‬
‫דוגמה‪:‬‬
‫אנחנו רואים את הקשר בין כמות‬

‫המכירות של אלבומים לכסף שהושקע‬
‫בפירסום‪ .‬כל נקודה מייצגת אלבום מסוים‬
‫ואנחנו יכולים לראות כמה הרוויחו עליו‬
‫בשבוע הראשון על ידי הסתכלות בציר‬
‫הוואי ובציר האיקס אנחנו יכולים לראות‬
‫את גודל ההשקעה הכספית‪ .‬אנחנו רואים‬
‫קשר חיובי בין ההשקעה לרווחים‪.‬‬
‫טבלה‪:‬‬
‫כמה אחוז שונות מוסברת על ידי המשתנים (במקרה הזה כמות הכסף שהושקעה) ניתן לראות תחת ‪R‬‬
‫בריבוע (הערך של ‪ R‬בריבוע נע בין ‪ 0‬ל‪ .)1-‬כמות הכסף שהושקעה בפירסום עוזרת להגיע לניבוי של ‪33%‬‬
‫מהשונות שיש לנו במכירות‪.‬‬
‫אדג'סטד אר בריבוע‪ -‬מתחשב בכמות המקרים שהכנסנו לניתוח (כמות האלבומים)‪ .‬מדובר בתיקון שלוקח‬
‫בחשבון את מספר המקרים שעבורם חושב ה‪ R-‬בריבוע ואת השונות במקרים הללו‪ .‬ככל שכמות המקרים‬
‫גדולה יותר כך ההבדל בין ה‪ adjusted-‬ל‪ R -‬בריבוע יהיה קטן‪ .‬אנחנו מסתכלים עליו ולא על ה‪ R-‬בריבוע‪.‬‬
‫בטבלה למטה אנחנו יכולים לראות שלמשתנה הפרסום יש תרומה מובהקת‪ .‬יש להסתכל על ‪standardized‬‬
‫שזהו הערך המתוקנן כאשר אנחנו רוצים לדעת על הקשר בין כמות הכסף שהושקע לרווחים‪ .‬במקרה הזה‬
‫אנחנו רואים שהקשר הוא חיובי וגבוה‪.0.57 ,‬‬
‫האם יש דרך נוספת לגלות דברים נוספים שקשורים למשתנה התלוי? נעזר בניתוח רגרסיה מרובה‪.‬‬
‫בירור משקלם של גורמים שונים בעיצוב המציאות‬

‫‪ 357‬תלמידי תיכון בפורטוגל עברו שלוש בחינות לאורך השנה‪ .‬המורה רוצה לנבא את הציון של‬
‫התלמידים בבחינה הסופית על סמך מספר מדדים שיש לה (כמה זמן תלמיד דיווח שישב בכיתה‪ ,‬כמה‬
‫פעמים הוא נכשל‪ ,‬כמה העדרויות‪ ,‬מה הגיל שלו)‪.‬‬
‫הידע לגבי התרומה הייחודית של כל משתנה יכולה לסייע לנו לדעת מהם אותם מרכיבים שיכולים לגרום לנו‬
‫להגיע לתוצאה הכי גדולה‪ ,‬אם המרכיב הכי משמעותי הוא מספר הכישלונות זה אומר שהמורה צריכה לתת‬
‫סיוע מוקדם כדי שהילדים לא יכשלו בבחינות המוקדמות‬
‫ניתן לראות את המשתנים בטבלה התחתונה בעמודה השנייה בשמאל‪.‬‬

‫בסטנדרייזד ניתן לראות את גודל הקשר ואת כיוונו‪ ,‬ככל שהקשר גדול יותר אז התרומה היחסית היא גדולה‬
‫יותר (אחוז השונות המוסברת נקבע בעצם על ידי המתאם בריבוע)‪ .‬כדי שנדע לאיזה משתנה יש קשר יותר‬
‫גדול אנחנו צריכים להסתכל על הערכים בערך מוחלט‪ .‬ניתוח רגרסיה מרובה מראה לי את התרומה‬
‫הייחודית של כל אחד מהמשתנים‪ ,‬תרומה שהיא לא משותפת לשאר המשתנים‪ ,‬אלא עומדת בפני עצמה‪.‬‬
‫יכול להיות שאם רק היינו מכניסים משתנה אחד‪ ,‬נניח רק את ‪ studytime‬אז הקשר היה גדול יותר כי לא‬
‫הכנסנו עוד משתנה שיכול להיות שיש לו תרומה משותפת ביחד עם ה‪ .studytime-‬כאשר אנחנו כוללים‬
‫משתנים נוספים שיש להם תרומה משותפת עם ‪ studytime‬אז הסטנדרייזד לא יכלול את התרומה‬
‫המשותפת ולכן הקשר ישתנה‪.‬‬
‫אם נסתכל על הקורלציה של גיל‪,‬‬
‫אנחנו יכולים לראות שהקשר הוא‬
‫‪ -0.093‬כלומר יש כאן קצת פחות‬
‫מ‪ 1%-‬של שונות מוסברת‬
‫בציונים‪ .‬המנבא הגדול ביותר הוא‬
‫כמות הכישלונות‪ .‬אם נסתכל‬
‫תחת ה‪ ,intercept-‬של ‪ 1H‬נוכל‬
‫לראות שכאשר הקדישו אפס זמן‬
‫בלמידה‪ ,‬אפס כישלונות‪ ,‬אפס‬
‫העדרויות‪ ...‬אז המודל מנבא ‪15‬‬
‫נקודות במבחן (נקבע על פי הנתונים שנמצאים תחת ‪ .) unstandardized‬אם נסתכל על כישלונות נוכל‬
‫להסיק שעבור כל פעם שבן אדם נכשל בבחינה מוקדמת‪ ,‬מורידים לו שתי נקודות מהציון‪ ,‬עבור כל כישלון‬
‫נוסף של אדם ירדו שתי נקודות‪.‬‬
‫בטבלה הראשונה אנחנו רואים שהאג'סטד אר הוא ‪ 0.134‬מדובר בניבוי לגבי הציון בסדר גודל של ‪.13%‬‬
‫זה נחשב לבינוני גבוה‪.‬‬
‫לכל רגרסיה יש קבוע ויש שיפוע‪ .‬מה השינוי שחל בציר הוואי עם התקדמות של צעד אחד בציר האיקס? על‬
‫כל צעד אחד בציר האיקס‪ ,‬על כל ‪ 1000‬פאונד שמושקעים בפרסום של התקליט‪ ,‬יחול שינוי של ‪0.096‬‬
‫אלפים בציר הוואי‪ .‬כלומר המודל מנבא רווח של ‪ 96‬פאונדים על כל השקעה של ‪ 1000‬פאונד‪.‬‬
‫* במודל הרגרסיה אפשר לכלול גם משתנים שאינם רציפים‪ ,‬למשל עבור מגדר אפשר לציין בן כאפס ובת‬
‫כאחד ואז נוכל ללמוד לגבי התרומה היחודית של משתנה זהבתוך הרגרסיה‪.‬‬
‫סיכום על המבחנים‪:‬‬
‫מערך תוך‪ /‬בין נבדקי‬

‫כמה קטגוריות= כמה קבוצות למשתנה‬
‫כמה מנבאים= כמות המשתנים הבלתי‬
‫תלויים‬
‫סוג התוצאה= משתנה תלוי‬
‫סוג המנבאים= מה סולם המדידה של‬
‫המשתנה הבלתי תלוי‬
‫תשובה ב'‪.‬‬
‫תשובה א'‪.‬‬
‫דוגמאות לשאלות‪:‬‬
‫‪ .1‬למה נועדה הקצאה הרנדומלית של נבדקים לתנאי הניסוי?‬

‫א‪ .‬להגביר את אפקט המשתנה הבלתי תלוי‬
‫ב‪ .‬למנוע הסבר אלטרנטיבי להסבר של השפעת המשתנה הבלתי תלוי על המשתנה התלוי‬
‫ג‪ .‬לשפר תוקף חיצוני של הניסוי‬
‫ד‪ .‬להבטיח מציאת קשר סיבתי‬
‫‪ .2‬השימוש במערך המחקר של סולומון נועד ל‪:‬‬

‫א‪ .‬צמצום איומיום על התוקף החיצוני של הניסוי‬
‫ב‪ .‬צמצום איומים על התוקף הפנימי של הניסוי‬
‫ג‪ .‬צמצום איומים על תוקף המבנה של הניסוי אך מחיר של יצירת טעות הסקה‬
‫ד‪ .‬הגדלת רמת המובהקות (תוקף סטטיסטי)‪ ,‬אך צמצום התוקף החיצוני של הניסוי‬
‫‪ .3‬בוקספלוט בנוי מקופסה ושתי נטנות‪ .‬מה ניתן ללמוד מהאנטנות‪:‬‬

‫א‪ .‬מיקום הרבעון הראשון והשני‬
‫ב‪ .‬מיקום הרבעון השני והשלישי‬
‫ג‪ .‬הגבולות בהן מופיעות כל התצפיות שאינן חריגות‬
‫ד‪ .‬גבול מו מופיעים ‪ 50%‬מהתצפיות המרכזיות‬
‫‪ .4‬חוקרת בחנה את הקשר שבין אכפתיות ‪ EC‬לבין אחוז דיוק בזיהוי רגשות‪ .‬בהתבסס על הפלט מטה‪ ,‬ניתן‬
‫להסיק כי‪:‬‬
‫א‪ .‬ללא אכפתיות אחוז הדיוק עומד על כ‪23-‬‬
‫ב‪ .‬עם אכפתיות אחוז הדיוק עומד על כ‪49-‬‬
‫ג‪ .‬המודל מובהק ומסביר ‪ 7.5‬אחוז‬
‫ד‪ .‬מובהקות המודל נמוכה מ‪0.01‬‬
‫אחוז שונות מוסברת – יודעים לפי אר בריבוע‪ ,‬אז תשובה ג לא נכונה‪.‬‬
‫מובהקות רואים לפי סיג‪ ,‬כתוב ‪ 0.236‬אז זה לא נכון‬
‫סעיף ב מסתכלים על הבי‪ ,‬שזה שינוי באחוז הדיוק עם כל התקדמות של צעד בזיהוי רגשות אז זה לא נכון‬
‫סעיף א‪ :‬ללא אכפתיות ‪-‬כשהיא על אפס‪ ,‬אז הדיוק עומד על ‪ – 23‬נכון‪ ,‬כי הקבוע עומד על כמעט ‪ 23‬זה בשורה‬
‫למעלה ‪.22.95‬‬
‫‪ . 5‬לאחר ביצוע ניתוח גורמים מגשש נשאף לעבור מאוסף משתנים____ למספר גורמים____ אשר_____‬
‫א‪ .‬במתאם גבוה‪ ,‬קטן‪ ,‬במתאן גבוה‬
‫ב‪ .‬במתאם‪ ,‬זהה‪ ,‬איננו במתאם‬
‫ג‪ .‬במתאם‪ ,‬גדול יותר‪ ,‬אינם במתאם‬
‫ד‪ .‬המתאם‪ ,‬קטן יותר‪ ,‬אינם במתאם‬
‫המטרה היא לקחת הרבה משתנים שכולם קשורים ולקבץ אותם לקבוצות נפרדות‪ .‬אז התשובה היא ד‪ .‬יש בין כל‬
‫הגורמים מתאם גבוה‪ ,‬אנחנו רוצים לצמצם אותם למספר קטן של גורמים שהם מובחנים ולכן שהגורמים האלה‬
‫אינם במתאם‪.‬‬
‫‪ .6‬חוקר בחן את הקשר שבין מין המשתת‪ ,‬לביצוע במבחן זיהוי רגשות‪ .‬התקבלו הממצאים הבאים‪:‬‬
‫א‪ .‬לנשים יש ממוצע נמוך יותר ביכולתן לזהות רגשות בצורה מדוייקת‪.‬‬
‫ב‪ .‬לנשים יש שונות גבוהה יותר ביכולתן לזהות רגשות בצורה מדוייקת‪.‬‬
‫ג‪ .‬במדגם בהספציפי שנבדק‪ ,‬נשים הצליחו טוב יותר מגברים‪ ,‬אך לא ניתן להכליל ממצא זה‪.‬‬
‫ד‪ .‬במדגם הספציפי שנבדק‪ ,‬נשים הצליחו טוב יותר מגברים‪ ,‬וניתן להכליל ממצא זה‪.‬‬
‫רואים שאצל נשים יש פחות שונות כי הבוקס פלוט קטן יותר‪ .‬רואים שיש הבדל בין גברים ונשים‪ .‬הלוין אומר‬
‫שההנחה של שוויון שונויות הופרה ולכן זה לא לגיטימי לעשות את ההכללה הזאת שנשים כאילו יותר טובות‬
‫מדברים כי אצל הגברים יש הרבה מאד שונות‪ ,‬חלקם דומים לנשים וחלקם מאד דומים‪ .‬לכן ההכללה היא‬
‫בעייתית‪ .‬לכן התשובה היא ג‪ .‬תשובה ב לא נכונה ורואים את זה גם בבוקס פלוט וגם בעמודה של סעיף תקן‪.‬‬
‫במבחן‪ :‬אין חומר פתוח‪ 30 ,‬שאלות‪ ,‬הכל אמריקאי‪ ,‬שעתיים‪.‬‬
‫ביום חמישי ‪ 24.7‬נעשה ב‪ 14:00‬מפגש שאלות‪.‬‬

סיכום 2 עם שאלות לדוגמה

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

סיכום 2 עם שאלות לדוגמה

Uploaded by

Copyright:

Available Formats

‫מתודולוגיה וסטטיסטיקה מתקדמת במחקר בחינוך‬

‫ד"ר יעקב ישראלאשוילי‬

‫מטרות הקורס הן שנוכל לפתח חשיבה ביקורתית על ידע בתחום החינוך‪...‬‬

‫דרכים לרכישת מידע‪:‬‬

‫יש ‪ 4‬דרכים באמצעותן אנו מנסים להניח הנחות על העולם סביבנו‪:‬‬

‫איך זה עובד בפועל?‬

‫תהיה תיאורטית וניסוחה כשאלה ממוקדת‬ ‫א‪.‬‬

‫באיזה מידה ניתן לסמוך על ממצאי מחקרים?‬

‫‪ ‬כך התפתח משבר בתחום המחקרים‪ ,‬לאור מימדי כשל הרפלקציה‪.‬‬

‫ומה בתחום החינוך???‬

‫גורמים לכשל הרפלקציה‪:‬‬

‫כדי שיהיה אפשר להוכיח ששני דברים קשורים זה לזה‪:‬‬

‫א‪ .‬מציאת קשר סטטיסטי – צריך להוכיח ששניהם התרחשו יחד‪.‬‬

‫תפקיד המשתנים במחקר‪:‬‬

‫ברמה התצפיתית (תרגום יישומי‪ ,‬הצורה האופרציונלית = התפעולית)‪:‬‬

‫קשיים ובעיות שניתן להציג על כל מערכי מחקר‪:‬‬

‫מה משפיע על התוקף הסטטיסטי?‬

‫‪ ‬בכל הדוגמאות האלה יש לנו הסבר חיצוני אחר להשערה של החוקר‪.‬‬

‫כל אלה היו דוגמאות למצב של הסבר חלופי בין‬

‫השוואה בין קונפאונד וארטיפקט‪:‬‬

‫האם המבחן הזה מייצג היטב הבנה של אנשים במציאות?‬ ‫•‬

‫מערכי מחקר ניסויים‬

‫לפעמים מורכב להבין ממצאי מחקר פשוט‪:‬‬

‫אם מסתכלים בטבלה על החוג (תחום) אנחנו לא‬

‫רואים בשקופית הזו נתונים של מאמר שסקר את כל שיטות המחקר שנעשו‬

‫‪ .1‬הקטגוריה הכי פשטנית של תיאור בלבד ללא נתונים כמותיים‪.‬‬

‫שיטות איסוף נתונים‪:‬‬

‫דוגמאות למשתנים‪ :‬מין זה תמיד בין נבדקי‪ .‬ז'אנר‬

‫עוצמה = הסיכוי למצוא הבדל במידה והוא קיים‪.‬‬

‫רגישות = הסיכוי למצוא הבדלים קטנים במידה וקיימים‪.‬‬

‫איך מחושב כל אחד מהמושגים האלה?‬

‫אפשר גם לראות שעוצמה קשורה לאפקט ולשונות ורגישות קשורה לשונות‪.‬‬

‫‪ – X‬זהו סימון של ההתערבות‪ ,‬של מניפולציה‪.‬‬

‫במצגת רואים איך נראות ‪ 4‬הקבוצות במחקר‪.‬‬

‫קבוצה ראשונה ושניה עוברות מדידה‬

‫אבל סלומון אומר שזה לא מספיק וצריך גם‬

‫חזרה על מה שדברנו עד עכשיו‪:‬‬

‫(אימפקט פקטור מעל ‪ 1‬בתחומי חינוך נחשב טוב)‪.‬‬

‫מחקר שנעשה בהרווארד‪ ,‬פורסם ממש לאחרונה‪ ,‬בנוגע‬

‫חזרה על סוגי התקפים שלמדנו – הגדרה שלהם פה‬

‫המערך של סלומון מציע את ארבעת הקבוצות‬

‫ב‪ .‬עבור מי ובאילו תנאים ההתערבות אפקטיבית?‬

‫שיטות מחקר ויזואליות להבנת מגמה מרכזית לצד הבדלים אינדיבידואליים‬

‫ציר ‪ – y‬מספר הסיוטים בשבוע שאנשים דווחו‬

‫כשאנחנו בודקים אם מאמר עומד בסטנדרטים טובים‪ ,‬אחת‬

‫בתחילה לא תקשרו לנו מה ההבדלים והאם הם מובהקים‪.‬‬

‫קבוצת התערבות מסורתית‪:‬‬

‫מה שיפה בהצגה הזאת‬

‫הטריק הוויזואלי של למתוח את זה כאילו זה‬

‫דוגמה ‪ :3‬גידול כלכלי בארצות הברית בשנות ה‪ 80-‬וה‪.90-‬‬

‫בתוך שנות ה‪ 80‬הממוצע הזה אומר מעט‬

‫בשנות ה‪ 90‬היתה עליה אבל עם פחות תנודות‪,‬‬

‫עמודה שחורה‪ -‬ממוצע המחשבות‬

‫רואים גם את הממוצע וגם אנטנה‬

‫הגרף בצד שמאל זוהי הצגה טובה של‬

‫(למקד הכוונה מובהק או לא‪ .‬גם אם זה נראה הבדל צריך להדגיש)‪.‬‬

‫עד כאן דרכים טובות ולא טובות לדווח על מאמרים‪.‬‬

‫דרכים ויזואליות להצגת נתונים‪:‬‬

‫חישוב הממוצע והחציון פה אומר‬

‫הגרף התחתון‪ :‬אפקט רצפה‪ ,‬כלומר‬

‫השימוש בממוצע בצד שמאל הוא פחות טוב כי יש‬

‫כאן לדוגמה היסטוגרמה עם תוצאות מבחן מסוים‪ ,‬הציונים‬

‫אמרנו שכשהפיזור יותר רחב יש יותר הבדלים בין המשתתפים‬

‫הנקודות אלה התצפיות‪ ,‬אלה הנתונים עצמם של המשתתפים‬