Professional Documents
Culture Documents
Econometric Research Tel Aviv University
Econometric Research Tel Aviv University
מגישים
דניאל וולקוביץ
הילה יתיר
חלק א -הצגת שאלת המחקר וחשיבותה הכלכלית
מטרת מחקרו של ALAN B. KRUEGERהיא לעמוד על טיבו של הקשר בין גודל הכיתות של תלמידים
בגילאי הגן והיסודי עד כיתה ג ,לבין הצלחתם בלימודים .במאמר ,המשתנה המוסבר הוא הציון הממוצע של
התלמיד במבחני קריאה ומתמטיקה ,והמשתנה המסביר העיקרי הוא גודל הכיתה ,כמו כן משתנים
מסבירים משמעותיים נוספים הם האם התלמיד שובץ בכיתה גדולה או קטנה ,והאם לכיתה הייתה סייעת.
הסיבה לכך שמחקרי עבר לא הצליחו להביא מסקנה חד משמעית בנושא היא ככה"נ בעקבות קיומם של
משתנים מושמטים באמידות שהיוו הבסיס למחקרים אלו .המשתנה המושמט במחקר יכול להיות ברמת
התלמיד ,בית הספר ,הכיתה או אפילו המדינה ,ועל כן מאוד מורכב לכלול באמידה אחת את כלל המשתנים
המסבירים הרלוונטיים .בנוסף קשה למדוד באופן מדויק את השפעת החינוך על הישגי התלמיד שכן יש
משתנים רבים נוספים שמשפיעים על הישגיו של התלמיד (כגון רקע סוציו-אקונומי או הפרעות קשב וריכוז).
על מנת להתגבר על בעיית המשתנים המושמטים ,מחקרים בדר"כ מודדים את הפערים בין ציוני התלמיד
בתחילת המחקר ובסופו .כאשר עפ"י מדידה זו נקבעת רמת השפעת החינוך על התלמיד .אבל שיטה זו
מוגבלת כאשר קיימים משתנים מושמטים אשר חשובים להבנת הקשר בין חינוך ובין הישגי התלמיד ,שכן
היא אינה מסוגלת לקחת את השפעות משתנים אלו בחשבון .כדי להימנע מהבעיות האמורות לעיל ,ניתן
לקיים מחקר שבו המורים והתלמידים מוקצים באופן רנדומלי לחלוטין לכיתות עם משאבים שונים וכך
תיפתר בעיית הספציפיקציה ,אשר מונעת קבלת השפעה סיבתית בין החינוך שמקבל התלמיד ובין הישגיו.
כך ,גם במחקר זה תיתכן הטיה אפשרית בעקבות בעיית השמטת המשתנים עקב הפרה של ההנחה
הקלאסית ¿ . Eלדוגמא ,נניח שבמודל עליו מבוסס המחקר המקדם של המשתנה המסביר גודל הכיתה הוא
. β 1אזי ניתן לחשוב לדוגמא על המשתנה parentsinvolvmentשהמקדם שלו הינו , β 2ואשר אינו נכלל
במשתנים המסבירים של המודל ,ושמשמעותו היא מעורבות הורי התלמיד בביה"ס ובמתכונת הלימודים.
סביר להניח שהמשתנים המסבירים מתואמים באופן שלילי ,כיוון שהוריו של תלמיד אשר הוקצה לכיתה
גדולה ,ואשר הם מעורבים במתכונת הלימודים שלו ,צפויים להעדיף להעביר אותו לכיתה קטנה שתספק לו
למידה איכותית יותר (למשל ע"י העברת התלמיד לבי"ס פרטי עם כיתות קטנות) .כמו כן סביר שמעורבות
הוריו של התלמיד במתכונת הלימודים משפיעה לטובה על רמת הישגיו בלימודים ולכן באופן חיובי על
^ יהיה מוטה כלפי מטה.
המשתנה המוסבר . scoreiמכאן שהאומד β 1
על מנת לבדוק את שאלת המחקר ,החוקר חילק את בתי הספר בהם הניסוי התקיים לקבוצת טיפול וקבוצת
ביקורת ,כאשר הקבוצות נבחרו באופן רנדומלי לחלוטין .הטיפול שבוצע הוא הפיכת הכיתות בקבוצת
הטיפול לכיתות קטנות או הוספת סייעת בנוסף למורה הקיים לכיתה .לאחר מכן ,השווה החוקר בין
תוצאות המבחנים השנתיים של קבוצת הטיפול והביקורת במטרה לזהות את מגמת ההשתפרות במבחנים
של הקבוצות בנפרד לאורך השנים.
החוקר מסביר שהמחקר שלו מתגבר על אתגרים שהיוו מכשול במחקרים שקדמו לו ,כיוון שאצלו בניגוד
אליהם בוצע ניסוי נרחב למטרות המחקר .זאת כאשר במחקרים קודמים בוצעה הסקת מסקנות על בסיס
עריכת תצפיות על כיתות קיימות ,וכך התקיימה בהם בעיית אנדוגניות .בעיה זו מתקיימת כאשר התלמידים
והמורים אשר מוקצים לכיתות השונות אינם מוקצים באופן אקראי ,אלא הקצאתם נקבעת על ידי מספר
גורמים לא נצפים המשפיעים גם הן על תוצאות רגרסיה ,כך שהמשתנים המסבירים נמצאים בקורלציה עם
ההפרעות האקראיות ואילו בניסוי ההקצאה בוצעה באופן אקראי לגמרי .החוקר טוען שבאמצעות הניסוי
הצליח להתגבר על בעיית האנדוגניות שנוצרת כתוצאה מכך.
ראשית יש לציין שהשמטנו רשומות אשר הכילו nullעל מנת לשמור על נתונים מלאים ועשירים .אמנם בכך
וויתרנו על מספר תצפיות ,אבל העדפנו לעשות זאת על מנת שלא להיכנס למורכבויות בהן חסרים לנו נתונים
על אודות משתנים מסוימים.
להלן המשוואה אשר נבחרה לטובת אמידת הקשר בין גודל הכיתה ובין הציון של תלמיד ,בהתייחסות לכיתות
רגילות בלבד:
scorei=β 0 + β 1 csi + β 2 boyi + β 3 blacki + β 4 ses 1i + β 5 schtypesuburbani+ β6 schtyperurali + β 7 schtypeurbani + β 8 totexp 1i + β 9 totexp 1i2+ β 10 tr
זאת כאשר את המשתנה schtype1פיצלנו לשלושה משתני דמי נפרדים ,על מנת לא ליצור כבילה שתכריח את
האמידה להתחשב באופן סדרתי ליניארי באזורים השונים בהם בתי הספר נמצאים.
>0.000000000000000
60.723 8.654 525.507 חותך
2
0.000003163641 -4.666 0.302 -1.409 cs
0.000001664713 -4.797 1.211 -5.810 boy
0.000000000023 -6.703 5.238 -35.112 black
>0.000000000000000
16.306 1.412 23.027 ses1
2
0.000045181425 4.083 2.214 9.042 schtype_suburban
0.000000001599 6.047 2.414 14.600 schtype_rural
0.000018852130 4.283 3.048 13.053 schtype_urban
0.09308 -1.680 3.659 -6.146 trace1
0. 0.00017 3.763 4.196 15.789 black*trace1
חותך :תלמידה לבנה ממין נקבה ממעמד סוציו-אקונומי נמוך והיא לומדת בבי"ס שנמצא באזור עירוני תהיה בעלת
ציון ממוצע במבחן של ,525.5כאשר שאר המשתנים מוחזקים קבוע .האומד מובהק סטטיסטית.
:csהוספת תלמיד כלשהו לכיתה מתואמת עם ירידה של 1.4נקודות בציון התלמיד בממוצע ,כאשר שאר המשתנים
מוחזקים קבוע .האומד מובהק סטטיסטית.
:boyהיות התלמיד ממין זכר מתואם עם ירידה של 5.8נקודות בממוצע בציון התלמיד ,כאשר שאר המשתנים
מוחזקים קבוע .האומד מובהק סטטיסטית.
:Blackהיותו של התלמיד שחור מתואם עם ירידה של 35.1נקודות בממוצע בציון התלמיד ,כאשר שאר
המשתנים מוחזקים קבוע .האומד מובהק סטטיסטית.
: ses1היותו של התלמיד מרקע סוציו-אקונומי גבוה מתואם עם עלייה של 23.03נקודות בממוצע בציון
התלמיד ,כאשר שאר המשתנים מוחזקים קבוע .האומד מובהק סטטיסטית.
:Schtype1_suburbanהיות ביה"ס של התלמיד ממוקם באזור פרברי מתואם עם עלייה של 9.04נקודות בממוצע
בציון התלמיד ,כאשר שאר המשתנים מוחזקים קבוע .האומד מובהק סטטיסטית.
:Schtype1_ruralהיות ביה"ס של התלמיד ממוקם באזור כפרי מתואם עם עלייה של 14.6נקודות
בממוצע בציון התלמיד ,כאשר שאר המשתנים מוחזקים קבוע .האומד מובהק סטטיסטית.
:Schtype1_urbanהיות ביה"ס של התלמיד ממוקם באזור עירוני מתואם עם עלייה של 13.05נקודות
בממוצע בציון התלמיד ,כאשר שאר המשתנים מוחזקים קבוע .האומד מובהק סטטיסטית.
:trace1היותו של מורה התלמיד שחור ,מתואם עם ירידה של 6.15בממוצע בציון התלמיד ,כאשר שאר
המשתנים מוחזקים קבוע .האומד אינו מובהק סטטיסטית.
: black*trace1התוספת לממוצע ציון התלמיד כאשר התלמיד שחור והמורה שלו שחור הינו של 15.79
בממוצע .תוספת זו הינה מעבר להשפעה שיש לצבע עורו של המורה ולבצע עורו של התלמיד לבדם .האומד
מובהק סטטיסטית.
המודל כולו מובהק שכן עפ"י פלט הרגרסיה מתקיים F s=1 25 .5וערך זה גדול מכל F cבטבלאת .F
לעניות דעתנו ,המודל איננו מבטא את ההשפעה הסיבתית של גודל הכיתה על הישגי התלמידים באומד לβ 1-
מכיוון שהמודל אינו לוקח בחשבון את ההשפעה הקבועה שיש לכל בי"ס על תוצאות האמידה ,ולכן האמדים
שלו מוטים .על מנת להתגבר על הבעיה ,יש להתחשב בהשפעה הזו כפי שנעשה בהמשך.
מעתה והלאה נאמוד מודלים עם FEלביה"ס בו התלמיד למד .כאשר מוסיפים FEלביה"ס אנו מנטרלים את
ההשפעה של המאפיינים הבלתי נצפים של אותו ביה"ס שקבועים על פני זמן .ללא בקרה על משתנים אלו עשויה
להיות לנו בעיה של אנדוגניות במודל מכיוון שהתכונות הבלתי-נצפות של אותם בתי ספר עשויות להיות
מתואמות עם המשתנים המסבירים במודל.
זה המקום לציין כי ראוי לעשות תיקון CLUSSTERINGלכל בי"ס .נתוני פאנל כוללים תצפיות
מקבוצות שונות ,ולכן סביר להניח שההנחה שאין קשר בין ההפרעות האקראית של פרטים שונים אינה
מתקיימת שכן ,סביר שההפרעות האקראית של תלמידים באותו בי"ס מתואמות וזו בדיוק הפרה של הנחה
קלאסית .כלומר אנו מעריכים שמתקיים . cov ( ε is , ε js ) ≠ 0 :אך מכיוון שהובהר כי ביצוע התיקון חורג מגבולות
העבודה הזו ,בחרנו שלא לבצע אותו .כלומר סביר להניח שהשוניות במחקר בפועל אינן זהות לשונויות שנאמדו
בעבודה זו.
בניסוי ,הקבוצה המטופלת היא התלמידים אשר לומדים בכיתות הקטנות ואילו קבוצת הביקורת היא
התלמידים אשר לומדים בכיתות בקנה מידה רגיל.
להלן טבלה אשר מפרטת את ההפרשים בין המאפיינים של קבוצת הביקורת ובין המאפיינים של קבוצת
הטיפול ואת מובהקותם:
בחרנו את המשתנים שבעיננו הכי חשוב שמאפייניהם יהיו דומים בין שתי הקבוצות ,על מנת שהניסוי יוכל
להוכיח את האפקט של הקטנת גודל הכיתה בקבוצת הטיפול .מכיוון שמרבית ההפרשים אינם מובהקים ,סביר
להגיד כי המאפיינים בין הקבוצות דומים ותוקף הניסוי בעינו עומד .זו התוצאה לה ציפינו ,שכן אם לא היה כך,
אזי הניסוי לא היה תקף וככה"נ כלל לא היה מופץ .בעולם אידאלי היינו מצפים שכל ההבדלים לא יהיו
מובהקים כלל ,אך סביר שבניסוי אמפירי אמיתי ישנם מספר משתנים אשר ההבדל ביניהם הוא מובהק.
להלן משוואת אמידת מודל LPMאשר אומד את הקשר בין גודל הכיתה ובין מאפייני התלמיד:
( 2 ) sc 1is =β 0+ β1 boy i+ β2 black i+ β3 ses 1i+ β 4 sbirthy 1978i + β 5 sbirthy 1979i + β 6 sbirthy 1980i + β 7 sbirthy 1981i+ c s +ε i
בהכרח יש צורך לעשות תיקון לשוניות מכיוון שזהו מודל ,LPMואחד מחסרונותיו הוא הפרת הנחת
ההומוסקדסטיות ,זאת מכיוון שהמשתנה המוסבר הוא בינארי ועל כן גם ההפרעה האקראית היא בינארית
ובהינתן משתנה מסביר ההפרעה תגדל או תקטן בתיאום אליו.
על כן השערת האפס נדחית ,והמשתנים המסבירים מובהקים במשותף .זוהי אינה תוצאה צפויה ,שכן
המשמעות היא שיש קשר בין מאפייני התלמידים לבין גודל הכיתה ,ומכאן שהתלמידים לא חולקו באופן
רנדומלי מספק .השאיפה במחקר היא דווקא שהשערת האפס תתקבל ,ושלא יהיה קשר מובהק בין המשתנים
לגודל הכיתה.
כעת יש לאמוד מודל אשר המשתנה המוסבר בו הוא הציון הממוצע של התלמיד ,והמשתנה המסביר הוא גודל
הכיתה ,זאת תוך התחשבות ב:fixed effect-
משמעות α^ 1במודל ( :)3בכיתה קטנה הציון הממוצע של תלמיד גבוה מאשר בכיתה גדולה ב 12.85-נקודות
בממוצע ,כאשר שאר המשתנים מוחזקים קבוע .האומד מובהק סטטיסטית.
לאחר שביצענו אמידה ללא משתנים מפקחים כלל ,נוסיף משתנים כאלו:
( 4 ) score is =β 0+ β 1 sc 1i+ β2 boy i + β 3 black i + β 4 ses 1i+ β 5 hdeg 1 MA i + β 6 hdeg 1 Specialist i + β 7 hdeg 1 Phd i+ β 8 totexp 1i + β 9 totexp 1
לאחר שאמדנו את המודל נבחן האם המשתנים המסבירים שבחרנו להוסיף למודל מובהקים במשותף,
באמצעות מבחן :F
מכאן שיש לדחות את השערת האפס ,ולפחות אחד מן האמדים איננו אפס .ניתן להסיק מכך שהמשתנים
המפקחים שהוספנו למודל תרמו ליכולת ההסבר שלו.
באמידה ( )3מתקיים α^ 1=12.85 , σ α^ =1.14ואילו לאחר הוספת המשתנים המסבירים באמידה ( )4מתקיים
1
^β 1=11.12 , σ ^β =1. 09כאשר בשתי האמידות אמדים אלו הם מובהקים ומשמשים כאמדים למשתנה המסביר 1
. sc 1כלומר האמדים מאוד דומים ,לעניות דעתנו המשמעות מתוצאות אלו היא ,שההקצאה של התלמידים
נעשתה באופן רנדומלי מספק ,כך שהמשתנה לגודל הכיתה איננו מוטה בעקבות השמטת משתנים.
בנוסף ,ברצוננו לבדוק האם קיים הבדל בקשר בין למידה בכיתה קטנה לבין הציון הממוצע של התלמיד בין
תלמידים במצב סוציו-אקונומי גבוה לנמוך ,ע"י שימוש במודל "הפרש ההפרשים" וזאת בהתבסס על אמידה (
:)4
( 5 ) score is =β 0+ β1 sc 1i + β 2 boy i + β 3 black i + β 4 ses 1i+ β5 hdeg 1 MAi + β 6 hdeg 1 Specialist i + β 7 hdeg 1 Phd i+ β 8 totexp 1i + β 9 totexp 1
במודל זה האומד ל β 12-מסמל את הפרש ההפרשים ,אומד זה מסמל האם השיבוץ לכיתה קטנה מחריף או
מצמצם את הפערים בציון הממוצע בין תלמידים ממצב סוציו-אקונומי נמוך לבין התלמידים ממצב
סוציו-אקונומי גבוה.
כעת יש לבצע מבחן tכדי לבחון את מובהקות האמד : ^β 12
H 0 : β 12=0
H 1 : else
^β 9−β 9 2.72741
=t s = =1.252<t c (6012 ,0.975)=1.96
s . e . ^β 2.17916
9
מכיוון שנמצא שמתקיים ¿| ,|t s|<¿|t cיש לקבל את השערת האפס .כלומר ,האומד אינו מובהק והמשמעות היא
שאין הבדל בין הציון הממוצע של תלמיד ממצב סוציו-אקונומי נמוך לבין הציון הממוצע של תלמיד ממצב
סוציו-אקונומי גבוה.
ברצוננו להשתמש במשתנה sc 1iכמשתנה עזר למשתנה ,cs iובהתאם לכך ההנחות הנדרשות על מנת לבצע
אמידה בעזרת IVהן:
: cov ( sc 1i , csi ) ≠ 0כלומר קיים מתאם בין מס' התלמידים בכיתה ובין גודל הכיתה ,את הנחה זו ניתן .1
לבדוק מתמטית ,והיא אכן מתקיימת שכןcov ( sc 1i , csi ) =−1.468994 :
:cov ( sc 1i , ε i )=0כלומר אין קשר בין היותה של כיתה ,כיתה קטנה ,לבין ההפרעות אקראיות אצל .2
התלמיד .הנחה זו סבירה בעיננו מכיוון שההקצאה לכיתה קטנה נעשית באופן רנדומלי.
לא קיים קשר סיבתי ישיר בין המשתנה המוסבר לבין משתנה העזר .זו הנחה סבירה בעיננו מכיוון .3
שאמנם לגודל הכיתה יש השפעה עקיפה על המשתנה המוסבר בכך שבכיתה קטנה מורה מסוגל לתת
יותר תשומת לב לכל תלמיד ותלמיד .אך ,אין גודל הכיתה משפיע באופן ישיר על הציון.
( 6 ) cs is =α 0 +α 1 sc 1i +c s + ε i
<0.000000000000000
-206.9 0.03428 -7.09256 Sc1
2
משמעות α^ 1באמידה ) 6(:בכיתה קטנה הציון הממוצע של תלמיד נמוך מאשר בכיתה גדולה ב 7.09 -נקודות
בממוצע ,כאשר שאר המשתנים מוחזקים קבוע .האמד מובהק סטטיסטית.
כעת נוסיף למודל את המשתנים המפקחים צבע הפרט ,מצב סוציו-אקונומי ומגדר (תוך התחשבות באפקט
הקבוע של ביה"ס):
( 7 ) cs is =β 0+ β1 sc 1i + β 2 boy i + β 3 black i + β 4 ses 1i+ c s +ε i
<0.000000000000000
-206.707 0.03431 -7.09235 Sc1
2
0.429 -0.792 0.03074 -0.02434 Boy
0.468 -0.726 0.06153 -0.04466 Black
0.568 -0.572 0.03697 -0.02113 ses1
ניתן לראות מהשוואה בין תוצאות האמידות כי המקדם למשתנה של כיתה קטנה ,כלל לא השתנה .דבר אשר
מעיד על כך שההקצאה הרנדומלית לכיתות נעשתה באופן מספק.
מטרת המשוואה הראשונה היא להשתמש בשונות האקסוגנית של משתנה העזר sc1על מנת לנקות מהמשתנה
המסביר csשונות אנדוגנית ,והיא גם משמשת לבדיקה שמשתנה העזר אכן משפיע על המשתנה המסביר
האנדוגני (כפי שכבר נבדק לעיל) .המשוואה זהה לאמידה (.)6
מטרת המשוואה השנייה היא לאמוד את הקשר בין המשתנה המסביר csשנאמד במשוואה הראשונה למשתנה
המוסבר ,כך שהמשתנה המוסבר מכיל שונות אקסוגנית בלבד ,להלן המשוואה:
#make a regression for score only on classes which are normal sized
df_normal_size_class <- subset(df, cltype1 == 2)
model <- lm(score ~ cs + boy + black + ses1 + factor(schtype1) + trace1 +
black:trace1
, data=df_normal_size_class)
summary(model)
mean(df$black[df$sc1==0])
mean(df$black[df$sc1==1])
summary(felm(black ~ sc1 | schid1n,data = df))
mean(df$white[df$sc1==0])
mean(df$white[df$sc1==1])
summary(felm(white ~ sc1 | schid1n,data = df))
mean(df$ses1[df$sc1==0])
mean(df$ses1[df$sc1==1])
summary(felm(ses1 ~ sc1 | schid1n, data = df))
mean(df$totexp1[df$sc1==0])
mean(df$totexp1[df$sc1==1])
summary(felm(totexp1 ~ sc1 | schid1n, data = df))
mean(df$trace1[df$sc1==0])
mean(df$trace1[df$sc1==1])
summary(felm(trace1 ~ sc1 | schid1n, data = df))
mean(df$trace1[df$sc1==0])
mean(df$trace1[df$sc1==1])
summary(felm(trace1 ~ sc1 | schid1n, data = df))
#LPM regression for the size of a class according to the student related variables
modelLPM <- felm(sc1 ~ boy + black + ses1 + factor(sbirthy) | schid1n, data=df)
summary(modelLPM)
#perform 2SLS
TSLSmodel <- felm(score ~ boy + black + ses1 | schid1n | cs ~ sc1 , data=df)
summary(TSLSmodel)