You are on page 1of 16

‫אוניברסיטת תל אביב‬

‫ביה"ס לכלכלה ע"ש איתן ברגלס‬


‫החוג לכלכלה‬
‫עבודה מסכמת בקורס מבוא לאקונומטריקה‬

‫מרצות‪ :‬פרופ׳ אנליה שלוסר‪ ,‬גברת נועה דה לה וגה‬

‫מגישים‬
‫דניאל וולקוביץ‬
‫הילה יתיר‬
‫חלק א ‪ -‬הצגת שאלת המחקר וחשיבותה הכלכלית‬

‫מטרת מחקרו של ‪ ALAN B. KRUEGER‬היא לעמוד על טיבו של הקשר בין גודל הכיתות של תלמידים‬
‫בגילאי הגן והיסודי עד כיתה ג‪ ,‬לבין הצלחתם בלימודים‪ .‬במאמר‪ ,‬המשתנה המוסבר הוא הציון הממוצע של‬
‫התלמיד במבחני קריאה ומתמטיקה‪ ,‬והמשתנה המסביר העיקרי הוא גודל הכיתה‪ ,‬כמו כן משתנים‬
‫מסבירים משמעותיים נוספים הם האם התלמיד שובץ בכיתה גדולה או קטנה‪ ,‬והאם לכיתה הייתה סייעת‪.‬‬

‫הסיבה לכך שמחקרי עבר לא הצליחו להביא מסקנה חד משמעית בנושא היא ככה"נ בעקבות קיומם של‬
‫משתנים מושמטים באמידות שהיוו הבסיס למחקרים אלו‪ .‬המשתנה המושמט במחקר יכול להיות ברמת‬
‫התלמיד‪ ,‬בית הספר‪ ,‬הכיתה או אפילו המדינה‪ ,‬ועל כן מאוד מורכב לכלול באמידה אחת את כלל המשתנים‬
‫המסבירים הרלוונטיים‪ .‬בנוסף קשה למדוד באופן מדויק את השפעת החינוך על הישגי התלמיד שכן יש‬
‫משתנים רבים נוספים שמשפיעים על הישגיו של התלמיד (כגון רקע סוציו‪-‬אקונומי או הפרעות קשב וריכוז)‪.‬‬
‫על מנת להתגבר על בעיית המשתנים המושמטים‪ ,‬מחקרים בדר"כ מודדים את הפערים בין ציוני התלמיד‬
‫בתחילת המחקר ובסופו‪ .‬כאשר עפ"י מדידה זו נקבעת רמת השפעת החינוך על התלמיד‪ .‬אבל שיטה זו‬
‫מוגבלת כאשר קיימים משתנים מושמטים אשר חשובים להבנת הקשר בין חינוך ובין הישגי התלמיד‪ ,‬שכן‬
‫היא אינה מסוגלת לקחת את השפעות משתנים אלו בחשבון‪ .‬כדי להימנע מהבעיות האמורות לעיל‪ ,‬ניתן‬
‫לקיים מחקר שבו המורים והתלמידים מוקצים באופן רנדומלי לחלוטין לכיתות עם משאבים שונים וכך‬
‫תיפתר בעיית הספציפיקציה‪ ,‬אשר מונעת קבלת השפעה סיבתית בין החינוך שמקבל התלמיד ובין הישגיו‪.‬‬

‫כך‪ ,‬גם במחקר זה תיתכן הטיה אפשרית בעקבות בעיית השמטת המשתנים עקב הפרה של ההנחה‬
‫הקלאסית ¿ ‪ . E‬לדוגמא‪ ,‬נניח שבמודל עליו מבוסס המחקר המקדם של המשתנה המסביר גודל הכיתה הוא‬
‫‪ . β 1‬אזי ניתן לחשוב לדוגמא על המשתנה ‪ parentsinvolvment‬שהמקדם שלו הינו ‪ , β 2‬ואשר אינו נכלל‬
‫במשתנים המסבירים של המודל‪ ,‬ושמשמעותו היא מעורבות הורי התלמיד בביה"ס ובמתכונת הלימודים‪.‬‬

‫אזי ניסוח בעיית ההטיה הפורמלי הוא‪:‬‬

‫¿ ¿ ‪E ( β^1 ) =β1 + β 2 ×cov‬‬

‫סביר להניח שהמשתנים המסבירים מתואמים באופן שלילי‪ ,‬כיוון שהוריו של תלמיד אשר הוקצה לכיתה‬
‫גדולה‪ ,‬ואשר הם מעורבים במתכונת הלימודים שלו‪ ,‬צפויים להעדיף להעביר אותו לכיתה קטנה שתספק לו‬
‫למידה איכותית יותר (למשל ע"י העברת התלמיד לבי"ס פרטי עם כיתות קטנות)‪ .‬כמו כן סביר שמעורבות‬
‫הוריו של התלמיד במתכונת הלימודים משפיעה לטובה על רמת הישגיו בלימודים ולכן באופן חיובי על‬
‫^ יהיה מוטה כלפי מטה‪.‬‬
‫המשתנה המוסבר ‪ . scorei‬מכאן שהאומד ‪β 1‬‬
‫על מנת לבדוק את שאלת המחקר‪ ,‬החוקר חילק את בתי הספר בהם הניסוי התקיים לקבוצת טיפול וקבוצת‬
‫ביקורת‪ ,‬כאשר הקבוצות נבחרו באופן רנדומלי לחלוטין‪ .‬הטיפול שבוצע הוא הפיכת הכיתות בקבוצת‬
‫הטיפול לכיתות קטנות או הוספת סייעת בנוסף למורה הקיים לכיתה‪ .‬לאחר מכן‪ ,‬השווה החוקר בין‬
‫תוצאות המבחנים השנתיים של קבוצת הטיפול והביקורת במטרה לזהות את מגמת ההשתפרות במבחנים‬
‫של הקבוצות בנפרד לאורך השנים‪.‬‬

‫החוקר מסביר שהמחקר שלו מתגבר על אתגרים שהיוו מכשול במחקרים שקדמו לו‪ ,‬כיוון שאצלו בניגוד‬
‫אליהם בוצע ניסוי נרחב למטרות המחקר‪ .‬זאת כאשר במחקרים קודמים בוצעה הסקת מסקנות על בסיס‬
‫עריכת תצפיות על כיתות קיימות‪ ,‬וכך התקיימה בהם בעיית אנדוגניות‪ .‬בעיה זו מתקיימת כאשר התלמידים‬
‫והמורים אשר מוקצים לכיתות השונות אינם מוקצים באופן אקראי‪ ,‬אלא הקצאתם נקבעת על ידי מספר‬
‫גורמים לא נצפים המשפיעים גם הן על תוצאות רגרסיה‪ ,‬כך שהמשתנים המסבירים נמצאים בקורלציה עם‬
‫ההפרעות האקראיות ואילו בניסוי ההקצאה בוצעה באופן אקראי לגמרי‪ .‬החוקר טוען שבאמצעות הניסוי‬
‫הצליח להתגבר על בעיית האנדוגניות שנוצרת כתוצאה מכך‪.‬‬

‫התוצאות העיקריות של המחקר הן‪:‬‬


‫ביצועי המבחנים של תלמידי הכיתות הקטנות עלו בשנה הראשונה בארבעה אחוזים בממוצע‪ ,‬ובשנים‬ ‫‪.1‬‬
‫שלאחר מכן העלייה מתונה יותר ועומדת על אחוז אחד משנה לשנה‪.‬‬
‫הוספת סייעת לכיתה לא השפיע בצורה משמעותית על ביצועי התלמידים‪.‬‬ ‫‪.2‬‬
‫תלמידים אשר הינם בני מיעוטים הושפעו באופן חד יותר מהמעבר לכיתה קטנה‪.‬‬ ‫‪.3‬‬
‫השפעת מאפייני המורה על הישגי התלמידים לא הייתה משמעותית‪.‬‬ ‫‪.4‬‬

‫חלק ב ‪ -‬ביצוע עבודה אמפירית‬

‫ראשית יש לציין שהשמטנו רשומות אשר הכילו ‪ null‬על מנת לשמור על נתונים מלאים ועשירים‪ .‬אמנם בכך‬
‫וויתרנו על מספר תצפיות‪ ,‬אבל העדפנו לעשות זאת על מנת שלא להיכנס למורכבויות בהן חסרים לנו נתונים‬
‫על אודות משתנים מסוימים‪.‬‬

‫להלן טבלת נתונים סטטיסטיים על אודות המשתנים העיקריים במחקר‪:‬‬

‫חציון מינימום מקסימום‬ ‫סטיית תקן‬ ‫ממוצע‬ ‫משמעות‬ ‫משתנה‬

‫ציון ממוצע של התלמיד במבחן‬


‫‪663.5‬‬ ‫‪413.5‬‬ ‫‪523‬‬ ‫‪0.584056725‬‬ ‫‪526.6‬‬ ‫‪score‬‬
‫הראשון‬
‫משתנה דמי לסוג הכיתה‪:‬‬
‫דמי‬ ‫דמי‬ ‫דמי‬ ‫‪0.005829718‬‬ ‫‪0.2923‬‬ ‫‪sc1‬‬
‫‪-1‬אם התלמיד למד בכיתה קטנה‬
‫‪-0‬אחרת‬
‫משתנה דמי לגזע התלמיד‪:‬‬
‫דמי‬ ‫דמי‬ ‫דמי‬ ‫‪0.006027710‬‬ ‫‪0.3266‬‬ ‫‪-1 black‬אם התלמיד הוא שחור‬
‫‪-0‬אחרת‬
‫משתנה דמי למין התלמיד‪:‬‬
‫דמי‬ ‫דמי‬ ‫דמי‬ ‫‪0.006401292‬‬ ‫‪0.5178‬‬ ‫‪-1‬אם התלמיד הוא ממין זכר‬ ‫‪boy‬‬
‫‪-0‬אחרת‬
‫ציון התלמיד בקריאה במבחן ‪sesat ii‬‬
‫‪651‬‬ ‫‪404‬‬ ‫‪514‬‬ ‫‪0.705877300‬‬ ‫‪521.6‬‬ ‫‪treadss1‬‬
‫‪Stanford‬‬
‫‪ tmathss‬ציון התלמיד במתמטיקה במבחן ‪sesat‬‬
‫‪676‬‬ ‫‪404‬‬ ‫‪529‬‬ ‫‪0.550230831‬‬ ‫‪529‬‬
‫‪ii Stanford‬‬ ‫‪1‬‬
‫‪1981‬‬ ‫‪1977‬‬ ‫‪1980 0.007117529‬‬ ‫‪1980‬‬ ‫‪ sbirthy‬שנת הלידה של התלמיד‬
‫משתנה דמי לסוג הכיתה‪:‬‬
‫‪-1‬אם התלמיד למד בכיתה קטנה‬
‫דמי‬ ‫דמי‬ ‫דמי‬ ‫‪0.010060709‬‬ ‫‪2.036‬‬ ‫‪-2 cltype1‬אם התלמיד למד בכיתה רגילה‬
‫‪-3‬אם התלמיד למד בכיתה רגילה עם‬
‫סייעת‬

‫משתנה דמי לגזעו של המורה‪:‬‬


‫דמי‬ ‫דמי‬ ‫דמי‬ ‫‪0.004809019‬‬ ‫‪1.166‬‬ ‫‪-1 trace1‬אם המורה של התלמיד הוא לבן‬
‫‪-2‬אם המורה של התלמיד הוא שחור‬

‫משתנה דמי לרמת ההשלכה של‬


‫המורה‪:‬‬
‫‪-1‬אם המורה בעל ‪B.A‬‬
‫דמי‬ ‫דמי‬ ‫דמי‬ ‫‪0.006592504‬‬ ‫‪0.306‬‬ ‫‪hdeg1‬‬
‫‪-2‬אם המורה בעל ‪M.A‬‬
‫‪-3‬אם למורה תעודת מומחה‬
‫‪-4‬אם המורה בעל ‪P.hD‬‬
‫דמי‬ ‫דמי‬ ‫דמי‬ ‫‪0.114924316‬‬ ‫‪0.0546‬‬ ‫‪ totexp1‬כמות שנות הניסיון של המורה‬
‫משתנה דמי למצב‬
‫הסוציו‪-‬אקונומי של התלמיד‪:‬‬
‫דמי‬ ‫דמי‬ ‫דמי‬ ‫‪0.006404469‬‬ ‫‪35.1‬‬ ‫‪ses1‬‬
‫‪-1‬עבור מצב סוציו‪-‬אקונומי נמוך‬
‫‪-2‬עבור רקע סוציו‪-‬אקונומי גבוה‬
‫‪27‬‬ ‫‪12‬‬ ‫‪22‬‬ ‫‪0.047999041‬‬ ‫‪20.65‬‬ ‫כמות התלמידים בכיתה‬ ‫‪cs‬‬

‫משתנה דמי לאזור ביה"ס של‬


‫התלמיד‪:‬‬
‫‪-1 schtype‬עבור בי"ס באזור מרכז העיר‬
‫דמי‬ ‫דמי‬ ‫דמי‬ ‫‪0.011763244‬‬ ‫‪2.422‬‬
‫‪-2‬עבור בי"ס באזור פרברים‬ ‫‪1‬‬
‫‪-3‬עבור בי"ס באזור כפרי‬
‫‪-4‬עבור בי"ס באזור עירוני‬

‫להלן המשוואה אשר נבחרה לטובת אמידת הקשר בין גודל הכיתה ובין הציון של תלמיד‪ ,‬בהתייחסות לכיתות‬
‫רגילות בלבד‪:‬‬

‫‪scorei=β 0 + β 1 csi + β 2 boyi + β 3 blacki + β 4 ses 1i + β 5 schtypesuburbani+ β6 schtyperurali + β 7 schtypeurbani + β 8 totexp 1i + β 9 totexp 1i2+ β 10 tr‬‬

‫זאת כאשר את המשתנה ‪ schtype1‬פיצלנו לשלושה משתני דמי נפרדים‪ ,‬על מנת לא ליצור כבילה שתכריח את‬
‫האמידה להתחשב באופן סדרתי ליניארי באזורים השונים בהם בתי הספר נמצאים‪.‬‬

‫הצדקת בחירת משתנים במודל (‪)1‬‬


‫באמידת המודל בעזרת משתנים מפוקחים התמקדנו בהוספת המשתנים הבאים אשר מתמקדים ברקע של‬
‫התלמיד ובמשאבים הלימודיים שהוא מקבל‪:‬‬
‫‪ :cs‬ניתן לצפות שהקשר בין גודל הכיתה לבין הציון הממוצע של התלמיד יהיה שלילי‪ ,‬כלומר ככל שהכיתה‬ ‫‪‬‬
‫גדולה יותר התלמיד מקבל פחות קשב מן המורה שלו ולכן מצליח פחות במבחן‪.‬‬
‫‪ : boy‬ניתן לצפות שקיים קשר בין מינו של התלמיד לבין הציון הממוצע של התלמיד בכיתה א'‪ ,‬שכן נשים‬ ‫‪‬‬
‫וזכרים מתפתחים קוגניטיבית באופן שונה לאורך תקופת הילדות‪.‬‬
‫‪ :black‬ייתכן שמוצאו של התלמיד ישפיע על הציון הממוצע של התלמיד בכיתה א'‪.‬‬ ‫‪‬‬
‫‪ : ses1‬ניתן לצפות שהמצב הסוציו‪-‬אקונומי של התלמיד ישפיע על איכות למידת התלמיד לאורך השנה‬ ‫‪‬‬
‫ובהתאם על הציון הממוצע שלו‪.‬‬
‫‪ : Schtype1‬ניתן לצפות שתלמידים אשר לומדים בסביבה עירונית יחוו חווית למידה שונה מאשר אם‬ ‫‪‬‬
‫ילמדו בסביבה כפרית ושקטה‪ ,‬ושסביבת הלמידה תשפיע על הציון הממוצע של התלמיד‪ .‬כאמור את‬
‫משתנה זה פיצלנו לשלושה משתני דמי שונים‪ ,‬שכן זהו משתנה קטגוריאלי ואין בו משמעות מיוחדת‬
‫למספרים אשר מייצגים את הקטגוריות השונות‪.‬‬
‫‪ : totexp1‬ציפינו שמורה בעל ניסיון עשיר יתרום להצלחתו של התלמיד במבחן‪ ,‬כמו כן סביר להניח שמורה‬ ‫‪‬‬
‫וותיק מאוד ייחווה שחיקה ועם חלוף הזמן יילמד באופן פחות איכותי‪ .‬לכן ציפינו שקשר משתנה זה לציון‬
‫התלמיד הממוצע יהיה ריבועי חיובי פוחת‪ .‬אך לאחר הרצת רגרסיה משתנה זה‪ ,‬נראה כי הקשר בין‬
‫המשתנה המסביר למוסבר הוא ריבועי שלילי גובר‪ ,‬ולאחר השמטת הקשר הריבועי ‪ -‬שלילי‪ .‬ולכן החלטנו‬
‫להסיר אותו מהאמידה‪ .‬שכן לא סביר בעינינו שמורה עם יותר ניסיון יגרור ציון נמוך יותר של התלמיד‪.‬‬
‫‪ :trace1‬ייתכן שמוצאו של המורה ישפיע על הציון הממוצע של תלמידיו בכיתה א'‪.‬‬ ‫‪‬‬
‫‪ : black*trace1‬ייתכן שהיותם של מורה ותלמיד מאותו המוצא‪ ,‬ישפיע באופן חיובי על למידת התלמיד ועל‬ ‫‪‬‬
‫הציון הממוצע של התלמיד‪.‬‬

‫להלן טבלה אשר מפרטת את תוצאות האמידה‪:‬‬

‫‪P-value‬‬ ‫‪t-value‬‬ ‫‪.S.E‬‬ ‫ערך‬ ‫משתנה‬

‫‪>0.000000000000000‬‬
‫‪60.723‬‬ ‫‪8.654‬‬ ‫‪525.507‬‬ ‫חותך‬
‫‪2‬‬
‫‪0.000003163641‬‬ ‫‪-4.666‬‬ ‫‪0.302‬‬ ‫‪-1.409‬‬ ‫‪cs‬‬
‫‪0.000001664713‬‬ ‫‪-4.797‬‬ ‫‪1.211‬‬ ‫‪-5.810‬‬ ‫‪boy‬‬
‫‪0.000000000023‬‬ ‫‪-6.703‬‬ ‫‪5.238‬‬ ‫‪-35.112‬‬ ‫‪black‬‬
‫‪>0.000000000000000‬‬
‫‪16.306‬‬ ‫‪1.412‬‬ ‫‪23.027‬‬ ‫‪ses1‬‬
‫‪2‬‬
‫‪0.000045181425‬‬ ‫‪4.083‬‬ ‫‪2.214‬‬ ‫‪9.042‬‬ ‫‪schtype_suburban‬‬
‫‪0.000000001599‬‬ ‫‪6.047‬‬ ‫‪2.414‬‬ ‫‪14.600‬‬ ‫‪schtype_rural‬‬
‫‪0.000018852130‬‬ ‫‪4.283‬‬ ‫‪3.048‬‬ ‫‪13.053‬‬ ‫‪schtype_urban‬‬
‫‪0.09308‬‬ ‫‪-1.680‬‬ ‫‪3.659‬‬ ‫‪-6.146‬‬ ‫‪trace1‬‬
‫‪0. 0.00017‬‬ ‫‪3.763‬‬ ‫‪4.196‬‬ ‫‪15.789‬‬ ‫‪black*trace1‬‬

‫פרשנות האומדים במודל (‪)1‬‬

‫חותך ‪ :‬תלמידה לבנה ממין נקבה ממעמד סוציו‪-‬אקונומי נמוך והיא לומדת בבי"ס שנמצא באזור עירוני תהיה בעלת‬ ‫‪‬‬
‫ציון ממוצע במבחן של ‪ ,525.5‬כאשר שאר המשתנים מוחזקים קבוע‪ .‬האומד מובהק סטטיסטית‪.‬‬
‫‪ :cs‬הוספת תלמיד כלשהו לכיתה מתואמת עם ירידה של ‪ 1.4‬נקודות בציון התלמיד בממוצע‪ ,‬כאשר שאר המשתנים‬ ‫‪‬‬
‫מוחזקים קבוע‪ .‬האומד מובהק סטטיסטית‪.‬‬
‫‪ :boy‬היות התלמיד ממין זכר מתואם עם ירידה של ‪ 5.8‬נקודות בממוצע בציון התלמיד‪ ,‬כאשר שאר המשתנים‬ ‫‪‬‬
‫מוחזקים קבוע‪ .‬האומד מובהק סטטיסטית‪.‬‬
‫‪ :Black‬היותו של התלמיד שחור מתואם עם ירידה של ‪ 35.1‬נקודות בממוצע בציון התלמיד‪ ,‬כאשר שאר‬ ‫‪‬‬
‫המשתנים מוחזקים קבוע‪ .‬האומד מובהק סטטיסטית‪.‬‬
‫‪ : ses1‬היותו של התלמיד מרקע סוציו‪-‬אקונומי גבוה מתואם עם עלייה של ‪ 23.03‬נקודות בממוצע בציון‬ ‫‪‬‬
‫התלמיד‪ ,‬כאשר שאר המשתנים מוחזקים קבוע‪ .‬האומד מובהק סטטיסטית‪.‬‬
‫‪ :Schtype1_suburban‬היות ביה"ס של התלמיד ממוקם באזור פרברי מתואם עם עלייה של ‪ 9.04‬נקודות בממוצע‬
‫בציון התלמיד‪ ,‬כאשר שאר המשתנים מוחזקים קבוע‪ .‬האומד מובהק סטטיסטית‪.‬‬
‫‪ :Schtype1_rural‬היות ביה"ס של התלמיד ממוקם באזור כפרי מתואם עם עלייה של ‪ 14.6‬נקודות‬ ‫‪‬‬
‫בממוצע בציון התלמיד‪ ,‬כאשר שאר המשתנים מוחזקים קבוע‪ .‬האומד מובהק סטטיסטית‪.‬‬
‫‪ :Schtype1_urban‬היות ביה"ס של התלמיד ממוקם באזור עירוני מתואם עם עלייה של ‪ 13.05‬נקודות‬ ‫‪‬‬
‫בממוצע בציון התלמיד‪ ,‬כאשר שאר המשתנים מוחזקים קבוע‪ .‬האומד מובהק סטטיסטית‪.‬‬
‫‪ :trace1‬היותו של מורה התלמיד שחור‪ ,‬מתואם עם ירידה של ‪ 6.15‬בממוצע בציון התלמיד‪ ,‬כאשר שאר‬ ‫‪‬‬
‫המשתנים מוחזקים קבוע‪ .‬האומד אינו מובהק סטטיסטית‪.‬‬
‫‪ : black*trace1‬התוספת לממוצע ציון התלמיד כאשר התלמיד שחור והמורה שלו שחור הינו של ‪15.79‬‬ ‫‪‬‬
‫בממוצע‪ .‬תוספת זו הינה מעבר להשפעה שיש לצבע עורו של המורה ולבצע עורו של התלמיד לבדם‪ .‬האומד‬
‫מובהק סטטיסטית‪.‬‬

‫המודל כולו מובהק שכן עפ"י פלט הרגרסיה מתקיים ‪ F s=1 25 .5‬וערך זה גדול מכל ‪ F c‬בטבלאת ‪.F‬‬
‫לעניות דעתנו‪ ,‬המודל איננו מבטא את ההשפעה הסיבתית של גודל הכיתה על הישגי התלמידים באומד ל‪β 1-‬‬
‫מכיוון שהמודל אינו לוקח בחשבון את ההשפעה הקבועה שיש לכל בי"ס על תוצאות האמידה‪ ,‬ולכן האמדים‬
‫שלו מוטים‪ .‬על מנת להתגבר על הבעיה‪ ,‬יש להתחשב בהשפעה הזו כפי שנעשה בהמשך‪.‬‬

‫מעתה והלאה נאמוד מודלים עם ‪ FE‬לביה"ס בו התלמיד למד‪ .‬כאשר מוסיפים ‪ FE‬לביה"ס אנו מנטרלים את‬
‫ההשפעה של המאפיינים הבלתי נצפים של אותו ביה"ס שקבועים על פני זמן‪ .‬ללא בקרה על משתנים אלו עשויה‬
‫להיות לנו בעיה של אנדוגניות במודל מכיוון שהתכונות הבלתי‪-‬נצפות של אותם בתי ספר עשויות להיות‬
‫מתואמות עם המשתנים המסבירים במודל‪.‬‬

‫זה המקום לציין כי ראוי לעשות תיקון ‪ CLUSSTERING‬לכל בי"ס‪ .‬נתוני פאנל כוללים תצפיות‬
‫מקבוצות שונות‪ ,‬ולכן סביר להניח שההנחה שאין קשר בין ההפרעות האקראית של פרטים שונים אינה‬
‫מתקיימת שכן‪ ,‬סביר שההפרעות האקראית של תלמידים באותו בי"ס מתואמות וזו בדיוק הפרה של הנחה‬
‫קלאסית‪ .‬כלומר אנו מעריכים שמתקיים‪ . cov ( ε is , ε js ) ≠ 0 :‬אך מכיוון שהובהר כי ביצוע התיקון חורג מגבולות‬
‫העבודה הזו‪ ,‬בחרנו שלא לבצע אותו‪ .‬כלומר סביר להניח שהשוניות במחקר בפועל אינן זהות לשונויות שנאמדו‬
‫בעבודה זו‪.‬‬

‫בניסוי‪ ,‬הקבוצה המטופלת היא התלמידים אשר לומדים בכיתות הקטנות ואילו קבוצת הביקורת היא‬
‫התלמידים אשר לומדים בכיתות בקנה מידה רגיל‪.‬‬
‫להלן טבלה אשר מפרטת את ההפרשים בין המאפיינים של קבוצת הביקורת ובין המאפיינים של קבוצת‬
‫הטיפול ואת מובהקותם‪:‬‬

‫‪variable‬‬ ‫‪Treated‬‬ ‫‪Comparison‬‬ ‫‪Diff‬‬ ‫‪SE‬‬


‫‪boy‬‬ ‫‪0.5139978‬‬ ‫‪0.5164733‬‬ ‫‪-0.00247‬‬ ‫‪0.01438‬‬
‫‪black‬‬ ‫‪0.318589‬‬ ‫‪0.3361949‬‬ ‫‪-0.009812‬‬ ‫‪0.007386‬‬

‫‪white‬‬ ‫‪0.6735722‬‬ ‫‪0.6573086‬‬ ‫‪0.009087‬‬ ‫‪0.007569‬‬

‫‪ses1‬‬ ‫‪1.521277‬‬ ‫‪1.490951‬‬ ‫‪(*) 0.03327‬‬ ‫‪0.01229‬‬

‫‪totexp1‬‬ ‫‪12.26036‬‬ ‫‪11.49026‬‬ ‫‪(*) 1.0549‬‬ ‫‪0.2246‬‬

‫‪trace1‬‬ ‫‪1.184211‬‬ ‫‪1.163805‬‬ ‫‪0.030351‬‬ ‫‪0.008114‬‬

‫בחרנו את המשתנים שבעיננו הכי חשוב שמאפייניהם יהיו דומים בין שתי הקבוצות‪ ,‬על מנת שהניסוי יוכל‬
‫להוכיח את האפקט של הקטנת גודל הכיתה בקבוצת הטיפול‪ .‬מכיוון שמרבית ההפרשים אינם מובהקים‪ ,‬סביר‬
‫להגיד כי המאפיינים בין הקבוצות דומים ותוקף הניסוי בעינו עומד‪ .‬זו התוצאה לה ציפינו‪ ,‬שכן אם לא היה כך‪,‬‬
‫אזי הניסוי לא היה תקף וככה"נ כלל לא היה מופץ‪ .‬בעולם אידאלי היינו מצפים שכל ההבדלים לא יהיו‬
‫מובהקים כלל‪ ,‬אך סביר שבניסוי אמפירי אמיתי ישנם מספר משתנים אשר ההבדל ביניהם הוא מובהק‪.‬‬

‫להלן משוואת אמידת מודל ‪ LPM‬אשר אומד את הקשר בין גודל הכיתה ובין מאפייני התלמיד‪:‬‬

‫‪( 2 ) sc 1is =β 0+ β1 boy i+ β2 black i+ β3 ses 1i+ β 4 sbirthy 1978i + β 5 sbirthy 1979i + β 6 sbirthy 1980i + β 7 sbirthy 1981i+ c s +ε i‬‬

‫להלן טבלה אשר מפרטת את תוצאות האמידה‪:‬‬

‫‪P-value‬‬ ‫‪t-value‬‬ ‫‪.S.E‬‬ ‫ערך‬ ‫משתנה‬

‫‪0.8580‬‬ ‫‪0.179‬‬ ‫‪0.011587‬‬ ‫‪0.002074‬‬ ‫‪boy‬‬


‫‪0.4280‬‬ ‫‪-0.793‬‬ ‫‪0.023090‬‬ ‫‪-0.018304‬‬ ‫‪black‬‬
‫‪0.0612‬‬ ‫‪1.872‬‬ ‫‪0.013981‬‬ ‫‪0.026177‬‬ ‫‪ses1‬‬
‫‪0.7810‬‬ ‫‪0.278‬‬ ‫‪0.162355‬‬ ‫‪0.045139‬‬ ‫‪sbirthy_1978‬‬
‫‪0.3462‬‬ ‫‪0.942‬‬ ‫‪0.159509‬‬ ‫‪0.150269‬‬ ‫‪sbirthy_1979‬‬
‫‪0.2529‬‬ ‫‪1.143‬‬ ‫‪0.159383‬‬ ‫‪0.182248‬‬ ‫‪sbirthy_1980‬‬
‫‪0.5153‬‬ ‫‪0.651‬‬ ‫‪0.209468‬‬ ‫‪0.136298‬‬ ‫‪sbirthy_1981‬‬

‫בהכרח יש צורך לעשות תיקון לשוניות מכיוון שזהו מודל ‪ ,LPM‬ואחד מחסרונותיו הוא הפרת הנחת‬
‫ההומוסקדסטיות‪ ,‬זאת מכיוון שהמשתנה המוסבר הוא בינארי ועל כן גם ההפרעה האקראית היא בינארית‬
‫ובהינתן משתנה מסביר ההפרעה תגדל או תקטן בתיאום אליו‪.‬‬

‫יש לבדוק האם המשתנים המסבירים מובהקים במשותף‪:‬‬

‫‪H 0 : β 1=β 2=β 3=β 4= β5 =β6 =β 7=0‬‬


‫‪H 1 : else‬‬
‫‪2‬‬
‫‪( R¿ ¿2¿¿ U −R R )/q‬‬ ‫‪0.00487 /7‬‬
‫=‪F s‬‬ ‫=‬ ‫¿ ¿‪=4.204 > F c(7,6014,0.95) =2.01‬‬
‫‪2‬‬
‫) ‪(1−R U )/(n−k‬‬ ‫‪0.99513 /6014‬‬

‫על כן השערת האפס נדחית‪ ,‬והמשתנים המסבירים מובהקים במשותף‪ .‬זוהי אינה תוצאה צפויה‪ ,‬שכן‬
‫המשמעות היא שיש קשר בין מאפייני התלמידים לבין גודל הכיתה‪ ,‬ומכאן שהתלמידים לא חולקו באופן‬
‫רנדומלי מספק‪ .‬השאיפה במחקר היא דווקא שהשערת האפס תתקבל‪ ,‬ושלא יהיה קשר מובהק בין המשתנים‬
‫לגודל הכיתה‪.‬‬

‫כעת יש לאמוד מודל אשר המשתנה המוסבר בו הוא הציון הממוצע של התלמיד‪ ,‬והמשתנה המסביר הוא גודל‬
‫הכיתה‪ ,‬זאת תוך התחשבות ב‪:fixed effect-‬‬

‫‪( 3 ) score is =α 0+ α 1 sc 1i+ c s +ε i‬‬

‫משמעות ‪ α^ 1‬במודל (‪ :)3‬בכיתה קטנה הציון הממוצע של תלמיד גבוה מאשר בכיתה גדולה ב‪ 12.85-‬נקודות‬
‫בממוצע‪ ,‬כאשר שאר המשתנים מוחזקים קבוע‪ .‬האומד מובהק סטטיסטית‪.‬‬

‫לאחר שביצענו אמידה ללא משתנים מפקחים כלל‪ ,‬נוסיף משתנים כאלו‪:‬‬

‫‪( 4 ) score is =β 0+ β 1 sc 1i+ β2 boy i + β 3 black i + β 4 ses 1i+ β 5 hdeg 1 MA i + β 6 hdeg 1 Specialist i + β 7 hdeg 1 Phd i+ β 8 totexp 1i + β 9 totexp 1‬‬

‫הצדקת בחירת משתנים במודל (‪)4‬‬


‫בחרנו לפקח על האמידה עם משתנים אשר נראים רלוונטיים בעיננו להצלחת התלמיד‪ ,‬זאת כאשר מכיוון‬
‫שבאמידה זו אנו מתחשבים ב‪ FE-‬של כל בי"ס (בניגוד לאמידה (‪ ) )1‬החלטנו לוותר על המשתנה המסביר של‬
‫מיקום ביה"ס‪ .‬במקום זאת‪ ,‬הכנסנו לאמידה את המשתנה המסביר אשר פורט את רמת ההשכלה של המורה‬
‫בדמות שלושה משתני דמי שונים‪ .‬כמו כן באמידה זו בחרנו להוסיף את משתנה ניסיונו של המורה‪ ,‬אשר כשלנו‬
‫להוסיף באמידה (‪.)1‬‬

‫לאחר שאמדנו את המודל נבחן האם המשתנים המסבירים שבחרנו להוסיף למודל מובהקים במשותף‪,‬‬
‫באמצעות מבחן ‪:F‬‬

‫‪H 0 : β 1=β 2=β 3=β 4= β5 =β6 =β 7=0‬‬


‫‪H 1 : else‬‬

‫‪(R¿ ¿2¿¿ U −R2R )/q‬‬ ‫‪0.02359 /7‬‬


‫=‪F s‬‬ ‫=‬ ‫¿ ¿ ‪=20.76>1.83 ≥ F c (7,6014,0.95 ) ≥2.01‬‬
‫‪2‬‬
‫) ‪(1−R U )/(n−k‬‬ ‫‪0.97641/ 6014‬‬

‫מכאן שיש לדחות את השערת האפס‪ ,‬ולפחות אחד מן האמדים איננו אפס‪ .‬ניתן להסיק מכך שהמשתנים‬
‫המפקחים שהוספנו למודל תרמו ליכולת ההסבר שלו‪.‬‬

‫באמידה (‪ )3‬מתקיים ‪ α^ 1=12.85 , σ α^ =1.14‬ואילו לאחר הוספת המשתנים המסבירים באמידה (‪ )4‬מתקיים‬
‫‪1‬‬

‫‪ ^β 1=11.12 , σ ^β =1. 09‬כאשר בשתי האמידות אמדים אלו הם מובהקים ומשמשים כאמדים למשתנה המסביר‬ ‫‪1‬‬

‫‪ . sc 1‬כלומר האמדים מאוד דומים‪ ,‬לעניות דעתנו המשמעות מתוצאות אלו היא‪ ,‬שההקצאה של התלמידים‬
‫נעשתה באופן רנדומלי מספק‪ ,‬כך שהמשתנה לגודל הכיתה איננו מוטה בעקבות השמטת משתנים‪.‬‬

‫בנוסף‪ ,‬ברצוננו לבדוק האם קיים הבדל בקשר בין למידה בכיתה קטנה לבין הציון הממוצע של התלמיד בין‬
‫תלמידים במצב סוציו‪-‬אקונומי גבוה לנמוך‪ ,‬ע"י שימוש במודל "הפרש ההפרשים" וזאת בהתבסס על אמידה (‬
‫‪:)4‬‬

‫‪( 5 ) score is =β 0+ β1 sc 1i + β 2 boy i + β 3 black i + β 4 ses 1i+ β5 hdeg 1 MAi + β 6 hdeg 1 Specialist i + β 7 hdeg 1 Phd i+ β 8 totexp 1i + β 9 totexp 1‬‬

‫במודל זה האומד ל‪ β 12-‬מסמל את הפרש ההפרשים‪ ,‬אומד זה מסמל האם השיבוץ לכיתה קטנה מחריף או‬
‫מצמצם את הפערים בציון הממוצע בין תלמידים ממצב סוציו‪-‬אקונומי נמוך לבין התלמידים ממצב‬
‫סוציו‪-‬אקונומי גבוה‪.‬‬
‫כעת יש לבצע מבחן ‪ t‬כדי לבחון את מובהקות האמד ‪: ^β 12‬‬
‫‪H 0 : β 12=0‬‬
‫‪H 1 : else‬‬
‫‪^β 9−β 9 2.72741‬‬
‫=‪t s‬‬ ‫=‬ ‫‪=1.252<t c (6012 ,0.975)=1.96‬‬
‫‪s . e . ^β 2.17916‬‬
‫‪9‬‬

‫מכיוון שנמצא שמתקיים ¿|‪ ,|t s|<¿|t c‬יש לקבל את השערת האפס‪ .‬כלומר‪ ,‬האומד אינו מובהק והמשמעות היא‬
‫שאין הבדל בין הציון הממוצע של תלמיד ממצב סוציו‪-‬אקונומי נמוך לבין הציון הממוצע של תלמיד ממצב‬
‫סוציו‪-‬אקונומי גבוה‪.‬‬

‫חלק ג‪ :‬אמידה בעזרת ‪IV‬‬

‫ברצוננו להשתמש במשתנה ‪ sc 1i‬כמשתנה עזר למשתנה ‪ ,cs i‬ובהתאם לכך ההנחות הנדרשות על מנת לבצע‬
‫אמידה בעזרת ‪ IV‬הן‪:‬‬

‫‪ : cov ( sc 1i , csi ) ≠ 0‬כלומר קיים מתאם בין מס' התלמידים בכיתה ובין גודל הכיתה‪ ,‬את הנחה זו ניתן‬ ‫‪.1‬‬
‫לבדוק מתמטית‪ ,‬והיא אכן מתקיימת שכן‪cov ( sc 1i , csi ) =−1.468994 :‬‬
‫‪ :cov ( sc 1i , ε i )=0‬כלומר אין קשר בין היותה של כיתה‪ ,‬כיתה קטנה‪ ,‬לבין ההפרעות אקראיות אצל‬ ‫‪.2‬‬
‫התלמיד‪ .‬הנחה זו סבירה בעיננו מכיוון שההקצאה לכיתה קטנה נעשית באופן רנדומלי‪.‬‬
‫לא קיים קשר סיבתי ישיר בין המשתנה המוסבר לבין משתנה העזר‪ .‬זו הנחה סבירה בעיננו מכיוון‬ ‫‪.3‬‬
‫שאמנם לגודל הכיתה יש השפעה עקיפה על המשתנה המוסבר בכך שבכיתה קטנה מורה מסוגל לתת‬
‫יותר תשומת לב לכל תלמיד ותלמיד‪ .‬אך‪ ,‬אין גודל הכיתה משפיע באופן ישיר על הציון‪.‬‬

‫ביצוע אמידה בעזרת שיטת ‪:IV‬‬

‫‪( 6 ) cs is =α 0 +α 1 sc 1i +c s + ε i‬‬

‫להלן טבלה אשר מפרטת את תוצאות אמידה (‪:)6‬‬

‫‪P-value‬‬ ‫‪t-value‬‬ ‫‪.S.E‬‬ ‫ערך‬ ‫משתנה‬

‫‪<0.000000000000000‬‬
‫‪-206.9‬‬ ‫‪0.03428‬‬ ‫‪-7.09256‬‬ ‫‪Sc1‬‬
‫‪2‬‬
‫משמעות ‪ α^ 1‬באמידה ‪ ) 6(:‬בכיתה קטנה הציון הממוצע של תלמיד נמוך מאשר בכיתה גדולה ב‪ 7.09 -‬נקודות‬
‫בממוצע‪ ,‬כאשר שאר המשתנים מוחזקים קבוע‪ .‬האמד מובהק סטטיסטית‪.‬‬

‫כעת נוסיף למודל את המשתנים המפקחים צבע הפרט‪ ,‬מצב סוציו‪-‬אקונומי ומגדר (תוך התחשבות באפקט‬
‫הקבוע של ביה"ס)‪:‬‬
‫‪( 7 ) cs is =β 0+ β1 sc 1i + β 2 boy i + β 3 black i + β 4 ses 1i+ c s +ε i‬‬

‫להלן טבלה אשר מפרטת את תוצאות אמידה (‪:)7‬‬

‫‪P-value‬‬ ‫‪t-value‬‬ ‫‪.S.E‬‬ ‫ערך‬ ‫משתנה‬

‫‪<0.000000000000000‬‬
‫‪-206.707‬‬ ‫‪0.03431‬‬ ‫‪-7.09235‬‬ ‫‪Sc1‬‬
‫‪2‬‬
‫‪0.429‬‬ ‫‪-0.792‬‬ ‫‪0.03074‬‬ ‫‪-0.02434‬‬ ‫‪Boy‬‬
‫‪0.468‬‬ ‫‪-0.726‬‬ ‫‪0.06153‬‬ ‫‪-0.04466‬‬ ‫‪Black‬‬
‫‪0.568‬‬ ‫‪-0.572‬‬ ‫‪0.03697‬‬ ‫‪-0.02113‬‬ ‫‪ses1‬‬

‫ניתן לראות מהשוואה בין תוצאות האמידות כי המקדם למשתנה של כיתה קטנה‪ ,‬כלל לא השתנה‪ .‬דבר אשר‬
‫מעיד על כך שההקצאה הרנדומלית לכיתות נעשתה באופן מספק‪.‬‬

‫להלן תוצאות האמידה בשימוש בשיטת ‪:2SLS‬‬

‫‪P-value‬‬ ‫‪t-value‬‬ ‫‪.S.E‬‬ ‫ערך‬ ‫משתנה‬

‫‪< 0.0000000000000002‬‬ ‫‪-10.933‬‬ ‫‪0.1540‬‬ ‫‪-1.6837‬‬ ‫‪Cs‬‬


‫‪0.000000008580701‬‬ ‫‪-5.765‬‬ ‫‪0.9785‬‬ ‫‪-5.6408‬‬ ‫‪Boy‬‬
‫‪0.000000000000103‬‬ ‫‪-7.454‬‬ ‫‪1.9586‬‬ ‫‪-14.5996‬‬ ‫‪Black‬‬
‫‪< 0.0000000000000002‬‬ ‫‪19.278‬‬ ‫‪1.1769‬‬ ‫‪22.6883‬‬ ‫‪ses1‬‬

‫מטרת המשוואה הראשונה היא להשתמש בשונות האקסוגנית של משתנה העזר ‪ sc1‬על מנת לנקות מהמשתנה‬
‫המסביר ‪ cs‬שונות אנדוגנית‪ ,‬והיא גם משמשת לבדיקה שמשתנה העזר אכן משפיע על המשתנה המסביר‬
‫האנדוגני (כפי שכבר נבדק לעיל)‪ .‬המשוואה זהה לאמידה (‪.)6‬‬
‫מטרת המשוואה השנייה היא לאמוד את הקשר בין המשתנה המסביר ‪ cs‬שנאמד במשוואה הראשונה למשתנה‬
‫המוסבר‪ ,‬כך שהמשתנה המוסבר מכיל שונות אקסוגנית בלבד‪ ,‬להלן המשוואה‪:‬‬

‫‪( 8 ) scoreis =β 0 + β 1 c^s i + β 2 boy i + β 3 black i + β 4 ses 1i+ c s +ε i‬‬

‫משמעויות האומדים באמידה (‪:)7‬‬


‫‪ :cs‬הוספת תלמיד כלשהו לכיתה מתואמת עם ירידה של ‪ 1.68‬נקודות בציון התלמיד בממוצע‪ ,‬כאשר שאר‬ ‫‪‬‬
‫המשתנים מוחזקים קבוע‪ .‬האמד מובהק סטטיסטית‪.‬‬
‫‪ :boy‬היות התלמיד ממין זכר מתואם עם ירידה של ‪ 5.64‬נקודות בממוצע בציון התלמיד‪ ,‬כאשר שאר המשתנים‬ ‫‪‬‬
‫מוחזקים קבוע‪ .‬האמד מובהק סטטיסטית‪.‬‬
‫‪ :Black‬היותו של התלמיד שחור מתואם עם ירידה של ‪ 14.599‬נקודות בממוצע בציון התלמיד‪ ,‬כאשר שאר‬ ‫‪‬‬
‫המשתנים מוחזקים קבוע‪ .‬האמד מובהק סטטיסטית‪.‬‬
‫‪ :ses1‬היותו של התלמיד מרקע סוציו‪-‬אקונומי גבוה מתואם עם עלייה של ‪ 22.688‬נקודות בממוצע בציון‬ ‫‪‬‬
‫התלמיד‪ ,‬כאשר שאר המשתנים מוחזקים קבוע‪ .‬האמד מובהק סטטיסטית‪.‬‬
R ‫נספח קוד‬
#load data and libraries
library(tidyverse)
library(lfe)

df <- read.csv(file = 'term_paper.csv', na.strings = c("", "NA")) %>%


na.omit(df)
options(scipen = 999)
df$cltype1[df$cltype1 == 3] <- 2

#present statistics on main expalantory variables


summary(df)
se <- apply(df, 2, function(x) sd(x)/sqrt(length(x)))
print(se)

#make a regression for score only on classes which are normal sized
df_normal_size_class <- subset(df, cltype1 == 2)
model <- lm(score ~ cs + boy + black + ses1 + factor(schtype1) + trace1 +
black:trace1
, data=df_normal_size_class)
summary(model)

#locate differences between treatment and bikoret groups


mean(df$boy[df$sc1==0])
mean(df$boy[df$sc1==1])
summary(felm(boy ~ sc1 | schid1n,data = df))

mean(df$black[df$sc1==0])
mean(df$black[df$sc1==1])
summary(felm(black ~ sc1 | schid1n,data = df))

mean(df$white[df$sc1==0])
mean(df$white[df$sc1==1])
summary(felm(white ~ sc1 | schid1n,data = df))
mean(df$ses1[df$sc1==0])
mean(df$ses1[df$sc1==1])
summary(felm(ses1 ~ sc1 | schid1n, data = df))

mean(df$totexp1[df$sc1==0])
mean(df$totexp1[df$sc1==1])
summary(felm(totexp1 ~ sc1 | schid1n, data = df))

mean(df$trace1[df$sc1==0])
mean(df$trace1[df$sc1==1])
summary(felm(trace1 ~ sc1 | schid1n, data = df))

mean(df$trace1[df$sc1==0])
mean(df$trace1[df$sc1==1])
summary(felm(trace1 ~ sc1 | schid1n, data = df))

#LPM regression for the size of a class according to the student related variables
modelLPM <- felm(sc1 ~ boy + black + ses1 + factor(sbirthy) | schid1n, data=df)
summary(modelLPM)

#regression for the score of students according to sc1 + FE on schools


felmsc1 <- felm(score ~ sc1 | schid1n, data=df)
summary(felmsc1)

#regression for the score of students according to sc1 + FE on schools + other


arguments
felmsc1supervised <- felm(score ~ sc1 + boy + black + ses1 + factor(hdeg1) + totexp1
+
I(totexp1^2) + trace1 +black:trace1 | schid1n, data=df)
summary(felmsc1supervised)

#perform a regression to check the difference of differences


difofdiffrences <- felm(score ~ sc1 + factor(hdeg1) + totexp1 +
I(totexp1^2) + trace1 + ses1 +sc1*ses1 | schid1n, data=df)
summary(difofdiffrences)
#check cov assumption for usage of IV method
cov(df$cs, df$sc1)

#perform first step of IV method


IVmodel <- felm(cs ~ sc1 | schid1n, data=df)
summary(IVmodel)

#perform first step of IV method with supervisor arguments


IVmodelsupervised <- felm(cs ~ sc1 + boy + black + ses1 | schid1n, data=df)
summary(IVmodelsupervised)

#perform 2SLS
TSLSmodel <- felm(score ~ boy + black + ses1 | schid1n | cs ~ sc1 , data=df)
summary(TSLSmodel)

You might also like