Lecture Notes

‫מבוא להסתברות וסטטיסטיקה‬
‫‪88-165‬‬
‫‪ 16‬באוקטובר ‪2017‬‬
‫מהדורה ‪1.792‬‬
‫סטטיסטיקה היא מערכת של כלים ושיטות הנמצאת בשימוש בכל תחומי החיים‪:‬‬
‫במדע‪ ,‬בכלכלה‪ ,‬במדעי החברה‪ ,‬ועוד‪ .‬תורת ההסתברות‪ ,‬שפותחה כדי לתאר אירועים‬
‫ותהליכים אקראיים‪ ,‬היא הבסיס המתמטי של הסטטיסטיקה‪.‬‬
‫המטרה העיקרית של הקורס שלנו היא לפתח חשיבה הסתברותית‪ ,‬שהיא תנאי‬
‫חיוני ליכולת להעריך ולאמוד הסתברויות בחיי היום־יום‪ .‬הלימודים עצמם מתמטיים‪,‬‬
‫עם הגדרות וטכניקות חישוביות ומשפטים והוכחות‪ ,‬אבל המטרה העיקרית היא פיתוח‬
‫הרגישות למספרים בהקשר ההסתברותי שלהם‪.‬‬
‫הבנת העקרונות של של תורת ההסתברות והסטטיסטיקה חשובה לכל אדם משכיל‪.‬‬
‫עקרונות אלה מאפשרים לקורא העיתונים הממוצע לקרוא את שטף הנתונים והדיווחים‬
‫המופיעים בהם מנקודת מבט ביקורתית‪ ,‬ומסייעים לכל מי שמבקש להבין מידע כמותי‬
‫לא מאורגן‪.‬‬
‫את מי שאינו מבין מספרים אפשר לרמות באמצעות נתוני סקרים לא רלוונטיים‪,‬‬
‫בהסקות סטטיסטיות שגויות‪ ,‬בהשוואה של תוחלות בלי סטיות תקן‪ .‬הוא יהמר במקום‬
‫שאסור‪ ,‬ויחשוש מהימור במקום שזה מתבקש‪ .‬לדוגמא‪ ,‬התעלמות ממאורעות בעלי‬
‫הסתברות נמוכה )אבל בשום אופן לא זניחה( היתה הסיבה למפולת הכלכלית הגדולה‬
‫של ‪.2008‬‬
‫"‪ 37‬אחוזים מהדמגוגיה מבוססים על נתונים סטטיסטיים" )זה ציטוט דמגוגי שהמצאתי‬
‫לצורך המבוא‪ ,‬אבל אתם בוודאי מבינים את ההבדל בינו לבין "‪ 37‬אחוזים מהנתונים‬
‫הסטטיסטיים הם דמגוגיה"(‪ .‬בחיים האמיתיים‪ ,‬כשאומרים ''‪ A‬גורם ל־‪ ,''B‬מתכוונים‬
‫''‪ A‬בדרך כלל גורם ל־‪ .''B‬ההפרכה הכושלת‪ ,‬והשכיחה כל־כך ''אבל כלתה של השכנה‬
‫שלי היא ‪ A‬ואינה ‪ ''B‬מבוססת על כך שהשומעים אינם מבינים שקיימות הסתברויות‬
‫בין אפס לאחד‪.‬‬
‫ראשיתה של תורת ההסתברות בהערכות של סיכויים‪ ,‬לצורך משחקי קוביה וקלפים‪,‬‬
‫שערכו פייר דה פרמה ובלז פסקל באמצע המאה ה־‪ .17‬אחריהם תרמו לתאוריה בני‬
‫משפחת ברנולי‪ ,‬קרל פרידריך גאוס‪ ,‬ורבים אחרים‪.‬‬
‫הסטטיסטיקה נולדה כמאתיים שנים אחר־כך‪ .‬פלורנס נייטינגייל‪ ,‬ששירתה במלחמת‬
‫קרים ‪ ,1854‬זכורה כאחות רחמניה שהכניסה את שיקולי ההגיינה לטיפול הרפואי‪ ,‬מהלך‬
‫שהוא אולי מאריך החיים הגדול ביותר בהסטוריה‪ .‬היא לא היתה הראשונה שהעלתה‬
‫את הרעיון‪ ,‬אבל כדי לקבל הכרה מקצועית מהרופאים ששלטו במקצוע‪ ,‬היא היתה‬
‫חייבת לאסוף נתונים סטטיסטיים – ואכן‪ ,‬כאות הוקרה על השיטות שפיתחה‪ ,‬נבחרה‬
‫לחברה המלכותית לסטטיסטיקה ב־‪.1858‬‬
‫קורס זה נבנה עבור סטודנטים בסמסטר השני של שנת הלימודים הראשונה‬
‫במתמטיקה‪ .‬במהלך הקורס נתקל בכמה טכניקות אנליטיות )סיכום טורי חזקות‬
‫בעזרת גזירה של טורים ידועים‪ ,‬אינטגרציה בחלקים‪ ,‬החלפת משתנים באינטגרציה(‪,‬‬
‫אבל נסתפק בהפעלת כלים אלה במקרים הפשוטים והקלים ביותר‪ .‬במקום אחד נשתמש‬
‫‪2‬‬
‫באינטגרציה כפולה והחלפת משתנים דו־ממדית‪ ,‬לרבות כלל היעקוביאן‪ .‬מן האלגברה‬
‫הליניארית אנו זקוקים לתכונות אלמנטריות של מטריצות‪ ,‬ורק באחד הסעיפים נזכיר‬
‫מושגים מתקדמים יותר כמו ערכים ווקטורים עצמיים‪ .‬מלבד אלה‪ ,‬הקורס עומד ברשות‬
‫עצמו‪.‬‬
‫‪3‬‬
4
‫תוכן עניינים‬
‫‪9‬‬ ‫מבואות‬ ‫‪1‬‬

‫‪9‬‬ ‫‪ 1.1‬לשם מה הסתברות ‪. . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪11‬‬ ‫‪ 1.2‬סטטיסטיקה תאורית ‪. . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪11‬‬ ‫טיפוסי משתנים ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪1.2.1‬‬
‫‪12‬‬ ‫אוכלוסיה ומדגם ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪1.2.2‬‬
‫‪12‬‬ ‫תאור גרפי ‪. . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪1.2.3‬‬
‫‪12‬‬ ‫‪ 1.2.4‬מדדי מרכז ‪. . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪16‬‬ ‫מדדי פיזור ‪. . . . . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪1.2.5‬‬
‫‪18‬‬ ‫‪ 1.2.6‬מתאם ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪19‬‬ ‫‪ 1.3‬קומבינטוריקה ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪19‬‬ ‫‪ 1.3.1‬בחירה עם החזרה ובלי החזרה‪ ,‬עם חשיבות לסדר ובלעדיה ‪.‬‬
‫‪23‬‬ ‫‪ 1.3.2‬עקרון ההכלה וההדחה ‪. . . . . . . . . . . . . . . . . . . .‬‬
‫‪25‬‬ ‫מבוא להסתברות‬ ‫‪2‬‬

‫‪25‬‬ ‫‪ 2.1‬מרחבי הסתברות בדידים ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪26‬‬ ‫הסתברות של מאורעות ‪. . . . . . . . . . . . . . . . . . . .‬‬ ‫‪2.1.1‬‬
‫‪28‬‬ ‫הסתברות מותנית ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪2.1.2‬‬
‫‪29‬‬ ‫‪ 2.1.3‬נוסחת ההסתברות השלמה ‪. . . . . . . . . . . . . . . . . .‬‬
‫‪30‬‬ ‫‪ 2.1.4‬חוק בייס ‪. . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪32‬‬ ‫תלות ואי־תלות ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪2.1.5‬‬
‫‪33‬‬ ‫‪ 2.2‬משתנים מקריים ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪33‬‬ ‫משתנה יחיד ‪. . . . . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪2.2.1‬‬
‫‪36‬‬ ‫התפלגות משותפת ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪2.2.2‬‬
‫‪38‬‬ ‫תוחלת של משתנה מקרי בדיד ‪. . . . . . . . . . . . . . . .‬‬ ‫‪2.2.3‬‬
‫‪42‬‬ ‫‪ 2.2.4‬שונות ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪44‬‬ ‫‪ 2.2.5‬שונות משותפת ומקדם המתאם ‪. . . . . . . . . . . . . . . .‬‬
‫‪47‬‬ ‫‪ 2.3‬התפלגויות בדידות ‪. . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪47‬‬ ‫התפלגות אחידה ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪2.3.1‬‬
‫‪5‬‬
‫תוכן עניינים‬ ‫תוכן עניינים‬
‫‪48‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬
‫התפלגות ברנולי ‪. . . . .‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪2.3.2‬‬‫‪.‬‬
‫‪49‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪ 2.3.3‬התפלגות בינומית ‪. . . .‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪52‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪ 2.3.4‬התפלגות פואסון ‪. . . .‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪55‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪ 2.3.5‬התפלגות גאומטרית ‪. . .‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪60‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪ 2.3.6‬התפלגות בינומית שלילית‬ ‫‪.‬‬ ‫‪.‬‬
‫‪62‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪ 2.3.7‬התפלגות היפרגאומטרית‬ ‫‪.‬‬ ‫‪.‬‬
‫‪65‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪ 2.3.8‬גרפים מקריים ‪. . . . . .‬‬‫‪.‬‬ ‫‪.‬‬
‫‪66‬‬ ‫‪ 2.4‬מרחב התפלגות כללי ‪. . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪66‬‬ ‫‪ 2.4.1‬סיכום על קבוצה שאינה בת־מניה ‪. . . . . . . . . . . . . . .‬‬
‫‪66‬‬ ‫‪ 2.4.2‬אי־קיומן של מידות אינווריאנטיות ‪. . . . . . . . . . . . . .‬‬
‫‪67‬‬ ‫‪ 2.4.3‬סיגמא־אלגברות ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪68‬‬ ‫‪ 2.4.4‬מרחבי הסתברות ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪69‬‬ ‫‪ 2.4.5‬בעיית ברטרנד ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪70‬‬ ‫‪ 2.5‬משתנים מקרים רציפים ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪70‬‬ ‫‪-σ‬אלגברת בורל ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪2.5.1‬‬
‫‪71‬‬ ‫‪ 2.5.2‬פונקציית הצטברות ‪. . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪72‬‬ ‫‪ 2.5.3‬פונקציית צפיפות ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪72‬‬ ‫‪ 2.5.4‬תוחלת ושונות ‪. . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪74‬‬ ‫‪ 2.5.5‬התפלגות משותפת ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪75‬‬ ‫‪ 2.5.6‬המקרה המעורב ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪77‬‬ ‫‪ 2.5.7‬סטטיסטיי הסדר ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪77‬‬ ‫‪ 2.5.8‬טרנספורמציה של משתנה ‪. . . . . . . . . . . . . . . . . . .‬‬
‫‪78‬‬ ‫‪ 2.6‬התפלגויות רציפות חשובות ‪. . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪78‬‬ ‫‪ 2.6.1‬התפלגות אחידה ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪82‬‬ ‫‪ 2.6.2‬התפלגות מעריכית ‪. . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪85‬‬ ‫‪ 2.6.3‬התפלגות נורמלית ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪87‬‬ ‫‪ 2.6.4‬התפלגויות נוספות ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪89‬‬ ‫‪ 2.7‬חסמים ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪89‬‬ ‫אי־שוויון מרקוב ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪2.7.1‬‬
‫‪89‬‬ ‫אי־שוויון צ'ביצ'ב ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪2.7.2‬‬
‫‪90‬‬ ‫‪ 2.7.3‬אי־שוויון צ'רנוף ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪91‬‬ ‫‪ 2.8‬פונקציה יוצרת מומנטים ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪91‬‬ ‫‪ 2.8.1‬מומנטים ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪92‬‬ ‫‪ 2.8.2‬פונקציה יוצרת מומנטים ‪. . . . . . . . . . . . . . . . . . .‬‬
‫‪94‬‬ ‫‪ 2.8.3‬פונקציות יוצרות אחרות ‪. . . . . . . . . . . . . . . . . . . .‬‬
‫‪96‬‬ ‫‪ 2.9‬הלמה של בורל־קנטלי ‪. . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪97‬‬ ‫‪ 2.10‬חוקי המספרים הגדולים ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪97‬‬ ‫‪ 2.10.1‬החוק החלש של המספרים הגדולים ‪. . . . . . . . . . . . . .‬‬
‫‪6‬‬
‫‪98‬‬ ‫‪ 2.10.2‬החוק החזק של המספרים הגדולים ‪. . . . . . . . . . . . . .‬‬

‫‪99‬‬ ‫‪ 2.10.3‬משפט הגבול המרכזי ‪. . . . . . . . . . . . . . . . . . . . .‬‬
‫‪101‬‬ ‫‪ 2.11‬שרשראות מרקוב ‪. . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪102‬‬ ‫‪ 2.11.1‬תאור גרפי ‪. . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪103‬‬ ‫‪ 2.11.2‬ההתפלגות הסטציונרית ‪. . . . . . . . . . . . . . . . . . . .‬‬
‫‪104‬‬ ‫‪ 2.11.3‬מאורעות שאינם תלויי זמן ‪. . . . . . . . . . . . . . . . . .‬‬
‫‪107‬‬ ‫‪ 2.11.4‬תוחלת זמן ההגעה ‪. . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪109‬‬ ‫‪ 2.11.5‬הרחבת זכרון ‪. . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪113‬‬ ‫מבוא לסטטיסטיקה‬ ‫‪3‬‬

‫‪113‬‬ ‫‪ 3.1‬אמידה ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪114‬‬ ‫אמידה נקודתית ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪3.1.1‬‬
‫‪117‬‬ ‫רווחי סמך ‪. . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪3.1.2‬‬
‫‪118‬‬ ‫‪ 3.1.3‬רווחי סמך לפרמטרים של ההתפלגות הנורמלית ‪. . . . . . .‬‬
‫‪122‬‬ ‫‪ 3.2‬בדיקת השערות ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪123‬‬ ‫השערות ושגיאות ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪3.2.1‬‬
‫‪124‬‬ ‫‪ 3.2.2‬הליך הבדיקה ‪. . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪126‬‬ ‫‪ 3.2.3‬בדיקת השערות בעזרת רווחי סמך ‪. . . . . . . . . . . . . .‬‬
‫‪7‬‬
‫‪8‬‬
‫פרק ‪1‬‬
‫מבואות‬
‫‪ 1.1‬לשם מה הסתברות‬
‫תורת ההסתברות מטפלת במצבים של אי־וודאות‪ .‬לו היינו יודעים לחזות את העתיד‬
‫על כל פרטיו‪ ,‬לא היה לנו צורך בהסתברויות‪ .‬מכיוון שאין לנו יכולת כזו )ואם היקום‬
‫אינו דטרמיניסטי‪ ,‬גם לא תהיה לנו(‪ ,‬עלינו לנסות לכמת באופן מספרי את הסבירות‬
‫של האלטרנטיבות השונות‪.‬‬
‫אנשים שהחשיבה ההסתברותית שלהם לקויה אומרים לפעמים שאם יש שתי אפשרויות‪,‬‬
‫אז הסיכויים הם 'חצי־חצי'; מן הגישה הרדודה הזו נובע שכל המצבים שבהם יש שתי‬
‫אפשרויות שקולים זה לזה‪ .‬באותה נשימה אפשר להזכיר גם את השטות האנטי־‬
‫אינפורמטיבית 'מי שזה קורה לו‪ ,‬זה קורה לו במאה אחוזים'‪ :‬גישה כזו מרדדת את‬
‫המציאות ואינה יודעת להבחין בין מידת הזהירות שיש לנקוט בחציית כביש‪ ,‬לבין‬
‫המאמצים שיש להקדיש להתגוננות מפני מטאוריטים‪.‬‬
‫אחת המטרות העיקריות של הקורס היא לעזור לכם לפתח תחושה להסתברויות‪.‬‬
‫מכיוון שהאינטואיציה האנושית מוכשרת בטיפול במספרים מתונים )כמו עשירית או‬
‫שלושת־רבעי( ולא בהסתברויות קיצוניות‪ ,‬נגדיר את אינדקס הסיכון בתור מינוס הלוג‬
‫לפי בסיס ‪ 2‬של הסיכוי לאירוע‪ .‬אינדקס ‪) 7‬הסתברות של כאחד למאה( מצדיק שינוי‬
‫של אורח החיים‪ ,‬אינדקס ‪) 14‬כאחד לעשרת אלפים( זהירות מסויימת‪ ,‬מאינדקס ‪21‬‬
‫)כאחד לשני מליון(‪ ,‬נאמר‪ ,‬אפשר להתעלם‪.‬‬
‫דוגמא ‪ 1.1.1‬להלן הסתברויות לכמה מאורעות‪ ,‬מוכרים או נדירים‪.‬‬
‫‪ .1‬יורד גשם ביום שבו החזאי הבטיח עננים ללא גשם‪ ,1/10 :‬אינדקס ‪.3‬‬
‫‪ .2‬גבר צעיר זה יפתח מחלת לב כלילית במהלך חייו‪ :‬כ־‪ ,1/100‬אינדקס ‪.7‬‬
‫‪ .3‬ועדת קלפי שוגה ברישום התוצאות בשל החלפה בין שתי מפלגות )על־פי תוצאות‬
‫הבחירות של ‪ .3/1000 :(2013‬אינדקס ‪.8.5‬‬
‫‪9‬‬
‫פרק ‪ .1‬מבואות‬ ‫‪ .1.1‬לשם מה הסתברות‬
‫‪ .4‬אתה נכנס למעלית והיא נתקעת‪ .1/1000 :‬אינדקס ‪.10‬‬

‫‪ .5‬הסיכוי שאדם מסויים יתאבד השנה הוא כ־‪ .1/8000‬אינדקס ‪.13‬‬
‫‪ .6‬הסיכון של אשה למות בלידה הוא כ־‪ .1/20000‬אינדקס ‪.14.3‬‬
‫‪ .7‬הסיכוי של אדם להחנק למוות מדבר מאכל בשנה הקרובה הוא כ־‪ :1/70000‬אינדקס‬
‫‪.16‬‬
‫‪ .8‬הסיכוי של אדם למות השנה בתאונת אופניים הוא כ־‪ .1/70000‬אינדקס ‪.16‬‬
‫‪ .9‬הסיכוי למות השנה מתאונת נשק )בארה"ב( הוא כ־‪ .1/500000‬אינדקס ‪.19‬‬
‫‪ .10‬הסיכון שדירה מסויימת תקרוס כתוצאה מדליפת גז במהלך השנה הקרובה הוא‪,‬‬
‫נניח‪ .1/1000000 ,‬אינדקס ‪.20‬‬
‫‪ .11‬הסיכוי של תושב ארה"ב לההרג השנה מפגיעת ברק הוא כ־‪ .1/10000000‬אינדקס‬
‫‪.23‬‬
‫‪ .12‬הסיכוי לזכות בפרס הראשון בלוטו )‪ 6‬מתוך ‪ (49‬הוא כ־‪ .1/14000000‬אינדקס‬
‫‪.23.7‬‬
‫‪ .13‬הסיכוי לההרג השנה מפגיעת מטאור הוא כ־‪) 1/75000000‬אינדקס ‪.(26‬‬
‫דוגמא ‪ 1.1.2‬תוחלת החיים היא כ־ ‪ 30, 000 ∼ 215‬ימים‪ .‬לכן‪ ,‬אם אבחר לבצע מדי פעילות‬
‫שאינדקס הסיכון שלה הוא ‪ ,18‬יש סיכוי של כ־‪ 99.9%‬שלא אפגע‪ .‬לעומת זאת‪ ,‬במדינה‬
‫שיש בה ‪ 8, 000, 000‬תושבים‪ ,‬מתרחשים מדי שנה כ־ ‪ 231.4‬ימי־אדם‪ .‬מדיניות שתמליץ‬
‫להסתכן באופן כזה‪ ,‬עד כמה שהיא סבירה לאדם הפרטי‪ ,‬תביא לכ־‪ 10, 000‬נפגעים בשנה‪.‬‬
‫לכן אפשר להניח שהרשויות ימליצו על זהירות גם בהתייחס לאירועים שאינדקס הסיכון‬
‫שלהם הוא כ־‪) .30‬הסק‪ ,‬על אחריותך‪ ,‬שהגיוני להתעלם באופן פרטי מהמלצות מסויימות‬
‫של הרשויות‪(.‬‬
‫דוגמא ‪ 1.1.3‬בכל מקרה חשוב לדייק בהגדרת האוכלוסיה‪ .‬למשל‪ ,‬שיעור המצוננים‬
‫באוכלוסיה בזמן נתון )בחורף( הוא‪ ,‬נניח‪ .1% ,‬זה גם שיעור הסכיזופרנים‪ .‬עם זאת‪,‬‬
‫הסיכוי לחלות בצינון אי־פעם בחיים הוא אולי ‪ ,98%‬והסיכוי לחלות בסכיזופרניה הוא‬
‫‪.2%‬‬
‫אם מדובר באירוע מתמשך‪ ,‬הכפלת משך הזמן מגדילה את הסיכון פי ‪ ,2‬כל עוד‬
‫שומרים על גבולות הסביר )הסיכון למות בעשרת אלפי השנים הקרובות אינו גדול‬
‫בהרבה מהסיכוי למות באלף השנים הקרובות(‪.‬‬
‫חשוב לדעת להעריך הסתברויות וכמויות אקראיות הקשורות בהן‪ .‬במהלך הקורס‬
‫נתקל בכמה וכמה דוגמאות שבהן חישוב ישיר הוא קשה או בלתי אפשרי‪ ,‬אבל אפשר‬
‫לערוך אומדן מושכל בקלות יחסית‪.‬‬
‫‪10‬‬
‫‪ .1.2‬סטטיסטיקה תאורית‬ ‫פרק ‪ .1‬מבואות‬
‫תרגיל ‪ 1.1.4‬השימוש בטלפון סלולרי מגביר את הסיכון לחלות בסרטן מסוג גליומה‬
‫ב־‪ .40%‬שיעור החולים בסרטן זה הוא ‪ .2/100000‬האם תפסיקו להשתמש בטלפון‬
‫סלולרי?‬
‫דוגמא אחרונה לסעיף זה‪:‬‬
‫ציטוט ‪" 1.1.5‬הרופאים דורשים תוספת שכר של ‪ 50%‬לשכר הבסיס ועוד שיפורים בתנאים‬
‫הנלווים בשיעור של ‪ ,50%‬כך שהתוספת הכוללת שהם דורשים מגיעה ל־‪) "100%‬נציגי‬
‫משרד האוצר‪.(15.2.2011 ,‬‬
‫‪ 1.2‬סטטיסטיקה תאורית‬
‫סטטיסטיקה תאורית עוסקת בצמצום של מאגרי נתונים גדולים למספר קטן של נתונים‬
‫שאפשר להציג באופן מספרי או גרפי‪ .‬היא נועדה להחליף גודש של מידע בנתונים‬
‫תמציתיים המייצגים‪ ,‬במובנים מסויימים‪ ,‬את המידע השלם‪.‬‬
‫תאורים סטטיסטיים חשופים להטעיות ולשגיאות‪ ,‬ולכן חשוב להבין מהי הדרך‬
‫הנכונה לבצע אותם‪ .‬אפשר להקדיש לנושא הזה שעורים רבים‪ ,‬ובפקולטות אחרות‬
‫זה בדיוק מה שעושים‪ .‬בקורס שלנו הנושא יתפוס כשעור אחד; את כל השאר נשאיר‬
‫לשכל הישר שלכם‪ .‬נסתפק בהצגת המושגים המרכזיים‪ ,‬ישמשו אותנו בהמשך‪ ,‬כשנבנה‬
‫מושגים מקבילים בתורת ההסתברות‪.‬‬
‫טיפוסי משתנים‬ ‫‪1.2.1‬‬

‫כל דבר שמודדים )באופן מספרי( אפשר לקודד למשתנה סטטיסטי‪.‬‬
‫המיון הבסיסי הוא לפי טיפוס המשתנה‪ :‬משתנה איכותי )כמו צבע עיניים‪ ,‬מוצא‪,‬‬
‫מין(‪ ,‬משתנה אורדינלי )שבו יש משמעות לסדר‪ :‬השכלה‪ ,‬מידת האהדה לברוקולי(‪,‬‬
‫משתנה אינטרוולי )שבו יש משמעות להפרש ולא רק לסדר‪ :‬שנת לידה‪ ,‬מידת נעליים‪,‬‬
‫נסיון בעבודה(‪ ,‬משתנה מנתי )שבו יש גם משמעות ליחס בין ערכים‪ :‬משכורת‪ ,‬משקל(‪.‬‬
‫המיון אינו מוגדר היטב )אפשר להתווכח האם יש או אין משמעות לכך שאדם פלוני‬
‫שוקל פי ‪ 1.4‬מאדם אלמוני‪ ,‬או בעל נסיון גדול פי ‪ 5‬בעבודה(‪ .‬מטרתו העיקרית להצביע‬
‫על סוגי הניתוחים הסטטיסטיים שבאים בחשבון‪ .‬לדוגמא‪ ,‬אין משמעות לשאלה מהו‬
‫צבע העיניים הממוצע של התלמידים בכתה‪.‬‬
‫את המשתנים האינטרוואליים והמנתיים אפשר למיין הלאה לשני סוגים‪ :‬משתנים‬
‫בדידים )אלו המקבלים ערכים בקבוצה בדידה‪ :‬סופית או בת־מניה כמו המספרים‬
‫הטבעיים(‪ ,‬ומשתנים רציפים )אלו שאלמלא מגבלות הפיזיקה וההנדסה היו מקבלים‬
‫ערכים בקטע רצוף(‪ .‬בדרך כלל‪ ,‬אם הערכים בדידים בשל מגבלות דיוק או רזולוציה‬
‫אבל רבים מאד )גובה משכורת‪ ,‬שיעור המדד( מתייחסים אליהם כאילו הם רציפים‪.‬‬
‫כפי שנראה באריכות בהמשך הקורס‪ ,‬הניתוח המתמטי שונה עבור משתנים בדידים‬
‫ורציפים‪ ,‬למרות שהאידיאולוגיה דומה‪.‬‬
‫‪11‬‬
‫פרק ‪ .1‬מבואות‬ ‫‪ .1.2‬סטטיסטיקה תאורית‬
‫אוכלוסיה ומדגם‬ ‫‪1.2.2‬‬

‫'אוכלוסיה' היא מכלול הישויות הכפופות לניתוח הסטטיסטי שבו אנו מעוניינים‪ .‬למשל‪,‬‬
‫כשמדברים על מספר ימי המחלה שלוקח עובד ישראלי בשנה‪ ,‬האוכלוסיה כוללת את כל‬
‫העובדים בישראל‪ .‬אם נרצה להציג לשר הבריאות את הנתונים על האוכלוסיה כולה‪,‬‬
‫נצטרך לקבוע ישיבת עבודה ארוכה ביותר‪ .‬גרוע מזה‪ ,‬איסוף הנתונים דורש כח אדם‬
‫משמעותי וכסף רב‪.‬‬
‫לכן מסתפקים ב'מדגם'‪ :‬קבוצה חלקית לאוכלוסיה‪ ,‬שנאספה באופן שיאפשר הסקת‬
‫מסקנות ממנה על האוכלוסיה כולה‪.‬‬
‫תאור האוכלוסיה ותכונותיה הם תחום העיסוק של הסטטיסטיקה התאורית‪ .‬הדרכים‬
‫שבהן אפשר להסיק מן המדגם על האוכלוסיה הן ליבה של הסטטיסטיקה‪ ,‬ובכך נעסוק‬
‫בשעורים האחרונים של הקורס‪.‬‬
‫תאור גרפי‬ ‫‪1.2.3‬‬

‫מי שקרא עיתון או הפעיל פעם את הפונקציות הגרפיות של ‪ Excel‬אינו זקוק להסברים‬
‫לגבי תאורים גרפיים‪ .‬ובכל זאת‪ ,‬בכמה מלים‪.‬‬
‫משתנה סטטיסטי אפשר להציג בהיסטוגרמה )מתאימה להצגת מספר הנבדקים‬
‫בעלי תכונה מסויימת; כללי אתיקה‪ :‬העמודות צריכות להתחיל באפס!(‪ ,‬דיאגרמת עוגה‬
‫)מתאימה להצגת פרופורציות באוכלוסיה(‪ ,‬או באלף דרכים אחרות‪.‬‬
‫כאשר מדובר בזוג משתנים )או יותר(‪ ,‬כמו שכר לפני מס ואחרי מס‪ ,‬ציונים בקורס‬
‫א' לעומת קורס ב'‪ ,‬צבע עיניים וגובה ‪ -‬יש הרבה מאד אפשרויות‪ .‬החשובה ביותר‪:‬‬
‫דיאגרמת פיזור )נקודה פיזיקלית לכל ערך )‪.((x, y‬‬
‫נסו להציע דרכים לתאר מידע ממימד גבוה יותר )יש שיטות סטטיסטיות שעוסקות‬
‫בזה(‪.‬‬
‫מדדי מרכז‬ ‫‪1.2.4‬‬

‫תפקידו של מדד מרכזי הוא לתת ערך יחיד המתאר את הנתנים במקורב‪' .‬מצאתי את‬
‫עצמי במסיבה משעממת'‪ .‬מה היה הגיל הממוצע של שאר המשתתפים? '‪) '14‬או '‪.('55‬‬
‫כמובן שלערך יחיד יש מגבלות‪ .‬הבדיחות ידועות‪' :‬סטטיסטיקאי טבע באגם שעומקו‬
‫הממוצע חצי מטר'‪' .‬בחדר יש תשע נשים‪ :‬אחת לקראת לידה ושמונה רווקות‪ .‬הרופא‬
‫חושב שהן בממוצע בהריון בחודש הראשון'‪ .‬הבדיחה כאן היא על חשבון מי שלא‬
‫מבין סטטיסטיקה‪ :‬אפשר לטבוע באגם גם אם עומקו הממוצע סנטימטר אחד‪ .‬אין‬
‫שום הגיון בהכנסת מי שאינה בהריון לחישוב זמן ההריון הממוצע‪ ,‬כפי שלא מכלילים‬
‫בחישוב את מנורת השולחן )גם את זמן ההריון הממוצע של נשים בהריון יש טעם‬
‫לחשב רק במקרים מוגבלים ביותר(‪.‬‬
‫אינטואיטיבית‪ ,‬מדד מרכזי הוא מספר התלוי ברשימה של ‪ n‬נתונים‪ ,‬ו"מייצג" את‬
‫המרכז שלהם‪ .‬להלן ארבע דוגמאות חשובות‪:‬‬
‫‪12‬‬
‫‪x1 +···+xn‬‬
‫= ̄‪.x‬‬ ‫‪n‬‬
‫‪ .1‬הממוצע של מדגם ‪ x1 , . . . , xn‬מוגדר לפי‬
‫‪ .2‬החציון הוא הערך האמצעי ברשימה המתקבלת לאחר מיון הנתונים‪ ,‬או כל מספר‬
‫בין שני האמצעיים אם מספר הערכים זוגי‪.‬‬
‫‪ .3‬אמצע הטווח‪. 21 (max xi + min xi ) ,‬‬
‫‪ .4‬השכיח הוא הערך המופיע מספר רב ביותר של פעמים )או אחד מהם‪ ,‬אם יש‬
‫כמה כאלה(‪.‬‬
‫הערה ‪ 1.2.1‬יש מדדים שאינם מתאימים לכל טיפוסי המשתנים‪ .‬למשל‪ ,‬בחציון אפשר‬
‫להשתמש אם מדובר במשתנה אורדינלי )אבל לא איכותי(‪ ,‬ובממוצע אפשר להשתמש אם‬
‫המשתנה אינטרוולי )אבל לא אורדינלי(‪.‬‬
‫כל אחד מהמדדים האלו מקיים את התכונות הבאות‪:‬‬
‫)‪ (1‬סימטריות‪ f (x1 , . . . , xn ) = f (xσ1 , . . . , xσn ) :‬לכל תמורה ‪.σ ∈ Sn‬‬
‫)‪ (2‬הומוגניות‪.f (cx1 , . . . , cxn ) = cf (x1 , . . . , xn ) :‬‬
‫)‪ (3‬שקיפות להזזה‪.f (a + x1 , . . . , a + xn ) = a + f (x1 , . . . , xn ) :‬‬
‫נסמן את המדד המרכזי של המדגם ‪ x1 , . . . , xn‬ב־) ‪ ;fn (x1 , . . . , xn‬אפשר לצפות‬

‫שהוספת ערך מרכזי למדגם לא תשנה את המרכז שלו‪ .‬אכן‪ ,‬כל המדדים שלנו מקיימים‬
‫תכונה נוספת‪:‬‬
‫)‪ (4‬עקביות‪.fn+1 (x1 , . . . , xn , fn (x1 , . . . , xn )) = fn (x1 , . . . , xn ) :‬‬
‫נעיר שהמינימום } ‪ min {x1 , . . . , xn‬והמקסימום } ‪ max {x1 , . . . , xn‬הומוגניים רק‬

‫ביחס לקבועים חיוביים‪.‬‬
‫תרגיל ‪ 1.2.2‬הראה שעבור ‪ n = 1, 2‬הפונקציה היחידה המקיימת את התכונות )‪-(1‬‬

‫‪.f2 (x, y) = x+y‬‬
‫‪2‬‬
‫)‪ (4‬לעיל )סימטריות‪ ,‬הומוגניות‪ ,‬שקיפות ועקביות( הן ‪ f1 (x) = x‬ו־‬
‫‪) f3 (x, y, z) = x + (y − x)g( y−x‬עם המוסכמה = ) ‪0 · g( a0‬‬
‫‪z−x‬‬
‫עבור ‪ ,n = 3‬הראה ש־)‬
‫)‪ a · g(0‬המטפלת במקרה ‪ (y = x‬מקיימת את ארבע התכונות אם ורק אם‬
‫‪ g : R→R‬היא פונקציה המקיימת )‪ g(α−1) = α−1 g(α‬ו־)‪ .g(1−α) = 1−g(α‬בפרט‬
‫אפשר לבחור ‪ g : [0, 1/2]→R‬כלשהי )עם ‪ ,(g(1/2) = 1/2‬ולהשלים לפונקציה על‬
‫כל הישר לפי המשוואות‪ .‬מצא את הפונקציה המתאימה עבור הממוצע‪ ,‬החציון‪,‬‬
‫אמצע הטווח והשכיח‪.‬‬
‫‪13‬‬
‫תרגיל ‪ 1.2.3‬נניח ש־)‪ d(x1 , . . . , xn ; t‬היא 'פונקציית שגיאה'‪ ,‬שעבור מדגם ‪x1 , . . . , xn‬‬
‫מודדת עד כמה הוא מיוצג על־ידי הערך ‪ .t‬הנסיון למזער פונקציות שגיאה טבעיות‪,‬‬
‫כלומר‪ ,‬לחשב ) ‪ t = g(x1 , . . . , xn‬שיביא את השגיאה למינימום‪ ,‬מובילות לכמה‬
‫ממדדי המרכז העיקריים‪.‬‬
‫בדוק את הטענות הבאות‪.‬‬
‫‪ .1‬הממוצע ממזער את הפונקציה ‪ .d2 (x1 , . . . , xn ; t) = i (xi − t)2‬כלומר‪,‬‬

‫‪P‬‬
‫הממוצע הוא המספר שסכום ריבועי המרחקים שלו מן הנתונים הוא הקטן‬
‫ביותר‪.‬‬
‫‪P‬‬
‫= )‪.d1 (x1 , . . . , xn ; t‬‬ ‫‪ .2‬החציון ממזער את |‪|xi − t‬‬
‫‪ .3‬אמצע הטווח ממזער את |‪.d∞ (x1 , . . . , xn ; t) = max |xi − t‬‬
‫‪ .4‬השכיח ממזער את מספר השגיאות האבסולוטיות‪.d′ = xi 6=t 1 ,‬‬

‫‪P‬‬
‫להכליל ולהגדיר את המדד ‪ ,tp‬שהוא הערך הממזער את = )‪dp (x1 , . . . , xn ; t‬‬

‫אפשר‪P‬‬
‫‪ , |xi − t|p‬כאשר ‪ ;p ≥ 1‬אלא שבדרך כלל אין נוסחה אנליטית לערך ‪.tp‬‬
‫למרות שהממוצע הוא מדד טבעי ופשוט‪ ,‬ואולי דווקא בשל כך‪ ,‬הוא עשוי לבלבל‬
‫כשמשתמשים בו שלא כהלכה‪ .‬מי שמציג את הממוצע צריך לבחור אילו נתונים נכללים‬
‫בחישוב‪ ,‬ואילו מושמטים ממנו‪ .‬כאשר ממצעים נתונים של קבוצה‪ ,‬מדוע דווקא הקבוצה‬
‫הזו ולא קבוצה רחבה או צרה יותר?‬
‫דוגמא ‪ 1.2.4‬משווים את ממוצע הקליעות לסל של שני שחקנים‪ .‬מתברר שאחוז הקליעות‬
‫של ‪ A‬בעונה הראשונה גבוה משל ‪ ,B‬וגם אחוז הקליעות שלו בעונה השניה גבוה יותר‪.‬‬
‫היתכן שאחוז הקליעות המצטבר שלו נמוך יותר?‬
‫בהחלט‪ .‬למשל‪ ,‬אם ‪ A‬קלע ‪ 60‬מתוך ‪ 100‬בעונה הראשונה לעומת ‪ 29‬מתוך ‪ 50‬קליעות‬
‫של שחקן ‪ ;B‬ובעונה השניה ‪ A‬קלע ‪ 35‬מתוך ‪ ,50‬בעוד ש־‪ B‬קלע ‪ 69‬מתוך ‪ .100‬אחוז‬
‫הקליעה המצטבר של ‪ A‬הוא ‪ ,95/150‬לעומת ‪ 98/150‬אצל ‪) .B‬אנו חוזרים לדוגמא זו‬
‫בהערה ‪(.2.1.30‬‬
‫ציטוט ‪ 1.2.5‬האחראי לנושא המשכורות וכוח האדם במשרד מבקר המדינה הוא המשנה‬
‫למנכ"ל‪ ,‬שמואל יונס‪ .‬לדברי בכיר במשרד המבקר‪ ,‬המניע להעברת עובדי מינהלה ומזכירות‬
‫לדרגת "מבקר" ולא להסתפק בשכר אקדמאי בדרגת מינהלן‪ ,‬הוא כפול‪ :‬מחד‪ ,‬לו היו‬
‫נשארים עובדים אלה בדרגת "עובדי מינהלה" אך שכרם היה עולה ‪ -‬הדבר היה מעלה‬
‫את ממוצע שכרם של עובדי המינהלה וגורר ביקורת ציבורית‪ .‬מאידך ‪ -‬צירופם של‬
‫עובדים אלה לדרג עובדי הביקורת מוריד את ממוצע השכר שם‪ ,‬וממתן את הביקורת‬
‫הציבורית גם מכיוון זה‪) .‬דה־מרקר‪" ,‬התחקיר שמבקר המדינה לא יכתוב"‪,27/2/2013 ,‬‬
‫‪(http://www.themarker.com/news/1.1938799.‬‬
‫‪14‬‬
‫תרגיל ‪" 1.2.6‬מאחר שמטעמי ביטחון שדה לא ניתן להציג את ממוצע מקבלי‬
‫הגמלה‪ ,‬מציין האוצר כי ‪ 25%‬מגמלאי מערכת הביטחון קיבלו בדצמבר האחרון‬
‫פחות מ־‪ 8, 299‬שקל‪ 50% ,‬קיבלו יותר מ־‪ 11, 752‬שקל ועוד ‪ 25%‬קיבלו יותר מ־‬
‫‪ 16, 255‬שקל‪ 44.4% .‬מגמלאי מערכת הביטחון קיבלו בדצמבר שכר שבין ‪10, 000‬‬
‫ל־‪ 20‬אלף שקל‪ 29.8% .‬קיבל עד ‪ 10, 000‬שקל ו־‪ 18.5%‬גמלה של ‪ 20-30‬אלף‬
‫שקל‪ .‬בסך הכל‪ ,‬שולם לגמלאי מערכת הביטחון בדצמבר ‪ 564‬מיליון שקל‪6.8 ,‬‬
‫מיליארד שקל במונחים שנתיים‪(http://www.haaretz.co.il/tm/1.2362545 ,30/6/2014) ".‬‬
‫הערך‪ :‬כמה גמלאים יש למערכת הבטחון?‬
‫הנה דוגמא לחיוניותו של השכיח‪.‬‬
‫תרגיל ‪ 1.2.7‬קבעת עם חבר טוב להפגש ביום רביעי הבא בירושלים‪ .‬אין לך שום‬
‫אמצעי ליצור איתו קשר עד אז )הוא במחתרת מסיבות שאתה מקווה לגלות‬
‫בפגישה(‪ .‬היכן ומתי תחפש אותו? השווה את תשובותך לתשובותיהם של‬
‫סטודנטים אחרים ובדוק כמה מכם היו מצליחים להפגש בסופו של דבר‪.‬‬
‫דוגמא ‪ 1.2.8‬החציון שימושי בקבלת הכרעות כאשר מצביעים על רצף של אפשרויות‪.‬‬

‫נאמר למשל שהחברים במועדון חלוקים בדעתם לגבי מספר שעות ההתנדבות‬
‫שחבר חדש במועדון צריך להתחייב עליהן‪ .‬יש הטוענים שחובה להתנדב ‪40‬‬
‫שעות‪ ,‬ויש שיסתפקו ב־‪ .10‬יש גם כאלו הדורשים ‪ 12‬שעות‪ .‬הצבעת רוב על‬
‫שלוש אפשרויות כאלה עלולה לפצל את התומכים במספר קרוב ל־‪ ,10‬ולתת‬
‫ל־‪ 40‬לזכות מן ההפקר‪ .‬היא גם לא מאפשרת למצביעים התומכים ב־‪ 35‬או ‪32‬‬
‫לבוא לידי ביטוי‪ .‬השיטה הנכונה להכריע במקרה כזה היא כדלקמן‪:‬‬
‫‪ .1‬הנהלת המועדון מנסחת את השאלה העומדת להכרעה‪ ,‬ודואגת שהתשובה‬

‫תהיה ערך של משתנה אורדינלי )כגון "מספר השעות הדרוש"(‪ .‬עליה‬
‫לקבוע מהו כיוון ההצבעה‪ :‬אם מישהו בוחר בערך ‪ ,α‬האם חזקה עליו‬
‫שהוא תומך בכל ערך גדול יותר‪ ,‬או בכל ערך קטן יותר? בדוגמא שלנו‬
‫הכיוון הוא כלפי מעלה‪ :‬מי שדורש ‪ 15‬שעות התנדבות‪ ,‬בוודאי יסתפק ב־‪;18‬‬
‫אבל הוא יתנגד ל־‪ ,14‬משום שאחרת היה בוחר בערך הזה )כאן רואים‬
‫מדוע חשוב לתת לכל מצביע לבטא את דעתו באופן מלא(‪.‬‬
‫‪ .2‬כל מצביע מטיל לקלפי את עמדתו בסוגיה‪ ,‬שהיא ערך אחד בסולם הערכים‬
‫האפשרי‪'' .‬הנחת הרציונליות'' במקרה כזה מחייבת את המצביע לאמץ‬
‫עמדה מונוטונית‪ .‬למשל‪ ,‬הוא אינו יכול לדרוש שמספר שעות ההתנדבות‬
‫יהיה ראשוני דווקא‪.‬‬
‫‪ .3‬בתנאים אלו‪ ,‬החציון הוא הערך הקטן ביותר שיש עליו הסכמת רוב‪ ,‬ולכן זו‬
‫האפשרות שצריכה להבחר‪.‬‬
‫‪15‬‬
‫‪ .4‬גם בלי להסביר את פרטי המנגנון‪ ,‬ההנהלה יכולה לפרסם הוכחה מסודרת‬
‫ומשכנעת לכך שהרוב תומך בתוצאה שהתקבלה‪.‬‬
‫תרגיל‪ .‬נניח שהתקנון קובע שכדי לשנות סעיף בתקנון‪ ,‬ההחלטה צריכה להתקבל‬
‫ברוב מיוחס של ‪ .60%‬הראה שהאחוזון ה־‪ 60%‬של ההצבעות צריך להבחר )בכיוון‬
‫ההצבעה(‪ ,‬משום שזה הערך הקטן ביותר שיש עליו הסכמת רוב מיוחס‪ .‬תרגיל‪.‬‬
‫המועדון מצביע על הסעיף הדורש הכרעה ברוב מיוחס‪ .‬כל מי שתומך בדרישה‬
‫לרוב של ‪ α‬יסתפק בוודאי גם ברוב גדול יותר‪ ,‬אבל יתנגד לרוב קטן יותר )אחרת‬
‫היה בוחר בזה(‪ .‬נניח שמבין ‪ 50‬המצביעים‪ ,‬יש ‪ 20‬התומכים בהשארת הרוב‬
‫המיוחס על ‪ 26 ,60%‬שהיו מסתפקים ברוב רגיל )של ‪ ,(50%‬ועוד מצביע אחד‬
‫לכל אחת מהאפשרויות ‪ .58% ,56% ,54% ,52%‬הוכח לחברי המועדון שההצבעה‬
‫הובילה לביטול הרוב המיוחס‪ ,‬למרות שרק לדרישה רוב של ‪ 58%‬ומעלה יש רוב‬
‫תומך של ‪.60%‬‬
‫תרגיל ‪ 1.2.9‬במשחק נחש וזכה משחקים על פרסים ששויים המוסכם מראש הוא‬
‫השחקן צריך לנחש‬ ‫‪ .a1 , . . . , an‬מנהל המשחק שם בקופה אחד מהפרסים‪.‬‬
‫‪ .C = ( a−1‬הראה‬ ‫‪−1‬‬
‫‪P‬‬
‫) ‪i‬‬ ‫איזה פרס נבחר; אם צדק‪ ,‬הוא זוכה בפרס‪ .‬נסמן‬
‫שהאסטרטגיה הטובה ביותר‪ ,‬גם למנהל וגם לשחקן‪ ,‬היא לבחור את הפרס ה־‪i‬‬
‫‪ .Ca−1‬הסק ש־‪ C‬הוא המחיר ההוגן לכרטיס השתתפות במשחק‪.‬‬‫‪i‬‬ ‫בהסתברות‬
‫מדדי פיזור‬ ‫‪1.2.5‬‬

‫אם נחזור למי שטבע באגם שעומקו הממוצע חצי מטר‪ ,‬הבעיה היא שממוצע )או שכיח‪,‬‬
‫או כל מדד מרכזי אחר( נותן רק תאור של האמצע‪ .‬הוא לא מספר לנו עד כמה הנתונים‬
‫מפוזרים סביב האמצע‪ .‬נחוץ לנו מדד שיבדיל בין מפעל שבו ‪ 29‬עובדים בשכר ‪4000‬‬
‫ש"ח ומנהל שיווק בשכר ‪ 40000‬ש"ח )ממוצע ‪ (5200‬לבין מקום עבודה שבו ‪ 15‬עובדים‬
‫מנוסים מקבלים ‪ 5400‬ש"ח‪ ,‬ו־‪ 15‬הפחות מנוסים מקבלים ‪ 5000‬ש"ח )אותו ממוצע(‪.‬‬
‫מדד פיזור אמור לייצג את מידת הפיזור של הערכים סביב ערך מרכזי‪ .‬בהמשך‬
‫נציג כמה דוגמאות‪ ,‬המקיימות כולן את התכונות הבאות )השווה לתכונות המקבילות‬
‫של מדדי המרכז(‪:‬‬
‫‪ .1‬סימטריות‪ fn (x1 , . . . , xn ) = fn (xσ1 , . . . , xσn ) :‬לכל תמורה ‪.σ ∈ Sn‬‬
‫‪ .2‬הומוגניות חיובית‪.fn (cx1 , . . . , cxn ) = |c| fn (x1 , . . . , xn ) :‬‬
‫‪ .3‬אדישות להזזה‪.fn (a + x1 , . . . , a + xn ) = fn (x1 , . . . , xn ) :‬‬
‫מדד הפיזור החשוב ביותר הוא סטיית התקן‪:‬‬
‫‪16‬‬
‫הגדרה ‪ 1.2.10‬סטיית התקן של סדרת מספרים ‪ x1 , . . . , xn‬היא השורש ‪ s‬של השונות‬

‫‪1X‬‬
‫= ‪s2‬‬ ‫‪(xi − x̄)2 .‬‬
‫‪n‬‬
‫תרגיל ‪ 1.2.11‬לכל ‪ x1 , . . . , xn‬מתקיים‬

‫‪1X‬‬ ‫‪1 X 2‬‬
‫( = ‪(xi − x̄)2‬‬ ‫‪xi ) − x̄2 .‬‬
‫‪n‬‬ ‫‪n‬‬
‫לאחר הוצאת השורש‪ ,‬המדד הוא הומוגני ממעלה ראשונה‪ .‬בפרט‪ ,‬יחידת המידה‬
‫של סטיית התקן היא זו של הנתונים עצמם‪ :‬סטיית התקן יכולה להיות ‪ 15‬סנטימטר‪,‬‬
‫או ‪ 400‬שקל‪.‬‬
‫יש מדדי פיזור נוספים‪:‬‬
‫‪ .1‬הטווח ‪.max xi − min xi‬‬
‫‪ .2‬טווח בין־רבעוני‪ ,Q3 − Q1 :‬כאשר ‪ Q1 , M = Q2 , Q3‬הם ערכים המחלקים את‬
‫המדגם לארבעה רבעים שווים בגודלם )בקירוב‪ ,‬אם גודל המדגם אינו מתחלק‬
‫ב־‪.(4‬‬
‫בדוגמת המפעל‪ ,‬סטיית התקן של המפעל עם מנהל השיווק היא כ־‪ ,6500‬בעוד‬
‫שסטיית התקן במקרה השני היא ‪ .203‬כדי לפתח הבנה אינטואיטיבית למשמעות‬
‫המספרית של סטיית התקן‪ ,‬יש להכיר דוגמאות נוספות‪ .‬עשו לכם מנהג לחשב את‬
‫סטיית התקן של נתוני מדגמים שאתם נתקלים בהם‪ .‬במקרה הטיפוסי‪ ,‬חלק נכבד מן‬
‫הנתונים נמצא במרחק של שתי סטייות תקן לכל היותר מן הממוצע‪.‬‬
‫כהכללה למושג הרבעון‪ ,‬מגדירים )עבור ‪ (0 < α < 1‬את ה"‪α‬־יון" ‪ Pα‬להיות הערך‬
‫ש־‪ α‬מהנתונים קטנים ממנו והשאר גדולים ממנו‪ .‬כך החציון הוא ‪ ,M = P0.5‬הרבעונים‬
‫הם ‪ Q1 = P0.25‬ו־ ‪ ;Q3 = P0.75‬העשירונים ‪ D1 , . . . , D9‬מוגדרים לפי ‪,Dn = Pn/10‬‬
‫והאחוזונים המוגדרים לפי ‪ Cn = Pn/100‬מקיימים ‪. C1 < · · · < C99‬‬
‫ציטוט ‪" 1.2.12‬גודלו של העשירון התחתון הוכפל תחת משטר תאצ'ר" )פיליפ בלונד‪ ,‬הוגה‬
‫דעות פוליטי בריטי‪ ,‬הראלד טריביון‪.(26.1.2008 ,‬‬
‫)אוכלוסיית בריטניה גדלה בתקופה זו ב־‪(.1.5%‬‬
‫ציטוט ‪" 1.2.13‬הבהרה‪' :‬אחוזון עליון' משמעו כי מתוך שנתון של ‪ 100, 000‬תלמידים‪,‬‬
‫אחוז אחד הם בעלי מנת משכל גבוהה מ־‪) ".135‬אתר האגף לתלמידים מחוננים ומצטיינים‪,‬‬
‫משרד החינוך‪(.2012 ,‬‬
‫‪17‬‬
‫‪ 1.2.6‬מתאם‬
‫החשיבות העיקרית בנתונים סטטיסטיים עשויה להיות השוואתית‪ .‬בפרט‪ ,‬אנחנו עשויים‬
‫להיות מעוניינים בקשר בין שני משתנים‪ .‬הקשר יכול להיות חזק )גובה ומשקל אצל‬
‫ילדים בני שנתיים( או חלש )גובה של ילד בן שנתיים והקומה שבה הוא גר(‪ ,‬בעל‬
‫משמעות או חסר משמעות‪ .‬לפעמים הקשר בין שני משתנים חזק‪ ,‬אבל שניהם מוסברים‬
‫על־ידי משתנה שלישי )גובה וידיעת לוח הכפל בבית־הספר היסודי ‪ -‬שניהם מושפעים‬
‫מן הגיל(‪.‬‬
‫מקדם המתאם נועד לבדוק את המקרה המיוחד שבו משתנה אחד הוא‪ ,‬בקירוב‪,‬‬
‫‪P‬‬
‫פונקציה ליניארית של משתנה אחר‪.‬‬
‫‪1‬‬
‫‪i‬‬ ‫)̄‪(x −x̄)(y −y‬‬
‫‪i‬‬
‫‪ ,ρ = n‬כאשר ‪ sx , sy‬הן סטיות התקן‬ ‫‪sx sy‬‬
‫מגדירים את מקדם המתאם‬
‫‪1‬‬ ‫‪P‬‬
‫‪n‬‬ ‫המתאימות‪ .‬נפגוש בנושא זה שוב לקראת סוף הקורס‪ .‬הערה‪(xi − x̄)(yi − ȳ) = .‬‬
‫‪. n1‬‬
‫‪P‬‬
‫̄‪xi yi − x̄y‬‬
‫טענה ‪ 1.2.14‬תמיד מתקיים ‪.−1 ≤ ρ ≤ 1‬‬
‫‪ P‬נתבונן ב־ ‪ Rn‬כמרחב מכפלה פנימית‪ ,‬ביחס למכפלה הפנימית הסטנדרטית‬ ‫הוכחה‪.‬‬

‫‪ .(x1 , . . . , xn ) · (y1 , . . . , yn ) = xi yi‬לפי אי־שוויון קושי־שוורץ‪,‬‬
‫‪X‬‬ ‫‬
‫| ‪ (xi − x̄)(yi − ȳ) = |(xi − x̄)i · (yi − ȳ)i‬‬
‫‬ ‫‬
‫‪≤ k(xi − x̄)i k · k(yi − ȳ)i k‬‬

‫‪qX‬‬ ‫‪qX‬‬
‫=‬ ‫)̄‪(xi − x‬‬ ‫‪2‬‬ ‫‪(yi − ȳ)2 = nsx sy .‬‬
‫‬
‫אם אין קשר סטטיסטי בין המשתנים‪ ,‬הערך צריך להיות קרוב לאפס‪ .‬לעומת זאת‬
‫אם ‪) yi = axi + b‬עבור ערכים ‪ a, b‬כלשהם(‪ ,‬אז ‪.ρ = ±1‬‬
‫איור ‪ 1.1‬מדגים נקודות אקראיות עם כמה מתאמים אפשריים‪.‬‬
‫מקדם המתאם מודד קשר ליניארי בין שני משתנים‪ .‬הוא מזהה קשר לא ליניארי‬
‫רק באופן חלקי‪ ,‬ועשוי להיות רחוק מאפס גם כשאין קשר סיבתי בין שני הגורמים‪.‬‬
‫רעיון ‪ 1.2.15‬יש מתאם חיובי בין הנטיה לאכול אוכל בריא‪ ,‬לבין הנטיה לחלות בסרטן‪.‬‬
‫מדוע? משום שהרגלי האכילה הבריאה מפחיתים )נכון יותר לומר‪ :‬דוחים( מחלות לב‪.‬‬
‫בשנים הנוספות יש סיכוי לחלות במחלות חדשות‪.‬‬
‫‪18‬‬
‫‪ .1.3‬קומבינטוריקה‬ ‫פרק ‪ .1‬מבואות‬
‫‪qq‬‬ ‫‪q‬‬
‫‪q qq‬‬ ‫‪q‬‬ ‫‪q q‬‬ ‫‪qqq q‬‬ ‫‪q qq q q‬‬
‫‪q q q qq q q q q q‬‬ ‫‪qq q‬‬
‫‪q qq q‬‬ ‫‪q‬‬ ‫‪qq‬‬ ‫‪q‬‬
‫‪q‬‬
‫‪q‬‬
‫‪q qq q q‬‬ ‫‪q‬‬‫‪q q‬‬ ‫‪q‬‬ ‫‪q qq‬‬ ‫‪q‬‬ ‫‪qq q‬‬
‫‪qq q‬‬ ‫‪q‬‬ ‫‪q‬‬ ‫‪q‬‬ ‫‪q‬‬
‫‪qq‬‬ ‫‪qq q‬‬ ‫‪qq q‬‬
‫‪qq qq q‬‬ ‫‪q q qq q‬‬ ‫‪q‬‬ ‫‪q‬‬ ‫‪qqq q q q‬‬
‫‪q‬‬ ‫‪q q‬‬ ‫‪q q‬‬
‫‪q‬‬ ‫‪q q‬‬ ‫‪q‬‬ ‫‪q‬‬ ‫‪q‬‬
‫‪q‬‬ ‫‪q‬‬
‫איור ‪ :1.1‬מתאמים )מימין לשמאל(‪ 0.41 ,0.04 :‬ו־‪.0.83‬‬
‫קומבינטוריקה‬ ‫‪1.3‬‬
‫אם ישנם ‪ n‬תרחישים אפשריים‪ ,‬שווי הסתברות‪ ,‬ומהם ‪ k‬תרחישים מוצלחים‪ ,‬אז הסיכוי‬
‫שיתרחש משהו מוצלח הוא ‪ . nk‬מן ההבחנה הפשוטה הזו נובע שכדי לחשב הסתברויות‪,‬‬
‫עלינו לדעת לספור מצבים מוצלחים )תהי ההגדרה אשר תהיה(‪ ,‬ומצבים בכלל‪ .‬בפרק‬
‫זה ניגע בנושא הקומבינטוריקה ‪ -‬תורת הספירה ‪ -‬על קצה המזלג‪.‬‬
‫בחירה עם החזרה ובלי החזרה‪ ,‬עם חשיבות לסדר ובלעדיה‬ ‫‪1.3.1‬‬

‫האובייקטים הבסיסיים בקומבינטוריקה הם וקטורים‪ ,‬כלומר‪ ,‬הופעה סדורה של רכיבים‬
‫יסודיים‪ ,‬ותת־קבוצות‪ ,‬שבהן מופיעים אותם רכיבים באופן לא סדור‪ .‬בכל בחירה יש‬
‫להבדיל בין בחירה עם חזרות )בכל פעם בוחרים מאותו מרחב( וללא חזרות )המרחב‬
‫משתנה תוך כדי הבחירה בהתאם לערכים שנבחרו(‪.‬‬
‫דוגמא ‪) 1.3.1‬בחירה עם חזרות כשיש חשיבות לסדר( נתונה קבוצה ‪ .X‬בחירה של ‪k‬‬
‫רכיבים מן הקבוצה הזו‪ ,‬עם חשיבות לסדר הרכיבים‪ ,‬אפשר לקודד לווקטור באורך ‪,k‬‬
‫הקבוצה ‪ .X k‬לכן מספר הדרכים לבחור ‪ k‬ערכים מקבוצה כזו‪ ,‬עם חזרות‪,‬‬ ‫של‪ k‬‬‫כלומר‪ k‬איבר ‬
‫הוא |‪ . X = |X‬למשל‪ ,‬בכתה של ‪ 30‬תלמידים מבקשים להעניק תעודות מתאימות‬
‫‬
‫לתלמיד שמקום מגוריו צפוני ביותר‪ ,‬לזה שחולצתו הכהה ביותר‪ ,‬ולזה שציונו הנמוך ביותר‪:‬‬
‫יש ‪ 303‬תוצאות אפשריות‪.‬‬
‫דוגמא זו מיישמת את "עקרון המכפלה" בגרסתו הפשוטה ביותר‪ :‬מספר הדרכים‬

‫לבחור איבר ‪ a ∈ A‬ואיבר ‪ ,b ∈ B‬כאשר אין קשר בין הבחירות‪ ,‬הוא = |‪|A × B‬‬
‫|‪) |A| · |B‬מפעילים את העקרון באינדוקציה על ‪.(k‬‬
‫דוגמא ‪ 1.3.2‬לקבוצה ‪ A‬יש בדיוק |‪ 2|A‬תת־קבוצות )לרבות הקבוצה הריקה ∅ והקבוצה‬

‫‪ A‬עצמה(‪ .‬זוהי חזרה על דוגמא ‪ ,1.3.1‬משום שיש התאמה בין תת־קבוצות לפונקציות‬
‫}‪ ,A→{0, 1‬ויש התאמה בין פונקציות אלו לבחירת |‪ |A‬ערכים )עם חזרות( מן הקבוצה‬
‫}‪.{0, 1‬‬
‫‪19‬‬
‫פרק ‪ .1‬מבואות‬ ‫‪ .1.3‬קומבינטוריקה‬
‫תרגיל ‪ 1.3.3‬נתונה קבוצה ‪ A0‬בגודל ‪ .n‬כמה דרכים יש לבחור ממנה ועדה ובתוכה‬
‫תת־ועדה? הראה שמספר השרשראות ‪ Ak ⊆ · · · ⊆ A1 ⊆ A0‬הוא ‪.(k + 1)n‬‬
‫דוגמא ‪ 1.3.4‬תמורה היא פוקנציה חד־חד־ערכית ועל מן הקבוצה }‪ {1, . . . , n‬לעצמה‪.‬‬

‫אנו מסמנים ב־ ‪ Sn‬את קבוצת התמורות על ‪ n‬עצמים‪ .‬יש ‪n! = n(n − 1)(n − 2) · · · 2 · 1‬‬
‫דרכים לסדר ‪ n‬עצמים‪) .‬אפשר להוכיח באינדוקציה(‪.‬‬
‫מספר התמורות ב־ ‪ Sn‬שווה גם למספר הפונקציות החד־חד־ערכיות ‪ f : X→Y‬בין‬
‫כל שתי קבוצות ‪ X, Y‬בגודל ‪ .n‬למשל‪ ,‬זהו מספר ה"סידורים" של ‪ ,X‬שהם פונקציות‬
‫‪ ;f : {1, . . . , n}→X‬וגם מספר התמורות של ‪) X‬פוקנציות החד־חד־ערכיות ועל ‪.(σ : X→X‬‬
‫דוגמא ‪) 1.3.5‬בחירה ללא חזרות כשיש חשיבות לסדר( סופרים וקטורים שרכיביהם בקבוצה‬
‫‪ X‬בגודל ‪ ,n‬עם המגבלה שכל שני רכיבים שונים זה מזה; יש ‪ n‬אפשרויות לרכיב הראשון‪,‬‬
‫‪ n − 1‬לשני‪ ,‬וכן הלאה‪ .‬מספר הווקטורים באורך ‪ n‬הוא‬
‫!‪n‬‬
‫= )‪n(n − 1) · · · (n − k + 1‬‬ ‫‪.‬‬
‫!)‪(n − k‬‬
‫באופן שקול לזה‪ ,‬אנו סופרים פונקציות חד־חד־ערכיות מקבוצה בגודל ‪ k‬לקבוצה בגודל‬
‫‪.n‬‬
‫באותה כתה‪ 30 · 29 · 28 ,‬הוא מספר האפשרויות לבחור ועד בן שלושה אנשים‪ ,‬שאחד‬
‫מהם עומד בראשו ואחד הוא סגן‪.‬‬
‫במקרה המיוחד ‪ k = n‬סופרת דוגמא ‪ 1.3.5‬תמורות על ‪ n‬עצמים‪ .‬אם ‪k > n‬‬

‫הדרישה היא למצוא פונקציה חד־חד־ערכית מקבוצה גדולה לקבוצה קטנה ממנה‪ ,‬ואין‬
‫פונקציות כאלה‪.‬‬
‫"עקרון הסכום" הוא העובדה הפשוטה שאם הקבוצות ‪ A, B‬זרות‪ ,‬מספר הדרכים‬
‫לבחור איבר מ־‪ A‬או מ־‪ B‬הוא |‪ .|A ∪ B| = |A| + |B‬את העקרון הזה אפשר להכליל‬
‫באופן הבא‪:‬‬
‫)עקרון הסכום המוכלל( תהי ‪ f : A→B‬פונקציה בין קבוצות סופיות‪ .‬אז‬

‫טענה‪P 1.3.6−1‬‬
‫|)‪.|A| = b∈B |f (b‬‬
‫הוכחה‪ .‬לפי ההגדרה הפורמלית‪ f ,‬היא הקבוצה |}‪ ;f = |{(a, f (a)) :Sa ∈ A‬התאמה חד־חד־‬
‫ערכית מראה ש־| ‪ f = b∈B {(a, b) : f (a) = b} ;|A| = |f‬הוא איחוד זר‪ ,‬ולכל ‪ b‬מתקיים‬
‫|)‪ .|{(a, b) : f (a) = b}| = |f −1 (b‬לכן‬
‫‪X‬‬ ‫‪X‬‬
‫‪f −1 (b).‬‬
‫‬
‫= | ‪|A| = |f‬‬ ‫= |}‪|{(a, b) : f (a) = b‬‬
‫‪b∈B‬‬ ‫‪b∈B‬‬
‫‬
‫‪20‬‬
‫מה הקשר לנוסחה שבדוגמא ‪ ?1.3.5‬אנו סופרים וקטורים באורך ‪ ,k‬ללא חזרות‪,‬‬
‫שרכיביהם שייכים לקבוצה ‪ .X‬נסמן ב־]‪ X [k‬את קבוצת הווקטורים ללא חזרות‬
‫באורך ‪ ,k‬וב־ ]‪ X [k−1‬את קבוצת הווקטורים ללא חזרות מאורך ‪ .k − 1‬הפונקציה‬
‫]‪ f : X [k] →X [k−1‬מוגדרת כך ש־)‪ f (v‬מתקבל מן הווקטור ‪ v‬על־ידי מחיקת הרכיב‬
‫הראשון‪ .‬לפי עקרון הסכום המוכלל‪,‬‬
‫ ‪ [k] X‬‬ ‫!)‪ X (n − 1‬‬ ‫!‪n‬‬
‫= ‪X‬‬ ‫= ]‪(X − {x})[k−1‬‬ ‫=‬ ‫‪.‬‬
‫‪x∈X‬‬ ‫‪x∈X‬‬
‫!)‪(n − k‬‬ ‫!)‪(n − k‬‬
‫מעקרון המכפלה נובע מיד גם‬
‫מסקנה ‪) 1.3.7‬עקרון המנה( תהי ‪ f : A→B‬פונקציה על‪ .‬אם |)‪ m = |f −1 (b‬לכל ∈ ‪b‬‬
‫‪ ,B‬אז |‪.|B| = m1 |A‬‬
‫דרך נוספת לספור וקטורים ללא חזרות היא להתבונן בהטלה ]‪ ,Sn →X [k‬המוגדרת‬
‫על־ידי הקיצוץ ))‪ .σ 7→ (σ(1), σ(2), . . . , σ(k‬כל וקטור ) ‪ (x1 , . . . , xk‬עם!‪ n‬ערכים ]‪ [k‬‬
‫שונים‬
‫אפשר להשלים לתמורה בדיוק ב־!)‪ (n − k‬דרכים‪ ,‬ולפי עקרון המנה !)‪.X = (n−k‬‬
‫תת־קבוצות בגודל‬ ‫דוגמא ‪) 1.3.8‬בחירה ללא חזרות כשאין חשיבות לסדר( כאן סופרים‬
‫‪n‬‬ ‫!‪n‬‬
‫‬
‫קבוע‪ .‬מספר תת־הקבוצות בגודל ‪ k‬של קבוצה ‪ X‬בגודל ‪ n‬הוא !)‪ . k = k!(n−k‬אכן‪,‬‬
‫‪. 30‬‬
‫‬
‫‪3‬‬
‫מספר הדרכים לבחור ועדה שוויונית בת ‪ 3‬אנשים היא‬
‫‪n‬‬ ‫!‪n‬‬
‫‬
‫מקיימים זהויות רבות‪ ,‬ובראשן‬ ‫‪k‬‬
‫=‬ ‫!)‪k!(n−k‬‬
‫הערה ‪ 1.3.9‬המקדמים הבינומיים‬
‫ ‬ ‫ ‬ ‫‬
‫‪n‬‬ ‫‪n−1‬‬ ‫‪n−1‬‬
‫=‬ ‫‪+‬‬ ‫‪.‬‬
‫‪k‬‬ ‫‪k‬‬ ‫‪k−1‬‬
‫‪PN −1‬‬ ‫‪n+k‬‬
‫‬
‫‪n=0‬‬ ‫‪k‬‬
‫מצא לזהות זו הסבר קומבינטורי פשוט‪ .‬העזר בזהות כדי להוכיח ש־=‬
‫‪ . N k+k‬ראה גם תרגיל ‪.2.3.68‬‬
‫‬
‫דוגמא ‪) 1.3.10‬בחירה עם חזרות כשאין חשיבות לסדר( גם כאן נתונה קבוצה ‪ X‬בגודל‬
‫‪ ,n‬ובוחרים מתוכה ‪ k‬ערכים; אלא שהפעם אין חשיבות לסדר הערכים שהתקבלו‪ .‬תוצאה‬
‫כזו אפשר לתאר באמצעות המספרים ‪ ,a1 , . . . , an‬כאשר ‪ ai‬סופר כמה פעמים נבחר הערך‬
‫‪ i‬מהקבוצה‪ .‬אם כך‪ ,‬אפשר לקודד את הבחירה בווקטור ) ‪ ,(a1 , . . . , an‬המוגבל על־ידי‬
‫שני אילוצים‪ ,ai ≥ 0 :‬ו־‪ .a1 + · · · + an = k‬כפי שנוכיח מיד‪ ,‬מספר הפתרונות הוא‬
‫‪. 30+2‬‬
‫‪3‬‬
‫‪ . n+k−1‬מספר הדרכים לחלק שלושה פרסים זהים לתלמידי הכתה הוא‬ ‫‪k‬‬
‫נוסחת הספירה בדוגמא ‪ 1.3.10‬נובעת מן ההתאמה המסקרנת הבאה‪:‬‬
‫‪21‬‬
‫טענה ‪ 1.3.11‬מספר הפתרונות ) ‪ (x1 , . . . , xn‬למשוואה ‪ ,x1 +· · ·+xn = k‬תחת האילוצים‬

‫‪. n+k−1‬‬
‫‪k‬‬
‫‪ ,xi ≥ 0‬הוא‬
‫הוכחה‪ .‬נבנה התאמה חד־חד־ערכית ועל בין קבוצת הפתרונות ) ‪ (x1 , . . . , xn‬לבין קבוצת הווקטורים‬
‫באורך ‪ n + k − 1‬שיש בהם ‪ k‬סימני "×" ו־)‪ (n − 1‬סימני פסיק‪ :‬הווקטור ) ‪ (x1 , . . . , xn‬מתאים‬
‫לרשימה רצופה של סימנים המורכבת מ־ ‪ x1‬סימני × ואז סימן פסיק; ואז ‪ x2‬סימני × וסימן פסיק;‬
‫ואז ‪ x3‬סימני × וסימן פסיק; וכן הלאה‪ ,‬עד ל־ ‪ xk‬סימני ×‪.‬‬
‫ מספר הווקטורים באורך ‪ n + k − 1‬שיש בהם ‪ k‬סימני "×" ו־)‪ (n − 1‬סימני פסיק הוא‬
‫‬ ‫‪ , n+k−1‬משום שיש לבחור היכן ממוקמים סימני הפסיק בקבוצת הרכיבים של הווקטור‪.‬‬ ‫‪k‬‬
‫אלו הן ארבע דוגמאות חשובות לבעיות בחירה‪ ,‬אבל יש בעיות רבות אחרות‪ ,‬בדרך‬
‫כלל קשות יותר‪ .‬למשל‪ ,‬כמה וקטורים מסודרים יש באורך קבוע ובעלי סכום קבוע ‪?n‬‬
‫ואם אין חשיבות לאורך? ואיך גדל המספר הזה‪ ,‬כפונקציה של ‪?n‬‬
‫שההכללה שלה מתבקשת‪ .‬אם ‪,|A| = m‬‬ ‫ספירה של קבוצות היא בעיה חשובה‪,‬‬
‫‪ . m‬כל תת־קבוצה כזו היא למעשה‬
‫‬
‫‪n‬‬
‫כאמור‬ ‫אז מספר תת־הקבוצות בגודל ‪ n‬הוא‬
‫חלוקה של ‪ A‬לאיחוד זר ‪ .B ∪ B c‬באופן כללי יותר‪ ,‬מספר האפשרויות לפרק את‬
‫‪ A‬לאיחוד זר של תת־קבוצות ‪ ,B1 , . . . , Bt‬בגדלים שנקבעו מראש ‪ |Bi | = ni‬כך‬
‫ש־‪ ,n1 + · · · + nt = m‬הוא‬
‫ ‬ ‫‬ ‫‬ ‫ ‬ ‫‬
‫‪m‬‬ ‫‪m − n1‬‬ ‫‪m − n1 − · · · − nt−1‬‬ ‫‪m‬‬
‫···‬ ‫=‬ ‫‪.‬‬
‫‪n1‬‬ ‫‪n2‬‬ ‫‪nt‬‬ ‫‪n1 · · · nt‬‬
‫דוגמא ‪ 1.3.12‬בכתה יש ‪ 30‬תלמידים‪ .‬רוצים לחלק להם כובעים‪ 7 :‬כובעי ליצן‪ 18 ,‬מצנפות‬
‫צילינדרים‪ ,‬כך שכל תלמיד יחבוש בדיוק כובע אחד‪ .‬מספר הדרכים לעשות זאת‬ ‫שינה‪ ,‬ו־‪5‬‬
‫‪. 7 30‬‬ ‫!‪30‬‬
‫‬
‫‪18 5‬‬
‫=‬ ‫!‪7!18!5‬‬
‫הוא‬
‫תרגיל ‪ 1.3.13‬כמה דרכים יש להושיב שבעה אנשים על ספסל? וסביב שולחן‬

‫עגול? כמה דרכים יש לחלק אותם למנהיג ושני צוותי עבודה שווים בגודלם‪ ,‬שיש‬
‫להם אותה משימה?‬
‫תרגיל ‪ 1.3.14‬נאמר שקבוצת אנשים מסודרת במבנה ] ‪ [ℓ1 . . . ℓt‬אם הם יושבים‬

‫סביב שולחנות עגולים באורכים ‪ .ℓ1 , . . . , ℓt‬לדוגמא‪ ,‬המבנים האפשריים לסידור‬
‫ארבעה אנשים הם ]‪ .[1111], [112], [22], [13], [4‬כמה דרכים יש להושיב ששה‬
‫אנשים בכל אחד מאחד־עשר המבנים האפשריים? )סכום התשובות הוא !‪.(6‬‬
‫‪ .1‬בטיול על המרחב ‪ Z2‬מותר לזוז בכל צעד רק באלכסון‪ :‬ימינה‬ ‫תרגיל ‪1.3.15‬‬
‫ולמעלה או ימינה ולמטה‪ .‬נניח ש־‪ a > b‬שלמים‪ .‬כמה מסלולים מגיעים‬
‫מנקודת הראשית לנקודה )‪?(a + b, a − b‬‬
‫‪22‬‬
‫‪"] .2‬בעיית ספירת הקולות"‪;1878 ,William Allen Whitworth (1840–1905) ,‬‬

‫הפתרון המתואר כאן הוא של )‪ [Désiré André (1840–1917/18‬בבחירות‬
‫יש ‪ a‬תומכים למועמד אחד ו־‪ b‬למועמד השני‪ ,‬כאשר ‪ .a > b‬סופרים את‬
‫הקולות בזה אחר זה‪ .‬מהם הסיכויים לכך שהמועמד שינצח בסופו של דבר‬
‫יוביל לאורך הספירה כולה? הדרכה‪ .‬לכל קבוצת מסלולים ‪ ,X‬נסמן ב־ ‪ X ′‬את‬
‫קבוצת המסלולים ב־‪ X‬שבהם המנצח מוביל לאורך הספירה כולה‪ ,‬וב־ ‪ X ′′‬את‬
‫המסלולים ב־‪ X‬שבהם מתרחש תיקו לפחות פעם אחת במהלך הספירה‪ .‬נסמן ב־‬
‫‪ A‬את קבוצת המסלולים שהצעד הראשון שלהם הוא כלפי מעלה )תמיכה במועמד‬
‫שינצח בסופו של דבר( וב־‪ B‬את המשלים‪ ,‬היינו המסלולים שהצעד הראשון שלהם‬
‫כלפי מטה )תמיכה במועמד המפסיד(‪ .‬כמובן‪ .B ′ = ∅ ,‬על־ידי שיקוף החלק של‬
‫המסלול עד לתיקו הראשון‪ ,‬הראה ש־| ‪ .|B ′′ | = |A′′‬הסק שההסתברות המבוקשת‬
‫| ‪|A′‬‬ ‫|‪|A|−|B‬‬
‫|‪. |A∪B‬‬ ‫|‪= |A|+|B‬‬ ‫‪= a−b‬‬
‫היא ‪a+b‬‬
‫‪ 1.3.2‬עקרון ההכלה וההדחה‬

‫כידוע‪ .|A ∪ B| = |A| + |B| − |A ∩ B| ,‬בדומה לזה אפשר לחשב‬
‫‪|A ∪ B ∪ C| = |A| + |B| + |C| − |A ∩ B| − |A ∩ C| − |B ∩ C| + |A ∩ B ∩ C|.‬‬
‫זוהי נוסחה שימושית‪ ,‬משום שבדרך כלל קל יותר לחשב כמה איברים מקיימים תכונה‬
‫מסויימת או זוג תכונות מסויימות או שלוש תכונות‪ ,‬מאשר לחשב כמה אברים מקיימים‬
‫לפחות תכונה אחת‪.‬‬
‫ההכללה מתבקשת‪:‬‬
‫משפט ‪) 1.3.16‬עקרון ההכלה וההדחה( אם ‪ A1 , . . . , At‬קבוצות‪ ,‬אז‬
‫‬ ‫‬
‫‪t‬‬
‫‪X‬‬ ‫‪X‬‬ ‫ \‬
‫= | ‪|A1 ∪ · · · ∪ At‬‬ ‫‪(−1)i−1‬‬ ‫‪ Ai .‬‬
‫‬ ‫‬
‫‬ ‫‬
‫‪i=1‬‬ ‫‪I⊆{1,...,t}, |I|=i i∈I‬‬
‫הוכחה‪ .‬אם נסכים שהחיתוך על־פני אוסף ריק של קבוצות שווה לאיחוד ‪,A1 ∪ · · · ∪ At‬‬
‫נוכל לכתוב את הטענה בצורה הדוקה יותר‪:‬‬
‫‪t‬‬
‫‬ ‫‬
‫‪X‬‬ ‫‪X‬‬ ‫ \‬
‫‪(−1)i‬‬ ‫‪ Ai = 0,‬‬
‫‬ ‫‬
‫‬ ‫‬
‫‪i=0‬‬ ‫‪I⊆{1,...,t}, |I|=i i∈I‬‬
‫‬ ‫‬ ‫ואפילו‬
‫‪X‬‬ ‫ \‬
‫‪(−1)|I| Ai = 0.‬‬
‫‬ ‫‬
‫‬ ‫‬
‫}‪I⊆{1,...,t‬‬ ‫‪i∈I‬‬
‫‪23‬‬
‫‪S‬‬
‫כדי להוכיח את הטענה‪ ,‬יהי ‪ .x ∈ Ai‬נסמן } ‪,J = {i ∈ {1, . . . , t} : x ∈ Ai‬‬
‫ו־|‪ .t′ = |J‬אז ‪ x‬מופיע באגף ימין בדיוק בחיתוכים ‪ ∩i∈I Ai‬שעבורם ‪ ,I ⊆ J‬ובסך‬
‫הכל‬
‫‪t‬‬ ‫‪t′‬‬ ‫‪ ′‬‬ ‫‪t′‬‬ ‫‪ ′‬‬
‫‪i−1 t‬‬ ‫‪i t‬‬ ‫‪′‬‬
‫‪X‬‬ ‫‪X‬‬ ‫‪X‬‬ ‫‪X‬‬
‫‪i−1‬‬
‫)‪(−1‬‬ ‫=‪1‬‬ ‫)‪(−1‬‬ ‫)‪= 1− (−1‬‬ ‫‪= 1−(1−1)t = 1‬‬
‫‪i=1‬‬ ‫‪i=1‬‬
‫‪i‬‬ ‫‪i=0‬‬
‫‪i‬‬
‫‪I⊆J, |I|=i‬‬
‫‬ ‫פעמים‪.‬‬
‫נאמר שמערכת הקבוצות ‪ A1 , . . . , At‬היא סימטרית אם גודל החיתוך | ‪|∩i∈I Ai‬‬
‫תלוי רק ב־|‪ .|I‬עבור מערכת סימטרית‪ ,‬נוסחת ההכלה וההדחה מקבלת צורה נוחה‬
‫במיוחד‪:‬‬
‫‪t‬‬ ‫‬
‫‪X‬‬ ‫‪t‬‬
‫= | ‪|A1 ∪ · · · ∪ At‬‬ ‫‪(−1)i−1‬‬ ‫‪|A1 ∩ · · · ∩ Ai |.‬‬
‫‪i=1‬‬
‫‪i‬‬
‫דוגמא ‪ 1.3.17‬נספור כמה פונקציות ‪ X→Y‬הן על‪ .‬נסמן |‪ n = |X‬ו־| ‪ .ℓ = |Y‬לכל‬

‫‪Sy ∈ Y‬נסמן }) ‪ .Ay = {f : X→Y : y 6∈ Im(f‬הפונקציות שאינן על נמצאות ב־‬
‫‪ . y∈Y Ay‬לכל ‪ I ⊆ Y‬מתקיים ‪ .|∩y∈I Ay | = (ℓ − |I|)n‬לכן‬
‫‪t‬‬ ‫‬ ‫‪t‬‬ ‫‬
‫‪X‬‬
‫‪i−1‬‬ ‫‪t‬‬ ‫‪X‬‬
‫‪i−1 t‬‬
‫= | ‪|A1 ∪ · · · ∪ At‬‬ ‫)‪(−1‬‬ ‫= | ‪|A1 ∩ · · · ∩ Ai‬‬ ‫)‪(−1‬‬ ‫‪(ℓ − i)n .‬‬
‫‪i=1‬‬
‫‪i‬‬ ‫‪i=1‬‬
‫‪i‬‬
‫דוגמא ‪ 1.3.18‬כמה פתרונות יש למשוואה ‪ ,x1 + · · · + xt = n‬במספרים טבעיים‪ ,‬בכפוף‬

‫לאילוצים ‪?0 ≤ x1 , . . . , xt < m‬‬
‫נתבונן בקבוצת הפתרונות של שעבורם ‪ ,0 ≤ x1 , . . . , xt‬ללא האילוצים ‪;xi ≤ m‬‬
‫ספרנו את אלה בטענה ‪ .1.3.11‬נסמן ב־ ‪ Ai‬את קבוצת הפתרונות שעבורם ‪.m ≤ xi‬‬
‫אנו מעוניינים בפתרונות שאינם באף ‪ ,Ai‬כלומר במשלים ‪ .(A1 ∪ · · · ∪ At )c‬המערכת‬
‫‪ A1 , . . . , At‬סימטרית‪ .‬כדי לספור את הפתרונות ב־ ‪ ,A1 ∩ · · · ∩ Aj‬נציב ‪xi = x′i + m‬‬
‫עבור ‪ ,1 ≤ i ≤ j‬ונקבל את המשוואה ‪,x′1 + · · · + x′j + xj+1 + · · · + xt = n − jm‬‬
‫עם האילוצים הסטנדרטיים ‪ ,x′1 , . . . , x′j , xj+1 , . . . , xt ≥ 0‬שמספר הפתרונות שלה הוא‬
‫‪ . t+n−jm−1‬לפי נוסחת ההכלה וההדחה‪ ,‬מספר הפתרונות המבוקש הוא‬
‫‬
‫‪n−jm‬‬
‫‪t‬‬
‫ ‬ ‫‬
‫‪c‬‬ ‫‪t‬‬
‫‪X‬‬ ‫‪t + n − jm − 1‬‬
‫‪j‬‬
‫= | ) ‪|(A1 ∪ · · · ∪ At‬‬ ‫)‪(−1‬‬ ‫‪.‬‬
‫‪j=0‬‬
‫‪j‬‬ ‫‪n − jm‬‬
‫‪24‬‬
‫פרק ‪2‬‬
‫מבוא להסתברות‬
‫מרחבי הסתברות בדידים‬ ‫‪2.1‬‬

‫יש קושי פילוסופי בהגדרת מושג ההסתברות )אם העולם דטרמיניסטי‪ ,‬כל דבר או‬
‫שיקרה בוודאות‪ ,‬או שלא יקרה בוודאות(‪ .‬כדי לחסוך בזמן‪ ,‬ננקוט בגישה המתמטית‬
‫)שהיא‪ :‬ליצור תאוריה מדוייקת‪ ,‬ולהשאיר את כאב הראש לפילוסופים(‪.‬‬
‫המתמטיקה מסובכת יותר עבור משתנים רציפים‪ ,‬ולכן נתחיל בפיתוח התאוריה‬
‫עבור משתנים בדידים‪ .‬מעתה ועד פרק ‪ ,2.5‬תהי ‪ Ω‬קבוצה סופית או בת־מניה‪.‬‬
‫הערה ‪ 2.1.1‬אם טור מתכנס בהחלט‪ ,‬סכומו אינו תלוי בסדר האברים‪.‬‬
‫הגדרה ‪) 2.1.2‬מרחב הסתברות בדיד( מרחב הסתברות בדיד הוא זוג סדור ) ‪P (Ω, P‬‬
‫שבו‬
‫‪ Ω‬קבוצה סופית או בת מניה‪ ,‬ו־‪ P : Ω→R‬פונקציה חיובית המקיימת ‪. x∈Ω P (x) = 1‬‬
‫לפי הערה ‪ ,2.1.1‬אם הטור מתכנס לסידור מסויים של הנקודות במרחב‪ ,‬אז הסכום אינו‬
‫תלוי בסדר‪.‬‬
‫ההגדרה הזו אינה מתאימה למרחבים שאינם בני מניה )משום שאז הסכום אינו‬
‫מוגדר(‪ .‬בהמשך הקורס נתמודד עם המקרה הכללי‪ ,‬ונראה שהוא מכליל את ההגדרות‬
‫שנפגוש בפרק הזה‪.‬‬
‫דוגמא ‪ 2.1.3‬נניח ש־‪ Ω‬מרחב סופי‪ .n = |Ω| ,‬הפונקציה ‪) P (x) = n1‬לכל ‪(x ∈ Ω‬‬
‫הופכת את ‪ Ω‬למרחב הסתברות‪ ,‬הנקרא מרחב ההסתברות האחיד )בגודל ‪.(n‬‬
‫מצבים טבעיים רבים מוליכים למרחבי הסתברות אחידים‪ :‬זריקת מטבע או קוביה‪,‬‬
‫זוג קוביות )בצבעים שונים(‪ ,‬וכדומה‪ .‬במקרים רבים המרחב האחיד הוא גדול מכדי‬
‫להיות מעניין‪ ,‬ומחליפים אותו במרחב מנה קטן‪ ,‬הנוגע באופן ישיר יותר לשאלה שרוצים‬
‫לחקור‪.‬‬
‫‪25‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.1‬מרחבי הסתברות בדידים‬
‫דוגמא ‪ 2.1.4‬זורקים מטבע שש פעמים‪ ,‬ושואלים מתי התקבל ‪ 1‬בפעם הראשונה )אם‬
‫בכלל(‪ .‬נוכחים כאן שני מרחבי הסתברות‪ :‬המרחב האחיד ‪ Ω‬על ‪ 26‬הסדרות האפשריות‬
‫של הטלות מטבע‪ ,‬המתאר את מרחב התצפיות‪ ,‬והמרחב }‪ Ω′ = {1, 2, 3, 4, 5, 6, −‬של‬
‫תוצאות הניסוי‪ .‬יש פונקציה ‪ Ω→Ω′‬המתאימה לכל תצפית את התוצאה המתאימה לה‬
‫)למשל‪ ,‬כל הסדרות ∗∗∗‪ 001‬מתאימות לערך ‪.(3 ∈ Ω′‬‬
‫|) ‪|f −1 (ω′‬‬
‫|‪.P (ω ′) = |Ω‬‬ ‫ההתאמה הזו מגדירה פונקציית הסתברות על המרחב ‪ ,Ω′‬לפי‬
‫דוגמא ‪ 2.1.5‬קוביה אינה חייבת להיות הוגנת‪ :‬לכל ‪ n‬מספרים ממשיים ‪p1 , . . . , pn ≥ 0‬‬
‫שסכומם ‪ ,p1 + · · · + pn = 1‬אפשר לקחת ‪.P (xi ) = pi‬‬
‫דוגמא ‪ 2.1.6‬נגדיר פונקציה ‪ P : N→R‬לפי ‪ .P (n) = 2−n‬כך )‪ P (n‬הוא הסיכוי‬

‫שנצטרך להטיל מטבע ‪ n‬פעמים עד‪P‬להצלחה הראשונה )לקבל 'עץ'‪ ,‬למשל(‪ .‬זוהי פונקציית‬
‫∞ ‪.‬‬‫‪n=1 2‬‬
‫‪−n‬‬
‫הסתברות‪ ,‬משום ש־‪= 1‬‬
‫הערה ‪ 2.1.7‬יכולנו להמשיך בדוגמא הקודמת לפונקציה ‪ P : N∪{∞}→R‬על־ידי = )∞( ‪P‬‬

‫‪ ,0‬משום שככלות הכל יתכן שסדרת הכשלונות תמשך לאינסוף‪ ,‬גם אם ההסתברות לכך‬
‫היא ‪) 0‬לא 'קטנה' או 'זניחה' ־ אפס(‪.‬‬
‫נקודות כאלה אפשר לזרוק מן המרחב‪ :‬קיומן או העדרן אינו משפיע כלל על החישובים‪.‬‬
‫הסתברות של מאורעות‬ ‫‪2.1.1‬‬

‫כל תת־קבוצה ‪ A ⊆ Ω‬נקראת מאורע; היא מייצגת דבר שיכול לקרות‪ ,‬ושאפשר לדבר‬
‫על ההסתברות שלו‪ .‬נסמן ב־)‪ P(Ω‬את קבוצת החזקה של ‪) Ω‬לא )‪ ,P (Ω‬משום שאנו‬
‫זקוקים לאות ‪ P‬כדי לציין הסתברויות(‪ .‬אכן‪ ,‬אנו מרחיבים את ההגדרה מהפונקציה‬
‫‪ P : Ω→R‬לפונקציה ‪ P : P(Ω)→R‬על־ידי‬
‫‪X‬‬
‫)‪(2.1‬‬ ‫= )‪P (A‬‬ ‫)‪P (x‬‬
‫‪x∈A‬‬
‫)בכל סידור של ‪ A‬הסכומים החלקיים מהווים סדרה עולה וחסומה‪ ,‬ולכן מתכנסת;‬
‫ומכיוון שהטור מתכנס בהחלט‪ ,‬הסדר אינו חשוב(‪.‬‬
‫טענה ‪ 2.1.8‬הפונקציה החדשה מקיימת שני תנאים חשובים‪:‬‬

‫‪;P (Ω) = 1 .1‬‬
‫‪P‬‬
‫= ) ‪.P (∪An‬‬ ‫‪n‬‬ ‫‪ .2‬לכל סדרה ‪ A1 , A2 , . . .‬של מאורעות זרים בזוגות‪P (An ) ,‬‬
‫הוכחה‪ .‬התכונה הראשונה היא אקסיומה מפורשת; לתכונה השניה‪ ,‬הסכום על ‪∪An‬‬
‫‬ ‫הוא סידור מחדש של סכום הסכומים על ה־ ‪.An‬‬
‫‪26‬‬
‫‪ .2.1‬מרחבי הסתברות בדידים‬ ‫פרק ‪ .2‬מבוא להסתברות‬
‫הערה ‪ 2.1.9‬בתכונה ‪ 2‬לעיל אפשר לקחת ∅ = · · · = ‪ ,A3 = A4‬ואז מתקבל עבור כל‬
‫שתי קבוצות זרות ‪ A1 , A2‬הכלל )‪.P (A1 ∪ A2 ) = P (A1 ) + P (A2‬‬
‫תרגיל ‪ 2.1.10‬אם ‪ A ⊆ B‬אז )‪.P (B−A) = P (B) − P (A‬‬
‫מאורעות ‪ A, B‬הם זרים אם ∅ = ‪ ;A ∩ B‬לפעמים מרשים גם ‪ .P (A ∩ B) = 0‬אם‬

‫‪ A, B‬זרים‪ ,‬אז )‪.P (A ∪ B) = P (A) + P (B‬‬
‫לכל שני מאורעות מתקיים )‪ .P (A ∪ B) = P (A) + P (B) − P (A ∩ B‬עבור‬
‫קבוצות או יותר‪ ,‬אפשר לנסח את הגרסה ההסתברותית של נוסחת ההכלה וההדחה‬
‫)עם אותה הוכחה(‪:‬‬
‫‪n‬‬
‫‪X‬‬ ‫‪X‬‬
‫= ) ‪P (A1 ∪ · · · ∪ An‬‬ ‫‪(−1)k−1‬‬ ‫‪P (Ai1 ∩ · · · ∩ Aik ).‬‬
‫‪k=1‬‬ ‫‪1≤i1 <···<ik ≤n‬‬
‫דוגמא ‪ 2.1.11‬בעיית המזכירה המבולבלת‪ :‬מזכירה הוציאה ‪ n‬מכתבים מן המעטפות‬

‫שלהם‪ ,‬והחזירה אותם למקומות באקראי‪ .‬מה הסיכוי לכך שאף מכתב לא יחזור למקומו?‬
‫נסמן ב־ ‪ Ai‬את המאורע "המכתב ה־‪ i‬חזר למקומו"‪ .‬מבקשים לחשב את הסיכוי‬
‫של המשלים לאיחוד‪ ,P ((A1 ∪ · · · ∪ An )c ) ,‬בעוד שהסיכוי לכל חיתוך ‪Ai1 ∩ · · · ∩ Aik‬‬
‫) ‪ (i1 < · · · < ik‬קל לחישוב‪ .‬לפי נוסחת ההכלה וההדחה‪,‬‬
‫‪n‬‬
‫‪X‬‬ ‫‪X‬‬
‫‪c‬‬
‫= ) ) ‪P ((A1 ∪ · · · ∪ An‬‬ ‫‪(−1)k‬‬ ‫) ‪P (Ai1 ∩ · · · ∩ Aik‬‬
‫‪k=0‬‬ ‫‪1≤i1 <···<ik ≤n‬‬
‫‪n‬‬
‫‪X‬‬ ‫‪X‬‬ ‫!)‪(n − k‬‬
‫=‬ ‫‪(−1)k‬‬
‫‪1≤i1 <···<ik‬‬ ‫‪≤n‬‬
‫!‪n‬‬
‫‪k=0‬‬
‫‪n‬‬ ‫ ‬
‫!)‪k n (n − k‬‬
‫‪X‬‬
‫=‬ ‫)‪(−1‬‬
‫‪k=0‬‬
‫‪k‬‬ ‫!‪n‬‬
‫‪n‬‬
‫‪X‬‬ ‫‪1‬‬
‫=‬ ‫‪(−1)k‬‬ ‫‪,‬‬
‫‪k=0‬‬
‫!‪k‬‬
‫שהוא קירוב מצויין ל־ ‪.e−1‬‬
‫דוגמא ‪ 2.1.12‬בישראל ‪ 7000000‬אזרחים‪ .‬מדי שנה נהרגים כ־‪ 500‬בתאונות דרכים‪.‬‬

‫פירושו של דבר הוא שהסיכוי של אדם למות השנה בתאונת דרכים הוא ‪1/14000‬‬
‫)אינדקס סיכון‪ .(16 :‬הסיכוי של מי שיוצא בקביעות לשתות עם חברים למות‬
‫‪27‬‬
‫בתאונה הוא גבוה בהרבה )נסו להעריך אותו!(‪ .‬הסיכוי של נהגים זהירים נמוך‬
‫יותר; הסיכוי של מי שאינו יוצא מהבית נמוך עוד יותר‪.‬‬
‫במוסד גדול לומדים ‪ 14000‬תלמידים‪ .‬מה הסיכוי שאחד מתלמידי המוסד‬
‫יהרג בתאונה השנה? מה דעתכם על הסיכוי שהשנה יהרג חבר־כנסת בתאונת‬
‫דרכים? )ח"כ מיכה רייסר נהרג בתאונה בשנת ‪ ;1988‬עד היום היו בישראל‬
‫כ־‪ 120 · 65 = 7800‬שנות ח"כים(‪.‬‬
‫ציטוט ‪" 2.1.13‬בעלי התקציב הלחוץ ישמחו לדעת שהביטוי 'יש לה לוק מיליון דולר'‪ ,‬מוטעה‬
‫מבסיסו‪ .‬האמת היא שאין שום קשר בין כסף לבין סטייל‪ .‬עזבו את העובדה ששום סכום‬
‫שבעולם לא יקנה טעם‪ .‬לעיתים‪ ,‬כיסים עמוקים גורמים להפך הגמור‪ .‬זה עניין של סבירות‬
‫פשוטה‪ :‬אם אתה יכול להרשות לעצמך לרכוש ממבחר גדול יותר של פריטים‪ ,‬הסיכוי לבחור‬
‫את הלוק הלא נכון גבוה יותר‪) ".‬הבלוג של רוני בר‪" ,‬הארץ"‪.(http://blogs.haaretz.co.il/ronibar/78 ,‬‬
‫הסתברות מותנית‬ ‫‪2.1.2‬‬

‫כשמחשבים הסתברות‪ ,‬חשוב מאד להגדיר 'מה מתוך מה'‪.‬‬
‫ציטוט ‪ 57%" 2.1.14‬מן המטבעות של שקל אחד הולכים לאיבוד" )כתבה לכבוד השקת‬
‫המטבע של שני שקלים‪.(2009 ,‬‬
‫יהי ) ‪ (Ω, P‬מרחב התפלגות בדיד‪ .‬לעתים קרובות‪ ,‬מרחב כזה מקודד את מידת‬
‫אי־הוודאות שלנו לגבי התרחשות עתידית‪ .‬מידע נוסף משפר את ההערכה שלנו לגבי‬
‫העומד להתרחש‪ ,‬דרך שינוי ההסתברויות שאנו צריכים לייחס לכל אפשרות‪ .‬באופן‬
‫פורמלי‪ ,‬נניח ש־‪ B ⊆ Ω‬מאורע בעל הסתברות חיובית‪ .‬כדי להניח שמרחב האפשרויות‬
‫הצטמצם מ־‪ Ω‬ל־‪ ,B‬אנו מגדירים פונקציית הסתברות חדשה על ‪:Ω‬‬
‫(‬
‫)‪P (x‬‬
‫)‪P (B‬‬
‫;‪, x ∈ B‬‬
‫= )‪P (x|B‬‬
‫‪0,‬‬ ‫‪x 6∈ B.‬‬
‫טענה ‪ (Ω, P (·|B)) 2.1.15‬הוא מרחב הסתברות בדיד‪.‬‬

‫)‪.P (A|B) = x∈A P (x|B) = P P(A∩B‬‬
‫‪P‬‬
‫)‪(B‬‬
‫לכל קבוצה ‪ ,A ⊆ Ω‬מתקיים לפי ההגדרה‬
‫על ההתניה אפשר לחזור‪ .‬כפי שהגדרנו את ההסתברות המותנית ביחס ל־‪ ,B‬אפשר‬
‫להגדיר גם )‪ ,P (·|B, C) = P (·|B ∩ C‬וכן הלאה‪.‬‬
‫תרגיל ‪ 2.1.16‬אחוז החולים במחלה מסויימת הוא ‪ .1%‬יש בדיקה לאיתור המחלה‪,‬‬
‫שאחוז הדיוק שלה ‪ .90%‬מישהו נבדק ונמצא בריא‪ .‬מה הסיכוי לכך שהוא באמת‬
‫בריא? )דון בשתי הפרשנויות למלה "דיוק" ־ הסיכוי שבדיקה של אדם אקראי‬
‫תחזיר תשובה נכונה‪ ,‬והסיכוי שהבדיקה תחזיר תשובה נכונה בין אם האדם חולה‬
‫או בריא(‪.‬‬
‫‪28‬‬
‫תרגיל ‪ 2.1.17‬בחפיסה שלושה קלפים‪ :‬אחד ששני צידיו אדומים‪ ,‬אחד ששני צידיו‬
‫שחורים‪ ,‬ואחד שיש לו צד אחד אדום וצד שני שחור‪ .‬בוחרים קלף באקראי ומניחים‬
‫אותו על השולחן באקראי‪ :‬הצד החשוף הוא אדום‪ .‬מה הסיכוי לכך שהצד השני‬
‫שחור? )מדוע‪ ,‬לדעתכם‪ ,‬התשובה השכיחה לשאלה זו היא 'חצי'? ומדוע תשובה‬
‫זו שגויה?(‬
‫דיון ‪ 2.1.18‬בכד מונחים ‪ n‬כרטיסי־גירוד‪ ,‬שאחד מהם זוכה בפרס‪ .‬הילדים מסכימים‬
‫שאם יחלקו כרטיס אחד לכל ילד‪ ,‬ואז יבדוק כל אחד את הכרטיס שברשותם‪ ,‬אז‬
‫הסיכוי של ראובן לזכות הוא ‪ . n1‬שכנעו את ראובן שאם מחלקים את הכרטיסים‬
‫בזה אחר זה‪ ,‬וכל ילד יבדוק מיד את הכרטיס שלו‪ ,‬אין זה משנה היכן הוא עומד‬
‫בתור לקבלת הכרטיסים‪.‬‬
‫תרגיל ‪ 2.1.19‬העד המומחה טוען שרק במקרים נדירים ביותר אורך האמה עולה‬
‫על היקף פרק כף היד‪ .‬שלושה אנשים בקהל מדגימים שאורך האמה שלהם עולה‬
‫על היקף פרק כף היד‪ .‬האם תופתע לגלות שעורך הדין מטעם ההגנה זימן אותם‬
‫לשם בכוונה?‬
‫נוסחת ההסתברות השלמה‬ ‫‪2.1.3‬‬

‫מתקיים )‪ .P (A ∩ B) = P (A|B)P (B‬מכאן נובעת נוסחת ההסתברות השלמה לשתי‬
‫קבוצות‪:‬‬
‫‪P (A) = P (A|B)P (B) + P (A|B c )P (B c).‬‬
‫דוגמא ‪ 2.1.20‬הסיכוי שבן אוהב ברוקולי הוא ‪ ,7%‬הסיכוי שבת אוהבת ברוקולי הוא‬
‫‪ .31%‬מבין הקונים בחנות‪ 70% ,‬בנות‪ .‬הרגע נכנס לקוח‪ .‬מה הסיכוי שהוא אוהב‬
‫ברוקולי?‬
‫טענה ‪ 2.1.21‬נוסחת ההסתברות השלמה הכללית‪ :‬אם ‪ Ω‬מפורק לאיחוד זר ‪) ∪· Bi‬סופי‬

‫‪X‬‬ ‫או אינסופי(‪ ,‬אז‬
‫)‪(2.2‬‬ ‫= )‪P (A‬‬ ‫‪P (A|Bi )P (Bi ).‬‬
‫)אם ‪ P (Bi ) = 0‬מפרשים את המכפלה ) ‪ P (A|Bi )P (Bi‬כאפס‪ ,‬למרות שהגורם הראשון‬
‫בה אינו מוגדר‪(.‬‬
‫תרגיל ‪ 2.1.22‬מטילים מטבעות בזה אחר זה עד להופעת ה"עץ" הראשון‪ ,‬ואז‬

‫בוחרים מטבע באקראי )ובסיכויים שווים( מבין אלה שהוטלו‪ .‬הראה שהסיכוי לכך‬
‫שהמטבע שנבחר יציג "עץ" הוא בדיוק )‪.log(2‬‬
‫‪29‬‬
‫בני משפחת ברנולי תרמו רבות לתורת ההסתברות‪ .‬הבעיה הבאה‪ ,‬שהוצגה ליעקב‬
‫לברנולי‪ ,‬נחשבת לאחד הגורמים שהתניעו את הההתפתחות הזו‪.‬‬
‫תרגיל ‪ 2.1.23‬משחק "הראשון לשש" שבו צריך להגיע לתוצאה ‪ ,6‬בין שני שחקנים‬
‫שקולים‪ ,‬נקטע בתוצאה ‪ .3 : 5‬איך לחלק את ההימור‪ ,‬ביחס של ‪) 1 : 3‬יחס‬
‫הנקודות החסרות(‪) 3 : 5 ,‬יחס הנקודות שכבר הושגו(‪ ,‬או אולי באופן אחר? כתוב‬
‫עץ אפשרויות מתאים‪ ,‬וקבע מה היה צריך ברנולי להשיב‪.‬‬
‫‪ 2.1.4‬חוק בייס‬
‫נוסחת ההיפוך מאפשרת לעבור מההסתברות של ‪ A‬בהנתן ‪ B‬להסתברות של ‪ B‬בהנתן‬
‫‪:A‬‬
‫)‪P (A|B)P (B‬‬
‫)‪(2.3‬‬ ‫= )‪P (B|A‬‬ ‫‪.‬‬
‫)‪P (A‬‬
‫דוגמא ‪ 25% 2.1.24‬מהרופאים מרוויחים מתחת לשכר הממוצע‪ 2% .‬מבין המרוויחים‬

‫מתחת לממוצע הם רופאים‪ .‬אחוז המרוויחים מתחת לממוצע באוכלוסיה הוא ‪ .65%‬מה‬
‫אחוז הרופאים באוכלוסיה?‬
‫ציטוט ‪ 2.1.25‬בקוסטה־ריקה עבר ב־‪ 2011‬חוק המאפשר לגזור שנתיים מאסר על גבר‬
‫שהעליב את אשתו‪ .‬יוזמי החוק הסבירו ש־‪ 70%‬ממקרי האלימות התחילו בהעלבה‪ .‬מה‬
‫דעתכם על החוק‪ ,‬אם רק ‪ 0.22%‬ממקרי ההעלבה מסתיימים באלימות?‬
‫תרגיל ‪ 2.1.26‬שליש מזוגות התאומים הם תאומים זהים‪ .‬באולטרהסאונד מגלים‬

‫ששני התאומים הם מאותו מין‪ .‬מה הסיכוי שהם זהים?‬
‫טענה ‪ 2.1.27‬לכל חלוקה של המרחב ‪ Ω = ∪Bk‬לאיחוד זר‪ ,‬ולכל מאורע ‪ ,A‬מתקיים חוק‬
‫‪.P (Bk |A) = PP (A|B‬‬‫) ‪k )P (Bk‬‬
‫) ‪P (A|Bi )P (Bi‬‬
‫בייס‪:‬‬
‫‪i‬‬
‫תרגיל ‪ 2.1.28‬התמנון שנודע בתקופת תחרויות הכדורגל המונדיאל של ‪ 2010‬בשם‬

‫"פול"‪ ,‬הוא‪ ,‬קרוב לוודאי‪ ,‬תמנון פשוט שאין כל קשר בין התחזיות שלו לתוצאות‬
‫המשחק; יש רק סיכוי קלוש )נאמר‪ (0.001% ,‬שהוא נביאו של נפטון החוזה בדייקנות‬
‫כל תוצאה‪ .‬לאחר שפול קלע אל המטרה ‪ 7‬פעמים רצופות‪ ,‬מה הסיכוי שהוא‬
‫יחזה נכונה את תוצאת המשחק השמיני?‬
‫איך היית מגיב אם פול היה חוזה בדייקנות ‪ 40‬משחקים רצופים?‬
‫‪30‬‬
‫דוגמא ‪ 2.1.29‬באמצע שנות השמונים התמודדה אוניברסיטה גדולה בקליפורניה עם טענות‬

‫על אפליה נגד נשים )המספרים כאן מומצאים(‪ :‬מבין הפונים ללימודי דוקטורט‪ ,‬התקבלו‬
‫‪ 44%‬מהבנים‪ ,‬ורק ‪ 37%‬מהבנות‪.‬‬
‫כששלטונות האוניברסיטה ניגשו לבדוק איזו פקולטה אשמה בפער‪ ,‬התברר שבכולן‬
‫אחוז הנשים המתקבלות ללימודים גבוה מזה של הבנים‪ .‬במדעי הטבע התקבלו ‪50%‬‬
‫מהבנים ו־‪ 57%‬מהבנות‪ ,‬ובמדעי החברה התקבלו ‪ 28%‬מהבנים ו־‪ 33%‬מהבנות‪ .‬ראו‬
‫איזה פלא‪ :‬למרות שבכל פקולטה הופלו הבנות לטובה‪ ,‬האוניברסיטה ככלל הפלתה אותן‬
‫לרעה‪.‬‬
‫האם אפשר לקבוע מה אחוז הבנות מן הפונים לאוניברסיטה?‬
‫הערה ‪ 2.1.30‬המצב שבו סיכום שגוי של שני זוגות שברים יביא להיפוך הסדר ביניהם‬
‫נקרא פרדוקס סימפסון‪:‬‬
‫‪a‬‬ ‫‪a′‬‬ ‫‪b‬‬ ‫‪b′‬‬ ‫‪a+b‬‬ ‫‪a′ + b′‬‬

‫‪> ′,‬‬ ‫‪> ′,‬‬ ‫‪< ′‬‬ ‫;‬
‫‪x‬‬ ‫‪x‬‬ ‫‪y‬‬ ‫‪y‬‬ ‫‪x+y‬‬ ‫‪x + y′‬‬
‫זהו המצב בדוגמא ‪ ,2.1.29‬כאשר ‪ x, x′‬הם מספרי הבנות והבנים שפנו לפקולטה למדעי‬
‫הטבע‪ y, y ′ ,‬הם מספרי הבנות והבנים שפנו לפקולטה למדעים מדוייקים‪ ,‬ואילו ‪a, a′ , b, b′‬‬
‫הם מספרי המתקבלים בכל קבוצה‪ .‬הפרדוקס הוא שלמרות שאחוז אחוז הבנות שהתקבלו‬
‫בכל פקולטה גדול יותר מאחוז הבנים‪ ,‬אחוז הבנות שהתקבלו בסך־הכל קטן יותר‪ .‬דוגמא‬
‫פשוטה‪:‬‬
‫‪1‬‬ ‫‪5‬‬ ‫‪1‬‬ ‫‪0‬‬ ‫‪1+1‬‬ ‫‪5+0‬‬
‫‪> ,‬‬ ‫‪> ,‬‬ ‫<‬ ‫‪.‬‬
‫‪1‬‬ ‫‪6‬‬ ‫‪6‬‬ ‫‪1‬‬ ‫‪1+6‬‬ ‫‪6+1‬‬
‫השוו גם לדוגמא ‪.1.2.4‬‬
‫דוגמא ‪) 2.1.31‬בעיה מ'תחרות הערים' ‪ ,#32‬סתיו תשע"א‪ ,‬גרסת תרגול לכתות ט'־י'(‬
‫בבית ספר מסויים יותר מ־‪ 90%‬מהתלמידים יודעים גם אנגלית וגם גרמנית‪ ,‬ויותר מ־‪90%‬‬
‫יודעים גם אנגלית וגם צרפתית‪ .‬הוכח שמבין התלמידים שיודעים גם גרמנית וגם צרפתית‪,‬‬
‫לפחות ‪ 90%‬יודעים אנגלית‪.‬‬
‫תרגיל ‪ 2.1.32‬נוסעים עולים למטוס בזה אחר זה‪ ,‬לפי סדר‪ .‬כל נוסע ניגש לכסא‬
‫שלו‪ :‬אם הכסא פנוי‪ ,‬הוא מתיישב שם‪ .‬אחרת הוא בוחר כסא פנוי אחר‪ ,‬באקראי‪.‬‬
‫הנוסע הראשון בחר בטעות בכסא אקראי‪ .‬כל שאר הנוסעים התנהגו לפי הכללים‪.‬‬
‫מהם הסיכויים לכך שהנוסע האחרון ישב בסופו של דבר בכסא שלו? הדרכה‪.‬‬
‫אפשר לחשב את התוצאה באינדוקציה‪ .‬כדי לקבל פתרון פשוט יותר‪ ,‬הראה שהאדם‬
‫הראשון שתופס את הכסא הראשון או האחרון קובע את גורל המשחק; התשובה היא לכן‬
‫חצי )הוכח שאם נוסע ‪ i‬מוצא את מקומו תפוס‪ ,‬זה מפני שכבר ישבו בכסאות ‪,2, . . . , i − 1‬‬
‫ורק בהם(‪.‬‬
‫‪31‬‬
‫תלות ואי־תלות‬ ‫‪2.1.5‬‬

‫הגדרה ‪ 2.1.33‬מאורעות ‪ A, B‬הם בלתי תלויים אם‬
‫‪P (A ∩ B) = P (A)P (B).‬‬
‫ציטוט ‪" 2.1.34‬מוחמד לי‪ .‬מוחמד הוא השם הפרטי הנפוץ ביותר; לי ‪ -‬שם המשפחה‬
‫הנפוץ ביותר‪ .‬מכיוון שלא ידעתי את התשובה‪ ,‬חשבתי שכך אשיג יתרון מתמטי" )שלדון‪,‬‬
‫"המפץ הגדול"‪ ,‬מנסה לנחש מיהו המומחה שיטוס לתחנת החלל(‪ .‬על אלו הנחות מבסס‬
‫שלדון את הניחוש שלו?‬
‫תרגיל ‪ 2.1.35‬נניח ש־‪ P (B) = 0‬או ‪ ,P (B) = 1‬אז ‪ B‬בלתי תלויה בכל מאורע ‪.A‬‬
‫טענה ‪ 2.1.36‬נניח ‪ .0 < P (A), P (B) < 1‬התנאים הבאים שקולים‪:‬‬
‫‪;P (A|B) = P (A) .1‬‬
‫‪;P (A|B) = P (A|B c ) .2‬‬
‫‪.P (A ∩ B) = P (A) · P (B) .3‬‬
‫‪;P (B|A) = P (B) .4‬‬
‫בפרט‪ A ,‬ו־‪ B‬בלתי תלויים אם הסיכוי ל־‪ A‬בהנתן ‪ B‬שווה לסיכוי ל־‪ A‬ללא נתון זה‪.‬‬
‫טענה ‪ 2.1.37‬התנאים הבאים שקולים‪:‬‬
‫‪ A .1‬ו־‪ B‬בלתי תלויים;‬
‫‪ A .2‬ו־ ‪ B c‬בלתי תלויים;‬
‫‪ Ac .3‬ו־ ‪ B‬בלתי תלויים;‬
‫‪ Ac .4‬ו־ ‪ B c‬בלתי תלויים‪.‬‬
‫למאורע ‪ ,A‬נסמן ‪ A0 = A‬ו־ ‪.A1 = Ac‬‬
‫הגדרה ‪ 2.1.38‬המאורעות ‪ A1 , . . . , An‬הם בלתי תלויים במשותף אם לכל בחירת פרמטרים‬

‫}‪ α1 , . . . , αn ∈ {0, 1‬מתקיים ) ‪.P (Aα1 1 ∩ · · · ∩ Aαnn ) = P (Aα1 1 ) · · · P (Aαnn‬‬
‫לפי טענה ‪' A, B ,2.1.37‬בלתי תלויים במשותף' אם ורק אם הם בלתי תלויים‪.‬‬
‫‪32‬‬
‫‪ .2.2‬משתנים מקריים‬ ‫פרק ‪ .2‬מבוא להסתברות‬
‫טענה ‪ 2.1.39‬המאורעות ‪ A1 , . . . , An‬בלתי תלויים במשותף‪ ,‬אם ורק אם לכל ⊆ ‪I‬‬

‫\‬ ‫‪Y‬‬ ‫}‪,{1, . . . , n‬‬
‫= ) ‪P ( Ai‬‬ ‫‪P (Ai ).‬‬
‫‪i∈I‬‬ ‫‪i∈I‬‬
‫טענה ‪ 2.1.40‬אם המאורעות ‪ A1 , . . . , An‬בלתי תלויים במשותף‪ ,‬אז כל תת־קבוצה שלהם‬

‫בלתי תלויה במשותף‪ .‬הדרכה‪ .‬מספיק להוכיח ש־ ‪ A1 , . . . , An−1‬בלתי תלויים; או הפעל את‬
‫טענה ‪.2.1.39‬‬
‫דוגמא ‪ 2.1.41‬נסמן ב־‪ Ω‬את המרחב הכולל וקטורים ‪ (x1 , x2 , x3 ) ∈ {0, 1}3‬שסכומם‬
‫מודולו ‪ 2‬הוא ‪ ;0‬כך ‪ .|Ω| = 4‬נסמן ב־ ‪ Ai‬את המאורע }‪ .{(x1 , x2 , x3 ) : xi = 0‬אז כל‬
‫‪ (i 6= j) Ai , Aj‬הם בלתי תלויים‪ ,‬אבל ‪ A1 , A2 , A3‬אינם בלתי תלויים במשותף‪.‬‬
‫תרגיל ‪ 2.1.42‬על־פי ההגדרה‪ A1 , . . . , An ,‬בלתי תלויים במשותף אם התנאי‬
‫) ‪P (Aα1 1 ∩ · · · ∩ Aαnn ) = P (Aα1 1 ) · · · P (Aαnn‬‬
‫מתקיים עבור ‪ 2n‬וקטורים שונים ) ‪ .(α1 , . . . , αn‬הראה שמספיק לבדוק ‪2n − n − 1‬‬
‫תנאים כדי להבטיח אי־תלות במשותף )האם זהו המספר הקטן ביותר של תנאים‬
‫שיש לבדוק?( ואם ידוע ש־ ‪ A1 , . . . , An‬בלתי תלויים בזוגות?‬
‫דיון ‪ 2.1.43‬תושבת אנגליה בשם סאלי קלארק הורשעה ב־‪ 1999‬ברצח שני ילדיה‪,‬‬
‫שמתו בזה אחר זה מוות בעריסה‪ .‬ההרשעה היתה מבוססת על כך שהסיכוי למוות‬
‫בעריסה הוא כ־‪ ;1:8500‬מכאן שהסיכוי לשני מקרי מוות בעריסה הוא ≈ ‪1:85002‬‬
‫‪ ;73000000‬לכן ההסבר הסביר היחיד הוא שהגב' קלראק הרגה את הילדים‪ .‬מה‬
‫דעתכם? )ההרשעה הושארה על כנה בערעור הראשון שהתקיים בסוף ‪,2000‬‬
‫ובוטלה בתחילת ‪ .2003‬הגב' קלארק פיתחה סדרה של הפרעות פסיכיאטריות‬
‫ומתה ב־‪ ,2007‬בגיל ‪ ,42‬מהרעלת אלכוהול‪(.‬‬
‫משתנים מקריים‬ ‫‪2.2‬‬

‫משתנה יחיד‬ ‫‪2.2.1‬‬
‫משתנה מקרי הוא פונקציה ‪) X : Ω→R‬בהמשך נוסיף את התנאי שהפונקציה תהיה‬
‫"מדידה"; במרחבי הסתברות בדידים זה לא רלוונטי(‪ .‬בנוסחת ההסתברות השלמה‬
‫טיפלנו בהסתברות של מאורע בנוכחות חלוקה של המרחב לקבוצות זרות‪ .‬משתנה‬
‫מקרי משרה חלוקה כזו‪ ,‬משום שהקבוצות‬
‫}‪X −1 (a) = {ω ∈ Ω : X(ω) = a‬‬
‫‪33‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.2‬משתנים מקריים‬
‫הן מאורעות זרים‪ ,‬והאיחוד שלהן על־פני כל הערכים האפשריים של ‪ a‬הוא המרחב‬
‫כולו‪ .‬אפשר לחשב את ההסתברות של כל מאורע כזה‪ ,‬שאפשר לסמן בכל הדרכים‬
‫הבאות‪:‬‬
‫‪P (X = a) = P (X(ω) = a) = P ({ω : X(ω) = a}) = P (X −1(a)).‬‬
‫לפי הגדרת ההסתברות של מאורע‪,‬‬

‫‪X‬‬
‫)‪(2.4‬‬ ‫= )‪P (X = a‬‬ ‫‪P (ω).‬‬
‫‪ω:X(ω)=a‬‬
‫דוגמא ‪ 2.2.1‬המשתנה המציין של מאורע ‪ A ⊆ Ω‬מוגדר לפי ‪ XA (ω) = 1‬אם ‪,ω ∈ A‬‬
‫ו־‪ XA (ω) = 0‬אחרת‪ .‬לפיכך‪.P (Xa = 1) = P (A) ,‬‬
‫דוגמא ‪ 2.2.2‬כל קבוע ‪ c‬הוא משתנה מקרי‪ ,‬אם נחשוב עליו כפונקציה ‪ Ω→R‬המקבלת‬
‫באופן זהותי את הערך ‪.c‬‬
‫דוגמא ‪ 2.2.3‬אם ‪ a1 , . . . , an‬מספרים ו־ ‪ p1 , . . . , pn‬מספרים חיוביים שסכומם ‪ ,1‬אז‬

‫‪ P (X = ai ) = pi‬מגדיר משתנה מקרי‪ .‬זהו המשתנה המקרי הכללי ביותר על מרחב‬
‫סופי‪ .‬ההכללה למקרה הבן־מניה מיידית )קח סדרה ‪ ai‬וטור חיובי ‪ pi‬המסתכם ל־‪.(1‬‬
‫הגדרה ‪ 2.2.4‬יהי ‪ X : Ω→R‬משתנה מקרי על מרחב הסתברות בדיד ) ‪ .(Ω, P‬הפונקציה‬
‫)‪a 7→ P (X = a‬‬
‫נקראת פונקציית ההתפלגות של ‪.X‬‬
‫פונקציית ההתפלגות קובעת מהם הערכים ש־‪ X‬מקבל‪ ,‬ובאיזו הסתברות מתקבל כל‬
‫אחד מהם‪.‬‬
‫דוגמא ‪ 2.2.5‬להתפלגות של משתנה מקרי המקבל ערכים שלמים בקטע ]‪ [1, n‬בהסתברויות‬
‫שוות קוראים התפלגות אחידה‪ .‬כדי לציין שיש למשתנה התפלגות כזו‪ ,‬מסמנים ∼ ‪X‬‬
‫]‪) U[1, n‬יש להבין מההקשר שמדובר במשתנה בדיד‪ ,‬משום שבהמשך נשתמש באותו סימון‬
‫בדיוק עבור משתנים רציפים(‪.‬‬
‫טענה ‪ 2.2.6‬תהי )‪ f : a 7→ P (X = a‬פונקציית ההתפלגות של משתנה מקרי )המוגדר על‬

‫כל ‪ .(R‬אז עוצמת הקבוצה }‪ {a : f (a) > 0‬בת־מניה לכל היותר‪.‬‬
‫הוכחה‪ .‬נסמן ‪ ,Tn = a ∈ R : f (a) > n1‬אז‬

‫‬ ‫ ‬
‫‪ ,{a : f (a) > 0}P‬אבל כל‬ ‫∞∪ =‬‫‪n=1 Tn P‬‬
‫‬ ‫‪ Tn‬סופית כי ‪. n1 |Tn | = a∈Tn n1 ≤ a∈Tn P (X = a) = P (Tn ) ≤ 1‬‬
‫‪34‬‬
‫הערה ‪) 2.2.7‬בניית משתנה מקרי מפונקציית ההתפלגות שלו( יהי ‪ X‬משתנה מקרי עם‬
‫פונקציית התפלגות )‪ .f (a) = P (X = a‬מפונקציית ההתפלגות אי אפשר לשחזר את‬
‫המרחב‪ ,‬משום ששמות האברים ב־‪ Ω‬הלכו לאיבוד; ובכל זאת‪ ,‬אפשר לבנות מרחב הסתברות‬
‫חדש‪ ,‬ומשתנה מקרי חדש‪ ,‬ש־ ‪ f‬היא )גם( פונקציית ההתפלגות שלו‪.‬‬
‫אכן‪ ,‬נגדיר )‪) Ω̃ = {a ∈ R : f (a) > 0} ⊆ X(Ω‬מדוע זו הכלה‪ ,‬ולא שוויון?(‪ .‬לפי‬
‫טענה ‪ Ω̃ ,2.2.6‬היא קבוצה סופית או בת מניה‪ .‬נגדיר )‪ .P̃ (a) = f (a‬זו פונקציה חיובית‪,‬‬
‫ו־‬
‫‪X‬‬ ‫‪X‬‬ ‫‪X‬‬ ‫‪X‬‬
‫= )‪P̃ (a‬‬ ‫= )‪f (a‬‬ ‫= )‪P (X = a‬‬ ‫)}‪P ({ω ∈ Ω : X(ω) = a‬‬
‫̃‪a∈Ω‬‬ ‫‪a∈R‬‬ ‫‪a∈R‬‬ ‫‪a∈R‬‬
‫‪X‬‬ ‫‪X‬‬ ‫‪X‬‬
‫=‬ ‫= )‪P (ω‬‬ ‫;‪P (ω) = 1‬‬
‫}‪a∈R {ω : X(ω)=a‬‬ ‫‪ω∈Ω‬‬
‫מכאן ש־) ̃‪ (Ω̃, P‬הוא מרחב הסתברות )כל הסכומים שהם כביכול על־פני ‪ a ∈ R‬הם‬
‫פונקציית הזהות‪.X̃(a) = a ,‬‬
‫‪n‬‬ ‫̃‪ X‬להיות‬
‫למעשה סכומים בני מניה(‪ .‬נגדיר ‪o : Ω̃→R‬‬
‫פונקציית ההתפלגות של ̃‪ X‬היא = )‪b 7→ P̃ (X̃ = b) = P̃ ( a ∈ Ω̃ : a = b ) = P̃ (b‬‬
‫)‪ ,f (b‬כלומר ‪.f‬‬
‫ל־) ̃‪ (Ω̃, P‬ול־̃‪ X‬שבנינו לעיל יש יתרון על־פני ) ‪ (Ω, P‬ו־‪ ,X‬בכך ש־̃‪ Ω‬הוא מרחב‬
‫של מספרים‪ ,‬וש־̃‪ X‬היא פונקציה פשוטה במיוחד‪ .‬איננו מאמצים את השיטה הזו באופן‬
‫כללי‪ ,‬משום שלעתים קרובות יש בתמונה כמה משתנים מקריים‪ ,‬ואנחנו זקוקים למרחב‬
‫יציב שאפשר להפעיל עליו את כולם‪ .‬חשיבותה של ההערה בכך שכאשר נדון בתכונות‬
‫של משתנים מקריים‪ ,‬לא יהיה לנו צורך ללוות כל הגדרה בהגדרה מקבילה של מרחב‬
‫ההסתברות; אלו‪ ,‬כביכול‪ ,‬מוגדרים מעצמם‪.‬‬
‫תרגיל ‪ 2.2.8‬נניח ש־}‪ .Ω = {1, 2, 3, 4, 5, 6‬הגדר משתנה מקרי על המרחב ‪ ,Ω‬כך‬
‫ש־ ‪ .P (X = 0) = P (X = 1) = P (X = 2) = 13‬כמה משתנים כאלה יש?‬
‫דיון ‪ 2.2.9‬הרהר במשך ‪ 20‬שניות בהבדל שבין 'למשתנים המקריים ‪ X, Y‬יש אותה‬
‫התפלגות' לבין 'המשתנים המקריים ‪ X, Y‬שווים'‪.‬‬
‫אם ‪ X‬משתנה מקרי‪ ,‬אז לכל פונקציה ‪ ,f : R→R‬גם )‪ f (X‬משתנה מקרי )שוב‪,‬‬
‫בהמשך נדרוש שהפונקציה תהיה "מדידה"(‪ .‬לפי ההגדרה מתקיים‬
‫‪X‬‬
‫= )‪P (f (X) = b‬‬ ‫‪P (X = a).‬‬
‫‪a:f (a)=b‬‬
‫הערה ‪ 2.2.10‬אם ‪ B ⊆ Ω‬מאורע‪ ,‬אפשר להגדיר את המשתנה המותנה ‪ ,X|B‬עם‬

‫פונקציית ההתפלגות )‪.P (X = a|B) = P ({ω : X(ω) = a}|B‬‬
‫‪35‬‬
‫‪ 2.2.2‬התפלגות משותפת‬
‫אם נתונים שני משתנים מקריים ‪ ,X, Y : Ω→R‬אפשר להגדיר מאורעות }‪,{X = a, Y = b‬‬
‫ולקבל פונקציית התפלגות משותפת )‪.(a, b) 7→ P (X = a, Y = b‬‬
‫המאורע ‪ X = a, Y = b‬מסמן את החיתוך‬
‫‪{ω : X(ω) = a, Y (ω) = b} = {ω : X(ω) = a} ∩ {ω : Y (ω) = b}.‬‬
‫את פונקציית ההתפלגות המשותפת של שני משתנים אפשר לתאר במערך דו־ממדי‪.‬‬
‫‪P‬‬
‫= )‪ ,P (X = a‬וכך גם = )‪P (Y = b‬‬ ‫‪b‬‬ ‫הערה ‪ 2.2.11‬מתקיים‪P (X = a, Y = b)P‬‬
‫)‪. a P (X = a, Y = b‬‬
‫לכל ערך ‪ b‬של ‪ X|Y = b ,Y‬הוא משתנה מקרי מותנה‪ ,‬וההתפלגות המותנית שלו‬
‫‪.P (X = a|Y = b) = P (X=a,Y‬‬ ‫)‪=b‬‬
‫)‪P (Y =b‬‬
‫היא‬
‫תרגיל ‪ 2.2.12‬בכד יש כדור אדום וכדור כחול‪ .‬בכל פעם מוציאים כדור באקראי‪,‬‬
‫ומחזירים אותו עם כדור נוסף באותו צבע‪ .‬הוכח שהתפלגות מספר הכדורים‬
‫האדומים בכל שלב היא אחידה‪) .‬רמז‪ .‬אינדוקציה(‪.‬‬
‫אי־תלות‬
‫המשתנים ‪ X, Y‬בלתי־תלויים אם )‪ P (X = a, Y = b) = P (X = a)P (Y = b‬לכל‬
‫‪;a, b‬‬
‫טענה ‪ 2.2.13‬התנאים הבאים על משתנים מקריים ‪ X, Y‬הם שקולים‪:‬‬
‫‪ X, Y .1‬בלתי תלויים;‬
‫‪ .2‬ההתפלגות של ‪ X|Y = b‬היא אותה התפלגות לכל ‪;b‬‬
‫‪ .3‬כל זוג של מאורעות ‪ X = a‬ו־ ‪ Y = b‬הם בלתי תלויים‪.‬‬
‫שימו לב‪ :‬ההתפלגות של ‪ X‬וההתפלגות של ‪ ,Y‬יחד‪ ,‬קובעות את ההתפלגות‬

‫המשותפת בתנאי שידוע ששני המשתנים בלתי תלויים‪ .‬אחרת טענה זו אינה נכונה‪.‬‬
‫הערה ‪ 2.2.14‬את הערה ‪ 2.2.7‬אפשר להכליל לשני משתנים על־ידי בניית מרחב התפלגות‬
‫משותף‪ ,‬שבו המשתנים בלתי תלויים מתוך ההגדרה‪ :‬אם ‪ Ω, Ω′‬מרחב הסתברות‪ ,‬גם ‪Ω×Ω′‬‬
‫הוא כזה‪ ,‬אם מגדירים )‪ .P (ω, ω ′) = P (ω)P (ω ′‬אם ‪ X, Y‬המוגדרים על מרחב המכפלה‬
‫מתפצלים דרך הרכיב הראשון והשני בהתאמה‪ ,‬אז הם בלתי תלויים‪.‬‬
‫‪36‬‬
‫טענה ‪ 2.2.15‬אם ‪ X, Y‬בלתי תלויים‪ ,‬אז לכל ‪ f : R→R‬גם ‪ f (X), Y‬בלתי תלויים‪.‬‬
‫מכאן גם ש־) ‪ f (X), g(Y‬בלתי תלויים לכל שתי פונקציות ‪.f, g : R→R‬‬
‫הגדרה ‪ 2.2.16‬אם ‪ X, Y, Z‬משתנים מקריים‪ ,‬נאמר ש־ ‪ Y‬מפריד את ‪ X, Z‬אם ידיעת ‪ Y‬הופכת‬

‫את ‪ X, Z‬לבלתי תלויים‪ ,‬כלומר‬
‫‪∀y∀x, z :‬‬ ‫‪P (X = x, Z = z|Y = y) = P (X = x|Y = y)P (Z = z|Y = y).‬‬
‫תרגיל ‪ 2.2.17‬תן דוגמא למשתנים מקריים ‪ X, Y, Z‬כך ש־‬
‫‪ X, Z .1‬תלויים‪ ,‬ו־ ‪ Y‬מפריד אותם‪.‬‬
‫‪ X, Z .2‬בלתי תלויים‪ ,‬אבל ‪ Y‬אינו מפריד אותם )ואפילו יותר מזה‪X|Z = z :‬‬
‫ו־‪ Y |Z = z‬תלויים לכל ערך ‪ z‬של ‪.(Z‬‬
‫דוגמא ‪ n) 2.2.18‬מ"מ שכל ‪ d‬מהם בלתי תלויים במשותף‪ ,‬וכל ‪ d + 1‬מהם תלויים‪ (.‬נבחר‬
‫שדה סופי ‪ Fq‬ו־‪ n‬ערכים שונים ‪) a1 , . . . , an ∈ Fq‬השדה צריך להיות גדול מספיק‪ ,‬כמובן(‪.‬‬
‫נבחר משתנים מקריים בלתי תלויים ובעלי התפלגות אחידה‪ .X0 , . . . , Xd−1 ,‬נגדיר את‬
‫הפולינום המקרי ‪ ,P (t) = X0 + X1 t + · · · + Xd−1 td−1‬ובעזרתו את המשתנים המקריים‬
‫) ‪ .Yi = P (ai‬לכל ‪ i1 , . . . , id‬שונים‪ ,‬ההתפלגות המשותפת של ) ‪ (Yi1 , . . . , Yid‬היא אחידה‬
‫)משום שלפי ההפיכות של מטריצת ואן־דר־מונדה‪ ,‬למערכת המשוואות ‪ P (ai ) = bi‬יש‬
‫פתרון יחיד עבור ה־ ‪ ,Xj‬לכל בחירה של ה־ ‪ ;(bi‬אבל לכל ‪ ,i1 , . . . , id+1‬כל ‪ d‬מבין‬
‫‪ Yi1 , . . . , Yid+1‬קובעים את האחרון‪.‬‬
‫סכום ומכפלה‬
‫כפי ש־)‪ f (X‬משתנה מקרי לכל פונקציה ‪ ,f : R→R‬גם ) ‪ f (X, Y‬משתנה מקרי לכל‬
‫‪ .f : R2 →R‬בפרט הסכום ‪ X + Y‬והמכפלה ‪ XY‬הם משתנים מקריים‪.‬‬
‫את זה אפשר להכליל לסכום של כמה משתנים מקריים; בהמשך נפגוש דוגמא‬
‫חשובה‪ :‬הממוצע ) ‪.X̄ = n1 (X1 + · · · + Xn‬‬
‫תרגיל ‪ 2.2.19‬אוסף המשתנים המקריים על מרחב ‪ Ω‬הוא מרחב וקטורי‪ ,‬שממדו‪,‬‬

‫אם ‪ Ω‬סופי‪.|Ω| ,‬‬
‫תרגיל ‪ 2.2.20‬מטילים שתי קוביות בלתי תלויות‪ .X, Y ,‬איך מתפלג הסכום ‪?X + Y‬‬
‫‪37‬‬
‫תוחלת של משתנה מקרי בדיד‬ ‫‪2.2.3‬‬

‫למשתנה מקרי אפשר )בדרך כלל( להתאים מספר מייצג‪ ,‬התוחלת של המשתנה‪,‬‬
‫המשקלל את הערכים שהמשתנה מקבל על־פי ההסתברות שלהם‪ .‬בהמשך נראה‬
‫שתוחלת תופסת תפקיד מרכזי בכל חישוב הסתברותי‪ ,‬ואף נוכיח שאם מגרילים ערכים‬
‫רבים של משתנה מקרי‪ ,‬ממוצע התוצאות הולך ומתקרב לתוחלת‪ .‬את מושג התוחלת‬
‫הכניס לשימוש המתמטיקאי והאסטרונום ההולנדי‪ ,‬כריסטיאן הויגנס )‪.(1629-1695‬‬
‫הגדרה ‪ 2.2.21‬התוחלת של משתנה מקרי בדיד ‪ X‬מוגדרת לפי‬

‫‪X‬‬ ‫‪X‬‬
‫= )‪E(X‬‬ ‫= )‪P (ω)X(ω‬‬ ‫‪P (X = a)a,‬‬
‫‪ω∈Ω‬‬ ‫‪a‬‬
‫בתנאי שהטור מתכנס בהחלט‪.‬‬
‫כאן‪ ,‬ובהמשך‪ ,‬בסכום על ‪ a‬הכוונה לסכום על־פני כל הערכים שבהם ההסתברות‬

‫‪ ;P (X = a) > 0‬מספר הערכים האלה בן מניה לכל היותר )טענה ‪ ,(2.2.6‬ולכן הסכום‬
‫מוגדר היטב‪.‬‬
‫ההגדרות אכן שקולות זו לזו‪ ,‬לפי )‪:(2.4‬‬
‫‪X‬‬ ‫‪X‬‬
‫= ‪P (X = a)a‬‬ ‫‪P ({ω : X(ω) = a})a‬‬
‫‪a‬‬ ‫‪a‬‬
‫‪X‬‬ ‫‪X‬‬
‫=‬ ‫‪P (ω)a‬‬
‫‪a‬‬ ‫‪ω:X(ω)=a‬‬
‫‪X‬‬
‫=‬ ‫‪P (ω)X(ω).‬‬
‫‪ω∈Ω‬‬
‫דוגמא ‪ 2.2.22‬אם מרחב הערכים של ‪ X‬הוא אינסופי‪ ,‬הטור לא בהכרח מתכנס‪ .‬למשל‪,‬‬
‫חישבו על המשתנה המקבל ערך ‪ n‬בהסתברות ‪. π26n2‬‬
‫‪.E(X) = a1 +···+a‬‬
‫‪n‬‬
‫‪n‬‬
‫דוגמא ‪ 2.2.23‬אם ‪ a1 , . . . , an‬מספרים ו־ ‪ ,P (X = ai ) = n1‬אז‬
‫כלומר‪ ,‬התוחלת מכלילה את הממוצע‪ .‬באופן כללי יותר אם ‪ P (X = ai ) = pi‬עבור‬
‫‪ p1 , . . . , pn‬חיוביים שסכומם ‪ ,1‬אז ‪.E(X) = p1 a1 + · · · + pn an‬‬
‫תרגיל ‪ 2.2.24‬אדם הקונה כרטיס הגרלה עשוי לזכות בפרסים שונים‪ ,‬שלכל אחד‬
‫מהם הסתברות משלו‪ .‬את גובה הזכיה אפשר לתאר כמשתנה מקרי ‪ .X‬הסבר‬
‫מדוע המחיר ההוגן של הכרטיס הוא )‪) µ = E(X‬אפילו אם תצטרך להגדיר באופן‬
‫מתמטי מהי הגינות(‪.‬‬
‫‪38‬‬
‫תרגיל ‪ 2.2.25‬בסרט "התייר" )‪ (2010‬אומר מפקד המשטרה למפקח‪ :‬הונו של‬

‫]הפושע[ אלכסנדר מוערך ב־‪ ,$744M‬אותם אפשר יהיה להחרים אם יתפס‪ .‬מכיוון‬
‫שהמבצע ללכידתו עלה עד כה ‪ ,$8M‬רציונלי מצדי להמשיך את המבצע אם יש‬
‫סיכוי של לפחות ‪ 1%‬להצלחה‪.‬‬
‫מה דעתך על השימוש בתוחלת במקרה זה?‬
‫‪P‬‬
‫הערה ‪ 2.2.26‬לכל פונקציה‪.E(f (X)) = a P (X = a)f (a) ,‬‬
‫הוכחה‪ .‬התוחלת של המשתנה המקרי )‪ f (X‬שווה‪ ,‬לפי ההגדרה‪ ,‬ל־‬
‫‪‬‬ ‫‪‬‬
‫‪X‬‬ ‫‪X‬‬ ‫‪X‬‬ ‫‪X‬‬
‫= ))‪P (ω)f (X(ω‬‬ ‫‪‬‬ ‫= )‪P (ω) f (a‬‬ ‫‪P (X = a)f (x).‬‬
‫‪ω∈Ω‬‬ ‫‪a‬‬ ‫‪ω:X(ω)=a‬‬ ‫‪a‬‬
‫‬
‫באותו אופן גם‬
‫‪X‬‬
‫)‪(2.5‬‬ ‫= )) ‪E(g(X, Y‬‬ ‫‪P (X = a, Y = b)g(a, b),‬‬
‫‪a,b‬‬
‫וכך לפונקציות בכל מספר משתנים‪.‬‬

‫‪ .1‬לכל קבוע ‪.E(c) = c ,c‬‬ ‫טענה ‪2.2.27‬‬
‫‪.E(αX) = αE(X) .2‬‬
‫‪ .3‬נניח ש־‪ ,X ≥ 0‬כלומר ‪ X‬הוא משתנה מקרי חיובי‪ .‬אז ‪ ;E(X) ≥ 0‬ואם‬
‫‪ ,E(X) = 0‬אז ‪ X = 0‬בהסתברות ‪.1‬‬
‫טענה ‪ 2.2.28‬לכל שני משתנים מקריים‪.E(X + Y ) = E(X) + E(Y ) ,‬‬
‫הוכחה‪ .‬לפי )‪,(2.5‬‬
‫‪X‬‬
‫= ) ‪E(X + Y‬‬ ‫)‪P (X = a, Y = b)(a + b‬‬
‫‪a,b‬‬
‫‪X‬‬ ‫‪X‬‬
‫=‬ ‫‪P (X = a, Y = b)a +‬‬ ‫‪P (X = a, Y = b)b‬‬
‫‪a,b‬‬ ‫‪a,b‬‬
‫!‬ ‫!‬
‫‪X X‬‬ ‫‪X X‬‬
‫=‬ ‫‪P (X = a, Y = b) a +‬‬ ‫‪P (X = a, Y = b) b‬‬
‫‪a‬‬ ‫‪b‬‬ ‫‪b‬‬ ‫‪a‬‬
‫‪X‬‬ ‫‪X‬‬
‫=‬ ‫‪P (X = a)a +‬‬ ‫‪P (Y = b)b‬‬
‫‪a‬‬ ‫‪b‬‬
‫‪= E(X) + E(Y ).‬‬
‫‬
‫‪39‬‬
‫האדיטיביות של התוחלת היא אחד העקרונות המועילים ביותר בתורת ההסתברות‪.‬‬

‫היא מאפשר לחשב תוחלת של התפלגויות מסובכות ביותר‪ ,‬בלי להבין את ההתפלגות‪,‬‬
‫על־ידי פירוק המשתנה לסכום של דברים שאפשר לחשב‪.‬‬
‫תרגיל ‪ 2.2.29‬מסדרים ‪ n‬אנשים באקראי‪ .‬מי שגבוה מכל מי שלפניו‪ ,‬מרים יד‪ .‬מה‬
‫תוחלת מספר האנשים שמרימים יד? )הדרכה‪ :‬העזר במשתנים מציינים‪(.‬‬
‫תרגיל ‪ 2.2.30‬בהמשך לבעיית המזכירה המבולבלת )תרגיל ‪ ,(2.1.11‬שבה חישבנו‬
‫את הסיכוי לכך שמספר נקודות השבת של תמורה מקרית יהיה ‪ ,0‬מה תוחלת‬
‫מספר נקודות השבת?‬
‫‪ .1‬בהגרלה עומדים לבחור כרטיס זוכה באקראי מכל אחד משני‬ ‫תרגיל ‪2.2.31‬‬
‫הכדים‪ .‬כל משתתף רשאי להטיל את הכרטיס שלו לאיזה כד שירצה‪ .‬לאיזה‬
‫כד תבחר להטיל את הכרטיס שלך? )פתרון‪ .‬לזה שמספר הכרטיסים בו הוא‬
‫הקטן ביותר‪ ,‬כמובן‪(.‬‬
‫‪ .2‬ואם בכל כד ‪ n‬כרטיסים‪ ,‬ולך שני כרטיסים‪ ,‬האם תעדיף להטיל את שניהם‬
‫יחד‪ ,‬או לפזר את הסיכויים בין הכדים? )פתרון‪ .‬עדיף לפזר; שני כרטיסים באותו‬
‫כד מתחרים זה בזה‪(.‬‬
‫‪ .3‬נניח שעליך להטיל את שני הכרטיסים בתחילת המשחק‪ ,‬והמארגנים ישלימו‬
‫את מספר הכרטיסים בכל כד ל־‪ .n‬האם תעדיף להטיל אותם יחד‪ ,‬או‬
‫בנפרד? )פתרון‪ .‬אם המטרה היא להגדיל את תוחלת מספר הזכיות‪ ,‬זה לא‬
‫משנה‪ .‬אבל אם המטרה היא להגדיל את הסיכוי לזכות בפרס אחד לפחות‪ ,‬עדיף‬
‫להצמיד את הכרטיסים‪(.‬‬
‫‪ Ω = A1 ∪· · ·∪A‬הוא פירוק של המרחב לקבוצות זרות‪ ,‬אז = )‪E(X‬‬‫טענה ‪ 2.2.32‬אם ‪Pn‬‬
‫) ‪. i P (Ai )E(X|Ai‬‬
‫הוכחה‪ .‬זו תוצאה של נוסחת ההסתברות השלמה )‪ .(2.2‬לפי ההגדרה‬
‫‪X‬‬
‫= )‪E(X‬‬ ‫‪P (X = a)a‬‬
‫‪a‬‬
‫‪XX‬‬
‫=‬ ‫‪P (X = a|Ai )P (Ai )a‬‬
‫‪a‬‬ ‫‪i‬‬
‫‪X‬‬ ‫‪X‬‬
‫=‬ ‫) ‪P (Ai‬‬ ‫) ‪aP (X = a|Ai‬‬
‫‪i‬‬ ‫‪a‬‬
‫‪X‬‬
‫=‬ ‫‪P (Ai )E(X|Ai ).‬‬
‫‪i‬‬
‫‬
‫‪40‬‬
‫יהיו ‪ X, Y‬משתנים מקריים‪ .‬הסימון ‪ X|Y‬פירושו ‪ -‬המשתנה המקרי ‪ ,X‬בהנתן‬

‫הערך של ‪ ,Y‬שאותו מסמנים לצורך העניין ב־ ‪ Y‬במקום לתת לו שם נפרד‪ .‬זהו‪ ,‬אם‬
‫כך‪ ,‬משתנה מקרי‪ ,‬שההתפלגות שלו תלויה בערך של ‪ .Y‬משום כך‪ ,‬התוחלת המותנית‬
‫) ‪ E(X|Y‬של המשתנה המקרי ‪ X|Y‬היא בעצמה פונקציה של ‪.Y‬‬
‫טענה ‪) 2.2.33‬חוק התוחלת החוזרת( )) ‪.E(X) = E(E(X|Y‬‬
‫הוכחה‪ .‬לפי טענה ‪,2.2.32‬‬

‫‪X‬‬
‫= )‪E(X‬‬ ‫‪P (Y = b)E(X|Y = b) = E(E(X|Y )).‬‬
‫‪b‬‬
‫‬
‫הערה ‪ 2.2.34‬גם הטענה )‪ E(E(X)|Y ) = E(X‬נכונה‪ ,‬אך היא טריוויאלית‪ :‬התוחלת‬

‫)‪ E(X‬היא ערך מספרי‪ ,‬ולכן המשתנה המקרי המותנה ‪ E(X)|Y‬הוא קבוע‪ ,‬השווה תמיד‬
‫ל־)‪ ;E(X‬ממילא גם התוחלת שלו היא )‪.E(X‬‬
‫מסקנה ‪ 2.2.35‬אם ‪ X, Y‬בלתי תלויים אז‬
‫‪E(XY ) = E(X)E(Y ).‬‬
‫הוכחה‪,E(XY ) = E(E(XY |X)) = E(XE(Y |X)) = E(XE(Y )) = E(X)E(Y ) .‬‬

‫‬ ‫כי ל־‪ Y |X‬ההתפלגות של ‪ Y‬לכל )ערך של( ‪.X‬‬
‫תרגיל ‪ 2.2.36‬ב־‪ 3/2011‬הוגשה תביעה נגד מפעל הפיס בטענה שעל המארגנים‬
‫לפרסם את העובדה שכרטיסי גירוד מסדרה מסויימת כבר זכו בפרסים‪ ,‬על־מנת‬
‫שאנשים יידעו שאין עוד טעם לקנות אותם‪ .‬נניח‪ ,‬לשם פשטות הניתוח‪ ,‬שמדפיסים‬
‫‪ n‬כרטיסים בסדרה‪ ,‬ואחד מהם זוכה‪ .‬הכרטיסים נמכרים בזה אחר זה‪.‬‬
‫‪ .1‬נניח שהמחיר ההוגן לכרטיס )בשיטה הקיימת‪ ,‬לפיה אין מפרסמים נתוני‬
‫מכירות חלקיים( הוא ‪ ;1‬הראה שגובה הפרס הוא ‪ .n‬במלים אחרות‪ ,‬הפרס‬
‫שווה לסכום מחירי הכרטיסים‪.‬‬
‫‪ .2‬נניח שהכרטיסים נמכרים בזה אחר זה‪ ,‬ומפעל הפיס מודיע ברגע שהכרטיס‬
‫הזוכה נמכר )כך שאנשים יחדלו מלקנות אותם(‪ .‬מה תהיה תוחלת ההכנסות‬
‫ממכירת כרטיסים?‬
‫‪41‬‬
‫‪ .3‬נניח שהתביעה מתקבלת‪ ,‬ומשרד הפיס מתחיל לפרסם נתונים שוטפים על‬
‫מכירת הכרטיסים‪ .‬אם נמכרו כבר ‪ i‬כרטיסים שלא זכו‪ ,‬אז המחיר ההוגן‬
‫‪n‬‬
‫‪) n−i‬הסבר מדוע(‪ .‬מה תהיה תוחלת ההכנסה ממכירת‬ ‫כבר אינו ‪ ,1‬אלא‬
‫כרטיסים במקרה כזה? )הדרכה‪ :‬סמן ב־ ‪ Xi‬את ההכנסה מן הכרטיס ה־‪:i‬‬
‫‪n‬‬
‫המשתנים ‪ Xi‬תלויים‪,‬‬
‫‪P‬‬ ‫ה־‪ ,i‬ו־‪ 0‬אחרת‪.‬‬
‫‪ n−i‬אם הפרס טרם הופיע בשלב ‪Pn‬‬
‫= ) ‪ E(W‬לפי‬ ‫= ‪ ,W‬ו־) ‪E(Xi‬‬ ‫אבל ההכנסה הכוללת היא ‪i=1 Xi‬‬
‫אדיטיביות התוחלת‪(.‬‬
‫תרגיל ‪ 2.2.37‬מגרש החניה באוניברסיטה הוא בצורת שורה ארוכה‪ ,‬עם סימונים‬
‫ברווח קבוע‪ .‬אורכה של מכונית הוא כפליים המרחק בין שני סימונים‪ .‬הנהגים‬
‫חונים על־פי הסימונים‪ ,‬אבל אינם מתחשבים באלו שיבואו אחריהם )למשל‪ ,‬אם‬
‫נותרה שורה פנויה באורך ‪ ,4‬כדוגמת ‪ ,oooo‬הנהג עשוי לחנות בכל המקומות‬
‫‪ - ooxx ,oxxo ,xxoo‬בסיכויים שווים; שורה פנויה באורך ‪ 1‬תשאר ריקה‪ ,‬ואם נותרה‬
‫שורה פנויה באורך ‪ 2‬או ‪ ,3‬היא תספיק כמובן למכונית אחת בלבד(‪ .‬כתוב את‬
‫נוסחת הרקורסיה עבור התוחלת של מספר המכוניות שיזכו למקום חניה‪ .‬העזר‬
‫במחשב כדי למצוא את התוחלת כאשר ‪) .n = 1000‬הגרסה הרציפה של שאלה‬
‫זו קשורה ל''קבוע החניה של ‪ ,''Renyis‬שערכו כ־‪(.0.74759‬‬
‫‪ 2.2.4‬שונות‬
‫הגדרה ‪ 2.2.38‬השונות של משתנה מקרי ‪ X‬היא‬
‫‪V(X) = E((X − E(X))2 ) = E(X 2 ) − E(X)2 .‬‬
‫הערה ‪2.2.39‬‬
‫)‪.V(X + β) = V(X‬‬
‫)‪.V(αX) = α2 V(X‬‬
‫טענה ‪ 2.2.40‬לכל משתנה מקרי ‪,X‬‬
‫‪ ;E(X 2) ≥ E(X)2 .1‬לכן ‪.V(X) ≥ 0‬‬
‫‪ V(X) = 0 .2‬אם ורק אם ‪ X‬קבוע בהסתברות ‪.1‬‬
‫)ההכללה של סעיף ‪ 1‬ידועה בשם אי־שוויון הולדר‪ :‬אם ‪ f ′′ ≥ 0‬אז ≥ ))‪E(f (X‬‬
‫))‪(.f (E(X‬‬
‫‪42‬‬
‫‪ .1‬אדם יכול לקנות כרטיס הגרלה שמחירו ‪ 100‬ש"ח‪ ,‬ובו זוכים‪,‬‬ ‫תרגיל ‪2.2.41‬‬
‫בסיכוי של אחד ל־‪ ,100000‬בסכום של ‪ 8000000‬ש"ח )הכרטיס אינו הוגן‪:‬‬
‫אם מפעל ההגרלות ימכור ‪ 100000‬כרטיסים ואחד מהם יזכה‪ ,‬ישאר בידיו‬
‫רווח של ‪ 2000000‬ש"ח(‪ .‬הראה שתוחלת הרכוש של קונה הכרטיס יורדת‪,‬‬
‫בעוד שהשונות עולה‪ .‬לכן בקניית כרטיס הגרלה אנו קונים עליה של השונות‬
‫)התרגשות‪ ,‬מתח( תמורת הפסד תוחלת‪.‬‬
‫‪ .2‬אדם יכול לקנות פוליסת ביטוח במחיר ‪ 100‬ש"ח‪ :‬אם ביתו ישרף )אירוע‬
‫שהסיכויים לו הם אחד ל־‪ ,(100000‬תשלם לו חברת הביטוח ‪ 8000000‬ש"ח‬
‫)הפוליסה אינה הוגנת‪ :‬אם חברת הביטוח תמכור ‪ 100000‬ביטוחים ובית‬
‫אחד ישרף‪ ,‬ישאר בידה רווח של ‪ 2000000‬ש"ח(‪ .‬הראה שתוחלת הרכוש‬
‫של קונה הכרטיס יורדת‪ ,‬בעוד שהשונות יורדת‪ .‬לכן בקניית פוליסת ביטוח‬
‫אנו קונים את ירידת השונות )בטחון‪ ,‬שקט נפשי( תמורת הפסד תוחלת‪.‬‬
‫‪ .3‬נתח את התפלגות הרכוש של מי שקונה גם כרטיס הגרלה וגם פוליסת‬
‫ביטוח‪ .‬מה התוחלת שלה? מה השונות שלה?‬
‫טענה ‪ 2.2.42‬נוסחת פירוק השונות‪.V(X) = V(E(X|Y )) + E(V(X|Y )) :‬‬
‫הוכחה‪ .‬נחשב לפי חוק התוחלת החוזרת‪:‬‬
‫‪V(E(X|Y )) = E(E(X|Y )2 ) − E(E(X|Y ))2 = E(E(X|Y )2 ) − E(X)2 ,‬‬
‫‪E(V(X|Y )) = E(E(X 2|Y )) − E(X|Y )2 ) = E(X 2 ) − E(E(X|Y )2 ),‬‬

‫‬ ‫ולכן הסכום שווה ל־)‪.V(X‬‬
‫דוגמא ‪ 2.2.43‬איך מתפרקת השונות כאשר ‪ X, Y‬בלתי תלויים? וכאשר ‪ X‬הוא פונקציה‬
‫של ‪ ?Y‬ואם ‪?Y = X‬‬
‫תרגיל ‪ 2.2.44‬נסמן ) ‪ W = E(X|Y‬ו־ )‪ .T = E(W |X‬הוכח ש־ )‪.V(T ) ≤ V(X‬‬
‫פתרון‪.V(T ) = V(E(W |X)) ≤ V(W ) = V(E(X|Y )) ≤ V(X) .‬‬
‫‪ .1‬נניח ש־) ‪ (X0 , X1‬מקבלים את הערכים )‪(0, 0), (0, 1), (1, 0), (1, 1‬‬ ‫תרגיל ‪2.2.45‬‬
‫‪ , 1+ρ‬בהתאמה‪ ,‬כאשר ‪] 0 < ρ < 1‬כלומר∼ ‪X0 , X1‬‬ ‫‪4‬‬
‫ו־‬ ‫‪,‬‬ ‫‪1+ρ 1−ρ 1−ρ‬‬
‫‪4‬‬
‫‪,‬‬ ‫‪4‬‬
‫‪,‬‬ ‫‪4‬‬
‫בסיכויים‬
‫‪) E(Xi |Xj ) = ρXj + 1−ρ‬כאשר‬ ‫‪2‬‬
‫) ‪ b( 12‬עם ‪ .[ρ(X0 , X1 ) = ρ‬הראה ש־‬
‫}‪ .({i, j} = {0, 1‬נגדיר את הסדרה ) ‪ .Xn+1 = E(Xn |Xn−1‬הוכח שלכל‬
‫‪n−1‬‬
‫‪.Xn = 1−ρ2 + ρn−1 Xn (mod 2) ,n ≥ 1‬‬
‫‪ (*) .2‬יהיו ‪ Y = X0 , X = X1‬משתנים מקריים על מרחב ‪ .Ω‬נגדיר סדרה ‪Xn‬‬
‫כבסעיף הראשון‪ .‬חקור את הסדרה ‪ ;Xn‬הראה שסדרת השונויות מונוטונית‬
‫יורדת‪ .‬האם בהכרח ‪?V(Xn )→0‬‬
‫‪43‬‬
‫‪ 2.2.5‬שונות משותפת ומקדם המתאם‬

‫הגדרה ‪ 2.2.46‬השונות המשותפת של משתנים מקריים ‪ X, Y‬היא המספר‬
‫‪Cov(X, Y ) = E(XY ) − E(X)E(Y ) = E((X − E(X))(Y − E(Y ))).‬‬
‫דוגמא ‪ 2.2.47‬מקדם המתאם של משתנים מקריים מכליל את מקדם המתאם של מדגם‪,‬‬

‫בדיוק כפי שהתוחלת של משתנה מקרי מכלילה את הממוצע של מדגם )דוגמא ‪.(2.2.23‬‬
‫הגדרה ‪ X, Y 2.2.48‬בלתי מתואמים אם ‪.Cov(X, Y ) = 0‬‬
‫טענה ‪ Cov 2.2.49‬היא תבנית ביליניארית על מרחב המשתנים המקריים‪.‬‬
‫‪ .1‬סימטריות‪.Cov(Y, X) = Cov(X, Y ) :‬‬
‫‪ .2‬אדיטיביות‪.Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z) :‬‬
‫‪ .3‬הומוגניות‪.Cov(X, αY ) = αCov(X, Y ) :‬‬
‫טענה ‪ 2.2.50‬לכל משתנה מקרי ‪ ,Cov(X, X) = V(X) ≥ 0 ,X‬עם שוויון אם ורק אם‬
‫‪ X‬קבוע )בהסתברות ‪ .(1‬פירושו של דבר הוא שהשונות המשותפת היא ''מכפלה פנימית‬
‫על מרחב המנה של המשתנים המקריים מודולו סקלרים"‪.‬‬
‫אם ‪ X, Y‬בלתי תלויים אז הם גם בלתי מתואמים )מסקנה ‪.(2.2.35‬‬
‫‪ .1‬יתכן ש־ ‪ X, Y‬תלויים ובלתי מתואמים‪ .‬הדרכה‪ .‬קח ‪ X‬להיות‬ ‫תרגיל ‪2.2.51‬‬

‫‪1 1 1‬‬
‫המשתנה המקרי מקבל את הערכים ‪ −1, 0, 1‬בהסתברויות ‪ 4 , 2 , 4‬בהתאמה‪ .‬נסמן‬
‫|‪ .Y = |X‬הראה ש־‪.Cov(X, Y ) = 0‬‬
‫‪ .2‬יתכן ש־ ‪ X, Y‬תלויים למרות ש־ ‪ Y‬בלתי מתואם עם כל פונקציה של ‪.X‬‬

‫הדרכה‪ .‬יהי ‪ X‬משתנה מקרי כלשהו‪ ,‬ו־‪ Z‬המטבע ההוגן בעל ערכים ‪ ,±1‬שאינו‬
‫תלוי ב־‪ .X‬קח ‪ .Y = XZ‬הראה ש־‪ Cov(f (X), Y ) = 0‬לכל פונקציה של ‪.X‬‬
‫‪ .3‬יתכן ש־ ‪ X, Y‬תלויים למרות שכל ‪ X n‬בלתי מתואם עם כל ‪ .Y m‬הדרכה‪.‬‬

‫דוגמא נגדית‪ ,‬לא קלה‪ ,‬אפשר למצוא ב־‪The American Statistician, 63(3),‬‬
‫‪.http://www.tandfonline.com/doi/abs/10.1198/tast.2009.09051 ,(2009), Letter to the editor‬‬
‫‪ .4‬אם כל פונקציה רציפה של ‪ X‬בלתי מתואמת עם כל פונקציה רציפה של‬

‫‪ ,Y‬אז ‪ X, Y‬בלתי תלויים‪.‬‬
‫‪44‬‬
‫הגדרה ‪ 2.2.52‬מקדם המתאם של משתנים מקריים ‪) X, Y‬שאינם קבועים( מוגדר לפי‬

‫) ‪.ρ(X, Y ) = √Cov(X,Y‬‬
‫) ‪V(X)V(Y‬‬
‫טענה ‪ 2.2.53‬לכל שני משתנים מקריים‪.|ρ(X, Y )| ≤ 1 ,‬‬

‫) ‪Cov(X,Y‬‬
‫= ‪ ;t‬אז‬ ‫) ‪V(Y‬‬
‫הוכחה‪ .‬נסמן‬
‫‪V(X)V(Y ) − Cov(X, Y )2‬‬

‫= ) ‪V(X) · (1 − ρ(X, Y )2‬‬
‫) ‪V(Y‬‬
‫) ‪= Cov(X, X) − 2tCov(X, Y ) + t2 Cov(Y, Y‬‬
‫) ‪= Cov(X − tY, X − tY‬‬
‫‪= V(X − tY ) ≥ 0.‬‬
‫‬
‫הערה ‪ .V(X + Y ) = V(X) + V(Y ) + 2Cov(X, Y ) 2.2.54‬בפרט‪,‬‬

‫) ‪V(X + Y ) = V(X) + V(Y‬‬
‫אם ורק אם ‪ X, Y‬בלתי מתואמים‪.‬‬
‫טענה ‪ 2.2.55‬יהיו ‪ X1 , . . . , Xn‬משתנים מקריים בלתי מתואמים‪ ,‬שלכולם אותה תוחלת‬

‫‪.X̄ = X1 +···+X‬‬
‫‪n‬‬
‫‪n‬‬
‫‪ E(Xi ) = µ‬ואותה שונות ‪ .V(Xi ) = σ 2‬נסמן‬
‫‪2‬‬
‫אז ‪ E(X̄) = µ‬ו־ ‪.V(X̄) = σn‬‬
‫דוגמא ‪ 2.2.56‬נניח ש־ ‪ X1 , . . . , Xn‬משתנים מקריים בלתי מתואמים בעלי אותה שונות‬

‫‪ .σ 2‬נסמן‪ ,‬כרגיל‪.X̄ = n1 (X1 + · · · + Xn ) ,‬‬
‫‪ .1‬אם למשתנים אותה תוחלת‪ ,‬אז ‪.E(Xi − X̄) = 0‬‬
‫‪.Cov(X̄, Xi − X̄) = 0 .2‬‬
‫‪ Cov(Xi − X̄, Xj − X̄) = − n1 σ 2 .3‬לכל ‪.i 6= j‬‬
‫‪n−1 2‬‬
‫= )̄‪.V(Xi − X‬‬ ‫‪n‬‬
‫‪σ‬‬ ‫‪.4‬‬
‫תרגיל ‪) 2.2.57‬הכללה של טענה ‪ (2.2.42‬יהיו ‪ X, Y, Z‬משתנים מקריים על מרחב ‪.Ω‬‬

‫‪Cov(X, Y ) = Cov(E(X|Z), E(Y |Z)) + E(Cov(X, Y |Z)).‬‬
‫בסימון )‪ Cov(X, Y |Z‬הכוונה היא לשונות המשותפת של ‪ X, Y‬בהנתן ‪ ,Z‬היינו‬
‫)‪.Cov(X, Y |Z) = E(XY |Z) − E(X|Z)E(Y |Z‬‬
‫‪45‬‬
‫תרגיל ‪ 2.2.58‬יהיו ‪ X, Y‬משתנים מקריים על מרחב ‪.Ω‬‬

‫‪ .1‬אם ‪ X, Y‬לא מתואמים אז לכל משתנה ‪ E(X|Z), E(Y |Z) ,Z‬לא מתואמים‪.‬‬
‫‪ .2‬לכל ‪ Y −E(Y |X) ,X, Y‬לא מתואם עם ‪) X‬רמז‪ .‬קח ‪ Z = X‬בסעיף הקודם(‪.‬‬
‫‪.Cov(X, E(Y |X)) = Cov(X, Y ) .3‬‬
‫תרגיל ‪ 2.2.59‬נניח ש־‪ X = 0, 1‬עם ‪ Y = 0, 1 ;P (X = 1) = α‬עם ‪,P (Y = 1) = β‬‬

‫‪.ρ(X, Y ) = ρ‬‬
‫‪ .1‬חשב‪ ,‬במונחי ‪ ,α, β‬ו־‪ ρ‬את ההתפלגות המשותפת של ‪;X, Y‬‬
‫‪ .2‬חשב את )‪,E(X|Y ) ,E(X|Y = 1) ,E(X|Y = 0) ,V(X) ,E(XY ) ,E(X‬‬
‫ו־)) ‪;V(E(X|Y‬‬
‫‪ .3‬בדוק ש־ )‪;E(E(X|Y )) = E(X‬‬
‫‪ .4‬הראה ש־ ‪ ,V(E(X|Y )) = ρ2 αα′‬והוכח ש־ )) ‪.Cov(X, Y )2 ≤ 41 V(E(X|Y‬‬
‫)) ‪V (E(X|Y‬‬
‫= ) ‪ .θ(X; Y‬לפי טענה ‪ ,2.2.42‬ערך זה נמצא תמיד בקטע ]‪.[0, 1‬‬ ‫)‪V (X‬‬
‫נסמן‬
‫תרגיל ‪ 2.2.60‬הראה שאם ‪ X, Y‬מקבלים רק שני ערכים אז ‪.θ(X; Y ) = ρ(X, Y )2‬‬
‫תרגיל ‪ 2.2.61‬לכל ‪.θ(αX + β; Y ) = θ(X; Y ) ,α, β‬‬

‫לכל ‪ g : R→R‬הפיכה‪.θ(X; g(Y )) = θ(X; Y ) ,‬‬
‫תרגיל ‪ 2.2.62‬הראה שאם ‪ ,θ(X; Y ) = 0‬אז ‪.Cov(X, Y ) = 0‬‬
‫טענה ‪) 2.2.63‬גרסה חזקה של טענה ‪ (2.2.53‬לכל שני משתנים מקריים ‪ ,X, Y‬מתקיים‬
‫) ‪.ρ(X, Y )2 ≤ θ(X; Y‬‬
‫) ‪Cov(X,Y‬‬
‫= ‪ ,t‬אז לפי תרגיל ‪,2.2.58‬‬ ‫) ‪V(Y‬‬
‫הוכחה‪ .‬קח‬
‫≤ ‪0‬‬ ‫= )) ‪V(E(X − tY |Y‬‬

‫=‬ ‫= ) ‪V(E(X|Y ) − tY‬‬
‫=‬ ‫= ) ‪V(E(X|Y )) − 2tCov(E(X|Y ), Y ) + t2 V(Y‬‬
‫=‬ ‫= ) ‪V(E(X|Y )) − 2tCov(X, Y ) + t2 V(Y‬‬
‫‪Cov(X, Y )2‬‬ ‫‪θ(X; Y ) − ρ(X, Y )2‬‬
‫‪= V(E(X|Y )) −‬‬ ‫=‬ ‫‪.‬‬
‫) ‪V(Y‬‬ ‫)‪V(X‬‬
‫‬
‫‪46‬‬
‫‪ .2.3‬התפלגויות בדידות‬ ‫פרק ‪ .2‬מבוא להסתברות‬
‫תרגיל ‪ 2.2.64‬הראה שלכל ‪ ,0 ≤ r ≤ θ ≤ 1‬למשתנים המקריים המוגדרים להלן‬

‫יש ‪ θ(X; Y ) = θ‬ו־‪ X :ρ(X, Y )2 = r‬מקבל את הערכים ‪ ,0, 1‬ו־ ‪ Y‬את הערכים‬
‫‪;−1, 0, 1‬‬
‫‪(θ + r)2‬‬
‫= )‪P (X = 0, Y = −1‬‬ ‫‪,‬‬
‫‪4(θ + r)2‬‬
‫)‪(3θ + r)(θ − r‬‬
‫= )‪P (X = 0, Y = 1‬‬ ‫‪,‬‬
‫‪4(θ + r)2‬‬
‫‪(3θ + r)r‬‬
‫= )‪P (X = 1, Y = 0‬‬ ‫‪,‬‬
‫‪r2‬‬
‫‪+ 3θr + θ − r‬‬
‫‪ ,P (X = 1, Y = 1) = P (X = 1, Y = −1) = 0‬ו־)‪ P (X = 0, Y = 0‬משלים את‬
‫ההסתברויות ל־‪.1‬‬
‫תרגיל ‪ (*) 2.2.65‬מה הקשר בין ) ‪ θ(X; Y‬ו־)‪?θ(Y ; X‬‬
‫התפלגויות בדידות‬ ‫‪2.3‬‬

‫‪ 2.3.1‬התפלגות אחידה‬
‫ראו דוגמא ‪.2.2.5‬‬
‫‪n2 −1‬‬ ‫‪n+1‬‬
‫= )‪.V(X‬‬ ‫‪12‬‬
‫= )‪ E(X‬ושונות‬ ‫‪2‬‬
‫תרגיל ‪ 2.3.1‬למשתנה ]‪ X ∼ U[1, n‬יש תוחלת‬
‫תרגיל ‪ 2.3.2‬פרדוקס המעטפות הוא מעין־פרדוקס המדגים שיקולים הסתברותיים‬
‫שגויים‪ ,‬ושניתן לפתרו‪ ,‬בהנחות מסויימות‪ ,‬בעזרת חישובי תוחלת זהירים‪.‬‬
‫אדם בוחר ערך ‪ ,X‬ומושיט לנו שתי מעטפות‪ :‬באחת ‪ X‬ובשניה ‪ .2X‬אנו‬
‫בוחרים אחת מהן‪ ,‬בסיכויים שווים‪ .‬האם כדאי לנו לפתוח אותה‪ ,‬או להחליפה‬
‫במעטפה האחרת? נניח שהסכום שאנו רואים הוא ‪ ;Y‬בהנתן ‪ X = Y ,Y‬או‬
‫‪ .X = 21 Y‬במקרה הראשון ההחלפה תעלה את הרווח ב־ ‪ ;Y‬אחרת נעבור‬
‫למעטפה ובה ‪ , 12 Y‬והפסדנו ‪ . 12 Y‬הממוצע של שתי האפשרויות האלה הוא ‪, 54 Y‬‬
‫ולכן כדאי להחליף‪ .‬אלא שנימוק זה נכון באותה מידה לכל ‪ :Y‬לאחר שנפתח את‬
‫המעטפה‪ ,‬תמיד כדאי יהיה להחליף‪ .‬אם כך‪ ,‬אין צורך לפתוח אותה‪ .‬אבל אם אין‬
‫פותחים את המעטפה‪ ,‬מה ההבדל בינה לבין האחרת? אפשר להפעיל את אותם‬
‫שיקולים גם על השניה‪ ,‬ולהחליף בחזרה‪ .‬אם כך‪ ,‬איזו מעטפה עדיפה?‬
‫הניתוח לעיל שגוי‪ ,‬משום שבהנתן ‪ ,Y‬הסיכויים למאורע ‪) Y = X‬הגורר רווח‬
‫אם מחליפים( אינו דווקא ‪ :1/2‬הערך תלוי בהתפלגות ממנה נבחר ‪) .X‬אם‬
‫‪(.P (X = Y |Y ) = f (Yf)+f‬‬
‫) ‪X (Y‬‬
‫) ‪(1Y‬‬
‫הצפיפות של ‪ X‬היא ‪ ,fX‬אז‬
‫‪X‬‬ ‫‪X 2‬‬
‫נסמן ב־ ‪ Y ′‬את תכולת המעטפה השניה‪ .‬הראה שאם מניחים ש־)‪ E(X‬סופית‪,‬‬
‫אז ‪ ,E(Y ′ − Y ) = 0‬ולכן תוחלת הרווח מהחלפה היא אפס‪.‬‬
‫‪47‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.3‬התפלגויות בדידות‬
‫הדרכה‪ .‬אם‬ ‫תרגיל ‪ 2.3.3‬לא קיימת התפלגות אחידה על המספרים הטבעיים‪.‬‬

‫‪P‬‬
‫הוא אפס או אינסוף‪ ,‬ולא ‪.1‬‬ ‫)‪ P (X = n‬אינו תלוי ב־‪ ,n‬אז )‪P (X = n‬‬
‫תרגיל ‪ 2.3.4‬קרא על חוק בנפורד והצג את הנושא לכתה בחמש הדקות הראשונות‬
‫של השעור הבא‪.‬‬
‫‪ 2.3.2‬התפלגות ברנולי‬
‫יהי ‪ ;0 < p < 1‬נסמן ‪ .q = 1 − p‬ההתפלגות שבה ‪ X = 0, 1‬עם ‪P (X = 1) = p‬‬
‫ו־‪ P (X = 0) = q‬נקראת התפלגות ברנולי‪ .‬מסמנים )‪.X ∼ b(p‬‬
‫טענה ‪ 2.3.5‬למשתנה )‪ X ∼ b(p‬יש ‪.V(X) = pq ,E(X) = p‬‬
‫תרגיל ‪ 2.3.6‬הפער של משתנה ברנולי )‪ X ∼ b(p‬הוא ‪) ∆ = q − p‬כאשר = ‪q‬‬

‫‪ .(1 − p‬נראה שהפער כפלי‪ .‬נניח ש־)‪ X ∼ b(p‬ו־) ‪ X ′ ∼ b(p′‬הם שני משתני‬
‫ברנולי בלתי תלויים‪ .‬נגדיר ‪ ,Y = X ⊕ X ′‬כלומר הסכום מודולו ‪ .2‬הראה‬
‫ש־) ‪.∆(Y ) = ∆(X)∆(X ′‬‬
‫יהיו ‪ X, Y‬משתנים מקריים בלתי תלויים‪ .‬נאמר ש־‪ X‬עדיף על ‪ Y‬אם מתקיים‬
‫‪1‬‬
‫> ) ‪ .P (X > Y‬נראה שיחס העדיפות אינו טרנזיטיבי‪.‬‬ ‫‪2‬‬
‫√‬
‫‪ ,φ = 5−1‬ההפכי של יחס הזהב‪ .‬נגדיר )‪,X1 , X2 ∼ b(φ‬‬
‫‪2‬‬
‫תרגיל ‪ 2.3.7‬נסמן ‪≈ 0.618‬‬
‫שני משתני ברנולי בלתי תלויים‪ .‬נגדיר ‪ Y = 2 ,X = 3X1‬ו־ ‪ .Z = 4 − 3X2‬הראה‬
‫ש־‪ X‬עדיף על ‪ ,Y‬שעדיף על ‪ ,Z‬שעדיף על ‪.X‬‬
‫)למעשה ‪.(P (X > Y ) = P (Y > Z) = P (Z > X) = φ‬‬
‫תרגיל ‪ 2.3.8‬הראה שאם ‪ X, Y‬משתנים בלתי תלויים‪ ,‬אז‬
‫‪min {P (X > 0), P (Y > 0), P (X + Y < 0)} ≤ φ.‬‬

‫הדרכה‪ .‬אחרת ‪ ,P (X > 0), P (Y > 0), P (X + Y < 0) > φ‬אבל אז‬
‫)‪1 − φ > 1 − P (X + Y < 0) ≥ P (X + Y > 0‬‬

‫‪≥ P (X > 0, Y > 0) = P (X > 0) · P (Y > 0) > φ2 = 1 − φ.‬‬
‫הערה‪ .‬הקשר לתרגיל ‪ 2.3.6‬אינו מיידי‪ ,‬משום ששם ‪ X − Y, Y − Z, Z − X‬תלויים למרות‬

‫ש־‪ X, Y, Z‬בלתי תלויים‪.‬‬
‫תרגיל ‪ 2.3.9‬מצא התפלגות משותפת של ‪ ,X, Y, Z‬כך ש־]‪ ,X, Y, Z ∼ U[1, 3‬ובכל זאת‬
‫‪ .P (X > Y ) = P (Y > Z) = P (Z > X) = 32‬הדרכה‪ .‬בחר את מרחב האפשרויות כך‬
‫ש־‪ X, Y, Z‬תמיד שונים זה מזה‪.‬‬
‫‪48‬‬
‫התפלגות בינומית‬ ‫‪2.3.3‬‬

‫לכסום ‪ X = Y1 + · · · + Yn‬של משתני ברנולי בלתי תלויים )‪ Yi ∼ b(p‬יש התפלגות‬
‫בינומית‪ .‬משתנה כזה סופר את ההצלחות בסדרה של ‪n‬‬
‫‪ P‬נסיונות ברנולי בלתי תלויים‪.‬‬
‫מסמנים )‪ .X ∼ Bin(n, p‬מן השוויון )‪ X = Yi ∼ Bin(n, p‬קל לחשב את התוחלת‬
‫והשונות‪,‬‬
‫‪E(X) = np,‬‬ ‫‪V (X) = npq.‬‬
‫טענה ‪ 2.3.10‬אם משתנים )‪ X1 ∼ Bin(n1 , p‬ו־)‪ X2 ∼ Bin(n2 , p‬הם בלתי תלויים אז‬
‫)‪.X1 + X2 ∼ Bin(n1 + n2 , p‬‬
‫הוכחה‪ .‬באמצעות המבנה של משתנה בינומי כסכום של משתני ברנולי‪ ,‬או בחישוב ישיר‪.‬‬
‫‬
‫תרגיל ‪ 2.3.11‬אם )‪ X ∼ Bin(n, p‬אז )‪.n − X ∼ Bin(n, q‬‬
‫תרגיל ‪ 2.3.12‬בכד ‪ n‬כדורים‪ .‬בוחרים )‪ ,X ∼ Bin(n, p‬וצובעים ‪ X‬מן הכדורים‪.‬‬
‫‪ .1‬מוציאים כדור מהכד‪ .‬מה הסיכוי לכך שהוא צבוע?‬
‫‪ .2‬הוצאנו כדור צבוע‪ ,‬וכעת מוציאים עוד כדור‪ ,‬ללא החזרת הכדור הראשון‪.‬‬
‫מהם הסיכויים לכך שהכדור השני צבוע?‬
‫‪ .3‬ומהם הסיכויים לכך שהכדור השני צבוע‪ ,‬אם הוצאנו כדור צבוע ראשון‬
‫והחזרנו אותו לכד?‬
‫רעיון ‪ 2.3.13‬מדי שנה נבחנים סטודנטים למשפטים בבחינות הלשכה של עורכי הדין‪ :‬מאה‬
‫תלמידים מכל אחת מחמש אוניברסיטאות‪ .‬הסיכוי של בוגר התואר לעבור את הבחינות‬
‫הוא ‪ .90%‬אם האוניברסיטה המובילה בדירוג השנה אינה זו שהובילה את הדירוג בשנה‬
‫שעברה‪ ,‬על המוסף הכלכלי של העיתון לבשר מיד על "מהפך‪ :‬אוניברסיטה ‪ A‬עקפה את‬
‫אוניברסיטה ‪ B‬בדירוג בחינות הלשכה"‪ .‬הערך את הסיכויים לכותרת כזו‪.‬‬
‫תרגיל ‪ 2.3.14‬שני שחקנים מחלקים ביניהם ‪ n‬מטבעות‪ :‬מטילים את כולם‪ ,‬השחקן‬

‫הראשון מקבל את אלו שנפלו על 'עץ' והאחר את אלו שנפלו על 'פלי'‪ .‬לאחר‬
‫מכן מטיל כל שחקן שוב את המטבעות שלו‪ ,‬ושומר רק את אלו שנפלו שנית על‬
‫הצד שלו; את האחרים הוא מחזיר לקופה‪.‬‬
‫‪ .1‬איך מתפלג הרווח של השחקן הראשון?‬
‫‪49‬‬
‫‪ .2‬חשב את השונות המשותפת ומקדם המתאם בין הרווח של השחקן הראשון‬

‫לרווח של השחקן השני‪.‬‬
‫פתרון‪ D ∼ Bin(n, 12 ) .‬הוא מספר המטבעות בידי השחקן הראשון; ולאחר שנקבע ‪D‬‬
‫מגרילים ) ‪ X0 ∼ Bin(D, 12‬ו־) ‪ Y0 ∼ Bin(n − D, 21‬באופן בלתי תלוי‪ .1 .‬הסיכוי שמטבע‬
‫יגיע לידי השחקן הראשון הוא רבע‪ ,‬ובגלל האי־תלות הרווח מתפלג ) ‪ .2 .Bin(n, 41‬לפי‬
‫תרגיל ‪,2.2.57‬‬
‫)‪Cov(X0 , Y0 ) = Cov(E(X0 |D), E(Y0 |D)) + E(Cov(X0 , Y0 )|D‬‬

‫‪1‬‬ ‫‪1‬‬
‫‪= Cov( D, (n − D)) + 0‬‬
‫‪2‬‬ ‫‪2‬‬
‫‪1‬‬ ‫‪1‬‬
‫‪= − V(D) = − n‬‬
‫‪4‬‬ ‫‪16‬‬
‫‪ ,‬ולכן ‪.ρ(X0 , Y0 ) = − 13‬‬
‫תרגיל ‪ 2.3.15‬שיכור צועד מנקודת האפס לאורך הציר הממשי‪ :‬הוא עושה צעד‬
‫ימינה או צעד שמאלה‪ ,‬בסיכויים שווים‪) .‬המיקום שלו בזמן ‪ n‬הוא ‪ 2X0 − n‬כאשר‬
‫) ‪ (.X0 ∼ Bin(n, 21‬הוכח ש־‪ E(X) = 0‬ו־‪.V(X) = n‬‬
‫תרגיל ‪) 2.3.16‬הילוך שיכור דו־ממדי( שיכור שיוצא מראשית הצירים מבצע בכל פעם‬
‫צעד באחד מארבעת הכיוונים המקבילים לצירים‪ ,‬בהסתברויות שוות‪ .‬נסמן את‬
‫מקומו בצעד לאחר ‪ n‬צעדים ב־) ‪.(X, Y‬‬
‫‪ .1‬הסבר את המודל‪:‬‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬
‫‪D ∼ Bin(n, ),‬‬ ‫‪X0 |D ∼ Bin(D, ),‬‬ ‫‪Y0 |D ∼ Bin(n − D, ),‬‬
‫‪2‬‬ ‫‪2‬‬ ‫‪2‬‬
‫‪.Y = 2Y0 − (n − D) ,X = 2X0 − D‬‬
‫‪n‬‬
‫= ) ‪.V(X) = V(Y‬‬ ‫‪2‬‬
‫‪ .2‬הראה ש־‪,E(X) = E(Y ) = 0‬‬
‫‪ .3‬הראה שתוחלת ריבוע המרחק של השיכור מהמרכז היא ‪.n‬‬
‫‪ .4‬הראה ש־‪ .Cov(X, Y ) = 0‬האם ‪ X, Y‬תלויים?‬
‫תרגיל ‪ 2.3.17‬למנעול האופניים שלי יש ארבע חוגות של ‪ 10‬ספרות‪ .‬בכל פעם שאני‬
‫נועל אותו‪ ,‬אני מתעצל ומסובב חוגה אחת‪ ,‬שתיים‪ ,‬שלוש או ארבע )בהסתברויות‬
‫שוות(‪ ,‬כל אחת מהן ימינה או שמאלה )בהסתברויות שוות(‪ ,‬צעד אחד‪ ,‬שניים או‬
‫שלושה )בהסתברויות שוות(‪ .‬מישהו עוקב ומציץ במספר שלי אחרי הנעילה‪ .‬כמה‬
‫הצצות הוא צריך כדי לפענח בסיכוי טוב את הקוד הסודי?‬
‫)הדרך הטובה ביותר להתגונן מפני התקפה זו היא לבחור מספר קבוע שאליו‬
‫עוברים כשהמנעול סגור‪(.‬‬
‫‪50‬‬
‫תרגיל ‪ 2.3.18‬עורך דינה של קימברלי מקרת'י‪ ,‬שהורשעה ברצח ונידונה למוות‬

‫בטקסס ב־‪ ,2001‬טוען שההרשעה התקבלה על בסיס גזעני‪ .‬לדבריו‪ ,‬במדינה‬
‫שבה רבע מהאוכלוסיה שחורה‪ ,‬לא יתכן שרק אחד מ־‪ 13‬המושבעים יהיה שחור‬
‫)מוסף "צדק" של מקור ראשון‪ ,‬גליון ‪(.8.2.2013 ,809‬‬
‫‪ .1‬מה הסיכוי להרכב כזה של חבר המושבעים‪ ,‬בהנחה שזה הורכב באקראי?‬
‫‪ .2‬נניח שמושבע שחור היה מרשיע אותה בסיכוי ‪ ,0.6‬בעוד שמושבע לבן היה‬
‫מרשיע אותה בסיכוי ‪ .0.9‬מהם סיכויי ההרשעה ההוגנים‪ ,‬אם בוחרים את‬
‫חבר המושבעים באקראי? הדרכה‪ .‬נסמן ב־‪ X‬את מספר השחורים בחבר‬
‫המושבעים‪ ,‬אז )‪ ,X ∼ Bin(13, 0.25‬וסיכויי ההרשעה בהנתן ‪ X‬הם ‪.0.6X 0.913−X‬‬
‫תרגיל ‪ 2.3.19‬הפער של משתנה ברנולי הוגדר בתרגיל ‪ .2.3.6‬מטילים מטבע‬

‫‪ 2m + 1‬פעמים‪ ,‬ומסמנים ב־ ‪ Y‬את הכרעת הרוב‪ .‬מהו הפער של ‪ ,Y‬כתלות‬
‫המטבע‪ ,‬בהנחה ש־‪ ǫ‬זערורי ביחס ל־‪) ?m‬בקירוב מסדר ראשון‪,‬‬
‫בפער ‪ ǫ‬של ‪p m‬‬
‫‪m+1 2m+1‬‬
‫הפער הוא ‪(. 22m m ǫ ∼ 2 π ǫ‬‬
‫תרגיל ‪ 2.3.20‬חטיבה מורכבת משלושה גדודים; גדוד מורכב משלוש פלוגות; פלוגה‬
‫מורכבת משלוש מחלקות; מחלקה מורכבת משלושה צוותים; וצוות מורכב משלושה‬
‫חיילים‪ .‬לכל חייל יש מקצוע )צנחן או שריונר(‪ .‬המקצוע של יחידה מוגדר כמקצוען‬
‫של רוב היחידות המרכיבות אותה‪ .‬נניח שכל חייל בוחר באקראי ובאופן בלתי‬
‫‪ , 1+ǫ‬ו־‪ ǫ‬קטן מאד‪ .‬מהו הסיכוי‬
‫‪2‬‬
‫תלוי את מקצועו‪ ,‬כאשר הסיכוי להיות צנחן הוא‬
‫שהחטיבה היא חטיבת צנחנים?‬
‫תרגיל ‪ 2.3.21‬במדינה מוכרת נערכות בחירות אחת לארבע שנים )או פחות(‪.‬‬
‫החליטו שבמקום לספור את כל הקולות‪ ,‬יבחרו בכל קלפי ‪ k‬פתקים )למשל‬
‫‪ ,(k = 10‬באקראי ובהתפלגות אחידה‪ ,‬עם החזרה; הפתקים האלה‪ ,‬משוקללים‬
‫לפי מספר המצביעים בקלפי‪ ,‬יקבעו את מספר המצביעים בבחירות לכל מפלגה‪.‬‬
‫נסמן ב־ ‪ ni‬את מספר המצביעים בקלפי ‪ ,i‬וב־ ‪ ai‬את מספר המצביעים למפלגת‬
‫לסוקרים" באותה קלפי‪ .‬מספר הקולות שנזקפים לטובת המפלגה הוא הסכום‬ ‫"כח ‪P‬‬
‫‪ai‬‬ ‫‪1‬‬
‫‪ ,X = k ni Xi‬כאשר ) ‪ .Xi ∼ Bin(ni , ni‬הראה שהתוחלת של ‪ X‬שווה למספר‬
‫הקולות שתמכו במפלגה‪ ,‬וחשב את סטיית התקן‪ .‬מה צריך להיות ‪ k‬כדי שהתוצאה‬
‫תהיה‪ ,‬בוודאות קרובה‪ ,‬אמינה?‬
‫תרגיל ‪ 2.3.22‬אדם מטיל קוביה הוגנת סטנדרטית‪ ,‬שבה סכום הנקודות על כל שתי‬
‫פאות מקבילות הוא ‪ .7‬לפני כל הטלה‪ ,‬עליו לבחור )ולא לספר לאף אחד( האם‬
‫הוא מאמץ הפעם את הפאה העליונה או התחתונה של הקוביה‪ .‬אחר־כך הוא‬
‫מטיל את הקוביה‪ ,‬מדווח באיזו פאה בחר‪ ,‬ומקבל את הסכום המוצג שם בשקלים‬
‫)לדוגמא‪ ,‬אם הקוביה מציגה ‪ 5‬והוא בחר בפאה התחתונה‪ ,‬יוכל לומר את האמת‬
‫‪51‬‬
‫ולקבל שני שקלים‪ ,‬או לשקר ולקבל חמישה(‪ .‬ההטלה היתה מוצלחת מבחינת‬
‫המשתתף‪ ,‬אם מספר הנקודות על הפאה שהוא אומר שבחר גבוה מזה של הפאה‬
‫הנגדית‪ .‬חוזרים על הניסוי עשרים פעם‪ .‬כמה הצלחות צפויות בממוצע? כמה‬
‫הצלחות יגרמו לכם לחשוד שהאדם משקר? )בסדרת ניסויים שערך דן אריאלי‪,‬‬
‫נמצא שמספר ההצלחות הממוצע הוא כ־‪.(14‬‬
‫התפלגות פואסון‬ ‫‪2.3.4‬‬

‫הגדרה ‪ 2.3.23‬למשתנה המקרי המקבל ערכים ‪ 0, 1, 2, . . .‬יש התפלגות פואסון עם פרמטר‬
‫‪−λ k‬‬
‫‪ λ‬אם ‪ ;P (X = k) = e k!λ‬מסמנים )‪.X ∼ Poi(λ‬‬
‫‪e−λ λn‬‬
‫∞‪P‬‬
‫‪ .‬הדרכה‪ .‬טור‬ ‫‪n=0‬‬ ‫!‪n‬‬
‫תרגיל ‪ 2.3.24‬הוכח שזוהי אכן התפלגות‪ ,‬כלומר‪ ,‬ש־‪= 1‬‬
‫טיילור‪.‬‬
‫!‪n‬‬
‫‪. (n−k)!n‬‬ ‫למה ‪ 2.3.25‬לכל ‪k →1 ,k‬‬
‫נניח שמגדירים משתנים מקריים ) ‪) .Xn ∼ Bin(n, λn‬פירוש אפשרי‪ :‬מספר האגוזים‬
‫בטבלת שוקולד‪ ,‬כשבוחנים אותה ברזולוציה הולכת וגדלה(‪ .‬אז לפי למה ‪,2.3.25‬‬
‫)‪lim P (Xn = k) = P (Z = k‬‬

‫∞→‪n‬‬
‫כאשר )‪.Z ∼ Poi(λ‬‬
‫תרגיל ‪ 2.3.26‬מספר האנשים הנכנסים לבנק במשך שעה מתפלג פואסונית עם‬
‫תוחלת ‪ .λ‬כל אחד מהם משאיר את כרטיס הביקור שלו‪ .‬כמה זוגות אפשר‬
‫להרכיב מן הכרטיסים? כמה ‪k‬־יות סדורות?‬
‫!‪X‬‬
‫)הראה שאם )‪ X ∼ Poi(λ‬אז ‪(.E( (X−k)! ) = λk‬‬
‫טענה ‪ 2.3.27‬נניח ש־)‪ X ∼ Poi(λ‬ו־) ‪ Y ∼ Poi(λ′‬הם משתנים בלתי תלויים‪.‬‬
‫‪.X + Y ∼ Poi(λ + λ′ ) .1‬‬

‫‪λ‬‬
‫‪.Bin(n, λ+λ‬‬‫‪ .2‬ההתפלגות של ‪ X|X + Y = n‬היא בינומית ) ‪′‬‬
‫טענה ‪ 2.3.28‬פיצול של תהליך פואסון‪ :‬נניח ש־)‪ ,N ∼ Poi(λ‬ובהנתן ‪X ∼ ,N‬‬

‫)‪ .Bin(N, p‬נסמן ‪ .Y = N − X‬אז ‪ X, Y‬בלתי תלויים ובעלי התפלגות פואסון‪,‬‬
‫)‪.Y ∼ Poi(λq) ,X ∼ Poi(λp‬‬
‫‪52‬‬
‫הוכחה‪.‬‬
‫∞‬
‫‪X‬‬
‫= )‪P (X = k‬‬ ‫)‪P (X = k | N = n)P (N = n‬‬
‫‪n=k‬‬
‫ ∞‬
‫‪X‬‬ ‫‪n k n−k e−λ λn‬‬
‫=‬ ‫‪p q‬‬
‫‪n=k‬‬
‫‪k‬‬ ‫!‪n‬‬
‫∞‬
‫‪(λp)k −λ X 1‬‬ ‫‪(λp)k −λp‬‬
‫=‬ ‫‪e‬‬ ‫= ‪(λq)m‬‬ ‫; ‪e‬‬
‫!‪k‬‬ ‫‪m=0‬‬
‫!‪m‬‬ ‫!‪k‬‬
‫כלומר‪ .X ∼ Poi(λp) ,‬מאותה סיבה גם )‪ ,Y ∼ Poi(λq‬ואי־התלות נובעת מכך ש־‬
‫)‪P (X = k, Y = m) = P (X = k, N = k + m‬‬
‫)‪= P (X = k|N = k + m)P (N = k + m‬‬
‫‪k + m k m e−λ λk+m‬‬
‫‬ ‫‬
‫=‬ ‫‪p q‬‬
‫‪k‬‬ ‫!)‪(k + m‬‬
‫‪−λp‬‬ ‫‪k −λq‬‬
‫‪e (λp) e (λq)m‬‬
‫=‬ ‫‪= P (X = k)P (Y = m).‬‬
‫!‪k‬‬ ‫!‪m‬‬
‫‬
‫תרגיל ‪ 2.3.29‬במצב המתואר בטענה ‪ ,2.3.28‬חשב את )‪ .Cov(X, N‬תאר את‬

‫ההתפלגות של ‪ N‬בהנתן ‪.X‬‬
‫‪ .1‬נניח ש־ ‪ .λ < λ′‬מצא דרך להגדיר שני משתנים מקריים ‪X, X ′‬‬ ‫תרגיל ‪2.3.30‬‬
‫‪′‬‬ ‫‪′‬‬ ‫‪′‬‬
‫באופן ש־)‪ ,X ∼ Poi(λ ) ,X ∼ Poi(λ‬ותמיד ‪ .X ≤ X‬הדרכה‪ .‬העזר‬
‫בטענה ‪ .2.3.27‬טכניקה זו נקראת צימוד )‪.(coupling‬‬
‫‪ .2‬הסק שאם )‪ X ∼ Poi(λ‬ו־) ‪ X ′ ∼ Poi(λ′‬כאשר ‪ ,λ < λ′‬אז לכל ‪ n‬מתקיים‬

‫)‪.P (X ≥ n) < P (X ′ ≥ n‬‬
‫‪e−λ λk‬‬
‫∞ עולה עם ‪.λ‬‬
‫‪P‬‬
‫‪k=n‬‬ ‫!‪k‬‬
‫‪ .3‬הסק שלכל ‪ n‬הפונקציה‬
‫תרגיל ‪ 2.3.31‬שכנעו חבר שאת הטענה "כל כרטיס רביעי זוכה" אפשר לפרש‬
‫בשתי משמעויות שונות‪" :‬רבע מהכרטיסים זוכים" ו־"ארבעה כרטיסים )רצופים?(‬
‫מבטיחים זכיה"‪ .‬מה הסיכוי לזכיה בהגרלה שבה רבע מהכרטיסים זוכים‪ ,‬אם‬
‫קונים ארבעה כרטיסים? ומה קורה כשמחליפים בכל מקום את המספר ארבע‬
‫בארבעים? בארבע־מאות?‬
‫‪53‬‬
‫תרגיל ‪ 2.3.32‬מטילים חצים לעבר לוח שיש בו ‪ 1000000‬משבצות‪ .‬באחת מהן טמון‬
‫מגנט שבגללו הסיכוי לפגוע בה הוא ‪ ;0.01‬לשאר המשבצות סיכויים שווים‪ .‬זורקים‬
‫‪ 1000‬חצים‪ .‬חסום מלמטה את הסיכוי לכך שהמשבצת הממוגנטת היא זו שתקלוט‬
‫את מספר החצים הגדול ביותר‪.‬‬
‫תרגיל ‪ 2.3.33‬נניח שבכל סיבוב הגרלה נבחר מספר זוכה בין ‪ 1‬ל־‪ ,600‬בסיכויים‬
‫שווים‪.‬‬
‫‪ .1‬בכמה אפשר לשפר את הסיכויים לבחור את המספר שיזכה בסיבוב הבא‪,‬‬
‫אם נחכה לסיבוב ה־‪ 1800‬ואז נבחר מספרים שטרם עלו בגורל?‬
‫‪ .2‬האם יתכן שישארו מספרים שלא יעלו בגורל אחרי ‪ 2400‬סיבובים? )כן;‬
‫בסיכוי ‪.(99.98%‬‬
‫תרגיל ‪ 2.3.34‬בהמשך לתרגילים ‪ 2.1.11‬ו־‪ ,2.2.30‬מהי השונות של מספר נקודות‬

‫השבת )העזר במשתנים מציינים(‪ .‬מהי‪ ,‬בקירוב‪ ,‬התפלגות מספר נקודות השבת‬
‫של תמורה מקרית?‬
‫תרגיל ‪ 2.3.35‬מתווך דירות שרצה להראות עד כמה קשה מצב השוק‪ ,‬הדגים )ב־‬
‫‪" :(1.8.2011‬בחודש האחרון עשיתי רק עסקה אחת של שכירות ובחודש רגיל‬
‫אנחנו עושים שתיים־שלוש עסקות"‪.‬‬
‫לאיזו משפחה שייכת ההתפלגות של מספר העסקאות בחודש? מהו‪ ,‬להערכתך‪,‬‬
‫הפרמטר? עד כמה מפתיעה העובדה שדווקא בחודש מסויים התבצעה רק עסקה‬
‫אחת?‬
‫תרגיל ‪ 2.3.36‬שעור החולים בסרטן דם נדיר הוא אחד ל־‪) 5000‬אינדקס סיכון ‪.(12‬‬
‫איך מתפלג מספר החולים בבניין שגרים בו ‪ 100‬דיירים? מה הסיכוי שבבניין כזה‬
‫יחלו שלושה אנשים?‬
‫ברחוב החרובים ‪ 17‬במעלה־נחושתיים התגלו שלושה מקרים של המחלה‬
‫האמורה‪ .‬האם זו ראיה לכך שגורמים סביבתיים מיוחדים מזיקים לדיירי הבנין?‬
‫)הנח שבישראל כ־‪ 70, 000‬בניינים שבכל אחד מהם גרים כ־‪ 100‬דיירים‪(.‬‬
‫תרגיל ‪ 2.3.37‬על מרחב גדול ‪ W‬מגדירים פונקציה מקרית ‪ ;f : W →W‬כלומר‪,‬‬

‫כל ערך )‪ f (w‬הוא משתנה מקרי בעל התפלגות אחידה המקבל ערכים ב־ ‪,W‬‬
‫ומשתנים אלו בלתי תלויים‪ .‬איך מתפלג‪ ,‬בקירוב‪ ,‬מספר המקורות |)‪ ?|f −1 (w‬ואיך‬
‫מתפלג |)‪?|f −1 f (w‬‬
‫תרגיל ‪ 2.3.38‬בסקר שנערך בין מנתחים‪ ,‬הודו ‪ 20%‬מהם שניתחו במהלך הקרייריה‬
‫שלהם את הצד הלא נכון לפחות פעם אחת‪ .‬הסיכוי לשגיאה כזו הוא קבוע בכל‬
‫ניתוח‪ .‬כמה פעמים בממוצע עשה כל אחד מהטועים את השגיאה המדוברת‪ ,‬אם‪:‬‬
‫‪54‬‬
‫‪ .1‬נניח שכל מנתח עשה עד כה אותו מספר של ניתוחים‪.‬‬
‫‪ .2‬נניח‪ ,‬בניתוח מדוקדק יותר‪ ,‬שכל מנתח עורך אותו מספר ניתוחים במהלך‬
‫הקריירה שלו‪ ,‬אבל הנשאלים נסקרו בשלב אקראי )בעל התפלגות אחידה(‬
‫בקריירה‪.‬‬
‫תרגיל ‪ 2.3.39‬לפי משפט המספרים הראשוניים‪ ,‬ה"סיכוי" של מספר טבעי ‪ x‬להיות‬

‫ראשוני הוא ‪) log1 x‬ביתר דיוק‪ :‬אם )‪ π(x‬מסמן את מספר הראשוניים עד ‪ ,x‬אז‬
‫‪ .(π(x) ∼ logx x‬תן הצדקה היוריסטית להשערת גולדבך‪ ,‬שלפיה כל מספר זוגי‬
‫אפשר להציג כסכום של שני ראשוניים‪.‬‬
‫הדרכה‪ .‬הראה שמספר הדרכים להציג מספר טבעי ‪ x‬כסכום של שני ראשוניים עולה‬
‫)בקירוב היוריסטי( על ‪ . 2 logx 2 x‬בהנחה שמספר ההצגות מתפלג פואסונית‪ ,‬הסיכוי לכך‬
‫שאין הצגות הוא בקירוב ) ‪ .exp(− 2 logx 2 x‬האינטגרל על הערך הזה‪ ,‬מ־‪ 10000‬עד אינסוף‪,‬‬
‫קטן מ־ ‪.10−23‬‬
‫‪ 2.3.5‬התפלגות גאומטרית‬
‫אומרים ש־)‪ X ∼ G(p‬אם ‪ X‬הוא מספר הנסיונות עד להצלחה ראשונה בסדרת ניסויי‬
‫ברנולי שהסתברות ההצלחה שלהם ‪ .p‬אז ‪ ,k ≥ 1 ,P (X = k) = q k−1p‬כאשר‬
‫‪.q = 1 − p‬‬
‫כדי לבדוק שזו אכן התפלגות‪ ,‬יש לחשב‪:‬‬
‫∞‬
‫‪X‬‬ ‫‪p‬‬
‫= ) · · · ‪q k−1p = p(1 + q + q 2 +‬‬ ‫‪= 1.‬‬
‫‪k=1‬‬
‫‪1−q‬‬
‫‪q‬‬ ‫‪1‬‬
‫= )‪.V(X‬‬ ‫‪p2‬‬
‫ו־‬ ‫= )‪E(X‬‬ ‫‪p‬‬
‫טענה ‪ 2.3.40‬נניח ש־)‪ .X ∼ G(p‬אז‬
‫‪1‬‬
‫∞‪P‬‬ ‫‪1‬‬
‫∞‪P‬‬
‫= )‪ .h′ (x‬לכן‬ ‫‪(1−x)2‬‬
‫=‬ ‫‪n=0 nx‬‬
‫‪n−1‬‬
‫= )‪ ,h(x‬ונגזור‪:‬‬ ‫‪1−x‬‬
‫=‬ ‫‪n=0‬‬ ‫הוכחה‪ .‬נסמן ‪xn‬‬
‫∞‬ ‫∞‬
‫‪X‬‬
‫‪k−1‬‬
‫‪X‬‬ ‫‪p‬‬ ‫‪1‬‬
‫= )‪E(X‬‬ ‫‪kq‬‬ ‫‪p=p‬‬ ‫= ‪kq k−1‬‬ ‫‪2‬‬
‫; =‬
‫‪k=1‬‬ ‫‪k=0‬‬
‫)‪(1 − q‬‬ ‫‪p‬‬
‫‪2‬‬
‫∞‪P‬‬
‫= )‪ .h′′ (x‬לכן‬ ‫‪(1−x)3‬‬
‫=‬ ‫‪n=0 n(n‬‬ ‫נגזור שוב ונקבל ‪− 1)xn−2‬‬
‫∞‬ ‫∞‬
‫‪X‬‬ ‫‪X‬‬ ‫‪2pq‬‬ ‫‪2q‬‬
‫= ))‪E(X(X − 1‬‬ ‫‪k(k − 1)q k−1p = pq‬‬ ‫= ‪k(k − 1)q k−2‬‬ ‫=‬ ‫‪.‬‬
‫‪k=1‬‬ ‫‪k=1‬‬
‫‪(1 − q)3‬‬ ‫‪p2‬‬
‫‪55‬‬
‫מכאן ש־‬
‫‪V(X) = E(X 2 ) − E(X)2 = E(X(X − 1)) + E(X) − E(X)2‬‬
‫‪2q 1‬‬ ‫‪1‬‬ ‫‪2q + p − 1‬‬ ‫‪q‬‬
‫= ‪= 2+ − 2‬‬ ‫‪2‬‬
‫‪= 2.‬‬
‫‪p‬‬ ‫‪p p‬‬ ‫‪p‬‬ ‫‪p‬‬
‫‬
‫∞‪P‬‬ ‫‪n+k‬‬
‫‬
‫‪.‬‬ ‫‪n=0‬‬ ‫‪k‬‬
‫תרגיל ‪ 2.3.41‬נניח ש־ ‪ .|x| < 1‬הוכח ש־ )‪xn = (1 − x)−(k+1‬‬
‫טענה ‪ 2.3.42‬נניח ש־)‪ .X ∼ G(p‬אז לכל ‪ ,n‬ההתפלגות המותנית של ‪ X − n‬בהנתן‬

‫‪ X > n‬היא )‪ .G(p‬תכונה זו נקראת חוסר הזכרון של ההתפלגות הגאומטרית‪.‬‬
‫ציטוט ‪" 2.3.43‬כדי להבטיח ‪ ,‬למשל‪ ,‬זכייה בפרס הראשון בלוטו‪ ,‬בהנחה שממלאים אותו‬
‫בצירופים שונים פעמיים בחודש חמש טבלאות בכל פעם‪ ,‬יש למלא טופס במשך ‪ 112‬אלף‬
‫שנים!" )ד"ר ברי כינורי‪.(TheMarker Cafe, 25.7.2012 ,‬‬
‫תרגיל ‪ 2.3.44‬מה תוחלת מספר הנסיונות עד לפעם הראשונה שהופיעו בסדרה‬

‫‪1‬‬
‫‪. pq‬‬ ‫גם הצלחה וגם כשלון? הדרכה‪ .‬התשובה היא ‪− 1‬‬
‫תרגיל ‪ 2.3.45‬מתבוננים בסדרת ניסויי ברנולי בעלי הסתברות קבעוה‪ .p ,‬מן הניסוי‬
‫השני ואילך‪ ,‬מכריזים בכל פעם האם התוצאה "שווה" או "שונה" לתוצאה הקודמת‪.‬‬
‫מה הסיכוי לתוצאה "שונה" ברגע מסויים? מה הסיכוי לשתי הכרזות "שונה"‬
‫רצופות? האם ההכרזה בזמן ‪ n + 1‬תלויה בהכרזה בזמן ‪ ?n‬ומה לגבי ההכרזות‬
‫בזמן ‪ n + 2‬ו־‪?n‬‬
‫תרגיל ‪ 2.3.46‬תוחלת מספר ההגרלות עד לזכיה ראשונה בהגרלה היא ‪ .n‬הערך‬

‫את הסיכוי לזכות לפחות פעם אחת ב־‪ αn‬הגרלות )כאשר ‪.(α ≪ 1‬‬
‫‪ .1‬מטילים מטבע הוגן שוב ושוב‪ .‬מה אורכו הצפוי של הרצף‬ ‫תרגיל ‪2.3.47‬‬
‫)היינו‪ ,‬סדרת תוצאות זהות( שיתחיל בהטלה הבאה?‬
‫‪ .2‬הערך‪ :‬כמה רצפים יהיו בסדרה באורך ‪ 1000‬הטלות?‬
‫‪ .3‬מה יהיה אורכו של הרצף הארוך ביותר בסדרה של ‪ 1000‬הטלות? בצע‬
‫סימולציה ממוחשבת כדי לקבל את התפלגות הרצף הארוך ביותר‪ ,‬והשווה‬
‫אותה לתוצאות המוערכות‪.‬‬
‫תרגיל ‪ 2.3.48‬נניח ש־ ‪ X, Y‬מתפלגים גאומטרית‪ .Y ∼ G(p2 ) ,X ∼ G(p1 ) ,‬הראה‬

‫שההתפלגות של ‪ X‬בהנתן ‪ X = Y‬היא ) ‪.G(p1 + p2 − p1 p2‬‬
‫באופן כללי יותר‪ ,‬אם ) ‪ Xi ∼ G(pi‬הם משתנים בלתי תלויים עבור ‪,i = 1, . . . , n‬‬
‫אז ההתפלגות של ‪ X1‬בהנתן ‪ X1 = · · · = Xn‬היא )) ‪.G(1 − (1 − p1 ) · · · (1 − pn‬‬
‫‪56‬‬
‫תרגיל ‪ 2.3.49‬לניסוי שלוש תוצאות אפשריות‪ :‬הצלחה מלאה‪ ,‬הצלחה חלקית‪,‬‬

‫וכשלון‪ .‬הסיכוי להצלחה מלאה הוא ‪ ,p‬והסיכוי להצלחה חלקית הוא ‪ .δ‬חוזרים על‬
‫הניסוי עד להצלחה המלאה הראשונה‪ .‬נסמן ב־‪ X‬את מספר הנסיונות שנערכו‪,‬‬
‫וב־ ‪ Y‬את מספר הנסיונות )מתוכם( שלא נכשלו‪.‬‬
‫‪ .1‬מה ההתפלגות של ‪ ?X‬הדרכה‪ .‬כרגיל‪.X ∼ G(p) ,‬‬
‫הדרכה‪ .‬לכל ‪,1 ≤ k ≤ n‬‬ ‫ההתפלגות המשותפת של ‪.X, Y‬‬ ‫‪ .2‬כתוב את‬
‫‪n−1‬‬
‫‪(1 − δ − p)n−k δk−1 p‬‬
‫‬
‫= )‪.P (Y = k, X = n‬‬ ‫‪k−1‬‬
‫‪ .3‬מה ההתפלגות של ‪ ,X‬בהנתן שאף ניסוי לא נכשל? הדרכה‪ .‬המאורע "אף‬

‫ניסוי לא נכשל" הוא המאורע ‪ .X = Y‬כפי שראינו ‪,P (X = Y = n) = δn−1 p‬‬
‫‪δn−1 p‬‬
‫‪P (X = n|X = Y ) = P P(X=Y‬‬ ‫)‪=n‬‬ ‫‪p‬‬
‫ולכן ‪ .P (X = Y ) = 1−δ‬מכאן ש־= )‪(X=Y ) = p/(1−δ‬‬
‫‪1‬‬
‫‪.E(X|X = Y ) = 1−δ‬‬ ‫)‪ ,δn−1 (1 − δ‬כלומר‪ .X|X = Y ∼ G(1 − δ) ,‬בפרט‬
‫‪p‬‬
‫‪.Y ∼ G( p+δ‬‬ ‫‪ .4‬מה ההתפלגות של ‪ ?Y‬הדרכה‪) .‬‬
‫‪ .5‬מצא את ההתפלגות של ‪ Y‬בהנתן ‪ .X‬הדרכה‪.(Y − 1|X) ∼ Bin(X − 1, δ) .‬‬
‫‪ .6‬מצא את ההתפלגות של ‪ X‬בהנתן ‪) Y‬ראה תת־סעיף ‪ .(2.3.6‬הדרכה‪.‬‬

‫)‪.(X − Y |Y ) ∼ NB(Y, 1 − δ − p‬‬
‫‪ .7‬הסבר כיצד יתכן שההתפלגות של ‪ Y‬שונה מן ההתפלגות של ‪ X‬בהנתן‬

‫‪.X = Y‬‬
‫תרגיל ‪ 2.3.50‬שני שחקנים מתחרים בקליעה למטרה‪ .‬לראשון סיכויי הצלחה ‪,α‬‬
‫ולשני סיכויי הצלחה ‪) β‬נסיונות הקליעה בלתי תלויים במשותף(‪ .‬במשחק ראשון‬
‫קובעים שהמנצח הוא מי שנזקק לפחות נסיונות קליעה עד לפגיעה הראשונה )אם‬
‫שניהם נזקקו לאותו מספר נסיונות‪ ,‬מוכרז תיקו(‪ .‬במשחק השני שניהם מנסים‬
‫לקלוע‪ :‬אם אחד קלע וחברו החטיא‪ ,‬הוא מוכרז כמנצח‪ ,‬ואם שניהם קלעו מוכרז‬
‫תיקו‪ .‬אם שניהם החמיצו‪ ,‬מנסים שוב‪.‬‬
‫הראה שהסתברויות הנצחון שוות בין שני המשחקים‪.‬‬
‫טענה ‪ 2.3.51‬נניח ש־) ‪ .X ∼ G( 21‬מהי התוחלת של ‪ ?2X‬ושל ‪?(−1)X‬‬
‫בתאוריה כלכלית ותורת קבלת ההחלטות‪ ,‬מקובל לומר שאדם בוחר בין אלטרנטיבות‬
‫לפי זו שמביאה לו תוחלת גדולה יותר‪.‬‬
‫תרגיל ‪ 2.3.52‬מפעל הפיס מציע משחק חדש‪ :‬תמורת כרטיס בשווי ‪ 100‬שקל‪,‬‬
‫תזכה ב־ ‪ 2X‬שקלים‪ ,‬כאשר ) ‪ .X ∼ G( 12‬האם כדאי להשתתף במשחק? ]שאלה‬
‫זו קשורה ל'פרדוקס של סנקט פטרבורג'‪[.‬‬
‫‪57‬‬
‫תרגיל ‪ 2.3.53‬בהימורי ה''בראקט'' של כדורסל המכללות בארה"ב‪ ,‬מנחשים את‬

‫זהות המנצח בכל אחד מבין ‪ 63‬משחקים‪ ,‬וגובה הפרס תלוי במספר ההצלחות‬
‫הרצופות )מן המשחק הראשון ואילך‪ (.‬בזכות ידע מוקדם‪ ,‬הסיכוי לנחש כל משחק‬
‫אינו חצי אלא ‪ .60%‬עד היום נמכרו מליארד טפסי הימורים‪ .‬הערך מה מספר‬
‫ההצלחות הרצוף הגבוה ביותר שהושג בהם‪ .‬הדרכה‪ .‬התוצאה הטובה ביותר היא‬
‫בעלת סיכוי של כאחד למליארד‪ ,‬שהם ‪ ;0.6−40.7‬נצפה‪ ,‬אם כך‪ ,‬ל־‪ 40-41‬הצלחות‪.‬‬
‫תרגיל ‪ 2.3.54‬בעיית אוסף הקופונים‪ :‬חברה גדולה מפיצה מספר שווה של קופונים‬
‫מכל אחד מ־‪ n‬סוגים‪ .‬כמה קופונים צריך אדם לאסוף‪ ,‬בתוחלת‪ ,‬על־מנת להרכיב‬
‫אוסף שיש בו לפחות קופון אחד מכל סוג? נסו להעריך כמה עליו לאסוף כדי‬
‫להחזיק לפחות שני קופונים מכל סוג‪.‬‬
‫תרגיל ‪ 2.3.55‬ב"משחק החיים" המשימה היא להתקל באקראי במכונית ששלוש‬

‫הספרות האמצעיות של מספר הרישוי שלה הן ‪ ,000‬אחר־כך במכונית שהספרות‬
‫שלה הן ‪ ,001‬וכן הלאה על ‪ ,999‬לפי סדר‪ .‬בכמה מספרי מכוניות יש להבחין כדי‬
‫להשלים את המשחק‪ ,‬בתוחלת? מה שונות משך המשחק?‬
‫תרגיל ‪ 2.3.56‬במשחק הקוביות ‪ Craps‬מטילים בכל פעם זוג קוביות‪ ,‬ומחשבים את‬
‫סכומן‪ .‬מן הערכים הקיצוניים ‪ 2, 3, 11, 12‬מתעלמים לחלוטין‪ .‬המשחק מורכב‬
‫מסדרת משחקונים‪ ,‬שבכל אחד מהם הכללים זהים‪ :‬בפתיחת המשחקון מטילים‬
‫את הקוביה עד שמתקבל הערך הראשון מהקבוצה ‪ .4, 5, 6, 8, 9, 10‬בשלב השני‬
‫של המשחקון‪ ,‬מטילים את הקוביות עד שמתקבל אחד משני סכומים‪ :‬אם מתקבל‬
‫הערך שנקבע בפתיחה‪'' ,‬זוכים'' בו‪ ,‬ומתחילים את המשחקון הבא‪ .‬אם מתקבל ‪,7‬‬
‫המשחק מסתיים‪.‬‬
‫‪ .1‬נניח שבפתיחת המשחקון נקבע הערך ‪ .4‬מה הסיכוי לכך שמשחקון זה‬
‫יסתיים בזכיה?‬
‫‪ .2‬מה הסיכוי לכך שמשחקון נתון יסתיים בזכיה?‬

‫‪ .3‬משחקון מסויים הסתיים בזכיה‪ .‬מהם הסיכויים לכך שהערך הזכוי הוא ‪?4‬‬
‫כמה משחקונים מתקיימים‬ ‫‪ .4‬מה התפלגות מספר המשחקונים במשחק?‬

‫במשחק‪ ,‬בתוחלת?‬
‫‪ .5‬מה הסיכוי לכך שהשחקן יזכה בערך ‪ 4‬במהלך משחק?‬
‫‪ .6‬כתוב סימולציה ממוחשבת שתעריך את הסיכוי לכך שהשחקן יזכה במהלך‬

‫משחק בכל ששת הערכים האפשריים‪) .‬התשובה היא כ־‪ 1‬ל־‪(.6100‬‬
‫הטענה הבאה שימושית בחישוב תוחלת של זמני המתנה‪:‬‬
‫‪58‬‬
‫הוכח ש־‬ ‫טענה ‪ 2.3.57‬יהי‪ XP‬משתנה מקרי המקבל ערכים שלמים חיוביים‪.‬‬
‫∞ = )‪.E(X‬‬
‫)‪n=0 P (X ≥ n‬‬
‫∞‬
‫‪X‬‬ ‫‪∞ X‬‬
‫‪X‬‬ ‫∞‬
‫= )‪P (X ≥ n‬‬ ‫)‪P (X = k‬‬
‫‪n=0‬‬ ‫‪n=0 k=n‬‬
‫‪∞ X‬‬
‫‪X‬‬ ‫‪k‬‬
‫=‬ ‫)‪P (X = k‬‬
‫‪k=0 n=0‬‬
‫∞‬
‫‪X‬‬
‫=‬ ‫‪kP (X = k) = E(X).‬‬
‫‪k=0‬‬
‫‬
‫‪ ,x1 , xP‬הראה שהמכפלה האינסופית‬ ‫‪Q‬עבור מספרים חיוביים ‪2 , . . .‬‬ ‫‪.1‬‬ ‫תרגיל ‪2.3.58‬‬
‫‪x‬‬ ‫∞‬
‫מתכנס‪ .‬הדרכה‪.x ≤ (1+x) ≤ e .‬‬ ‫) ‪ n=1 (1+xi‬מתכנסת אם ורק אם ‪xi‬‬
‫∞ אם ורק אם‬
‫‪P yi‬‬ ‫‪Q‬‬
‫‪1−yi‬‬ ‫‪ P‬הראה ש־‪i=1 (1 − yi ) > 0‬‬ ‫‪ .2‬נניח ש־ ‪ y1 , y2 , . . .‬חיוביים‪.‬‬
‫מתכנס‪.‬‬ ‫מתכנס‪ ,‬אם ורק אם ‪yi‬‬
‫תרגיל ‪ 2.3.59‬מבצעים סדרת ניסויים בלתי תלויים‪ ,‬כך שההסתברות להצלחה‬

‫בניסוי ה־‪ ,n‬אם הוא מתרחש‪ ,‬היא ‪ .(qn = 1 − pn ) pn‬נסמן ב־ ‪ T‬את מספר‬
‫הניסויים עד להצלחה הראשונה )ו־∞ = ‪ T‬אם ההצלחה לעולם אינה מגיעה(‪.‬‬
‫‪ .1‬הראה ש־ ‪ ,P (T ≥ n) = q1 · · · qn‬וש־ ‪.P (T = n) = q1 · · · qn−1 pn‬‬
‫‪ .2‬אם ‪ pn = p‬הוא קבוע‪ ,‬אז )‪.T ∼ G(p‬‬
‫∞ ‪.‬‬
‫‪Q‬‬
‫‪ P‬לכן הסיכוי להצלחה‬ ‫‪ .3‬הסיכוי לכשלון בכל סדרת הניסויים הוא ‪n=1 qn‬‬
‫בשלב )סופי( כלשהו הוא ‪ 1‬אם ורק אם ∞ = ‪ . pn‬הדרכה‪ .‬תרגיל ‪.2.3.58‬‬
‫‪ .4‬בכד יש ‪ a‬כדורים לבנים וכדור אחד שחור‪ .‬בכל שלב מוציאים כדור‬
‫באקראי; אם הכדור לבן‪ ,‬זוהי הצלחה‪ ,‬והניסוי מסתיים‪ .‬אחרת‪ ,‬מוסיפים לכד‬
‫כדור שחור אחד‪ ,‬וממשיכים בסדרה‪.‬‬
‫)א( הראה שלכל ‪ ,a ≥ 1‬ההצלחה )בשלב סופי כלשהו( מובטחת‪.‬‬

‫‪1‬‬
‫= ) ‪ .E(T‬הדרכה‪ .‬העזר‬ ‫‪a−1‬‬
‫)ב( אם ‪ a = 1‬אז ∞ = ) ‪ ;E(T‬וכאשר ‪,a > 1‬‬
‫בטענה ‪.2.3.57‬‬
‫‪59‬‬
‫התפלגות בינומית שלילית‬ ‫‪2.3.6‬‬

‫יהי ‪ .r ≥ 1‬נסמן ב־‪ X‬את מספר ההצלחות בסדרת ניסויי ברנולי בלתי תלויים בעלי‬
‫הסתברות הצלחה ‪ ,p‬עד לכשלון ה־‪r‬־י‪ .‬על־מנת שהכשלון ה־‪r‬־י יחול לאחר ‪ k‬הצלחות‪,‬‬
‫עליו להתרחש בנסיון ה־‪ ,r + k‬כשמתוך ‪ r + k − 1‬הנסיונות הקודמים יש בדיוק ‪r − 1‬‬
‫‬ ‫‬ ‫כשלונות‪ .‬לפיכך‬
‫‪k+r−1 r k‬‬
‫= )‪P (X = k‬‬ ‫‪q p ,‬‬
‫‪k‬‬
‫לכל ‪ .k ≥ 0‬את ההתפלגות מסמנים ב־)‪ .X ∼ NB(r, p‬היא נקראת בינומית שלילית‬
‫ ‬ ‫משום ש־‬
‫‪−r‬‬ ‫‪k r‬‬
‫= )‪P (X = k‬‬ ‫‪(−p) q‬‬
‫‪k‬‬
‫)‪. xk = x(x−1)···(x−k+1‬‬
‫‬
‫!‪k‬‬
‫כאשר לכל ‪ x ∈ R‬מסמנים‬
‫דוגמא ‪ 2.3.60‬אם ‪ ,r = 1‬אז ‪ ,P (X = k) = qpk‬כלומר ‪.NB(1, p) = G(q) − 1‬‬
‫∞‪P‬‬
‫‪ . n=0 n+r‬הדרכה‪ .‬עיין‬
‫‪n‬‬
‫‪r‬‬
‫תרגיל ‪ 2.3.61‬יהי ‪ r‬מספר טבעי‪ .‬הראה ש־ ‪t = (1 − t)−r‬‬
‫בהתפלגות הבינומית השלילית; או הוכח באינדוקציה על ‪ r‬על־ידי גזירת הטור‪.‬‬
‫אפשר לכתוב את ‪ X‬כסכום של משתנים גאומטריים‪ :‬נסמן ב־ ‪ Yi‬את מספר‬

‫ההצלחות בין הכשלון ה־)‪ (i−1‬לכשלון ה־‪ .i‬אז )‪ ,Yi + 1 ∼ G(q‬ו־ ‪.X = Y1 + · · ·+ Yr‬‬
‫כך אפשר לחשב תוחלת ושונות‪:‬‬
‫‪rp‬‬ ‫‪rp‬‬
‫‪E(X) = ,‬‬ ‫‪V(X) = 2 .‬‬
‫‪q‬‬ ‫‪q‬‬
‫תרגיל ‪ 2.3.62‬נניח ש־)‪ X1 , X2 , · · · ∼ G(p‬הם משתנים בלתי תלויים‪ .‬נסמן = ‪Sr‬‬

‫‪.P (Sr = n) = n−1‬‬
‫‪n−r‬‬
‫‪ .X1 + · · · + Xr‬הראה שלכל ‪pr q n−r ,n ≥ r‬‬
‫תרגיל ‪ 2.3.63‬נסמן ב־ ‪ T‬את מספר הרצפים בסדרה של ‪ n‬משתני ברנולי ) ‪) b( 12‬למשל‪,‬‬

‫מספר הרצפים בסדרה ‪ 0011110‬הוא ‪ ;3‬סופרים גם את הרצף ש'לא הסתיים'(‪ .‬חשב את‬
‫ההתפלגות של ‪ .T‬פתרון‪ .‬אורכו של הרצף ה־‪ i‬הוא ) ‪ .Xi ∼ G( 12‬נסמן ‪,St = X1 + · · · + Xt‬‬
‫∞ = )‪.P (T < t) = P (St−1 ≥ n‬‬ ‫‪i−1‬‬
‫‪P‬‬ ‫‪ −i‬‬
‫‪i=n i−t+1 2‬‬ ‫אז ‪ T < t‬אם ורק אם ‪ .St−1 ≥ n‬לכן‬
‫]ראו טענה ‪ 2.6.31‬לבעיה דומה שבה החישובים מסתדרים טוב יותר‪[.‬‬
‫‪1‬‬
‫‪p‬‬
‫תרגיל ‪ 2.3.64‬מספר העכברים באסם‪ ,‬ועוד אחד‪ ,‬מתפלג גאומטרית עם תוחלת‬
‫)כך שהסיכוי שאין עכברים הוא ‪ .(p‬הסיכוי של כל עכבר להתפס במלכודת הוא‬
‫‪) α‬נסמן ‪.(β = 1 − α‬‬
‫כלומר‪ ,‬אם ‪ S‬הוא מספר העכברים באסם ו־‪ X‬מספר העכברים שנתפסו‪ ,‬אז‬
‫)‪ S + 1 ∼ G(p‬ו־)‪.X|S ∼ Bin(S, α‬‬
‫‪60‬‬
‫תשובה‪.‬‬ ‫‪ .1‬מצא את ההתפלגות של מספר העכברים שנתפסו‪ ,‬ואת התוחלת‪] .‬‬

‫‪ ;X + 1 ∼ G( 1−βq‬לכן ‪[.E(X) = qαp‬‬
‫‪p‬‬
‫ההתפלגות גאומטרית‪) :‬‬
‫‪ .2‬נניח שנתפסו ‪ X = k‬עכברים‪ .‬מה ההתפלגות של המשתנה ‪Y = S − X‬‬

‫הסופר כמה עכברים לא נתפסו? ]תשובה‪ .‬ההתפלגות היא בינומית שלילית‪[.Y |X ∼ NB(X + 1, qβ) :‬‬
‫‪[.E(Y |X) = (X+1)qβ‬‬
‫‪1−qβ‬‬
‫והתוחלת? ]תשובה‪.‬‬
‫‪[.Y + 1 ∼ G( βq+p‬‬ ‫‪ .3‬מה ההתפלגות של ‪] ?Y = S − X‬תשובה‪ .‬גאומטרית‪) :‬‬

‫‪p‬‬
‫‪ .4‬הסבר מדוע החקלאי מקווה לתפוס כמה שפחות עכברים‪ ,‬למרות שכל‬
‫עכבר שנתפס הוא עכבר אחד פחות המכרסם את התבואה‪.‬‬
‫‪ .5‬מצא את השונות המשותפת ) ‪] .Cov(X, Y‬תשובה‪[.Cov(X, Y ) = αβ(q/p)2 .‬‬
‫תרגיל ‪) 2.3.65‬בעיית הגפרורים( לסטטיסטיקאי ‪ n‬גפרורים בכל כיס‪ .‬כשעולה צורך‪,‬‬
‫הוא שולף גפרור באקראי מאחד הכיסים‪ .‬חשב את התפלגות מספר הגפרורים‬
‫שנותרו לו‪ ,‬כשהוא מרוקן את אחד הכיסים בפעם הראשונה‪.‬‬
‫)הכלליות אינה מוסיפה לקושי‪ ,‬ולכן אפשר להניח שיש לסטטיסטיקאי ‪ m‬גפרורים‬
‫בכיס הימני‪ ,‬ו־‪ n‬בשמאלי; ושהסיכוי לפנות לכיס ימין הם ‪ ,p‬לעומת ‪ q = 1 −p‬לגשת‬
‫לכיס שמאל‪(.‬‬
‫‪ .1‬נניח שהסטטיסטיקאי ממשיך לגשת אל הכיסים באקראי עד ששניהם מתרוקנים‪.‬‬
‫נסמן ב־ ‪ XR‬את מספר הפניות לכיס ימין עד לפניה ה־‪n‬־ית לכיס שמאל‪,‬‬
‫וב־ ‪ XL‬את מספר הפניות לכיס שמאל עד לפניה ה־‪m‬־ית לכיס ימין‪ .‬הוכח‬
‫שמתקיים בדיוק אחד משני התנאים ‪ XL < n‬או ‪.XR < m‬‬
‫‪ .2‬הראה ש־)‪ XL ∼ NB(n; p‬ו־)‪.XR ∼ NB(m; q‬‬
‫‪ .3‬נסמן ב־ ‪ Y‬את מספר הגפרורים שנותרו בכיס השני‪ ,‬כשהראשון מתרוקן‪.‬‬
‫הראה ש־ ‪ Y = m − XR‬אם ‪ XL = n‬ו־ ‪ Y = n − XL‬אם ‪.XR = m‬‬
‫‪ .4‬הסק משני הסעיפים הקודמים ש־‬
‫‬ ‫‬ ‫‬ ‫‬
‫‪n + m − k − 1 n−k m‬‬ ‫‪n + m − k − 1 n m−k‬‬
‫= )‪P (Y = k‬‬ ‫‪p q +‬‬ ‫‪p q‬‬ ‫‪,‬‬
‫‪m−1‬‬ ‫‪n−1‬‬
‫לכל }‪ .1 ≤ k ≤ max {n, m‬בפרט‪ ,‬אם ‪ n = m‬ו־‪ ,p = q‬אז = )‪pn,n (k‬‬
‫‪. 2n−1−k‬‬
‫‪n−1‬‬
‫‪2k−2n‬‬
‫‪ .5‬נסמן ב־)‪ pn,m (k‬את הסיכוי ש־‪ Y = k‬כשמתחילים מכיסים שיש בהם‬
‫‪ n, m‬גפרורים‪ .‬הראה באמצעות נוסחת ההסתברות השלמה ש־= )‪pn,m (k‬‬
‫)‪ ,ppn,m−1 (k) + qpn−1,m (k‬ובדוק שהנוסחה שהתקבלה לעיל מקיימת תנאי‬
‫זה‪.‬‬
‫‪61‬‬
‫‪ .6‬איך היתה משתנה ההתפלגות‪ ,‬אם במקום לדבר על מספר הגפרורים שיש‬
‫לסטטיסטיקאי בזמן שהוא מרוקן את הכיס הראשון‪ ,‬היינו מעוניינים במספר‬
‫הגפרורים שיש לו כשהוא מגלה כיס ריק בפעם הראשונה?‬
‫התפלגות היפרגאומטרית‬ ‫‪2.3.7‬‬

‫תרגיל ‪ 2.3.66‬נניח ש־)‪ ,Y ∼ Bin(m, p) ,X ∼ Bin(n, p‬בלתי תלויים‪ .‬חשב את‬
‫ההתפלגות של ‪ X‬בהנתן ‪.X + Y = N‬‬
‫אומרים ש־)‪ X ∼ Hyp(n; A, B‬אם ‪ X‬מספר האדומים בבחירת ‪ n‬כדורים משק‬
‫שיש בו ‪ N = A + B‬כדורים‪ ,‬מהם ‪ A‬אדומים ו־‪ B‬אחרים‪ .‬הדגימה כאן היא ללא‬
‫החזרה‪.‬‬
‫תרגיל ‪ 2.3.67‬הראה שאם הדגימה היתה עם החזרה‪ ,‬היינו מקבלים התפלגות ∼ ‪X‬‬
‫‪A‬‬
‫‪.Bin(n, N‬‬ ‫)‬
‫הדגימה שלנו היא‪ ,‬כאמור‪ ,‬ללא החזרה‪ .‬המאורע ‪ X = a‬מתרחש כשבוחרים ‪a‬‬
‫מתוך ‪ A‬הכדורים האדומים ו־‪ n − a‬מתוך ‪ B‬הכדורים הכחולים‪ ,‬ולכן‬
‫‪A‬‬
‫ ‪ B‬‬
‫‪a‬‬ ‫‪n−a‬‬
‫= )‪P (X = a‬‬ ‫‪N‬‬
‫‬ ‫‪.‬‬
‫‪n‬‬
‫‪PA‬‬ ‫‪A‬‬
‫‬ ‫‪B‬‬
‫‬ ‫‪N‬‬
‫‬
‫‪.‬‬ ‫‪a=0‬‬ ‫‪a‬‬ ‫‪n−a‬‬
‫=‬ ‫‪n‬‬
‫תרגיל ‪ 2.3.68‬תן הסבר קומבינטורי לכך ש־‬
‫את התוחלת אפשר לחשב באמצעות משתנים מציינים ‪ ,X1 , . . . , Xn‬המוגדרים כך‬
‫‪A‬‬
‫‪ E(Xi ) = A+B‬לכל ‪ .i‬המשתנים‬ ‫ש־‪ Xi = 1‬אם ורק אם הכדור ה־‪ i‬הוא אדום‪ .‬כך‬
‫‪nA‬‬
‫‪ Xi‬תלויים זה בזה‪ ,‬ובכל־זאת ל־ ‪ X = X1 + · · · + Xn‬יש תוחלת ‪ .E(X) = N‬מכיוון‬
‫‪.V(X) = nAB(N‬‬ ‫)‪−n‬‬
‫)‪N 2 (N −1‬‬
‫‪ ,Cov(Xi , Xj ) = N 2−AB‬ולכן‬
‫)‪(N −1‬‬
‫)‪,E(Xi Xj ) = NA(A−1‬‬
‫)‪(N −1‬‬
‫ש־‬
‫הערה ‪ 2.3.69‬תהי ‪ Ω‬קבוצה סופית‪ ,‬ותהי ‪ .S ⊆ Ω‬אם מגרילים קבוצה ‪ T ⊆ Ω‬בגודל ‪,n‬‬
‫אז )|‪.|S ∩ T | ∼ Hyp(n; |S|, |Ω| − |S‬‬
‫אין צורך להניח שקבוצה אחת קבועה במקומה‪ :‬תהי ‪ Ω‬קבוצה סופית‪ .‬אם מגרילים‬
‫קבוצות ‪ S, T ⊆ Ω‬כך ש־‪ ,|T | = m ,|S| = n‬אז )‪.|S ∩ T | ∼ Hyp(n; m, |Ω| − m‬‬
‫מן התאור האחרון עולה שההתפלגויות )‪.Hyp(A; n, A + B − n) ,Hyp(n; A, B‬‬
‫בדומה לזה‪ ,‬אם )‪ X ∼ Hyp(n; A, B‬אז מספר הכדורים הכחולים הוא ‪,n − X‬‬
‫שהתפלגותו )‪.Hyp(n; B, A‬‬
‫אם ‪ N‬גדול מאד‪ ,‬ההבדל בין דגימה עם החזרה לדגימה בלי החזרה הולך ומטשטש‪.‬‬
‫‪A‬‬
‫‪Hyp(n; θA, θB)→Bin(n, A+B‬‬ ‫תופעה זו מודגמת כאשר משכפלים את הרכב הכד‪) :‬‬
‫כש־∞→‪.θ‬‬
‫‪62‬‬
‫תרגיל ‪ 2.3.70‬בכד יש ‪ N = A+B +C‬כדורים‪ ,‬בשלושה צבעים‪ .‬נסמן ב־)‪(X, Y, Z‬‬

‫את מספר הכדורים בכל צבע כשבוחרים ‪ n‬כדורים‪.‬‬
‫‪.Y ∼ Hyp(n; B, A + C) ,X ∼ Hyp(n; A, B + C) .1‬‬
‫‪.X + Y ∼ Hyp(n; A + B, C) .2‬‬
‫‪ .3‬חשב את ) ‪.Cov(X, Y‬‬
‫רעיון ‪ 2.3.71‬מספר הדגים באגם קטן אינו ידוע‪ .‬דגים ‪ 1000‬דגים‪ ,‬ומסמנים להם את‬
‫הסנפיר‪ .‬אחרי שבוע דגים שוב ‪ 1000‬דגים‪ .‬נמצאו ‪ 17‬דגים מסומנים‪ .‬הערך את מספר‬
‫הדגים באגם?‬
‫)את השיטה הזו אפשר להפעיל גם קצת אחרת‪ ,‬אם מוסיפים לאגם ‪ 1000‬דגים‬
‫מסומנים‪(.‬‬
‫תרגיל ‪ 2.3.72‬הפרופסור קטרוס שופך לים התיכון כוס של מים סגולים‪ .‬המים‬
‫מתערבבים היטב‪ .‬הערך כמה מולקולות של מים כאלה יהיו בכוס מי ים לאחר‬
‫זמן‪) .‬שטח הים התיכון כ־‪ 2.5‬מליון קמ"ר; עמקו הממוצע כ־‪ 1500‬מ'; נפח הכוס‬
‫כ־‪ 200‬סמ"ק; המשקל האטומי של מים הוא ‪ ;18‬מספר אבוגדרו מוערך ב־ ‪.(6 · 1023‬‬
‫תרגיל ‪ 2.3.73‬בחודש פברואר ‪ 2011‬פגע רעש אדמה בעיר קרייסטצ'רץ' שבניו־‬

‫זילנד‪ ,‬שבה ‪ 390000‬תושבים‪ .‬ברעש נפגעו כ־‪ 100‬אנשים‪ .‬בעיר שהו בעת הרעש‬
‫כ־‪ 200‬ישראלים‪ .‬לכמה נפגעים ישראלים היית מצפה?‬
‫תרגיל ‪ 2.3.74‬במחלקות שונות במפעל יש ‪ 2, 3, 2, 4, 1, 2‬עובדים העונים לקריטריונים‬

‫לפרס מסויים‪ ,‬שיזכו בו ארבעה‪ .‬בסופו של דבר זוכים בפרס ‪1, 1, 2, 0, 0, 0‬‬
‫מועמדים ממחלקות אלה‪ ,‬בהתאמה‪ .‬חשב את הסיכויים לכך שכך יהיה במקרה‪.‬‬
‫תרגיל ‪ 2.3.75‬לאחרונה דווח ) ‪ (www.haaretz.co.il/hasite/spages/1236742.html‬ש"חוקרים ישראלים‬

‫גילו חומר המונע פוסט־טראומה"‪" :‬מחקר ראשוני שבוצע באחרונה בחדר המיון‬
‫במרכז הרפואי שיבא בקרב ‪ 24‬נפגעי תאונות דרכים שהראו סימני חרדה במיון‪,‬‬
‫מצא כי בקרב ‪ 12‬נבדקים שטופלו בהורמון קורטיזול‪ ,‬אחד בלבד פיתח פוסט־‬
‫טראומה‪ ,‬בהשוואה לשלושה בקרב ‪ 12‬הנבדקים שלא טופלו בהורמון וקיבלו טיפול‬
‫דמה"‪ .‬מהו הסיכוי לתוצאה שהתקבלה בניסוי‪ ,‬אם החומר אינו משפיע כלל?‬
‫תרגיל ‪ 2.3.76‬עורכים סדרה של ‪ n‬ניסויי ברנולי בלתי תלויים בעלי סיכוי הצלחה חצי‪.‬‬
‫אחר־כך מבצעים סדרה דומה של ניסויים‪ ,‬באותו אורך‪ .‬מה הסיכויים לכך שבשתי הסדרות‬
‫יהיה אותו מספר הצלחות? הדרכה‪ .‬נסמן את מספרי ההצלחות ב־ ‪ .X, Y‬מכיוון ש־∼ ‪X, Y‬‬
‫‪Pn‬‬ ‫‪n 2 −2n‬‬ ‫‪Pn‬‬ ‫‪n‬‬ ‫‪n‬‬ ‫‪2n‬‬ ‫‪√1‬‬
‫‪= 2−2n‬‬ ‫‪= 2−2n‬‬
‫‬ ‫‬ ‫‬ ‫‬
‫= ) ‪.P (X = Y‬‬ ‫‪k=0 k 2‬‬ ‫‪k=0 k‬‬ ‫‪n−k‬‬ ‫‪n‬‬ ‫≈‬ ‫‪πn‬‬
‫)‪,Bin(n, p‬‬
‫‪63‬‬
‫פרדוקס יום ההולדת‬

‫'''פרדוקס יום ההולדת''' הוא כינוי לתופעה מפתיעה‪ :‬כבר בקבוצה של ‪ 23‬אנשים‬
‫)שתאריכי הלידה שלהם מתפלגים באופן אחיד ובלתי תלוי על ‪ 365‬הימים האפשריים(‪,‬‬
‫הסיכוי לכך ששניים חולקים יום־הולדת משותף עולה על ‪ .50%‬עובדה זו נדמית‬
‫כפרדוקס‪ ,‬משום ש־‪ 23‬הוא מספר קטן ביחס ל־‪ .365‬נציג כמה דרכים לנתח את‬
‫התופעה‪.‬‬
‫טענה ‪ 2.3.77‬יהיו ]‪ X1 , . . . , Xm ∼ U[1, m‬משתנים מקריים בדידים בלתי תלויים‪.‬‬

‫)‪m(m−1‬‬
‫ה־ ‪Xi‬־ים שונים זה מזה קטן מ־ ‪ ,e− 2n‬ולכן יורד מתחת לחצי‬ ‫הסיכוי לכך שכל ‪p‬‬
‫כאשר ‪.m ≈ 2 log(2) n‬‬
‫הוכחה‪ .‬כידוע‪ e−x ≥ 1 − x ,‬לכל ‪ x‬ממשי‪ .‬הסיכוי שווה למכפלה‬
‫‪p = 1 · 1 − n1 · 1 − n2 . . . 1 − m−1‬‬
‫‬ ‫‬ ‫‬
‫‪n‬‬
‫‪1‬‬ ‫‪2‬‬ ‫‪m−1‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫‪m−1‬‬ ‫)‪m(m−1‬‬
‫‪< e− n · e− n · · · · · e−‬‬ ‫‪n‬‬ ‫‪= e−( n + n +···+‬‬ ‫‪n‬‬
‫)‬
‫‪= e−‬‬ ‫‪2n‬‬ ‫‪.‬‬
‫‬
‫עבור ‪ ,n = 365‬הסיכוי שלא תהיה אף התנגשות יורד מתחת לחצי כאשר ‪,m ≥ 23‬‬
‫ואכן החסם בטענה ‪ 2.3.77‬הוא ‪.m ≈ 22.5‬‬
‫אם מחשבים במקום זה את תוחלת מספר ההתנגשויות מקבלים תוצאה מאותו סדר‬
‫גודל‪ ,‬עם קבוע מעט שונה‪:‬‬
‫הערה ‪ 2.3.78‬נסמן )עבור ‪ (i < j‬ב־ ‪ ∆ij‬את המשתנה המקרי המציין‪P‬את המאורע‬
‫‪ .Xi = Xj‬אז ) ‪ ,∆ij ∼ b( n1‬ולכן התוחלת של מספר ההתנגשויות ‪ X = i<j ∆ij‬היא‬
‫√‬
‫‪ . n1 m2‬כדי שהתוחלת תגיע ל־‪ 1‬נדרש ‪.m ≈ 2n‬‬
‫‬
‫תרגיל ‪ 2.3.79‬הראה שהמשתנים ‪ ∆ij‬בלתי־תלויים בזוגות‪ .‬מצא תנאי על האינדקסים‬

‫לכך ששלושה משתנים מקבוצה זו יהיו תלויים‪ .‬הצע פירוש בשפה של תורת‬
‫הגרפים לתלות של קבוצה כלשהי של משתנים‪.‬‬
‫להגדיר } ‪ – T = minj {∃i < j : Xi = Xj‬זמן ההמתנה להתנגשות‬

‫הערה ‪ 2.3.80‬אפשר ‪p πn‬‬
‫≈ ) ‪.E(T‬‬ ‫‪2‬‬
‫הראשונה‪ .‬מתברר ש־‬
‫√‬
‫את זמן ההמתנה להתנגשות הראשונה‪ ,O( n) ,‬יש להשוות לזמן עד למילוי כל‬
‫התאים‪ ,‬שחושב בתרגיל ‪ 2.3.54‬להיות ))‪.O(n log(n‬‬
‫תרגיל ‪ 2.3.81‬הערך‪ ,‬מה מספר האנשים שממנו והלאה הסיכוי ששלושה יחלקו יום‬
‫הולדת משותף עולה על ‪?50%‬‬
‫‪64‬‬
‫הערה ‪ 2.3.82‬בלוטו הישראלי בוחרים ‪ 6‬מספרים מתוך ‪) 37‬נתעלם מן 'המספר הנוסף'(‪.‬‬

‫באוקטובר ‪ 2010‬התקבלו בדיוק אותם המספרים שהתקבלו שמונה הגרלות קודם לכן‪ .‬חשב‬
‫את הסיכוי לאירוע )מהו לדעתך ה'אירוע' הרלוונטי?(‪.‬‬
‫באותו אירוע היו גם חזרות על מספרים; למשל‪ ,‬המספר ‪ 14‬חזר ‪ 6‬פעמים בשמונה‬
‫הגרלות )זהו אירוע מסובך שקשה לחשב את ההסתברות שלו באופן ישיר‪ .‬לפי תוצאות‬
‫סימולציה‪ ,‬הסיכוי לזה בשמונה הגרלות שהוגדרו מראש הוא כ־‪.(1:800‬‬
‫מתברר שהסיכוי לכך שיופיעו בהגרלה נתונה לפחות שני מספרים עוקבים הוא ‪;61%‬‬
‫בכתבה ב־‪ Ynet‬מסביר אחד המהמרים הכבדים ש"הנטייה של מספרים עוקבים לחזור היא‬
‫גדולה מאוד‪ ,‬פרט שאינו מסתדר סטטיסטית בשום אופן"‪.‬‬
‫תרגיל ‪ 2.3.83‬לכל משתתף בכנס מייצרים מספר אישי אקראי‪ ,‬בטווח ]‪ .[1, d‬אם‬
‫משתתפים בכנס ‪ n‬אנשים‪ ,‬מה צריך להיות ‪ d‬כך שהסיכוי להתנגשות יהיה נמוך‬
‫למדי? ואם משתמשים באותה שיטה )עם אותו ‪ (d‬ב־‪ t‬כנסים שונים‪ ,‬כאשר החשש‬
‫מהתנגשות הוא רק בין המשתתפים של אותו כנס?‬
‫תרגיל ‪ 2.3.84‬מייצרים ‪ 3000‬שמות אקראיים לקבצים במערכת יוניקס‪ .‬כל שם‬

‫מורכב משבע אותיות אנגליות הנבחרות באקראי )באופן בלתי תלוי ובהתפלגות‬
‫אחידה( מכל ‪ 26 · 2 = 52‬האפשרויות )מערכת ההפעלה הזו מבחינה בין אותיות‬
‫גדולות וקטנות(‪ .‬אחר־כך מעתיקים את כל הקבצים למערכת חלונות‪ ,‬שבה אין‬
‫הבחנה בין אותיות גדולות לקטנות‪ .‬מה הסיכויים לכך שאחד הקבצים או יותר‬
‫יפגע מהתנגשות?‬
‫‪ 2.3.8‬גרפים מקריים‬
‫המבנה של עצמים קומבינטוריים מקריים )כגון גרפים‪ ,‬עצים‪ ,‬תמורות‪ ,‬פונקציות( הוא‬
‫מודל פשוט להתנהגות של מבנים מסובכים )למשל‪ ,‬מערך החברויות בפייסבוק הוא גרף‬
‫שבו המשתמשים הם קודקודים המחוברים בקשת אם הם חברים‪ .‬הגרף עצמו מסובך‬
‫מאד‪ ,‬וכדי לחקור אותו ממדלים אותו כגרף מקרי בעל תכונות מתאימות(‪ .‬את העצמים‬
‫הקומבינטוריים חוקרים באמצעות מגוון של טכניקות הסתברותיות‪ ,‬מהן בסיסיות ומהן‬
‫מתוחכמות יותר‪.‬‬
‫מרכזית אחת‪'' .‬מודל ‪ Erdös-Renyi‬לגרף מקרי''‬ ‫דוגמא‬ ‫המזלג‬ ‫קצה‬ ‫נציג כאן על‬
‫‪n‬‬
‫‬
‫הוא גרף על ‪ n‬קודקודים‪ ,‬שכל אחת מ־ ‪ 2‬הצלעות האפשרויות שלו קיימת בהסתברות‬
‫‪ ,p‬באופן בלתי תלוי באחרות‪ .‬בחקירת המבנה של גרף כזה מקובל לקבוע את ‪p‬‬
‫כפונקציה של ‪ ,n‬ולתת ל־‪ n‬לשאוף לאינסוף‪.‬‬
‫‪ .1‬כאשר ‪) p = nλ2‬מכאן ולהבא ‪ λ‬קבוע(‪ ,‬מספר הקשתות בגרף סופי )למרות ש־‪n‬‬
‫שואף לאינסוף(‪ .‬הקשתות מעטות כל־כך עד שאינן נפגשות )בהסתברות השואפת‬
‫ל־‪ 1‬כאשר ‪ n‬שואף לאינסוף‪ ,‬וכך בכל טענה בסעיף זה(‪.‬‬
‫‪65‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.4‬מרחב התפלגות כללי‬
‫‪λ‬‬ ‫‪λ‬‬
‫‪p = n4/3‬‬ ‫‪ p = n3/2‬נוצרים בגרף מסלולים באורך ‪ .2‬כאשר‬ ‫‪ .2‬כאשר ‪ p‬עולה ל־‬
‫נוצרים עצים בני שלוש קשתות )מכל הסוגים בבת־אחת(‪ ,‬וכן הלאה‪ .‬כל עוד‬
‫‪ ,np→0‬אין בגרף מעגלים‪.‬‬
‫‪ .3‬אלו נוצרים רק כאשר ‪ ,p = nλ‬ואז יש מעגלים בכל אורך )חסום(‪ .‬כאשר ‪λ < 1‬‬
‫כל מרכיבי הקשירות הם פשוטים )עצים עם קשת נוספת אחת לכל היותר(‪.‬‬
‫הגודל של מרכיבי הקשירות הוא לכל היותר כפולה של )‪ .log(n‬כאשר ‪λ = 1‬‬
‫מתרחש "מעבר פאזה" מסובך )שלא נתאר כאן(‪ .‬מיד אחר־כך‪ ,‬כאשר ‪,λ > 1‬‬
‫יש בגרף מרכיב קשירות ענק‪ ,‬שגודלו כפולה לינארית של ‪ ,n‬ושאר המרכיבים‬
‫עדיין פשוטים‪ .‬בכל השלב הזה יש בגרף קודקודים מבודדים רבים‪ e−λ :‬מכל‬
‫הקודקודים הם מבודדים‪.‬‬
‫)‪ .p = λ log(n‬כמעט כל מרכיבי הקשירות הקטנים נדבקו‬

‫‪n‬‬
‫‪ .4‬העידן הבא מגיע כאשר‬
‫למרכיב הענק זה מכבר‪ .‬יש רק מספר סופי של קודקודים מבודדים‪ ,‬והגרף נעשה‬
‫קשיר כשהאחרון ביניהם מצטרף למרכיב הקשירות הענק‪.‬‬
‫‪ 2.4‬מרחב התפלגות כללי‬

‫עד כאן‪ ,‬מרחב ההתפלגות שלנו היה מרחב סופי או בן־מניה‪ .‬אנו רוצים לטפל גם‬
‫במקרה הכללי‪ ,‬שבו המרחב הוא למשל ]‪ Ω = [0, 1‬או ‪ .Ω = R‬לפני שנציג את ההגדרות‬
‫הדרושות‪ ,‬עלינו להסביר מדוע ההגדרה הבדידה אינה מתאימה למקרה הכללי‪.‬‬
‫‪ 2.4.1‬סיכום על קבוצה שאינה בת־מניה‬

‫בת מניה בעזרת‬
‫באופן נאיבי‪ ,‬אנחנו עלולים לנסות להגדיר הסתברות על קבוצה שאינה‪P‬‬
‫ההגדרה המקורית‪ :‬נדרוש שהפונקציה ‪ P : Ω→R‬תקיים ‪ . P (ω) = 1‬הבעיה היא‬
‫שסכום על פני קבוצת נקודות שאינה בת מניה‪ ,‬אינו יכול להיות סופי‪ :‬אחרת כל‬
‫אחת מהקבוצות }‪ Ωn = {ω : P (ω) > 1/n‬מוכרחה להיות סופית‪ ,‬והרי = ‪∪Ωn‬‬
‫}‪ .{ω : P (ω) 6= 0‬לכן ‪ P‬תהיה אפס מחוץ לקבוצה בת מניה‪.‬‬
‫תרגיל ‪ 2.4.1‬לאור הקשיים בהגדרת התפלגות על קבוצות גדולות‪ ,‬האם יתכן שיש מידת‬
‫הסתברות על ‪ [0, 1] ∩ Q‬שאין בה נקודות מיוחסות )כלומר‪ P (α) = 0 ,‬לכל נקודה ‪α‬‬
‫במרחב(?‬
‫אי־קיומן של מידות אינווריאנטיות‬ ‫‪2.4.2‬‬

‫העובדה שלא ניתן לסכם על קבוצות גדולות מדי מונעת מאיתנו להגדיר את ההסתברות‬
‫ישירות על נקודות‪ .‬אבל בסופו של דבר איננו מעוניינים בנקודות‪ ,‬אלא במאורעות‪,‬‬
‫‪66‬‬
‫‪ .2.4‬מרחב התפלגות כללי‬ ‫פרק ‪ .2‬מבוא להסתברות‬
‫ונוכל להגדיר את ההסתברות ישירות עליהם‪ .‬לשם כך נרצה לשמור את האקסיומות‬

‫שבטענה ‪.2.1.8‬‬
‫מתברר שגם נסיון זה אינו עולה יפה‪ .‬נסמן ב־ ‪ S 1‬את הנקודות על מעגל היחידה‪,‬‬
‫שאיבריו הם המספרים המרוכבים )‪ e2πiθ = cos(θ) + i sin(θ‬עבור ‪ .θ ∈ R‬נניח ש־‬
‫‪ P : P(S 1 )→R‬היא פונקציה המקיימת את שתי ההנחות האמורות‪ .‬מכיוון שמטרתנו‬
‫להכליל את מושג אורך הקשת‪ ,‬שאינו מושפע מסיבוב‪ ,‬נניח שגם ‪ P‬היא אינווריאנטית‬
‫לסיבוב‪ :‬לכל ‪ .P (e2πiθ A) = P (A) ,e2πiθ ∈ S 1‬נגדיר יחס שקילות על ‪ x ∼ y :S 1‬אם‬
‫יש ‪ θ ∈ Q‬כך ש־‪ .y = e2πiθ x‬תהי ‪ X‬קבוצה הכוללת נציג אחד בדיוק מכל מחלקת‬
‫שקילות )קיומה של קבוצה כזו דורש את אקסיומת הבחירה(‪ .‬לפי ההנחה‪ ,‬הקבוצה ‪X‬‬
‫זרה לכל הסיבובים שלה ‪ e2πiθ X‬בזוויות רציונליות ]‪ ,θ ∈ Q ∩ [0, 1‬ואיחוד כל הקבוצות‬
‫האלה הוא ‪ .S 1‬לכן‪ ,‬לכאורה‪,‬‬
‫‪X‬‬ ‫‪X‬‬
‫= )‪1 = P (S 1 ) = P (∪θ e2πiθ X‬‬ ‫= )‪P (e2πiθ X‬‬ ‫‪P (X),‬‬
‫]‪θ∈Q∩[0,1‬‬ ‫]‪θ∈Q∩[0,1‬‬
‫אבל זהו סכום בן־מניה על ערך קבוע‪ :‬אם ‪ P (X) = 0‬הסכום הוא אפס‪ ,‬ואם‬
‫‪ P (X) > 0‬הסכום אינסופי‪.‬‬
‫הראינו שלא ניתן להכליל את מידת האורך באופן כזה שתהיה מוגדרת על כל‬
‫תת־הקבוצות של ‪ .S 1‬מתברר שאפשר לפתור את הבעיה אם רק נוותר על ההנחה‬
‫ש־)‪ P (X‬מוגדרת לקבוצות כגון ‪ X‬שבנינו לעיל‪ .‬כדי לפתח את התאוריה‪ ,‬נתמקד‬
‫כמובן בקבוצות שעבורן ‪ P‬כן מוגדרת‪.‬‬
‫הערה ‪ 2.4.2‬לאקסיומת הבחירה המופיעה בדוגמא זו יש מסקנות אבסורדיות עוד יותר‪:‬‬
‫למשל‪ ,‬פרדוקס בנך־טרסקי‪ ,‬המאפשר לפרק את הכדור ל־‪ 10‬חלקים ולהרכיב מחמשת‬
‫הראשונים ומחמשת האחרונים כדורים שלמים‪ .‬כתוצאה מכך‪ ,‬לא קיימת מידה אינווריאנטית‬
‫לסיבובים המוגדרת על כל תת־הקבוצות של פני הכדור ‪.S 2‬‬
‫סיגמא־אלגברות‬ ‫‪2.4.3‬‬
‫הגדרה ‪ 2.4.3‬משפחה )‪ F ⊆ P(Ω‬הכוללת את ‪ Ω‬וסגורה ללקיחת משלים ולאיחוד בן־‬
‫מניה‪ ,‬נקראת ‪σ‬־אלגברה על ‪.Ω‬‬
‫טענה ‪ 2.4.4‬כל ‪σ‬־אלגברה סגורה לפי כללי דה־מורגן לחיתוך בן־מניה‪ ,‬ובפרט גם לאיחוד‬
‫וחיתוך סופי )משפחה הסגורה למשלים ולאיחוד סופי נקראת אלגברה של קבוצות(‪.‬‬
‫דוגמא ‪ 2.4.5‬אוסף הקבוצות הסופיות והקו־סופיות ב־‪ ,R‬כלומר‪ ,‬אלה שהן או סופיות או‬
‫שמשלימותיהן סופיות‪ ,‬הוא אלגברה שאינה ‪σ‬־אלגברה‪.‬‬
‫מאידך‪ ,‬אלגברת בורל שנגדיר בהמשך היא ‪σ‬־אלגברה שאינה סגורה לאיחוד כלשהו‬
‫של קבוצות‪ .‬מכאן שהסגירות לאיחוד בן־מניה חלשה ממש מסגירות לאיחוד כלשהו‪,‬‬
‫אבל חזקה ממש מהסגירות לאיחוד סופי‪.‬‬
‫‪67‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.4‬מרחב התפלגות כללי‬
‫תרגיל ‪ 2.4.6‬תהי )‪σ F ⊆ P(Ω‬־אלגברה על ‪ ,Ω‬ותהי ‪ Y ⊆ Ω‬תת־קבוצה‪ .‬קבע‬

‫את הקשר בין הקבוצות } ‪ {A ∈ F : A ⊆ Y‬ו־} ‪ .{A ∩ Y : A ∈ F‬הוכח שאחת‬
‫מהן היא ‪σ‬־אלגברה על ‪ .Y‬הראה שהן שוות אם ‪.Y ∈ F‬‬
‫תרגיל ‪ 2.4.7‬הוכח שחיתוך משפחה כלשהי של ‪σ‬־אלגברות על ‪ Ω‬הוא ‪σ‬־אלגברה‪.‬‬

‫מכאן שלכל אוסף ‪ T‬קיימת ‪σ‬־אלגברה מינימלית המכילה את ‪ ;T‬זוהי ה־‪σ‬־‬
‫אלגברה הנוצרת על־ידי ‪.T‬‬
‫תרגיל ‪ 2.4.8‬הצפיפות הטבעית על תת־קבוצות ‪ A ⊆ N‬מוגדרת לפי = )‪δ(A‬‬

‫|}‪ ,limn→∞ |A∩{1,...,n‬אם הגבול קיים‪ .‬הראה שאוסף הקבוצות שיש להן צפיפות‬
‫‪n‬‬
‫טבעית סגור לאיחוד וללקיחת משלים‪ ,‬אבל אינו ‪σ‬־אלגברה‪ .‬הראה שלקבוצת‬
‫המספרים שמספר הספרות שלהם זוגי אין צפיפות טבעית‪.‬‬
‫מרחבי הסתברות‬ ‫‪2.4.4‬‬

‫תהי ‪-σ F‬אלגברה על המרחב ‪ .Ω‬פונקציה ‪ P : F →R‬היא אדיטיבית אם לכל ∈ ‪A, B‬‬
‫)‪ ;P (A ∪ B‬ו־‪σ‬־אדיטיבית אם לכל‬‫‪ ,F‬אם ∅ = ‪ A ∩ B‬אז )‪P = P (A) + P (B‬‬
‫‪ A1 , A2 , · · · ∈ F‬זרות בזוגות מתקיים ) ‪.P (∪An ) = n P (An‬‬
‫הגדרה ‪) 2.4.9‬האקסיומטיקה של קולמוגורוב( שלשה סדורה ) ‪ ,(Ω, F , P‬שבה ‪ Ω‬קבוצה‬

‫כלשהי‪ F ⊆ P(Ω) ,‬היא ‪-σ‬אלגברה‪ ,‬ו־ ‪ P : F →R‬נקראת מרחב הסתברות אם מתקיים‪:‬‬
‫‪ P .1‬חיובית )כלומר ‪ P (A) ≥ 0‬לכל ‪;(A ∈ F‬‬
‫‪;P (Ω) = 1 .2‬‬
‫‪σ P .3‬־אדיטיבית‪.‬‬
‫כמובן‪ ∪An ∈ F ,‬מכיוון ש־ ‪ F‬סגורה לאיחוד בן־מניה‪ .‬חושבים על ‪ F‬בתור קבוצת‬

‫המאורעות ‪ -‬דברים שיש משמעות להסתברות שלהם‪ .‬הפונקציה ‪ P‬נקראת פונקציית‬
‫הסתברות‪.‬‬
‫תרגיל ‪ 2.4.10‬אם ‪ P‬פונקציית הסתברות‪ ,‬אז לכל ‪ A ⊂ B‬השייכים ל־ ‪ F‬מתקיים‬

‫)‪.P (B−A) = P (B) − P (A‬‬
‫תרגיל ‪ 2.4.11‬תהי ‪ P : F →R‬פונקציה חיובית ואדיטיבית‪ ,‬ונניח ש־‪.P (Ω) = 1‬‬

‫הראה שהתנאים הבאים שקולים )בכל המקרים מדובר בקבוצות השייכות‬
‫ל־ ‪:(F‬‬
‫‪ P .1‬היא ‪σ‬־אדיטיבית‪.‬‬
‫‪68‬‬
‫‪ .2.4‬מרחב התפלגות כללי‬ ‫פרק ‪ .2‬מבוא להסתברות‬
‫‪ .2‬אם · · · ⊆ ‪ B1 ⊆ B2‬שרשרת עולה ב־ ‪ F‬אז ) ‪;P (∪Bn ) = limn→∞ P (Bn‬‬
‫‪ .3‬אם · · · ⊇ ‪ C1 ⊇ C2‬שרשרת יורדת ב־ ‪ F‬אז ) ‪.P (∩Cn ) = limn→∞ P (Cn‬‬
‫כדי להבין טוב יותר את ההבדל בין ההגדרה הנוכחית לקודמת‪ ,‬נעיר שבדוגמאות‬
‫שנראה בעתיד )עם ‪ ,Ω = R‬למשל(‪ ,‬יתקיים ‪ P ({a}) = 0‬לכל ‪ ,a ∈ Ω‬ולכן גם‬
‫‪ P (A) = 0‬לכל ‪ A‬בת־מניה‪ .‬מבחינת תורת ההסתברות )של מרחבים כאלה(‪ ,‬הקבוצות‬
‫בנות המניה אינן קיימות‪.‬‬
‫תרגיל ‪ 2.4.12‬שקול את ההבדל בין 'בלתי אפשרי' )∅ = ‪' ,(A ∩ Ω‬לא רלוונטי'‬
‫)‪' ,(A 6⊆ Ω‬בעל הסתברות לא מוגדרת' )‪ (A 6∈ F ,A ⊆ Ω‬ו'בעל הסתברות אפס'‬
‫)‪.(P (A) = 0‬‬
‫צמצום של מרחב הסתברות ) ‪ (Ω, F , P‬לתת־קבוצה ‪) B‬כאשר ‪ (P (B) > 0‬נעשה‬

‫)‪.P (C|B) = PP (B‬‬
‫)‪(C‬‬
‫כך‪ ,(B, F |B , P (·|B)) :‬כאשר }‪ ,F = {C ∈ F : C ⊆ B‬ו־‬
‫תרגיל ‪ 2.4.13‬הוכח ש־))‪ (B, F |B , P (·|B‬הוא מרחב הסתברות )ראה תרגיל ‪.(2.4.6‬‬
‫בעיית ברטרנד‬ ‫‪2.4.5‬‬

‫חוקר ההסתברות הצרפתי ג'וזף ברטרנד )‪ (1822-1900‬שאל את השאלה הבאה‪ :‬מעבירים‬
‫מיתר אקראי במעגל‪ .‬מה הסיכוי לכך שהוא יהיה ארוך יותר מצלע המשולש שווה‬
‫הצלעות החסום במעגל?‬
‫‪ .1‬אם בוחרים את המיתר דרך נקודות קצה אקראיות‪ ,‬הסיכוי הוא ‪.1/3‬‬
‫‪ .2‬אם מקצים את המיתר במאונך לנקודה אקראית על רדיוס אקראי‪ ,‬הסיכוי הוא‬
‫‪.1/2‬‬
‫‪ .3‬אם בוחרים את נקודת האמצע של המיתר באקראי )שים לב שנקודת האמצע‬

‫קובעת את המיתר(‪ ,‬הוא יהיה ארוך מן הצלע אם ורק אם הנקודה בתוך מעגל‬
‫ברדיוס חצי‪ ,‬ולזה יש הסתברות ‪.1/4‬‬
‫ה'פרדוקס' הזה נועד להדגים דבר אחד‪ :‬אי אפשר לדבר על 'אקראיות' סתם‪,‬‬
‫בלי להגדיר בדיוק באיזו התפלגות מדובר‪ .‬זהו אחד השעורים החשובים ביותר‬
‫בקורס‪ :‬חשובה לא רק האוכלוסיה שממנה בוחרים‪ ,‬אלא גם אופן הבחירה הקובע‬
‫את ההתפלגות‪.‬‬
‫‪69‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.5‬משתנים מקרים רציפים‬
‫‪ 2.5‬משתנים מקרים רציפים‬

‫‪-σ‬אלגברת בורל‬ ‫‪2.5.1‬‬
‫הגדרה ‪ 2.5.1‬ה־‪-σ‬אלגברה על ‪ R‬הנוצרת על־ידי כל הקטעים הפתוחים נקראת אלגברת‬
‫בורל; מסמנים אותה ב־‪.B‬‬
‫טענה ‪ 2.5.2‬אלגברת בורל כוללת את כל הקטעים והקרניים‪ .‬אכן‪ ,‬לכל ‪,a < b‬‬
‫∞∪ = )∞ ‪;(a,‬‬
‫‪n=1 (a, a + n) ∈ B .1‬‬
‫∞∪ = )‪;(−∞, b‬‬

‫‪n=1 (b − n, b) ∈ B .2‬‬
‫‪;[a, ∞) = (−∞, a)c ∈ B .3‬‬

‫‪;(−∞, b] = (b, ∞)c ∈ B .4‬‬
‫‪;[a, b) = [a, ∞) ∩ (−∞, b) ∈ B .5‬‬
‫‪;(a, b] = (a, ∞) ∩ (−∞, b] ∈ B .6‬‬
‫‪;[a, b] = [a, ∞) ∩ (−∞, b] ∈ B .7‬‬
‫‪.{a} = [a, ∞) ∩ (−∞, a] ∈ B .8‬‬
‫‪ B .9‬כוללת את כל הקבוצות בנות־המניה או שמשלימותיהן בנות מניה‪.‬‬
‫טענה ‪ 2.5.3‬אלגברת בורל היא גם ה־‪-σ‬אלגברה הנוצרת על־ידי הקרניים ]‪.(−∞, b‬‬
‫‬ ‫∞∪‪ ,‬ו־ ‪.(a, b) = (−∞, b) ∩ (−∞, a)c‬‬
‫הוכחה‪n=1 (−∞, b − 1/n] = (−∞, b) .‬‬
‫הגדרה ‪ 2.5.4‬יהי ) ‪ (Ω, F , P‬מרחב הסתברות‪ .‬פונקציה ‪ X : Ω→R‬היא משתנה מקרי‪,‬‬

‫אם ‪ X −1 (B) ∈ F‬לכל ‪] .B ∈ B‬פונקציה כזו נקראת מדידה‪[.‬‬
‫לפי טענה ‪ ,2.5.3‬די בכך ש־ ‪ {ω : X(ω) ≤ b} = X −1 ((−∞, b]) ∈ F‬לכל ‪ ,b‬ולפי‬
‫טענה ‪ 2.5.2‬כל הסתברות )‪ P (a < X < b‬מוגדרת באופן דומה‪.‬‬
‫שימו לב שהשאלה אם ‪ X‬הוא משתנה מקרי אינה תלויה כלל בפונקציית ההסתברות‬
‫‪.P‬‬
‫דוגמא ‪ 2.5.5‬לכל פונקציית הסתברות ‪ ,P‬פונקציית הזהות ‪ R→R‬היא משתנה מקרי על‬
‫המרחב ) ‪.(R, B, P‬‬
‫לכל פונקציה רציפה )או בעלת מספר סופי של נקודות אי־רציפות( ‪ ,f‬אם ‪X‬‬
‫משתנה מקרי אז גם )‪ f (X‬משתנה מקרי‪ .‬בנושא זה תעמיקו יותר בקורס על תורת‬
‫המידה‪.‬‬
‫‪70‬‬
‫‪ .2.5‬משתנים מקרים רציפים‬ ‫פרק ‪ .2‬מבוא להסתברות‬
‫‪ 2.5.2‬פונקציית הצטברות‬
‫הגדרה ‪ 2.5.6‬פונקציה ‪ F : R→R‬שהיא מונוטונית לא יורדת‪ ,‬רציפה מימין‪ ,‬ומקיימת‬
‫‪lim F (x) = 0,‬‬

‫∞‪x→−‬‬
‫‪lim F (x) = 1,‬‬

‫∞→‪x‬‬
‫נקראת פונקציית הצטברות )לפעמים גם פונקציית התפלגות מצטברת(‪.‬‬
‫אנו עוסקים בפונקציות הצטברות בגלל ההתאמה ביניהן לבין משתנים מקריים‪:‬‬
‫טענה ‪ 2.5.7‬יהי ‪ X‬משתנה מקרי על ‪ .R‬אז הפונקציה )‪ FX (b) = P (X ≤ b‬היא‬

‫פונקציית הצטברות‪.‬‬
‫‪T‬‬
‫‬ ‫‪.‬‬ ‫‪n (−∞, b‬‬ ‫הוכחה‪ .‬הרציפות מימין נובעת מזה ש־ ]‪+ 1/n] = (−∞, b‬‬
‫טענה ‪ 2.5.8‬תהי ‪ FX‬פונקציית הצטברות‪ .‬אז )‪ P (X ≤ b) = F (b‬מגדיר משתנה מקרי‬

‫על ‪.R‬‬
‫מאיחוד הקטעים )‪ ,(−∞, b − 1/n‬נובע ש־‬
‫)‪(2.6‬‬ ‫‪P (X = b) = F (b) − lim− F (x).‬‬

‫‪x→b‬‬
‫מסקנה ‪ F 2.5.9‬רציפה אם ורק אם ‪ P (X = b) = 0‬לכל ‪.b‬‬
‫‪ .1‬לפונקציית הצטברות יש לכל היותר מספר בן מניה של נקודות אי־‬ ‫הערה ‪2.5.10‬‬
‫רציפות )זה נובע מנוסחה )‪.((2.6‬‬
‫‪ .2‬קבוצת נקודות אי־הגזירות הוא ממידה אפס )משפט לבג(‪.‬‬
‫‪ .3‬מאידך יתכן שיהיו ‪ ℵ‬נקודות אי־גזירות )פונקציית קנטור(‪.‬‬
‫‪71‬‬
‫פונקציית צפיפות‬ ‫‪2.5.3‬‬

‫∞‪R‬‬
‫נקראת פונקציית‬ ‫∞‪−‬‬
‫הגדרה ‪ 2.5.11‬פונקציה חיובית ‪ f : R→R‬כך ש־ ‪f (x)dx = 1‬‬
‫צפיפות‪.‬‬
‫‪Rb‬‬
‫פונקציית צפיפות מאפשרת להגדיר פונקציה ‪ ,F (b) = −∞ f (t)dt‬שהיא פונקציית‬
‫הצטברות גזירה בכל נקודה‪ .‬זו‪ ,‬בתורה‪ ,‬מגדירה משתנה מקרי בעל סיכוי אפס לכל‬
‫נקודה‪ .‬להיפך‪ ,‬בנקודות שבהן ‪ F‬גזירה‪ ,‬מתקיים )‪ ,f (b) = F ′ (b‬וזה מגדיר פונקציית‬
‫צפיפות‪.‬‬
‫פונקציית צפיפות מספקת תאור יעיל של המשתנה‪ ,‬ואפשר לחשב ממנה את כל‬
‫התכונות שלו‪ .‬הצפיפות מתארת את הסיכוי של המשתנה לקבל ערך בקטע קטן‪:‬‬
‫סביר יותר ליפול לקטע הכולא ערכי צפיפות גדולים מאשר לכזה הכולא ערכים קטנים‪.‬‬
‫בניסוי שבו "מרססים" נקודות על פי ההתפלגות‪ ,‬צפיפות הנקודות תהיה פרופורציונלית‬
‫לפונקציית הצפיפות )זוהי מסקנה מהחוק החלש של המספרים הגדולים‪ ,‬משפט ‪.(2.10.1‬‬
‫תוחלת ושונות‬ ‫‪2.5.4‬‬

‫התוחלת של משתנה מקרי ‪ X‬עם צפיפות ‪ fX‬מוגדרת לפי‬
‫‪Z‬‬ ‫∞‬
‫= )‪E(X‬‬ ‫‪fX (t)tdt,‬‬
‫∞‪−‬‬
‫שהאינטגרל הזה מתכנס‪ .‬באופן כללי יותר‪ ,‬התוחלת של פונקציה )‪ g(X‬היא‬

‫∞‪R‬‬ ‫בתנאי‬
‫‪.E(g(X)) = −∞ fX (t)g(t)dt‬‬
‫השונות מוגדרת כרגיל‪.V(X) = E(X 2) − E(X)2 :‬‬
‫טענה ‪ 2.5.12‬יהי ‪ X‬משתנה מקרי המקבל ערכים חיוביים‪ .‬אז‬

‫‪Z‬‬ ‫∞‬
‫= )‪E(X‬‬ ‫‪(1 − FX (t))dt‬‬
‫‪0‬‬
‫כאשר )‪ FX (x) = P (X ≤ x‬היא פונקציית ההצטברות‪.‬‬
‫‪72‬‬
‫הוכחה‪ .‬מבצעים החלפות משתנים‪:‬‬

‫‪Z‬‬ ‫∞‬
‫= )‪E(X‬‬ ‫‪tfX (t)dt‬‬
‫‪0‬‬
‫‪Z ∞Z t‬‬
‫=‬ ‫‪fX (t)dsdt‬‬
‫‪0‬‬ ‫‪0‬‬
‫∞ ‪Z ∞Z‬‬
‫=‬ ‫‪fX (t)dtds‬‬
‫‪0‬‬ ‫‪s‬‬
‫∞ ‪Z‬‬
‫=‬ ‫‪P (X > s)ds‬‬
‫‪0‬‬
‫∞ ‪Z‬‬
‫=‬ ‫‪(1 − FX (s))ds.‬‬
‫‪0‬‬
‫‬
‫תרגיל ‪ 2.5.13‬הראה כיצד מכלילה טענה ‪) 2.5.12‬על הקשר בין התוחלת לפונקציית ההצטברות(‬
‫את טענה ‪) 2.3.57‬על קשר דומה במקרה הבדיד(‪.‬‬
‫תרגיל ‪ 2.5.14‬חזור לבעיית ברטרנד )סעיף ‪ (2.4.5‬והראה שתוחלת האורך של‬
‫המיתר האקראי היא ‪ π2 , π4‬או ‪ , 43‬בהתאמה לאופן ההגרלה שלו‪ :‬אם קובעים‬
‫נקודת קצה ומגרילים נקודת קצה שניה באופן אחיד על היקף המעגל‪ ,‬אם מרחקו‬
‫מהראשית מתפלג אחיד‪ ,‬או אם נקודת המרכז שלו מתפלגת באופן אחיד במעגל‪.‬‬
‫תרגיל ‪) 2.5.15‬אפקט הספגטי ‪ -‬גרסה בדידה( מספר הילדים במשפחה‪ ,‬שנסמן ב־‪,X‬‬
‫מתפלג לפי התפלגות מסויימת‪ .‬שואלים ילד אקראי כמה ילדים במשפחה שלו‪.‬‬
‫ שאותה נסמן ב־̂‪ ,X‬היא בעלת התפלגות שונה משל ‪;X‬‬ ‫הסבר מדוע התשובה‪,‬‬
‫)‪V(X‬‬ ‫‪P (X=k)k‬‬
‫‪.E(X̂) = E(X) +‬‬ ‫)‪E(X‬‬
‫ש־‬ ‫= ‪ .P X̂ = k‬הסק‬ ‫)‪E(X‬‬
‫ש־‬ ‫הראה‬
‫כעת נניח ש־) ‪ Y ∼ Bin(X, 12‬הוא מספר הבנים במשפחה‪ .‬הראה שבתוחלת‪,‬‬
‫מספר האחים של בן אקראי‪ ,‬לרבות הוא־עצמו‪ ,‬גדול ממספר הבנים במשפחה‬
‫)‪V(X‬‬
‫)‪ , 2E(X‬בעוד שמספר האחיות של בן אקראי גדול ממספר הבנות‬ ‫אקראית ב־ ‪+ 12‬‬
‫)‪V(X‬‬
‫)‪. 2E(X‬‬ ‫במשפחה אקראית ב־ ‪− 12‬‬
‫תרגיל ‪) 2.5.16‬אפקט הספגטי ־ גרסה רציפה( בקערה ענקית יש אטריות ספגטי שהאורך‬
‫שלהן מתפלג לפי פונקציית צפיפות ‪ ,f‬עם תוחלת ‪ .µ‬כשדוגמים אטריה‪ ,‬היא‬
‫מתקבלת בהסתברות פרופורציונלית לאורך שלה‪ :‬אם אטריה אחת ארוכה מהשניה‬
‫פי ‪ ,k‬אז הסיכוי ששיני המזלג יינעצו דווקא בה גדול פי ‪.k‬‬
‫‪1‬‬
‫= )‪ .g(t‬מצא את‬ ‫‪µ‬‬
‫‪f (t)t‬‬ ‫‪ .1‬הוכח שלאורך של אטריה נדגמת יש צפיפות‬
‫תוחלת האורך של אטריה נדגמת‪.‬‬
‫‪73‬‬
‫‪ .2‬חשוב מה יקרה אם להתפלגות ‪ f‬יש תוחלת אינסופית‪.‬‬

‫‪ .3‬הצע שיטה לאמוד את ‪ µ‬על־ידי דגימת אטריות )ראה סעיף ‪.(3.1.1‬‬
‫התפלגות משותפת‬ ‫‪2.5.5‬‬

‫פורמלית‪ ,‬כדי לטפל בזוגות של משתנים מקריים עלינו להכליל את אלגברת בורל אל‬
‫המרחב ‪ .R2‬ההכללה אינה מסובכת‪ ,‬אבל לא ניגע בה כאן‪.‬‬
‫הגדרה ‪ 2.5.17‬פונקציית צפיפות משותפת של שני משתנים מקריים ממשיים היא פונקציה‬
‫‪ ,f : R2 →R‬חיובית‪ ,‬המקיימת‬
‫∞ ‪Z ∞Z‬‬
‫‪f (x, y)dxdy = 1.‬‬
‫∞‪−‬‬ ‫∞‪−‬‬
‫‪R‬‬
‫תהי ‪ fX,Y‬פונקציית הצפיפות המשותפת של ‪ R.X, Y‬הפונקציה ‪fX (x) = fX,Y (x, y)dy‬‬
‫היא הצפיפות השולית של ‪ ,X‬ובדומה ‪ fY (y) = fX,Y dx‬היא הצפיפות השולית של‬
‫‪.Y‬‬
‫הערה ‪ 2.5.18‬נניח ש־ ‪ fX,Y‬היא פונקציית הצפיפות המשותפת של ‪ ,X, Y‬ו־ ‪ fX‬הצפיפות‬
‫השולית של ‪ .X‬לכל ‪,x‬‬
‫)‪fX,Y (x, y‬‬
‫= )‪fY |X=x (y‬‬
‫)‪fX (x‬‬
‫היא הצפיפות המותנית של ‪) Y‬בהנתן ‪ ,(X = x‬ובדומה עבור ‪) .X‬שימו לב לדמיון של‬
‫נוסחה זו לחוק בייס )‪.((2.3‬‬
‫גם להיפך‪ :‬אם לכל ‪ x‬ידוע ש־‪ Y |X = x‬הוא בעל צפיפות )·( ‪ ,gx‬אז הצפיפות‬
‫המשותפת היא )‪ ,fX,Y (x, y) = fX (x)gx (y‬ולכן הצפיפות של ‪ Y‬היא‬
‫‪Z‬‬
‫‪fY (y) = fX (x)gx (y)dx.‬‬
‫נוסחה זו היא האנלוג הרציף של נוסחת ההסתברות השלמה )‪.(2.2‬‬

‫דוגמא ‪ 2.5.19‬שוברים מקל שאורכו יחידה אחת‪ ,‬בנקודה אקראית ‪) X‬עם התפלגות‬
‫אחידה(‪ .‬את החלק שאורכו ‪ X‬שוברים שוב בנקודה אקראית )עם התפלגות אחידה(‪ ,‬כך‬
‫שמתקבלים חלקים באורך ‪ .A, X − A‬מה ההתפלגות של ‪ X‬בהנתן ‪ ?A‬והתוחלת?‬
‫פתרון‪ .‬לפי ההנחה‪ ,‬הצפיפות של ‪ X‬היא ‪ fX (x) = 1‬בקטע ‪ .0 ≤ x ≤ 1‬בהנתן‬
‫‪ fA|X=x (a) = x1 ,X = x‬בקטע ‪ .0 ≤ a ≤ x‬לכן ‪fA,X (a, x) = fX (x)fA|X=x (a) = x1‬‬
‫‪R1‬‬
‫בתחום ‪ .0 ≤ a ≤ x ≤ 1‬לכן פונקציית הצפיפות של ‪ A‬היא = ‪fA (a) = a fA,X (a, x)dx‬‬
‫‪f‬‬ ‫)‪(a,x‬‬ ‫‪1‬‬ ‫‪1‬‬
‫‪R1‬‬
‫‪ .fX|A=a(x) = A,X‬מכאן ש־‬ ‫)‪fA (a‬‬
‫)‪= − log(a‬‬ ‫‪x‬‬
‫)‪ . a x1 dx = − log(a‬לכל ‪,a‬‬
‫‪R1‬‬ ‫‪R1 1‬‬
‫)‪.E(X|A = a) = a fX|A=a (x)xdx = a − log(a‬‬ ‫‪dx = − 1−a‬‬
‫)‪log(a‬‬
‫‪74‬‬
‫תרגיל ‪ 2.5.20‬שוברים מקל שאורכו ‪ 1‬בנקודה אקראית )בעלת התפלגות אחידה(‪.‬‬

‫אחר־כך שוברים כל אחד מהחלקים בנקודה אקראית‪ ,‬וחוזרים על תהליך זה ‪n‬‬
‫פעמים‪ ,‬כך שמתקבלים ‪ 2n‬חלקים‪ .‬מהו מקדם המתאם בין שני חלקים מן הדור‬
‫ה־‪ ,n‬שנפרדו זה מזה בדור ה־‪ ?m‬הראה ששני חלקים שנפרדו בדור הראשון‬
‫או השני מתחרים זה בזה )המקדם שלילי(‪ ,‬ואילו שני חלקים שהיו יחד בדור השני‬
‫)כלומר הגיעו מאותו רבע( הם שותפים )המקדם חיובי(‪.‬‬
‫אי־תלות‬
‫דוגמא ‪ 2.5.21‬לכל שתי פונקציות צפיפות ‪ ,fX , fY‬הפונקציה )‪(x, y) 7→ fX (x)fY (y‬‬
‫היא פונקציית צפיפות משותפת‪.‬‬
‫הגדרה ‪ X, Y 2.5.22‬בלתי תלויים אם )‪.fX,Y (x, y) = fX (x)fY (y‬‬
‫טענה ‪ 2.5.23‬התנאים הבאים שקולים‪:‬‬

‫‪ X, Y .1‬בלתי תלויים;‬
‫‪ .2‬קיימות פונקציות ‪ g1 , g2‬כך ש־)‪;fX,Y (x, y) = g1 (x)g2 (y‬‬
‫‪ .3‬לכל ‪;fY |X=x = fY |X=x′ ,x, x′‬‬
‫‪ .4‬לכל ‪.fX|Y =y = fX|Y =y′ ,y, y ′‬‬
‫‪ 2.5.6‬המקרה המעורב‬
‫אפשר לטפל בהתפלגות המשותפת של שני משתנים מקריים‪ ,X, T ,‬גם כאשר אחד מהם‬
‫רציף והשני בדיד‪.‬‬
‫נראה‪ ,‬לדוגמא‪ ,‬כיצד להפוך הסתברויות במקרה שבו לכל ‪ ,n‬המשתנה המקרי‬
‫המותנה ‪ T |X = n‬הוא בעל פונקציית צפיפות‪.fT |X=n (t) ,‬‬
‫הערה ‪ 2.5.24‬נניח ש־ ‪ T‬משתנה מקרי רציף‪ ,‬ושלכל ‪ t‬נתונה ההתפלגות )הבדידה( של‬
‫‪.fT |X=k (t) = P (X=k|T‬‬ ‫)‪=t‬‬
‫)‪P (X=k‬‬
‫‪ .X|T = t‬אז הצפיפות של ‪ T‬בהנתן ‪ X = k‬היא‬
‫‪Rt‬‬
‫)‪P (X=k,T ≤t‬‬ ‫)‪P (X=k|T ≤t)P (T ≤t‬‬ ‫‪P (X=k|T =s)ds‬‬
‫= )‪,P (T ≤ t|X = k‬‬ ‫)‪P (X=k‬‬
‫=‬ ‫)‪P (X=k‬‬
‫)‪= −∞ P (X=k‬‬ ‫אכן‪,‬‬
‫והצפיפות מתקבלת מגזירה ביחס ל־‪.t‬‬
‫הערה ‪ 2.5.25‬האינטגרל הבא שימושי מפעם לפעם; אפשר להוכיח אותו באינדוקציה על‬
‫‪Z 1‬‬ ‫‪.n‬‬
‫‪k‬‬ ‫‪n−k‬‬ ‫!)‪k!(n − k‬‬
‫= ‪x (1 − x) dx‬‬
‫‪0‬‬ ‫!)‪(n + 1‬‬
‫‪75‬‬
‫תרגיל ‪) 2.5.26‬אמידה בשיטת בייס‪ :‬משתנה בינומי בעל הסתברות לא ידועה( נניח שמאורע‬
‫מתרחש בהסתברות קבועה אבל לא ידועה‪ .‬יש הטוענים שכאשר ההסתברות‬
‫אינה ידועה‪ ,‬הבחירה הטבעית היא להניח שיש לו התפלגות אחידה‪.‬‬
‫המודל המתאים הוא שהמשתנה ]‪ P ∼ U[0, 1‬הוא פרמטר בעל התפלגות‬
‫וההתפלגות של ‪ X‬בהנתן ‪ P‬נתונה על־ידי ) ‪ .X ∼ Bin(n, P‬כלומר‪ ,‬לכל‬ ‫אחידה‪,‬‬
‫‪.P (X = k|P = p) = nk pk (1 − p)n−k ,p‬‬
‫‬
‫‪ .1‬הראה ש־‪ X‬מתפלג באחידות על הערכים ‪ .0, . . . , n‬רמז‪ .‬העזר באינטגרל‬

‫ ‪R1‬‬
‫‪. 0 nk pk (1 − p)n−k dp = n+1‬‬
‫‪1‬‬
‫‪ .2‬כתוב את הצפיפות המותנית )‪.fP |X=k (p‬‬

‫‪n k‬‬
‫)‪.fP |X=k (p) = (n + 1‬‬ ‫‪k p (1‬‬ ‫פתרון‪− p)n−k .‬‬
‫‪k+1‬‬
‫‪) E(P |X = k) = n+2‬עובדה זו קרויה אומד בייסיאני של ‪ .(P‬פתרון‪.‬‬ ‫‪ .3‬הוכח ש־‬
‫על־פי הערות ‪ 2.5.24‬ו־‪,2.5.25‬‬
‫‪1‬‬ ‫‪1‬‬ ‫ ‬
‫‪n k+1‬‬
‫‪Z‬‬ ‫‪Z‬‬
‫= )‪E(P |X = k‬‬ ‫= )‪fP |X=k (p‬‬ ‫)‪(n + 1‬‬ ‫‪p (1 − p)n−k dp‬‬
‫‪0‬‬ ‫‪k‬‬
‫ ‪ Z 1 0‬‬
‫‪(n + 1) nk‬‬ ‫‪n + 1 k+1‬‬
‫=‬ ‫‪n+1‬‬ ‫‪p (1 − p)n−k dp‬‬
‫‪k‬‬ ‫‪+‬‬ ‫‪1‬‬
‫‬
‫‪k+1‬‬ ‫‪0‬‬
‫‪n‬‬
‫‪(n + 1) k‬‬ ‫‪k+1‬‬
‫=‬ ‫‪n+1 = n + 2 .‬‬
‫‬
‫‪(n + 2) k+1‬‬
‫‪ .4‬שחקן משתתף בתוכנית הגרלות‪ .‬מאחר שאף אחד מעשרת הכרטיסים‬

‫שקנה לא זכה בפרס‪ ,‬הוא מעריך )על פי הסעיף הקודם( שהסיכוי לזכות‬
‫‪1‬‬
‫‪ . 11‬שותפו טוען שזה הסיכוי שלא לזכות בפרס הגדול דווקא )בהגרלה‬ ‫הוא‬
‫אפשר לזכות בחמישה פרסים שונים(‪ ,‬ולכן הסיכוי לזכות *בפרס הגדול*‬
‫‪1‬‬
‫‪ . 11‬לא יתכן ששניהם צודקים‪ .‬מה דעתך?‬ ‫הוא כ־‬
‫תרגיל ‪ 2.5.27‬במשחק טניס ההכרעה מתקבלת לפי רוב הנצחונות בחמש מערכות‪.‬‬
‫בכל מערכה‪ ,‬הסיכוי של שחקן א' לנצח את שחקן ב' הוא ‪ ,P‬באופן בלתי תלוי‬
‫במערכות האחרות‪ ,‬כאשר ]‪ .P ∼ U[0, 1‬נניח ששחקן א' ניצח בשתי המערכות‬
‫הראשונות‪ .‬מה הסיכוי שלו לנצח במשחק כולו?‬
‫)לפי כתבה שהתפרסמה בניו־יורק טיימס‪ ,‬ראו ‪,http://www.haaretz.co.il/sport/other/.premium-1.2330828‬‬
‫"ב־‪ 94%‬מהמשחקים בשלושת הסיבובים הראשונים של הרולאן גארוס בשנה‬
‫שעברה ניצח השחקן שהוביל ‪ 0 − 2‬במערכות"‪ .‬התשובה לתרגיל זה היא ‪(.95%‬‬
‫‪76‬‬
‫תרגיל ‪ 2.5.28‬כמו בתרגיל ‪ ,2.5.27‬שני שחקנים משחקים ‪ 2n + 1‬מערכות בלתי‬

‫תלויות‪ ,‬והנצחון נקבע בשיטת הרוב‪ .‬הסיכוי של השחקן הראשון לנצח בכל משחקון‬
‫)באופן בלתי תלוי( הוא ‪ ,P‬כאשר ]‪ .P ∼ U[0, 1‬מהם סיכויי השחקן לנצח במשחק‬
‫)כלומר‪ ,‬לצבור רוב ב־‪ 2n + 1‬המערכות( אם הוא ניצח במערכה הראשונה?‬
‫‪. 3n+2‬‬
‫פתרון‪4n+2 .‬‬
‫וכעת דוגמא שבה טיפוסי המשתנים הפוכים‪:‬‬
‫‪ ,X‬ואילו ∼ ‪Y |X‬‬ ‫תרגיל ‪) 2.5.29‬משתנה פואסוני בעל פרמטר מעריכי( נניח ש־)‪∼ Exp(µ‬‬
‫‪R ∞ −x n‬‬ ‫‪1‬‬
‫‪ .Y + 1 ∼ G( 1+µ‬הדרכה‪P (Y = n) = 0 e n!x µ1 e−x/µ dx = .‬‬ ‫)‪ .Poi(X‬הוכח ש־)‬
‫‪1‬‬ ‫‪µ n‬‬
‫‪. 1+µ‬‬ ‫‪( 1+µ‬‬ ‫)‬
‫‪ 2.5.7‬סטטיסטיי הסדר‬
‫ראו תת־סעיף ‪ ,2.6.1‬שבו מוצגים סטטיסטיי הסדר של ההתפלגות האחידה‪.‬‬
‫טרנספורמציה של משתנה‬ ‫‪2.5.8‬‬

‫המקרה החד־ממדי‬
‫אם ‪ h : R→R‬פונקציה הפיכה ו־)‪ Y = h(X‬אז הצפיפות של ‪ Y‬היא = ))‪fY (h(t‬‬
‫‪.fX (t)h′ (t)−1‬‬
‫העזר‬ ‫הדרכה‪.‬‬ ‫תרגיל ‪ 2.5.30‬הוכח את הטענה למקרה ש־‪ h‬מונוטונית עולה‪.‬‬

‫בפונקציית ההצטברות‪.‬‬
‫דוגמא ‪.faX (t) = a−1 fX (a−1 t) 2.5.31‬‬
‫דוגמא ‪ .X ∼ U[0, 1] 2.5.32‬חשב את הצפיפות של ‪.Y = − log X‬‬
‫המקרה הדו־ממדי‬
‫תהי ) ‪ h = (h1 , h2‬פונקציה הפיכה מתחום פתוח במישור לתחום פתוח אחר )תחום‬
‫פתוח הוא קבוצה הכוללת‪ ,‬סביב כל נקודה‪ ,‬עיגול ברדיוס חיובי כלשהו; באופן טיפוסי זו‬
‫קבוצה המוגדרת!על־ידי אי־שוויונים מהצורה ‪ .(ϕ(x, y) > 0‬נניח שהנגזרות החלקיות‬
‫‪∂h1‬‬ ‫‪∂h1‬‬
‫‪∂x‬‬ ‫‪∂y‬‬
‫‪ ,Jh (t, s) = det‬כשהנגזרות מחושבות בנקודה )‪;(x, y‬‬ ‫‪∂h2‬‬ ‫‪∂h2‬‬ ‫קיימות‪ ,‬ונגדיר‬
‫‪∂x‬‬ ‫‪∂y‬‬
‫זהו היעקוביאן של ‪.h‬‬
‫‪77‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.6‬התפלגויות רציפות חשובות‬
‫כאשר מגדירים משתנים מקריים חדשים ) ‪ ,(U, V ) = h(X, Y‬הצפיפות המשותפת‬

‫היא ‪ .fU,V (h(x, y)) = fX,Y (x, y)Jh (x, y)−1‬הסיבה לכך היא כלל החלפת המשתנים‪,‬‬
‫שאפשר לתאר באופן סכימטי כך‪:‬‬
‫‪Z‬‬ ‫‪Z‬‬
‫= ‪f (h(u))du‬‬ ‫‪f (x)J −1 (x)dx.‬‬
‫‪D‬‬ ‫)‪h(D‬‬
‫דוגמא ‪ 2.5.33‬נניח ש־ ‪ X, Y‬משתנים מקריים בלתי תלויים בעלי צפיפויות ‪ .fX , fY‬אפשר‬
‫להגדיר ‪ U = X + Y‬ו־ ‪ ;V = Y‬אז ‪ ,J = 1‬והצפיפות המשותפת של ‪ X + Y, Y‬היא‬
‫)‪ .fX+Y,Y (u, v) = fX,Y (u − v, v) = fX (u − v)fY (v‬הצפיפות השולית של ‪X + Y‬‬
‫היא‪ ,‬לפי ההגדרה‪,‬‬
‫‪Z‬‬ ‫‪Z‬‬
‫‪fX+Y (u) = fX+Y,Y (u, v)dv = fX (u − v)fY (v)dv.‬‬
‫זוהי הקונוולוציה של ‪ .fX , fY‬השווה לדוגמא ‪.2.2.20‬‬

‫√‬
‫דוגמא ‪ X, Y ∼ U[0, 1] 2.5.34‬בלתי תלויים; נגדיר ‪ U = cos(2πX) −2 log Y‬ו־‬
‫‪1‬‬ ‫‪2‬‬ ‫‪2‬‬ ‫√‬
‫‪ Jh = −2π‬והרי ) ‪ .y = e− 2 (u +v‬לכן ‪ U, V‬בלתי‬
‫‪y‬‬
‫אז‬ ‫‪.V‬‬ ‫=‬ ‫)‪sin(2πX‬‬ ‫‪−2 log Y‬‬
‫תלויים; בהמשך נראה שהם מתפלגים התפלגות הנקראת ''נורמלית''‪.‬‬
‫התפלגויות רציפות חשובות‬ ‫‪2.6‬‬

‫‪ 2.6.1‬התפלגות אחידה‬
‫אומרים ש־‪ X‬מתפלג התפלגות אחידה בקטע ]‪) [a, b‬וכותבים ]‪ (X ∼ U[a, b‬אם‬
‫‪1‬‬
‫‪ .fX (t) = b−a‬שימו לב שהסימון זהה לזה של ההתפלגות האחידה הבדידה‪,‬‬ ‫)‪I[a,b] (t‬‬
‫ויש לפענח לאיזו התפלגות מתכוונים מן ההקשר‪.‬‬
‫‪2‬‬
‫)‪.V(X) = (b−a‬‬
‫‪12‬‬
‫‪ ,E(X) = a+b‬ו־‬
‫‪2‬‬
‫קל לחשב ש־‬
‫טענה ‪ 2.6.1‬אם ‪ X‬הוא משתנה מקרי בעל פונקציית הצטברות רציפה ‪ ,F‬אז )‪F (X‬‬
‫מתפלג ]‪.U[0, 1‬‬
‫הוכחה‪ .‬מכיוון ש־ ‪ F‬מונוטונית עולה‪,‬‬
‫;‪P (F (X) ≤ a) = P (X ≤ F −1 (a)) = F (F −1(a)) = a‬‬
‫‬ ‫כאן }‪.F −1 (a) = inf t {F (t) = a‬‬
‫‪78‬‬
‫‪ .2.6‬התפלגויות רציפות חשובות‬ ‫פרק ‪ .2‬מבוא להסתברות‬
‫טענה ‪ 2.6.2‬תהי ‪ F‬פונקציית הצטברות רציפה‪ .‬נניח ש־]‪ .U ∼ U[0, 1‬אז )‪ F −1 (U‬בעל‬
‫ההתפלגות ‪.F‬‬
‫שילוב שתי הטענות מאפשר לעבור מכל התפלגות רציפה לכל התפלגות רציפה‬
‫אחרת‪ ,‬תוצאה בעלת חשיבות מרכזית בהדמיה‪:‬‬
‫תרגיל ‪ 2.6.3‬תהיינה ‪ F, G‬שתי פונקציות הצטברות רציפות‪ .‬אם ‪ F‬היא פונקציית‬

‫ההצטברות של משתנה מקרי ‪ ,X‬אז ‪ G‬היא פונקציית ההצטברות של )‪.G−1 F (X‬‬
‫תרגיל ‪ 2.6.4‬עיין במושגים "התפלגות אחידה על הרציונליים בקטע סגור"‪ ,‬או "משתנה בעל‬
‫התפלגות אחידה ]‪ U[0, 1‬המקבל רק ערכים רציונליים"‪ ,‬לאור תרגיל ‪.2.4.1‬‬
‫סטטיסטיי הסדר‬
‫אם ‪ X1 , . . . , Xn‬משתנים מקריים‪ ,‬סטטיסטיי הסדר הם אותם ערכים‪ ,‬לאחר סידור‬
‫מחדש‪ ,‬כך ש־ )‪ .X(1) ≤ · · · ≤ X(n‬למשל‪.X(n) = max {Xi } ,X(1) = min {Xi } ,‬‬
‫טענה ‪ 2.6.5‬אם ‪ fX‬היא פונקציית הצפיפות של המשתנים הבלתי תלויים ‪,X1 , . .. , Xn‬‬
‫‪n n−1‬‬
‫‪k−1 X‬‬
‫אז פונקציית הצפיפות של סטטיסטי הסדר )‪ X(k‬היא ‪f (t)FX (t)k−1 (1 −‬‬
‫‪.FX (t))n−k‬‬
‫‪X‬‬
‫= )‪P (X(k) ≤ t‬‬ ‫)‪P (∀i ∈ A : Xi ≤ t; ∀i 6∈ A : Xi > t‬‬
‫‪A⊆{1,...,n},|A|≥k‬‬
‫‪X‬‬
‫=‬ ‫|‪FX (t)|A| (1 − FX (t))n−|A‬‬
‫‪A⊆{1,...,n},|A|≥k‬‬
‫ ‪n‬‬
‫‪X‬‬ ‫‪n‬‬
‫=‬ ‫‪FX (t)i (1 − FX (t))n−i .‬‬
‫‪i=k‬‬
‫‪i‬‬
‫‬ ‫הנגזרת של פונקציה זו‪ ,‬לפי ‪ ,t‬היא כנטען לעיל‪.‬‬
‫‪ .X‬הראה שפונקצית הצפיפות של‬ ‫‪ .1‬נניח ש־]‪, . . . , Xn ∼ U[0, 1‬‬

‫‪ 1k−1‬‬ ‫תרגיל ‪2.6.6‬‬
‫‪) fX(k) (t) = n n−1‬ראה איור ‪.(2.1‬‬
‫‪k−1‬‬
‫‪t‬‬ ‫‪(1‬‬ ‫‪−‬‬ ‫)‪t‬‬ ‫‪n−k‬‬
‫היא‬ ‫‪X‬‬ ‫)‪(k‬‬ ‫הסדר‬ ‫סטטיסטי‬
‫‪k‬‬
‫= ) )‪ .E(X(k‬הדרכה‪ .‬העזר באינטגרל שבתרגיל ‪.2.5.25‬‬ ‫‪n+1‬‬
‫הוכח ש־‬ ‫‪.2‬‬
‫‪n‬‬
‫= ) )‪ E(X(n‬היתה נושא עבודת הדוקטור של ניקולאוס ברנולי‬ ‫‪n+1‬‬
‫]הטענה‬
‫ה־‪ ,I‬ב־‪.[1709‬‬
‫‪79‬‬
‫איור ‪ :2.1‬צפיפות סטטיסטיי הסדר עבור ]‪.X1 , . . . , X5 ∼ U[0, 1‬‬
‫)‪k(n+1−k‬‬
‫= ) )‪.V(X(k‬‬ ‫)‪(n+1)2 (n+2‬‬
‫ש־‬ ‫‪ .3‬בדוק‬
‫∗‪ .4‬מה מקדם המתאם בין )‪ ,X(i) , X(j‬כאשר ‪?i < j‬‬
‫תרגיל ‪ 2.6.7‬הכלל את טענה ‪ :2.6.5‬נניח ש־ ‪ X1 , . . . , Xn−1‬בעלי התפלגות ‪,F‬‬

‫ו־ ‪ Xn‬בעל התפלגות ‪ ,G‬עם פונקציות צפיפות ‪ f, g‬בהתאמה‪ .‬סטטיסטיי הסדר‬
‫מוגדרים באותו אופן‪ .‬הראה שהצפיפות של )‪ X(k‬היא‬
‫‬ ‫‬ ‫‬ ‫‬
‫‪n−1‬‬ ‫‪k−1‬‬ ‫)‪n−k g(t‬‬ ‫)‪G(t‬‬ ‫)‪1 − G(t‬‬
‫= )‪fX(k) (t‬‬ ‫))‪f (t)F (t) (1−F (t‬‬ ‫)‪+ (k − 1‬‬ ‫)‪+ (n − k‬‬ ‫‪.‬‬
‫‪k−1‬‬ ‫)‪f (t‬‬ ‫)‪F (t‬‬ ‫)‪1 − F (t‬‬
‫תרגיל ‪ 2.6.8‬נניח ש־]‪ ,X1 , . . . , Xn−1 ∼ U[0, 1‬ו־]‪ Xn ∼ U[0, a‬כאשר ‪0 < a < 1‬‬
‫הצפיפות של המקסימום } ‪ X(n) = max {X1 , . . . , Xn‬היא‬
‫קבוע‪ .‬הראה שפונקציית (‬
‫‪2 −1+an‬‬ ‫‪ntn−1 a1‬‬ ‫‪0<t<a‬‬
‫)‪.E(X(n) ) = nn(n+1‬‬ ‫= )‪ .fX(n) (t‬חשב את התוחלת‬ ‫‪n−2‬‬
‫‪(n − 1)t‬‬ ‫‪a<t<1‬‬
‫הציון הסופי בתחרות בינלאומית לסטודנטים הוא הציון הטוב ביותר שהשיג‬
‫אחד החברים בה‪ ,‬ועוד הציון הממוצע‪ .‬בנבחרת שותפים ‪ n − 1‬חברים שווי‬
‫יכולת )שהציון של כל אחד מהם מתפלג ]‪ .(U[0, 1‬יש מועמד נוסף‪ ,‬חלש יותר‪,‬‬
‫שהתפלגות הציונים שלו היא ]‪ ,U[0, a‬כאשר ‪ .a < 1‬הראה שכדאי לצרף את‬
‫המועמד הנוסף לנבחרת אם ורק אם )‪) .2an > (n + 1)(1 − 2a‬בתחרות ה־‪IMO‬‬
‫הציון הוא סכום שלוש התוצאות הטובות ביותר ועוד הממוצע(‪.‬‬
‫תרגיל ‪ 2.6.9‬בוחרים שתי נקודות על מקל )באופן אקראי ובלתי תלוי‪ ,‬בהתפלגות‬
‫אחידה(‪ ,‬ושוברים אותו בהן לשלושה חלקים‪ .‬מה הסיכוי שאפשר להרכיב מן‬
‫החלקים האלה משולש? )ואם שוברים את המקל ב־‪ n‬נקודות‪ ,‬מה הסיכוי שאפשר‬
‫להרכיב מן החלקים מצולע?(‬
‫‪80‬‬
‫‪ .1‬בוחרים שתי נקודות על מקל )באופן בלתי תלוי ובהתפלגות‬ ‫תרגיל ‪2.6.10‬‬
‫אחידה(‪ .‬אחר־כך מסמנים על המקל ‪ n − 1‬נקודות במרחקים שווים זו מזו‬
‫ומקצות המקל‪ ,‬ושוברים אותו ל־‪ n‬חלקים לפי החלוקה שהתקבלה‪ .‬מה‬
‫הסיכוי ששתי הנקודות שייכות לאותו חלק?‬
‫‪ .2‬בוחרים שתי נקודות על מקל‪ .‬אחר־כך מסמנים על המקל ‪ n − 1‬נקודות‪,‬‬

‫גם כן באקראי ובאופן בלתי תלוי‪ .‬שוב שוברים את המקל לפי החלוקה‬
‫שהתקבלה‪ .‬מה הסיכוי ששתי הנקודות שייכות לאותו חלק?‬
‫תרגיל ‪ 2.6.11‬יונתן יכול להגיע לעבודה בכל אחד משני אוטובוסים‪ .‬זמן ההמתנה‬
‫הממוצע לכל קו הוא ‪ 30‬דקות‪ .‬מה יהיה זמן ההמתנה הממוצע לקו הראשון מבין‬
‫השניים? ואם זמן ההמתנה לקו אחד הוא ‪ ,a‬ולשני ‪?b‬‬
‫תרגיל ‪ 2.6.12‬אלעד חוזר מהעבודה באחד משני אוטובוסים‪ ,‬שיש להם לוח זמנים‬
‫קבוע‪ :‬הם יוצאים לדרך פעם בשעה‪ .‬הוא מגיע אל התחנה בזמן אקראי )בעל‬
‫התפלגות אחידה(‪ ,‬ועולה על האוטובוס הראשון שעוצר בתחנה‪ .‬כיצד יתכן שהוא‬
‫עולה על קו ‪ 15‬רק ‪ 10%‬מהפעמים‪ ,‬ועל קו ‪ 52‬בשאר הזמן?‬
‫תרגיל ‪ 2.6.13‬נניח ש־ ‪ X1 , . . . , Xn‬הם משתנים מקריים בלתי תלויים בעלי פונקציית‬

‫הצטברות ‪ .F‬לפי תרגיל ‪ .F (X1 ), . . . , F (Xn ) ∼ U[0, 1] ,2.6.1‬הסק מתרגיל‬
‫‪ 2.6.6‬שהערך המקסימלי מבין ה־) ‪ F (Xi‬הוא בקירוב ‪ .1 − n1‬פירושו של דבר הוא‬
‫שבכל התפלגות‪ ,‬אם מגרילים ‪ n‬ערכים‪ ,‬סביר שאחד מהם יהיה קיצוני במידה כזו‬
‫שהסיכויים נגדו הם בערך ‪.1 : n‬‬
‫תרגיל ‪ 2.6.14‬משתנים מקריים רציפים ‪ X1 , X2 , . . .‬הם בלתי תלויים ושווי התפלגות‪.‬‬

‫מגדירים ‪ N = n‬כאשר ‪ n‬הוא הקטן ביותר כך שעבורו ‪ .Xn < Xn−1‬מה התוחלת‬
‫של ‪?N‬‬
‫‪1‬‬
‫= )‪.P(N > n‬‬ ‫!‪n‬‬ ‫הדרכה‪ .‬המאורע }‪ {N > n‬שווה למאורע } ‪ .{X1 < · · · < Xn‬לכן‬
‫∞ = ) ‪.E(N‬‬ ‫‪1‬‬
‫‪P‬‬
‫לפי טענה ‪n=0 n! = e ,2.3.57‬‬
‫תרגיל ‪ 2.6.15‬בספורט שוויוני )מקצוע תחרותי חדש שתוכנן למנוע יתרון לא הוגן‬
‫מבעלי הכשרון(‪ ,‬כל שחקן מגריל משתנה מקרי בעל התפלגות ]‪ .U[0, 1‬התוצאות‬
‫מוכנסות מיד למחשב ונשמרות בסוד‪ .‬המחשב מדווח בכל פעם שמתחרה קובע‬
‫שיא עולם חדש‪ ,‬כלומר כאשר הוא משיג תוצאה טובה יותר מכל קודמיו‪ .‬עד היום‬
‫נרשמו ‪ m‬תוצאות‪ .‬נסמן ב־‪ N‬את מספר התוצאות שיירשמו עד לשיא העולם‬
‫‪m‬‬
‫‪ .P (N ≥ k) = m+k−1‬הוכח ש־∞ = )‪.E(N‬‬ ‫הבא )‪ .(N ≥ 1‬הסבר מדוע‬
‫‪81‬‬
‫התפלגות מעריכית‬ ‫‪2.6.2‬‬

‫למשתנה ‪ X‬יש התפלגות מעריכית‪ ,‬עם הפרמטר ‪ ,λ‬אם פונקציית הצפיפות שלו היא‬
‫‪ .fX (x) = λ1 e−x/λ‬במקרה כזה מסמנים‬
‫‪X ∼ Exp(λ).‬‬
‫אפשר לחשב ש־ ‪ .P (X > t) = e−t/λ‬הזמן ‪ t‬שעבורו ‪ P (X > t) = 0.5‬נקרא זמן‬

‫מחצית החיים‪ ,‬ושווה ל־‪.log(2)λ‬‬
‫‪2‬‬
‫התוחלת של )‪ X ∼ Exp(λ‬היא ‪ ,E(X) = λ‬והשונות ‪.V(X) = λ‬‬
‫טענה ‪ 2.6.16‬תכונת חוסר הזכרון של ההתפלגות המעריכית‪ :‬נניח ש־)‪ .X ∼ Exp(λ‬אז‬

‫)‪ (X − a)|(X > a‬מתפלג )‪.Exp(λ‬‬
‫תרגיל ‪ 2.6.17‬נניח שהזמן בין רעידות אדמה חזקות באגן הירדן שעל השבר הסורי־‬
‫אפריקאי‪ ,‬מתפלג מעריכית‪ ,‬עם תוחלת ‪ 100‬שנה‪ .‬הרעידה האחרונה היתה לפני‬
‫כ־‪ 80‬שנה‪ .‬מתי צפויה )בתוחלת( הרעידה הבאה? )אגב‪ :‬במציאות‪ ,‬הזמן בין‬
‫רעידות אדמה אינו לגמרי חסר זכרון‪ ,‬משום שמדובר בשחרור פתאומי של אנרגיה‬
‫הנאצרת באופן מדורג(‪.‬‬
‫תרגיל ‪ 2.6.18‬נניח ש־)‪ .X ∼ Exp(1‬מה ההתפלגות של ‪ ?e−X‬השווה לתרגיל ‪.2.5.32‬‬
‫תרגיל ‪ 2.6.19‬קו אוטובוס יוצא מן התחנה מדי ‪ 30‬דקות‪ .‬לפיכך‪ ,‬זמן ההמתנה של‬
‫נוסע המגיע באקראי לתחנה מתפלג אחיד והוא יחכה בממוצע ‪ 15‬דקות‪.‬‬
‫לאחר זמן משנים את מתכונת הנסיעה‪ ,‬כך שבכל פעם שאוטובוס יוצא לדרכו‪,‬‬
‫מפעילים שעון עצר מעריכי ומשחררים את האוטובוס הבא לפי הערך המתקבל‬
‫)שהוא בעל התפלגות מעריכית עם תוחלת ‪ .(30‬מספר האוטובוסים הממוצע‬
‫ביממה יהיה כפי שהיה בעבר‪ .‬מה תהיה תוחלת זמן ההמתנה של הלקוחות לפי‬
‫השיטה החדשה? כיצד זה יתכן? )הסבר את הקשר לתרגיל ‪.(2.5.16‬‬
‫תרגיל ‪ .X, Y ∼ Exp(θ) 2.6.20‬חשב את ) ‪.P (X < αY‬‬
‫תרגיל ‪ 2.6.21‬מדען צופה במטר מטאורים‪ ,‬שבו יש )בתוחלת( ‪ α‬הופעות בדקה‪.‬‬

‫התצפית נפסקת כשנשבר העפרון‪ ,‬שמשך החיים שלו מעריכי עם תוחלת ‪ µ‬דקות‪.‬‬
‫נסמן ב־‪ X‬את משך זמן הצפיה וב־ ‪ Y‬את מספר המטאורים שנצפו; כך ∼ ‪X‬‬
‫)‪ Exp(µ‬ו־)‪.Y |X ∼ Poi(αX‬‬
‫‪ .1‬הראה שהתוחלת של ‪ Y‬היא ‪.E(Y ) = αλ‬‬

‫‪αλ‬‬
‫‪ .Y + 1 ∼ G( 1+αλ‬הדרכה‪ .‬ראה תרגיל ‪.2.5.26‬‬ ‫‪ .2‬הראה ש־)‬
‫‪82‬‬
‫‪ .3‬נניח ששני מדענים עובדים במקביל )וצופים כל אחד בחלקת שמיים אחרת(‪.‬‬
‫‬ ‫‪k‬‬
‫‪1‬‬ ‫‪αλ‬‬
‫)‪.P (Y1 = 0, Y2 = k|X1 > X2 ) = (αλ+1‬‬‫‪2‬‬ ‫)‪2(αλ+1‬‬
‫הראה ש־‬
‫‪1‬‬ ‫‪2‬‬
‫= )‪.P (Y1 = 0‬‬ ‫‪αλ+1‬‬
‫ש־‬ ‫= ) ‪ ,P (Y1 = 0|X1 > X2‬בעוד‬ ‫)‪(αλ+1)(αλ+2‬‬
‫ש־‬ ‫הסק‬
‫‪2−2−k‬‬ ‫‪αλ‬‬
‫‪k‬‬
‫= ) ‪.P (Y1 = k, Y2 = 0|X1 > X2‬‬ ‫‪(αλ+1)2‬‬ ‫‪αλ+1‬‬
‫ש־‬ ‫‪ .4‬הראה‬
‫‪2‬‬
‫= ) ‪.P (Y2 = 0|X1 > X2‬‬ ‫‪αλ+2‬‬
‫ש־‬ ‫הסק‬
‫סדרת משתנים מעריכיים‬

‫טענה ‪ 2.6.22‬נניח שהמשתנים ‪ X1 , X2‬מתפלגים מעריכית‪ X1 ∼ Exp(λ1 ) ,‬ו־∼ ‪X2‬‬
‫) ‪ ,Exp(λ2‬והם בלתי תלויים‪ .‬אז ) ‪ ,min(X1 , X2 ) ∼ Exp(λ′‬כאשר ‪. λ1′ = λ11 + λ12‬‬
‫מסקנה ‪ 2.6.23‬נניח ש־)‪ X1 , . . . , Xn ∼ Exp(λ‬בלתי תלויים‪ .‬אז סטטיסטי הסדר = ‪Y1‬‬

‫)‪ .min(X1 , . . . , Xn ) ∼ Exp(λ/n‬בפרט‪.E(Y1) = nλ ,‬‬
‫נניח ש־)‪ X1 , . . . , Xn ∼ Exp(λ‬בלתי תלויים‪ .‬מתכונת חוסר הזכרון נובע שבהנתן‬

‫‪ Yi+1 ,Yi‬הוא המינימום של ‪ n−i‬משתנים מעריכיים‪ ,‬ולכן )‪.Yi+1 −Yi ∼ Exp((n−i)λ‬‬
‫‪λ‬‬
‫‪.E(Yi+1 − Yi ) = n−i‬‬ ‫מכאן ש־‬
‫‪1‬‬
‫‪.E(Yi ) = n1 + · · · + n−i+1‬‬
‫‬
‫מסקנה ‪λ 2.6.24‬‬
‫‪.E(max(X1 , . . . , Xn )) = ( 11 +‬‬ ‫‪1‬‬

‫‪2‬‬
‫בפרט‪+ · · · + n1 )λ ,‬‬
‫תרגיל ‪ 2.6.25‬בכד ענק יש כדורים רבים )מספרם סופי(‪ ,‬שמהם ‪ p‬שחורים והשאר‬
‫לבנים‪ .‬מסננים את הכד באופן הבא‪ :‬דוגמים כדור; אם הוא לבן מחזירים אותו‬
‫לכד‪ ,‬ואם הוא שחור זורקים אותו החוצה‪ .‬כמה פעמים יש לחזור על התהליך עד‬
‫שפרופורציית הכדורים השחורים יורדת ל־ ‪?p′‬‬
‫התפלגות גמא‬
‫אומרים שמשתנה מקרי ‪ Y‬הוא בעל התפלגות גמא עם פרמטרים ‪ n, λ‬אם פונקציית‬
‫‪y n−1‬‬ ‫‪−y/λ‬‬
‫‪ .fY (y) = (n−1)!λ‬מסמנים )‪.Y ∼ Γ(n, λ‬‬ ‫‪ne‬‬ ‫הצפיפות שלו היא‬
‫טענה ‪ 2.6.26‬פונקציית ההצטברות של משתנה )‪ Y ∼ Γ(n, λ‬היא‬

‫∞‬
‫‪X‬‬ ‫‪xi −x/λ‬‬
‫= )‪FY (y) = P (Y ≤ y‬‬ ‫‪e‬‬ ‫‪.‬‬
‫‪i=n‬‬
‫‪i!λi‬‬
‫‪83‬‬
‫תרגיל ‪ 2.6.27‬ההתפלגות )‪ Γ(1, λ‬אינה אלא ההתפלגות המעריכית )‪.Exp(λ‬‬
‫טענה ‪ 2.6.28‬לכל ‪ ,n, m‬אם )‪ Y ∼ Γ(n, λ‬ו־)‪ Y ′ ∼ Γ(m, λ‬הם משתנים מקריים בלתי‬
‫תלויים‪ ,‬אז )‪.Y + Y ′ ∼ Γ(n + m, λ‬‬
‫‬ ‫הוכחה‪ .‬קונוולוציה‪.‬‬
‫מסקנה ‪ 2.6.29‬נניח ש־)‪ X1 , X2 , · · · ∼ Exp(λ‬הם משתנים בלתי תלויים‪ .‬לכל ‪ ,n‬הסכום‬

‫‪ Sn = X1 + · · · + Xn‬מתפלג )‪.Γ(n, λ‬‬
‫מסקנה ‪ 2.6.30‬אם )‪ Y ∼ Γ(n, λ‬אז ‪ E(Y ) = nλ‬ו־ ‪.V(Y ) = nλ2‬‬
‫הקשר להתפלגות פואסון‬

‫נניח ש־)‪ ,X1 , · · · ∼ Exp(λ‬בלתי תלויים‪ .‬לכל ‪ ,n‬נסמן כמקודם ‪.Sn = X1 + · · · + Xn‬‬
‫עבור ערך קבוע ‪ ,t‬נסמן }‪ .Nt = maxn {Sn < t‬אם התפלגות הזמן בין תקלות היא‬
‫מעריכית‪ ,‬אז ‪ Nt‬סופר כמה תקלות יהיו בפרק זמן נתון‪.‬‬
‫טענה ‪.Nt ∼ Poi(t/λ) 2.6.31‬‬
‫הוכחה‪ .‬את )‪ P (Nt ≥ n) = P (Sn ≤ t‬חישבנו בטענה ‪ .2.6.26‬מכאן נובע ש־‬
‫‪(t/λ)n e−t/λ‬‬
‫= )‪P (Nt = n) = P (Nt ≥ n + 1) − P (Nt ≥ n‬‬ ‫‪.‬‬
‫!‪n‬‬
‫‬
‫תרגיל ‪ 2.6.32‬העזר בחוסר הזכרון של ההתפלגות המעריכית כדי לחלץ מטענה ‪2.6.31‬‬
‫הוכחה חדשה לתרגיל )‪.2.3.27.(1‬‬
‫הכיוון ההפוך‪ :‬אם מפזרים מספר פואסוני של נקודות בקטע נתון‪ ,‬המרחקים‬
‫מתפלגים מערכית‪.‬‬
‫תרגיל ‪ 2.6.33‬נניח שמספר האירועים בקטע בכל אורך מתפלג פואסונית )עם‬
‫פרמטר התלוי רק באורך הקטע(‪ .‬הוכח שהתלות באורך הקטע היא ליניארית‪.‬‬
‫‪84‬‬
‫‪0.4‬‬
‫‪0.2‬‬
‫‪−3.0 −2.5 −2.0 −1.5 −1.0 −0.5 0 0.5 1.0 1.5 2.0‬‬ ‫‪2.5‬‬
‫איור ‪ :2.2‬גרף ההתפלגות הנורמלית הסטנדרטית‬
‫‪ 2.6.3‬התפלגות נורמלית‬
‫‪1 −t2 /2‬‬
‫= )‪ ,fZ (t‬כשאיננו יודעים‬ ‫‪c‬‬
‫‪e‬‬ ‫הגדרת התפלגות נורמלית סטנדרטית )‪:N(0, 1‬‬
‫בשלב זה את ‪.c‬‬
‫ציטוט ‪" 2.6.34‬ואכן‪ ,‬מה לגאומטריה של המעגל ולסטטיסטיקה של בני אדם? ככל שידיעתי‬
‫מגעת‪ ,‬איש לא הסביר זאת מעולם" )מרק ביוקנן‪ ,‬לשעבר עורך ‪" ,Nature‬האטום החברתי"‬
‫עמ' ‪.(68‬‬
‫‪2‬‬
‫נניח ש־ ]‪ T ∼ U[0, 2π‬ו־ ‪ fR (t) = e−t /2 t‬עבור ‪ ,t ≥ 0‬בלתי תלויים‪ .‬נגדיר‬
‫)היעקוביאן הוא ‪ .(R‬מהחלפת המשתנים יוצא‬
‫√‬ ‫) ‪ X = R cos(T‬ו־ ) ‪Y = R sin(T‬‬
‫)‪ ,X, Y ∼ N(0, 1‬כשהם בלתי תלויים‪ ,‬ו־ ‪.c = 2π‬‬
‫‪(t−µ)2‬‬
‫‪1‬‬
‫‪ f (t) = √2πσ‬הוא משתנה נורמלי‪ ,‬בעל‬ ‫‪2‬‬
‫הגדרה ‪ 2.6.35‬משתנה שהצפיפות שלו ‪e− 2σ2‬‬
‫התפלגות ) ‪ .N(µ, σ 2‬כל אחת מן ההתפלגויות במשפחה דו־פרמטרית זו נקראת התפלגות‬
‫נורמלית‪.‬‬
‫טענה ‪ 2.6.36‬אם )‪ Z ∼ N(0, 1‬אז ‪ X = µ + σZ‬הוא בעל ההתפלגות )‪.N(µ, σ 2‬‬
‫טענה ‪ 2.6.37‬נניח ש־)‪ .Z ∼ N(0, 1‬הראה ש־‪ E(Z) = 0‬ו־‪.V(Z) = 1‬‬

‫‪p‬‬
‫= )|‪.E(|Z‬‬ ‫תרגיל ‪ 2.6.38‬נניח )‪ .Z ∼ N(0, 1‬הראה ש־‪2/π‬‬
‫לפי טענה ‪ ,2.6.36‬אם ) ‪ ,X ∼ N(µ, σ 2‬אז ‪ E(X) = µ‬ו־ ‪ .V(X) = σ 2‬בפרט‪,‬‬

‫התפלגות נורמלית מוגדרת על־פי התוחלת והשונות שלה‪.‬‬
‫תרגיל ‪ X 2.6.39‬מתפלג נורמלית‪ .‬ידוע ש־‪.P (X < 0.7) = 0.7 ,P (X < 0.9) = 0.9‬‬
‫מצא את )‪] P (X < 0.5‬תשובה‪.[40.8% .‬‬
‫‪85‬‬
‫תרגיל ‪ 2.6.40‬ההישגים של פרחי־טיס בטיסת אימון הם בעלי התפלגות נורמלית‬

‫סטנדרטית‪ ,‬ובלתי תלויים זה בזה‪ .‬מדריך הטיסה משבח את החניך אם הישגיו‬
‫בטיסה מסויימת היו ‪ a‬סטיות תקן מעל לממוצע‪ ,‬ונוזף בו אם היו ‪ a‬סטיות תקן‬
‫מתחת לממוצע )כאן ‪ a > 0‬קבוע(‪ .‬חניך טס שתי טיסות‪.‬‬
‫‪ .1‬על־פי נתוני השאלה‪ ,‬מהם הסיכויים לכך שיחול שיפור בהישגים )הטיסה‬
‫השניה טובה יותר מן הראשונה(?‬
‫‪ .2‬הערך את הסיכוי לשיפור אם המדריך שיבח את החניך בפעם הראשונה;‬
‫הערך את הסיכוי לשיפור אם המדריך נזף בו‪.‬‬
‫‪ .3‬מה דעתך על המשוב הפנימי של מדריך הטיסה‪ ,‬האומר לעצמו 'בכל פעם‬
‫שאני משבח את החניך‪ ,‬הישגיו יורדים‪ .‬בכל פעם שאני נוזף‪ ,‬ההישגים‬
‫משתפרים‪ .‬מכאן שהשבחים מזיקים והנזיפות מועילות'?‬
‫טבלאות של התפלגות נורמלית‬

‫‪2‬‬
‫האינטגרל ‪ e−x‬אינו אלמנטרי‪ ,‬ולכן יש להעזר בטבלאות לחישוב הערכים שלו‪.‬‬
‫‪R‬‬
‫∞‬
‫‪1‬‬
‫‪Z‬‬
‫‪2‬‬
‫= )‪P (Z > z‬‬ ‫‪√ e−t /2 dt‬‬
‫‪Zz ∞ 2π‬‬
‫‪1‬‬
‫≤‬ ‫‪√ e−zt/2 dt‬‬
‫‪2π‬‬
‫‪rz‬‬
‫‪2 1 −z 2 /2‬‬
‫≤‬ ‫‪e‬‬
‫‪πz‬‬
‫‪1‬‬ ‫‪2‬‬
‫∼ )‪.P (Z > z‬‬ ‫‪z+ 21‬‬
‫‪e−z /2‬‬ ‫קירוב שימושי לערכים גדולים‪:‬‬
‫שאם )‪ X1 , . . . , Xn ∼ N(0, 1‬אז תוחלת‬

‫תרגיל ‪ 2.6.41‬המשך את תרגיל ‪ :2.6.13‬הראה √‬
‫הערך המקסימלי של ‪ Xi‬היא‪ ,‬בקירוב גס‪ .E(max Xi ) ≈ 2 log n ,‬למשל‪ ,‬אם ‪,n ≈ e50‬‬
‫אז ‪.max Xi ≈ 10‬‬
‫‪−e−x‬‬
‫‪ .FG (x) = e‬אם‬ ‫פונקציית ההצטברות של התפלגות ‪ Gumbel‬הסנדרטית היא‬
‫)‪ X1 , . . . , Xn ∼ N(0, 1‬בלתי תלויים‪ ,‬אז עבור הקבועים )‪ bn = Φ−1 (1 − 1/n‬ו־‬
‫)) ‪ ,an = 1/(nφ(bn‬התפלגות המקסימום )‪ X(n‬נתונה על־ידי‬
‫‬
‫‪P X(n) ≤ an x + bn →FG (x),‬‬
‫כאשר )·(‪ Φ‬היא פונקציית ההצטברות של ההתפלגות הנורמלית‪ ,‬ו־)·(‪ φ‬פונקציית הצפיפות‬
‫שלה‪.‬‬
‫‪86‬‬
‫תרגיל ‪ 2.6.42‬בספטמבר ‪ 2014‬הצביעו תושבי סקוטלנד כדי לקבוע האם יפרדו מעל‬
‫הממלכה המאוחדת הבריטית‪" .‬בסקוטלנד חיים כ־‪ 7000‬יהודים ]מתוך ‪ 5000000‬תושבים[‪,‬‬
‫כך שגם במשאל שעשוי להיות מאד צמוד‪ ,‬הם לא צפויים להכריע לשום כיוון" )אנשיל פפר‪,‬‬
‫"הארץ"‪ .(http://www.haaretz.co.il/news/world/europe/.premium-1.2437985 ,18/9/2014 ,‬נניח שלחצי מהתושבים זכות‬

‫בחירה‪ .‬נניח שהתושבים הלא־יהודים מצביעים באקראי ובהסתברות חצי‪ .‬הראה שאם‬
‫יצביעו כאיש אחד‪ ,‬הסיכוי של היהודים לקבוע את תוצאות ההצבעה גדול מ־‪.99%‬‬
‫תרגיל ‪ 2.6.43‬חזור לציטוט ‪ .1.2.13‬אם ציון מנת המשכל מתפלג נורמלית עם תוחלת ‪,100‬‬
‫מהי סטיית התקן?‬
‫התפלגות נורמלית דו־ממדית‬

‫טענה ‪ 2.6.44‬משפחת ההתפלגויות הנורמליות סגורה לחיבור‪ :‬אם ‪ X, Y‬שני משתנים‬
‫נורמליים בלתי תלויים‪ ,‬אז גם ‪ X +Y‬מתפלג נורמלית‪ .‬ביתר פירוט‪ ,‬אם ) ‪,X ∼ N(µ1 , σ12‬‬
‫) ‪ Y ∼ N(µ2 , σ22‬והם בלתי תלויים‪ ,‬אז ) ‪.X + Y ∼ N(µ1 + µ2 , σ12 + σ22‬‬
‫הוכחה‪ .‬הפעל את ההתמרה ‪ V = −sX + cY ,U = cX + sY‬כאשר ‪ .s2 + c2 = 1‬‬
‫תרגיל ‪ 2.6.45‬נניח ש־) ‪ X ∼ N(0, σ 2‬ובהנתן ‪ ,Y |X ∼ N(απ 2 X, π 2 ) ,X‬עבור‬
‫קבועים מתאימים ‪ .α, σ, π‬נסמן ‪) π ′2 = θ−1 σ 2 ,σ ′2 = θπ 2 ,θ = 1 + α2 π 2 σ 2‬שים‬
‫לב ש־‪ .(π ′ σ ′ = πσ‬העזר בתרגיל ‪ 2.5.18‬כדי להראות ש־ ‪ Y‬מתפלג נורמלית;‬
‫הסק מנוסחת השונות החוזרת ‪) 2.2.42‬או מחישוב האינטגרל( ש־) ‪.Y ∼ N(0, σ ′2‬‬
‫הפעל שוב את תרגיל ‪ 2.5.18‬כדי להראות שבהנתן ‪.X|Y ∼ N(απ ′2 Y, π ′2 ) ,Y‬‬
‫תרגיל ‪ 2.6.46‬במוח יש ‪ 25‬אזורים שאפשר למצוא בהם הבדל בין גברים לנשים;‬
‫נסמן ב־ ‪ X1 , . . . , X25‬את גדלי האזורים אצל נבדק מסויים‪ .‬לאחר נירמול‪ ,‬גודלו‬
‫‪ N(0.2, 1) P‬אצל גברים ו־)‪ N(−0.2, 1‬אצל נשים‪ .‬הראה אצל‬ ‫של כל אזור מתפלג‬
‫= ‪ X‬חיובי בסיכוי של כ־‪ ;99%‬ואצל נשים‪ ,‬להיפך‪ .‬הראה‬ ‫גברים הסכום ‪Xi‬‬
‫שהסיכוי שהסיכוי לכך שכל ‪ 0 < Xi‬אצל גבר נתון הוא פחות מאחד למליון‪ .‬העזר‬
‫בנתונים )מפוברקים( אלה כדי לכתוב שתי פסקאות‪ :‬אחת המוכיחה את קיומם‬
‫של ''מוח גברי'' ו''מוח נשי''‪ ,‬ואחת הלועגת לפתאים המאמינים בהבדלים כאלה‪,‬‬
‫ומראה שהם חסרי ממשות ביולוגית‪ .‬איזו פסקה נכונה?‬
‫)וראה‪(http://www.haaretz.co.il/news/science/.premium-1.2788500 :‬‬
‫‪ 2.6.4‬התפלגויות נוספות‬
‫∞‪R‬‬
‫הערה ‪ 2.6.47‬שמה של התפלגות גמא מגיע מפונקציית גמא ‪,Γ(z) = 0 tz−1 e−t dt‬‬
‫המקיימת את המשוואה הפונקציונלית )‪ .Γ(z +√1) = z · Γ(z‬מכיוון ש־‪,Γ(1) = 1‬‬
‫מתקבל !)‪ Γ(n) = (n − 1‬לכל ‪ n‬שלם‪ .‬בנוסף לזה ‪ ,Γ( 12 ) = π‬ולכן עבור ‪ n‬איזוגי‬
‫‪n−1‬‬ ‫√‬
‫‪.Γ(n/2) = 2− 2 1 · 3 · 5 · · · (n − 2) π‬‬
‫‪87‬‬
‫‪ .1‬נניח ש־)‪ Z1 , . . . , Zn ∼ N(0, 1‬והם בלתי תלויים‪ .‬לסכום הריבועים = ‪W‬‬

‫‪ Z12 + · · · + Zn2‬יש התפלגות‪ ,‬הקרויה התפלגות חי־בריבוע עם ‪ n‬דרגות חופש‪,‬‬
‫‪n/2−1 −x/2‬‬
‫ומסומנת ב־ ‪ .χ2n‬פונקציית הצפיפות היא ‪ , xΓ(n/2)2e n/2‬כמו בהתפלגות )‪.Γ( n2 , 2‬‬
‫התוחלת של ‪ W ∼ χ2n‬היא ‪ ,E(W ) = n‬שונות היא ‪.V(W ) = 2n‬‬
‫‪−1/2 e−x/2‬‬
‫‪ , x‬שאינה חסומה‪.‬‬ ‫√‬
‫‪2π‬‬
‫הערה ‪ 2.6.48‬פונקציית הצפיפות של התפלגות ‪ χ21‬היא‬
‫‪−x/2‬‬
‫‪ , e‬הלוא היא ההתפלגות המעריכית‬ ‫‪2‬‬
‫פונקציית הצפיפות של התפלגות ‪ χ22‬היא‬
‫עם תוחלת ‪.2‬‬
‫‪ T = √ Z‬הוא בעל התפלגות‬ ‫‪ .2‬אם )‪ Z ∼ N(0, 1‬ו־ ‪ W ∼ χ2n‬בלתי תלויים‪ ,‬אז‬

‫‪W/n‬‬
‫הנקראת התפלגות ‪ t‬של סטודנט‪ ,‬עם ‪ n‬דרגות חופש )'סטודנט' היא הכינוי שאימץ‬
‫לעצמו הסטטיסטיקאי ויליאם סילי גוסט‪ ,‬שפרסם את ההתפלגות ב־‪.(1908‬‬
‫פונקציית הצפיפות של ההתפלגות הזו היא‬
‫‪− n+1‬‬
‫‪Γ( n+1‬‬ ‫)‬ ‫‪t2‬‬
‫‬ ‫‪2‬‬
‫‪2‬‬
‫√ = )‪f (t‬‬ ‫‪1‬‬ ‫‪+‬‬ ‫‪.‬‬
‫) ‪nπ Γ( n2‬‬ ‫‪n‬‬
‫כאשר ‪ n‬גדול )למשל ‪ ,(n = 30‬התפלגות זו קרובה להתפלגות הנורמלית‪.‬‬

‫התוחלת היא ‪) E(T ) = 0‬כאשר ‪ ;n > 1‬ב־ ‪ n = 1‬אין תוחלת‪ :‬האינטגרל‬
‫‪n‬‬
‫‪.V(T ) = n−2‬‬ ‫אינו מתכנס( והשונות‬
‫‪ X = VU/n‬כאשר ‪ U ∼ χ2n‬ו־ ‪ V ∼ χ2m‬קוראים התפלגות ‪,F‬‬ ‫‪/m‬‬

‫‪ .3‬להתפלגות היחס‬
‫ומסמנים ‪ .X ∼ Fn,m‬פונקציית הצפיפות היא‬
‫‪Γ( n+m‬‬ ‫‪) n n n −1‬‬ ‫‪n‬‬ ‫‪n+m‬‬

‫‪n‬‬
‫‪2‬‬
‫( ‪m‬‬ ‫‪) 2 x 2 (1 + x)− 2 .‬‬
‫‪Γ( 2 )Γ( 2 ) m‬‬ ‫‪m‬‬
‫= ) ‪ .E(X) = E( n1 U)E(m V1‬השונות היא = )‪V(X‬‬ ‫‪m‬‬

‫‪m−2‬‬
‫התוחלת היא‬
‫‪2‬‬
‫)‪2m (m+n−2‬‬
‫)‪. n(m−2‬‬‫)‪2 (m−4‬‬
‫תרגיל ‪ T ∼ tn 2.6.49‬אם ורק אם ‪.T 2 ∼ F1,n‬‬
‫תרגיל ‪ X ∼ Fn,m 2.6.50‬אם ורק אם ‪. X1 ∼ Fm,n‬‬

‫‪Z2‬‬
‫תרגיל ‪ 2.6.51‬בדוק שפונקציית הצפיפות של היחס ‪ X = Z12‬כאשר ∼ ‪Z1 , Z2‬‬
‫‪2‬‬ ‫√‬ ‫‪1‬‬
‫)‪ .fX (x) = π√x(1+x‬הראה ש־)‪.P (|Z1 | < a |Z2 |) = 2 arctan( a‬‬ ‫)‪ N(0, 1‬היא‬
‫‪88‬‬
‫‪ .2.7‬חסמים‬ ‫פרק ‪ .2‬מבוא להסתברות‬
‫תרגיל ‪ 2.6.52‬במדינה מסויימת נערכות בחירות מדי כמה שנים‪ .‬כדי להבטיח‬
‫הכרעה דמוקרטית באופן מלא‪ ,‬כל תושב בוחר באיזה משני המועמדים הוא תומך‬
‫על־פי תוצאת הטלת מטבע )הוגן(‪ ,‬המתבצעת זמן מה לפני הבחירות‪ .‬בבוקר‬
‫יום הבחירות מתרחש אירוע הגורם לכל תושב להפוך את החלטתו בהסתברות ‪ǫ‬‬
‫להראות שהסיכוי‬ ‫כדי‪p‬‬ ‫)ללא תלות בהחלטה הקודמת(‪ .‬העזר בתרגיל ‪2.6.51‬‬
‫‪ǫ‬‬
‫שתוצאת הבחירות תתהפך כתוצאה מן האירוע הוא ‪.2 arctan( 1−ǫ ) ≈ 2ǫ‬‬
‫‪ 2.7‬חסמים‬
‫אי־שוויון מרקוב‬ ‫‪2.7.1‬‬
‫טענה ‪ 2.7.1‬יהי ‪ X‬משתנה מקרי חיובי בעל תוחלת ‪ .µ‬אז לכל ‪.P (X ≥ aµ) ≤ a1 ,a‬‬
‫‪1‬‬
‫‪ P (X = 0) = 1 − aµ‬ו־‬ ‫שוויון מתקבל )כאשר ‪ (a ≥ 1‬רק עבור המשתנה שעבורו‬
‫‪1‬‬
‫‪.P (X = aµ) = aµ‬‬
‫תרגיל ‪ 2.7.2‬יהי ‪ X‬משתנה מקרי חיובי‪ .‬הראה ש־)‪.P (X ≥ 1) ≤ E(X‬‬
‫תרגיל ‪ 2.7.3‬תהי ‪ X1 , X2 , . . .‬סדרת משתנים מקריים חיוביים עם תוחלת קבועה‬

‫‪ .E(Xn ) = µ‬הראה ש־‪ .P (lim Xn = ∞) = 0‬הדרכה‪ .‬נסמן )∞ = ‪.ǫ = P (lim Xn‬‬
‫‪µ‬‬
‫≤ )‪ ,ǫ ≤ P (Xn > k‬ואם ‪ ǫ > 0‬אפשר לבחור ‪k > µ/ǫ‬‬ ‫ש־ ‪k‬‬ ‫בפרט לכל ‪ k‬קיים ‪ n‬כך‬
‫ולקבל סתירה‪.‬‬
‫אי־שוויון צ'ביצ'ב‬ ‫‪2.7.2‬‬

‫טענה ‪ 2.7.4‬לכל משתנה מקרי ‪) X‬בעל תוחלת ‪ µ‬ושונות ‪ ,(σ 2‬ולכל קבוע ‪ k‬מתקיים‬
‫‪P (|X − µ| ≥ kσ) ≤ k −2 .‬‬
‫‬ ‫הוכחה‪ .‬קח |‪ Y = |X − µ‬באי־שוויון מרקוב‪.‬‬
‫בפרט‪ ,‬אם ‪ E(X) = 0‬ו־‪ ,V(X) = 1‬אז לכל ‪ k‬מתקיים ‪.P (|X| ≥ k) ≤ k −2‬‬
‫להלן גרסה חד־צדדית של אי־השוויון הזה‪:‬‬
‫טענה ‪) 2.7.5‬אי־שוויון קנטלי( יהי ‪ X‬משתנה מקרי עם ‪ E(X) = 0‬ו־‪ .V(X) = 1‬לכל‬
‫‪ k ≥ 0‬מתקיים ‪.P (X ≥ k) ≤ k21+1‬‬
‫‪89‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.7‬חסמים‬
‫הוכחה‪ .‬לכל ‪ t ≥ −k‬מתקיים לפי אי־שוויון מרקוב‬

‫‬ ‫‬
‫‪X +t‬‬
‫‪P (X ≥ k) = P‬‬ ‫‪≥1‬‬
‫‪k+t‬‬
‫‬ ‫‬
‫‪X +t 2‬‬
‫( ‪≤ P‬‬ ‫‪) ≥1‬‬
‫‪k+t‬‬
‫‪1 + k −2‬‬
‫‬ ‫‬
‫‪X +t 2‬‬
‫( ‪≤ E‬‬ ‫= )‬
‫‪k+t‬‬ ‫‪(k + t)2‬‬
‫‬ ‫והתוצאה מתקבלת מבחירת ‪ ,t = k −1‬המביאה את אגף ימין למינימום‪.‬‬
‫תרגיל ‪ 2.7.6‬לכל משתנה מקרי בעל תוחלת ‪ µ‬ושונות ‪ ,σ 2‬ולכל ‪P (X ≥ µ + k) ≤ ,k > 0‬‬
‫‪2‬‬
‫‪. σ2σ+k2‬‬
‫אי־שוויון צ'רנוף‬ ‫‪2.7.3‬‬

‫יהי )‪ X ∼ Bin(m, p‬משתנה בינומי‪ .‬אי־שוויון צ'ביצ'ב נותן את החסם הריבועי‬
‫‬ ‫‬ ‫‬
‫‪X‬‬ ‫‬ ‫‪pq‬‬
‫≤ ‪P − p ≥ ǫ‬‬ ‫‪.‬‬
‫‪m‬‬ ‫‪mǫ2‬‬
‫אי־שוויון צ'רנוב מספק שיפור מהותי של החסם הזה‪.‬‬

‫נסמן‬
‫‪x‬‬ ‫‪1−x‬‬
‫‪D(x||y) = x log + (1 − x) log‬‬ ‫;‬
‫‪y‬‬ ‫‪1−y‬‬
‫זוהי סטיית ‪ Kullback-Leibler‬בין ההתפלגויות )‪ b(x‬ו־)‪.b(y‬‬
‫הערה ‪ 2.7.7‬לכל ‪ .D(x||x) = 0 ,x‬לכל ‪ .D(x||y) ≥ 0 ,0 < x, y < 1‬קירוב טיילור‬

‫‪ǫ2‬‬
‫‪.D(p + ǫ||p) ≈ 2pq‬‬ ‫סביב ‪ ǫ = 0‬נותן‬
‫טענה ‪ 2.7.8‬יהי )‪ X ∼ Bin(m, p‬משתנה בינומי‪ .‬לכל ‪,ε > 0‬‬

‫‬ ‫‬
‫‪X‬‬
‫‪P‬‬ ‫‪≥ p + ε ≤ e−D(p+εkp)m‬‬
‫‪m‬‬
‫‬ ‫‬ ‫ו־‬

‫‪X‬‬ ‫‪−D(p−εkp)m‬‬
‫‪P‬‬ ‫‪≤p−ε‬‬ ‫‪≤e‬‬ ‫‪.‬‬
‫‪m‬‬
‫‪90‬‬
‫‪ .2.8‬פונקציה יוצרת מומנטים‬ ‫פרק ‪ .2‬מבוא להסתברות‬
‫‪2 m/2pq‬‬
‫‬ ‫‬
‫‪ P X‬חסום על־ידי‬
‫‬
‫‪ ;e−ǫ‬זו‬ ‫‪m‬‬
‫‪−‬‬ ‫‪p‬‬ ‫בקירוב‪ ,‬פירושו של דבר הוא ש־ ‪ > ǫ‬‬
‫החלפה של החסם ‪ 1/k‬שקיבלנו מאי־שוויון צ'ביצ'ב בחסם ‪.e−k/2‬‬
‫הוכחה‪ .‬אפשר להניח ש־ ‪ X = X1 + · · · + Xm‬כאשר )‪ X1 , . . . , Xm ∼ b(p‬והם בלתי‬

‫‪′‬‬
‫‪ X‬אם ורק אם ‪ eX ≥ emp‬אם‬ ‫תלויים‪ .‬נסמן ‪ .q ′ = 1−p′ ,p′ = p+ǫ‬לכל ‪≥ p′ ,λ > 0‬‬
‫‪m Q‬‬
‫‪Q λXi‬‬ ‫‪′‬‬ ‫‪′‬‬
‫ורק אם ‪ , eXi ≥ emp‬אם ורק אם ‪Q. eλXi ≥ eλmp‬המשתנה‬
‫‪Q‬‬
‫‪ e‬חיובי‪ ,‬ולפי‬
‫] ‪eλXi‬‬ ‫‪λXi‬‬ ‫‪λ‬‬
‫‪≥ eλmp ≤ E[eλmp‬‬ ‫‪= [ E[eeλp′ ] ]m = [ peeλp+q‬‬
‫‪Q λXi‬‬ ‫‪′‬‬ ‫‪m‬‬
‫‪P‬‬ ‫‪e‬‬ ‫‪′‬‬ ‫] ‪′‬‬ ‫אי־שוויון מרקוב‪= ,‬‬
‫‪′‬‬ ‫‪′‬‬
‫‪ ,[peq λ + qe−p λ ]m‬משום ש־‪ P (Xi = 1) = p‬ו־‪ .P (Xi = 0) = q‬נציב = ‪λ‬‬
‫‪′‬‬ ‫‪′‬‬ ‫‪′‬‬
‫‪P m‬‬ ‫‪X‬‬
‫‪) log( qp‬זו נקודת המינימום של הפונקציה ‪ ,(peq λ + qe−p λ‬ונקבל ≤ ‪≥ p + ε‬‬ ‫‪q′ p‬‬
‫)‬
‫‪′‬‬ ‫‪′‬‬
‫‪. pp′ ( ppqq′ )mq = e−D(p+εkp)m‬‬
‫אי־השוויון השני מתקבל מהחלפת המשתנים ‪ Xi‬ב־ ‪ Xi′ = 1 − Xi‬והפעלת אותו‬
‫‬ ‫חסם‪.‬‬
‫‪ 2.8‬פונקציה יוצרת מומנטים‬

‫‪ 2.8.1‬מומנטים‬
‫יהי ‪ X‬משתנה מקרי‪ .‬התוחלות ) ‪ E(X n‬נקראות מומנטים של ‪ .X‬כפי שכבר ראינו‪,‬‬
‫התוחלת )‪ µ = E(X‬והשונות ) ‪ E((X − µ)2‬הם בין התכונות החשובות ביותר של כל‬
‫התפלגות‪ .‬המומנטים ) ‪ E((X − µ)n‬נקראים מומנטים מרכזיים‪.‬‬
‫זו הזדמנות להזכיר שהמומנטים לא בהכרח קיימים‪ :‬המומנט ה־‪n‬־י קיים אם‬
‫האינטגרל המגדיר את התוחלת המתאימה מתכנס‪.‬‬
‫טענה ‪ 2.8.1‬אם למשתנה מקרי ‪ X‬בעל צפיפות ‪ f‬יש מומנט מסדר ‪ ,n‬אז יש לו כל‬
‫המומנטים מסדרים נמוכים יותר‪.‬‬
‫ ‪R1‬‬ ‫‬ ‫‪R1‬‬
‫הוכחה‪ .‬לכל ‪ , −1 xk f (x) ≤ −1 f (x)dx < 1 ,k‬ולכן המומנט ה־‪ k‬קיים אם ורק אם‬
‫‪R −1‬‬ ‫∞‪R‬‬
‫∞ < ‪ 1 xk f (x) dx‬ו־∞ < ‪ . −∞ xk f (x) dx‬אבל כאשר ‪ k < n‬אפשר להשוות בקרניים‬
‫‪R‬‬ ‫‪ R‬‬ ‫‬
‫‪ −1 k‬‬ ‫‪ −1 n‬‬ ‫∞‪R‬‬ ‫∞‪R‬‬
‫∞ < ‪ 1 xk f (x) dx ≤ 1 xn f (x) dx‬ובדומה < ‪ −∞ x f (x) dx ≤ −∞ x f (x) dx‬‬
‫‬
‫‬ ‫∞‪.‬‬
‫תרגיל ‪ 2.8.2‬נתון ‪ k‬שלם‪ .‬תן דוגמא למשתנה מקרי חיובי שיש לו המומנטים מסדר‬
‫‪ k‬ומטה‪ ,‬ואין לו מומנט מסדר ‪ .k + 1‬הדרכה‪ .‬בחר משתנה מקרי בעל ערכים טבעיים‪,‬‬
‫או משתנה רציף המקבל ערכים בקרן )∞ ‪.[1,‬‬
‫דוגמא ‪ 2.8.3‬הצפיפות )‪ fX (x) = π(x21+1‬מגדירה את התפלגות קושי‪ .‬למרות הסימטריה‪,‬‬

‫למשתנה בעל ההתפלגות הזו אין תוחלת‪ .‬גם למשתנה המקרי |‪ |X‬אין תוחלת‪.‬‬
‫‪91‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.8‬פונקציה יוצרת מומנטים‬
‫לעומת זאת יש משתנים שכל המומנטים שלהם מוגדרים‪ ,‬ובאלו נעסוק בהמשך‬
‫הסעיף‪.‬‬
‫) ‪E((X−µ)3‬‬
‫= )‪ ,γ1(X‬נקרא צידוד‬ ‫‪σ3‬‬
‫המומנט המרכזי השלישי‪ ,‬כשהוא מתוקנן לצורה‬
‫‪ .Skewness‬הוא מודד את חוסר הסימטריה של ההתפלגות‪ :‬למשתנה בעל צידוד‬
‫חיובי יש נטייה לקבל ערכים גבוהים ורחוקים מן הממוצע‪ ,‬יותר מאשר ערכים נמוכים‬
‫הרחוקים ממנו‪ ,‬ובגרף של פונקציית הצפיפות ניכר שהזנב הימני ארוך ועבה יותר מן‬
‫השמאלי‪ .‬הצידוד אינו משתנה תחת ‪4‬הפעלת טרנספורמציה ליניארית‪.‬‬
‫)‬
‫)‪ ,γ2 (X) = E((X−µ‬נקרא גבנוניות ‪.kurtosis‬‬ ‫‪σ4‬‬
‫המומנט המרכזי הרביעי‪− 3 ,‬‬
‫גבנוניות גבוהה מתבטאת בחריגות גדולות ונדירות מן הממוצע‪ ,‬בעוד שגבנוניות נמוכה‬
‫פירושה שהחריגות שכיחות אך קטנות יותר בעוצמתן‪ .‬הגבנוניות מנורמלת כך שלהתפלגות‬
‫הנורמלית יש גבנוניות ‪.0‬‬
‫‪ 2.8.2‬פונקציה יוצרת מומנטים‬

‫אפשר להצמיד למשתנה מקרי פונקציות רציפות בדרכים שונות‪ .‬גישה זו מאפשרת‬
‫לרתום את התוצאות של האנליזה ההרמונית‪ ,‬לחקר משתנים מקריים‪ .‬נתמקד כאן‬
‫בדוגמא הנפוצה ביותר‪.‬‬
‫הפונקציה יוצרת המומנטים של משתנה מקרי ‪ X‬היא הפונקציה הממשית‬
‫‪MX (t) = E(etX ).‬‬
‫)הפונקציה מוגדרת כאשר האינטגרל מתכנס‪ ,‬ולפי הנימוק של טענה ‪ 2.8.1‬תחום‬
‫ההתכנסות הוא קטע‪ ,‬אולי אינסופי ולאו דווקא סימטרי‪ ,‬סביב אפס(‪.‬‬
‫משפט ‪ ([8.26 ,1]) 2.8.4‬אם הפונקציה יוצרת המומנטים של משתנה מקרי ‪ X‬קיימת‬
‫)וסופית( בקטע פתוח סביב ‪ ,0‬אז כל המומנטים קיימים‪ ,‬ויש פיתוח טיילור = )‪MX (t‬‬
‫)‪(n‬‬ ‫‪E(X n ) n‬‬
‫∞ ; בפרט )‪.E(X n ) = MX (0‬‬
‫‪P‬‬
‫‪n=0‬‬ ‫!‪n‬‬
‫‪t‬‬
‫מכאן‪ ,‬כמובן‪ ,‬שמה של הפונקציה הזו‪ .‬למשל‪.MX (0) = 1 ,‬‬
‫דוגמא ‪ 2.8.5‬יהי ) ‪ X ∼ N(µ, σ 2‬משתנה בעל התפלגות נורמלית‪ .‬נחשב את הפונקציה‬
‫יוצרת המומנטים של ‪.X‬‬
‫) ‪MX (t) = E(etX‬‬
‫∞ ‪Z‬‬
‫‪1‬‬ ‫‪(x−µ)2‬‬
‫=‬ ‫√‬ ‫‪e− 2σ2 etx dx‬‬
‫∞‪−‬‬ ‫‪2πσ 2‬‬
‫∞ ‪Z‬‬
‫‪1‬‬ ‫‪(x−(µ+σ 2 t))2 −(2µ+σ 2 t)σ 2 t‬‬
‫√ =‬ ‫‪e−‬‬ ‫‪2σ 2‬‬ ‫‪dx‬‬
‫‪2‬‬
‫∞‪2πσ −‬‬
‫∞ ‪Z‬‬
‫‪µt+σ2 t2 /2‬‬ ‫‪1‬‬ ‫‪(x−(µ+σ 2 t))2‬‬ ‫‪2 2‬‬
‫‪= e‬‬ ‫√‬ ‫‪e−‬‬ ‫‪2σ 2‬‬ ‫‪dx = eµt+σ t /2 .‬‬
‫∞‪−‬‬ ‫‪2πσ 2‬‬
‫‪92‬‬
‫‪2 /2‬‬
‫‪ .MZ (t) = et‬כלומר‬ ‫בפרט‪ ,‬עבור המשתנה הנורמלי הסטנדרטי )‪,Z ∼ N(0, 1‬‬
‫∞‬ ‫∞‬
‫‪X‬‬ ‫‪E(Z n )tn‬‬ ‫‪2 /2‬‬
‫‪X‬‬ ‫‪t2m‬‬
‫‪= et‬‬ ‫=‬
‫‪n=0‬‬
‫!‪n‬‬ ‫‪m=0‬‬
‫!‪2m m‬‬
‫!)‪(2m‬‬
‫= ) ‪ .E(Z 2m‬למשל‬ ‫!‪2m m‬‬
‫ולכן ‪ E(Z 2m+1 ) = 0‬לכל ‪ ,m‬ואילו‬
‫!‪4‬‬ ‫!‪6‬‬
‫‪E(Z 2 ) = 1,‬‬ ‫= )‪E(Z 4‬‬ ‫‪= 3,‬‬ ‫= ) ‪E(Z 6‬‬ ‫‪= 15.‬‬
‫!‪22 2‬‬ ‫!‪23 3‬‬
‫דוגמא ‪ 2.8.6‬הפונקציה יוצרת המומנטים של‬

‫‪θ‬‬
‫‪; θ−t‬‬ ‫‪ .1‬התפלגות מעריכית‪:‬‬
‫‪t‬‬
‫‪ .2‬התפלגות פואסון‪.e(e −1)λ :‬‬
‫‪ .3‬התפלגות חי־בריבוע‪.(1 − 2t)−k/2 :‬‬
‫תרגיל ‪ 2.8.7‬יהי ‪ X‬משתנה מקרי חיובי‪ .‬אז )‪.limt→−∞ MX (t) = P (X = 0‬‬
‫טענה ‪ 2.8.8‬אם ‪ X‬משתנה מקרי‪ ,‬אז לכל קבוע ‪ a‬מתקיים )‪.MaX (t) = MX (at‬‬
‫טענה ‪ 2.8.9‬לפי טענה ‪ ,2.2.15‬אם ‪ X, Y‬בלתי תלויים‪ ,‬אז )‪.MX+Y (t) = MX (t)MY (t‬‬
‫תרגיל ‪ 2.8.10‬אם ‪ f ∈ R→R‬פונקציה רציפה כך ש־‪ f (0) = 0‬ו־‬
‫‪f (x + y) + f (x − y) = 2f (x) + f (y) + f (−y),‬‬
‫אז קיימים קבועים ‪ a, b‬כך ש־‪ .f (x) = ax2 + bx‬הדרכה‪ .‬נסמן )‪.g(x) = f (x)+ f (−x‬‬
‫הצבת ‪ −x, −y‬במשוואה‪ ,‬וחיסור המשוואות‪ ,‬מביא ל־)‪ g(x + y) = 2g(x) − g(x − y‬עם‬
‫‪ .g(0) = 0‬באינדוקציה על ‪ ,n‬נובע מכאן )‪ g(nx) = ng(x‬ולכן ‪ g(x) = 2bx‬עבור קבוע‬
‫‪ .c‬מכיוון ש־‪ f (x) = x‬הוא פתרון למשוואה המקורית‪ ,‬גם ההפרש ‪ f˜(x) = f (x) − bx‬הוא‬
‫פתרון‪ .‬אלא ש־)‪ ,f˜(−x) = f (−x) + bx = f (x) − bx = f˜(x‬ולכן‬
‫‪f˜(x + y) + f˜(x − y) = 2f˜(x) + 2f˜(y).‬‬

‫˜ ‪n2‬‬
‫‪f˜( m‬‬
‫‪n‬‬
‫‪y) = m‬‬ ‫˜‬ ‫˜‪2‬‬
‫כעת נציב ‪ ,x = ny‬ונקבל באינדוקציה )‪ ,f (ny) = n f (y‬ולכן גם )‪2 f (y‬‬
‫ובסופו של דבר ‪ f˜(x) = ax2‬עבור קבוע ‪ .a‬לכן ‪.f (x) = f˜(x) + bx = ax2 + bx‬‬
‫‪93‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.8‬פונקציה יוצרת מומנטים‬
‫משפט ‪ 2.8.11‬תהי ‪ F‬התפלגות בעלת והתכונה הבאה‪ :‬אם ‪ X, Y ∼ F‬בלתי תלויים‪ ,‬אז‬
‫‪ X + Y, X − Y‬בלתי תלויים‪ .‬נניח שהפונקציה יוצרת המומנטים של ‪ F‬רציפה‪ .‬אז היא‬
‫שווה לפונקציה יוצרת המומנטים של משתנה בעל התפלגות נורמלית‪.‬‬
‫הוכחה‪ .‬לפי האי־תלות של ‪ ,X + Y, X − Y‬לכל ‪ α, β‬מתקיים‬
‫= )‪M(α)2 M(β)M(−β‬‬ ‫)‪MX+Y (α)MX−Y (β‬‬

‫=‬ ‫)‪Mα(X+Y )+β(X−Y ) (1‬‬
‫=‬ ‫)‪M(α+β)X (1)M(α−β)Y (1‬‬
‫=‬ ‫‪M(α + β)M(α − β).‬‬
‫נסמן )‪ ,L(t) = log MX (t‬אז ‪ L(0) = 0‬ומתקיים‬
‫)‪(2.7‬‬ ‫‪2L(α) + L(β) + L(−β) = L(α + β) + L(α − β).‬‬

‫‪2 t2 /2‬‬
‫‪,M(t) = eµt+σ‬‬ ‫לפי תרגיל ‪ ,2.8.10‬קיימים ‪ σ, µ‬כך ש־‪ ,L(t) = µt + σ 2 t2 /2‬ולכן‬
‫‬ ‫כפי שהיה להוכיח‪.‬‬
‫‪ 2.8.3‬פונקציות יוצרות אחרות‬

‫הערה ‪ 2.8.12‬וריאציות על נושא‪ :‬מגדירים פונקציה יוצרת ) ‪) E(eizX‬כפונקציה מרוכבת(;‬
‫ופונקציית מומנטים פקטוריאליים המחשבת את התוחלות ))‪E(X(X −1) · · · (X −m+1‬‬
‫)מתאימה בעיקר למשתנים בדידים המקבלים ערכים שלמים(‪.‬‬
‫בסעיף זה נציג פונקציה יוצרת נוספת‪ ,‬שיש לה יתרונות בעיקר עבור משתנים‬
‫בדידים‪.‬‬
‫הגדרה ‪ 2.8.13‬יהי ‪ X‬משתנה מקרי‪ .‬מגדירים ) ‪ ,QX (t) = E(tX‬כמובן כאשר הטור‬
‫מתכנס‪.‬‬
‫‪ .QX (et ) = MX P‬אם ‪ X‬מקבל רק ערכים‬ ‫בפונקציה הזו אין חידוש רב‪ ,‬משום ש־)‪(t‬‬
‫= )‪ QX (t‬הוא טור חזקות פורמלי‪ ,‬שהוא‬ ‫טבעיים‪ ,0, 1, 2, . . . ,‬אז ‪P (X = n)tn‬‬
‫איבר של החוג ]]‪ ,R[[t‬וכך אנו פטורים משיקולי התכנסות‪.‬‬
‫תרגיל ‪ 2.8.14‬יהי ‪ X‬משתנה מקרי‪.‬‬
‫‪;QX (1) = 1 .1‬‬
‫‪;Q′X (1) = E(X) .2‬‬
‫‪94‬‬
‫)‪(k‬‬
‫‪ .3‬לכל ‪.QX (1) = E[X(X − 1) · · · (X − k + 1)] ,k ∈ N‬‬
‫תרגיל ‪ 2.8.15‬הראה שהטור )‪ QX (t‬מתכנס לפחות בקטע ]‪ ,(−1, 1‬ותן דוגמא‬

‫למשתנה שעבורו זה בדיוק תחום ההתכנסות‪.‬‬
‫תרגיל ‪ 2.8.16‬חשב את )‪ QX (t‬עבור )‪ .X ∼ G(p) ,X ∼ Bin(n, p‬הראה שאם‬

‫)‪ X ∼ Poi(λ‬אז ‪.QX (t) = e(t−1)λ‬‬
‫תרגיל ‪ 2.8.17‬אם ‪ X, Y‬בלתי תלויים‪ ,‬אז )‪.QX+Y (t) = QX (t)QY (t‬‬
‫תרגיל ‪ 2.8.18‬לכל שני משתנים מקריים‪.QY (t) = E(QY |X (t)) ,‬‬
‫תרגיל ‪ 2.8.19‬יהי ‪ Y‬משתנה מקרי המקבל ערכים טבעיים‪ ,‬ונניח שבהנתן ‪ Z ,Y‬הוא‬
‫סכום של ‪ Y‬משתנים מקריים בלתי תלויים ‪ X1 , . . . , XY‬בעלי אותה התפלגות‪.‬‬
‫הראה ש־))‪.QZ (t) = QY (QX (t‬‬
‫תרגיל ‪ 2.8.20‬תהי ‪ F‬התפלגות על המספרים הטבעיים‪ .‬נגדיר עץ מקרי )נקרא גם‬

‫תהליך גלטון־וטסון( להיות עץ‪ ,‬שבו מספר הענפים היוצאים מכל ענף מתפלג לפי‬
‫‪ .F‬פורמלית‪ ,‬התהליך הוא סדרה ‪ ,Y0 , Y1, . . .‬כך ש־‪ Y0 = 1‬ולכל ‪ Yn+1 ,n‬בהנתן‬
‫)‪P n (n‬‬
‫‪ Yi=1‬של ‪ Yn‬משתנים מקריים בלתי תלויים המתפלגים כולם‬ ‫‪ Yn‬הוא הסכום ‪Xi‬‬
‫)‪(n‬‬
‫‪.Xi ∼ F‬‬
‫)‪(n‬‬
‫הראה ש־)‪ ,QYn (t) = QFP(t‬כאשר ‪ n ,Q(n) = Q ◦ · · · ◦ Q‬פעמים‪.‬‬
‫∞‬
‫= ‪ ,S‬מספר הקודקודים הכולל בעץ‪ .‬הראה ש־= )‪QS (t‬‬ ‫נסמן ‪n=0 Yn‬‬
‫))‪) .t · QF (QS (t‬הדרכה‪ :‬אפשר לפרק ‪ S = 1 + S1 + · · · + SY1‬כאשר ‪ Si‬הם‬
‫בעלי אותה התפלגות כמו ‪.(S‬‬
‫מצא את ההתפלגות של ‪ S‬בהנחה ש־)‪ .F = Poi(λ‬דון בהבדלים המהותיים‬
‫בין המקרים ‪.λ > 1 ,λ = 1 ,λ < 1‬‬
‫תרגיל ‪ 2.8.21‬מכתב מסויים מצליח לשכנע כל אדם המקבל אותו לשלוח באקראי‬
‫‪ X‬עותקים של המכתב‪ ,‬כאשר ‪ X‬הוא משתנה מקרי בעל התפלגות קבועה‪ .‬האם‬
‫מכתב השרשרת ידעך או ישרוד? )הראה שהתשובה תלויה רק בתוחלת של ‪.(X‬‬
‫‬ ‫‬
‫תרגיל ‪ 2.8.22‬בשאלה ‪ ,2.3.37‬מה ההתפלגות של ))‪ ,f −1 (f k (w‬כאשר ‪ k‬מספר‬
‫קטן יחסית?‬
‫תרגיל ‪ 2.8.23‬נגדיר סדרת משתנים מקריים באופן הבא‪ ,X0 ∼ Poi(λ) :‬ולכל > ‪n‬‬
‫‪ ,1‬ההתפלגות של ‪ Xn‬בהנתן ‪ Xn−1‬היא ) ‪ .Poi(Xn‬חשב את ) ‪ ,E(Xn‬את ) ‪V(Xn‬‬
‫ואת ) ‪ .Cov(Xn , Xm‬הראה ש־ ‪ P (Xn = 0) = e−λan‬כאשר ‪.an = 1 − e−an−1‬‬
‫הוכח שהסדרה מתאפסת‪ ,‬בסופו של דבר‪ ,‬בהסתברות ‪.1‬‬
‫‪95‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.9‬הלמה של בורל־קנטלי‬
‫‪ 2.9‬הלמה של בורל־קנטלי‬
‫נתבונן בסדרת מאורעות ‪ .A1 , A2 , . . .‬מאורע הנגזר מהם נקרא מאורע זנב אם הוא‬
‫אינו מושפע מאף קבוצה סופית של מאורעות‪ .‬להלן שתי דוגמאות עיקריות‪ .‬מסמנים‬
‫∞‬ ‫∞‬
‫!‬
‫\‬ ‫[‬
‫= ‪lim sup An‬‬ ‫‪Am‬‬ ‫;} ‪= {x : (∃∞ n) x ∈ An‬‬
‫‪n‬‬
‫‪n=1‬‬ ‫‪m=n‬‬
‫זהו המאורע "מתרחשים אינסוף מבין המאורעות ‪ ."An‬בדומה לזה‪ ,‬מגדירים‬
‫∞‬ ‫∞‬
‫!‬
‫[‬ ‫\‬
‫= ‪lim inf An‬‬ ‫‪Am‬‬ ‫;}) ‪= {x : (∃n0 )(n > n0 =⇒ x ∈ An‬‬
‫‪n‬‬
‫‪n=1‬‬ ‫‪m=n‬‬
‫כלומר "המאורעות ‪ An‬מתרחשים ממקום מסויים ואילך"‪ .‬מכיוון ש־‪σ‬־אלגברות‬

‫סגורות לאיחוד ולחיתוך‪ ,‬גם הגבול העליון והגבול התחתון הם מאורעות‪ ,‬וברור שהם‬
‫אינם משתנים אם נשנה מספר סופי מבין המאורעות בסדרה‪.‬‬
‫חוק האפס־אחד של קולמוגורוב )שלא נוכיח כאן( קובע שההסתברות למאורע זנב‬
‫היא תמיד אפס או אחד‪ .‬כלומר‪ ,‬מאורע זנה הוא או "נכון" )מתרחשב בהסתברות‬
‫אחד(‪ ,‬או "לא נכון" )מתרחש בהסתברות אפס(‪ .‬הלמות של בורל־קנטלי עונות לשאלה‬
‫מתי ‪ lim sup An‬נכון‪ ,‬ומתי הוא לא נכון‪.‬‬
‫‪P‬‬
‫‪ .‬אז מתקיים‬ ‫למה ‪) 2.9.1‬הלמה הראשונה של בורל־קנטלי( נניח ש־∞ < ) ‪P (An‬‬
‫‪.P (lim sup An ) = 0‬‬
‫‪P‬‬
‫= ‪ N‬את הסכום‪ .‬כעת‬ ‫‪ P‬המציין של ‪ ,An‬וב־ ‪Xn‬‬‫המשתנה המקרי‬
‫נסמן ב־ ‪ Xn‬את ‪P‬‬
‫הוכחה‪P .‬‬
‫= ) ‪ ,E(N) = E( Xn‬ולפי ההנחה זהו ערך סופי‪ .‬לכן בהכרח‬ ‫= ) ‪E(Xn‬‬ ‫) ‪P (An‬‬
‫‬ ‫‪.P (lim sup An ) = P (N = ∞) = 0‬‬
‫‪P‬‬
‫והמאורעות בלתי תלויים‬ ‫למה ‪) 2.9.2‬הלמה השניה של בורל־קנטלי( אם ∞ = ) ‪P (An‬‬
‫במשותף‪ ,‬אז ‪.P (lim sup An ) = 1‬‬
‫‪96‬‬
‫‪ .2.10‬חוקי המספרים הגדולים‬ ‫פרק ‪ .2‬מבוא להסתברות‬
‫הוכחה‪ .‬לכל ‪ n‬קבוע מתקיים ש־‬

‫∞‬
‫!‬ ‫∞‬
‫!‬
‫[‬ ‫[‬
‫‪P‬‬ ‫‪Am‬‬ ‫‪= 1−P‬‬ ‫‪Am‬‬
‫‪m=n‬‬ ‫‪m=n‬‬
‫∞‬
‫!‬
‫\‬
‫‪= 1−P‬‬ ‫‪Am‬‬
‫‪m=n‬‬
‫∞‬
‫‪Y‬‬ ‫‬
‫‪= 1−‬‬ ‫‪P Am‬‬
‫‪m=n‬‬
‫‪Y‬‬‫∞‬
‫‪= 1−‬‬ ‫‪(1 − P (Am )) = 1,‬‬
‫‪m=n‬‬
‫∞‪P‬‬ ‫∞‪P‬‬
‫לכל ‪ ,n‬ומזה נובע שהמכפלה‬ ‫‪m=n‬‬ ‫אז ∞ = ) ‪P (Am‬‬ ‫‪m=1Q‬‬‫משום שאם ∞ = ) ‪P (Am‬‬
‫∞‬
‫‪S∞ . m=n (1 − P (Am )) = 0‬‬
‫היא סדרה יורדת‪ ,‬ולכן‬ ‫אבל סדרת המאורעות ‪m=n Am‬‬
‫[ ∞‬ ‫∞‬
‫!‬ ‫∞‬
‫!‬
‫\‬ ‫[‬
‫‪P (lim sup An ) = P‬‬ ‫‪Am = lim P‬‬ ‫‪Am‬‬ ‫‪= 1.‬‬
‫∞→‪n‬‬
‫‪n=1 m=n‬‬ ‫‪m=n‬‬
‫‬
‫‪ P‬תלויים במשותף‪ ,‬מתרחשים אינסוף‬‫לסיכום‪ ,‬לפחות כאשר המאורעות ‪ An‬בלתי‬

‫הוא אינסוף‪.‬‬ ‫מהם אם ורק אם סכום ההסתברויות ) ‪P (An‬‬
‫‪ 2.10‬חוקי המספרים הגדולים‬

‫אם ‪ X1 , X2 , . . .‬סדרה של משתנים מקריים‪ ,‬נסמן ‪.X̄n = (X1 + · · · + Xn )/n‬‬
‫החוק החלש של המספרים הגדולים‬ ‫‪2.10.1‬‬

‫‪P‬‬
‫סדרת משתנים מקריים ‪ Yn‬מתכנסת בהסתברות לקבוע ‪) µ‬כותבים ‪ ,(Yn −→ µ‬אם‬
‫לכל ‪,ε > 0‬‬
‫‪lim P (|Yn − µ| < ε) = 1.‬‬
‫∞→‪n‬‬
‫במלים אחרות‪ ,‬לכל ‪ ,ε > 0‬הסיכוי לכך ש־‪ |Yn − µ| > ε‬שואף לאפס‪.‬‬
‫‪97‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.10‬חוקי המספרים הגדולים‬
‫משפט ‪) 2.10.1‬החוק החלש של המספרים הגדולים( תהי ‪ X1 , X2 , . . .‬סדרה של משתנים‬

‫‪P‬‬
‫מקריים בלתי מתואמים‪ ,‬בעלי אותה תוחלת ‪ µ‬ושונות ‪ .σ 2‬אז ‪.X̄n −→ µ‬‬
‫‬ ‫הוכחה‪ .‬לפי אי־שוויון צ'ביצ'ב‪.‬‬
‫‪. n12‬‬
‫‪P‬‬
‫למעשה אין צורך להניח שונות קבועה‪ :‬די בכך ש־ ‪V(Xi )→0‬‬
‫ציטוט ‪" 2.10.2‬אם נטיל מטבע הוגן מליארד פעמים‪ ,‬יתכן גם רצף של עשרות אלפי 'עץ' ־‬
‫זהו החוק החלש" )ויקיפדיה‪ ,‬הערך "חוק המספרים הגדולים"‪ ,‬עורך אלמוני(‪.‬‬
‫החוק החלש אינו עוסק ברצפים של ערכים‪ .‬אם מטילים מטבע מילארדי פעמים‪,‬‬
‫צפוי שנתקל ברצף של ‪10‬־‪ 11‬הטלות זהות )ראה תרגיל ‪ .(2.3.47‬מה שהחוק החלש‬
‫יודע לומר במצב זה הוא שאם התמשכות סדרת ההטלות‪ ,‬הסיכוי שהערך הממוצע יפול‬
‫בטווח )‪ (0.4999, 0.5001‬הולך וגדל‪ ,‬ושואף לאחד‪.‬‬
‫תרגיל ‪ X1 , . . . , X100 2.10.3‬הם משתנים מקריים בלתי תלויים‪ ,‬בעלי תוחלת ‪0‬‬
‫‪1‬‬ ‫‪1‬‬
‫‪50‬‬
‫‪ . 50‬מה התוחלת של ‪(X51 + · · · +‬‬ ‫ושונות ‪ .1‬ידוע ש־‪(X1 + · · · + X50 ) = 0.14‬‬
‫) ‪?X100‬‬
‫הרהר בתפישה הנפוצה שלפיה המשך הסדרה אמור לתקן את ראשיתה‪ ,‬אם‬
‫זו סוטה מן הממוצע‪.‬‬
‫החוק החזק של המספרים הגדולים‬ ‫‪2.10.2‬‬

‫‪a.s.‬‬
‫סדרת משתנים מקריים ‪ Yn‬מתכנסת כמעט תמיד לקבוע ‪) µ‬כותבים ‪ ,(Yn −→ µ‬אם‬
‫‪.P (lim Yn = µ) = 1‬‬
‫הערה ‪ 2.10.4‬כאן צריך להוכיח שהדרישה ‪ lim Yn = 0‬היא אכן מאורע )אחרת‪ ,‬הסתברות‬
‫מניין(‪ .‬ואכן‪ ,‬המאורע הזה שווה ל־}‪ ,∩d ∪N ∩n≥N {|Yn | < 1/d‬ולכן שייך ל־‪-σ‬אלגברה‬
‫שביחס אליה כל ה־ ‪ Yn‬הם משתנים מקריים‪.‬‬
‫משפט ‪) 2.10.5‬החוק החזק של המספרים הגדולים( תהי ‪ X1 , X2 , . . .‬סדרת משתנים מקריים‬

‫‪a.s.‬‬
‫בלתי תלויים בעלי תוחלת ‪ µ‬ושונות ‪ .σ 2‬אז ‪.X̄n −→ µ‬‬
‫את המשפט החשוב הזה לא נוכיח‪ .‬גם כאן‪ ,‬אין צורך להניח שהשונות קבועה; די‬
‫להניח שהיא חסומה‪.‬‬
‫כעת נוכל לטפל בשאלה האם סדרת משתנים מתכנסת לאפס‪:‬‬
‫‪a.s.‬‬
‫טענה ‪ 2.10.6‬התכנסות כמעט תמיד גוררת התכנסות בהסתברות‪ :‬אם ‪ Yn −→ 0‬אז גם‬
‫‪P‬‬
‫‪.Yn −→ 0‬‬
‫‪98‬‬
‫‪ .2.10‬חוקי המספרים הגדולים‬ ‫פרק ‪ .2‬מבוא להסתברות‬
‫הוכחה‪ .‬נקבע ‪ ,ǫ > 0‬ונסמן ב־ ‪ An‬את המאורע ‪ .|Yn | < ǫ‬אז‬
‫)‪1 = P ( lim Yn = 0‬‬

‫∞→‪n‬‬
‫)‪= P (∀δ > 0∃N∀n ≥ N : |Yn | < δ‬‬
‫)}‪= P (∩δ ∪N ∩n≥N {|Yn | < δ‬‬
‫) ‪≤ P (∪N ∩n≥N An‬‬
‫;) ‪= lim P (∩n≥N An ) ≤ lim P (AN‬‬
‫∞→ ‪N‬‬ ‫∞→ ‪N‬‬
‫שים לב ש־) ‪ P (∩An‬אינו הגבול של ) ‪ ,P (An‬כי זו אינה סדרת מאורעות מונוטונית‪ .‬‬
‫דוגמא נגדית לכיוון ההפוך‪:‬‬

‫‪P‬‬
‫טענה ‪ 2.10.7‬נניח ) ‪ Yn ∼ b( n1‬בלתי תלויים‪ .‬אז ‪ ,Yn −→ 0‬אבל היא אינה מתכנסת‬
‫כמעט תמיד‪ :‬הסתברות ההתכנסות היא ‪.0‬‬
‫הוכחה‪ .‬לכל ‪ ,ǫ > 0‬אפשר לחשב ‪ ,P (Yn < ǫ) ≥ P (Yn = 0) = 1 − n1 →1‬ולכן‬

‫‪P‬‬
‫שהיא תתכנס ל־‪ 0‬נדרש שתהיה קבועה‬ ‫‪ .Yn −→ 0‬אבל מכיוון שזו סדרה בדידה‪,‬‬
‫‪ n−1‬כדי ‪Q‬‬
‫ממקום מסויים ואילך; לכל ‪ ,P (∀n ≥ N : Yn = 0) = n≥N n = 0 ,N‬ולכן‬
‫‬ ‫‪.P (∃N : ∀n ≥ N : Yn = 0) = 0‬‬
‫!‬ ‫!!‬ ‫תרגיל ‪2.10.8‬‬

‫∞‬
‫\‬ ‫∞‬
‫[‬ ‫∞‬
‫[‬ ‫∞‬
‫\‬ ‫∞‬
‫[‬
‫‪Am‬‬ ‫=‬ ‫‪Am‬‬ ‫‪.‬‬
‫‪n=1‬‬ ‫‪m=n‬‬ ‫‪k=1‬‬ ‫‪n=k‬‬ ‫‪m=n‬‬
‫‪ 2.10.3‬משפט הגבול המרכזי‬

‫משפט ‪ ,1]) 2.10.9‬משפט ‪ ([8.34‬אם )‪ MX (t‬קיימת לכל ‪ ,t‬אז הפונקציה קובעת את‬
‫ההתפלגות‪ .‬הערה‪ .‬לא נוכיח בקורס‪.‬‬
‫‪D‬‬
‫סדרת משתנים מקריים ‪ Yn‬מתכנסת בהתפלגות למשתנה מקרי ‪) Y‬כותבים →‪Yn −‬‬
‫‪ ,(Y‬אם לכל ‪,a‬‬
‫‪lim P (Yn ≤ a) = P (Y ≤ a).‬‬
‫∞→‪n‬‬
‫‪D‬‬ ‫‪P‬‬
‫טענה ‪ 2.10.10‬אם ‪ ,Yn − Y −→ 0‬אז ‪.Yn −→ Y‬‬
‫‪99‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.10‬חוקי המספרים הגדולים‬
‫‪D‬‬
‫טענה ‪ 2.10.11‬אם )‪ MYn (t)→MY (t‬לכל ‪ ,t‬אז ‪.Yn −→ Y‬‬
‫משפט ‪) 2.10.12‬משפט הגבול המרכזי( תהי ‪ X1 , X2 , . . .‬סדרה של משתנים מקריים בלתי‬

‫¯‬ ‫‪D‬‬
‫‪. Xσ/n√−µ‬‬
‫‪n‬‬
‫תלויים בעלי אותה התפלגות‪ ,‬שיש לה תוחלת ‪ µ‬ושונות ‪ .σ 2‬אז )‪−→ N(0, 1‬‬
‫הוכחה‪ .‬על־ידי טרנספורמציה ליניארית אפשר להניח ‪ .σ = 1 ,µ = 0‬לכן ‪,MX (0) = 1‬‬
‫‪.MX′′ (0) = 1 ,MX′ (0) = 0‬‬
‫ההוכחה בהנחה ש־ )‪ MX (t‬גזירה פעמיים ברציפות ב־‪ .t = 0‬נחשב‪:‬‬
‫√‬
‫‪n·X¯n‬‬
‫)‪lim M√n·X¯n (t‬‬ ‫=‬ ‫‪lim E(et‬‬ ‫)‬
‫∞→‪n‬‬ ‫∞→‪n‬‬
‫√‬
‫=‬ ‫‪lim E(et(X1 +···+Xn )/‬‬ ‫‪n‬‬
‫)‬
‫∞→‪n‬‬
‫√‬
‫‪tX/ n n‬‬
‫=‬ ‫‪lim E(e‬‬ ‫)‬
‫∞→‪n‬‬
‫√‬
‫=‬ ‫‪lim M(t/ n)n‬‬
‫∞→‪n‬‬
‫‬ ‫ √‬
‫)‪log M(t/ n‬‬
‫=‬ ‫‪exp lim‬‬
‫∞→‪n‬‬ ‫‪n−1‬‬
‫√‬
‫‪L′ hospital‬‬ ‫‪t‬‬ ‫)‪log M ′ (t/ n‬‬
‫=‬ ‫‪exp( lim‬‬ ‫√‬ ‫)‬
‫)‪n→∞ 2M(t/ n‬‬ ‫‪n−1/2‬‬
‫ √‬
‫)‪log M ′ (t/ n‬‬
‫‬
‫‪t‬‬
‫=‬ ‫‪exp‬‬ ‫‪lim‬‬
‫∞→‪2 n‬‬ ‫‪n−1/2‬‬
‫‬ ‫‬
‫‪L′ hospital‬‬ ‫‪t‬‬ ‫‪′′‬‬
‫‪p‬‬
‫=‬ ‫‪exp‬‬ ‫))‪lim tM (t/ (n‬‬
‫∞→‪2 n‬‬
‫‪ 2‬‬
‫‪t‬‬
‫=‬ ‫‪exp‬‬ ‫‪.‬‬
‫‪2‬‬
‫‬
‫הערה ‪ 2.10.13‬משפט ‪) Berry-Esseen‬עם קבוע משופר לפי ‪ (Tyurin, 2010‬נותן חסם‬

‫על גודל השגיאה במשפט הגבול המרכזי‪ :‬לכל ‪,z‬‬
‫ ‬ ‫‪ Z z‬‬ ‫‬ ‫‬ ‫! ‪3‬‬
‫̄‪X‬‬ ‫‪n‬‬ ‫‪−‬‬ ‫‪µ‬‬ ‫‪1‬‬ ‫‪t2‬‬ ‫‪1‬‬ ‫‪X‬‬ ‫‪1‬‬ ‫‪−‬‬ ‫‪µ‬‬ ‫‪ √1 .‬‬
‫ ‪√ e− 2 dt ≤ E‬‬
‫‬ ‫‬ ‫‬ ‫‬
‫‪P‬‬ ‫‪√ ≤z −‬‬
‫‬ ‫‪σ/ n‬‬ ‫∞‪−‬‬ ‫‪2π‬‬ ‫‪2‬‬ ‫ ‪σ‬‬ ‫‪n‬‬
‫‪P‬‬
‫דוגמא ‪ 2.10.14‬במקרה המיוחד )‪ ,Xi ∼ b(p‬כמובן )‪ ; Xi ∼ Bin(n, p‬במקרה זה‬
‫משפט הגבול המרכזי קובע ש־ )‪ X ∼ Bin(n, p‬מתפלג בקירוב )‪ .N(np, npq‬המשפט‬
‫הזה נקרא 'משפט דה־מואבר‪−‬לפלס'‪ ,‬או הקירוב הנורמלי להתפלגות בינומית‪.‬‬
‫‪100‬‬
‫‪ .2.11‬שרשראות מרקוב‬ ‫פרק ‪ .2‬מבוא להסתברות‬
‫תרגיל ‪ 2.10.15‬נניח ש־ ‪ Xi‬הם משתנים מקריים בלתי תלויים‪ ,‬בעלי סיכוי שווה לקבל‬
‫את הערכים ‪ .±1‬הערך את גודלו של הסכום ‪ .X1 + · · · + X1000000‬מה הסיכויים‬
‫לכך שהוא יפול בטווח )‪?(−50, 50‬‬
‫תרגיל ‪ 2.10.16‬את השאלה הבאה הציג סמואל פפיס )‪ (1703-1633‬לניוטון‪ .‬זורקים‬

‫‪ 6k‬קוביות‪ ,‬במטרה לקבל לפחות ‪ k‬פעמים ‪ .6‬מתי הסיכוי גדול יותר‪ :‬כאשר‬
‫‪ k = 2 ,k = 1‬או ‪ ?k = 3‬חשב את הסיכוי כאשר ∞→‪.k‬‬
‫‪P‬‬
‫תרגיל ‪ 2.10.17‬דון בדוגמא )‪ ,X1 , . . . , Xn ∼ P (1‬עם )‪ , Xi ∼ P (n‬וקבל קירוב‬
‫נורמלי להתפלגות פואסונית‪.‬‬
‫‪P‬‬
‫תרגיל ‪ 2.10.18‬דון בדוגמא )‪ ,X1 , . . . , Xn ∼ P (λ/n‬כאשר ‪ λ‬קבוע‪ .‬כאן ∼ ‪Xi‬‬
‫)‪ .P (λ‬האם נובע מזה שכל התפלגות פואסונית היא למעשה נורמלית?‬
‫תרגיל ‪ 2.10.19‬מטילים קוביה מאתיים פעמים‪ .‬הערך את הסיכויים לכך שסכום מאה‬
‫ההטלות הראשונות יהיה שווה לסכום מאה ההטלות האחרונות‪ .‬הדרכה‪ .‬נסמן את שני‬
‫הסכומים ב־ ‪ .S1 , S2‬לפי משפט הגבול המרכזי‪ S1 , S2 ∼ N (350, σ 2 ) ,‬בקירוב עם ‪.σ ≈ 17.07‬‬
‫מכיוון שהסכומים נופלים בדרך כלל בטווח של סטיית תקן או שתיים מן התוחלת‪ ,‬כלומר בטווח‬
‫של כ־‪ 50‬ערכים‪ ,‬הסיכוי הוא בסביבות ‪) .0.02‬השווה לתרגיל ‪ ,2.3.76‬שאפשר לפתור בדרך‬
‫דומה‪(.‬‬
‫‪ P‬עם פרמטר ‪ ,λ‬אפשר‬ ‫תרגיל ‪ 2.10.20‬יהי ‪ λ‬קבוע‪ .‬כדי לקבל משתנה פואסוני‬
‫להגדיר )‪ ,X1 , . . . , Xn ∼ Poi(λ/n‬ולקחת )‪ .X = Xi ∼ Poi(λ‬הסבר מדוע לא‬
‫‪ Poi(λ)−λ‬מתפלג‪ ,‬בקירוב‪.N(0, 1) ,‬‬
‫√‬
‫‪λ‬‬
‫נובע ממשפט הגבול המרכזי שהיחס‬
‫שרשראות מרקוב‬ ‫‪2.11‬‬

‫שרשראות מרקוב הם נושא חשוב ורחב היקף בתורת ההסתברות‪ .‬בחרנו להציג את‬
‫הנושא על קצה המזלג כבר בקורס זה‪ ,‬משום ששרשראות מרקוב פותחות‪ ,‬במאמץ לא‬
‫גדול‪ ,‬פתח לפתרון של בעיות מעניינות וחשובות‪ ,‬הנמצאות מחוץ להישג ידן של השיטות‬
‫שפגשנו עד כה‪.‬‬
‫הגדרה ‪ 2.11.1‬שרשרת מרקוב היא סדרה של משתנים מקריים ‪ ,X0 , X1 , . . .‬כך שלכל‬
‫‪ Xn ,n < m‬מפריד את ‪ Xm‬מהווקטור ) ‪) (X0 , . . . , Xn−1‬ראה הגדרה ‪.(2.2.16‬‬
‫כלומר‪ ,‬ההווה מנתק את הקשר בין העבר והעתיד‪ .‬אנחנו נניח ש־‬
‫‪P (Xn+1 = i|Xn = j) = Aij‬‬
‫‪101‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.11‬שרשראות מרקוב‬
‫אינו תלוי ב־‪) n‬למרות שאפשר ללמוד גם ‪P‬‬

‫שרשראות התלויות בזמן(‪.‬‬
‫לכל ‪ ,j‬אפשר להגדיר שרשרת מרקוב‬ ‫בהנתן מטריצה ‪ Aij‬כך ש־‪i Aij = 1‬‬
‫באינדוקציה ‪ -‬קובעים )או מגרילים( את ‪ ,X0‬ולכל ‪ n‬מגרילים את ‪ Xn+1‬בהתפלגות‬
‫ש־ ‪ Xn‬מכתיב‪.‬‬
‫דוגמא ‪ 2.11.2‬אם מגרילים סדרת משתנים מקריים כך שהתפלגות ‪ Xn+1‬בהנתן ‪X1 , . . . , Xn‬‬
‫תלויה רק ב־ ‪ ,Xn‬מתקבל שרשרת מרקוב‪.‬‬
‫נסמן ב־‪ J‬את וקטור העמודה שכל רכיביו שווים ל־‪ .1‬וקטור התפלגות על ‪ N‬מצבים‬
‫הוא וקטור חיובי ‪ v‬באורך ‪ ,N‬המקיים ‪ .J t v = 1‬לדוגמא‪ ,‬את ההתפלגות '‪X = 2‬‬
‫בוודאות' מקודד וקטור היחידה ‪ .e2‬כל וקטור התפלגות הוא צירוף קמור של וקטורי‬
‫היחידה‪.‬‬
‫טענה ‪ 2.11.3‬תהי ‪ A‬מטריצת מרקוב; אז ‪.J t A = J t‬‬
‫אכן‪,‬‬ ‫טענה ‪ 2.11.4‬סכום הרכיבים בכל וקטור עצמי של ערך עצמי ‪ 6= 1‬הוא אפס‪.‬‬
‫מ־‪ Av = λv‬נובע ‪.J t v = J t Av = λJ t v‬‬
‫למה ‪ 2.11.5‬אם ‪ Xn ∼ v‬אז ‪.Xn+1 ∼ Av‬‬
‫זהו ניסוח מחדש של נוסחת ההסתברות השלמה‪.‬‬

‫באינדוקציה נובע מכאן ש־‪.Xn+k ∼ Ak v‬‬
‫מסקנה ‪.P (Xn+k = i|Xn = j) = (Ak )ij 2.11.6‬‬
‫בפרט‪ ,‬אם ההתפלגות של ‪ X0‬לפי וקטור ‪ ,u‬אז ההתפלגות של ‪ Xn‬היא לפי הווקטור‬
‫‪.An u‬‬
‫תאור גרפי‬ ‫‪2.11.1‬‬

‫שרשרת מרקוב אפשר לתאר בגרף שקודקודיו הם המצבים‪ ,‬כשעל כל חץ כתובה‬
‫ההסתברות למעבר; כלומר‪ ,‬על החץ מ־‪ i‬ל־‪ j‬תופיע ההסתברות )‪.P (Xn+1 = j|Xn = i‬‬
‫אם ההסתברות היא ‪ 0‬אין צורך בחץ‪ .‬אם כל ההסתברויות שוות‪ ,‬אפשר להשמיט את‬
‫הערך‪ .‬סכום כל ההסתברויות היוצאות מקודקוד צריך להיות ‪ ,1‬אלא אם מדובר‬
‫בקודקוד מיוחד שתפקידו מובן מן ההקשר )ראו קודקודים סופגים להלן(‪.‬‬
‫דוגמא ‪ 2.11.7‬הגרף‬
‫‪0.2‬‬ ‫&‬ ‫‪0.4‬‬ ‫&‬
‫‪0.8‬‬ ‫‪9‬‬ ‫‪1f‬‬ ‫‪2f‬‬ ‫‪3‬‬
‫‪0.6‬‬
‫מתאר שרשרת בת שלושה מצבים‪ ,‬שבו אפשר להשאר במצב ‪ 1‬או לעבור ממנו למצב ‪,2‬‬
‫ממצב ‪ 2‬עוברים לאחד משני המצבים האחרים‪ ,‬וממצב ‪ 3‬עוברים מיד למצב ‪.2‬‬
‫‪102‬‬
‫ההתפלגות הסטציונרית‬ ‫‪2.11.2‬‬

‫התפלגות ‪ u‬היא יציבה אם ‪ .Au = u‬יהי ‪ v‬וקטור עצמי של ערך עצמי כלשהו; כלומר‬
‫‪ .Av = λv‬אז ‪ ,J t v = J t Av = λJ t v‬ולכן יש שתי אפשרויות‪ :‬סכום הרכיבים הוא‬
‫אפס‪ ,‬או שהערך העצמי הוא ‪.1‬‬
‫לכל וקטור עצמי שסכומו אינו אפס‪ ,‬הערך העצמי הוא ‪ .1‬אם ‪ A‬לכסינה‪ ,‬אז‬
‫הווקטור ‪ An u‬הולך ומתקרב להתפלגות הסטציונרית‪ ,‬וזאת לכל וקטור ‪.u‬‬
‫‪15 5 2‬‬
‫‪ .( 22‬פירושו של דבר‬ ‫דוגמא ‪ 2.11.8‬בדוגמא ‪ ,2.11.7‬ההתפלגות הסטציונרית היא ) ‪, 22 , 22‬‬
‫שבטווח הארוך‪ ,‬השרשרת מבלה ‪ 15 : 5 : 2‬מהזמן במצבים ‪ 1, 2, 3‬בהתאמה‪.‬‬
‫‬ ‫‬
‫‪0.2‬‬ ‫‪0.8‬‬
‫דוגמא ‪ 2.11.9‬נגדיר שרשרת מרקוב לפי המטריצה ‪ .A = 0.4 0.6‬חשב את = ‪P (Xn‬‬
‫)‪ ,1|Xn+1 = 1‬בהנחה ש־‪ n‬גדול‪ .‬היפוך הזמן דורש חישוב של )‪.P (Xn = 1‬‬
‫‪ .1‬הראה שאם ‪ A‬מטריצת מרקוב ‪ 2 × 2‬עם וקטור עצמי ‪ v‬של‬ ‫תרגיל ‪2.11.10‬‬
‫הערך העצמי ‪ ,1‬אז ‪.A12 v1 = A21 v2‬‬
‫‪ .2‬הראה שבשרשרת מרקוב עם שני מצבים‪ ,‬אם ‪ n‬גדול‪ ,‬אז‬
‫‪P (Xn+1 = 1|Xn = 2) = P (Xn = 1|Xn+1 = 2).‬‬
‫‪ .3‬לכל ‪ ,k‬אם ‪ n‬גדול מתקיים‬
‫‪P (Xn+k = 1|Xn = 2) = P (Xn = 1|Xn+k = 2).‬‬
‫‪ .4‬הראה שתכונה זו אינה מתקיימת לתהליך ‪ ,3 × 3‬אפילו אם מניחים‬
‫‪P (X1 = 2|X0 = 3) = P (X1 = 1|X0 = 2) = 1.‬‬
‫תרגיל ‪ 2.11.11‬שיכור מהלך על המספרים ‪ ,0, . . . , n − 1‬כשבכל דקה הוא מבצע‬

‫צעד ימינה או שמאלה )מודולו ‪ .(n‬הראה שההתפלגות הסטציונרית היא ההתפלגות‬
‫האחידה‪.‬‬
‫‪103‬‬
‫תרגיל ‪ 2.11.12‬מהמר מתחיל את סדרת ההימורים שלו עם ‪ X0‬שקלים בכיסו‪ .‬בכל‬

‫משחקון‪ ,‬הוא מרוויח או מפסיד שקל אחד‪ ,‬בהסתברויות שוות‪ .‬אם הוא מפסיד את‬
‫כל כספו‪ ,‬הוא נזרק מן הקזינו‪ .‬אם הוא מגיע להון של ‪ n‬שקלים‪ ,‬הוא שומר על‬
‫רכושו ויוצא בראש מורם‪ .‬הראה שהסיכוי לכך שהמהמר יצליח שווה ל־ ‪. Xn0‬‬
‫דוגמא ‪ 2.11.13‬הדוגמא הבאה קרויה "ספריית צטלין" )‪ .(Tsetlin‬בספריה מדף ארוך‪,‬‬

‫שהספרן יושב בקצהו‪ .‬בין הספרים יש פופולריים יותר ופחות‪ :‬הסיכוי לבקש את ספר ‪i‬‬
‫הוא ‪ .p1 + · · · + pn = 1 ,pi‬מתוך עצלות‪ ,‬הספרן מחזיר את הספר תמיד לקצה המדף‪,‬‬
‫כשהוא דוחק את שאר הספרים במורד הרשימה‪ .‬עם הזמן‪ ,‬הספריה מתארגנת באופן כזה‬
‫שהספרים המבוקשים קרובים יותר לתחילת המדף‪ .‬זוהי שרשרת מרקוב על !‪ n‬הסידורים‬
‫האפשריים‪ ,‬כאשר התמורה ‪ σ‬מתאימה לסידור הספרים )‪.σ(1), σ(2), . . . , σ(n‬‬
‫לכל ‪ ,i‬הסיכוי לעבור מסידור הספרים המתאים לתמורה ))‪ (σ(1), . . . , σ(n‬אל הסידור‬
‫המתאים לתמורה ))‪ ,(σ(i), σ(1), . . . , σ(i − 1), σ(i + 1), . . . , σ(n‬הוא )‪.pσ(i‬‬
‫הוכח שההתפלגות הסטציונרית של הספרים על המדף היא זו המתקבלת מבחירת‬
‫הספרים לתחילת המדף ואילך‪ ,‬באקראי וללא החזרה‪.‬‬
‫מאורעות שאינם תלויי זמן‬ ‫‪2.11.3‬‬

‫ראינו בסעיף הקודם שחזקות של מטריצת המעבר מאפשרות לחשב היכן יבקר התהליך‬
‫בעוד מספר קבוע של צעדים‪ ,‬ואפילו היכן הוא יבקר בעתיד הרחוק‪ .‬אחת התכונות‬
‫היפות של שרשראות מרקוב היא שאפשר לחשב בעזרתם את ההסתברות למאורעות‬
‫שונים שאינם תלויים בזמן‪ .‬למשל‪ ,‬עבור תהליך נתון‪:‬‬
‫‪ .1‬מה ההסתברות שהתהליך יבקר בסופו של דבר במצב ‪?α‬‬
‫‪ .2‬מה ההסתברות לכך שהביקור הראשון במצב ‪ α‬יתרחש לפני הביקור הראשון‬
‫במצב ‪?β‬‬
‫‪ .3‬מהם הסיכויים לכך שהביקור הראשון במצב ‪ α‬יתרחש בזמן זוגי?‬

‫לפני שנציג פתרון לכל הבעיות האלה‪ ,‬נדון בבעיה בראשונה‪ .‬אם התהליך קשיר‬
‫)כלומר‪ ,‬אפשר להגיע בהסתברות חיובית מכל נקודה לכל נקודה אחרת(‪ ,‬הוא מבקר‬
‫בסופו של דבר בכל מצב )ולכן מבקר בכל מצב אינסוף פעמים(‪ .‬דוגמא פשוטה לתהליך‬
‫לא קשיר מתקבלת כאשר יש בו מצב סופג‪:‬‬
‫הגדרה ‪ 2.11.14‬מצב ‪ t‬של שרשרת מרקוב נקרא מצב סופג אם אי אפשר לעזוב אותו‪,‬‬
‫כלומר ‪.P (Xn+1 = t|Xn = t) = 1‬‬
‫אם יש לתהליך קשיר מצב סופג יחיד‪ ,‬הוא יגיע אליו בסופו של דבר בוודאות‪ .‬שאלה‬
‫‪ 1‬נעשית מעניינת אם יש לתהליך כמה מצבים סופגים‪ ,‬משום שאז לא ברור באיזה מהם‬
‫‪104‬‬
‫יתקע התהליך בסופו של דבר‪ .‬במקרים רבים אפשר להתאים את התהליך לבעיה‪.‬‬
‫למשל‪ ,‬אם רוצים לדעת מה הסיכויים להגיע למצב ‪ α‬לפני מצב ‪ ,β‬אפשר להפוך את‬
‫שניהם למצבים סופגים‪ ,‬משום שממילא ברגע שהתהליך הגיע לאחד משניהם השאלה‬
‫הוכרעה‪.‬‬
‫התשובה לשאלות שהוצגו בתחילת הסעיף‪ ,‬ואחרות‪ ,‬תלויה במצב ההתחלה‪ .‬על־מנת‬
‫לפתור שאלה כזו למצב התחלה נתון‪ ,‬יש לפתור אותה בבת־אחת לכל מצבי ההתחלה‪,‬‬
‫על־ידי הגדרת משתנים מתאימים ובניה של מערכת משוואות לינארית על המשתנים‪.‬‬
‫נדגים זאת בפתרון הבעיה הראשונה‪ :‬האם התהליך יגיע בסופו של דבר למצב ‪?α‬‬
‫נסמן‬
‫‪pi = P (∃n : Xn = α|X0 = i).‬‬
‫אז ‪ .pα = 1‬אם ‪ β 6= α‬הוא מצב סופג אז כמובן ‪ .pβ = 0‬באופן כללי‪ ,‬לכל ‪,j 6= α‬‬
‫‪X‬‬
‫= ‪pj‬‬ ‫)‪P (∃n : Xn = α|X1 = i, X0 = j)P (X1 = i|X0 = j‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫‪P (∃n : Xn = α|X1 = i)Aij‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫‪Aij pi = (At p)j .‬‬
‫‪i‬‬
‫זוהי כמובן מערכת משוואות ליניארית על המשתנים ‪ ,pi‬שאפשר אפילו להציג באופן‬
‫מטריציאלי‪.‬‬
‫‪ 2.11.15‬הראה שאם מסדרים את המצבים כך ש־‪ α‬הוא האחרון וכותבים‬ ‫תרגיל ‬‫‬
‫‪t‬‬ ‫‪t‬‬ ‫‪t‬‬
‫‪ ,A = w t α‬אז מן המשוואה ‪ J A = J‬יוצא ‪ ,w = (I − B )J0‬כאשר ‪ J0‬מסמן‬ ‫‪B‬‬ ‫‪v‬‬
‫את וקטור ‪ J‬ללא הרכיב האחרון‪ ,‬ולכן ‪ .(I − B t )(~p0 − J0 ) = 0‬אם ‪ α‬מצב סופג‪,‬‬
‫המשוואה שקולה ל־ ‪.(I − A)(~p − J) = 0‬‬
‫דוגמא ‪ 2.11.16‬שתי קבוצות שקולות מתחרות במשיכת חבל‪ .‬יש ארבעה מצבים‪ :‬נצחון‬
‫לראשונה‪ ,‬יתרון לראשונה‪ ,‬יתרון לשניה‪ ,‬נצחון לשניה‪ .‬הסיכוי לעבור מיתרון לנצחון הוא‬
‫‪ .0.2‬נניח שיש יתרון לקבוצה הראשונה‪.‬‬
‫‪0.8‬‬ ‫(‬
‫‪V1 o‬‬ ‫‪0.2‬‬ ‫‪L1 h‬‬ ‫‪L2‬‬ ‫‪0.2‬‬ ‫‪/‬‬ ‫‪V2‬‬
‫‪0.8‬‬
‫מה הסיכוי שהיא תנצח?‬
‫תרגיל ‪ 2.11.17‬חייל משוטט באקראי על לוח שחמט בן ‪ 6 × 6‬משבצות‪ :‬בכל צעד‬

‫הוא בוחר בין כל הכיוונים האפשריים בהסתברויות שוות‪ .‬המשחק נעצר כשהחייל‬
‫‪105‬‬
‫נוגע באחת הדפנות‪ ,‬ואז נקבע המנצח‪ :‬הצד "צפון ומזרח" או הצד "מערב ודרום"‪.‬‬
‫חשב את הסיכוי לנצחונו של השחקן הראשון אם החייל עומד ברביעיית המשבצות‬
‫שבמרכז‪ ,‬קרוב יותר לפינה שלו‪) .‬תרגיל זה מדגים כמה חשוב לזהות סימטריות‬
‫במצב‪ :‬לאורך האלכסון שבין השחקנים ההסתברויות הן ‪ ,1/2‬והלוח כולו סימטרי‬
‫לשיקוף באלכסון האחר; במקום ‪ 16‬נעלמים‪ ,‬יש כאן רק ארבעה‪(.‬‬
‫כדי לפתור את בעיה ‪) 3‬ובעיות נוספות בהמשך(‪ ,‬נתבונן במשתנה המקרי‬
‫‪T = min {n : Xn = α},‬‬
‫ונסמן ב־‪ A‬את המאורע '' ‪ T‬זוגי''‪ .‬כעת נסמן‬
‫‪qi = P (A | X0 = i).‬‬
‫שוב אפשר לקבל מערכת משוואות ליניארית מנוסחת ההסתברות השלמה‪,qα = 1 :‬‬
‫ולכל ‪,j 6= α‬‬
‫‪X‬‬
‫= ‪qj‬‬ ‫)‪P (A|X1 = i, X0 = j)P (X1 = i|X0 = j‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫‪P (A|X1 = i)Aij‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫‪Aij (1 − qi ),‬‬
‫‪i‬‬
‫משום שהסיכוי לבקר ב־‪ α‬לראשונה בזמן זוגי‪ ,‬אם ‪ ,X1 = i‬הוא הסיכוי לבקר שם‬
‫לראשונה בזמן אי־זוגי בהנתן ‪.X0 = i‬‬
‫תרגיל ‪ 2.11.18‬הילוך שיכור על ציר המספרים השלמים הוא תהליך מרקוב עם אינסוף‬
‫מצבים‪ ,‬שבו עוברים ממצב ‪ m‬למצבים ‪ m + 1‬ו־‪ m − 1‬בסיכוי ‪ . 21‬הראה ששיכור‬
‫המתחיל את ההילוך בנקודה ‪ m‬כלשהי יגיע בהסתברות ‪ 1‬לנקודה ‪) .0‬אם ‪ pm‬היא‬
‫ההסתברות להגיע לראשית מהנקודה ‪ ,m‬אז ) ‪ pm+1 = 12 (pm+1 + pm−1‬ומכאן ש־‬
‫) ‪(.pm = 1 − m(1 − p1‬‬
‫השפעת התוצאה על התהליך‬

‫הידיעה שמאורע מסויים התרחש‪ ,‬משנה את הסתברויות המעבר עצמן‪ .‬לדוגמא‪ ,‬אם‬
‫שמענו שקבוצת כדורגל מסויימת ניצחה במשחק ואנו צופים בו בשידור חוזר‪ ,‬נדע‬
‫שהסיכוי למהלך מוצלח מצד הקבוצה שניצחה בסופו של דבר‪ ,‬הוא גדול מן הסיכוי‬
‫שהיינו מקצים לאותה הצלחה אלמלא הידיעה המוקדמת‪.‬‬
‫‪106‬‬
‫חישוב ההסתברויות החדשות אינו מסובך‪ .‬יהי ‪ A‬מאורע שאינו תלוי בזמן‪ ,‬ונניח‬
‫ש־)‪ .pi = P (A|X0 = i‬הסתברויות המעבר בתהליך המותנה הן‬
‫)‪P (A, X1 = j|X0 = i‬‬

‫= )‪P (X1 = j|A, X0 = i‬‬
‫)‪P (A|X0 = i‬‬
‫)‪P (A|X1 = j, X0 = i)P (X1 = j|X0 = i‬‬
‫=‬
‫)‪P (A|X0 = i‬‬
‫‪pj‬‬
‫=‬ ‫‪Aji ,‬‬
‫‪pi‬‬
‫אלא אם ‪ i‬או ‪ j‬הם בעלי משמעות מיוחדת מבחינת המאורע ‪.A‬‬
‫תרגיל ‪ 2.11.19‬בנתוני שאלה ‪ ,2.11.16‬קבוצה ‪ 1‬ביתרון‪ ,‬וידוע שהיא נצחה בסופו של‬
‫דבר‪ .‬מהם הסיכויים לכך שהיתרון יישמט מידה בסיבוב הראשון?‬
‫תוחלת זמן ההגעה‬ ‫‪2.11.4‬‬

‫כדי לחשב את התוחלת ) ‪ ,E(T‬כאשר ‪ T‬הוא המשתנה שהוגדר לעיל עבור מצב קבוע‬
‫‪ ,α‬נבנה מערכת משוואות על התוחלות המותנות‬
‫‪ei = E(T |X0 = i) :‬‬
‫כמובן ‪ ,eα = 0‬ולכל ‪,j 6= α‬‬

‫‪X‬‬
‫= ‪ej‬‬ ‫)‪E(T |X1 = i, X0 = j)P (X1 = i|X0 = j‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫)‪Aij E(T |X1 = i‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫)‪Aij E(T + 1|X0 = i‬‬
‫‪i‬‬
‫‪X‬‬
‫‪= 1+‬‬ ‫‪Aij ei .‬‬
‫‪i‬‬
‫‬ ‫‬
‫‪q 0‬‬
‫= ‪?A‬‬ ‫‪p 1‬‬ ‫דוגמא ‪ 2.11.20‬איך מתפלג המשתנה המקרי ‪ T‬עבור מטריצת המעבר‬
‫הראה ש־‪.e1 = 1/p‬‬
‫‪107‬‬
‫תרגיל ‪ 2.11.21‬בהילוך השיכור של תרגיל ‪ ,2.11.18‬הראה שתוחלת זמן ההגעה מהנקודה ‪1‬‬
‫לנקודה־‪ 0‬היא אינסופית )למרות שהסיכוי להגיע הוא ‪) .(1‬אם ‪ en‬היא תוחלת זמן ההגעה‬
‫לאפס מהנקודה ‪ ,m‬אז ) ‪ em = 1+ 21 (em+1 +em−1‬ומכאן ש־ ‪.em = a(e1 −(m−1)) ≥ 0‬‬
‫הסק ש־∞ = ‪(.e1‬‬
‫לאחר חישוב התוחלות אפשר לחשב גם את שונות זמן ההגעה‪ ,‬על־ידי חישוב‬
‫התוחלת של ‪ :T 2‬נגדיר )‪ ,mi = E(T 2 |X0 = i‬כך ש־‪ ,mα = 0‬ולכל ‪j 6= α‬‬
‫‪X‬‬
‫= ‪mj‬‬ ‫)‪E(T 2 |X1 = i, X0 = j)P (X1 = j|X0 = j‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫)‪Aij E(T 2 |X1 = i‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫)‪Aij E((T + 1)2 |X0 = i‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫)‪Aij (mi + 2ei + 1‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫‪(Aij mi ) + 2ej − 1.‬‬
‫‪i‬‬
‫דוגמא ‪ 2.11.22‬נמיה משוטטת בין שני שיחים הסמוכים למלכודת ‪ ,t‬לפי הגרף הבא‪:‬‬
‫‪0.4‬‬
‫)‬
‫‪0.5‬‬ ‫‪9‬‬ ‫❆ ‪1 ❆i‬‬ ‫‪⑥ e‬‬
‫‪2‬‬ ‫‪0.2‬‬
‫❆❆‬ ‫‪0.6‬‬ ‫⑥‬‫⑥‬
‫⑥‬
‫❆❆‪0.1‬‬ ‫‪0.2‬‬
‫⑥⑥⑥ ❆❆‬
‫⑥~‬
‫‪tY‬‬
‫‪1‬‬
‫מה תוחלת הזמן עד שתיפול למלכודת? מהי השונות? התשובה תלויה כמובן בנקודת‬
‫ההתחלה‪.‬‬
‫דוגמא ‪ 2.11.23‬ארנב ושועל מטיילים בין ארבעה קודקודי ריבוע‪ :‬בכל דקה‪ ,‬הארנב מקפץ‬
‫אל הקודקוד שמימין או משמאל למקומו הנוכחי‪ ,‬והשועל מקפץ אף הוא באקראי ובסיכויים‬
‫שווים‪ ,‬אך בהסתברות חצי הוא נשאר במקומו‪ .‬אם שניהם נמצאים באותו קודקוד‪ ,‬השועל‬
‫טורף את הארנב‪ .‬מה תוחלת חייו של הארנב‪ ,‬בהתחשב במיקום היחסי של שניהם בתחילת‬
‫הסיפור? )העזר בסימטריה כדי להציג את הבעיה כשרשרת מרקוב בת ‪ 4‬מצבים(‪.‬‬
‫כעת נניח שעל אותו ריבוע משוטט שועל נוסף‪ ,‬לפי אותם כללים‪ .‬השועלים יתפסו את‬
‫הארנב רק אם שלושת בעלי החיים נמצאים באותו קודקוד באותו זמן‪ .‬מה תוחלת חייו‬
‫של הארנב הזה?‬
‫‪108‬‬
‫תרגיל ‪ 2.11.24‬במגדלי האנוי מעבירים בהדרגה מגדל של טבעות במתקן עם‬

‫שלושה מוטות‪ ,‬כאשר טבעת גדולה לעולם אינה מונחת מעל טבעת קטנה‬
‫ממנה‪ .‬כמה צעדים נדרשים כדי להעביר מגדל בן שתי טבעות מן המוט השמאלי‬
‫לימני? ומה קורה אם מעבירים את הטבעות באקראי )בכל פעם מבצעים אחד‬
‫מהמהלכים החוקיים‪ ,‬בהסתברויות שוות(?‬
‫הרחבת זכרון‬ ‫‪2.11.5‬‬

‫שרשרת מרקוב היא‪ ,‬מטבעה‪ ,‬חסרת זכרון‪ .‬כדי לטפל בבעית שבהן נדרש זכרון‪ ,‬יש‬
‫להרחיב את השרשרת על־ידי תוספת מצבים‪.‬‬
‫תרגיל ‪ 2.11.25‬חשב את ההסתברות שבסדרת ניסויי ברנולי‪ ,‬עם הסתברות הצלחה‬

‫‪ ,p‬יתרחשו שתי הצלחות רצופות לפני שמתרחשים שלושה כשלונות רצופים‪.‬‬
‫תרגיל ‪ 2.11.26‬מטילים מטבע הוגן שוב ושוב‪ .‬כמה זמן יש להמתין להופעת הרצף‬
‫‪ ,0100‬הנקרא משמאל לימין? וכמה זמן עד להופעת הרצף ‪?0010‬‬
‫הטענה הבאה מסבירה מדוע התוחלות בתרגיל ‪ 2.11.26‬שוות זו לזו‪.‬‬
‫טענה ‪ 2.11.27‬מטילים קוביה כללית )מספר פאות סופי כלשהו‪ ,‬הסתברויות כלשהן(‪.‬‬
‫תוחלת זמן ההמתנה לרצף ‪ v = v1 · · · vt‬שווה לזו של זמן ההמתנה לרצף ההפוך‬
‫‪.v ′ = vt · · · v1‬‬
‫‪P‬‬
‫= ) ‪,E(T‬‬ ‫הוכחה‪ .‬נסמן ב־ ‪ T‬את תוחלת זמן ההמתנה‪ .‬לפי טענה ‪P (T ≥ n) ,2.3.57‬‬
‫‬ ‫וההסתברויות ל־‪ T ≥ n‬שוות עבור ‪ v‬ועבור ‪ v ′‬מטעמי סימטריה‪.‬‬
‫תרגיל ‪ 2.11.28‬בנתוני טענה ‪ ,2.11.27‬הראה שהסיכוי לכך שרצף ‪ v‬יופיע לפני רצף‬
‫‪ w‬שווה לסיכוי לכך שהרצף המנוגד ‪ v ′‬יופיע לפני הרצף המנוגד ‪ .w ′‬הדרכה‪.‬‬
‫ההסתברות שווה לסכום ההסתברויות לכך ש־‪ v‬מופיע לראשונה בזמן ‪ n‬ואילו ‪ w‬אינו‬
‫מופיע כלל‪.‬‬
‫תרגיל ‪ 2.11.29‬נחשב )ללא תהליכי מרקוב( את תוחלת זמן ההמתנה עד להופעה‬

‫של רצף ‪ ,w‬שאורכו ‪ ,n‬בסדרה ארוכה של הטלות מטבע הוגן‪.‬‬
‫על פי ] )‪ [.Solov’ev, A combinatorial identity..., Theory Prob Appl 11, 276–282, (1966‬סקירת מקורות בנושא זה‪Anant P.] :‬‬
‫‪[Godbole, Stavros G. Papastavridis, “Runs and Patterns in Probability: Selected Papers”, p. 214.‬‬
‫‪ .1‬נאמר שהופעה של ‪ w‬היא ''נקיה'' אם היא אינה חופפת את ההופעה הנקיה‬

‫הקודמת )בפרט‪ ,‬ההופעה הראשונה היא נקיה; ברצף ‪ 0001100000‬יש שתי‬
‫הופעות נקיות של ‪ ,000‬ושתיים לא נקיות(‪ .‬נסמן ב־‪ C‬את מספר ההופעות‬
‫‪109‬‬
‫הנקיות של ‪ w‬לאורך הסדרה‪ ,‬וב־‪ D‬את מספר ההופעות הלא נקיות‪.‬‬

‫ההופעות הלא נקיות של ‪ w‬החופפות הופעה נקיה מסויימת הוא‬ ‫מספר‬
‫‪ ,α = n6=k∈K 2k−n‬כאשר ‪ K‬היא קבוצת אורכי החפיפות של ‪ w‬עם עצמו‬
‫‪P‬‬
‫)למשל אם ‪ w = 000‬אז ‪ (.α = 2−1 + 2−2‬הראה ש־)‪.E(D) = αE(C‬‬
‫‪ .2‬הראה ש־‪ ,E(C + D) = 2−n ℓ‬כאשר ‪ ℓ‬הוא אורך הסדרה‪.‬‬
‫‪ .3‬הראה למספר המטבעות שיש להטיל מסופה של הופעה נקיה אחת עד‬
‫לסופה של ההופעה הנקיה הבאה יש אותה התפלגות‪ .‬נסמן את המשתנה‬
‫המקרי הזה ב־‪ .X‬הראה ש־‪) E(C)E(X) = E(CX) ≈ ℓ‬כלומר‪ ,‬היחס‬
‫שואף ל־‪.(1‬‬
‫= )‪ .E(X) = 2n (1 + α‬למשל‪ ,‬תוחלת זמן ההמתנה‬ ‫‪k‬‬

‫‪P‬‬
‫‪ .4‬הסק ש־ ‪k∈K 2‬‬
‫ל־‪ 010101‬היא ‪.26 + 24 + 22‬‬
‫תרגיל ‪ 2.11.30‬נתבונן בסדרת הטלות של מטבע הוגן‪ .‬נסמן ב־ ‪ αu|v‬את תוחלת‬

‫מספר ההטלות עד להופעת הרצף ‪ ,u‬אם הרצף האחרון שהוטל הוא ‪ .v‬בפרט‬
‫נסמן ‪ αu = αu|ε‬כאשר ‪ ε‬מסמן את הרצף הריק‪ .‬הראה כי לכל שלושה רצפים‬
‫‪:u, v, w‬‬
‫‪ .1‬אם ‪ u‬סיפא של ‪ v‬אז ‪ ;αu|v = 0‬אחרת ) ‪.αu|v = 1 + 21 (αu|v0 + αu|v1‬‬
‫‪ .2‬אם ‪ v‬רישא של ‪ ,u‬אז ‪.αu = αv + αu|v‬‬
‫‪ αu|wv ≤ αu|v .3‬ובפרט ‪.αu|v ≤ αu‬‬
‫דוגמא ‪ 2.11.31‬כדי להדגים את השפעת גודל הזכרון על ההתפלגות‪ ,‬להלן חמישה טקסטים‬
‫אקראיים שיוצרו על בסיס ההתפלגות של חמישה חומשי התורה )לפי נוסח המסורה‪,‬‬
‫עם נקודה בסופי הפסוקים(‪ .‬ההתפלגות הראשונה נבנתה על־ידי הגרלת אותיות לפי‬
‫התפלגות אחידה )הוספנו כמה רווחים כדי לשבור את השורות(‪ .‬בשניה הוגרלו האותיות‬
‫לפי השכיחות היחסית שלהן‪ .‬בשלישית כל אות מן השניה ואילך הוגרלה לפי השכיחות‬
‫שלה כעוקבת אחרי האות הקודמת )כאשר הרווח והנקודה נחשבים כאותיות לכל דבר(‪.‬‬
‫בדוגמא הרביעית כל אות‪ ,‬מן השלישית ואילך‪ ,‬הוגרלה לפי השכיחות שלה כעוקבת אחרי‬
‫שתי הקודמות לה‪ ,‬ובדוגמא האחרונה השתמשנו בהתפלגות הרביעיות‪ ,‬כך שההתפלגות של‬
‫כל אות תלויה בשלוש הקודמות לה‪.‬‬
‫תבזגרמףזו באפקבםסתהחךכהטדזךףןףגהפאחטמעזףט חכפקםתכגצךההזה‪.‬למע פולרסםקסףהר‬ ‫‪ .1‬התפלגות אחידה‪:‬‬

‫ךםגץהסתב‪.‬פנבנפחץפפ בדדמ ם צביתשףגפהחטצאאזנצצאבמלםוםנטףמםס‪.‬ן תדי‪.‬קו ר‪.‬פנו‪.‬י ‪.‬גוכןגסגךחינסטגחתונעץצטטם‪.‬רע‪.‬ש‬
‫טף‪.‬וגמחכיךעךתזךפםאסצעבחתילעשבסמבחם‪.‬בף לפטקבתאהיזה פצ‪ .‬כבךאעדידשיטרך‪.‬ןןכןיוםבימחםל‪...‬‬
‫‪110‬‬
‫ת רז לעתאהיתעשחד ה נהםמחא השאאל שתרהילהן המוויבכירע ו אבנאבא ע‪.‬האהש ה‬ ‫‪ .2‬התפלגות האותיות‪:‬‬

‫ייהשםסאהה יבתלהיםוילבהאביאוב כ ה ד וש ל צוד תייהלןונ ו ‪.‬בו חאבויתה ראצפר תררדא ענבהםיאלכולשים שודם הדנ‬
‫אטמשלןנאדקוע וביםמב אאןחהאויה ההדש נולעיב אאאבלמעמיץמ ר ה‪.‬האהיה ושהשטנ דנ‪...‬‬
‫אשישח א ו‪ .‬א תהואכלבדת הם עוטואמבכהיוהועואתחבריא לדבכתן אכתעפה לך אתיוים שפישתך‬ ‫‪ .3‬התפלגות הזוגות‪:‬‬
‫ים שם לנחת‪ .‬משרח ל א בנוההעת מניהים והות‪ .‬ל אמא ב תיהסמכל הקר א ארץ מקה ע י ועשפעשר היה בן עים ו ה ל‪.‬‬
‫ח או ות אלי אשבחמחשרב‪ .‬עלדהי בים השת הנעמר ים ע אשרבנתב איהאם ול אלתם ו י‪...‬‬
‫הקד וא תקב לא קדש לאמרועל כי יריב וישמך וצבאנו את הגידך‪ .‬ובני‪ .‬ועלה לותה ליעשה‬ ‫‪ .4‬התפלגות השלשות‪:‬‬
‫לך שבעלה חיום אתו עשה בין‪ .‬ונהוה ארצחו אשריתנו ושמן מצרים לו לאמר אישבעון רע טה אשה המו‪ .‬כי יה השבענו ליו‬
‫הואתולדו‪ .‬ואת אדמושם‪ .‬וית המחציר הואת בלך יב כבליל השית או ומרו אל יד ת‪...‬‬
‫ל יחרם אשר עד ותכלת הבאים עשית קרבנו רעהו עדת ארשה ועמוד ותכחשו את פרע מאת‬ ‫‪ .5‬התפלגות הרביעיות‪:‬‬
‫הגבריתם יקדש ומגרר ומיו את פרעה טרם ימים ונד נזר זניהם אשר לא תשמע בני ארון מכשפה לא תהיה הנתכם בחג הסרד‬
‫בן חמשים‪ .‬וישבים שה יפרש ובין המשקדיו תחשך ולא אליך גזלה על הנגב ויאמר אבן נ‪...‬‬
‫איך יראה טקסט אקראי המבוסס על ההתפלגות של עשיריות?‬
‫‪111‬‬
‫‪112‬‬
‫פרק ‪3‬‬
‫מבוא לסטטיסטיקה‬
‫‪ 3.1‬אמידה‬
‫במקרים רבים אנו יודעים שההתפלגות של משתנה מקרי שייכת למשפחה מסויימת‬
‫)למשל‪ ,‬התפלגות מעריכית או התפלגות נורמלית(‪ ,‬אבל איננו יודעים את הפרמטרים‬
‫המתאימים‪ .‬הנחה בסיסית זו נקראת מודל‪ .‬למשל‪ ,‬מספר המטאורים הנצפים מדי דקה‬
‫בלילה מסויים מתפלג פואסונית‪ .‬המודל קובע שהמספר )‪ ,X ∼ Poi(λ‬כאשר ‪ λ‬אינו‬
‫ידוע‪ .‬בניית המודל )סטטיסטי או אחר( היא הצעד הראשון בשיטה המדעית‪ :‬בסופו‬
‫של דבר ‪ X1 , . . . , Xn‬יקבלו ערכים מספריים‪ ,‬ואז הם יחדלו מלהיות משתנים מקריים‪.‬‬
‫הטבע אינו חושף את סודותיו בנקל‪ ,‬ולכן איננו יכולים לדעת כיצד התקבלו המספרים‬
‫האלה; המודל מציע משפחה של אפשרויות לתהליך כזה‪ ,‬ומשאיר בידי הסטטיסטיקאי‬
‫את הצורך להכריע מי מהן היא הסבירה ביותר‪.‬‬
‫תורת האמידה מעריכה פרמטרים של ההתפלגות על־פי ערכים הנדגמים ממנה‪ .‬כפי‬
‫שראינו‪ ,‬למשל‪ ,‬בהתפלגות הנורמלית‪ ,‬הפרמטרים עשויים להיות מומנטים של ההתפלגות‪,‬‬
‫כמו התוחלת והשונות‪ ,‬אבל לגיטימי לנסות לאמוד גם דברים כמו ‪ p/q‬בהתפלגות‬
‫בינומית‪ e−λ ,‬בהתפלגות פואסון‪ ,‬וכן הלאה‪.‬‬
‫בתורת האמידה‪ ,‬ובהסקה סטטיסטית בכלל‪ ,‬האוכלוסיה היא כלל הערכים הרלוונטיים‬
‫)למשל‪ ,‬אורך החיים של כל הנורות שמייצר המפעל(‪ ,‬והמדגם הוא אוסף )בדרך כלל‬
‫קטן( של ערכים שנאספו מן האוכלוסיה‪.‬‬
‫הניתוח המתמטי של המדגם‪ ,‬כמייצג של האוכלוסיה‪ ,‬מבוסס על ההנחה שהדגימה‬
‫אינה מוטה )כלומר‪ ,‬לכל פרט יש סיכוי שווה להופיע במדגם( ‪ -‬אחרת יש לבצע התאמות‬
‫שונות ומשונות‪ .‬זהו אינו קורס בסטטיסטיקה מעשית‪ ,‬ולכן לא נעסוק בהרחבה בהטיות‬
‫דגימה אפשרויות‪ .‬מכיוון שפטור בלא כלום אי אפשר‪ ,‬נסתפק ברמזים‪ :‬לא כל הפרטים‬
‫באוכלוסיה זמינים לצרכי דגימה )חסרי בית; תושבי חו"ל שיגיעו ליום הבחירות(; תהליך‬
‫הדגימה יוצר הטיות )בדגימה לפי מספרי טלפון יש לבעלי שני קווים סיכוי מוגבר‬
‫‪113‬‬
‫פרק ‪ .3‬מבוא לסטטיסטיקה‬ ‫‪ .3.1‬אמידה‬
‫להופיע; בדגימת אנשים בתחנת רכבת או בסניף דואר מגיעים לנוסעי רכבות ושולחי‬
‫דואר(; אנשים נוטים לשקר בסקרים )למשל בנושא שכר‪ ,‬הרגלים אישיים‪ ,‬אמונות‪' ,‬האם‬
‫עברת הטרדה מינית'( או להבין את השאלות אחרת מן הפרשן‪ ,‬כשעוסקים בהעדפות‬
‫ודעות התשובה אינה יציבה )האם אתה אוהב כרוב? לפעמים‪ ;(.‬ועוד ועוד‪.‬‬
‫אמידה נקודתית‬ ‫‪3.1.1‬‬

‫אומד נקודתי עבור פרמטר מסויים הוא פונקציה של המדגם שאינה תלויה בפרמטר )כל‬
‫פונקציה כזו נקראת סטטיסטי( שערכה אמור להיות קרוב לפרמטר המבוקש‪ .‬לדוגמא‪,‬‬
‫‪X1 +X2‬‬
‫‪2‬‬
‫אם המדגם כולל ) ‪ ,X1 , . . . , Xn ∼ N(µ, σ 2‬כאשר ‪ µ, σ 2‬אינם ידועים‪ ,‬אז ‪ X3‬ו־‬
‫הם אומדים אפשריים עבור ‪ .µ‬ערך של האומד נקרא אומדן‪.‬‬
‫כדי להבין איך פועל אומד נקודתי‪ ,‬יש לקרוא את התהליך בסדר הנכון‪ .‬הפרמטר‬
‫‪ θ‬הוא קבוע‪ ,‬אבל אינו ידוע לנו )אחרת לא היה צורך לאמוד אותו(‪ .‬עם זאת‪ ,‬הפרמטר‬
‫קובע את ההתפלגות ‪) Fθ‬היינו‪ ,‬זוהי משפחה של התפלגויות‪ ,‬ולכל ערך מתאימה‬
‫התפלגות אחרת(‪ ,‬ונתוני המדגם נאספים מתוך ההתפלגות ‪ .Fθ‬לאומד‪ ,‬המורכב מנתוני‬
‫המדגם‪ ,‬יש התפלגות‪ ,‬שגם היא תלויה ב־‪ .θ‬בפרט‪ ,‬התוחלת של האומד תלויה ב־‪θ‬‬
‫)אבל לא בנתוני המדגם – הרי זו תוחלת(‪.‬‬
‫הגדרה ‪ 3.1.1‬נניח ש־ ‪ ,X1 , . . . , Xn ∼ Fθ‬כאשר ‪ θ‬הוא פרמטר הקובע את ההתפלגות‪.‬‬

‫סטטיסטי ) ‪ T = t(X1 , . . . , Xn‬הוא אומד חסר הטיה של הפרמטר ‪ θ‬אם לכל ערך של‬
‫‪ ,θ‬התוחלת של ‪ T‬בהנחה ש־ ‪ X1 , . . . , Xn ∼ Fθ‬שווה ל־‪.θ‬‬
‫)באופן כללי יותר‪ ,‬סטטיסטי שהתוחלת שלו היא תמיד )‪ τ (θ‬הוא אומד חסר הטיה‬
‫ל־)‪(.τ (θ‬‬
‫דוגמא ‪ 3.1.2‬הזמן הנדרש לתוכנית מחשב מסויימת להתחיל לרוץ מתפלג מעריכית עם‬
‫תוחלת ‪ 30 + 12θ‬שניות‪ ,‬כאשר ‪ θ‬הוא מספר הווירוסים המתרוצצים בזכרון‪ .‬יהיה‬
‫נאיבי מצידנו לצפות שזמן הריצה )‪ X ∼ Exp(θ‬יהיה בדיוק ‪ ,30 + 12θ‬ובכל זאת‪,‬‬
‫‪1‬‬
‫‪ T = 12‬הוא אומד חסר הטיה למספר הווירוסים‪ ,‬משום שהתוחלת שלו היא ‪.θ‬‬ ‫)‪(X − 30‬‬
‫תרגיל‪ .‬מצא אומד חסר הטיה המקבל ערכים שלמים‪.‬‬
‫תרגיל ‪ 3.1.3‬בכל התפלגות‪ ,‬הממוצע ) ‪ n1 (X1 + · · · + Xn‬הוא אומד חסר הטיה של‬
‫התוחלת‪.‬‬
‫תרגיל ‪ 3.1.4‬במה עדיף הממוצע ) ‪ n1 (X1 + · · · + Xn‬על־פני האומד ‪ ,X2‬אם ממילא‬

‫שניהם חסרי הטיה?‬
‫תרגיל ‪ 3.1.5‬כשרוצים לאמוד את מספר התומכים במפלגת 'כרוב וחסה'‪ ,‬מניחים‬

‫שיש באוכלוסיה שעור מסויים‪ ,p ,‬של תומכים‪ .‬כשבוחרים את המדגם האקראי‪,‬‬
‫הסיכוי של כל משתתף במדגם להשתייך לקבוצת התומכים הוא ‪ ,p‬ולכן תוצאות‬
‫‪114‬‬
‫‪ .3.1‬אמידה‬ ‫פרק ‪ .3‬מבוא לסטטיסטיקה‬
‫המדגם מתפלגות )‪ .X1 , . . . , Xn ∼ b(p‬בדוק שהממוצע הוא אומד חסר הטיה ל־‬
‫‪ .p‬מה שונותו? איך היא תלויה ב־‪) n‬האם כדאי לקחת מדגם גדול פי ‪ (?100‬איך‬
‫תלויה השונות ב־‪ ,p‬ומה משמעות התוצאה הזו בבואנו לאמוד את מספר התומכים‬
‫במפלגה שעל גבול אחוז החסימה?‬
‫תרגיל ‪ 3.1.6‬מה דעתך על פרסום )אפרת וייס‪ (Ynet ,3/11/2002 ,‬שכותרתו‬

‫"מחקר‪ 141,710 :‬נשים מוכות בישראל"?‬
‫‪1‬‬
‫= ‪ ,s2‬והסק‬ ‫תרגיל ‪ 3.1.7‬חשב את התוחלת של שונות המדגם ‪(Xi − X̄)2‬‬
‫‪P‬‬
‫‪n‬‬
‫שזהו אינו אומד חסר הטיה לשונות האוכלוסיה ‪.σ 2‬‬
‫דוגמא ‪ 3.1.8‬נניח ש־) ‪.X1 , . . . , Xn ∼ N(µ, σ 2‬‬
‫‪ .1‬הממוצע הוא אומד חסר הטיה לתוחלת ‪.µ‬‬

‫‪1‬‬
‫‪ S 2 = n−1‬הוא אומד חסר הטיה של השונות ‪.σ 2‬‬ ‫‪(Xi − X̄)2 .2‬‬
‫‪P‬‬
‫למרות ש־ ‪ ,E(S 2 ) = σ 2‬אין סיבה לצפות ש־‪ ;E(S) = σ‬אכן‪ ,‬לא קיים אומד חסר‬
‫הטיה של סטיית התקן ‪ σ‬בהתפלגות כללית‪.‬‬
‫תרגיל ‪ 3.1.9‬רוצים לאמוד את האחוז ‪ p‬של הילדים הפוחדים מחושך‪ .‬חוששים‬

‫שהילדים לא יענו על שאלה כזו בכנות‪ ,‬ולכן מבקשים מהם לפעול כדלקמן‪ :‬כל‬
‫ילד יטיל מטבע; אם יצא 'עץ' הוא יאמר את התשובה הנכונה‪ ,‬ואם יצא 'פלי' הוא‬
‫יטיל מטבע שני‪ ,‬ויתן תשובה אקראית )כן או לא( על־פי התוצאה שקיבל שם‪.‬‬
‫הילדים לא יחששו לשתף פעולה‪ ,‬משום שתשובה חיובית יכולה להתקבל גם‬
‫כתוצאה מהטלת מטבע‪.‬‬
‫‪ .1‬אם ילד עונה שהוא פוחד מחושך‪ ,‬מה הסיכוי שזה אכן כך?‬
‫‪ .2‬כתוב את הסטטיסטי המתקבל באופן כזה‪ ,‬ובנה ממנו אומד חסר הטיה של‬
‫הפרמטר המבוקש‪) .‬מהי שונות האומד? השווה אותה לשונות של האומד‬
‫שהיה מתקבל אם אפשר היה לסמוך על התשובות כלשונן‪(.‬‬
‫רעיון ‪ 3.1.10‬פיקוד העורף מבצע תרגיל לבדיקת צופרי האזעקה‪ .‬אם יודיעו מראש שכל‬
‫אזרח שאינו שומע את האזעקה מתבקש להתקשר ולהתריע על כך‪ ,‬קווי הטלפון בפיקוד‬
‫יקרסו‪ .‬נתח את האפשרות שרק שהאזרחים שמספר הזהות שלהם מסתיים ב־‪ 345‬יתבקשו‬
‫להודיע במקרה הצורך‪ .‬מה דעתך על האלטרנטיבה‪ ,‬שלפיה רק אלו שמספר הזהות שלהם‬
‫מתחיל ב־‪ 345‬יתקשרו?‬
‫‪115‬‬
‫תרגיל ‪ 3.1.11‬בבחירות לנשיאות בארצות הברית זוכה המועמד שצבר את מספר האלקטורים‬
‫ביותר‪ .‬ממדינה ‪ ,i = 1, . . . , k) i‬כאשר למשל ‪ (k = 50‬מגיעים ‪ ni‬אלקטורים‪,‬‬ ‫הגדול ‪P‬‬
‫= ‪ N‬אלקטורים בסך־הכל‪ .‬הסיכוי של מועמד ‪ A‬לנצח במדינה ‪) i‬על־פי‬ ‫מתוך ‪ni‬‬
‫‪1‬‬ ‫‪0‬‬
‫הסקרים המקומיים( הוא ‪ pi‬בדיוק‪ .‬נסמן ‪ p = p‬ו־)‪P.p = (1 − p‬הראה שהסיכוי של‬
‫‪ A‬לנצח בסופו של דבר הוא ) ‪.P = (ǫ1 ,...,ǫk )∈{0,1}k : P ǫini > 1 N (pǫ11 · · · pǫkk‬‬
‫‪2‬‬
‫קבוצת הווקטורים ‪ (ǫ1 , . . . , ǫk ) ∈ {0, 1}k‬המקיימים את התנאי ‪ǫi ni > 12 N‬‬

‫‪P‬‬
‫היא‬
‫מסובכת למדי‪ ,‬וחישוב ישיר של ‪ P‬עשוי להיות בלתי אפשרי‪ .‬הצע דרך מהירה לאמוד את‬
‫הפרמטר ‪ .P‬הדרכה‪ .‬בכל אחת מ־‪ 1000‬החזרות על הניסוי‪ ,‬מטילים ‪ k‬מטבעות‪.‬‬
‫השוואת אומדים‬
‫המודל קובע ש־ ‪ .X1 , . . . , Xn ∼ Fθ‬נניח ש־) ‪ T = t(X1 , . . . , Xn‬הוא אומד חסר הטיה‬
‫של ‪ .θ‬כדי להעריך את איכות האומד‪ ,‬ולבחור בין כמה אומדים אפשריים‪ ,‬מתבוננים‬
‫בשונות ) ‪ .Vθ (T‬גם כאן חשוב להדגיש שהשונות תלויה ב־‪ ,θ‬ולכן יתכן שאומד מסויים‬
‫יהיה בעל שונות נמוכה משל אומד אחר עבור ערכים מסויימים של הפרמטר‪ ,‬אבל בעל‬
‫שונות גבוהה יותר במקומות אחרים‪.‬‬
‫הגדרה ‪ 3.1.12‬אם ) ‪ Vθ (T1 ) ≤ Vθ (T2‬לכל ערך של ‪ ,θ‬אומרים ש־ ‪ T1‬עדיף על ‪.T2‬‬
‫מן ההגדרה מובן שבהנתן שני אומדים‪ ,‬יתכן שאף אחד מהם אינו עדיף על משנהו‪.‬‬
‫‪X1 +Xn‬‬
‫בתור אומדים לתוחלת בהתפלגות‬ ‫‪2‬‬
‫דוגמא ‪ 3.1.13‬הראה שהאומד ̄‪ X‬עדיף על‬
‫) ‪.N(µ, σ 2‬‬
‫תרגיל ‪ 3.1.14‬כל אחד מן המשתנים המקריים הבלתי תלויים ‪ X1 , . . . , Xn‬הוא אומד‬
‫חסר הטיה לגודל מסויים‪ ,‬עם שונות ‪ .E(Xi ) = σi2‬צירוף ליניארי ‪Y = α1 X1 +‬‬
‫‪ · · · + αn Xn‬הוא אומד חסר הטיה אם ‪P.α1 + · · · + αn = 1‬מצא את האומד בעל‬
‫השונות הקטנה ביותר מצורה זו‪ .‬הראה שעבורו ‪ ,V(Y ) = ( σi−2 )−1‬וערך זה‬
‫קטן מכל אחת מן השונויות ‪.σi2‬‬
‫תרגיל ‪ 3.1.15‬נניח ש־]‪.X1 , . . . , Xn ∼ U[0, θ‬‬
‫העזר בתרגיל ‪ 2.6.6‬כדי להראות שכל אחד מסטטיסטיי הסדר המתוקנים‬
‫‪n+1−k 2‬‬
‫‪ . (n+2)k‬השווה את‬ ‫‪ n+1‬מהווה אומד חסר הטיה לפרמטר ‪ ,θ‬בעל שונות ‪θ‬‬ ‫‪k‬‬
‫)‪X(k‬‬
‫‪2‬‬ ‫‪n+1‬‬ ‫‪n+1‬‬
‫האומד } ‪ n X(n) = n max {Xi‬לכפליים הממוצע ) ‪ . n (X1 + · · · + Xn‬איזה‬
‫אומד עדיף?‬
‫הגדרה ‪ 3.1.16‬אומד חסר הטיה שהוא עדיף על כל אומד חסר הטיה אחר‪ ,‬נקרא אומד‬
‫חסר הטיה בעל שונות מינימלית במידה שווה )ובקיצור‪ ,‬על־פי ראשי התיבות של השם‬
‫האנגלי‪.(UMVUE ,‬‬
‫ההפתעה הגדולה היא שעבור מודלים רבים‪ ,‬אומד כזה אכן קיים; מקוצר היריעה‬
‫לא נוכל להרחיב בכיוון זה‪.‬‬
‫‪116‬‬
‫אומד נראות מקסימלית‬

‫נניח שהצפיפות של המשתנים ‪ Xi‬היא )‪ ,f (x; θ‬כאשר ‪ θ‬פרמטר לא ידוע הקובע את‬
‫‪ Q‬הנראות של המדגם ‪ X1 , . . . , Xn‬היא המכפלה = )‪L(X1 , . . . , Xn ; θ‬‬ ‫ההתפלגות‪.‬‬
‫)‪. f (Xi ; θ‬‬
‫אומד הנראות המקסימלית של ‪ θ‬הוא הפונקציה ) ‪ T = t(X1 , . . . , Xn‬המביאה את‬
‫)) ‪ L(X1 , . . . , Xn ; t(X1 , . . . , Xn‬למקסימום‪.‬‬
‫באופן מעשי‪ ,‬כדי למצוא את אומד הנראות המקסימלית‪ ,‬אפשר לגזור לפי ‪ θ‬את‬
‫)‪ ,log L(X1 , . . . , Xn ; θ‬ולהשוות לאפס‪.‬‬
‫‪ .1‬מצא את אומד הנראות המקסימלית עבור ‪ µ‬כאשר המדגם‬ ‫תרגיל ‪3.1.17‬‬

‫מגיע מהתפלגות נורמלית )‪.X1 , . . . , Xn ∼ N(µ, 1‬‬
‫‪ .2‬מצא את אומד הנראות המקסימלית עבור ‪ θ‬אם ) ‪.X1 , . . . , Xn ∼ N(θ, θ2‬‬
‫‪ .3‬מצא את אומד הנראות המקסימלית עבור ‪ θ‬אם )‪.X1 , . . . , Xn ∼ U(0, θ‬‬
‫רווחי סמך‬ ‫‪3.1.2‬‬

‫באמידה נקודתית מציעים סטטיסטי )היינו‪ ,‬פונקציה של המדגם(‪ ,‬האמור ''לקלוע'' אל‬
‫הערך של הפרמטר‪ .‬באמידת רווח המטרה שונה‪:‬‬
‫בעיה ‪ 3.1.18‬נאסף מדגם בלתי תלוי ‪ ,X1 , . . . , Xn ∼ Fθ‬מהתפלגות השייכת למשפחה‬

‫מוכרת של התפלגויות‪ ,‬התלויה בפרמטר ‪ θ‬שערכו אינו ידוע‪ .‬יש ליצור מנתוני המדגם רווח‬
‫) ‪ ,(T1 , T2‬כאשר ‪ T1 , T2‬הם סטטיסטים‪ ,‬כך שהסיכוי‬
‫) ‪Pθ (T1 < τ (θ) < T2‬‬
‫שווה למספר ‪ 1 − α‬שנקבע מראש‪.‬‬
‫הקטע ) ‪ (T1 , T2‬נקרא רווח סמך בעל רמת מובהקות ‪ α‬עבור )‪ .τ (θ‬גודל טיפוסי ל־‪α‬‬
‫הוא ‪ 0.05‬או ‪.0.01‬‬
‫אנו מסמנים )·( ‪ Pθ‬כדי להדגיש שההסתברות למאורע תלויה בפרמטר‪ :‬זוהי ההסתברות‬
‫במקרה ש־ ‪.X1 , . . . , Xn ∼ Fθ‬‬
‫לאחר ביצוע הליך הדגימה בפועל‪ ,‬המשתנים המקריים ‪ X1 , . . . , Xn‬מקבלים ערכים‬
‫מספריים‪ ,‬וכך הופכים גם קצות הקטע ‪ T1 , T2‬למספרים‪ ,‬נאמר ‪.t1 , t2‬‬
‫זו מכשלה נפוצה לומר שבמקרה זה‪" ,‬הסיכוי לכך שהפרמטר ‪ θ‬נמצא בין ‪ t1‬ל־ ‪t2‬‬
‫הוא ‪ ."1 − α‬ניסוח זה שגוי בתכלית‪ ,‬משום שלפרמטר אין התפלגות ‪ -‬הוא מספר‬
‫)וגם אם הוא נקבע על־פי התפלגות כלשהי‪ ,‬התפלגות זו אינה נלקחת בחשבון בחישוב‬
‫הרווח(‪ .‬אם כך‪ ,‬הסיכוי לכך שהפרמטר יהיה בין שני מספרים הוא או אפס או אחד‬
‫‪117‬‬
‫)גם אם איננו יודעים איזו אפשרות היא הנכונה(‪ .‬א־פריורי‪ ,‬הסיכוי לכך שהפרמטר‬
‫יהיה שייך לקטע הוא בדיוק ‪ ;1 − α‬אבל לאחר מעשה‪ ,‬גורל הניסוי כבר נגזר‪ ,‬לשבט‬
‫)בסיכוי ‪ (α‬או לחסד‪ ,‬והוא איננו מאורע הסתברותי‪.‬‬
‫השיטה הפשוטה ביותר לבניית רווח סמך היא שיטת הכמות הצירית‪ ,‬שלפיה אנו‬
‫מוצאים פונקציה של המדגם ושל הפרמטר‪ ,‬שהתפלגותה אינה תלויה בפרמטר‪.‬‬
‫רווחי סמך לפרמטרים של ההתפלגות הנורמלית‬ ‫‪3.1.3‬‬

‫‪X1 −µ‬‬
‫= ‪ Q‬אינה‬ ‫‪σ‬‬
‫דוגמא ‪ 3.1.19‬נניח ש־) ‪ .X1 , . . . , Xn ∼ N(µ, σ 2‬אז ההתפלגות של‬
‫תלויה בפרמטרים‪ ,‬ולכן היא כמות צירית‪.‬‬
‫נחוצים לנו סימונים שיהפכו את פונקציית ההצטברות של ההתפלגויות הרלוונטיות‪:‬‬
‫הגדרה ‪ 3.1.20‬לכל ‪ zγ ,0 < γ < 1‬הוא המספר )היחיד( כך שמשתנה מקרי ∼ ‪Z‬‬
‫)‪ N(0, 1‬מקיים ‪.P (Z < zγ ) = γ‬‬
‫בדומה לזה‪ tm,γ ,‬מוגדר כך שמשתנה מקרי ‪ Z ∼ tm‬מקיים ‪ ,P (Z < tm,γ ) = γ‬וכך‬
‫גם ‪ P (W < χ2m,γ ) = γ‬כאשר ‪.W ∼ χ2m‬‬
‫את הערכים ‪ zα‬אפשר לקרוא בטבלה מתאימה‪ .‬הערכים השכיחים‪ ,‬שכדאי לזכור‬
‫בעל־פה‪ ,‬הם ‪ .z0.99 = 2.33 ,z0.975 = 1.96 ,z0.95 = 1.645‬בגלל הסימטריות של‬
‫ההתפלגות הנורמלית‪ .z1−α = −zα ,‬אם ‪.zα < 0 < z1−α ,α < 0.5‬‬
‫רווח סמך לתוחלת‬

‫נניח ש־) ‪ X1 , . . . , Xn ∼ N(µ, σ 2‬משתנים נורמליים בלתי תלויים‪ .‬אנו מבקשים רווח‬
‫‪.X̄n = X1 +···+X‬‬
‫‪n‬‬
‫‪n‬‬
‫סמך עבור התוחלת ‪ ,µ‬שאינה ידועה‪ .‬נסמן‬
‫‪ Q = X̄σ/n√−µ‬היא כמות צירית‪ ,‬בעלת התפלגות )‪.N(0, 1‬‬ ‫‪n‬‬
‫אם השונות ‪ σ 2‬ידועה‪ ,‬אז‬
‫‬ ‫‬
‫‪ ,P ( X̄σ/n√−µ‬ומכאן נובע ש־‬ ‫לפי הגדרה ‪ 3.1.20‬של ‪> z1− α2 ) = α ,z1− α2‬‬
‫‬ ‫‬
‫‪n‬‬
‫‬ ‫‬ ‫‪σ‬‬
‫‪P (X̄n − µ > z1− α2 √ ) = α.‬‬
‫‪n‬‬
‫מסקנה ‪ 3.1.21‬ש־) ‪ X1 , . . . , Xn ∼ N(µ, σ 2‬משתנים נורמליים בלתי תלויים בעלי שונות‬

‫ידועה ‪ ,σ‬אז ) ‪ (X̄n − z1− α2 √σn , X̄n + z1− α2 √σn‬הוא רווח סמך בעל רמת מובהקות ‪α‬‬
‫לפרמטר ‪.µ‬‬
‫)זוהי רק דוגמא אחת למשפחה שלמה של רווחי סמך עבור ‪ ,µ‬שכולם בעלי אותה רמת‬
‫מובהקות‪ ,(X̄n + zγ √σn , X̄n + z1−α+γ √σn ) :‬כאשר ‪ 0 ≤ γ ≤ α‬הוא מספר כלשהו‪.‬‬
‫המקרה הקיצוני ‪ γ = 0‬נותן את רווח־הסמך החד־צדדי ) ‪ ,(−∞, X̄n +z1−α √σn‬והמקרה‬
‫‪ γ = α‬נותן )∞ ‪(.(X̄n + zα √σn ,‬‬
‫‪118‬‬
‫תרגיל ‪ 3.1.22‬חשוב איך משפיע שינוי בכל אחד מהפרמטרים ‪ α, σ, n‬על רוחבו של‬
‫הרווח לתוחלת‪ .‬נסח את המסקנה במלים )ככל שרמת המובהקות קטנה יותר‪,‬‬
‫‪ ;...‬ככל שהמדגם גדול יותר‪(... ,‬‬
‫תרגיל ‪ 3.1.23‬את המשקל הממוצע של אדם בוגר בישראל אפשר להעריך באמצעות‬
‫מדגם בגודל ‪') 200‬אפשר להעריך' פירושו שאפשר לקבל רווח סמך ברוחב מסויים‬
‫וברמת מובהקות מסויימת(‪ .‬מה צריך להיות גודל המדגם אם רוצים להעריך את‬
‫המשקל הממוצע של אדם מבוגר בארצות־הברית‪ ,‬שאוכלוסיה מרובים פי ‪?50‬‬
‫כאשר השונות אינה ידועה‪ ,‬איננו יכולים להשתמש ברווח הסמך של מסקנה ‪:3.1.21‬‬
‫יש לבחור בכמות צירית שאינה מערבת את השונות ‪ .σ‬עלינו להחליף את ‪ σ 2‬באומד‬
‫שלו; למשל‪ ,‬האומד‬
‫‪1‬‬ ‫‪X‬‬
‫= ‪S2‬‬ ‫‪(Xi − X̄)2‬‬
‫‪n−1‬‬
‫של טענה ‪.3.1.8‬‬
‫משפט ‪ 3.1.24‬נניח ש־) ‪ X1 , . . . , Xn ∼ N(µ, σ 2‬משתנים נורמליים בלתי תלויים‪ .‬אז‪:‬‬

‫‪. X̄σ/n√−µ‬‬
‫‪n‬‬
‫‪∼ N(0, 1) .1‬‬
‫‪P Xi −X̄n 2‬‬
‫‪. n−1‬‬
‫‪σ2‬‬
‫= ‪S2‬‬ ‫‪( σ ) ∼ χ2n−1 .2‬‬
‫‪ X̄n .3‬ו־‪ S‬הם בלתי תלויים‪.‬‬
‫√‪X̄n‬‬
‫‪−µ‬‬
‫= ‪ Q‬הוא משתנה מקרי בעל התפלגות ‪.tn−1‬‬ ‫‪S/ n‬‬
‫‪.4‬‬
‫הוכחת החלק השלישי והרביעי של המשפט חורגת מגבולות הקורס שלנו‪ :‬היא עושה‬
‫שימוש בהתפלגות הנורמלית הרב־ממדית‪ ,‬שהיא התפלגות משותפת של כמה משתנים‬
‫שכל אחד מהם מתפלג נורמלית‪.‬‬
‫כמקודם‪ ,‬המספר ‪ tn−1,1− α2‬מקיים ‪.P (|Q| > tn−1,1− α2 ) = α‬‬
‫מסקנה ‪ 3.1.25‬נניח ש־) ‪ X1 , . . . , Xn ∼ N(µ, σ 2‬משתנים נורמליים בלתי תלויים בעלי‬
‫שונות ‪ σ‬שאינה ידועה‪ .‬אז ) ‪ (X̄n − tn−1,1− α2 √Sn , X̄n + tn−1,1− α2 √Sn‬הוא רווח סמך בעל‬
‫רמת מובהקות ‪ α‬לפרמטר ‪.µ‬‬
‫תרגיל ‪ 3.1.26‬אם הבחירה בידינו‪ ,‬נעדיף רווח סמך )בעל אותה רמת מובהקות(‬
‫לפרמטר מסויים‪ ,‬ככל שהוא קצר יותר‪ .‬אורכו של רווח הסמך של מסקנה ‪3.1.25‬‬
‫אינו קבוע מראש‪ ,‬ולכן ההשוואה אינה מובנת מאליה‪ .‬בכל זאת‪ ,‬איזה רווח סמך‬
‫עדיף לדעתך‪ ,‬זה של מסקנה ‪ ,3.1.21‬או זה של מסקנה ‪ ?3.1.25‬האם הרווח‬
‫העדיף יהיה בהכרח קצר יותר? )נסה להעריך את הסיכויים שלא כך יהיה‪ ,‬בהנחה‬
‫ש־‪(.α = 0.05‬‬
‫‪119‬‬
‫רווח סמך להפרש תוחלות‬

‫נניח ש־) ‪ X1 , . . . , Xn ∼ N(µ1 , σ12‬ו־) ‪ ,Y1, . . . , Ym ∼ N(µ2 , σ22‬כולם בלתי תלויים‪.‬‬
‫לפעמים אין צורך באמידה של כל אחת מהתוחלות בנפרד‪ ,‬ומעוניינים רק בהפרש‬
‫‪.µ1 − µ2‬‬
‫דוגמא ‪ 3.1.27‬נניח ש־ ‪ X1 , . . . , Xn‬הם ציונים של תלמידים שלמדו סטטיסטיקה בשיטה‬

‫ישנה‪ ,‬ואילו ‪ Y1 , . . . , Ym‬הם ציוני תלמידים שלמדו לפי שיטה חדשה‪ .‬לציונים האבסולוטיים‬
‫יש משמעות נמוכה‪ ,‬משום שהם תלויים ברמת הקושי של הבחינה‪ .‬ההפרש הוא בעל‬
‫משמעות רבה יותר‪ ,‬משום שהוא מלמד האם המעבר לשיטה החדשה מועיל‪ ,‬מזיק‪ ,‬או אינו‬
‫משפיע על התוצאות‪.‬‬
‫‪σ12‬‬ ‫‪σ22‬‬
‫‪ ,X̄n − Ȳm ∼ N(µ1 − µ2 ,‬ולכן ‪X̄n − Ȳm ±‬‬ ‫‪+‬‬ ‫)‬
‫‪ .1‬שונויות ידועות‪:‬‬
‫‪n‬‬ ‫‪m‬‬
‫‪q‬‬
‫‪σ2‬‬ ‫‪σ2‬‬
‫‪ z1− 2 n1 + m2‬הם קצוות של רווח סמך ברמת מובהקות ‪ α‬ל־ ‪.µ1 − µ2‬‬
‫‪α‬‬
‫שונויות לא ידועות אבל שוות‪ :‬נניח ש־‪ .σ1 = σ2 = σ‬אז ∼ ‪X̄n − Ȳm‬‬ ‫‪ 2 .2‬‬
‫‪1‬‬ ‫‪1‬‬
‫) ‪ ,N(µ1 − µ2 , n + m σ‬אבל ‪ σ‬אינו ידוע; למרבה המזל‪ ,‬אם נסכם נקבל‬
‫‪ , σ12 ((n − 1)SX‬ולכן‬
‫‪2‬‬
‫‪+ (m − 1)SY2 ) ∼ χ2n+m−2‬‬
‫‪s‬‬
‫‪2‬‬
‫‪+ (m − 1)SY2‬‬
‫‬
‫‪1‬‬ ‫‪1 (n − 1)SX‬‬
‫‪X̄n − Ȳm ± tn+m−2,1− α2‬‬ ‫‪+‬‬
‫‪n m‬‬ ‫‪n+m−2‬‬
‫הם קצוות של רווח סמך כבסעיף הקודם‪.‬‬
‫‪ .3‬שונויות לא ידועות‪ :‬אם השונויות אינן ידועות ואין סיבה להניח שהן שוות‪ ,‬אז לא‬
‫ידוע רווח סמך מדוייק‪ ,‬ומשתמשים במקום זה בקירוב ‪:(1964) Satterthwaite‬‬
‫) ‪X̄ − Ȳ − (µ1 − µ2‬‬

‫=‪Q‬‬ ‫‪q 2‬‬
‫‪s1‬‬ ‫‪s2‬‬
‫‪n1‬‬
‫‪+ n22‬‬
‫‪(SX‬‬‫‪2 /n+S 2 /m)2‬‬

‫= ‪.ν‬‬ ‫‪(S 2 /n)2‬‬
‫‪Y‬‬
‫‪(S 2 /m)2‬‬
‫מתפלג בקירוב בהתפלגות ‪ ,tν‬כאשר‬
‫‪X‬‬ ‫‪+‬‬ ‫‪Y‬‬
‫‪n−1‬‬ ‫‪m−1‬‬
‫יש מקרה נוסף שבו רוצים לתת רווח סמך להפרש תוחלות ־ אם המדגמים מזווגים‪,‬‬
‫כלומר‪ X1 , . . . , Xn ∼ N(µ, π 2 ) ,‬ו־ ‪ ,Yi‬בהנתן ‪ ,Xi‬מתפלג נורמלית ) ‪.N(Xi + δ, σ 2‬‬
‫את ההנחה האחרונה אפשר לנסח גם כך‪.Yi − Xi ∼ N(δ, σ 2 ) :‬‬
‫מסקנה ‪ 3.1.28‬אם המדגמים מזווגים ורוצים לאמוד את הפרש התוחולת‪ ,‬אז מפעילים רווח‬
‫סמך לתוחלת בהתפלגות נומרלית על ההפרשים ‪.Yi − Xi‬‬
‫‪120‬‬
‫רווח סמך לשונות‬

‫אם רוצים לבנות רווח סמך לתוחלת והשונות אינה ידועה‪ ,‬יש לאמוד אותה‪ .‬לפעמים‬
‫ממקדים את תשומת הלב בשונות עצמה‪ ,‬ולשם כך מתבקשת יצירת רווח סמך גם‬
‫עבורה‪.‬‬
‫‪2‬‬
‫‪ . (n−1)S‬מכאן‬
‫‪σ2‬‬
‫∼‬ ‫‪χ‬‬‫‪2‬‬
‫‪n−1‬‬ ‫‪,2.3.1.24‬‬ ‫משפט‬ ‫לפי‬ ‫הצירית‪.‬‬ ‫הכמות‬ ‫שיטת‬ ‫לפי‬ ‫שוב‬ ‫נפעל‬
‫שלכל ‪,α‬‬
‫‪2‬‬
‫‬ ‫‬
‫‪(n‬‬ ‫‪−‬‬ ‫‪1)S‬‬
‫< ‪P χ2n−1, α‬‬ ‫‪< χ2n−1,1− α = 1 − α,‬‬
‫‪2‬‬ ‫‪σ2‬‬ ‫‪2‬‬
‫ולכן‬
‫!‬ ‫מסקנה ‪3.1.29‬‬

‫‪2‬‬ ‫‪2‬‬
‫‪(n − 1)S (n − 1)S‬‬
‫‪,‬‬
‫‪χ2n−1,1− α‬‬ ‫‪χ2n−1, α‬‬
‫‪2‬‬ ‫‪2‬‬
‫הוא רווח סמך לשונות‪ ,‬ברמת מובהקות ‪.α‬‬
‫הסימטריות כאן היא בכך שהסיכוי שהקטע יפול מימינו של ‪ σ 2‬שווה לסיכוי שהקטע‬
‫יפול לשמאלו‪.‬‬
‫‪2‬‬
‫ומה אם רוצים להשוות שתי שונויות? נניח ש־) ‪Y1 , . . . , Ym ∼ ,X1 , . . . , Xn ∼ N(µ1 , σ1‬‬
‫‪(n−1)SX‬‬‫‪2‬‬
‫ובאותו אופן‬ ‫‪σ12‬‬
‫) ‪ ,N(µ2 , σ22‬כולם בלתי תלויים‪ .‬לפי משפט ‪∼ χ2n−1 ,3.1.24‬‬
‫‪ 2 2‬‬
‫‪S‬‬ ‫‪σ‬‬ ‫‪(m−1)S 2‬‬
‫‪ , σ2 Y ∼ χ2m−1‬ולכן היחס ‪ SX2 / σ12‬מתפלג ‪.Fn−1,m−1‬‬
‫‪Y‬‬ ‫‪2‬‬ ‫‪2‬‬
‫!‬ ‫מסקנה ‪3.1.30‬‬

‫‪2‬‬
‫‪SX‬‬ ‫‪/SY2‬‬ ‫‪2‬‬
‫‪SX‬‬ ‫‪/SY2‬‬
‫‪,‬‬
‫‪Fn−1,m−1,1− α2 Fn−1,m−1, α2‬‬
‫הוא רווח סמך ליחס השונויות ‪ σ12 /σ22‬ברמת מובהקות ‪.α‬‬
‫רווח סמך לפרופורציה‬

‫נניח ש־)‪ ,X ∼ Bin(n, p‬כאשר הפרופורציה ‪ p‬אינה ידועה )אפשר לחשוב על המשתנים‬
‫)‪ X1 , . . . , Xn ∼ b(p‬בתור נתוני המדגם הבלתי תלוי‪ ,‬אלא שבפועל אנו משתמשים‬
‫בנתוני המדגם רק דרך הסכום שלהם ‪.(X‬‬
‫‪pq‬‬
‫לפי משפט הגבול המרכזי‪ X̄ = n1 X ,‬מתפלג בקירוב נורמלית‪ N(p, n ) ,‬כאשר‬
‫‪ .q = 1 − p‬הפרמטר ‪ ,p‬אם כך‪ ,‬הוא התוחלת של ההתפלגות‪ ,‬אלא שאי אפשר להפעיל‬
‫כאן את השיטות של תת־סעיף ‪ 3.1.3‬משום שהשונות תלויה בתוחלת‪ .‬במקום זה מקובל‬
‫להשתמש בשני קירובים‪ ,‬לפי טווח הערכים של ‪.p‬‬
‫‪121‬‬
‫פרק ‪ .3‬מבוא לסטטיסטיקה‬ ‫‪ .3.2‬בדיקת השערות‬
‫‪z1− α‬‬ ‫‪z1− α‬‬

‫‪ (X̄ −‬הוא רווח סמך‬ ‫‪√2‬‬
‫‪2 n‬‬
‫‪, X̄ +‬‬ ‫‪√2‬‬
‫‪2 n‬‬
‫טענה ‪ 3.1.31‬יהי )‪ .X ∼ Bin(n, p‬אז לכל ‪) ,α‬‬
‫עבור ‪ ,p‬ברמת מובהקות ‪ α‬או פחות‪.‬‬
‫‪1‬‬
‫‪,X̄ ∼ N(p, 4n‬‬ ‫התוצאה נובעת מן החסם הטריוויאלי ‪ :pq ≤ 14‬אילו היינו יודעים ש־)‬
‫רמת המובהקות היתה בדיוק ‪ .α‬מכיוון שהשונות בפועל קטנה יותר‪ ,‬רמת המובהקות‬
‫טובה יותר‪.‬‬
‫תרגיל ‪ 3.1.32‬מה צריך להיות גודל המדגם‪ ,‬אם רוצים לקבל רווח סמך ברוחב‬
‫של מנדט אחד לכנסת לאחוז התומכים במפלגה מסויימת שרמת המובהקות שלו‬
‫‪?0.01‬‬
‫אם ידוע מראש ש־‪ p‬קיצוני )נאמר ‪ p < 0.1‬או ‪ ,(p > 0.9‬החסם ‪ pq ≤ 14‬מפריז‬
‫ברוחב רווח הסמך; אפשר להניח ש־̄‪ X‬אומד את ‪ p‬במידה מתקבלת על הדעת של דיוק‬
‫לצורך השונות‪ ,‬ולהשתמש בזה כדי לקבל רווח סמך לפרמטר עצמו‪:‬‬
‫‪ (X̄ − z1− α2 X̄(1−‬הוא רווח סמך‬

‫√‬
‫‪n‬‬
‫)̄‪X‬‬
‫‪, X̄ + z1− α2 X̄(1−‬‬
‫√‬
‫‪n‬‬
‫)̄‪X‬‬
‫טענה ‪ 3.1.33‬כאשר ‪ p‬קיצוני‪) ,‬‬
‫עבור ‪ ,p‬ברמת מובהקות מקורבת של ‪.α‬‬
‫תרגיל ‪ 3.1.34‬חזור על תרגיל ‪ 3.1.32‬אם רוצים לאמוד את שיעור המצביעים של‬

‫מפלגה המתנדנדת סביב אחוז החסימה ‪.2%‬‬
‫בדיקת השערות‬ ‫‪3.2‬‬

‫בדיקת השערות היא פרוצדורה המשתמשת בנתוני מדגם שנאסף מהתפלגות‪ ,‬כדי‬
‫להכריע בהשערה לגבי הפרמטרים של ההתפלגות‪ .‬למשל‪ ,‬אפשר לבנות פרוצדורה‬
‫שתכריע האם משקלו הממוצע של קלח כרוב שנמכר ברשת מסויימת גדול מ־‪2.2‬‬
‫קילוגרם‪ ,‬על־פי מדגם של קלחי כרוב שנמכרו באותה רשת‪.‬‬
‫הבדיקה מכריעה בין שתי השערות לגבי ההתפלגות‪ :‬השערת האפס ‪ H0‬שהיא לרוב‬
‫ההשערה השמרנית אותה מנסים לדחות‪ ,‬והשערה אלטרנטיבית ‪ .H1‬לרוב‪ H1 ,‬היא‬
‫התופעה שאותה רוצים להוכיח‪ .‬דחיית ‪ H0‬נחשבת להצלחה‪ ,‬משום שהיא מוכיחה את‬
‫‪ ,H1‬ברמת מובהקות שנקבעה מראש‪ .‬כמו בדגימה‪ ,‬גם בבדיקת השערות יש שגיאות‬
‫שצריך להזהר מהן‪ .‬אחת הדוגמאות המפורסמות היא 'הטיית המגירה'‪ ,‬המתארת את‬
‫הנטיה של חוקרים )ועורכים( להשאיר במגירה תוצאות שליליות‪ ,‬ולפרסם רק תוצאות‬
‫חיוביות‪.‬‬
‫בפרק זה נניח שהשערת האפס נקודתית‪ ,‬כלומר קובעת את ההתפלגות באופן חד־‬
‫משמעי )היא השערה מהצורה ‪ ,θ = 5‬ולא ‪ θ ≥ 5‬או )‪ .θ ∈ (5, 7‬גם השערות מורכבות‬
‫אפשר לבדוק‪ ,‬אבל לא נטפל בהכללה זו כאן‪(.‬‬
‫‪122‬‬
‫‪ .3.2‬בדיקת השערות‬ ‫פרק ‪ .3‬מבוא לסטטיסטיקה‬
‫דוגמא ‪ 3.2.1‬שעור האנשים בעלי הפרעת אישיות חרדתית באוכלוסיה הוא ‪ .3%‬חוקר‬
‫משער ששיעורם בקרב בני מזל טלה שונה מן השיעור בקרב בני המזלות האחרים‪ .‬הפרמטר‬
‫הלא־ידוע הוא ההסתברות ‪ p‬לכך שבן מזל טלה יפתח הפרעת אישיות חרדתית‪ .‬השערת‬
‫האפס תהיה ‪ .H0 : p = 0.03‬ההשערה האלטרנטיבית היא ‪.H1 : p 6= 0.03‬‬
‫השערות ושגיאות‬ ‫‪3.2.1‬‬

‫לבדיקת השערות יש שתי תוצאות אפשריות‪ :‬דחיה של השערת האפס‪ ,‬ואי־דחיה שלה‪.‬‬
‫לאפשרות השניה קוראים לפעמים "קבלה" של ‪ ,H0‬אבל חשוב להבין שאין בכוחה של‬
‫בדיקת השערות להוכיח טענה סטטיסטית‪.‬‬
‫גם במציאות יש שתי אפשרויות‪ :‬או שהשערות האפס נכונה‪ ,‬או שההשערה האלטרנטיבית‬
‫היא הנכונה‪ .‬בהתאם לכך‪ ,‬יש ארבע אפשרויות‪:‬‬
‫‪ H0 .1‬נכונה‪ ,‬והליך בדיקת ההשערות דוחה אותה‪ .‬אזעקת שווא‪ .‬זוהי טעות‪,‬‬
‫הנקראת טעות מסוג ראשון‪.‬‬
‫‪ H0 .2‬היא הנכונה‪ ,‬והליך בדיקת ההשערות לא דחה אותה‪ .‬בהתחשב בנסיבות‪ ,‬זו‬
‫כמובן התוצאה הרצויה של ההליך‪.‬‬
‫‪ H1 .3‬נכונה‪ ,‬והליך בדיקת ההשערות דוחה את ‪ ,H0‬ובכך מוכיח את ‪ .H1‬הניסוי‬

‫הצליח‪.‬‬
‫‪ H1 .4‬נכונה‪ ,‬והליך בדיקת ההשערות לא דוחה את ‪ ,H0‬ובכך מאשש בטעות את‬

‫‪ .H0‬גם זו טעות‪ ,‬הנקראת טעות מסוג שני‪.‬‬
‫דוגמא ‪ 3.2.2‬חוקר רוצה להוכיח שתוספת ויטמין ‪ K‬לתזונת פגים מעלה את המשקל שלהם‬
‫מעבר לתזונה הרגילה‪ .‬ידוע שהוויטמין הזה אינו מזיק‪ .‬נסמן את העליה במשקל מעבר‬
‫לצפוי ב־‪ .X‬השערת האפס )שאותה רוצים לדחות( קובעת שהתוחלת של ‪ X‬היא אפס‪,‬‬
‫כלומר ‪ .H0 : µ = 0‬כנגדה‪ ,‬ההשערה האלטרנטיבית היא ‪ .H1 : µ > 0‬נפרש את ארבע‬
‫האפשרויות‪ ,‬לפי הסדר שבו הן מופיעות לעיל‪.‬‬
‫‪ .1‬הוויטמין אינו מועיל‪ ,‬והחוקר 'הוכיח' שהוא כן מועיל‪ .‬נעשה כאן חוכא ואטלולא‬
‫מן השיטה המדעית‪ .‬טעות מסוג ראשון היא טעות חמורה‪.‬‬
‫‪ .2‬הוויטמין אינו מועיל‪ ,‬והחוקר נכשל בנסיונו להוכיח את ההיפך‪ .‬החוקר בזבז את‬
‫זמנו ואת כספן של קרנות המחקר‪ ,‬אבל הגיע בסופו של דבר לתוצאה הנכונה‪.‬‬
‫‪ .3‬הוויטמין מועיל‪ ,‬והחוקר מצליח לדחות את השערת האפס ולהוכיח שזה אכן כך‪.‬‬
‫כולם מרוצים‪ :‬המחקר מתפרסם בספרות המקצועית‪ ,‬ותזונת הפגים משתפרת‪.‬‬
‫‪123‬‬
‫‪ .4‬הוויטמין מועיל‪ ,‬אלא שהניסוי לא הצליח להוכיח זאת‪ .‬זו טעות מסוג שני ‪ -‬לא‬
‫נעים )בזבוז זמן וכסף(‪ ,‬אבל לא נורא )בשנה הבאה יבצע מישהו אחר מחקר על‬
‫קבוצת תינוקות גדולה פי ארבעה‪ ,‬ואולי יצליח להוכיח את האפקט(‪.‬‬
‫דוגמא ‪ 3.2.3‬הסיווג של טעות מסוג ראשון כחמורה יותר מן הטעות מסוג שני אינו תורה‬
‫מסיני‪ .‬לדוגמא‪ ,‬אם מנסים לחזות פריצת מלחמה באמצעים סטטיסטיים‪ ,‬עדיף לדחות‬
‫בטעות את השערת האפס )ולגייס את המילואים לחינם(‪ ,‬מאשר לקבל בטעות את השערת‬
‫האפס )ולספוג מתקפת פתע(‪.‬‬
‫דוגמא ‪ 3.2.4‬לקראת תחילת שנת הלימודים האקדמית‪ ,‬סטודנט אינו בטוח האם הקורס‬
‫שנרשם אליו מתקיים בסמסטר הראשון או בסמסטר השני‪ .‬הוא מתכוון להכריע על־ידי‬
‫סקר בין סטודנטים אחרים )שרבים מהם מבולבלים לפחות כמוהו(‪ .‬דון במשמעות של‬
‫טעות משני הסוגים במקרה זה‪.‬‬
‫‪ 3.2.2‬הליך הבדיקה‬
‫נציג תאור מפורט )אם כי פשטני לפרקים( של הצעדים הדרושים לבדיקת השערות‪.‬‬
‫• רקע תאורטי‪:‬‬
‫– זיהוי והגדרת התופעה הנמדדת; זהו המשתנה המקרי ‪.X‬‬

‫– קביעת המודל‪ ,‬על־פי שיקולים תאורטיים‪ ,‬היורסיטיים וניסויים; המודל הוא‬
‫משפחת ההתפלגויות } ‪ ,{Fθ‬שהמשתנה ‪ X‬מתפלג לפי אחת מהן‪.‬‬
‫– מנסחים את השערת האפס‪ ,H0 : θ = θ0 ,‬כאשר ‪ θ0‬הוא הערך של הפרמטר‬
‫שאותו מנסים לשלול‪.‬‬
‫– מנסחים את ההשערה האלטרנטיבית לפי הידע התאורטי; בדרך כלל‬
‫‪ ,H1 : θ 6= θ0‬אבל יתכן גם ‪ ,H1 : θ = θ1 ,H1 : θ > θ0‬וכדומה‪.‬‬
‫– קובעים את רמת המובהקות ‪ .α‬פירוש הדבר הוא ש־‪ α‬תהיה ההסתברות‬
‫לטעות מסוג ראשון‪.‬‬
‫• רקע סטטיסטי‪:‬‬
‫– על פי משפחת ההתפלגויות והפרמטר שבו מדובר‪ ,‬קובעים סטטיסטי )למשל‪,‬‬
‫אומד של הפרמטר(‪.‬‬
‫– על־פי ההשערות ורמת המובהקות‪ ,‬קובעים אזור דחיה‪ ,‬שהוא תחום הערכים‬
‫שאם הסטטיסטי יפול לתוכו נכריז על דחיית השערת האפס‪.‬‬
‫– קובעים את גודל המדגם ‪ ,n‬בהתחשב באילוצים תקציביים או בחישוב‬
‫המבוסס על הסיכוי הרצוי לטעות מסוג שני )שאותו מסמנים ב־‪.(β‬‬
‫‪124‬‬
‫• ביצוע הניסוי‪:‬‬
‫– אוספים נתוני מדגם ‪.X1 , . . . , Xn‬‬

‫– מחשבים את הסטטיסטי ‪.S‬‬
‫– בודקים האם הסטטיסטי נופל לאזור הדחיה‪.‬‬
‫• פרשנות התוצאות‪:‬‬
‫– אם הסטטיסטי נפל לאזור הדחיה‪ ,‬דוחים את השערת האפס‪ .‬זוהי 'הוכחה'‬

‫שהשערת האפס אינה נכונה‪ .‬אם ההשערה נכונה‪ ,‬הסיכוי לדחיה הוא ‪.α‬‬
‫– אם הסטטיסטי נפל מחוץ לאזור הדחיה‪ ,‬ההשערה אינה נדחית‪.‬‬
‫הערה ‪ 3.2.5‬אזור הדחיה מאופיין על־ידי התכונה הבאה‪ :‬אם ‪ H0‬נכונה‪ ,‬אז הסיכוי של‬
‫סטטיסטי המבחן ‪ S‬ליפול לאזור הדחיה שווה ל־‪.α‬‬
‫הערה ‪ 3.2.6‬ככל שאזור הדחיה קטן יותר‪ ,‬נעשה קשה יותר לדחות את השערת האפס‪,‬‬
‫וכך קטן הסיכוי לטעות מסוג ראשון‪ ,‬וגדל הסיכוי לטעות מסוג שני ‪ -‬ולהיפך‪.‬‬
‫הערך המקובל של ‪ α‬הוא ‪ .5%‬אם כך‪ ,‬רמת המובהקות המקובלת היא ‪ ,5%‬ויש‬
‫סיכוי של ‪ 5%‬לטעות מסוג ראשון‪ .‬כ־‪ 5%‬מן התוצאות החיוביות המוכרזות בספרות‬
‫המדעית כמובהקות‪ ,‬הוכרזו ככאלה בטעות; ראו ‪ http://xkcd.com/882/‬לאיור הכשל הזה )אכן‬
‫רופאים אינם מאמצים שיטות טיפול חדשות על־פי תוצאות של מחקר יחיד‪ ,‬אלא מחכים‬
‫שהתוצאה תחזור בניסויים אחרים(‪.‬‬
‫ציטוט ‪" 3.2.7‬נעשו מחקרים ובהם בדקו יותר ממאה פרמטרים שמאבחנים באמצעות‬
‫הרורשך‪ 95% ,‬מהם התגלו כלא תקפים מדעית‪ ,‬ורק ‪ 5%‬תקפים" )אביבה לורי‪" ,‬מרד‬
‫הפסיכולוגים"‪" ,‬הארץ"‪.(13.12.2007 ,‬‬
‫תרגיל ‪ 3.2.8‬נניח שבודקים סדרה של השערות על מכונה לייצור מספרים אקראיים;‬

‫בכל המקרים השערת האפס נכונה‪ ,‬ומשערים‪ ,‬כרגיל‪ ,‬שהיא שגויה‪ .‬איזה אחוז‬
‫מההשערות יימצאו "תקפות מבחינה מדעית"?‬
‫תרגיל ‪ 3.2.9‬מפעם לפעם מציגים נתונים השוואתיים על שביעות הרצון של סטודנטים‬

‫ממוסדות הלימוד שלהם‪ (1) .‬כיצד היית מציג את התוצאות של סקר שבו התקבלו‬
‫הערכים הממוצעים א=‪ ,8.41‬ב=‪ ,8.37‬ג=‪ ,7.91‬ד=‪ ,7.88‬ה=‪ ?7.74‬פתרון‪ .‬הייתי חוזר‬
‫אל הסטטיסטיקאי ודורש לקבל גם את מספר הנבדקים וסטיות התקן‪ (2) .‬ואם נשאלו‬
‫‪ 500‬תלמידים )‪ 100‬מכל מוסד( וסטיית התקן בכל המקרים היא ‪ ?1.5‬פתרון‪ .‬יש‬
‫לחשב עבור כל שני מוסדות האם ההפרש ביניהם מובהק‪ ,‬ולחלק אותם לקבוצות בהתאם‪.‬‬
‫‪125‬‬
‫‪ 3.2.3‬בדיקת השערות בעזרת רווחי סמך‬

‫נסכם‪ :‬רווח סמך הוא אזור שהפרמטר נמצא בתוכו בסיכוי ‪ .1 − α‬אזור דחיה הוא‬
‫אזור ש)אם השערת האפס נכונה( הסטטיסטי נופל מחוץ לו בסיכוי ‪ .1 − α‬לפי משפט‬
‫הסיכום הבא‪ ,‬בדיקת השערות ובניית רווחי סמך הם צדדים שונים של אותו מטבע‪:‬‬
‫משפט ‪ 3.2.10‬נניח ש־ ‪ X1 , . . . , Xn ∼ Fθ‬הם נתוני מדגם בלתי תלויים‪ ,‬כאשר הפרמטר‬

‫‪ θ‬אינו ידוע‪ .‬נניח ש־) ‪ (T1 , T2‬הוא רווח סמך ברמת מובהקות ‪ .α‬אז }) ‪{θ0 6∈ (T1 , T2‬‬
‫הוא אזור דחיה אפשרי להשערה ‪.H0 : θ = θ0‬‬
‫במלים פשוטות‪ ,‬אפשר לדחות את ההשערה ‪ H0 : θ = θ0‬אם ‪ θ0‬אינו נופל בתוך רווח‬
‫סמך של ‪ ,θ‬והסיכוי לטעות מסוג ראשון היא המשלים ‪ α‬של רמת המובהקות של רווח‬
‫הסמך‪.‬‬
‫המשפט מאפשר לתרגם כל רווח סמך שבנינו בסעיף הקודם להליך לבדיקת השערה‬
‫לגבי פרמטר מתאים‪ :‬התוחלת‪ ,‬הפרש תוחלות‪ ,‬השונות‪ ,‬וכן הלאה‪.‬‬
‫דוגמא ‪) 3.2.11‬בדיקת השערות על התוחלת בהתפלגות נורמלית‪ ,‬כאשר השונות ‪ σ 2‬ידועה(‬

‫כשבוחנים את ‪ H0 : µ = µ0‬כנגד ההשערה האלטרנטיבית ‪,H1 : µ 6= µ0‬‬
‫אזור הדחיה הוא ‪ .X̄ − µ0 > z1−α/2 √σn‬לעומת זאת כשההשערה חד־צדדית‪ ,‬למשל‬
‫‪ ,H1 : µ > µ0‬אזור הדחיה הוא ‪.X̄ − µ0 > z1−α √σn‬‬
‫נשווה בין אזורי הדחיה של ההשערה הדו־צדדית להשערות חד־צדדיות כאשר = ‪α‬‬
‫‪ .0.05‬הערכים בטבלה מתייחסים להכרעה ) ‪ H1‬לדחייה‪ H0 ,‬לאי־דחייה(‪ ,‬על־פי הערך של‬
‫‪ ,Z = X̄−µ‬בהתאם להשערה האלטרנטיבית‪.‬‬ ‫הסטטיסטי ‪√ 0‬‬
‫‪σ/ n‬‬
‫‬
‫‬
‫‬ ‫‪−1.96‬‬
‫‬ ‫‪−1.645‬‬
‫‬ ‫‪0‬‬ ‫‪1.645‬‬
‫‬ ‫‪1.96‬‬
‫‬
‫‪H1 : µ 6= µ0‬‬ ‫‪ H1‬‬
‫‬
‫‬
‫‬ ‫‪H‬‬ ‫‪0‬‬
‫‬
‫‬ ‫‪H0‬‬ ‫‬
‫‬ ‫‪H‬‬ ‫‪0‬‬
‫‬
‫‬ ‫‪H1‬‬
‫‪H1 : µ < µ 0‬‬ ‫‪ H1‬‬
‫‬
‫‬
‫‬ ‫‪H1‬‬ ‫‬
‫‬ ‫‪H0‬‬ ‫‬
‫‬ ‫‪H‬‬ ‫‪0‬‬
‫‬
‫‬ ‫‪H0‬‬
‫‪H1 : µ > µ 0‬‬ ‫‪ H0‬‬ ‫‬ ‫‪H0‬‬ ‫‬ ‫‪H0‬‬ ‫‬ ‫‪H1‬‬ ‫‬ ‫‪H1‬‬
‫דוגמא ‪) 3.2.12‬בדיקת השערות על התוחלת בהתפלגות נורמלית‪ ,‬כאשר השונות לא ידועה(‬

‫‪2‬‬
‫פועלים בדיוק כמו בדוגמא ‪ 3.2.11‬פרט לשני הבדלים‪ :‬את הערך ‪ , σn‬שאינו ידוע‪ ,‬מחליפים‬
‫‪s2‬‬
‫‪ ; n−1‬ואת ערכי הטבלה ‪ z1−α‬וכדומה מחליפים ב־ ‪.tn−1,1−α‬‬ ‫באומד חסר ההטיה‬
‫נסיים בהסבר הרמז שניתן למעלה על הקשר בין גודל המדגם לסיכוי לטעות מסוג‬
‫שני‪ .‬נסמן ב־ )‪ Φ(z) = P (Z < z‬את פונקציית ההצטברות של המשתנה הנורמלי‬
‫הסטנדרטי )‪ .Z ∼ N(0, 1‬כלומר‪.Φ(zγ ) = γ ,‬‬
‫‪126‬‬
‫טענה ‪ 3.2.13‬עבור התפלגות נורמלית ) ‪ ,N(µ, σ 2‬עם שונות ידועה‪ ,‬משערים את השערת‬
‫‪ ,H‬וכנגדהאת ההשערה האלטרנטיבית ‪ .H1 : µ = µ1‬נניח ש־ ‪.µ0 < µ1‬‬ ‫האפס ‪ 0 : µ = µ0‬‬
‫‪t−µ‬‬
‫עבור אזור הדחיה ‪ ,1 X̄n > t‬הסיכוי לטעות מסוג ראשון הוא ) ‪√0‬‬
‫‪ ,α = Φ(− σ/‬והסיכוי‬ ‫‪n‬‬
‫√‪µ1‬‬
‫‪−t‬‬
‫‪.β = Φ(− σ/‬‬ ‫‪n‬‬
‫לטעות מסוג שני הוא )‬
‫מכאן מתקבלת נוסחת ה־‪ trade-off‬הקושרת בין ‪ α‬ל־‪) β‬אם ‪ n‬קבוע(‪:‬‬
‫‪µ1 − µ0‬‬
‫‪zβ + zα = −‬‬ ‫; √‬
‫‪σ/ n‬‬
‫ככל שהסיכוי לטעות מסוג ראשון יורד‪ ,‬הסיכוי לטעות מסוג שני עולה‪ ,‬ולהיפך‪.‬‬
‫יישום נוסף‪ :‬כדי להגיע לסיכויי שגיאה ‪ ,α, β‬כאשר ‪ µ0 , µ1 , σ‬קבועים‪ ,‬יש לבחור‬
‫‬ ‫‪2‬‬
‫‪σ‬‬
‫‪.n ≥ µ1 −µ‬‬ ‫‪0‬‬
‫‪(zα + zβ )2‬‬
‫√‬
‫דוגמא ‪ 3.2.14‬נניח‪ ,‬בדוגמא הקודמת‪ ,‬ש־‪ µ0 = 0 ,σ/ n = 0.2‬ו־‪ .µ1 = 1‬מצא את ‪β‬‬
‫אם ‪.α = 0.05‬‬
‫התרגיל הבא מסביר‪ ,‬דרך דוגמא‪ ,‬מדוע איננו מספקים נוסחה דומה לזו של טענה‬
‫‪ 3.2.13‬למקרה של ההשערה האלטרנטיבית ‪.H1 : µ 6= µ0‬‬
‫תרגיל ‪ 3.2.15‬תנובת החלב הממוצעת של פרה היא כ־‪ 14‬ליטר חלב ביום‪ ,‬עם‬
‫סטיית תקן ‪ .3‬מה הסיכוי לכך שממוצע תנובת החלב של מאה פרות יהיה‪ ,‬בדיוק‬
‫של שלוש ספרות אחרי הנקודה‪ ?14.000 ,‬האם תוצאה כזו מוכיחה שתוחלת‬
‫תנובת החלב היא ‪ 14‬ולא ‪ ?14.00002‬מה צריך להיות גודל המדגם שיפריך את‬
‫הטענה ‪ ,µ = 14‬אם התוחלת האמיתית היא ‪?14.00002‬‬
‫‪1‬ככל שדוגמים ערך גדול יותר של ̄‪ ,X‬יותר מתקבל על הדעת שהתוחלת היא ‪ ;µ1‬לכן לוקחים את‬
‫אזור הדחיה להיות קרן ימנית‪.‬‬
‫‪127‬‬
‫‪128‬‬
‫ביבליוגרפיה‬
‫]‪ [1‬מרצבך־שמרון‪.‬‬
‫‪129‬‬

Lecture Notes

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Lecture Notes

Uploaded by

Copyright:

Available Formats

‫מבוא להסתברות וסטטיסטיקה‬

‫‪9‬‬ ‫מבואות‬ ‫‪1‬‬

‫‪25‬‬ ‫מבוא להסתברות‬ ‫‪2‬‬

‫‪98‬‬ ‫‪ 2.10.2‬החוק החזק של המספרים הגדולים ‪. . . . . . . . . . . . . .‬‬

‫‪113‬‬ ‫מבוא לסטטיסטיקה‬ ‫‪3‬‬

‫‪ .4‬אתה נכנס למעלית והיא נתקעת‪ .1/1000 :‬אינדקס ‪.10‬‬

‫טיפוסי משתנים‬ ‫‪1.2.1‬‬

‫אוכלוסיה ומדגם‬ ‫‪1.2.2‬‬

‫תאור גרפי‬ ‫‪1.2.3‬‬

‫מדדי מרכז‬ ‫‪1.2.4‬‬

‫‪ .3‬אמצע הטווח‪. 21 (max xi + min xi ) ,‬‬

‫כל אחד מהמדדים האלו מקיים את התכונות הבאות‪:‬‬

‫)‪ (1‬סימטריות‪ f (x1 , . . . , xn ) = f (xσ1 , . . . , xσn ) :‬לכל תמורה ‪.σ ∈ Sn‬‬

‫)‪ (2‬הומוגניות‪.f (cx1 , . . . , cxn ) = cf (x1 , . . . , xn ) :‬‬

‫)‪ (3‬שקיפות להזזה‪.f (a + x1 , . . . , a + xn ) = a + f (x1 , . . . , xn ) :‬‬

‫נסמן את המדד המרכזי של המדגם ‪ x1 , . . . , xn‬ב־) ‪ ;fn (x1 , . . . , xn‬אפשר לצפות‬

‫)‪ (4‬עקביות‪.fn+1 (x1 , . . . , xn , fn (x1 , . . . , xn )) = fn (x1 , . . . , xn ) :‬‬

‫נעיר שהמינימום } ‪ min {x1 , . . . , xn‬והמקסימום } ‪ max {x1 , . . . , xn‬הומוגניים רק‬

‫תרגיל ‪ 1.2.2‬הראה שעבור ‪ n = 1, 2‬הפונקציה היחידה המקיימת את התכונות )‪-(1‬‬

‫‪ .1‬הממוצע ממזער את הפונקציה ‪ .d2 (x1 , . . . , xn ; t) = i (xi − t)2‬כלומר‪,‬‬

‫‪ .3‬אמצע הטווח ממזער את |‪.d∞ (x1 , . . . , xn ; t) = max |xi − t‬‬

‫‪ .4‬השכיח ממזער את מספר השגיאות האבסולוטיות‪.d′ = xi 6=t 1 ,‬‬

‫להכליל ולהגדיר את המדד ‪ ,tp‬שהוא הערך הממזער את = )‪dp (x1 , . . . , xn ; t‬‬

‫הנה דוגמא לחיוניותו של השכיח‪.‬‬

‫דוגמא ‪ 1.2.8‬החציון שימושי בקבלת הכרעות כאשר מצביעים על רצף של אפשרויות‪.‬‬

‫‪ .1‬הנהלת המועדון מנסחת את השאלה העומדת להכרעה‪ ,‬ודואגת שהתשובה‬

‫מדדי פיזור‬ ‫‪1.2.5‬‬

‫‪ .1‬סימטריות‪ fn (x1 , . . . , xn ) = fn (xσ1 , . . . , xσn ) :‬לכל תמורה ‪.σ ∈ Sn‬‬

‫‪ .2‬הומוגניות חיובית‪.fn (cx1 , . . . , cxn ) = |c| fn (x1 , . . . , xn ) :‬‬

‫‪ .3‬אדישות להזזה‪.fn (a + x1 , . . . , a + xn ) = fn (x1 , . . . , xn ) :‬‬

‫מדד הפיזור החשוב ביותר הוא סטיית התקן‪:‬‬

‫הגדרה ‪ 1.2.10‬סטיית התקן של סדרת מספרים ‪ x1 , . . . , xn‬היא השורש ‪ s‬של השונות‬

‫תרגיל ‪ 1.2.11‬לכל ‪ x1 , . . . , xn‬מתקיים‬

‫)אוכלוסיית בריטניה גדלה בתקופה זו ב־‪(.1.5%‬‬

‫טענה ‪ 1.2.14‬תמיד מתקיים ‪.−1 ≤ ρ ≤ 1‬‬

‫‪ P‬נתבונן ב־ ‪ Rn‬כמרחב מכפלה פנימית‪ ,‬ביחס למכפלה הפנימית הסטנדרטית‬ ‫הוכחה‪.‬‬

‫‪≤ k(xi − x̄)i k · k(yi − ȳ)i k‬‬

‫איור ‪ :1.1‬מתאמים )מימין לשמאל(‪ 0.41 ,0.04 :‬ו־‪.0.83‬‬

‫בחירה עם החזרה ובלי החזרה‪ ,‬עם חשיבות לסדר ובלעדיה‬ ‫‪1.3.1‬‬

‫דוגמא זו מיישמת את "עקרון המכפלה" בגרסתו הפשוטה ביותר‪ :‬מספר הדרכים‬

‫דוגמא ‪ 1.3.2‬לקבוצה ‪ A‬יש בדיוק |‪ 2|A‬תת־קבוצות )לרבות הקבוצה הריקה ∅ והקבוצה‬

‫דוגמא ‪ 1.3.4‬תמורה היא פוקנציה חד־חד־ערכית ועל מן הקבוצה }‪ {1, . . . , n‬לעצמה‪.‬‬

‫במקרה המיוחד ‪ k = n‬סופרת דוגמא ‪ 1.3.5‬תמורות על ‪ n‬עצמים‪ .‬אם ‪k > n‬‬

‫)עקרון הסכום המוכלל( תהי ‪ f : A→B‬פונקציה בין קבוצות סופיות‪ .‬אז‬

‫מעקרון המכפלה נובע מיד גם‬

‫נוסחת הספירה בדוגמא ‪ 1.3.10‬נובעת מן ההתאמה המסקרנת הבאה‪:‬‬

‫טענה ‪ 1.3.11‬מספר הפתרונות ) ‪ (x1 , . . . , xn‬למשוואה ‪ ,x1 +· · ·+xn = k‬תחת האילוצים‬

‫תרגיל ‪ 1.3.13‬כמה דרכים יש להושיב שבעה אנשים על ספסל? וסביב שולחן‬

‫תרגיל ‪ 1.3.14‬נאמר שקבוצת אנשים מסודרת במבנה ] ‪ [ℓ1 . . . ℓt‬אם הם יושבים‬

‫‪"] .2‬בעיית ספירת הקולות"‪;1878 ,William Allen Whitworth (1840–1905) ,‬‬

‫‪ 1.3.2‬עקרון ההכלה וההדחה‬

‫דוגמא ‪ 1.3.17‬נספור כמה פונקציות ‪ X→Y‬הן על‪ .‬נסמן |‪ n = |X‬ו־| ‪ .ℓ = |Y‬לכל‬

‫דוגמא ‪ 1.3.18‬כמה פתרונות יש למשוואה ‪ ,x1 + · · · + xt = n‬במספרים טבעיים‪ ,‬בכפוף‬

‫מרחבי הסתברות בדידים‬ ‫‪2.1‬‬

‫דוגמא ‪ 2.1.6‬נגדיר פונקציה ‪ P : N→R‬לפי ‪ .P (n) = 2−n‬כך )‪ P (n‬הוא הסיכוי‬

‫הערה ‪ 2.1.7‬יכולנו להמשיך בדוגמא הקודמת לפונקציה ‪ P : N∪{∞}→R‬על־ידי = )∞( ‪P‬‬

‫הסתברות של מאורעות‬ ‫‪2.1.1‬‬

‫טענה ‪ 2.1.8‬הפונקציה החדשה מקיימת שני תנאים חשובים‪:‬‬

‫תרגיל ‪ 2.1.10‬אם ‪ A ⊆ B‬אז )‪.P (B−A) = P (B) − P (A‬‬

‫מאורעות ‪ A, B‬הם זרים אם ∅ = ‪ ;A ∩ B‬לפעמים מרשים גם ‪ .P (A ∩ B) = 0‬אם‬

‫דוגמא ‪ 2.1.11‬בעיית המזכירה המבולבלת‪ :‬מזכירה הוציאה ‪ n‬מכתבים מן המעטפות‬

‫שהוא קירוב מצויין ל־ ‪.e−1‬‬

‫דוגמא ‪ 2.1.12‬בישראל ‪ 7000000‬אזרחים‪ .‬מדי שנה נהרגים כ־‪ 500‬בתאונות דרכים‪.‬‬