You are on page 1of 129

‫מבוא להסתברות וסטטיסטיקה‬

‫‪88-165‬‬

‫‪ 16‬באוקטובר ‪2017‬‬
‫מהדורה ‪1.792‬‬

‫סטטיסטיקה היא מערכת של כלים ושיטות הנמצאת בשימוש בכל תחומי החיים‪:‬‬
‫במדע‪ ,‬בכלכלה‪ ,‬במדעי החברה‪ ,‬ועוד‪ .‬תורת ההסתברות‪ ,‬שפותחה כדי לתאר אירועים‬
‫ותהליכים אקראיים‪ ,‬היא הבסיס המתמטי של הסטטיסטיקה‪.‬‬
‫המטרה העיקרית של הקורס שלנו היא לפתח חשיבה הסתברותית‪ ,‬שהיא תנאי‬
‫חיוני ליכולת להעריך ולאמוד הסתברויות בחיי היום־יום‪ .‬הלימודים עצמם מתמטיים‪,‬‬
‫עם הגדרות וטכניקות חישוביות ומשפטים והוכחות‪ ,‬אבל המטרה העיקרית היא פיתוח‬
‫הרגישות למספרים בהקשר ההסתברותי שלהם‪.‬‬
‫הבנת העקרונות של של תורת ההסתברות והסטטיסטיקה חשובה לכל אדם משכיל‪.‬‬
‫עקרונות אלה מאפשרים לקורא העיתונים הממוצע לקרוא את שטף הנתונים והדיווחים‬
‫המופיעים בהם מנקודת מבט ביקורתית‪ ,‬ומסייעים לכל מי שמבקש להבין מידע כמותי‬
‫לא מאורגן‪.‬‬
‫את מי שאינו מבין מספרים אפשר לרמות באמצעות נתוני סקרים לא רלוונטיים‪,‬‬
‫בהסקות סטטיסטיות שגויות‪ ,‬בהשוואה של תוחלות בלי סטיות תקן‪ .‬הוא יהמר במקום‬
‫שאסור‪ ,‬ויחשוש מהימור במקום שזה מתבקש‪ .‬לדוגמא‪ ,‬התעלמות ממאורעות בעלי‬
‫הסתברות נמוכה )אבל בשום אופן לא זניחה( היתה הסיבה למפולת הכלכלית הגדולה‬
‫של ‪.2008‬‬
‫"‪ 37‬אחוזים מהדמגוגיה מבוססים על נתונים סטטיסטיים" )זה ציטוט דמגוגי שהמצאתי‬
‫לצורך המבוא‪ ,‬אבל אתם בוודאי מבינים את ההבדל בינו לבין "‪ 37‬אחוזים מהנתונים‬
‫הסטטיסטיים הם דמגוגיה"(‪ .‬בחיים האמיתיים‪ ,‬כשאומרים ''‪ A‬גורם ל־‪ ,''B‬מתכוונים‬
‫''‪ A‬בדרך כלל גורם ל־‪ .''B‬ההפרכה הכושלת‪ ,‬והשכיחה כל־כך ''אבל כלתה של השכנה‬
‫שלי היא ‪ A‬ואינה ‪ ''B‬מבוססת על כך שהשומעים אינם מבינים שקיימות הסתברויות‬
‫בין אפס לאחד‪.‬‬
‫ראשיתה של תורת ההסתברות בהערכות של סיכויים‪ ,‬לצורך משחקי קוביה וקלפים‪,‬‬
‫שערכו פייר דה פרמה ובלז פסקל באמצע המאה ה־‪ .17‬אחריהם תרמו לתאוריה בני‬
‫משפחת ברנולי‪ ,‬קרל פרידריך גאוס‪ ,‬ורבים אחרים‪.‬‬
‫הסטטיסטיקה נולדה כמאתיים שנים אחר־כך‪ .‬פלורנס נייטינגייל‪ ,‬ששירתה במלחמת‬
‫קרים ‪ ,1854‬זכורה כאחות רחמניה שהכניסה את שיקולי ההגיינה לטיפול הרפואי‪ ,‬מהלך‬
‫שהוא אולי מאריך החיים הגדול ביותר בהסטוריה‪ .‬היא לא היתה הראשונה שהעלתה‬
‫את הרעיון‪ ,‬אבל כדי לקבל הכרה מקצועית מהרופאים ששלטו במקצוע‪ ,‬היא היתה‬
‫חייבת לאסוף נתונים סטטיסטיים – ואכן‪ ,‬כאות הוקרה על השיטות שפיתחה‪ ,‬נבחרה‬
‫לחברה המלכותית לסטטיסטיקה ב־‪.1858‬‬
‫קורס זה נבנה עבור סטודנטים בסמסטר השני של שנת הלימודים הראשונה‬
‫במתמטיקה‪ .‬במהלך הקורס נתקל בכמה טכניקות אנליטיות )סיכום טורי חזקות‬
‫בעזרת גזירה של טורים ידועים‪ ,‬אינטגרציה בחלקים‪ ,‬החלפת משתנים באינטגרציה(‪,‬‬
‫אבל נסתפק בהפעלת כלים אלה במקרים הפשוטים והקלים ביותר‪ .‬במקום אחד נשתמש‬

‫‪2‬‬
‫באינטגרציה כפולה והחלפת משתנים דו־ממדית‪ ,‬לרבות כלל היעקוביאן‪ .‬מן האלגברה‬
‫הליניארית אנו זקוקים לתכונות אלמנטריות של מטריצות‪ ,‬ורק באחד הסעיפים נזכיר‬
‫מושגים מתקדמים יותר כמו ערכים ווקטורים עצמיים‪ .‬מלבד אלה‪ ,‬הקורס עומד ברשות‬
‫עצמו‪.‬‬

‫‪3‬‬
4
‫תוכן עניינים‬

‫‪9‬‬ ‫מבואות‬ ‫‪1‬‬


‫‪9‬‬ ‫‪ 1.1‬לשם מה הסתברות ‪. . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪11‬‬ ‫‪ 1.2‬סטטיסטיקה תאורית ‪. . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪11‬‬ ‫טיפוסי משתנים ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪1.2.1‬‬
‫‪12‬‬ ‫אוכלוסיה ומדגם ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪1.2.2‬‬
‫‪12‬‬ ‫תאור גרפי ‪. . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪1.2.3‬‬
‫‪12‬‬ ‫‪ 1.2.4‬מדדי מרכז ‪. . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪16‬‬ ‫מדדי פיזור ‪. . . . . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪1.2.5‬‬
‫‪18‬‬ ‫‪ 1.2.6‬מתאם ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪19‬‬ ‫‪ 1.3‬קומבינטוריקה ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪19‬‬ ‫‪ 1.3.1‬בחירה עם החזרה ובלי החזרה‪ ,‬עם חשיבות לסדר ובלעדיה ‪.‬‬
‫‪23‬‬ ‫‪ 1.3.2‬עקרון ההכלה וההדחה ‪. . . . . . . . . . . . . . . . . . . .‬‬

‫‪25‬‬ ‫מבוא להסתברות‬ ‫‪2‬‬


‫‪25‬‬ ‫‪ 2.1‬מרחבי הסתברות בדידים ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪26‬‬ ‫הסתברות של מאורעות ‪. . . . . . . . . . . . . . . . . . . .‬‬ ‫‪2.1.1‬‬
‫‪28‬‬ ‫הסתברות מותנית ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪2.1.2‬‬
‫‪29‬‬ ‫‪ 2.1.3‬נוסחת ההסתברות השלמה ‪. . . . . . . . . . . . . . . . . .‬‬
‫‪30‬‬ ‫‪ 2.1.4‬חוק בייס ‪. . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪32‬‬ ‫תלות ואי־תלות ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪2.1.5‬‬
‫‪33‬‬ ‫‪ 2.2‬משתנים מקריים ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪33‬‬ ‫משתנה יחיד ‪. . . . . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪2.2.1‬‬
‫‪36‬‬ ‫התפלגות משותפת ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪2.2.2‬‬
‫‪38‬‬ ‫תוחלת של משתנה מקרי בדיד ‪. . . . . . . . . . . . . . . .‬‬ ‫‪2.2.3‬‬
‫‪42‬‬ ‫‪ 2.2.4‬שונות ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪44‬‬ ‫‪ 2.2.5‬שונות משותפת ומקדם המתאם ‪. . . . . . . . . . . . . . . .‬‬
‫‪47‬‬ ‫‪ 2.3‬התפלגויות בדידות ‪. . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪47‬‬ ‫התפלגות אחידה ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪2.3.1‬‬

‫‪5‬‬
‫תוכן עניינים‬ ‫תוכן עניינים‬

‫‪48‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬
‫התפלגות ברנולי ‪. . . . .‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪2.3.2‬‬‫‪.‬‬
‫‪49‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪ 2.3.3‬התפלגות בינומית ‪. . . .‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪52‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪ 2.3.4‬התפלגות פואסון ‪. . . .‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪55‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪ 2.3.5‬התפלגות גאומטרית ‪. . .‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪60‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪ 2.3.6‬התפלגות בינומית שלילית‬ ‫‪.‬‬ ‫‪.‬‬
‫‪62‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪ 2.3.7‬התפלגות היפרגאומטרית‬ ‫‪.‬‬ ‫‪.‬‬
‫‪65‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬
‫‪ 2.3.8‬גרפים מקריים ‪. . . . . .‬‬‫‪.‬‬ ‫‪.‬‬
‫‪66‬‬ ‫‪ 2.4‬מרחב התפלגות כללי ‪. . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪66‬‬ ‫‪ 2.4.1‬סיכום על קבוצה שאינה בת־מניה ‪. . . . . . . . . . . . . . .‬‬
‫‪66‬‬ ‫‪ 2.4.2‬אי־קיומן של מידות אינווריאנטיות ‪. . . . . . . . . . . . . .‬‬
‫‪67‬‬ ‫‪ 2.4.3‬סיגמא־אלגברות ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪68‬‬ ‫‪ 2.4.4‬מרחבי הסתברות ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪69‬‬ ‫‪ 2.4.5‬בעיית ברטרנד ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪70‬‬ ‫‪ 2.5‬משתנים מקרים רציפים ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪70‬‬ ‫‪-σ‬אלגברת בורל ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪2.5.1‬‬
‫‪71‬‬ ‫‪ 2.5.2‬פונקציית הצטברות ‪. . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪72‬‬ ‫‪ 2.5.3‬פונקציית צפיפות ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪72‬‬ ‫‪ 2.5.4‬תוחלת ושונות ‪. . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪74‬‬ ‫‪ 2.5.5‬התפלגות משותפת ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪75‬‬ ‫‪ 2.5.6‬המקרה המעורב ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪77‬‬ ‫‪ 2.5.7‬סטטיסטיי הסדר ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪77‬‬ ‫‪ 2.5.8‬טרנספורמציה של משתנה ‪. . . . . . . . . . . . . . . . . . .‬‬
‫‪78‬‬ ‫‪ 2.6‬התפלגויות רציפות חשובות ‪. . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪78‬‬ ‫‪ 2.6.1‬התפלגות אחידה ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪82‬‬ ‫‪ 2.6.2‬התפלגות מעריכית ‪. . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪85‬‬ ‫‪ 2.6.3‬התפלגות נורמלית ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪87‬‬ ‫‪ 2.6.4‬התפלגויות נוספות ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪89‬‬ ‫‪ 2.7‬חסמים ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪89‬‬ ‫אי־שוויון מרקוב ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪2.7.1‬‬
‫‪89‬‬ ‫אי־שוויון צ'ביצ'ב ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪2.7.2‬‬
‫‪90‬‬ ‫‪ 2.7.3‬אי־שוויון צ'רנוף ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪91‬‬ ‫‪ 2.8‬פונקציה יוצרת מומנטים ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪91‬‬ ‫‪ 2.8.1‬מומנטים ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪92‬‬ ‫‪ 2.8.2‬פונקציה יוצרת מומנטים ‪. . . . . . . . . . . . . . . . . . .‬‬
‫‪94‬‬ ‫‪ 2.8.3‬פונקציות יוצרות אחרות ‪. . . . . . . . . . . . . . . . . . . .‬‬
‫‪96‬‬ ‫‪ 2.9‬הלמה של בורל־קנטלי ‪. . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪97‬‬ ‫‪ 2.10‬חוקי המספרים הגדולים ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪97‬‬ ‫‪ 2.10.1‬החוק החלש של המספרים הגדולים ‪. . . . . . . . . . . . . .‬‬

‫‪6‬‬
‫תוכן עניינים‬ ‫תוכן עניינים‬

‫‪98‬‬ ‫‪ 2.10.2‬החוק החזק של המספרים הגדולים ‪. . . . . . . . . . . . . .‬‬


‫‪99‬‬ ‫‪ 2.10.3‬משפט הגבול המרכזי ‪. . . . . . . . . . . . . . . . . . . . .‬‬
‫‪101‬‬ ‫‪ 2.11‬שרשראות מרקוב ‪. . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪102‬‬ ‫‪ 2.11.1‬תאור גרפי ‪. . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪103‬‬ ‫‪ 2.11.2‬ההתפלגות הסטציונרית ‪. . . . . . . . . . . . . . . . . . . .‬‬
‫‪104‬‬ ‫‪ 2.11.3‬מאורעות שאינם תלויי זמן ‪. . . . . . . . . . . . . . . . . .‬‬
‫‪107‬‬ ‫‪ 2.11.4‬תוחלת זמן ההגעה ‪. . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪109‬‬ ‫‪ 2.11.5‬הרחבת זכרון ‪. . . . . . . . . . . . . . . . . . . . . . . . .‬‬

‫‪113‬‬ ‫מבוא לסטטיסטיקה‬ ‫‪3‬‬


‫‪113‬‬ ‫‪ 3.1‬אמידה ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪114‬‬ ‫אמידה נקודתית ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪3.1.1‬‬
‫‪117‬‬ ‫רווחי סמך ‪. . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪3.1.2‬‬
‫‪118‬‬ ‫‪ 3.1.3‬רווחי סמך לפרמטרים של ההתפלגות הנורמלית ‪. . . . . . .‬‬
‫‪122‬‬ ‫‪ 3.2‬בדיקת השערות ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪123‬‬ ‫השערות ושגיאות ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬ ‫‪3.2.1‬‬
‫‪124‬‬ ‫‪ 3.2.2‬הליך הבדיקה ‪. . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪126‬‬ ‫‪ 3.2.3‬בדיקת השערות בעזרת רווחי סמך ‪. . . . . . . . . . . . . .‬‬

‫‪7‬‬
‫תוכן עניינים‬ ‫תוכן עניינים‬

‫‪8‬‬
‫פרק ‪1‬‬

‫מבואות‬

‫‪ 1.1‬לשם מה הסתברות‬
‫תורת ההסתברות מטפלת במצבים של אי־וודאות‪ .‬לו היינו יודעים לחזות את העתיד‬
‫על כל פרטיו‪ ,‬לא היה לנו צורך בהסתברויות‪ .‬מכיוון שאין לנו יכולת כזו )ואם היקום‬
‫אינו דטרמיניסטי‪ ,‬גם לא תהיה לנו(‪ ,‬עלינו לנסות לכמת באופן מספרי את הסבירות‬
‫של האלטרנטיבות השונות‪.‬‬
‫אנשים שהחשיבה ההסתברותית שלהם לקויה אומרים לפעמים שאם יש שתי אפשרויות‪,‬‬
‫אז הסיכויים הם 'חצי־חצי'; מן הגישה הרדודה הזו נובע שכל המצבים שבהם יש שתי‬
‫אפשרויות שקולים זה לזה‪ .‬באותה נשימה אפשר להזכיר גם את השטות האנטי־‬
‫אינפורמטיבית 'מי שזה קורה לו‪ ,‬זה קורה לו במאה אחוזים'‪ :‬גישה כזו מרדדת את‬
‫המציאות ואינה יודעת להבחין בין מידת הזהירות שיש לנקוט בחציית כביש‪ ,‬לבין‬
‫המאמצים שיש להקדיש להתגוננות מפני מטאוריטים‪.‬‬
‫אחת המטרות העיקריות של הקורס היא לעזור לכם לפתח תחושה להסתברויות‪.‬‬
‫מכיוון שהאינטואיציה האנושית מוכשרת בטיפול במספרים מתונים )כמו עשירית או‬
‫שלושת־רבעי( ולא בהסתברויות קיצוניות‪ ,‬נגדיר את אינדקס הסיכון בתור מינוס הלוג‬
‫לפי בסיס ‪ 2‬של הסיכוי לאירוע‪ .‬אינדקס ‪) 7‬הסתברות של כאחד למאה( מצדיק שינוי‬
‫של אורח החיים‪ ,‬אינדקס ‪) 14‬כאחד לעשרת אלפים( זהירות מסויימת‪ ,‬מאינדקס ‪21‬‬
‫)כאחד לשני מליון(‪ ,‬נאמר‪ ,‬אפשר להתעלם‪.‬‬
‫דוגמא ‪ 1.1.1‬להלן הסתברויות לכמה מאורעות‪ ,‬מוכרים או נדירים‪.‬‬
‫‪ .1‬יורד גשם ביום שבו החזאי הבטיח עננים ללא גשם‪ ,1/10 :‬אינדקס ‪.3‬‬
‫‪ .2‬גבר צעיר זה יפתח מחלת לב כלילית במהלך חייו‪ :‬כ־‪ ,1/100‬אינדקס ‪.7‬‬
‫‪ .3‬ועדת קלפי שוגה ברישום התוצאות בשל החלפה בין שתי מפלגות )על־פי תוצאות‬
‫הבחירות של ‪ .3/1000 :(2013‬אינדקס ‪.8.5‬‬

‫‪9‬‬
‫פרק ‪ .1‬מבואות‬ ‫‪ .1.1‬לשם מה הסתברות‬

‫‪ .4‬אתה נכנס למעלית והיא נתקעת‪ .1/1000 :‬אינדקס ‪.10‬‬


‫‪ .5‬הסיכוי שאדם מסויים יתאבד השנה הוא כ־‪ .1/8000‬אינדקס ‪.13‬‬
‫‪ .6‬הסיכון של אשה למות בלידה הוא כ־‪ .1/20000‬אינדקס ‪.14.3‬‬
‫‪ .7‬הסיכוי של אדם להחנק למוות מדבר מאכל בשנה הקרובה הוא כ־‪ :1/70000‬אינדקס‬
‫‪.16‬‬
‫‪ .8‬הסיכוי של אדם למות השנה בתאונת אופניים הוא כ־‪ .1/70000‬אינדקס ‪.16‬‬
‫‪ .9‬הסיכוי למות השנה מתאונת נשק )בארה"ב( הוא כ־‪ .1/500000‬אינדקס ‪.19‬‬
‫‪ .10‬הסיכון שדירה מסויימת תקרוס כתוצאה מדליפת גז במהלך השנה הקרובה הוא‪,‬‬
‫נניח‪ .1/1000000 ,‬אינדקס ‪.20‬‬
‫‪ .11‬הסיכוי של תושב ארה"ב לההרג השנה מפגיעת ברק הוא כ־‪ .1/10000000‬אינדקס‬
‫‪.23‬‬
‫‪ .12‬הסיכוי לזכות בפרס הראשון בלוטו )‪ 6‬מתוך ‪ (49‬הוא כ־‪ .1/14000000‬אינדקס‬
‫‪.23.7‬‬
‫‪ .13‬הסיכוי לההרג השנה מפגיעת מטאור הוא כ־‪) 1/75000000‬אינדקס ‪.(26‬‬
‫דוגמא ‪ 1.1.2‬תוחלת החיים היא כ־ ‪ 30, 000 ∼ 215‬ימים‪ .‬לכן‪ ,‬אם אבחר לבצע מדי פעילות‬
‫שאינדקס הסיכון שלה הוא ‪ ,18‬יש סיכוי של כ־‪ 99.9%‬שלא אפגע‪ .‬לעומת זאת‪ ,‬במדינה‬
‫שיש בה ‪ 8, 000, 000‬תושבים‪ ,‬מתרחשים מדי שנה כ־ ‪ 231.4‬ימי־אדם‪ .‬מדיניות שתמליץ‬
‫להסתכן באופן כזה‪ ,‬עד כמה שהיא סבירה לאדם הפרטי‪ ,‬תביא לכ־‪ 10, 000‬נפגעים בשנה‪.‬‬
‫לכן אפשר להניח שהרשויות ימליצו על זהירות גם בהתייחס לאירועים שאינדקס הסיכון‬
‫שלהם הוא כ־‪) .30‬הסק‪ ,‬על אחריותך‪ ,‬שהגיוני להתעלם באופן פרטי מהמלצות מסויימות‬
‫של הרשויות‪(.‬‬
‫דוגמא ‪ 1.1.3‬בכל מקרה חשוב לדייק בהגדרת האוכלוסיה‪ .‬למשל‪ ,‬שיעור המצוננים‬
‫באוכלוסיה בזמן נתון )בחורף( הוא‪ ,‬נניח‪ .1% ,‬זה גם שיעור הסכיזופרנים‪ .‬עם זאת‪,‬‬
‫הסיכוי לחלות בצינון אי־פעם בחיים הוא אולי ‪ ,98%‬והסיכוי לחלות בסכיזופרניה הוא‬
‫‪.2%‬‬
‫אם מדובר באירוע מתמשך‪ ,‬הכפלת משך הזמן מגדילה את הסיכון פי ‪ ,2‬כל עוד‬
‫שומרים על גבולות הסביר )הסיכון למות בעשרת אלפי השנים הקרובות אינו גדול‬
‫בהרבה מהסיכוי למות באלף השנים הקרובות(‪.‬‬
‫חשוב לדעת להעריך הסתברויות וכמויות אקראיות הקשורות בהן‪ .‬במהלך הקורס‬
‫נתקל בכמה וכמה דוגמאות שבהן חישוב ישיר הוא קשה או בלתי אפשרי‪ ,‬אבל אפשר‬
‫לערוך אומדן מושכל בקלות יחסית‪.‬‬

‫‪10‬‬
‫‪ .1.2‬סטטיסטיקה תאורית‬ ‫פרק ‪ .1‬מבואות‬

‫תרגיל ‪ 1.1.4‬השימוש בטלפון סלולרי מגביר את הסיכון לחלות בסרטן מסוג גליומה‬
‫ב־‪ .40%‬שיעור החולים בסרטן זה הוא ‪ .2/100000‬האם תפסיקו להשתמש בטלפון‬
‫סלולרי?‬
‫דוגמא אחרונה לסעיף זה‪:‬‬
‫ציטוט ‪" 1.1.5‬הרופאים דורשים תוספת שכר של ‪ 50%‬לשכר הבסיס ועוד שיפורים בתנאים‬
‫הנלווים בשיעור של ‪ ,50%‬כך שהתוספת הכוללת שהם דורשים מגיעה ל־‪) "100%‬נציגי‬
‫משרד האוצר‪.(15.2.2011 ,‬‬

‫‪ 1.2‬סטטיסטיקה תאורית‬
‫סטטיסטיקה תאורית עוסקת בצמצום של מאגרי נתונים גדולים למספר קטן של נתונים‬
‫שאפשר להציג באופן מספרי או גרפי‪ .‬היא נועדה להחליף גודש של מידע בנתונים‬
‫תמציתיים המייצגים‪ ,‬במובנים מסויימים‪ ,‬את המידע השלם‪.‬‬
‫תאורים סטטיסטיים חשופים להטעיות ולשגיאות‪ ,‬ולכן חשוב להבין מהי הדרך‬
‫הנכונה לבצע אותם‪ .‬אפשר להקדיש לנושא הזה שעורים רבים‪ ,‬ובפקולטות אחרות‬
‫זה בדיוק מה שעושים‪ .‬בקורס שלנו הנושא יתפוס כשעור אחד; את כל השאר נשאיר‬
‫לשכל הישר שלכם‪ .‬נסתפק בהצגת המושגים המרכזיים‪ ,‬ישמשו אותנו בהמשך‪ ,‬כשנבנה‬
‫מושגים מקבילים בתורת ההסתברות‪.‬‬

‫טיפוסי משתנים‬ ‫‪1.2.1‬‬


‫כל דבר שמודדים )באופן מספרי( אפשר לקודד למשתנה סטטיסטי‪.‬‬
‫המיון הבסיסי הוא לפי טיפוס המשתנה‪ :‬משתנה איכותי )כמו צבע עיניים‪ ,‬מוצא‪,‬‬
‫מין(‪ ,‬משתנה אורדינלי )שבו יש משמעות לסדר‪ :‬השכלה‪ ,‬מידת האהדה לברוקולי(‪,‬‬
‫משתנה אינטרוולי )שבו יש משמעות להפרש ולא רק לסדר‪ :‬שנת לידה‪ ,‬מידת נעליים‪,‬‬
‫נסיון בעבודה(‪ ,‬משתנה מנתי )שבו יש גם משמעות ליחס בין ערכים‪ :‬משכורת‪ ,‬משקל(‪.‬‬
‫המיון אינו מוגדר היטב )אפשר להתווכח האם יש או אין משמעות לכך שאדם פלוני‬
‫שוקל פי ‪ 1.4‬מאדם אלמוני‪ ,‬או בעל נסיון גדול פי ‪ 5‬בעבודה(‪ .‬מטרתו העיקרית להצביע‬
‫על סוגי הניתוחים הסטטיסטיים שבאים בחשבון‪ .‬לדוגמא‪ ,‬אין משמעות לשאלה מהו‬
‫צבע העיניים הממוצע של התלמידים בכתה‪.‬‬
‫את המשתנים האינטרוואליים והמנתיים אפשר למיין הלאה לשני סוגים‪ :‬משתנים‬
‫בדידים )אלו המקבלים ערכים בקבוצה בדידה‪ :‬סופית או בת־מניה כמו המספרים‬
‫הטבעיים(‪ ,‬ומשתנים רציפים )אלו שאלמלא מגבלות הפיזיקה וההנדסה היו מקבלים‬
‫ערכים בקטע רצוף(‪ .‬בדרך כלל‪ ,‬אם הערכים בדידים בשל מגבלות דיוק או רזולוציה‬
‫אבל רבים מאד )גובה משכורת‪ ,‬שיעור המדד( מתייחסים אליהם כאילו הם רציפים‪.‬‬
‫כפי שנראה באריכות בהמשך הקורס‪ ,‬הניתוח המתמטי שונה עבור משתנים בדידים‬
‫ורציפים‪ ,‬למרות שהאידיאולוגיה דומה‪.‬‬

‫‪11‬‬
‫פרק ‪ .1‬מבואות‬ ‫‪ .1.2‬סטטיסטיקה תאורית‬

‫אוכלוסיה ומדגם‬ ‫‪1.2.2‬‬


‫'אוכלוסיה' היא מכלול הישויות הכפופות לניתוח הסטטיסטי שבו אנו מעוניינים‪ .‬למשל‪,‬‬
‫כשמדברים על מספר ימי המחלה שלוקח עובד ישראלי בשנה‪ ,‬האוכלוסיה כוללת את כל‬
‫העובדים בישראל‪ .‬אם נרצה להציג לשר הבריאות את הנתונים על האוכלוסיה כולה‪,‬‬
‫נצטרך לקבוע ישיבת עבודה ארוכה ביותר‪ .‬גרוע מזה‪ ,‬איסוף הנתונים דורש כח אדם‬
‫משמעותי וכסף רב‪.‬‬
‫לכן מסתפקים ב'מדגם'‪ :‬קבוצה חלקית לאוכלוסיה‪ ,‬שנאספה באופן שיאפשר הסקת‬
‫מסקנות ממנה על האוכלוסיה כולה‪.‬‬
‫תאור האוכלוסיה ותכונותיה הם תחום העיסוק של הסטטיסטיקה התאורית‪ .‬הדרכים‬
‫שבהן אפשר להסיק מן המדגם על האוכלוסיה הן ליבה של הסטטיסטיקה‪ ,‬ובכך נעסוק‬
‫בשעורים האחרונים של הקורס‪.‬‬

‫תאור גרפי‬ ‫‪1.2.3‬‬


‫מי שקרא עיתון או הפעיל פעם את הפונקציות הגרפיות של ‪ Excel‬אינו זקוק להסברים‬
‫לגבי תאורים גרפיים‪ .‬ובכל זאת‪ ,‬בכמה מלים‪.‬‬
‫משתנה סטטיסטי אפשר להציג בהיסטוגרמה )מתאימה להצגת מספר הנבדקים‬
‫בעלי תכונה מסויימת; כללי אתיקה‪ :‬העמודות צריכות להתחיל באפס!(‪ ,‬דיאגרמת עוגה‬
‫)מתאימה להצגת פרופורציות באוכלוסיה(‪ ,‬או באלף דרכים אחרות‪.‬‬
‫כאשר מדובר בזוג משתנים )או יותר(‪ ,‬כמו שכר לפני מס ואחרי מס‪ ,‬ציונים בקורס‬
‫א' לעומת קורס ב'‪ ,‬צבע עיניים וגובה ‪ -‬יש הרבה מאד אפשרויות‪ .‬החשובה ביותר‪:‬‬
‫דיאגרמת פיזור )נקודה פיזיקלית לכל ערך )‪.((x, y‬‬
‫נסו להציע דרכים לתאר מידע ממימד גבוה יותר )יש שיטות סטטיסטיות שעוסקות‬
‫בזה(‪.‬‬

‫מדדי מרכז‬ ‫‪1.2.4‬‬


‫תפקידו של מדד מרכזי הוא לתת ערך יחיד המתאר את הנתנים במקורב‪' .‬מצאתי את‬
‫עצמי במסיבה משעממת'‪ .‬מה היה הגיל הממוצע של שאר המשתתפים? '‪) '14‬או '‪.('55‬‬
‫כמובן שלערך יחיד יש מגבלות‪ .‬הבדיחות ידועות‪' :‬סטטיסטיקאי טבע באגם שעומקו‬
‫הממוצע חצי מטר'‪' .‬בחדר יש תשע נשים‪ :‬אחת לקראת לידה ושמונה רווקות‪ .‬הרופא‬
‫חושב שהן בממוצע בהריון בחודש הראשון'‪ .‬הבדיחה כאן היא על חשבון מי שלא‬
‫מבין סטטיסטיקה‪ :‬אפשר לטבוע באגם גם אם עומקו הממוצע סנטימטר אחד‪ .‬אין‬
‫שום הגיון בהכנסת מי שאינה בהריון לחישוב זמן ההריון הממוצע‪ ,‬כפי שלא מכלילים‬
‫בחישוב את מנורת השולחן )גם את זמן ההריון הממוצע של נשים בהריון יש טעם‬
‫לחשב רק במקרים מוגבלים ביותר(‪.‬‬
‫אינטואיטיבית‪ ,‬מדד מרכזי הוא מספר התלוי ברשימה של ‪ n‬נתונים‪ ,‬ו"מייצג" את‬
‫המרכז שלהם‪ .‬להלן ארבע דוגמאות חשובות‪:‬‬

‫‪12‬‬
‫‪ .1.2‬סטטיסטיקה תאורית‬ ‫פרק ‪ .1‬מבואות‬

‫‪x1 +···+xn‬‬
‫= ̄‪.x‬‬ ‫‪n‬‬
‫‪ .1‬הממוצע של מדגם ‪ x1 , . . . , xn‬מוגדר לפי‬

‫‪ .2‬החציון הוא הערך האמצעי ברשימה המתקבלת לאחר מיון הנתונים‪ ,‬או כל מספר‬
‫בין שני האמצעיים אם מספר הערכים זוגי‪.‬‬

‫‪ .3‬אמצע הטווח‪. 21 (max xi + min xi ) ,‬‬

‫‪ .4‬השכיח הוא הערך המופיע מספר רב ביותר של פעמים )או אחד מהם‪ ,‬אם יש‬
‫כמה כאלה(‪.‬‬

‫הערה ‪ 1.2.1‬יש מדדים שאינם מתאימים לכל טיפוסי המשתנים‪ .‬למשל‪ ,‬בחציון אפשר‬
‫להשתמש אם מדובר במשתנה אורדינלי )אבל לא איכותי(‪ ,‬ובממוצע אפשר להשתמש אם‬
‫המשתנה אינטרוולי )אבל לא אורדינלי(‪.‬‬

‫כל אחד מהמדדים האלו מקיים את התכונות הבאות‪:‬‬

‫)‪ (1‬סימטריות‪ f (x1 , . . . , xn ) = f (xσ1 , . . . , xσn ) :‬לכל תמורה ‪.σ ∈ Sn‬‬

‫)‪ (2‬הומוגניות‪.f (cx1 , . . . , cxn ) = cf (x1 , . . . , xn ) :‬‬

‫)‪ (3‬שקיפות להזזה‪.f (a + x1 , . . . , a + xn ) = a + f (x1 , . . . , xn ) :‬‬

‫נסמן את המדד המרכזי של המדגם ‪ x1 , . . . , xn‬ב־) ‪ ;fn (x1 , . . . , xn‬אפשר לצפות‬


‫שהוספת ערך מרכזי למדגם לא תשנה את המרכז שלו‪ .‬אכן‪ ,‬כל המדדים שלנו מקיימים‬
‫תכונה נוספת‪:‬‬

‫)‪ (4‬עקביות‪.fn+1 (x1 , . . . , xn , fn (x1 , . . . , xn )) = fn (x1 , . . . , xn ) :‬‬

‫נעיר שהמינימום } ‪ min {x1 , . . . , xn‬והמקסימום } ‪ max {x1 , . . . , xn‬הומוגניים רק‬


‫ביחס לקבועים חיוביים‪.‬‬

‫תרגיל ‪ 1.2.2‬הראה שעבור ‪ n = 1, 2‬הפונקציה היחידה המקיימת את התכונות )‪-(1‬‬


‫‪.f2 (x, y) = x+y‬‬
‫‪2‬‬
‫)‪ (4‬לעיל )סימטריות‪ ,‬הומוגניות‪ ,‬שקיפות ועקביות( הן ‪ f1 (x) = x‬ו־‬
‫‪) f3 (x, y, z) = x + (y − x)g( y−x‬עם המוסכמה = ) ‪0 · g( a0‬‬
‫‪z−x‬‬
‫עבור ‪ ,n = 3‬הראה ש־)‬
‫)‪ a · g(0‬המטפלת במקרה ‪ (y = x‬מקיימת את ארבע התכונות אם ורק אם‬
‫‪ g : R→R‬היא פונקציה המקיימת )‪ g(α−1) = α−1 g(α‬ו־)‪ .g(1−α) = 1−g(α‬בפרט‬
‫אפשר לבחור ‪ g : [0, 1/2]→R‬כלשהי )עם ‪ ,(g(1/2) = 1/2‬ולהשלים לפונקציה על‬
‫כל הישר לפי המשוואות‪ .‬מצא את הפונקציה המתאימה עבור הממוצע‪ ,‬החציון‪,‬‬
‫אמצע הטווח והשכיח‪.‬‬

‫‪13‬‬
‫פרק ‪ .1‬מבואות‬ ‫‪ .1.2‬סטטיסטיקה תאורית‬

‫תרגיל ‪ 1.2.3‬נניח ש־)‪ d(x1 , . . . , xn ; t‬היא 'פונקציית שגיאה'‪ ,‬שעבור מדגם ‪x1 , . . . , xn‬‬
‫מודדת עד כמה הוא מיוצג על־ידי הערך ‪ .t‬הנסיון למזער פונקציות שגיאה טבעיות‪,‬‬
‫כלומר‪ ,‬לחשב ) ‪ t = g(x1 , . . . , xn‬שיביא את השגיאה למינימום‪ ,‬מובילות לכמה‬
‫ממדדי המרכז העיקריים‪.‬‬
‫בדוק את הטענות הבאות‪.‬‬

‫‪ .1‬הממוצע ממזער את הפונקציה ‪ .d2 (x1 , . . . , xn ; t) = i (xi − t)2‬כלומר‪,‬‬


‫‪P‬‬
‫הממוצע הוא המספר שסכום ריבועי המרחקים שלו מן הנתונים הוא הקטן‬
‫ביותר‪.‬‬
‫‪P‬‬
‫= )‪.d1 (x1 , . . . , xn ; t‬‬ ‫‪ .2‬החציון ממזער את |‪|xi − t‬‬

‫‪ .3‬אמצע הטווח ממזער את |‪.d∞ (x1 , . . . , xn ; t) = max |xi − t‬‬

‫‪ .4‬השכיח ממזער את מספר השגיאות האבסולוטיות‪.d′ = xi 6=t 1 ,‬‬


‫‪P‬‬

‫להכליל ולהגדיר את המדד ‪ ,tp‬שהוא הערך הממזער את = )‪dp (x1 , . . . , xn ; t‬‬


‫אפשר‪P‬‬
‫‪ , |xi − t|p‬כאשר ‪ ;p ≥ 1‬אלא שבדרך כלל אין נוסחה אנליטית לערך ‪.tp‬‬
‫למרות שהממוצע הוא מדד טבעי ופשוט‪ ,‬ואולי דווקא בשל כך‪ ,‬הוא עשוי לבלבל‬
‫כשמשתמשים בו שלא כהלכה‪ .‬מי שמציג את הממוצע צריך לבחור אילו נתונים נכללים‬
‫בחישוב‪ ,‬ואילו מושמטים ממנו‪ .‬כאשר ממצעים נתונים של קבוצה‪ ,‬מדוע דווקא הקבוצה‬
‫הזו ולא קבוצה רחבה או צרה יותר?‬

‫דוגמא ‪ 1.2.4‬משווים את ממוצע הקליעות לסל של שני שחקנים‪ .‬מתברר שאחוז הקליעות‬
‫של ‪ A‬בעונה הראשונה גבוה משל ‪ ,B‬וגם אחוז הקליעות שלו בעונה השניה גבוה יותר‪.‬‬
‫היתכן שאחוז הקליעות המצטבר שלו נמוך יותר?‬
‫בהחלט‪ .‬למשל‪ ,‬אם ‪ A‬קלע ‪ 60‬מתוך ‪ 100‬בעונה הראשונה לעומת ‪ 29‬מתוך ‪ 50‬קליעות‬
‫של שחקן ‪ ;B‬ובעונה השניה ‪ A‬קלע ‪ 35‬מתוך ‪ ,50‬בעוד ש־‪ B‬קלע ‪ 69‬מתוך ‪ .100‬אחוז‬
‫הקליעה המצטבר של ‪ A‬הוא ‪ ,95/150‬לעומת ‪ 98/150‬אצל ‪) .B‬אנו חוזרים לדוגמא זו‬
‫בהערה ‪(.2.1.30‬‬

‫ציטוט ‪ 1.2.5‬האחראי לנושא המשכורות וכוח האדם במשרד מבקר המדינה הוא המשנה‬
‫למנכ"ל‪ ,‬שמואל יונס‪ .‬לדברי בכיר במשרד המבקר‪ ,‬המניע להעברת עובדי מינהלה ומזכירות‬
‫לדרגת "מבקר" ולא להסתפק בשכר אקדמאי בדרגת מינהלן‪ ,‬הוא כפול‪ :‬מחד‪ ,‬לו היו‬
‫נשארים עובדים אלה בדרגת "עובדי מינהלה" אך שכרם היה עולה ‪ -‬הדבר היה מעלה‬
‫את ממוצע שכרם של עובדי המינהלה וגורר ביקורת ציבורית‪ .‬מאידך ‪ -‬צירופם של‬
‫עובדים אלה לדרג עובדי הביקורת מוריד את ממוצע השכר שם‪ ,‬וממתן את הביקורת‬
‫הציבורית גם מכיוון זה‪) .‬דה־מרקר‪" ,‬התחקיר שמבקר המדינה לא יכתוב"‪,27/2/2013 ,‬‬
‫‪(http://www.themarker.com/news/1.1938799.‬‬

‫‪14‬‬
‫‪ .1.2‬סטטיסטיקה תאורית‬ ‫פרק ‪ .1‬מבואות‬

‫תרגיל ‪" 1.2.6‬מאחר שמטעמי ביטחון שדה לא ניתן להציג את ממוצע מקבלי‬
‫הגמלה‪ ,‬מציין האוצר כי ‪ 25%‬מגמלאי מערכת הביטחון קיבלו בדצמבר האחרון‬
‫פחות מ־‪ 8, 299‬שקל‪ 50% ,‬קיבלו יותר מ־‪ 11, 752‬שקל ועוד ‪ 25%‬קיבלו יותר מ־‬
‫‪ 16, 255‬שקל‪ 44.4% .‬מגמלאי מערכת הביטחון קיבלו בדצמבר שכר שבין ‪10, 000‬‬
‫ל־‪ 20‬אלף שקל‪ 29.8% .‬קיבל עד ‪ 10, 000‬שקל ו־‪ 18.5%‬גמלה של ‪ 20-30‬אלף‬
‫שקל‪ .‬בסך הכל‪ ,‬שולם לגמלאי מערכת הביטחון בדצמבר ‪ 564‬מיליון שקל‪6.8 ,‬‬
‫מיליארד שקל במונחים שנתיים‪(http://www.haaretz.co.il/tm/1.2362545 ,30/6/2014) ".‬‬
‫הערך‪ :‬כמה גמלאים יש למערכת הבטחון?‬

‫הנה דוגמא לחיוניותו של השכיח‪.‬‬

‫תרגיל ‪ 1.2.7‬קבעת עם חבר טוב להפגש ביום רביעי הבא בירושלים‪ .‬אין לך שום‬
‫אמצעי ליצור איתו קשר עד אז )הוא במחתרת מסיבות שאתה מקווה לגלות‬
‫בפגישה(‪ .‬היכן ומתי תחפש אותו? השווה את תשובותך לתשובותיהם של‬
‫סטודנטים אחרים ובדוק כמה מכם היו מצליחים להפגש בסופו של דבר‪.‬‬

‫דוגמא ‪ 1.2.8‬החציון שימושי בקבלת הכרעות כאשר מצביעים על רצף של אפשרויות‪.‬‬


‫נאמר למשל שהחברים במועדון חלוקים בדעתם לגבי מספר שעות ההתנדבות‬
‫שחבר חדש במועדון צריך להתחייב עליהן‪ .‬יש הטוענים שחובה להתנדב ‪40‬‬
‫שעות‪ ,‬ויש שיסתפקו ב־‪ .10‬יש גם כאלו הדורשים ‪ 12‬שעות‪ .‬הצבעת רוב על‬
‫שלוש אפשרויות כאלה עלולה לפצל את התומכים במספר קרוב ל־‪ ,10‬ולתת‬
‫ל־‪ 40‬לזכות מן ההפקר‪ .‬היא גם לא מאפשרת למצביעים התומכים ב־‪ 35‬או ‪32‬‬
‫לבוא לידי ביטוי‪ .‬השיטה הנכונה להכריע במקרה כזה היא כדלקמן‪:‬‬

‫‪ .1‬הנהלת המועדון מנסחת את השאלה העומדת להכרעה‪ ,‬ודואגת שהתשובה‬


‫תהיה ערך של משתנה אורדינלי )כגון "מספר השעות הדרוש"(‪ .‬עליה‬
‫לקבוע מהו כיוון ההצבעה‪ :‬אם מישהו בוחר בערך ‪ ,α‬האם חזקה עליו‬
‫שהוא תומך בכל ערך גדול יותר‪ ,‬או בכל ערך קטן יותר? בדוגמא שלנו‬
‫הכיוון הוא כלפי מעלה‪ :‬מי שדורש ‪ 15‬שעות התנדבות‪ ,‬בוודאי יסתפק ב־‪;18‬‬
‫אבל הוא יתנגד ל־‪ ,14‬משום שאחרת היה בוחר בערך הזה )כאן רואים‬
‫מדוע חשוב לתת לכל מצביע לבטא את דעתו באופן מלא(‪.‬‬

‫‪ .2‬כל מצביע מטיל לקלפי את עמדתו בסוגיה‪ ,‬שהיא ערך אחד בסולם הערכים‬
‫האפשרי‪'' .‬הנחת הרציונליות'' במקרה כזה מחייבת את המצביע לאמץ‬
‫עמדה מונוטונית‪ .‬למשל‪ ,‬הוא אינו יכול לדרוש שמספר שעות ההתנדבות‬
‫יהיה ראשוני דווקא‪.‬‬

‫‪ .3‬בתנאים אלו‪ ,‬החציון הוא הערך הקטן ביותר שיש עליו הסכמת רוב‪ ,‬ולכן זו‬
‫האפשרות שצריכה להבחר‪.‬‬

‫‪15‬‬
‫פרק ‪ .1‬מבואות‬ ‫‪ .1.2‬סטטיסטיקה תאורית‬

‫‪ .4‬גם בלי להסביר את פרטי המנגנון‪ ,‬ההנהלה יכולה לפרסם הוכחה מסודרת‬
‫ומשכנעת לכך שהרוב תומך בתוצאה שהתקבלה‪.‬‬

‫תרגיל‪ .‬נניח שהתקנון קובע שכדי לשנות סעיף בתקנון‪ ,‬ההחלטה צריכה להתקבל‬
‫ברוב מיוחס של ‪ .60%‬הראה שהאחוזון ה־‪ 60%‬של ההצבעות צריך להבחר )בכיוון‬
‫ההצבעה(‪ ,‬משום שזה הערך הקטן ביותר שיש עליו הסכמת רוב מיוחס‪ .‬תרגיל‪.‬‬
‫המועדון מצביע על הסעיף הדורש הכרעה ברוב מיוחס‪ .‬כל מי שתומך בדרישה‬
‫לרוב של ‪ α‬יסתפק בוודאי גם ברוב גדול יותר‪ ,‬אבל יתנגד לרוב קטן יותר )אחרת‬
‫היה בוחר בזה(‪ .‬נניח שמבין ‪ 50‬המצביעים‪ ,‬יש ‪ 20‬התומכים בהשארת הרוב‬
‫המיוחס על ‪ 26 ,60%‬שהיו מסתפקים ברוב רגיל )של ‪ ,(50%‬ועוד מצביע אחד‬
‫לכל אחת מהאפשרויות ‪ .58% ,56% ,54% ,52%‬הוכח לחברי המועדון שההצבעה‬
‫הובילה לביטול הרוב המיוחס‪ ,‬למרות שרק לדרישה רוב של ‪ 58%‬ומעלה יש רוב‬
‫תומך של ‪.60%‬‬

‫תרגיל ‪ 1.2.9‬במשחק נחש וזכה משחקים על פרסים ששויים המוסכם מראש הוא‬
‫השחקן צריך לנחש‬ ‫‪ .a1 , . . . , an‬מנהל המשחק שם בקופה אחד מהפרסים‪.‬‬
‫‪ .C = ( a−1‬הראה‬ ‫‪−1‬‬
‫‪P‬‬
‫) ‪i‬‬ ‫איזה פרס נבחר; אם צדק‪ ,‬הוא זוכה בפרס‪ .‬נסמן‬
‫שהאסטרטגיה הטובה ביותר‪ ,‬גם למנהל וגם לשחקן‪ ,‬היא לבחור את הפרס ה־‪i‬‬
‫‪ .Ca−1‬הסק ש־‪ C‬הוא המחיר ההוגן לכרטיס השתתפות במשחק‪.‬‬‫‪i‬‬ ‫בהסתברות‬

‫מדדי פיזור‬ ‫‪1.2.5‬‬


‫אם נחזור למי שטבע באגם שעומקו הממוצע חצי מטר‪ ,‬הבעיה היא שממוצע )או שכיח‪,‬‬
‫או כל מדד מרכזי אחר( נותן רק תאור של האמצע‪ .‬הוא לא מספר לנו עד כמה הנתונים‬
‫מפוזרים סביב האמצע‪ .‬נחוץ לנו מדד שיבדיל בין מפעל שבו ‪ 29‬עובדים בשכר ‪4000‬‬
‫ש"ח ומנהל שיווק בשכר ‪ 40000‬ש"ח )ממוצע ‪ (5200‬לבין מקום עבודה שבו ‪ 15‬עובדים‬
‫מנוסים מקבלים ‪ 5400‬ש"ח‪ ,‬ו־‪ 15‬הפחות מנוסים מקבלים ‪ 5000‬ש"ח )אותו ממוצע(‪.‬‬
‫מדד פיזור אמור לייצג את מידת הפיזור של הערכים סביב ערך מרכזי‪ .‬בהמשך‬
‫נציג כמה דוגמאות‪ ,‬המקיימות כולן את התכונות הבאות )השווה לתכונות המקבילות‬
‫של מדדי המרכז(‪:‬‬

‫‪ .1‬סימטריות‪ fn (x1 , . . . , xn ) = fn (xσ1 , . . . , xσn ) :‬לכל תמורה ‪.σ ∈ Sn‬‬

‫‪ .2‬הומוגניות חיובית‪.fn (cx1 , . . . , cxn ) = |c| fn (x1 , . . . , xn ) :‬‬

‫‪ .3‬אדישות להזזה‪.fn (a + x1 , . . . , a + xn ) = fn (x1 , . . . , xn ) :‬‬

‫מדד הפיזור החשוב ביותר הוא סטיית התקן‪:‬‬

‫‪16‬‬
‫‪ .1.2‬סטטיסטיקה תאורית‬ ‫פרק ‪ .1‬מבואות‬

‫הגדרה ‪ 1.2.10‬סטיית התקן של סדרת מספרים ‪ x1 , . . . , xn‬היא השורש ‪ s‬של השונות‬


‫‪1X‬‬
‫= ‪s2‬‬ ‫‪(xi − x̄)2 .‬‬
‫‪n‬‬

‫תרגיל ‪ 1.2.11‬לכל ‪ x1 , . . . , xn‬מתקיים‬


‫‪1X‬‬ ‫‪1 X 2‬‬
‫( = ‪(xi − x̄)2‬‬ ‫‪xi ) − x̄2 .‬‬
‫‪n‬‬ ‫‪n‬‬

‫לאחר הוצאת השורש‪ ,‬המדד הוא הומוגני ממעלה ראשונה‪ .‬בפרט‪ ,‬יחידת המידה‬
‫של סטיית התקן היא זו של הנתונים עצמם‪ :‬סטיית התקן יכולה להיות ‪ 15‬סנטימטר‪,‬‬
‫או ‪ 400‬שקל‪.‬‬
‫יש מדדי פיזור נוספים‪:‬‬
‫‪ .1‬הטווח ‪.max xi − min xi‬‬
‫‪ .2‬טווח בין־רבעוני‪ ,Q3 − Q1 :‬כאשר ‪ Q1 , M = Q2 , Q3‬הם ערכים המחלקים את‬
‫המדגם לארבעה רבעים שווים בגודלם )בקירוב‪ ,‬אם גודל המדגם אינו מתחלק‬
‫ב־‪.(4‬‬
‫בדוגמת המפעל‪ ,‬סטיית התקן של המפעל עם מנהל השיווק היא כ־‪ ,6500‬בעוד‬
‫שסטיית התקן במקרה השני היא ‪ .203‬כדי לפתח הבנה אינטואיטיבית למשמעות‬
‫המספרית של סטיית התקן‪ ,‬יש להכיר דוגמאות נוספות‪ .‬עשו לכם מנהג לחשב את‬
‫סטיית התקן של נתוני מדגמים שאתם נתקלים בהם‪ .‬במקרה הטיפוסי‪ ,‬חלק נכבד מן‬
‫הנתונים נמצא במרחק של שתי סטייות תקן לכל היותר מן הממוצע‪.‬‬
‫כהכללה למושג הרבעון‪ ,‬מגדירים )עבור ‪ (0 < α < 1‬את ה"‪α‬־יון" ‪ Pα‬להיות הערך‬
‫ש־‪ α‬מהנתונים קטנים ממנו והשאר גדולים ממנו‪ .‬כך החציון הוא ‪ ,M = P0.5‬הרבעונים‬
‫הם ‪ Q1 = P0.25‬ו־ ‪ ;Q3 = P0.75‬העשירונים ‪ D1 , . . . , D9‬מוגדרים לפי ‪,Dn = Pn/10‬‬
‫והאחוזונים המוגדרים לפי ‪ Cn = Pn/100‬מקיימים ‪. C1 < · · · < C99‬‬

‫ציטוט ‪" 1.2.12‬גודלו של העשירון התחתון הוכפל תחת משטר תאצ'ר" )פיליפ בלונד‪ ,‬הוגה‬
‫דעות פוליטי בריטי‪ ,‬הראלד טריביון‪.(26.1.2008 ,‬‬

‫)אוכלוסיית בריטניה גדלה בתקופה זו ב־‪(.1.5%‬‬

‫ציטוט ‪" 1.2.13‬הבהרה‪' :‬אחוזון עליון' משמעו כי מתוך שנתון של ‪ 100, 000‬תלמידים‪,‬‬
‫אחוז אחד הם בעלי מנת משכל גבוהה מ־‪) ".135‬אתר האגף לתלמידים מחוננים ומצטיינים‪,‬‬
‫משרד החינוך‪(.2012 ,‬‬

‫‪17‬‬
‫פרק ‪ .1‬מבואות‬ ‫‪ .1.2‬סטטיסטיקה תאורית‬

‫‪ 1.2.6‬מתאם‬
‫החשיבות העיקרית בנתונים סטטיסטיים עשויה להיות השוואתית‪ .‬בפרט‪ ,‬אנחנו עשויים‬
‫להיות מעוניינים בקשר בין שני משתנים‪ .‬הקשר יכול להיות חזק )גובה ומשקל אצל‬
‫ילדים בני שנתיים( או חלש )גובה של ילד בן שנתיים והקומה שבה הוא גר(‪ ,‬בעל‬
‫משמעות או חסר משמעות‪ .‬לפעמים הקשר בין שני משתנים חזק‪ ,‬אבל שניהם מוסברים‬
‫על־ידי משתנה שלישי )גובה וידיעת לוח הכפל בבית־הספר היסודי ‪ -‬שניהם מושפעים‬
‫מן הגיל(‪.‬‬
‫מקדם המתאם נועד לבדוק את המקרה המיוחד שבו משתנה אחד הוא‪ ,‬בקירוב‪,‬‬
‫‪P‬‬
‫פונקציה ליניארית של משתנה אחר‪.‬‬
‫‪1‬‬
‫‪i‬‬ ‫)̄‪(x −x̄)(y −y‬‬
‫‪i‬‬
‫‪ ,ρ = n‬כאשר ‪ sx , sy‬הן סטיות התקן‬ ‫‪sx sy‬‬
‫מגדירים את מקדם המתאם‬
‫‪1‬‬ ‫‪P‬‬
‫‪n‬‬ ‫המתאימות‪ .‬נפגוש בנושא זה שוב לקראת סוף הקורס‪ .‬הערה‪(xi − x̄)(yi − ȳ) = .‬‬
‫‪. n1‬‬
‫‪P‬‬
‫̄‪xi yi − x̄y‬‬

‫טענה ‪ 1.2.14‬תמיד מתקיים ‪.−1 ≤ ρ ≤ 1‬‬

‫‪ P‬נתבונן ב־ ‪ Rn‬כמרחב מכפלה פנימית‪ ,‬ביחס למכפלה הפנימית הסטנדרטית‬ ‫הוכחה‪.‬‬


‫‪ .(x1 , . . . , xn ) · (y1 , . . . , yn ) = xi yi‬לפי אי־שוויון קושי־שוורץ‪,‬‬
‫‪ X‬‬ ‫ ‬
‫| ‪ (xi − x̄)(yi − ȳ) = |(xi − x̄)i · (yi − ȳ)i‬‬
‫ ‬ ‫ ‬

‫‪≤ k(xi − x̄)i k · k(yi − ȳ)i k‬‬


‫‪qX‬‬ ‫‪qX‬‬
‫=‬ ‫)̄‪(xi − x‬‬ ‫‪2‬‬ ‫‪(yi − ȳ)2 = nsx sy .‬‬

‫‬

‫אם אין קשר סטטיסטי בין המשתנים‪ ,‬הערך צריך להיות קרוב לאפס‪ .‬לעומת זאת‬
‫אם ‪) yi = axi + b‬עבור ערכים ‪ a, b‬כלשהם(‪ ,‬אז ‪.ρ = ±1‬‬
‫איור ‪ 1.1‬מדגים נקודות אקראיות עם כמה מתאמים אפשריים‪.‬‬
‫מקדם המתאם מודד קשר ליניארי בין שני משתנים‪ .‬הוא מזהה קשר לא ליניארי‬
‫רק באופן חלקי‪ ,‬ועשוי להיות רחוק מאפס גם כשאין קשר סיבתי בין שני הגורמים‪.‬‬

‫רעיון ‪ 1.2.15‬יש מתאם חיובי בין הנטיה לאכול אוכל בריא‪ ,‬לבין הנטיה לחלות בסרטן‪.‬‬
‫מדוע? משום שהרגלי האכילה הבריאה מפחיתים )נכון יותר לומר‪ :‬דוחים( מחלות לב‪.‬‬
‫בשנים הנוספות יש סיכוי לחלות במחלות חדשות‪.‬‬

‫‪18‬‬
‫‪ .1.3‬קומבינטוריקה‬ ‫פרק ‪ .1‬מבואות‬

‫‪qq‬‬ ‫‪q‬‬
‫‪q qq‬‬ ‫‪q‬‬ ‫‪q q‬‬ ‫‪qqq q‬‬ ‫‪q qq q q‬‬
‫‪q q q qq q q q q q‬‬ ‫‪qq q‬‬
‫‪q qq q‬‬ ‫‪q‬‬ ‫‪qq‬‬ ‫‪q‬‬
‫‪q‬‬
‫‪q‬‬
‫‪q qq q q‬‬ ‫‪q‬‬‫‪q q‬‬ ‫‪q‬‬ ‫‪q qq‬‬ ‫‪q‬‬ ‫‪qq q‬‬
‫‪qq q‬‬ ‫‪q‬‬ ‫‪q‬‬ ‫‪q‬‬ ‫‪q‬‬
‫‪qq‬‬ ‫‪qq q‬‬ ‫‪qq q‬‬
‫‪qq qq q‬‬ ‫‪q q qq q‬‬ ‫‪q‬‬ ‫‪q‬‬ ‫‪qqq q q q‬‬
‫‪q‬‬ ‫‪q q‬‬ ‫‪q q‬‬
‫‪q‬‬ ‫‪q q‬‬ ‫‪q‬‬ ‫‪q‬‬ ‫‪q‬‬
‫‪q‬‬ ‫‪q‬‬

‫איור ‪ :1.1‬מתאמים )מימין לשמאל(‪ 0.41 ,0.04 :‬ו־‪.0.83‬‬

‫קומבינטוריקה‬ ‫‪1.3‬‬
‫אם ישנם ‪ n‬תרחישים אפשריים‪ ,‬שווי הסתברות‪ ,‬ומהם ‪ k‬תרחישים מוצלחים‪ ,‬אז הסיכוי‬
‫שיתרחש משהו מוצלח הוא ‪ . nk‬מן ההבחנה הפשוטה הזו נובע שכדי לחשב הסתברויות‪,‬‬
‫עלינו לדעת לספור מצבים מוצלחים )תהי ההגדרה אשר תהיה(‪ ,‬ומצבים בכלל‪ .‬בפרק‬
‫זה ניגע בנושא הקומבינטוריקה ‪ -‬תורת הספירה ‪ -‬על קצה המזלג‪.‬‬

‫בחירה עם החזרה ובלי החזרה‪ ,‬עם חשיבות לסדר ובלעדיה‬ ‫‪1.3.1‬‬


‫האובייקטים הבסיסיים בקומבינטוריקה הם וקטורים‪ ,‬כלומר‪ ,‬הופעה סדורה של רכיבים‬
‫יסודיים‪ ,‬ותת־קבוצות‪ ,‬שבהן מופיעים אותם רכיבים באופן לא סדור‪ .‬בכל בחירה יש‬
‫להבדיל בין בחירה עם חזרות )בכל פעם בוחרים מאותו מרחב( וללא חזרות )המרחב‬
‫משתנה תוך כדי הבחירה בהתאם לערכים שנבחרו(‪.‬‬

‫דוגמא ‪) 1.3.1‬בחירה עם חזרות כשיש חשיבות לסדר( נתונה קבוצה ‪ .X‬בחירה של ‪k‬‬
‫רכיבים מן הקבוצה הזו‪ ,‬עם חשיבות לסדר הרכיבים‪ ,‬אפשר לקודד לווקטור באורך ‪,k‬‬
‫הקבוצה ‪ .X k‬לכן מספר הדרכים לבחור ‪ k‬ערכים מקבוצה כזו‪ ,‬עם חזרות‪,‬‬ ‫של‪ k‬‬‫כלומר‪ k‬איבר ‬
‫הוא |‪ . X = |X‬למשל‪ ,‬בכתה של ‪ 30‬תלמידים מבקשים להעניק תעודות מתאימות‬
‫ ‬
‫לתלמיד שמקום מגוריו צפוני ביותר‪ ,‬לזה שחולצתו הכהה ביותר‪ ,‬ולזה שציונו הנמוך ביותר‪:‬‬
‫יש ‪ 303‬תוצאות אפשריות‪.‬‬

‫דוגמא זו מיישמת את "עקרון המכפלה" בגרסתו הפשוטה ביותר‪ :‬מספר הדרכים‬


‫לבחור איבר ‪ a ∈ A‬ואיבר ‪ ,b ∈ B‬כאשר אין קשר בין הבחירות‪ ,‬הוא = |‪|A × B‬‬
‫|‪) |A| · |B‬מפעילים את העקרון באינדוקציה על ‪.(k‬‬

‫דוגמא ‪ 1.3.2‬לקבוצה ‪ A‬יש בדיוק |‪ 2|A‬תת־קבוצות )לרבות הקבוצה הריקה ∅ והקבוצה‬


‫‪ A‬עצמה(‪ .‬זוהי חזרה על דוגמא ‪ ,1.3.1‬משום שיש התאמה בין תת־קבוצות לפונקציות‬
‫}‪ ,A→{0, 1‬ויש התאמה בין פונקציות אלו לבחירת |‪ |A‬ערכים )עם חזרות( מן הקבוצה‬
‫}‪.{0, 1‬‬

‫‪19‬‬
‫פרק ‪ .1‬מבואות‬ ‫‪ .1.3‬קומבינטוריקה‬

‫תרגיל ‪ 1.3.3‬נתונה קבוצה ‪ A0‬בגודל ‪ .n‬כמה דרכים יש לבחור ממנה ועדה ובתוכה‬
‫תת־ועדה? הראה שמספר השרשראות ‪ Ak ⊆ · · · ⊆ A1 ⊆ A0‬הוא ‪.(k + 1)n‬‬

‫דוגמא ‪ 1.3.4‬תמורה היא פוקנציה חד־חד־ערכית ועל מן הקבוצה }‪ {1, . . . , n‬לעצמה‪.‬‬


‫אנו מסמנים ב־ ‪ Sn‬את קבוצת התמורות על ‪ n‬עצמים‪ .‬יש ‪n! = n(n − 1)(n − 2) · · · 2 · 1‬‬
‫דרכים לסדר ‪ n‬עצמים‪) .‬אפשר להוכיח באינדוקציה(‪.‬‬
‫מספר התמורות ב־ ‪ Sn‬שווה גם למספר הפונקציות החד־חד־ערכיות ‪ f : X→Y‬בין‬
‫כל שתי קבוצות ‪ X, Y‬בגודל ‪ .n‬למשל‪ ,‬זהו מספר ה"סידורים" של ‪ ,X‬שהם פונקציות‬
‫‪ ;f : {1, . . . , n}→X‬וגם מספר התמורות של ‪) X‬פוקנציות החד־חד־ערכיות ועל ‪.(σ : X→X‬‬

‫דוגמא ‪) 1.3.5‬בחירה ללא חזרות כשיש חשיבות לסדר( סופרים וקטורים שרכיביהם בקבוצה‬
‫‪ X‬בגודל ‪ ,n‬עם המגבלה שכל שני רכיבים שונים זה מזה; יש ‪ n‬אפשרויות לרכיב הראשון‪,‬‬
‫‪ n − 1‬לשני‪ ,‬וכן הלאה‪ .‬מספר הווקטורים באורך ‪ n‬הוא‬
‫!‪n‬‬
‫= )‪n(n − 1) · · · (n − k + 1‬‬ ‫‪.‬‬
‫!)‪(n − k‬‬
‫באופן שקול לזה‪ ,‬אנו סופרים פונקציות חד־חד־ערכיות מקבוצה בגודל ‪ k‬לקבוצה בגודל‬
‫‪.n‬‬
‫באותה כתה‪ 30 · 29 · 28 ,‬הוא מספר האפשרויות לבחור ועד בן שלושה אנשים‪ ,‬שאחד‬
‫מהם עומד בראשו ואחד הוא סגן‪.‬‬

‫במקרה המיוחד ‪ k = n‬סופרת דוגמא ‪ 1.3.5‬תמורות על ‪ n‬עצמים‪ .‬אם ‪k > n‬‬


‫הדרישה היא למצוא פונקציה חד־חד־ערכית מקבוצה גדולה לקבוצה קטנה ממנה‪ ,‬ואין‬
‫פונקציות כאלה‪.‬‬
‫"עקרון הסכום" הוא העובדה הפשוטה שאם הקבוצות ‪ A, B‬זרות‪ ,‬מספר הדרכים‬
‫לבחור איבר מ־‪ A‬או מ־‪ B‬הוא |‪ .|A ∪ B| = |A| + |B‬את העקרון הזה אפשר להכליל‬
‫באופן הבא‪:‬‬

‫)עקרון הסכום המוכלל( תהי ‪ f : A→B‬פונקציה בין קבוצות סופיות‪ .‬אז‬


‫טענה‪P 1.3.6−1‬‬
‫|)‪.|A| = b∈B |f (b‬‬

‫הוכחה‪ .‬לפי ההגדרה הפורמלית‪ f ,‬היא הקבוצה |}‪ ;f = |{(a, f (a)) :Sa ∈ A‬התאמה חד־חד־‬
‫ערכית מראה ש־| ‪ f = b∈B {(a, b) : f (a) = b} ;|A| = |f‬הוא איחוד זר‪ ,‬ולכל ‪ b‬מתקיים‬
‫|)‪ .|{(a, b) : f (a) = b}| = |f −1 (b‬לכן‬
‫‪X‬‬ ‫ ‪X‬‬
‫‪ f −1 (b) .‬‬
‫ ‬
‫= | ‪|A| = |f‬‬ ‫= |}‪|{(a, b) : f (a) = b‬‬
‫‪b∈B‬‬ ‫‪b∈B‬‬

‫‬

‫‪20‬‬
‫‪ .1.3‬קומבינטוריקה‬ ‫פרק ‪ .1‬מבואות‬

‫מה הקשר לנוסחה שבדוגמא ‪ ?1.3.5‬אנו סופרים וקטורים באורך ‪ ,k‬ללא חזרות‪,‬‬
‫שרכיביהם שייכים לקבוצה ‪ .X‬נסמן ב־]‪ X [k‬את קבוצת הווקטורים ללא חזרות‬
‫באורך ‪ ,k‬וב־ ]‪ X [k−1‬את קבוצת הווקטורים ללא חזרות מאורך ‪ .k − 1‬הפונקציה‬
‫]‪ f : X [k] →X [k−1‬מוגדרת כך ש־)‪ f (v‬מתקבל מן הווקטור ‪ v‬על־ידי מחיקת הרכיב‬
‫הראשון‪ .‬לפי עקרון הסכום המוכלל‪,‬‬
‫ ‪ [k] X‬‬ ‫!)‪ X (n − 1‬‬ ‫!‪n‬‬
‫= ‪ X‬‬ ‫= ]‪ (X − {x})[k−1‬‬ ‫=‬ ‫‪.‬‬
‫‪x∈X‬‬ ‫‪x∈X‬‬
‫!)‪(n − k‬‬ ‫!)‪(n − k‬‬

‫מעקרון המכפלה נובע מיד גם‬

‫מסקנה ‪) 1.3.7‬עקרון המנה( תהי ‪ f : A→B‬פונקציה על‪ .‬אם |)‪ m = |f −1 (b‬לכל ∈ ‪b‬‬
‫‪ ,B‬אז |‪.|B| = m1 |A‬‬

‫דרך נוספת לספור וקטורים ללא חזרות היא להתבונן בהטלה ]‪ ,Sn →X [k‬המוגדרת‬
‫על־ידי הקיצוץ ))‪ .σ 7→ (σ(1), σ(2), . . . , σ(k‬כל וקטור ) ‪ (x1 , . . . , xk‬עם!‪ n‬ערכים ]‪ [k‬‬
‫שונים‬
‫אפשר להשלים לתמורה בדיוק ב־!)‪ (n − k‬דרכים‪ ,‬ולפי עקרון המנה !)‪. X = (n−k‬‬

‫תת־קבוצות בגודל‬ ‫דוגמא ‪) 1.3.8‬בחירה ללא חזרות כשאין חשיבות לסדר( כאן סופרים‬
‫‪n‬‬ ‫!‪n‬‬
‫‬
‫קבוע‪ .‬מספר תת־הקבוצות בגודל ‪ k‬של קבוצה ‪ X‬בגודל ‪ n‬הוא !)‪ . k = k!(n−k‬אכן‪,‬‬
‫‪. 30‬‬
‫‬
‫‪3‬‬
‫מספר הדרכים לבחור ועדה שוויונית בת ‪ 3‬אנשים היא‬
‫‪n‬‬ ‫!‪n‬‬
‫‬
‫מקיימים זהויות רבות‪ ,‬ובראשן‬ ‫‪k‬‬
‫=‬ ‫!)‪k!(n−k‬‬
‫הערה ‪ 1.3.9‬המקדמים הבינומיים‬
‫  ‬ ‫ ‬ ‫‬
‫‪n‬‬ ‫‪n−1‬‬ ‫‪n−1‬‬
‫=‬ ‫‪+‬‬ ‫‪.‬‬
‫‪k‬‬ ‫‪k‬‬ ‫‪k−1‬‬
‫‪PN −1‬‬ ‫‪n+k‬‬
‫‬
‫‪n=0‬‬ ‫‪k‬‬
‫מצא לזהות זו הסבר קומבינטורי פשוט‪ .‬העזר בזהות כדי להוכיח ש־=‬
‫‪ . N k+k‬ראה גם תרגיל ‪.2.3.68‬‬
‫‬

‫דוגמא ‪) 1.3.10‬בחירה עם חזרות כשאין חשיבות לסדר( גם כאן נתונה קבוצה ‪ X‬בגודל‬
‫‪ ,n‬ובוחרים מתוכה ‪ k‬ערכים; אלא שהפעם אין חשיבות לסדר הערכים שהתקבלו‪ .‬תוצאה‬
‫כזו אפשר לתאר באמצעות המספרים ‪ ,a1 , . . . , an‬כאשר ‪ ai‬סופר כמה פעמים נבחר הערך‬
‫‪ i‬מהקבוצה‪ .‬אם כך‪ ,‬אפשר לקודד את הבחירה בווקטור ) ‪ ,(a1 , . . . , an‬המוגבל על־ידי‬
‫שני אילוצים‪ ,ai ≥ 0 :‬ו־‪ .a1 + · · · + an = k‬כפי שנוכיח מיד‪ ,‬מספר הפתרונות הוא‬
‫‪. 30+2‬‬
‫‪3‬‬
‫‪ . n+k−1‬מספר הדרכים לחלק שלושה פרסים זהים לתלמידי הכתה הוא‬ ‫‪k‬‬

‫נוסחת הספירה בדוגמא ‪ 1.3.10‬נובעת מן ההתאמה המסקרנת הבאה‪:‬‬

‫‪21‬‬
‫פרק ‪ .1‬מבואות‬ ‫‪ .1.3‬קומבינטוריקה‬

‫טענה ‪ 1.3.11‬מספר הפתרונות ) ‪ (x1 , . . . , xn‬למשוואה ‪ ,x1 +· · ·+xn = k‬תחת האילוצים‬


‫‪. n+k−1‬‬
‫‪k‬‬
‫‪ ,xi ≥ 0‬הוא‬

‫הוכחה‪ .‬נבנה התאמה חד־חד־ערכית ועל בין קבוצת הפתרונות ) ‪ (x1 , . . . , xn‬לבין קבוצת הווקטורים‬
‫באורך ‪ n + k − 1‬שיש בהם ‪ k‬סימני "×" ו־)‪ (n − 1‬סימני פסיק‪ :‬הווקטור ) ‪ (x1 , . . . , xn‬מתאים‬
‫לרשימה רצופה של סימנים המורכבת מ־ ‪ x1‬סימני × ואז סימן פסיק; ואז ‪ x2‬סימני × וסימן פסיק;‬
‫ואז ‪ x3‬סימני × וסימן פסיק; וכן הלאה‪ ,‬עד ל־ ‪ xk‬סימני ×‪.‬‬
‫ מספר הווקטורים באורך ‪ n + k − 1‬שיש בהם ‪ k‬סימני "×" ו־)‪ (n − 1‬סימני פסיק הוא‬
‫‬ ‫‪ , n+k−1‬משום שיש לבחור היכן ממוקמים סימני הפסיק בקבוצת הרכיבים של הווקטור‪.‬‬ ‫‪k‬‬

‫אלו הן ארבע דוגמאות חשובות לבעיות בחירה‪ ,‬אבל יש בעיות רבות אחרות‪ ,‬בדרך‬
‫כלל קשות יותר‪ .‬למשל‪ ,‬כמה וקטורים מסודרים יש באורך קבוע ובעלי סכום קבוע ‪?n‬‬
‫ואם אין חשיבות לאורך? ואיך גדל המספר הזה‪ ,‬כפונקציה של ‪?n‬‬
‫שההכללה שלה מתבקשת‪ .‬אם ‪,|A| = m‬‬ ‫ספירה של קבוצות היא בעיה חשובה‪,‬‬
‫‪ . m‬כל תת־קבוצה כזו היא למעשה‬
‫‬
‫‪n‬‬
‫כאמור‬ ‫אז מספר תת־הקבוצות בגודל ‪ n‬הוא‬
‫חלוקה של ‪ A‬לאיחוד זר ‪ .B ∪ B c‬באופן כללי יותר‪ ,‬מספר האפשרויות לפרק את‬
‫‪ A‬לאיחוד זר של תת־קבוצות ‪ ,B1 , . . . , Bt‬בגדלים שנקבעו מראש ‪ |Bi | = ni‬כך‬
‫ש־‪ ,n1 + · · · + nt = m‬הוא‬
‫ ‬ ‫‬ ‫‬ ‫ ‬ ‫‬
‫‪m‬‬ ‫‪m − n1‬‬ ‫‪m − n1 − · · · − nt−1‬‬ ‫‪m‬‬
‫···‬ ‫=‬ ‫‪.‬‬
‫‪n1‬‬ ‫‪n2‬‬ ‫‪nt‬‬ ‫‪n1 · · · nt‬‬

‫דוגמא ‪ 1.3.12‬בכתה יש ‪ 30‬תלמידים‪ .‬רוצים לחלק להם כובעים‪ 7 :‬כובעי ליצן‪ 18 ,‬מצנפות‬
‫צילינדרים‪ ,‬כך שכל תלמיד יחבוש בדיוק כובע אחד‪ .‬מספר הדרכים לעשות זאת‬ ‫שינה‪ ,‬ו־‪5‬‬
‫‪. 7 30‬‬ ‫!‪30‬‬
‫‬
‫‪18 5‬‬
‫=‬ ‫!‪7!18!5‬‬
‫הוא‬

‫תרגיל ‪ 1.3.13‬כמה דרכים יש להושיב שבעה אנשים על ספסל? וסביב שולחן‬


‫עגול? כמה דרכים יש לחלק אותם למנהיג ושני צוותי עבודה שווים בגודלם‪ ,‬שיש‬
‫להם אותה משימה?‬

‫תרגיל ‪ 1.3.14‬נאמר שקבוצת אנשים מסודרת במבנה ] ‪ [ℓ1 . . . ℓt‬אם הם יושבים‬


‫סביב שולחנות עגולים באורכים ‪ .ℓ1 , . . . , ℓt‬לדוגמא‪ ,‬המבנים האפשריים לסידור‬
‫ארבעה אנשים הם ]‪ .[1111], [112], [22], [13], [4‬כמה דרכים יש להושיב ששה‬
‫אנשים בכל אחד מאחד־עשר המבנים האפשריים? )סכום התשובות הוא !‪.(6‬‬

‫‪ .1‬בטיול על המרחב ‪ Z2‬מותר לזוז בכל צעד רק באלכסון‪ :‬ימינה‬ ‫תרגיל ‪1.3.15‬‬
‫ולמעלה או ימינה ולמטה‪ .‬נניח ש־‪ a > b‬שלמים‪ .‬כמה מסלולים מגיעים‬
‫מנקודת הראשית לנקודה )‪?(a + b, a − b‬‬

‫‪22‬‬
‫‪ .1.3‬קומבינטוריקה‬ ‫פרק ‪ .1‬מבואות‬

‫‪"] .2‬בעיית ספירת הקולות"‪;1878 ,William Allen Whitworth (1840–1905) ,‬‬


‫הפתרון המתואר כאן הוא של )‪ [Désiré André (1840–1917/18‬בבחירות‬
‫יש ‪ a‬תומכים למועמד אחד ו־‪ b‬למועמד השני‪ ,‬כאשר ‪ .a > b‬סופרים את‬
‫הקולות בזה אחר זה‪ .‬מהם הסיכויים לכך שהמועמד שינצח בסופו של דבר‬
‫יוביל לאורך הספירה כולה? הדרכה‪ .‬לכל קבוצת מסלולים ‪ ,X‬נסמן ב־ ‪ X ′‬את‬
‫קבוצת המסלולים ב־‪ X‬שבהם המנצח מוביל לאורך הספירה כולה‪ ,‬וב־ ‪ X ′′‬את‬
‫המסלולים ב־‪ X‬שבהם מתרחש תיקו לפחות פעם אחת במהלך הספירה‪ .‬נסמן ב־‬
‫‪ A‬את קבוצת המסלולים שהצעד הראשון שלהם הוא כלפי מעלה )תמיכה במועמד‬
‫שינצח בסופו של דבר( וב־‪ B‬את המשלים‪ ,‬היינו המסלולים שהצעד הראשון שלהם‬
‫כלפי מטה )תמיכה במועמד המפסיד(‪ .‬כמובן‪ .B ′ = ∅ ,‬על־ידי שיקוף החלק של‬
‫המסלול עד לתיקו הראשון‪ ,‬הראה ש־| ‪ .|B ′′ | = |A′′‬הסק שההסתברות המבוקשת‬
‫| ‪|A′‬‬ ‫|‪|A|−|B‬‬
‫|‪. |A∪B‬‬ ‫|‪= |A|+|B‬‬ ‫‪= a−b‬‬
‫היא ‪a+b‬‬

‫‪ 1.3.2‬עקרון ההכלה וההדחה‬


‫כידוע‪ .|A ∪ B| = |A| + |B| − |A ∩ B| ,‬בדומה לזה אפשר לחשב‬
‫‪|A ∪ B ∪ C| = |A| + |B| + |C| − |A ∩ B| − |A ∩ C| − |B ∩ C| + |A ∩ B ∩ C|.‬‬

‫זוהי נוסחה שימושית‪ ,‬משום שבדרך כלל קל יותר לחשב כמה איברים מקיימים תכונה‬
‫מסויימת או זוג תכונות מסויימות או שלוש תכונות‪ ,‬מאשר לחשב כמה אברים מקיימים‬
‫לפחות תכונה אחת‪.‬‬
‫ההכללה מתבקשת‪:‬‬
‫משפט ‪) 1.3.16‬עקרון ההכלה וההדחה( אם ‪ A1 , . . . , At‬קבוצות‪ ,‬אז‬
‫ ‬ ‫ ‬
‫‪t‬‬
‫‪X‬‬ ‫‪X‬‬ ‫ \ ‬
‫= | ‪|A1 ∪ · · · ∪ At‬‬ ‫‪(−1)i−1‬‬ ‫‪ Ai .‬‬
‫ ‬ ‫ ‬
‫ ‬ ‫ ‬
‫‪i=1‬‬ ‫‪I⊆{1,...,t}, |I|=i i∈I‬‬

‫הוכחה‪ .‬אם נסכים שהחיתוך על־פני אוסף ריק של קבוצות שווה לאיחוד ‪,A1 ∪ · · · ∪ At‬‬
‫נוכל לכתוב את הטענה בצורה הדוקה יותר‪:‬‬
‫‪t‬‬
‫ ‬ ‫ ‬
‫‪X‬‬ ‫‪X‬‬ ‫ \ ‬
‫‪(−1)i‬‬ ‫‪ Ai = 0,‬‬
‫ ‬ ‫ ‬
‫ ‬ ‫ ‬
‫‪i=0‬‬ ‫‪I⊆{1,...,t}, |I|=i i∈I‬‬

‫ ‬ ‫ ‬ ‫ואפילו‬
‫‪X‬‬ ‫ \ ‬
‫‪(−1)|I| Ai = 0.‬‬
‫ ‬ ‫ ‬
‫ ‬ ‫ ‬
‫}‪I⊆{1,...,t‬‬ ‫‪i∈I‬‬

‫‪23‬‬
‫פרק ‪ .1‬מבואות‬ ‫‪ .1.3‬קומבינטוריקה‬

‫‪S‬‬
‫כדי להוכיח את הטענה‪ ,‬יהי ‪ .x ∈ Ai‬נסמן } ‪,J = {i ∈ {1, . . . , t} : x ∈ Ai‬‬
‫ו־|‪ .t′ = |J‬אז ‪ x‬מופיע באגף ימין בדיוק בחיתוכים ‪ ∩i∈I Ai‬שעבורם ‪ ,I ⊆ J‬ובסך‬
‫הכל‬
‫‪t‬‬ ‫‪t′‬‬ ‫‪ ′‬‬ ‫‪t′‬‬ ‫‪ ′‬‬
‫‪i−1 t‬‬ ‫‪i t‬‬ ‫‪′‬‬
‫‪X‬‬ ‫‪X‬‬ ‫‪X‬‬ ‫‪X‬‬
‫‪i−1‬‬
‫)‪(−1‬‬ ‫=‪1‬‬ ‫)‪(−1‬‬ ‫)‪= 1− (−1‬‬ ‫‪= 1−(1−1)t = 1‬‬
‫‪i=1‬‬ ‫‪i=1‬‬
‫‪i‬‬ ‫‪i=0‬‬
‫‪i‬‬
‫‪I⊆J, |I|=i‬‬

‫‬ ‫פעמים‪.‬‬
‫נאמר שמערכת הקבוצות ‪ A1 , . . . , At‬היא סימטרית אם גודל החיתוך | ‪|∩i∈I Ai‬‬
‫תלוי רק ב־|‪ .|I‬עבור מערכת סימטרית‪ ,‬נוסחת ההכלה וההדחה מקבלת צורה נוחה‬
‫במיוחד‪:‬‬
‫‪t‬‬ ‫‬
‫‪X‬‬ ‫‪t‬‬
‫= | ‪|A1 ∪ · · · ∪ At‬‬ ‫‪(−1)i−1‬‬ ‫‪|A1 ∩ · · · ∩ Ai |.‬‬
‫‪i=1‬‬
‫‪i‬‬

‫דוגמא ‪ 1.3.17‬נספור כמה פונקציות ‪ X→Y‬הן על‪ .‬נסמן |‪ n = |X‬ו־| ‪ .ℓ = |Y‬לכל‬


‫‪Sy ∈ Y‬נסמן }) ‪ .Ay = {f : X→Y : y 6∈ Im(f‬הפונקציות שאינן על נמצאות ב־‬
‫‪ . y∈Y Ay‬לכל ‪ I ⊆ Y‬מתקיים ‪ .|∩y∈I Ay | = (ℓ − |I|)n‬לכן‬
‫‪t‬‬ ‫‬ ‫‪t‬‬ ‫‬
‫‪X‬‬
‫‪i−1‬‬ ‫‪t‬‬ ‫‪X‬‬
‫‪i−1 t‬‬
‫= | ‪|A1 ∪ · · · ∪ At‬‬ ‫)‪(−1‬‬ ‫= | ‪|A1 ∩ · · · ∩ Ai‬‬ ‫)‪(−1‬‬ ‫‪(ℓ − i)n .‬‬
‫‪i=1‬‬
‫‪i‬‬ ‫‪i=1‬‬
‫‪i‬‬

‫דוגמא ‪ 1.3.18‬כמה פתרונות יש למשוואה ‪ ,x1 + · · · + xt = n‬במספרים טבעיים‪ ,‬בכפוף‬


‫לאילוצים ‪?0 ≤ x1 , . . . , xt < m‬‬
‫נתבונן בקבוצת הפתרונות של שעבורם ‪ ,0 ≤ x1 , . . . , xt‬ללא האילוצים ‪;xi ≤ m‬‬
‫ספרנו את אלה בטענה ‪ .1.3.11‬נסמן ב־ ‪ Ai‬את קבוצת הפתרונות שעבורם ‪.m ≤ xi‬‬
‫אנו מעוניינים בפתרונות שאינם באף ‪ ,Ai‬כלומר במשלים ‪ .(A1 ∪ · · · ∪ At )c‬המערכת‬
‫‪ A1 , . . . , At‬סימטרית‪ .‬כדי לספור את הפתרונות ב־ ‪ ,A1 ∩ · · · ∩ Aj‬נציב ‪xi = x′i + m‬‬
‫עבור ‪ ,1 ≤ i ≤ j‬ונקבל את המשוואה ‪,x′1 + · · · + x′j + xj+1 + · · · + xt = n − jm‬‬
‫עם האילוצים הסטנדרטיים ‪ ,x′1 , . . . , x′j , xj+1 , . . . , xt ≥ 0‬שמספר הפתרונות שלה הוא‬
‫‪ . t+n−jm−1‬לפי נוסחת ההכלה וההדחה‪ ,‬מספר הפתרונות המבוקש הוא‬
‫‬
‫‪n−jm‬‬

‫‪t‬‬
‫ ‬ ‫‬
‫‪c‬‬ ‫‪t‬‬
‫‪X‬‬ ‫‪t + n − jm − 1‬‬
‫‪j‬‬
‫= | ) ‪|(A1 ∪ · · · ∪ At‬‬ ‫)‪(−1‬‬ ‫‪.‬‬
‫‪j=0‬‬
‫‪j‬‬ ‫‪n − jm‬‬

‫‪24‬‬
‫פרק ‪2‬‬

‫מבוא להסתברות‬

‫מרחבי הסתברות בדידים‬ ‫‪2.1‬‬


‫יש קושי פילוסופי בהגדרת מושג ההסתברות )אם העולם דטרמיניסטי‪ ,‬כל דבר או‬
‫שיקרה בוודאות‪ ,‬או שלא יקרה בוודאות(‪ .‬כדי לחסוך בזמן‪ ,‬ננקוט בגישה המתמטית‬
‫)שהיא‪ :‬ליצור תאוריה מדוייקת‪ ,‬ולהשאיר את כאב הראש לפילוסופים(‪.‬‬
‫המתמטיקה מסובכת יותר עבור משתנים רציפים‪ ,‬ולכן נתחיל בפיתוח התאוריה‬
‫עבור משתנים בדידים‪ .‬מעתה ועד פרק ‪ ,2.5‬תהי ‪ Ω‬קבוצה סופית או בת־מניה‪.‬‬

‫הערה ‪ 2.1.1‬אם טור מתכנס בהחלט‪ ,‬סכומו אינו תלוי בסדר האברים‪.‬‬

‫הגדרה ‪) 2.1.2‬מרחב הסתברות בדיד( מרחב הסתברות בדיד הוא זוג סדור ) ‪P (Ω, P‬‬
‫שבו‬
‫‪ Ω‬קבוצה סופית או בת מניה‪ ,‬ו־‪ P : Ω→R‬פונקציה חיובית המקיימת ‪. x∈Ω P (x) = 1‬‬

‫לפי הערה ‪ ,2.1.1‬אם הטור מתכנס לסידור מסויים של הנקודות במרחב‪ ,‬אז הסכום אינו‬
‫תלוי בסדר‪.‬‬
‫ההגדרה הזו אינה מתאימה למרחבים שאינם בני מניה )משום שאז הסכום אינו‬
‫מוגדר(‪ .‬בהמשך הקורס נתמודד עם המקרה הכללי‪ ,‬ונראה שהוא מכליל את ההגדרות‬
‫שנפגוש בפרק הזה‪.‬‬

‫דוגמא ‪ 2.1.3‬נניח ש־‪ Ω‬מרחב סופי‪ .n = |Ω| ,‬הפונקציה ‪) P (x) = n1‬לכל ‪(x ∈ Ω‬‬
‫הופכת את ‪ Ω‬למרחב הסתברות‪ ,‬הנקרא מרחב ההסתברות האחיד )בגודל ‪.(n‬‬

‫מצבים טבעיים רבים מוליכים למרחבי הסתברות אחידים‪ :‬זריקת מטבע או קוביה‪,‬‬
‫זוג קוביות )בצבעים שונים(‪ ,‬וכדומה‪ .‬במקרים רבים המרחב האחיד הוא גדול מכדי‬
‫להיות מעניין‪ ,‬ומחליפים אותו במרחב מנה קטן‪ ,‬הנוגע באופן ישיר יותר לשאלה שרוצים‬
‫לחקור‪.‬‬

‫‪25‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.1‬מרחבי הסתברות בדידים‬

‫דוגמא ‪ 2.1.4‬זורקים מטבע שש פעמים‪ ,‬ושואלים מתי התקבל ‪ 1‬בפעם הראשונה )אם‬
‫בכלל(‪ .‬נוכחים כאן שני מרחבי הסתברות‪ :‬המרחב האחיד ‪ Ω‬על ‪ 26‬הסדרות האפשריות‬
‫של הטלות מטבע‪ ,‬המתאר את מרחב התצפיות‪ ,‬והמרחב }‪ Ω′ = {1, 2, 3, 4, 5, 6, −‬של‬
‫תוצאות הניסוי‪ .‬יש פונקציה ‪ Ω→Ω′‬המתאימה לכל תצפית את התוצאה המתאימה לה‬
‫)למשל‪ ,‬כל הסדרות ∗∗∗‪ 001‬מתאימות לערך ‪.(3 ∈ Ω′‬‬
‫|) ‪|f −1 (ω′‬‬
‫|‪.P (ω ′) = |Ω‬‬ ‫ההתאמה הזו מגדירה פונקציית הסתברות על המרחב ‪ ,Ω′‬לפי‬

‫דוגמא ‪ 2.1.5‬קוביה אינה חייבת להיות הוגנת‪ :‬לכל ‪ n‬מספרים ממשיים ‪p1 , . . . , pn ≥ 0‬‬
‫שסכומם ‪ ,p1 + · · · + pn = 1‬אפשר לקחת ‪.P (xi ) = pi‬‬

‫דוגמא ‪ 2.1.6‬נגדיר פונקציה ‪ P : N→R‬לפי ‪ .P (n) = 2−n‬כך )‪ P (n‬הוא הסיכוי‬


‫שנצטרך להטיל מטבע ‪ n‬פעמים עד‪P‬להצלחה הראשונה )לקבל 'עץ'‪ ,‬למשל(‪ .‬זוהי פונקציית‬
‫∞ ‪.‬‬‫‪n=1 2‬‬
‫‪−n‬‬
‫הסתברות‪ ,‬משום ש־‪= 1‬‬

‫הערה ‪ 2.1.7‬יכולנו להמשיך בדוגמא הקודמת לפונקציה ‪ P : N∪{∞}→R‬על־ידי = )∞( ‪P‬‬


‫‪ ,0‬משום שככלות הכל יתכן שסדרת הכשלונות תמשך לאינסוף‪ ,‬גם אם ההסתברות לכך‬
‫היא ‪) 0‬לא 'קטנה' או 'זניחה' ־ אפס(‪.‬‬
‫נקודות כאלה אפשר לזרוק מן המרחב‪ :‬קיומן או העדרן אינו משפיע כלל על החישובים‪.‬‬

‫הסתברות של מאורעות‬ ‫‪2.1.1‬‬


‫כל תת־קבוצה ‪ A ⊆ Ω‬נקראת מאורע; היא מייצגת דבר שיכול לקרות‪ ,‬ושאפשר לדבר‬
‫על ההסתברות שלו‪ .‬נסמן ב־)‪ P(Ω‬את קבוצת החזקה של ‪) Ω‬לא )‪ ,P (Ω‬משום שאנו‬
‫זקוקים לאות ‪ P‬כדי לציין הסתברויות(‪ .‬אכן‪ ,‬אנו מרחיבים את ההגדרה מהפונקציה‬
‫‪ P : Ω→R‬לפונקציה ‪ P : P(Ω)→R‬על־ידי‬
‫‪X‬‬
‫)‪(2.1‬‬ ‫= )‪P (A‬‬ ‫)‪P (x‬‬
‫‪x∈A‬‬

‫)בכל סידור של ‪ A‬הסכומים החלקיים מהווים סדרה עולה וחסומה‪ ,‬ולכן מתכנסת;‬
‫ומכיוון שהטור מתכנס בהחלט‪ ,‬הסדר אינו חשוב(‪.‬‬

‫טענה ‪ 2.1.8‬הפונקציה החדשה מקיימת שני תנאים חשובים‪:‬‬


‫‪;P (Ω) = 1 .1‬‬
‫‪P‬‬
‫= ) ‪.P (∪An‬‬ ‫‪n‬‬ ‫‪ .2‬לכל סדרה ‪ A1 , A2 , . . .‬של מאורעות זרים בזוגות‪P (An ) ,‬‬

‫הוכחה‪ .‬התכונה הראשונה היא אקסיומה מפורשת; לתכונה השניה‪ ,‬הסכום על ‪∪An‬‬
‫‬ ‫הוא סידור מחדש של סכום הסכומים על ה־ ‪.An‬‬

‫‪26‬‬
‫‪ .2.1‬מרחבי הסתברות בדידים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫הערה ‪ 2.1.9‬בתכונה ‪ 2‬לעיל אפשר לקחת ∅ = · · · = ‪ ,A3 = A4‬ואז מתקבל עבור כל‬
‫שתי קבוצות זרות ‪ A1 , A2‬הכלל )‪.P (A1 ∪ A2 ) = P (A1 ) + P (A2‬‬

‫תרגיל ‪ 2.1.10‬אם ‪ A ⊆ B‬אז )‪.P (B−A) = P (B) − P (A‬‬

‫מאורעות ‪ A, B‬הם זרים אם ∅ = ‪ ;A ∩ B‬לפעמים מרשים גם ‪ .P (A ∩ B) = 0‬אם‬


‫‪ A, B‬זרים‪ ,‬אז )‪.P (A ∪ B) = P (A) + P (B‬‬
‫לכל שני מאורעות מתקיים )‪ .P (A ∪ B) = P (A) + P (B) − P (A ∩ B‬עבור‬
‫קבוצות או יותר‪ ,‬אפשר לנסח את הגרסה ההסתברותית של נוסחת ההכלה וההדחה‬
‫)עם אותה הוכחה(‪:‬‬
‫‪n‬‬
‫‪X‬‬ ‫‪X‬‬
‫= ) ‪P (A1 ∪ · · · ∪ An‬‬ ‫‪(−1)k−1‬‬ ‫‪P (Ai1 ∩ · · · ∩ Aik ).‬‬
‫‪k=1‬‬ ‫‪1≤i1 <···<ik ≤n‬‬

‫דוגמא ‪ 2.1.11‬בעיית המזכירה המבולבלת‪ :‬מזכירה הוציאה ‪ n‬מכתבים מן המעטפות‬


‫שלהם‪ ,‬והחזירה אותם למקומות באקראי‪ .‬מה הסיכוי לכך שאף מכתב לא יחזור למקומו?‬
‫נסמן ב־ ‪ Ai‬את המאורע "המכתב ה־‪ i‬חזר למקומו"‪ .‬מבקשים לחשב את הסיכוי‬
‫של המשלים לאיחוד‪ ,P ((A1 ∪ · · · ∪ An )c ) ,‬בעוד שהסיכוי לכל חיתוך ‪Ai1 ∩ · · · ∩ Aik‬‬
‫) ‪ (i1 < · · · < ik‬קל לחישוב‪ .‬לפי נוסחת ההכלה וההדחה‪,‬‬
‫‪n‬‬
‫‪X‬‬ ‫‪X‬‬
‫‪c‬‬
‫= ) ) ‪P ((A1 ∪ · · · ∪ An‬‬ ‫‪(−1)k‬‬ ‫) ‪P (Ai1 ∩ · · · ∩ Aik‬‬
‫‪k=0‬‬ ‫‪1≤i1 <···<ik ≤n‬‬
‫‪n‬‬
‫‪X‬‬ ‫‪X‬‬ ‫!)‪(n − k‬‬
‫=‬ ‫‪(−1)k‬‬
‫‪1≤i1 <···<ik‬‬ ‫‪≤n‬‬
‫!‪n‬‬
‫‪k=0‬‬
‫‪n‬‬ ‫ ‬
‫!)‪k n (n − k‬‬
‫‪X‬‬
‫=‬ ‫)‪(−1‬‬
‫‪k=0‬‬
‫‪k‬‬ ‫!‪n‬‬
‫‪n‬‬
‫‪X‬‬ ‫‪1‬‬
‫=‬ ‫‪(−1)k‬‬ ‫‪,‬‬
‫‪k=0‬‬
‫!‪k‬‬

‫שהוא קירוב מצויין ל־ ‪.e−1‬‬

‫דוגמא ‪ 2.1.12‬בישראל ‪ 7000000‬אזרחים‪ .‬מדי שנה נהרגים כ־‪ 500‬בתאונות דרכים‪.‬‬


‫פירושו של דבר הוא שהסיכוי של אדם למות השנה בתאונת דרכים הוא ‪1/14000‬‬
‫)אינדקס סיכון‪ .(16 :‬הסיכוי של מי שיוצא בקביעות לשתות עם חברים למות‬

‫‪27‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.1‬מרחבי הסתברות בדידים‬

‫בתאונה הוא גבוה בהרבה )נסו להעריך אותו!(‪ .‬הסיכוי של נהגים זהירים נמוך‬
‫יותר; הסיכוי של מי שאינו יוצא מהבית נמוך עוד יותר‪.‬‬
‫במוסד גדול לומדים ‪ 14000‬תלמידים‪ .‬מה הסיכוי שאחד מתלמידי המוסד‬
‫יהרג בתאונה השנה? מה דעתכם על הסיכוי שהשנה יהרג חבר־כנסת בתאונת‬
‫דרכים? )ח"כ מיכה רייסר נהרג בתאונה בשנת ‪ ;1988‬עד היום היו בישראל‬
‫כ־‪ 120 · 65 = 7800‬שנות ח"כים(‪.‬‬
‫ציטוט ‪" 2.1.13‬בעלי התקציב הלחוץ ישמחו לדעת שהביטוי 'יש לה לוק מיליון דולר'‪ ,‬מוטעה‬
‫מבסיסו‪ .‬האמת היא שאין שום קשר בין כסף לבין סטייל‪ .‬עזבו את העובדה ששום סכום‬
‫שבעולם לא יקנה טעם‪ .‬לעיתים‪ ,‬כיסים עמוקים גורמים להפך הגמור‪ .‬זה עניין של סבירות‬
‫פשוטה‪ :‬אם אתה יכול להרשות לעצמך לרכוש ממבחר גדול יותר של פריטים‪ ,‬הסיכוי לבחור‬
‫את הלוק הלא נכון גבוה יותר‪) ".‬הבלוג של רוני בר‪" ,‬הארץ"‪.(http://blogs.haaretz.co.il/ronibar/78 ,‬‬

‫הסתברות מותנית‬ ‫‪2.1.2‬‬


‫כשמחשבים הסתברות‪ ,‬חשוב מאד להגדיר 'מה מתוך מה'‪.‬‬
‫ציטוט ‪ 57%" 2.1.14‬מן המטבעות של שקל אחד הולכים לאיבוד" )כתבה לכבוד השקת‬
‫המטבע של שני שקלים‪.(2009 ,‬‬
‫יהי ) ‪ (Ω, P‬מרחב התפלגות בדיד‪ .‬לעתים קרובות‪ ,‬מרחב כזה מקודד את מידת‬
‫אי־הוודאות שלנו לגבי התרחשות עתידית‪ .‬מידע נוסף משפר את ההערכה שלנו לגבי‬
‫העומד להתרחש‪ ,‬דרך שינוי ההסתברויות שאנו צריכים לייחס לכל אפשרות‪ .‬באופן‬
‫פורמלי‪ ,‬נניח ש־‪ B ⊆ Ω‬מאורע בעל הסתברות חיובית‪ .‬כדי להניח שמרחב האפשרויות‬
‫הצטמצם מ־‪ Ω‬ל־‪ ,B‬אנו מגדירים פונקציית הסתברות חדשה על ‪:Ω‬‬
‫(‬
‫)‪P (x‬‬
‫)‪P (B‬‬
‫;‪, x ∈ B‬‬
‫= )‪P (x|B‬‬
‫‪0,‬‬ ‫‪x 6∈ B.‬‬

‫טענה ‪ (Ω, P (·|B)) 2.1.15‬הוא מרחב הסתברות בדיד‪.‬‬


‫)‪.P (A|B) = x∈A P (x|B) = P P(A∩B‬‬
‫‪P‬‬
‫)‪(B‬‬
‫לכל קבוצה ‪ ,A ⊆ Ω‬מתקיים לפי ההגדרה‬
‫על ההתניה אפשר לחזור‪ .‬כפי שהגדרנו את ההסתברות המותנית ביחס ל־‪ ,B‬אפשר‬
‫להגדיר גם )‪ ,P (·|B, C) = P (·|B ∩ C‬וכן הלאה‪.‬‬
‫תרגיל ‪ 2.1.16‬אחוז החולים במחלה מסויימת הוא ‪ .1%‬יש בדיקה לאיתור המחלה‪,‬‬
‫שאחוז הדיוק שלה ‪ .90%‬מישהו נבדק ונמצא בריא‪ .‬מה הסיכוי לכך שהוא באמת‬
‫בריא? )דון בשתי הפרשנויות למלה "דיוק" ־ הסיכוי שבדיקה של אדם אקראי‬
‫תחזיר תשובה נכונה‪ ,‬והסיכוי שהבדיקה תחזיר תשובה נכונה בין אם האדם חולה‬
‫או בריא(‪.‬‬

‫‪28‬‬
‫‪ .2.1‬מרחבי הסתברות בדידים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫תרגיל ‪ 2.1.17‬בחפיסה שלושה קלפים‪ :‬אחד ששני צידיו אדומים‪ ,‬אחד ששני צידיו‬
‫שחורים‪ ,‬ואחד שיש לו צד אחד אדום וצד שני שחור‪ .‬בוחרים קלף באקראי ומניחים‬
‫אותו על השולחן באקראי‪ :‬הצד החשוף הוא אדום‪ .‬מה הסיכוי לכך שהצד השני‬
‫שחור? )מדוע‪ ,‬לדעתכם‪ ,‬התשובה השכיחה לשאלה זו היא 'חצי'? ומדוע תשובה‬
‫זו שגויה?(‬

‫דיון ‪ 2.1.18‬בכד מונחים ‪ n‬כרטיסי־גירוד‪ ,‬שאחד מהם זוכה בפרס‪ .‬הילדים מסכימים‬
‫שאם יחלקו כרטיס אחד לכל ילד‪ ,‬ואז יבדוק כל אחד את הכרטיס שברשותם‪ ,‬אז‬
‫הסיכוי של ראובן לזכות הוא ‪ . n1‬שכנעו את ראובן שאם מחלקים את הכרטיסים‬
‫בזה אחר זה‪ ,‬וכל ילד יבדוק מיד את הכרטיס שלו‪ ,‬אין זה משנה היכן הוא עומד‬
‫בתור לקבלת הכרטיסים‪.‬‬

‫תרגיל ‪ 2.1.19‬העד המומחה טוען שרק במקרים נדירים ביותר אורך האמה עולה‬
‫על היקף פרק כף היד‪ .‬שלושה אנשים בקהל מדגימים שאורך האמה שלהם עולה‬
‫על היקף פרק כף היד‪ .‬האם תופתע לגלות שעורך הדין מטעם ההגנה זימן אותם‬
‫לשם בכוונה?‬

‫נוסחת ההסתברות השלמה‬ ‫‪2.1.3‬‬


‫מתקיים )‪ .P (A ∩ B) = P (A|B)P (B‬מכאן נובעת נוסחת ההסתברות השלמה לשתי‬
‫קבוצות‪:‬‬
‫‪P (A) = P (A|B)P (B) + P (A|B c )P (B c).‬‬

‫דוגמא ‪ 2.1.20‬הסיכוי שבן אוהב ברוקולי הוא ‪ ,7%‬הסיכוי שבת אוהבת ברוקולי הוא‬
‫‪ .31%‬מבין הקונים בחנות‪ 70% ,‬בנות‪ .‬הרגע נכנס לקוח‪ .‬מה הסיכוי שהוא אוהב‬
‫ברוקולי?‬

‫טענה ‪ 2.1.21‬נוסחת ההסתברות השלמה הכללית‪ :‬אם ‪ Ω‬מפורק לאיחוד זר ‪) ∪· Bi‬סופי‬


‫‪X‬‬ ‫או אינסופי(‪ ,‬אז‬
‫)‪(2.2‬‬ ‫= )‪P (A‬‬ ‫‪P (A|Bi )P (Bi ).‬‬
‫)אם ‪ P (Bi ) = 0‬מפרשים את המכפלה ) ‪ P (A|Bi )P (Bi‬כאפס‪ ,‬למרות שהגורם הראשון‬
‫בה אינו מוגדר‪(.‬‬

‫תרגיל ‪ 2.1.22‬מטילים מטבעות בזה אחר זה עד להופעת ה"עץ" הראשון‪ ,‬ואז‬


‫בוחרים מטבע באקראי )ובסיכויים שווים( מבין אלה שהוטלו‪ .‬הראה שהסיכוי לכך‬
‫שהמטבע שנבחר יציג "עץ" הוא בדיוק )‪.log(2‬‬

‫‪29‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.1‬מרחבי הסתברות בדידים‬

‫בני משפחת ברנולי תרמו רבות לתורת ההסתברות‪ .‬הבעיה הבאה‪ ,‬שהוצגה ליעקב‬
‫לברנולי‪ ,‬נחשבת לאחד הגורמים שהתניעו את הההתפתחות הזו‪.‬‬

‫תרגיל ‪ 2.1.23‬משחק "הראשון לשש" שבו צריך להגיע לתוצאה ‪ ,6‬בין שני שחקנים‬
‫שקולים‪ ,‬נקטע בתוצאה ‪ .3 : 5‬איך לחלק את ההימור‪ ,‬ביחס של ‪) 1 : 3‬יחס‬
‫הנקודות החסרות(‪) 3 : 5 ,‬יחס הנקודות שכבר הושגו(‪ ,‬או אולי באופן אחר? כתוב‬
‫עץ אפשרויות מתאים‪ ,‬וקבע מה היה צריך ברנולי להשיב‪.‬‬

‫‪ 2.1.4‬חוק בייס‬
‫נוסחת ההיפוך מאפשרת לעבור מההסתברות של ‪ A‬בהנתן ‪ B‬להסתברות של ‪ B‬בהנתן‬
‫‪:A‬‬
‫)‪P (A|B)P (B‬‬
‫)‪(2.3‬‬ ‫= )‪P (B|A‬‬ ‫‪.‬‬
‫)‪P (A‬‬

‫דוגמא ‪ 25% 2.1.24‬מהרופאים מרוויחים מתחת לשכר הממוצע‪ 2% .‬מבין המרוויחים‬


‫מתחת לממוצע הם רופאים‪ .‬אחוז המרוויחים מתחת לממוצע באוכלוסיה הוא ‪ .65%‬מה‬
‫אחוז הרופאים באוכלוסיה?‬

‫ציטוט ‪ 2.1.25‬בקוסטה־ריקה עבר ב־‪ 2011‬חוק המאפשר לגזור שנתיים מאסר על גבר‬
‫שהעליב את אשתו‪ .‬יוזמי החוק הסבירו ש־‪ 70%‬ממקרי האלימות התחילו בהעלבה‪ .‬מה‬
‫דעתכם על החוק‪ ,‬אם רק ‪ 0.22%‬ממקרי ההעלבה מסתיימים באלימות?‬

‫תרגיל ‪ 2.1.26‬שליש מזוגות התאומים הם תאומים זהים‪ .‬באולטרהסאונד מגלים‬


‫ששני התאומים הם מאותו מין‪ .‬מה הסיכוי שהם זהים?‬

‫טענה ‪ 2.1.27‬לכל חלוקה של המרחב ‪ Ω = ∪Bk‬לאיחוד זר‪ ,‬ולכל מאורע ‪ ,A‬מתקיים חוק‬
‫‪.P (Bk |A) = PP (A|B‬‬‫) ‪k )P (Bk‬‬
‫) ‪P (A|Bi )P (Bi‬‬
‫בייס‪:‬‬
‫‪i‬‬

‫תרגיל ‪ 2.1.28‬התמנון שנודע בתקופת תחרויות הכדורגל המונדיאל של ‪ 2010‬בשם‬


‫"פול"‪ ,‬הוא‪ ,‬קרוב לוודאי‪ ,‬תמנון פשוט שאין כל קשר בין התחזיות שלו לתוצאות‬
‫המשחק; יש רק סיכוי קלוש )נאמר‪ (0.001% ,‬שהוא נביאו של נפטון החוזה בדייקנות‬
‫כל תוצאה‪ .‬לאחר שפול קלע אל המטרה ‪ 7‬פעמים רצופות‪ ,‬מה הסיכוי שהוא‬
‫יחזה נכונה את תוצאת המשחק השמיני?‬
‫איך היית מגיב אם פול היה חוזה בדייקנות ‪ 40‬משחקים רצופים?‬

‫‪30‬‬
‫‪ .2.1‬מרחבי הסתברות בדידים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫דוגמא ‪ 2.1.29‬באמצע שנות השמונים התמודדה אוניברסיטה גדולה בקליפורניה עם טענות‬


‫על אפליה נגד נשים )המספרים כאן מומצאים(‪ :‬מבין הפונים ללימודי דוקטורט‪ ,‬התקבלו‬
‫‪ 44%‬מהבנים‪ ,‬ורק ‪ 37%‬מהבנות‪.‬‬
‫כששלטונות האוניברסיטה ניגשו לבדוק איזו פקולטה אשמה בפער‪ ,‬התברר שבכולן‬
‫אחוז הנשים המתקבלות ללימודים גבוה מזה של הבנים‪ .‬במדעי הטבע התקבלו ‪50%‬‬
‫מהבנים ו־‪ 57%‬מהבנות‪ ,‬ובמדעי החברה התקבלו ‪ 28%‬מהבנים ו־‪ 33%‬מהבנות‪ .‬ראו‬
‫איזה פלא‪ :‬למרות שבכל פקולטה הופלו הבנות לטובה‪ ,‬האוניברסיטה ככלל הפלתה אותן‬
‫לרעה‪.‬‬
‫האם אפשר לקבוע מה אחוז הבנות מן הפונים לאוניברסיטה?‬

‫הערה ‪ 2.1.30‬המצב שבו סיכום שגוי של שני זוגות שברים יביא להיפוך הסדר ביניהם‬
‫נקרא פרדוקס סימפסון‪:‬‬

‫‪a‬‬ ‫‪a′‬‬ ‫‪b‬‬ ‫‪b′‬‬ ‫‪a+b‬‬ ‫‪a′ + b′‬‬


‫‪> ′,‬‬ ‫‪> ′,‬‬ ‫‪< ′‬‬ ‫;‬
‫‪x‬‬ ‫‪x‬‬ ‫‪y‬‬ ‫‪y‬‬ ‫‪x+y‬‬ ‫‪x + y′‬‬

‫זהו המצב בדוגמא ‪ ,2.1.29‬כאשר ‪ x, x′‬הם מספרי הבנות והבנים שפנו לפקולטה למדעי‬
‫הטבע‪ y, y ′ ,‬הם מספרי הבנות והבנים שפנו לפקולטה למדעים מדוייקים‪ ,‬ואילו ‪a, a′ , b, b′‬‬
‫הם מספרי המתקבלים בכל קבוצה‪ .‬הפרדוקס הוא שלמרות שאחוז אחוז הבנות שהתקבלו‬
‫בכל פקולטה גדול יותר מאחוז הבנים‪ ,‬אחוז הבנות שהתקבלו בסך־הכל קטן יותר‪ .‬דוגמא‬
‫פשוטה‪:‬‬
‫‪1‬‬ ‫‪5‬‬ ‫‪1‬‬ ‫‪0‬‬ ‫‪1+1‬‬ ‫‪5+0‬‬
‫‪> ,‬‬ ‫‪> ,‬‬ ‫<‬ ‫‪.‬‬
‫‪1‬‬ ‫‪6‬‬ ‫‪6‬‬ ‫‪1‬‬ ‫‪1+6‬‬ ‫‪6+1‬‬
‫השוו גם לדוגמא ‪.1.2.4‬‬

‫דוגמא ‪) 2.1.31‬בעיה מ'תחרות הערים' ‪ ,#32‬סתיו תשע"א‪ ,‬גרסת תרגול לכתות ט'־י'(‬
‫בבית ספר מסויים יותר מ־‪ 90%‬מהתלמידים יודעים גם אנגלית וגם גרמנית‪ ,‬ויותר מ־‪90%‬‬
‫יודעים גם אנגלית וגם צרפתית‪ .‬הוכח שמבין התלמידים שיודעים גם גרמנית וגם צרפתית‪,‬‬
‫לפחות ‪ 90%‬יודעים אנגלית‪.‬‬

‫תרגיל ‪ 2.1.32‬נוסעים עולים למטוס בזה אחר זה‪ ,‬לפי סדר‪ .‬כל נוסע ניגש לכסא‬
‫שלו‪ :‬אם הכסא פנוי‪ ,‬הוא מתיישב שם‪ .‬אחרת הוא בוחר כסא פנוי אחר‪ ,‬באקראי‪.‬‬
‫הנוסע הראשון בחר בטעות בכסא אקראי‪ .‬כל שאר הנוסעים התנהגו לפי הכללים‪.‬‬
‫מהם הסיכויים לכך שהנוסע האחרון ישב בסופו של דבר בכסא שלו? הדרכה‪.‬‬
‫אפשר לחשב את התוצאה באינדוקציה‪ .‬כדי לקבל פתרון פשוט יותר‪ ,‬הראה שהאדם‬
‫הראשון שתופס את הכסא הראשון או האחרון קובע את גורל המשחק; התשובה היא לכן‬
‫חצי )הוכח שאם נוסע ‪ i‬מוצא את מקומו תפוס‪ ,‬זה מפני שכבר ישבו בכסאות ‪,2, . . . , i − 1‬‬
‫ורק בהם(‪.‬‬

‫‪31‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.1‬מרחבי הסתברות בדידים‬

‫תלות ואי־תלות‬ ‫‪2.1.5‬‬


‫הגדרה ‪ 2.1.33‬מאורעות ‪ A, B‬הם בלתי תלויים אם‬

‫‪P (A ∩ B) = P (A)P (B).‬‬

‫ציטוט ‪" 2.1.34‬מוחמד לי‪ .‬מוחמד הוא השם הפרטי הנפוץ ביותר; לי ‪ -‬שם המשפחה‬
‫הנפוץ ביותר‪ .‬מכיוון שלא ידעתי את התשובה‪ ,‬חשבתי שכך אשיג יתרון מתמטי" )שלדון‪,‬‬
‫"המפץ הגדול"‪ ,‬מנסה לנחש מיהו המומחה שיטוס לתחנת החלל(‪ .‬על אלו הנחות מבסס‬
‫שלדון את הניחוש שלו?‬

‫תרגיל ‪ 2.1.35‬נניח ש־‪ P (B) = 0‬או ‪ ,P (B) = 1‬אז ‪ B‬בלתי תלויה בכל מאורע ‪.A‬‬

‫טענה ‪ 2.1.36‬נניח ‪ .0 < P (A), P (B) < 1‬התנאים הבאים שקולים‪:‬‬

‫‪;P (A|B) = P (A) .1‬‬

‫‪;P (A|B) = P (A|B c ) .2‬‬

‫‪.P (A ∩ B) = P (A) · P (B) .3‬‬

‫‪;P (B|A) = P (B) .4‬‬

‫בפרט‪ A ,‬ו־‪ B‬בלתי תלויים אם הסיכוי ל־‪ A‬בהנתן ‪ B‬שווה לסיכוי ל־‪ A‬ללא נתון זה‪.‬‬

‫טענה ‪ 2.1.37‬התנאים הבאים שקולים‪:‬‬

‫‪ A .1‬ו־‪ B‬בלתי תלויים;‬

‫‪ A .2‬ו־ ‪ B c‬בלתי תלויים;‬

‫‪ Ac .3‬ו־ ‪ B‬בלתי תלויים;‬

‫‪ Ac .4‬ו־ ‪ B c‬בלתי תלויים‪.‬‬

‫למאורע ‪ ,A‬נסמן ‪ A0 = A‬ו־ ‪.A1 = Ac‬‬

‫הגדרה ‪ 2.1.38‬המאורעות ‪ A1 , . . . , An‬הם בלתי תלויים במשותף אם לכל בחירת פרמטרים‬


‫}‪ α1 , . . . , αn ∈ {0, 1‬מתקיים ) ‪.P (Aα1 1 ∩ · · · ∩ Aαnn ) = P (Aα1 1 ) · · · P (Aαnn‬‬

‫לפי טענה ‪' A, B ,2.1.37‬בלתי תלויים במשותף' אם ורק אם הם בלתי תלויים‪.‬‬

‫‪32‬‬
‫‪ .2.2‬משתנים מקריים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫טענה ‪ 2.1.39‬המאורעות ‪ A1 , . . . , An‬בלתי תלויים במשותף‪ ,‬אם ורק אם לכל ⊆ ‪I‬‬


‫\‬ ‫‪Y‬‬ ‫}‪,{1, . . . , n‬‬
‫= ) ‪P ( Ai‬‬ ‫‪P (Ai ).‬‬
‫‪i∈I‬‬ ‫‪i∈I‬‬

‫טענה ‪ 2.1.40‬אם המאורעות ‪ A1 , . . . , An‬בלתי תלויים במשותף‪ ,‬אז כל תת־קבוצה שלהם‬


‫בלתי תלויה במשותף‪ .‬הדרכה‪ .‬מספיק להוכיח ש־ ‪ A1 , . . . , An−1‬בלתי תלויים; או הפעל את‬
‫טענה ‪.2.1.39‬‬

‫דוגמא ‪ 2.1.41‬נסמן ב־‪ Ω‬את המרחב הכולל וקטורים ‪ (x1 , x2 , x3 ) ∈ {0, 1}3‬שסכומם‬
‫מודולו ‪ 2‬הוא ‪ ;0‬כך ‪ .|Ω| = 4‬נסמן ב־ ‪ Ai‬את המאורע }‪ .{(x1 , x2 , x3 ) : xi = 0‬אז כל‬
‫‪ (i 6= j) Ai , Aj‬הם בלתי תלויים‪ ,‬אבל ‪ A1 , A2 , A3‬אינם בלתי תלויים במשותף‪.‬‬

‫תרגיל ‪ 2.1.42‬על־פי ההגדרה‪ A1 , . . . , An ,‬בלתי תלויים במשותף אם התנאי‬

‫) ‪P (Aα1 1 ∩ · · · ∩ Aαnn ) = P (Aα1 1 ) · · · P (Aαnn‬‬

‫מתקיים עבור ‪ 2n‬וקטורים שונים ) ‪ .(α1 , . . . , αn‬הראה שמספיק לבדוק ‪2n − n − 1‬‬
‫תנאים כדי להבטיח אי־תלות במשותף )האם זהו המספר הקטן ביותר של תנאים‬
‫שיש לבדוק?( ואם ידוע ש־ ‪ A1 , . . . , An‬בלתי תלויים בזוגות?‬

‫דיון ‪ 2.1.43‬תושבת אנגליה בשם סאלי קלארק הורשעה ב־‪ 1999‬ברצח שני ילדיה‪,‬‬
‫שמתו בזה אחר זה מוות בעריסה‪ .‬ההרשעה היתה מבוססת על כך שהסיכוי למוות‬
‫בעריסה הוא כ־‪ ;1:8500‬מכאן שהסיכוי לשני מקרי מוות בעריסה הוא ≈ ‪1:85002‬‬
‫‪ ;73000000‬לכן ההסבר הסביר היחיד הוא שהגב' קלראק הרגה את הילדים‪ .‬מה‬
‫דעתכם? )ההרשעה הושארה על כנה בערעור הראשון שהתקיים בסוף ‪,2000‬‬
‫ובוטלה בתחילת ‪ .2003‬הגב' קלארק פיתחה סדרה של הפרעות פסיכיאטריות‬
‫ומתה ב־‪ ,2007‬בגיל ‪ ,42‬מהרעלת אלכוהול‪(.‬‬

‫משתנים מקריים‬ ‫‪2.2‬‬


‫משתנה יחיד‬ ‫‪2.2.1‬‬
‫משתנה מקרי הוא פונקציה ‪) X : Ω→R‬בהמשך נוסיף את התנאי שהפונקציה תהיה‬
‫"מדידה"; במרחבי הסתברות בדידים זה לא רלוונטי(‪ .‬בנוסחת ההסתברות השלמה‬
‫טיפלנו בהסתברות של מאורע בנוכחות חלוקה של המרחב לקבוצות זרות‪ .‬משתנה‬
‫מקרי משרה חלוקה כזו‪ ,‬משום שהקבוצות‬

‫}‪X −1 (a) = {ω ∈ Ω : X(ω) = a‬‬

‫‪33‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.2‬משתנים מקריים‬

‫הן מאורעות זרים‪ ,‬והאיחוד שלהן על־פני כל הערכים האפשריים של ‪ a‬הוא המרחב‬
‫כולו‪ .‬אפשר לחשב את ההסתברות של כל מאורע כזה‪ ,‬שאפשר לסמן בכל הדרכים‬
‫הבאות‪:‬‬

‫‪P (X = a) = P (X(ω) = a) = P ({ω : X(ω) = a}) = P (X −1(a)).‬‬

‫לפי הגדרת ההסתברות של מאורע‪,‬‬


‫‪X‬‬
‫)‪(2.4‬‬ ‫= )‪P (X = a‬‬ ‫‪P (ω).‬‬
‫‪ω:X(ω)=a‬‬

‫דוגמא ‪ 2.2.1‬המשתנה המציין של מאורע ‪ A ⊆ Ω‬מוגדר לפי ‪ XA (ω) = 1‬אם ‪,ω ∈ A‬‬
‫ו־‪ XA (ω) = 0‬אחרת‪ .‬לפיכך‪.P (Xa = 1) = P (A) ,‬‬

‫דוגמא ‪ 2.2.2‬כל קבוע ‪ c‬הוא משתנה מקרי‪ ,‬אם נחשוב עליו כפונקציה ‪ Ω→R‬המקבלת‬
‫באופן זהותי את הערך ‪.c‬‬

‫דוגמא ‪ 2.2.3‬אם ‪ a1 , . . . , an‬מספרים ו־ ‪ p1 , . . . , pn‬מספרים חיוביים שסכומם ‪ ,1‬אז‬


‫‪ P (X = ai ) = pi‬מגדיר משתנה מקרי‪ .‬זהו המשתנה המקרי הכללי ביותר על מרחב‬
‫סופי‪ .‬ההכללה למקרה הבן־מניה מיידית )קח סדרה ‪ ai‬וטור חיובי ‪ pi‬המסתכם ל־‪.(1‬‬

‫הגדרה ‪ 2.2.4‬יהי ‪ X : Ω→R‬משתנה מקרי על מרחב הסתברות בדיד ) ‪ .(Ω, P‬הפונקציה‬

‫)‪a 7→ P (X = a‬‬

‫נקראת פונקציית ההתפלגות של ‪.X‬‬

‫פונקציית ההתפלגות קובעת מהם הערכים ש־‪ X‬מקבל‪ ,‬ובאיזו הסתברות מתקבל כל‬
‫אחד מהם‪.‬‬

‫דוגמא ‪ 2.2.5‬להתפלגות של משתנה מקרי המקבל ערכים שלמים בקטע ]‪ [1, n‬בהסתברויות‬
‫שוות קוראים התפלגות אחידה‪ .‬כדי לציין שיש למשתנה התפלגות כזו‪ ,‬מסמנים ∼ ‪X‬‬
‫]‪) U[1, n‬יש להבין מההקשר שמדובר במשתנה בדיד‪ ,‬משום שבהמשך נשתמש באותו סימון‬
‫בדיוק עבור משתנים רציפים(‪.‬‬

‫טענה ‪ 2.2.6‬תהי )‪ f : a 7→ P (X = a‬פונקציית ההתפלגות של משתנה מקרי )המוגדר על‬


‫כל ‪ .(R‬אז עוצמת הקבוצה }‪ {a : f (a) > 0‬בת־מניה לכל היותר‪.‬‬

‫הוכחה‪ .‬נסמן ‪ ,Tn = a ∈ R : f (a) > n1‬אז‬


‫‬ ‫ ‬
‫‪ ,{a : f (a) > 0}P‬אבל כל‬ ‫∞∪ =‬‫‪n=1 Tn P‬‬
‫‬ ‫‪ Tn‬סופית כי ‪. n1 |Tn | = a∈Tn n1 ≤ a∈Tn P (X = a) = P (Tn ) ≤ 1‬‬

‫‪34‬‬
‫‪ .2.2‬משתנים מקריים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫הערה ‪) 2.2.7‬בניית משתנה מקרי מפונקציית ההתפלגות שלו( יהי ‪ X‬משתנה מקרי עם‬
‫פונקציית התפלגות )‪ .f (a) = P (X = a‬מפונקציית ההתפלגות אי אפשר לשחזר את‬
‫המרחב‪ ,‬משום ששמות האברים ב־‪ Ω‬הלכו לאיבוד; ובכל זאת‪ ,‬אפשר לבנות מרחב הסתברות‬
‫חדש‪ ,‬ומשתנה מקרי חדש‪ ,‬ש־ ‪ f‬היא )גם( פונקציית ההתפלגות שלו‪.‬‬
‫אכן‪ ,‬נגדיר )‪) Ω̃ = {a ∈ R : f (a) > 0} ⊆ X(Ω‬מדוע זו הכלה‪ ,‬ולא שוויון?(‪ .‬לפי‬
‫טענה ‪ Ω̃ ,2.2.6‬היא קבוצה סופית או בת מניה‪ .‬נגדיר )‪ .P̃ (a) = f (a‬זו פונקציה חיובית‪,‬‬
‫ו־‬
‫‪X‬‬ ‫‪X‬‬ ‫‪X‬‬ ‫‪X‬‬
‫= )‪P̃ (a‬‬ ‫= )‪f (a‬‬ ‫= )‪P (X = a‬‬ ‫)}‪P ({ω ∈ Ω : X(ω) = a‬‬
‫̃‪a∈Ω‬‬ ‫‪a∈R‬‬ ‫‪a∈R‬‬ ‫‪a∈R‬‬
‫‪X‬‬ ‫‪X‬‬ ‫‪X‬‬
‫=‬ ‫= )‪P (ω‬‬ ‫;‪P (ω) = 1‬‬
‫}‪a∈R {ω : X(ω)=a‬‬ ‫‪ω∈Ω‬‬

‫מכאן ש־) ̃‪ (Ω̃, P‬הוא מרחב הסתברות )כל הסכומים שהם כביכול על־פני ‪ a ∈ R‬הם‬
‫פונקציית הזהות‪.X̃(a) = a ,‬‬
‫‪n‬‬ ‫̃‪ X‬להיות‬
‫למעשה סכומים בני מניה(‪ .‬נגדיר ‪o : Ω̃→R‬‬
‫פונקציית ההתפלגות של ̃‪ X‬היא = )‪b 7→ P̃ (X̃ = b) = P̃ ( a ∈ Ω̃ : a = b ) = P̃ (b‬‬
‫)‪ ,f (b‬כלומר ‪.f‬‬
‫ל־) ̃‪ (Ω̃, P‬ול־̃‪ X‬שבנינו לעיל יש יתרון על־פני ) ‪ (Ω, P‬ו־‪ ,X‬בכך ש־̃‪ Ω‬הוא מרחב‬
‫של מספרים‪ ,‬וש־̃‪ X‬היא פונקציה פשוטה במיוחד‪ .‬איננו מאמצים את השיטה הזו באופן‬
‫כללי‪ ,‬משום שלעתים קרובות יש בתמונה כמה משתנים מקריים‪ ,‬ואנחנו זקוקים למרחב‬
‫יציב שאפשר להפעיל עליו את כולם‪ .‬חשיבותה של ההערה בכך שכאשר נדון בתכונות‬
‫של משתנים מקריים‪ ,‬לא יהיה לנו צורך ללוות כל הגדרה בהגדרה מקבילה של מרחב‬
‫ההסתברות; אלו‪ ,‬כביכול‪ ,‬מוגדרים מעצמם‪.‬‬
‫תרגיל ‪ 2.2.8‬נניח ש־}‪ .Ω = {1, 2, 3, 4, 5, 6‬הגדר משתנה מקרי על המרחב ‪ ,Ω‬כך‬
‫ש־ ‪ .P (X = 0) = P (X = 1) = P (X = 2) = 13‬כמה משתנים כאלה יש?‬
‫דיון ‪ 2.2.9‬הרהר במשך ‪ 20‬שניות בהבדל שבין 'למשתנים המקריים ‪ X, Y‬יש אותה‬
‫התפלגות' לבין 'המשתנים המקריים ‪ X, Y‬שווים'‪.‬‬
‫אם ‪ X‬משתנה מקרי‪ ,‬אז לכל פונקציה ‪ ,f : R→R‬גם )‪ f (X‬משתנה מקרי )שוב‪,‬‬
‫בהמשך נדרוש שהפונקציה תהיה "מדידה"(‪ .‬לפי ההגדרה מתקיים‬
‫‪X‬‬
‫= )‪P (f (X) = b‬‬ ‫‪P (X = a).‬‬
‫‪a:f (a)=b‬‬

‫הערה ‪ 2.2.10‬אם ‪ B ⊆ Ω‬מאורע‪ ,‬אפשר להגדיר את המשתנה המותנה ‪ ,X|B‬עם‬


‫פונקציית ההתפלגות )‪.P (X = a|B) = P ({ω : X(ω) = a}|B‬‬

‫‪35‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.2‬משתנים מקריים‬

‫‪ 2.2.2‬התפלגות משותפת‬
‫אם נתונים שני משתנים מקריים ‪ ,X, Y : Ω→R‬אפשר להגדיר מאורעות }‪,{X = a, Y = b‬‬
‫ולקבל פונקציית התפלגות משותפת )‪.(a, b) 7→ P (X = a, Y = b‬‬
‫המאורע ‪ X = a, Y = b‬מסמן את החיתוך‬

‫‪{ω : X(ω) = a, Y (ω) = b} = {ω : X(ω) = a} ∩ {ω : Y (ω) = b}.‬‬

‫את פונקציית ההתפלגות המשותפת של שני משתנים אפשר לתאר במערך דו־ממדי‪.‬‬
‫‪P‬‬
‫= )‪ ,P (X = a‬וכך גם = )‪P (Y = b‬‬ ‫‪b‬‬ ‫הערה ‪ 2.2.11‬מתקיים‪P (X = a, Y = b)P‬‬
‫)‪. a P (X = a, Y = b‬‬

‫לכל ערך ‪ b‬של ‪ X|Y = b ,Y‬הוא משתנה מקרי מותנה‪ ,‬וההתפלגות המותנית שלו‬
‫‪.P (X = a|Y = b) = P (X=a,Y‬‬ ‫)‪=b‬‬
‫)‪P (Y =b‬‬
‫היא‬

‫תרגיל ‪ 2.2.12‬בכד יש כדור אדום וכדור כחול‪ .‬בכל פעם מוציאים כדור באקראי‪,‬‬
‫ומחזירים אותו עם כדור נוסף באותו צבע‪ .‬הוכח שהתפלגות מספר הכדורים‬
‫האדומים בכל שלב היא אחידה‪) .‬רמז‪ .‬אינדוקציה(‪.‬‬

‫אי־תלות‬
‫המשתנים ‪ X, Y‬בלתי־תלויים אם )‪ P (X = a, Y = b) = P (X = a)P (Y = b‬לכל‬
‫‪;a, b‬‬

‫טענה ‪ 2.2.13‬התנאים הבאים על משתנים מקריים ‪ X, Y‬הם שקולים‪:‬‬

‫‪ X, Y .1‬בלתי תלויים;‬

‫‪ .2‬ההתפלגות של ‪ X|Y = b‬היא אותה התפלגות לכל ‪;b‬‬

‫‪ .3‬כל זוג של מאורעות ‪ X = a‬ו־ ‪ Y = b‬הם בלתי תלויים‪.‬‬

‫שימו לב‪ :‬ההתפלגות של ‪ X‬וההתפלגות של ‪ ,Y‬יחד‪ ,‬קובעות את ההתפלגות‬


‫המשותפת בתנאי שידוע ששני המשתנים בלתי תלויים‪ .‬אחרת טענה זו אינה נכונה‪.‬‬

‫הערה ‪ 2.2.14‬את הערה ‪ 2.2.7‬אפשר להכליל לשני משתנים על־ידי בניית מרחב התפלגות‬
‫משותף‪ ,‬שבו המשתנים בלתי תלויים מתוך ההגדרה‪ :‬אם ‪ Ω, Ω′‬מרחב הסתברות‪ ,‬גם ‪Ω×Ω′‬‬
‫הוא כזה‪ ,‬אם מגדירים )‪ .P (ω, ω ′) = P (ω)P (ω ′‬אם ‪ X, Y‬המוגדרים על מרחב המכפלה‬
‫מתפצלים דרך הרכיב הראשון והשני בהתאמה‪ ,‬אז הם בלתי תלויים‪.‬‬

‫‪36‬‬
‫‪ .2.2‬משתנים מקריים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫טענה ‪ 2.2.15‬אם ‪ X, Y‬בלתי תלויים‪ ,‬אז לכל ‪ f : R→R‬גם ‪ f (X), Y‬בלתי תלויים‪.‬‬
‫מכאן גם ש־) ‪ f (X), g(Y‬בלתי תלויים לכל שתי פונקציות ‪.f, g : R→R‬‬

‫הגדרה ‪ 2.2.16‬אם ‪ X, Y, Z‬משתנים מקריים‪ ,‬נאמר ש־ ‪ Y‬מפריד את ‪ X, Z‬אם ידיעת ‪ Y‬הופכת‬


‫את ‪ X, Z‬לבלתי תלויים‪ ,‬כלומר‬

‫‪∀y∀x, z :‬‬ ‫‪P (X = x, Z = z|Y = y) = P (X = x|Y = y)P (Z = z|Y = y).‬‬

‫תרגיל ‪ 2.2.17‬תן דוגמא למשתנים מקריים ‪ X, Y, Z‬כך ש־‬

‫‪ X, Z .1‬תלויים‪ ,‬ו־ ‪ Y‬מפריד אותם‪.‬‬

‫‪ X, Z .2‬בלתי תלויים‪ ,‬אבל ‪ Y‬אינו מפריד אותם )ואפילו יותר מזה‪X|Z = z :‬‬
‫ו־‪ Y |Z = z‬תלויים לכל ערך ‪ z‬של ‪.(Z‬‬

‫דוגמא ‪ n) 2.2.18‬מ"מ שכל ‪ d‬מהם בלתי תלויים במשותף‪ ,‬וכל ‪ d + 1‬מהם תלויים‪ (.‬נבחר‬
‫שדה סופי ‪ Fq‬ו־‪ n‬ערכים שונים ‪) a1 , . . . , an ∈ Fq‬השדה צריך להיות גדול מספיק‪ ,‬כמובן(‪.‬‬
‫נבחר משתנים מקריים בלתי תלויים ובעלי התפלגות אחידה‪ .X0 , . . . , Xd−1 ,‬נגדיר את‬
‫הפולינום המקרי ‪ ,P (t) = X0 + X1 t + · · · + Xd−1 td−1‬ובעזרתו את המשתנים המקריים‬
‫) ‪ .Yi = P (ai‬לכל ‪ i1 , . . . , id‬שונים‪ ,‬ההתפלגות המשותפת של ) ‪ (Yi1 , . . . , Yid‬היא אחידה‬
‫)משום שלפי ההפיכות של מטריצת ואן־דר־מונדה‪ ,‬למערכת המשוואות ‪ P (ai ) = bi‬יש‬
‫פתרון יחיד עבור ה־ ‪ ,Xj‬לכל בחירה של ה־ ‪ ;(bi‬אבל לכל ‪ ,i1 , . . . , id+1‬כל ‪ d‬מבין‬
‫‪ Yi1 , . . . , Yid+1‬קובעים את האחרון‪.‬‬

‫סכום ומכפלה‬
‫כפי ש־)‪ f (X‬משתנה מקרי לכל פונקציה ‪ ,f : R→R‬גם ) ‪ f (X, Y‬משתנה מקרי לכל‬
‫‪ .f : R2 →R‬בפרט הסכום ‪ X + Y‬והמכפלה ‪ XY‬הם משתנים מקריים‪.‬‬
‫את זה אפשר להכליל לסכום של כמה משתנים מקריים; בהמשך נפגוש דוגמא‬
‫חשובה‪ :‬הממוצע ) ‪.X̄ = n1 (X1 + · · · + Xn‬‬

‫תרגיל ‪ 2.2.19‬אוסף המשתנים המקריים על מרחב ‪ Ω‬הוא מרחב וקטורי‪ ,‬שממדו‪,‬‬


‫אם ‪ Ω‬סופי‪.|Ω| ,‬‬

‫תרגיל ‪ 2.2.20‬מטילים שתי קוביות בלתי תלויות‪ .X, Y ,‬איך מתפלג הסכום ‪?X + Y‬‬

‫‪37‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.2‬משתנים מקריים‬

‫תוחלת של משתנה מקרי בדיד‬ ‫‪2.2.3‬‬


‫למשתנה מקרי אפשר )בדרך כלל( להתאים מספר מייצג‪ ,‬התוחלת של המשתנה‪,‬‬
‫המשקלל את הערכים שהמשתנה מקבל על־פי ההסתברות שלהם‪ .‬בהמשך נראה‬
‫שתוחלת תופסת תפקיד מרכזי בכל חישוב הסתברותי‪ ,‬ואף נוכיח שאם מגרילים ערכים‬
‫רבים של משתנה מקרי‪ ,‬ממוצע התוצאות הולך ומתקרב לתוחלת‪ .‬את מושג התוחלת‬
‫הכניס לשימוש המתמטיקאי והאסטרונום ההולנדי‪ ,‬כריסטיאן הויגנס )‪.(1629-1695‬‬

‫הגדרה ‪ 2.2.21‬התוחלת של משתנה מקרי בדיד ‪ X‬מוגדרת לפי‬


‫‪X‬‬ ‫‪X‬‬
‫= )‪E(X‬‬ ‫= )‪P (ω)X(ω‬‬ ‫‪P (X = a)a,‬‬
‫‪ω∈Ω‬‬ ‫‪a‬‬

‫בתנאי שהטור מתכנס בהחלט‪.‬‬

‫כאן‪ ,‬ובהמשך‪ ,‬בסכום על ‪ a‬הכוונה לסכום על־פני כל הערכים שבהם ההסתברות‬


‫‪ ;P (X = a) > 0‬מספר הערכים האלה בן מניה לכל היותר )טענה ‪ ,(2.2.6‬ולכן הסכום‬
‫מוגדר היטב‪.‬‬
‫ההגדרות אכן שקולות זו לזו‪ ,‬לפי )‪:(2.4‬‬
‫‪X‬‬ ‫‪X‬‬
‫= ‪P (X = a)a‬‬ ‫‪P ({ω : X(ω) = a})a‬‬
‫‪a‬‬ ‫‪a‬‬
‫‪X‬‬ ‫‪X‬‬
‫=‬ ‫‪P (ω)a‬‬
‫‪a‬‬ ‫‪ω:X(ω)=a‬‬
‫‪X‬‬
‫=‬ ‫‪P (ω)X(ω).‬‬
‫‪ω∈Ω‬‬

‫דוגמא ‪ 2.2.22‬אם מרחב הערכים של ‪ X‬הוא אינסופי‪ ,‬הטור לא בהכרח מתכנס‪ .‬למשל‪,‬‬
‫חישבו על המשתנה המקבל ערך ‪ n‬בהסתברות ‪. π26n2‬‬

‫‪.E(X) = a1 +···+a‬‬
‫‪n‬‬
‫‪n‬‬
‫דוגמא ‪ 2.2.23‬אם ‪ a1 , . . . , an‬מספרים ו־ ‪ ,P (X = ai ) = n1‬אז‬
‫כלומר‪ ,‬התוחלת מכלילה את הממוצע‪ .‬באופן כללי יותר אם ‪ P (X = ai ) = pi‬עבור‬
‫‪ p1 , . . . , pn‬חיוביים שסכומם ‪ ,1‬אז ‪.E(X) = p1 a1 + · · · + pn an‬‬

‫תרגיל ‪ 2.2.24‬אדם הקונה כרטיס הגרלה עשוי לזכות בפרסים שונים‪ ,‬שלכל אחד‬
‫מהם הסתברות משלו‪ .‬את גובה הזכיה אפשר לתאר כמשתנה מקרי ‪ .X‬הסבר‬
‫מדוע המחיר ההוגן של הכרטיס הוא )‪) µ = E(X‬אפילו אם תצטרך להגדיר באופן‬
‫מתמטי מהי הגינות(‪.‬‬

‫‪38‬‬
‫‪ .2.2‬משתנים מקריים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫תרגיל ‪ 2.2.25‬בסרט "התייר" )‪ (2010‬אומר מפקד המשטרה למפקח‪ :‬הונו של‬


‫]הפושע[ אלכסנדר מוערך ב־‪ ,$744M‬אותם אפשר יהיה להחרים אם יתפס‪ .‬מכיוון‬
‫שהמבצע ללכידתו עלה עד כה ‪ ,$8M‬רציונלי מצדי להמשיך את המבצע אם יש‬
‫סיכוי של לפחות ‪ 1%‬להצלחה‪.‬‬
‫מה דעתך על השימוש בתוחלת במקרה זה?‬
‫‪P‬‬
‫הערה ‪ 2.2.26‬לכל פונקציה‪.E(f (X)) = a P (X = a)f (a) ,‬‬
‫הוכחה‪ .‬התוחלת של המשתנה המקרי )‪ f (X‬שווה‪ ,‬לפי ההגדרה‪ ,‬ל־‬
‫‪‬‬ ‫‪‬‬
‫‪X‬‬ ‫‪X‬‬ ‫‪X‬‬ ‫‪X‬‬
‫= ))‪P (ω)f (X(ω‬‬ ‫‪‬‬ ‫= )‪P (ω) f (a‬‬ ‫‪P (X = a)f (x).‬‬
‫‪ω∈Ω‬‬ ‫‪a‬‬ ‫‪ω:X(ω)=a‬‬ ‫‪a‬‬

‫‬
‫באותו אופן גם‬
‫‪X‬‬
‫)‪(2.5‬‬ ‫= )) ‪E(g(X, Y‬‬ ‫‪P (X = a, Y = b)g(a, b),‬‬
‫‪a,b‬‬

‫וכך לפונקציות בכל מספר משתנים‪.‬‬


‫‪ .1‬לכל קבוע ‪.E(c) = c ,c‬‬ ‫טענה ‪2.2.27‬‬
‫‪.E(αX) = αE(X) .2‬‬
‫‪ .3‬נניח ש־‪ ,X ≥ 0‬כלומר ‪ X‬הוא משתנה מקרי חיובי‪ .‬אז ‪ ;E(X) ≥ 0‬ואם‬
‫‪ ,E(X) = 0‬אז ‪ X = 0‬בהסתברות ‪.1‬‬
‫טענה ‪ 2.2.28‬לכל שני משתנים מקריים‪.E(X + Y ) = E(X) + E(Y ) ,‬‬
‫הוכחה‪ .‬לפי )‪,(2.5‬‬
‫‪X‬‬
‫= ) ‪E(X + Y‬‬ ‫)‪P (X = a, Y = b)(a + b‬‬
‫‪a,b‬‬
‫‪X‬‬ ‫‪X‬‬
‫=‬ ‫‪P (X = a, Y = b)a +‬‬ ‫‪P (X = a, Y = b)b‬‬
‫‪a,b‬‬ ‫‪a,b‬‬
‫!‬ ‫!‬
‫‪X X‬‬ ‫‪X X‬‬
‫=‬ ‫‪P (X = a, Y = b) a +‬‬ ‫‪P (X = a, Y = b) b‬‬
‫‪a‬‬ ‫‪b‬‬ ‫‪b‬‬ ‫‪a‬‬
‫‪X‬‬ ‫‪X‬‬
‫=‬ ‫‪P (X = a)a +‬‬ ‫‪P (Y = b)b‬‬
‫‪a‬‬ ‫‪b‬‬
‫‪= E(X) + E(Y ).‬‬
‫‬

‫‪39‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.2‬משתנים מקריים‬

‫האדיטיביות של התוחלת היא אחד העקרונות המועילים ביותר בתורת ההסתברות‪.‬‬


‫היא מאפשר לחשב תוחלת של התפלגויות מסובכות ביותר‪ ,‬בלי להבין את ההתפלגות‪,‬‬
‫על־ידי פירוק המשתנה לסכום של דברים שאפשר לחשב‪.‬‬
‫תרגיל ‪ 2.2.29‬מסדרים ‪ n‬אנשים באקראי‪ .‬מי שגבוה מכל מי שלפניו‪ ,‬מרים יד‪ .‬מה‬
‫תוחלת מספר האנשים שמרימים יד? )הדרכה‪ :‬העזר במשתנים מציינים‪(.‬‬
‫תרגיל ‪ 2.2.30‬בהמשך לבעיית המזכירה המבולבלת )תרגיל ‪ ,(2.1.11‬שבה חישבנו‬
‫את הסיכוי לכך שמספר נקודות השבת של תמורה מקרית יהיה ‪ ,0‬מה תוחלת‬
‫מספר נקודות השבת?‬
‫‪ .1‬בהגרלה עומדים לבחור כרטיס זוכה באקראי מכל אחד משני‬ ‫תרגיל ‪2.2.31‬‬
‫הכדים‪ .‬כל משתתף רשאי להטיל את הכרטיס שלו לאיזה כד שירצה‪ .‬לאיזה‬
‫כד תבחר להטיל את הכרטיס שלך? )פתרון‪ .‬לזה שמספר הכרטיסים בו הוא‬
‫הקטן ביותר‪ ,‬כמובן‪(.‬‬
‫‪ .2‬ואם בכל כד ‪ n‬כרטיסים‪ ,‬ולך שני כרטיסים‪ ,‬האם תעדיף להטיל את שניהם‬
‫יחד‪ ,‬או לפזר את הסיכויים בין הכדים? )פתרון‪ .‬עדיף לפזר; שני כרטיסים באותו‬
‫כד מתחרים זה בזה‪(.‬‬
‫‪ .3‬נניח שעליך להטיל את שני הכרטיסים בתחילת המשחק‪ ,‬והמארגנים ישלימו‬
‫את מספר הכרטיסים בכל כד ל־‪ .n‬האם תעדיף להטיל אותם יחד‪ ,‬או‬
‫בנפרד? )פתרון‪ .‬אם המטרה היא להגדיל את תוחלת מספר הזכיות‪ ,‬זה לא‬
‫משנה‪ .‬אבל אם המטרה היא להגדיל את הסיכוי לזכות בפרס אחד לפחות‪ ,‬עדיף‬
‫להצמיד את הכרטיסים‪(.‬‬
‫‪ Ω = A1 ∪· · ·∪A‬הוא פירוק של המרחב לקבוצות זרות‪ ,‬אז = )‪E(X‬‬‫טענה ‪ 2.2.32‬אם ‪Pn‬‬
‫) ‪. i P (Ai )E(X|Ai‬‬
‫הוכחה‪ .‬זו תוצאה של נוסחת ההסתברות השלמה )‪ .(2.2‬לפי ההגדרה‬
‫‪X‬‬
‫= )‪E(X‬‬ ‫‪P (X = a)a‬‬
‫‪a‬‬
‫‪XX‬‬
‫=‬ ‫‪P (X = a|Ai )P (Ai )a‬‬
‫‪a‬‬ ‫‪i‬‬
‫‪X‬‬ ‫‪X‬‬
‫=‬ ‫) ‪P (Ai‬‬ ‫) ‪aP (X = a|Ai‬‬
‫‪i‬‬ ‫‪a‬‬
‫‪X‬‬
‫=‬ ‫‪P (Ai )E(X|Ai ).‬‬
‫‪i‬‬

‫‬

‫‪40‬‬
‫‪ .2.2‬משתנים מקריים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫יהיו ‪ X, Y‬משתנים מקריים‪ .‬הסימון ‪ X|Y‬פירושו ‪ -‬המשתנה המקרי ‪ ,X‬בהנתן‬


‫הערך של ‪ ,Y‬שאותו מסמנים לצורך העניין ב־ ‪ Y‬במקום לתת לו שם נפרד‪ .‬זהו‪ ,‬אם‬
‫כך‪ ,‬משתנה מקרי‪ ,‬שההתפלגות שלו תלויה בערך של ‪ .Y‬משום כך‪ ,‬התוחלת המותנית‬
‫) ‪ E(X|Y‬של המשתנה המקרי ‪ X|Y‬היא בעצמה פונקציה של ‪.Y‬‬

‫טענה ‪) 2.2.33‬חוק התוחלת החוזרת( )) ‪.E(X) = E(E(X|Y‬‬

‫הוכחה‪ .‬לפי טענה ‪,2.2.32‬‬


‫‪X‬‬
‫= )‪E(X‬‬ ‫‪P (Y = b)E(X|Y = b) = E(E(X|Y )).‬‬
‫‪b‬‬

‫‬

‫הערה ‪ 2.2.34‬גם הטענה )‪ E(E(X)|Y ) = E(X‬נכונה‪ ,‬אך היא טריוויאלית‪ :‬התוחלת‬


‫)‪ E(X‬היא ערך מספרי‪ ,‬ולכן המשתנה המקרי המותנה ‪ E(X)|Y‬הוא קבוע‪ ,‬השווה תמיד‬
‫ל־)‪ ;E(X‬ממילא גם התוחלת שלו היא )‪.E(X‬‬

‫מסקנה ‪ 2.2.35‬אם ‪ X, Y‬בלתי תלויים אז‬

‫‪E(XY ) = E(X)E(Y ).‬‬

‫הוכחה‪,E(XY ) = E(E(XY |X)) = E(XE(Y |X)) = E(XE(Y )) = E(X)E(Y ) .‬‬


‫‬ ‫כי ל־‪ Y |X‬ההתפלגות של ‪ Y‬לכל )ערך של( ‪.X‬‬

‫תרגיל ‪ 2.2.36‬ב־‪ 3/2011‬הוגשה תביעה נגד מפעל הפיס בטענה שעל המארגנים‬
‫לפרסם את העובדה שכרטיסי גירוד מסדרה מסויימת כבר זכו בפרסים‪ ,‬על־מנת‬
‫שאנשים יידעו שאין עוד טעם לקנות אותם‪ .‬נניח‪ ,‬לשם פשטות הניתוח‪ ,‬שמדפיסים‬
‫‪ n‬כרטיסים בסדרה‪ ,‬ואחד מהם זוכה‪ .‬הכרטיסים נמכרים בזה אחר זה‪.‬‬

‫‪ .1‬נניח שהמחיר ההוגן לכרטיס )בשיטה הקיימת‪ ,‬לפיה אין מפרסמים נתוני‬
‫מכירות חלקיים( הוא ‪ ;1‬הראה שגובה הפרס הוא ‪ .n‬במלים אחרות‪ ,‬הפרס‬
‫שווה לסכום מחירי הכרטיסים‪.‬‬

‫‪ .2‬נניח שהכרטיסים נמכרים בזה אחר זה‪ ,‬ומפעל הפיס מודיע ברגע שהכרטיס‬
‫הזוכה נמכר )כך שאנשים יחדלו מלקנות אותם(‪ .‬מה תהיה תוחלת ההכנסות‬
‫ממכירת כרטיסים?‬

‫‪41‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.2‬משתנים מקריים‬

‫‪ .3‬נניח שהתביעה מתקבלת‪ ,‬ומשרד הפיס מתחיל לפרסם נתונים שוטפים על‬
‫מכירת הכרטיסים‪ .‬אם נמכרו כבר ‪ i‬כרטיסים שלא זכו‪ ,‬אז המחיר ההוגן‬
‫‪n‬‬
‫‪) n−i‬הסבר מדוע(‪ .‬מה תהיה תוחלת ההכנסה ממכירת‬ ‫כבר אינו ‪ ,1‬אלא‬
‫כרטיסים במקרה כזה? )הדרכה‪ :‬סמן ב־ ‪ Xi‬את ההכנסה מן הכרטיס ה־‪:i‬‬
‫‪n‬‬
‫המשתנים ‪ Xi‬תלויים‪,‬‬
‫‪P‬‬ ‫ה־‪ ,i‬ו־‪ 0‬אחרת‪.‬‬
‫‪ n−i‬אם הפרס טרם הופיע בשלב ‪Pn‬‬
‫= ) ‪ E(W‬לפי‬ ‫= ‪ ,W‬ו־) ‪E(Xi‬‬ ‫אבל ההכנסה הכוללת היא ‪i=1 Xi‬‬
‫אדיטיביות התוחלת‪(.‬‬

‫תרגיל ‪ 2.2.37‬מגרש החניה באוניברסיטה הוא בצורת שורה ארוכה‪ ,‬עם סימונים‬
‫ברווח קבוע‪ .‬אורכה של מכונית הוא כפליים המרחק בין שני סימונים‪ .‬הנהגים‬
‫חונים על־פי הסימונים‪ ,‬אבל אינם מתחשבים באלו שיבואו אחריהם )למשל‪ ,‬אם‬
‫נותרה שורה פנויה באורך ‪ ,4‬כדוגמת ‪ ,oooo‬הנהג עשוי לחנות בכל המקומות‬
‫‪ - ooxx ,oxxo ,xxoo‬בסיכויים שווים; שורה פנויה באורך ‪ 1‬תשאר ריקה‪ ,‬ואם נותרה‬
‫שורה פנויה באורך ‪ 2‬או ‪ ,3‬היא תספיק כמובן למכונית אחת בלבד(‪ .‬כתוב את‬
‫נוסחת הרקורסיה עבור התוחלת של מספר המכוניות שיזכו למקום חניה‪ .‬העזר‬
‫במחשב כדי למצוא את התוחלת כאשר ‪) .n = 1000‬הגרסה הרציפה של שאלה‬
‫זו קשורה ל''קבוע החניה של ‪ ,''Renyis‬שערכו כ־‪(.0.74759‬‬

‫‪ 2.2.4‬שונות‬
‫הגדרה ‪ 2.2.38‬השונות של משתנה מקרי ‪ X‬היא‬

‫‪V(X) = E((X − E(X))2 ) = E(X 2 ) − E(X)2 .‬‬

‫הערה ‪2.2.39‬‬
‫)‪.V(X + β) = V(X‬‬
‫)‪.V(αX) = α2 V(X‬‬

‫טענה ‪ 2.2.40‬לכל משתנה מקרי ‪,X‬‬

‫‪ ;E(X 2) ≥ E(X)2 .1‬לכן ‪.V(X) ≥ 0‬‬

‫‪ V(X) = 0 .2‬אם ורק אם ‪ X‬קבוע בהסתברות ‪.1‬‬

‫)ההכללה של סעיף ‪ 1‬ידועה בשם אי־שוויון הולדר‪ :‬אם ‪ f ′′ ≥ 0‬אז ≥ ))‪E(f (X‬‬
‫))‪(.f (E(X‬‬

‫‪42‬‬
‫‪ .2.2‬משתנים מקריים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫‪ .1‬אדם יכול לקנות כרטיס הגרלה שמחירו ‪ 100‬ש"ח‪ ,‬ובו זוכים‪,‬‬ ‫תרגיל ‪2.2.41‬‬
‫בסיכוי של אחד ל־‪ ,100000‬בסכום של ‪ 8000000‬ש"ח )הכרטיס אינו הוגן‪:‬‬
‫אם מפעל ההגרלות ימכור ‪ 100000‬כרטיסים ואחד מהם יזכה‪ ,‬ישאר בידיו‬
‫רווח של ‪ 2000000‬ש"ח(‪ .‬הראה שתוחלת הרכוש של קונה הכרטיס יורדת‪,‬‬
‫בעוד שהשונות עולה‪ .‬לכן בקניית כרטיס הגרלה אנו קונים עליה של השונות‬
‫)התרגשות‪ ,‬מתח( תמורת הפסד תוחלת‪.‬‬
‫‪ .2‬אדם יכול לקנות פוליסת ביטוח במחיר ‪ 100‬ש"ח‪ :‬אם ביתו ישרף )אירוע‬
‫שהסיכויים לו הם אחד ל־‪ ,(100000‬תשלם לו חברת הביטוח ‪ 8000000‬ש"ח‬
‫)הפוליסה אינה הוגנת‪ :‬אם חברת הביטוח תמכור ‪ 100000‬ביטוחים ובית‬
‫אחד ישרף‪ ,‬ישאר בידה רווח של ‪ 2000000‬ש"ח(‪ .‬הראה שתוחלת הרכוש‬
‫של קונה הכרטיס יורדת‪ ,‬בעוד שהשונות יורדת‪ .‬לכן בקניית פוליסת ביטוח‬
‫אנו קונים את ירידת השונות )בטחון‪ ,‬שקט נפשי( תמורת הפסד תוחלת‪.‬‬
‫‪ .3‬נתח את התפלגות הרכוש של מי שקונה גם כרטיס הגרלה וגם פוליסת‬
‫ביטוח‪ .‬מה התוחלת שלה? מה השונות שלה?‬
‫טענה ‪ 2.2.42‬נוסחת פירוק השונות‪.V(X) = V(E(X|Y )) + E(V(X|Y )) :‬‬
‫הוכחה‪ .‬נחשב לפי חוק התוחלת החוזרת‪:‬‬
‫‪V(E(X|Y )) = E(E(X|Y )2 ) − E(E(X|Y ))2 = E(E(X|Y )2 ) − E(X)2 ,‬‬

‫‪E(V(X|Y )) = E(E(X 2|Y )) − E(X|Y )2 ) = E(X 2 ) − E(E(X|Y )2 ),‬‬


‫‬ ‫ולכן הסכום שווה ל־)‪.V(X‬‬
‫דוגמא ‪ 2.2.43‬איך מתפרקת השונות כאשר ‪ X, Y‬בלתי תלויים? וכאשר ‪ X‬הוא פונקציה‬
‫של ‪ ?Y‬ואם ‪?Y = X‬‬
‫תרגיל ‪ 2.2.44‬נסמן ) ‪ W = E(X|Y‬ו־ )‪ .T = E(W |X‬הוכח ש־ )‪.V(T ) ≤ V(X‬‬
‫פתרון‪.V(T ) = V(E(W |X)) ≤ V(W ) = V(E(X|Y )) ≤ V(X) .‬‬
‫‪ .1‬נניח ש־) ‪ (X0 , X1‬מקבלים את הערכים )‪(0, 0), (0, 1), (1, 0), (1, 1‬‬ ‫תרגיל ‪2.2.45‬‬
‫‪ , 1+ρ‬בהתאמה‪ ,‬כאשר ‪] 0 < ρ < 1‬כלומר∼ ‪X0 , X1‬‬ ‫‪4‬‬
‫ו־‬ ‫‪,‬‬ ‫‪1+ρ 1−ρ 1−ρ‬‬
‫‪4‬‬
‫‪,‬‬ ‫‪4‬‬
‫‪,‬‬ ‫‪4‬‬
‫בסיכויים‬
‫‪) E(Xi |Xj ) = ρXj + 1−ρ‬כאשר‬ ‫‪2‬‬
‫) ‪ b( 12‬עם ‪ .[ρ(X0 , X1 ) = ρ‬הראה ש־‬
‫}‪ .({i, j} = {0, 1‬נגדיר את הסדרה ) ‪ .Xn+1 = E(Xn |Xn−1‬הוכח שלכל‬
‫‪n−1‬‬
‫‪.Xn = 1−ρ2 + ρn−1 Xn (mod 2) ,n ≥ 1‬‬
‫‪ (*) .2‬יהיו ‪ Y = X0 , X = X1‬משתנים מקריים על מרחב ‪ .Ω‬נגדיר סדרה ‪Xn‬‬
‫כבסעיף הראשון‪ .‬חקור את הסדרה ‪ ;Xn‬הראה שסדרת השונויות מונוטונית‬
‫יורדת‪ .‬האם בהכרח ‪?V(Xn )→0‬‬

‫‪43‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.2‬משתנים מקריים‬

‫‪ 2.2.5‬שונות משותפת ומקדם המתאם‬


‫הגדרה ‪ 2.2.46‬השונות המשותפת של משתנים מקריים ‪ X, Y‬היא המספר‬

‫‪Cov(X, Y ) = E(XY ) − E(X)E(Y ) = E((X − E(X))(Y − E(Y ))).‬‬

‫דוגמא ‪ 2.2.47‬מקדם המתאם של משתנים מקריים מכליל את מקדם המתאם של מדגם‪,‬‬


‫בדיוק כפי שהתוחלת של משתנה מקרי מכלילה את הממוצע של מדגם )דוגמא ‪.(2.2.23‬‬

‫הגדרה ‪ X, Y 2.2.48‬בלתי מתואמים אם ‪.Cov(X, Y ) = 0‬‬

‫טענה ‪ Cov 2.2.49‬היא תבנית ביליניארית על מרחב המשתנים המקריים‪.‬‬

‫‪ .1‬סימטריות‪.Cov(Y, X) = Cov(X, Y ) :‬‬

‫‪ .2‬אדיטיביות‪.Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z) :‬‬

‫‪ .3‬הומוגניות‪.Cov(X, αY ) = αCov(X, Y ) :‬‬

‫טענה ‪ 2.2.50‬לכל משתנה מקרי ‪ ,Cov(X, X) = V(X) ≥ 0 ,X‬עם שוויון אם ורק אם‬
‫‪ X‬קבוע )בהסתברות ‪ .(1‬פירושו של דבר הוא שהשונות המשותפת היא ''מכפלה פנימית‬
‫על מרחב המנה של המשתנים המקריים מודולו סקלרים"‪.‬‬

‫אם ‪ X, Y‬בלתי תלויים אז הם גם בלתי מתואמים )מסקנה ‪.(2.2.35‬‬

‫‪ .1‬יתכן ש־ ‪ X, Y‬תלויים ובלתי מתואמים‪ .‬הדרכה‪ .‬קח ‪ X‬להיות‬ ‫תרגיל ‪2.2.51‬‬


‫‪1 1 1‬‬
‫המשתנה המקרי מקבל את הערכים ‪ −1, 0, 1‬בהסתברויות ‪ 4 , 2 , 4‬בהתאמה‪ .‬נסמן‬
‫|‪ .Y = |X‬הראה ש־‪.Cov(X, Y ) = 0‬‬

‫‪ .2‬יתכן ש־ ‪ X, Y‬תלויים למרות ש־ ‪ Y‬בלתי מתואם עם כל פונקציה של ‪.X‬‬


‫הדרכה‪ .‬יהי ‪ X‬משתנה מקרי כלשהו‪ ,‬ו־‪ Z‬המטבע ההוגן בעל ערכים ‪ ,±1‬שאינו‬
‫תלוי ב־‪ .X‬קח ‪ .Y = XZ‬הראה ש־‪ Cov(f (X), Y ) = 0‬לכל פונקציה של ‪.X‬‬

‫‪ .3‬יתכן ש־ ‪ X, Y‬תלויים למרות שכל ‪ X n‬בלתי מתואם עם כל ‪ .Y m‬הדרכה‪.‬‬


‫דוגמא נגדית‪ ,‬לא קלה‪ ,‬אפשר למצוא ב־‪The American Statistician, 63(3),‬‬
‫‪.http://www.tandfonline.com/doi/abs/10.1198/tast.2009.09051 ,(2009), Letter to the editor‬‬

‫‪ .4‬אם כל פונקציה רציפה של ‪ X‬בלתי מתואמת עם כל פונקציה רציפה של‬


‫‪ ,Y‬אז ‪ X, Y‬בלתי תלויים‪.‬‬

‫‪44‬‬
‫‪ .2.2‬משתנים מקריים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫הגדרה ‪ 2.2.52‬מקדם המתאם של משתנים מקריים ‪) X, Y‬שאינם קבועים( מוגדר לפי‬


‫) ‪.ρ(X, Y ) = √Cov(X,Y‬‬
‫) ‪V(X)V(Y‬‬

‫טענה ‪ 2.2.53‬לכל שני משתנים מקריים‪.|ρ(X, Y )| ≤ 1 ,‬‬


‫) ‪Cov(X,Y‬‬
‫= ‪ ;t‬אז‬ ‫) ‪V(Y‬‬
‫הוכחה‪ .‬נסמן‬

‫‪V(X)V(Y ) − Cov(X, Y )2‬‬


‫= ) ‪V(X) · (1 − ρ(X, Y )2‬‬
‫) ‪V(Y‬‬
‫) ‪= Cov(X, X) − 2tCov(X, Y ) + t2 Cov(Y, Y‬‬
‫) ‪= Cov(X − tY, X − tY‬‬
‫‪= V(X − tY ) ≥ 0.‬‬
‫‬

‫הערה ‪ .V(X + Y ) = V(X) + V(Y ) + 2Cov(X, Y ) 2.2.54‬בפרט‪,‬‬


‫) ‪V(X + Y ) = V(X) + V(Y‬‬
‫אם ורק אם ‪ X, Y‬בלתי מתואמים‪.‬‬

‫טענה ‪ 2.2.55‬יהיו ‪ X1 , . . . , Xn‬משתנים מקריים בלתי מתואמים‪ ,‬שלכולם אותה תוחלת‬


‫‪.X̄ = X1 +···+X‬‬
‫‪n‬‬
‫‪n‬‬
‫‪ E(Xi ) = µ‬ואותה שונות ‪ .V(Xi ) = σ 2‬נסמן‬
‫‪2‬‬
‫אז ‪ E(X̄) = µ‬ו־ ‪.V(X̄) = σn‬‬

‫דוגמא ‪ 2.2.56‬נניח ש־ ‪ X1 , . . . , Xn‬משתנים מקריים בלתי מתואמים בעלי אותה שונות‬


‫‪ .σ 2‬נסמן‪ ,‬כרגיל‪.X̄ = n1 (X1 + · · · + Xn ) ,‬‬
‫‪ .1‬אם למשתנים אותה תוחלת‪ ,‬אז ‪.E(Xi − X̄) = 0‬‬
‫‪.Cov(X̄, Xi − X̄) = 0 .2‬‬
‫‪ Cov(Xi − X̄, Xj − X̄) = − n1 σ 2 .3‬לכל ‪.i 6= j‬‬
‫‪n−1 2‬‬
‫= )̄‪.V(Xi − X‬‬ ‫‪n‬‬
‫‪σ‬‬ ‫‪.4‬‬

‫תרגיל ‪) 2.2.57‬הכללה של טענה ‪ (2.2.42‬יהיו ‪ X, Y, Z‬משתנים מקריים על מרחב ‪.Ω‬‬


‫‪Cov(X, Y ) = Cov(E(X|Z), E(Y |Z)) + E(Cov(X, Y |Z)).‬‬
‫בסימון )‪ Cov(X, Y |Z‬הכוונה היא לשונות המשותפת של ‪ X, Y‬בהנתן ‪ ,Z‬היינו‬
‫)‪.Cov(X, Y |Z) = E(XY |Z) − E(X|Z)E(Y |Z‬‬

‫‪45‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.2‬משתנים מקריים‬

‫תרגיל ‪ 2.2.58‬יהיו ‪ X, Y‬משתנים מקריים על מרחב ‪.Ω‬‬


‫‪ .1‬אם ‪ X, Y‬לא מתואמים אז לכל משתנה ‪ E(X|Z), E(Y |Z) ,Z‬לא מתואמים‪.‬‬
‫‪ .2‬לכל ‪ Y −E(Y |X) ,X, Y‬לא מתואם עם ‪) X‬רמז‪ .‬קח ‪ Z = X‬בסעיף הקודם(‪.‬‬
‫‪.Cov(X, E(Y |X)) = Cov(X, Y ) .3‬‬

‫תרגיל ‪ 2.2.59‬נניח ש־‪ X = 0, 1‬עם ‪ Y = 0, 1 ;P (X = 1) = α‬עם ‪,P (Y = 1) = β‬‬


‫‪.ρ(X, Y ) = ρ‬‬
‫‪ .1‬חשב‪ ,‬במונחי ‪ ,α, β‬ו־‪ ρ‬את ההתפלגות המשותפת של ‪;X, Y‬‬
‫‪ .2‬חשב את )‪,E(X|Y ) ,E(X|Y = 1) ,E(X|Y = 0) ,V(X) ,E(XY ) ,E(X‬‬
‫ו־)) ‪;V(E(X|Y‬‬
‫‪ .3‬בדוק ש־ )‪;E(E(X|Y )) = E(X‬‬
‫‪ .4‬הראה ש־ ‪ ,V(E(X|Y )) = ρ2 αα′‬והוכח ש־ )) ‪.Cov(X, Y )2 ≤ 41 V(E(X|Y‬‬
‫)) ‪V (E(X|Y‬‬
‫= ) ‪ .θ(X; Y‬לפי טענה ‪ ,2.2.42‬ערך זה נמצא תמיד בקטע ]‪.[0, 1‬‬ ‫)‪V (X‬‬
‫נסמן‬

‫תרגיל ‪ 2.2.60‬הראה שאם ‪ X, Y‬מקבלים רק שני ערכים אז ‪.θ(X; Y ) = ρ(X, Y )2‬‬

‫תרגיל ‪ 2.2.61‬לכל ‪.θ(αX + β; Y ) = θ(X; Y ) ,α, β‬‬


‫לכל ‪ g : R→R‬הפיכה‪.θ(X; g(Y )) = θ(X; Y ) ,‬‬

‫תרגיל ‪ 2.2.62‬הראה שאם ‪ ,θ(X; Y ) = 0‬אז ‪.Cov(X, Y ) = 0‬‬

‫טענה ‪) 2.2.63‬גרסה חזקה של טענה ‪ (2.2.53‬לכל שני משתנים מקריים ‪ ,X, Y‬מתקיים‬
‫) ‪.ρ(X, Y )2 ≤ θ(X; Y‬‬
‫) ‪Cov(X,Y‬‬
‫= ‪ ,t‬אז לפי תרגיל ‪,2.2.58‬‬ ‫) ‪V(Y‬‬
‫הוכחה‪ .‬קח‬

‫≤ ‪0‬‬ ‫= )) ‪V(E(X − tY |Y‬‬


‫=‬ ‫= ) ‪V(E(X|Y ) − tY‬‬
‫=‬ ‫= ) ‪V(E(X|Y )) − 2tCov(E(X|Y ), Y ) + t2 V(Y‬‬
‫=‬ ‫= ) ‪V(E(X|Y )) − 2tCov(X, Y ) + t2 V(Y‬‬
‫‪Cov(X, Y )2‬‬ ‫‪θ(X; Y ) − ρ(X, Y )2‬‬
‫‪= V(E(X|Y )) −‬‬ ‫=‬ ‫‪.‬‬
‫) ‪V(Y‬‬ ‫)‪V(X‬‬
‫‬

‫‪46‬‬
‫‪ .2.3‬התפלגויות בדידות‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫תרגיל ‪ 2.2.64‬הראה שלכל ‪ ,0 ≤ r ≤ θ ≤ 1‬למשתנים המקריים המוגדרים להלן‬


‫יש ‪ θ(X; Y ) = θ‬ו־‪ X :ρ(X, Y )2 = r‬מקבל את הערכים ‪ ,0, 1‬ו־ ‪ Y‬את הערכים‬
‫‪;−1, 0, 1‬‬
‫‪(θ + r)2‬‬
‫= )‪P (X = 0, Y = −1‬‬ ‫‪,‬‬
‫‪4(θ + r)2‬‬
‫)‪(3θ + r)(θ − r‬‬
‫= )‪P (X = 0, Y = 1‬‬ ‫‪,‬‬
‫‪4(θ + r)2‬‬
‫‪(3θ + r)r‬‬
‫= )‪P (X = 1, Y = 0‬‬ ‫‪,‬‬
‫‪r2‬‬
‫‪+ 3θr + θ − r‬‬
‫‪ ,P (X = 1, Y = 1) = P (X = 1, Y = −1) = 0‬ו־)‪ P (X = 0, Y = 0‬משלים את‬
‫ההסתברויות ל־‪.1‬‬
‫תרגיל ‪ (*) 2.2.65‬מה הקשר בין ) ‪ θ(X; Y‬ו־)‪?θ(Y ; X‬‬

‫התפלגויות בדידות‬ ‫‪2.3‬‬


‫‪ 2.3.1‬התפלגות אחידה‬
‫ראו דוגמא ‪.2.2.5‬‬
‫‪n2 −1‬‬ ‫‪n+1‬‬
‫= )‪.V(X‬‬ ‫‪12‬‬
‫= )‪ E(X‬ושונות‬ ‫‪2‬‬
‫תרגיל ‪ 2.3.1‬למשתנה ]‪ X ∼ U[1, n‬יש תוחלת‬
‫תרגיל ‪ 2.3.2‬פרדוקס המעטפות הוא מעין־פרדוקס המדגים שיקולים הסתברותיים‬
‫שגויים‪ ,‬ושניתן לפתרו‪ ,‬בהנחות מסויימות‪ ,‬בעזרת חישובי תוחלת זהירים‪.‬‬
‫אדם בוחר ערך ‪ ,X‬ומושיט לנו שתי מעטפות‪ :‬באחת ‪ X‬ובשניה ‪ .2X‬אנו‬
‫בוחרים אחת מהן‪ ,‬בסיכויים שווים‪ .‬האם כדאי לנו לפתוח אותה‪ ,‬או להחליפה‬
‫במעטפה האחרת? נניח שהסכום שאנו רואים הוא ‪ ;Y‬בהנתן ‪ X = Y ,Y‬או‬
‫‪ .X = 21 Y‬במקרה הראשון ההחלפה תעלה את הרווח ב־ ‪ ;Y‬אחרת נעבור‬
‫למעטפה ובה ‪ , 12 Y‬והפסדנו ‪ . 12 Y‬הממוצע של שתי האפשרויות האלה הוא ‪, 54 Y‬‬
‫ולכן כדאי להחליף‪ .‬אלא שנימוק זה נכון באותה מידה לכל ‪ :Y‬לאחר שנפתח את‬
‫המעטפה‪ ,‬תמיד כדאי יהיה להחליף‪ .‬אם כך‪ ,‬אין צורך לפתוח אותה‪ .‬אבל אם אין‬
‫פותחים את המעטפה‪ ,‬מה ההבדל בינה לבין האחרת? אפשר להפעיל את אותם‬
‫שיקולים גם על השניה‪ ,‬ולהחליף בחזרה‪ .‬אם כך‪ ,‬איזו מעטפה עדיפה?‬
‫הניתוח לעיל שגוי‪ ,‬משום שבהנתן ‪ ,Y‬הסיכויים למאורע ‪) Y = X‬הגורר רווח‬
‫אם מחליפים( אינו דווקא ‪ :1/2‬הערך תלוי בהתפלגות ממנה נבחר ‪) .X‬אם‬
‫‪(.P (X = Y |Y ) = f (Yf)+f‬‬
‫) ‪X (Y‬‬
‫) ‪(1Y‬‬
‫הצפיפות של ‪ X‬היא ‪ ,fX‬אז‬
‫‪X‬‬ ‫‪X 2‬‬
‫נסמן ב־ ‪ Y ′‬את תכולת המעטפה השניה‪ .‬הראה שאם מניחים ש־)‪ E(X‬סופית‪,‬‬
‫אז ‪ ,E(Y ′ − Y ) = 0‬ולכן תוחלת הרווח מהחלפה היא אפס‪.‬‬

‫‪47‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.3‬התפלגויות בדידות‬

‫הדרכה‪ .‬אם‬ ‫תרגיל ‪ 2.3.3‬לא קיימת התפלגות אחידה על המספרים הטבעיים‪.‬‬


‫‪P‬‬
‫הוא אפס או אינסוף‪ ,‬ולא ‪.1‬‬ ‫)‪ P (X = n‬אינו תלוי ב־‪ ,n‬אז )‪P (X = n‬‬

‫תרגיל ‪ 2.3.4‬קרא על חוק בנפורד והצג את הנושא לכתה בחמש הדקות הראשונות‬
‫של השעור הבא‪.‬‬

‫‪ 2.3.2‬התפלגות ברנולי‬
‫יהי ‪ ;0 < p < 1‬נסמן ‪ .q = 1 − p‬ההתפלגות שבה ‪ X = 0, 1‬עם ‪P (X = 1) = p‬‬
‫ו־‪ P (X = 0) = q‬נקראת התפלגות ברנולי‪ .‬מסמנים )‪.X ∼ b(p‬‬

‫טענה ‪ 2.3.5‬למשתנה )‪ X ∼ b(p‬יש ‪.V(X) = pq ,E(X) = p‬‬

‫תרגיל ‪ 2.3.6‬הפער של משתנה ברנולי )‪ X ∼ b(p‬הוא ‪) ∆ = q − p‬כאשר = ‪q‬‬


‫‪ .(1 − p‬נראה שהפער כפלי‪ .‬נניח ש־)‪ X ∼ b(p‬ו־) ‪ X ′ ∼ b(p′‬הם שני משתני‬
‫ברנולי בלתי תלויים‪ .‬נגדיר ‪ ,Y = X ⊕ X ′‬כלומר הסכום מודולו ‪ .2‬הראה‬
‫ש־) ‪.∆(Y ) = ∆(X)∆(X ′‬‬

‫יהיו ‪ X, Y‬משתנים מקריים בלתי תלויים‪ .‬נאמר ש־‪ X‬עדיף על ‪ Y‬אם מתקיים‬
‫‪1‬‬
‫> ) ‪ .P (X > Y‬נראה שיחס העדיפות אינו טרנזיטיבי‪.‬‬ ‫‪2‬‬
‫√‬
‫‪ ,φ = 5−1‬ההפכי של יחס הזהב‪ .‬נגדיר )‪,X1 , X2 ∼ b(φ‬‬
‫‪2‬‬
‫תרגיל ‪ 2.3.7‬נסמן ‪≈ 0.618‬‬
‫שני משתני ברנולי בלתי תלויים‪ .‬נגדיר ‪ Y = 2 ,X = 3X1‬ו־ ‪ .Z = 4 − 3X2‬הראה‬
‫ש־‪ X‬עדיף על ‪ ,Y‬שעדיף על ‪ ,Z‬שעדיף על ‪.X‬‬
‫)למעשה ‪.(P (X > Y ) = P (Y > Z) = P (Z > X) = φ‬‬

‫תרגיל ‪ 2.3.8‬הראה שאם ‪ X, Y‬משתנים בלתי תלויים‪ ,‬אז‬

‫‪min {P (X > 0), P (Y > 0), P (X + Y < 0)} ≤ φ.‬‬


‫הדרכה‪ .‬אחרת ‪ ,P (X > 0), P (Y > 0), P (X + Y < 0) > φ‬אבל אז‬

‫)‪1 − φ > 1 − P (X + Y < 0) ≥ P (X + Y > 0‬‬


‫‪≥ P (X > 0, Y > 0) = P (X > 0) · P (Y > 0) > φ2 = 1 − φ.‬‬

‫הערה‪ .‬הקשר לתרגיל ‪ 2.3.6‬אינו מיידי‪ ,‬משום ששם ‪ X − Y, Y − Z, Z − X‬תלויים למרות‬


‫ש־‪ X, Y, Z‬בלתי תלויים‪.‬‬

‫תרגיל ‪ 2.3.9‬מצא התפלגות משותפת של ‪ ,X, Y, Z‬כך ש־]‪ ,X, Y, Z ∼ U[1, 3‬ובכל זאת‬
‫‪ .P (X > Y ) = P (Y > Z) = P (Z > X) = 32‬הדרכה‪ .‬בחר את מרחב האפשרויות כך‬
‫ש־‪ X, Y, Z‬תמיד שונים זה מזה‪.‬‬

‫‪48‬‬
‫‪ .2.3‬התפלגויות בדידות‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫התפלגות בינומית‬ ‫‪2.3.3‬‬


‫לכסום ‪ X = Y1 + · · · + Yn‬של משתני ברנולי בלתי תלויים )‪ Yi ∼ b(p‬יש התפלגות‬
‫בינומית‪ .‬משתנה כזה סופר את ההצלחות בסדרה של ‪n‬‬
‫‪ P‬נסיונות ברנולי בלתי תלויים‪.‬‬
‫מסמנים )‪ .X ∼ Bin(n, p‬מן השוויון )‪ X = Yi ∼ Bin(n, p‬קל לחשב את התוחלת‬
‫והשונות‪,‬‬
‫‪E(X) = np,‬‬ ‫‪V (X) = npq.‬‬

‫טענה ‪ 2.3.10‬אם משתנים )‪ X1 ∼ Bin(n1 , p‬ו־)‪ X2 ∼ Bin(n2 , p‬הם בלתי תלויים אז‬
‫)‪.X1 + X2 ∼ Bin(n1 + n2 , p‬‬

‫הוכחה‪ .‬באמצעות המבנה של משתנה בינומי כסכום של משתני ברנולי‪ ,‬או בחישוב ישיר‪.‬‬
‫‬

‫תרגיל ‪ 2.3.11‬אם )‪ X ∼ Bin(n, p‬אז )‪.n − X ∼ Bin(n, q‬‬

‫תרגיל ‪ 2.3.12‬בכד ‪ n‬כדורים‪ .‬בוחרים )‪ ,X ∼ Bin(n, p‬וצובעים ‪ X‬מן הכדורים‪.‬‬

‫‪ .1‬מוציאים כדור מהכד‪ .‬מה הסיכוי לכך שהוא צבוע?‬

‫‪ .2‬הוצאנו כדור צבוע‪ ,‬וכעת מוציאים עוד כדור‪ ,‬ללא החזרת הכדור הראשון‪.‬‬
‫מהם הסיכויים לכך שהכדור השני צבוע?‬

‫‪ .3‬ומהם הסיכויים לכך שהכדור השני צבוע‪ ,‬אם הוצאנו כדור צבוע ראשון‬
‫והחזרנו אותו לכד?‬

‫רעיון ‪ 2.3.13‬מדי שנה נבחנים סטודנטים למשפטים בבחינות הלשכה של עורכי הדין‪ :‬מאה‬
‫תלמידים מכל אחת מחמש אוניברסיטאות‪ .‬הסיכוי של בוגר התואר לעבור את הבחינות‬
‫הוא ‪ .90%‬אם האוניברסיטה המובילה בדירוג השנה אינה זו שהובילה את הדירוג בשנה‬
‫שעברה‪ ,‬על המוסף הכלכלי של העיתון לבשר מיד על "מהפך‪ :‬אוניברסיטה ‪ A‬עקפה את‬
‫אוניברסיטה ‪ B‬בדירוג בחינות הלשכה"‪ .‬הערך את הסיכויים לכותרת כזו‪.‬‬

‫תרגיל ‪ 2.3.14‬שני שחקנים מחלקים ביניהם ‪ n‬מטבעות‪ :‬מטילים את כולם‪ ,‬השחקן‬


‫הראשון מקבל את אלו שנפלו על 'עץ' והאחר את אלו שנפלו על 'פלי'‪ .‬לאחר‬
‫מכן מטיל כל שחקן שוב את המטבעות שלו‪ ,‬ושומר רק את אלו שנפלו שנית על‬
‫הצד שלו; את האחרים הוא מחזיר לקופה‪.‬‬

‫‪ .1‬איך מתפלג הרווח של השחקן הראשון?‬

‫‪49‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.3‬התפלגויות בדידות‬

‫‪ .2‬חשב את השונות המשותפת ומקדם המתאם בין הרווח של השחקן הראשון‬


‫לרווח של השחקן השני‪.‬‬
‫פתרון‪ D ∼ Bin(n, 12 ) .‬הוא מספר המטבעות בידי השחקן הראשון; ולאחר שנקבע ‪D‬‬
‫מגרילים ) ‪ X0 ∼ Bin(D, 12‬ו־) ‪ Y0 ∼ Bin(n − D, 21‬באופן בלתי תלוי‪ .1 .‬הסיכוי שמטבע‬
‫יגיע לידי השחקן הראשון הוא רבע‪ ,‬ובגלל האי־תלות הרווח מתפלג ) ‪ .2 .Bin(n, 41‬לפי‬
‫תרגיל ‪,2.2.57‬‬

‫)‪Cov(X0 , Y0 ) = Cov(E(X0 |D), E(Y0 |D)) + E(Cov(X0 , Y0 )|D‬‬


‫‪1‬‬ ‫‪1‬‬
‫‪= Cov( D, (n − D)) + 0‬‬
‫‪2‬‬ ‫‪2‬‬
‫‪1‬‬ ‫‪1‬‬
‫‪= − V(D) = − n‬‬
‫‪4‬‬ ‫‪16‬‬
‫‪ ,‬ולכן ‪.ρ(X0 , Y0 ) = − 13‬‬

‫תרגיל ‪ 2.3.15‬שיכור צועד מנקודת האפס לאורך הציר הממשי‪ :‬הוא עושה צעד‬
‫ימינה או צעד שמאלה‪ ,‬בסיכויים שווים‪) .‬המיקום שלו בזמן ‪ n‬הוא ‪ 2X0 − n‬כאשר‬
‫) ‪ (.X0 ∼ Bin(n, 21‬הוכח ש־‪ E(X) = 0‬ו־‪.V(X) = n‬‬

‫תרגיל ‪) 2.3.16‬הילוך שיכור דו־ממדי( שיכור שיוצא מראשית הצירים מבצע בכל פעם‬
‫צעד באחד מארבעת הכיוונים המקבילים לצירים‪ ,‬בהסתברויות שוות‪ .‬נסמן את‬
‫מקומו בצעד לאחר ‪ n‬צעדים ב־) ‪.(X, Y‬‬
‫‪ .1‬הסבר את המודל‪:‬‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬
‫‪D ∼ Bin(n, ),‬‬ ‫‪X0 |D ∼ Bin(D, ),‬‬ ‫‪Y0 |D ∼ Bin(n − D, ),‬‬
‫‪2‬‬ ‫‪2‬‬ ‫‪2‬‬
‫‪.Y = 2Y0 − (n − D) ,X = 2X0 − D‬‬
‫‪n‬‬
‫= ) ‪.V(X) = V(Y‬‬ ‫‪2‬‬
‫‪ .2‬הראה ש־‪,E(X) = E(Y ) = 0‬‬
‫‪ .3‬הראה שתוחלת ריבוע המרחק של השיכור מהמרכז היא ‪.n‬‬
‫‪ .4‬הראה ש־‪ .Cov(X, Y ) = 0‬האם ‪ X, Y‬תלויים?‬

‫תרגיל ‪ 2.3.17‬למנעול האופניים שלי יש ארבע חוגות של ‪ 10‬ספרות‪ .‬בכל פעם שאני‬
‫נועל אותו‪ ,‬אני מתעצל ומסובב חוגה אחת‪ ,‬שתיים‪ ,‬שלוש או ארבע )בהסתברויות‬
‫שוות(‪ ,‬כל אחת מהן ימינה או שמאלה )בהסתברויות שוות(‪ ,‬צעד אחד‪ ,‬שניים או‬
‫שלושה )בהסתברויות שוות(‪ .‬מישהו עוקב ומציץ במספר שלי אחרי הנעילה‪ .‬כמה‬
‫הצצות הוא צריך כדי לפענח בסיכוי טוב את הקוד הסודי?‬
‫)הדרך הטובה ביותר להתגונן מפני התקפה זו היא לבחור מספר קבוע שאליו‬
‫עוברים כשהמנעול סגור‪(.‬‬

‫‪50‬‬
‫‪ .2.3‬התפלגויות בדידות‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫תרגיל ‪ 2.3.18‬עורך דינה של קימברלי מקרת'י‪ ,‬שהורשעה ברצח ונידונה למוות‬


‫בטקסס ב־‪ ,2001‬טוען שההרשעה התקבלה על בסיס גזעני‪ .‬לדבריו‪ ,‬במדינה‬
‫שבה רבע מהאוכלוסיה שחורה‪ ,‬לא יתכן שרק אחד מ־‪ 13‬המושבעים יהיה שחור‬
‫)מוסף "צדק" של מקור ראשון‪ ,‬גליון ‪(.8.2.2013 ,809‬‬

‫‪ .1‬מה הסיכוי להרכב כזה של חבר המושבעים‪ ,‬בהנחה שזה הורכב באקראי?‬

‫‪ .2‬נניח שמושבע שחור היה מרשיע אותה בסיכוי ‪ ,0.6‬בעוד שמושבע לבן היה‬
‫מרשיע אותה בסיכוי ‪ .0.9‬מהם סיכויי ההרשעה ההוגנים‪ ,‬אם בוחרים את‬
‫חבר המושבעים באקראי? הדרכה‪ .‬נסמן ב־‪ X‬את מספר השחורים בחבר‬
‫המושבעים‪ ,‬אז )‪ ,X ∼ Bin(13, 0.25‬וסיכויי ההרשעה בהנתן ‪ X‬הם ‪.0.6X 0.913−X‬‬

‫תרגיל ‪ 2.3.19‬הפער של משתנה ברנולי הוגדר בתרגיל ‪ .2.3.6‬מטילים מטבע‬


‫‪ 2m + 1‬פעמים‪ ,‬ומסמנים ב־ ‪ Y‬את הכרעת הרוב‪ .‬מהו הפער של ‪ ,Y‬כתלות‬
‫המטבע‪ ,‬בהנחה ש־‪ ǫ‬זערורי ביחס ל־‪) ?m‬בקירוב מסדר ראשון‪,‬‬
‫בפער ‪ ǫ‬של ‪p m‬‬
‫‪m+1 2m+1‬‬
‫הפער הוא ‪(. 22m m ǫ ∼ 2 π ǫ‬‬

‫תרגיל ‪ 2.3.20‬חטיבה מורכבת משלושה גדודים; גדוד מורכב משלוש פלוגות; פלוגה‬
‫מורכבת משלוש מחלקות; מחלקה מורכבת משלושה צוותים; וצוות מורכב משלושה‬
‫חיילים‪ .‬לכל חייל יש מקצוע )צנחן או שריונר(‪ .‬המקצוע של יחידה מוגדר כמקצוען‬
‫של רוב היחידות המרכיבות אותה‪ .‬נניח שכל חייל בוחר באקראי ובאופן בלתי‬
‫‪ , 1+ǫ‬ו־‪ ǫ‬קטן מאד‪ .‬מהו הסיכוי‬
‫‪2‬‬
‫תלוי את מקצועו‪ ,‬כאשר הסיכוי להיות צנחן הוא‬
‫שהחטיבה היא חטיבת צנחנים?‬

‫תרגיל ‪ 2.3.21‬במדינה מוכרת נערכות בחירות אחת לארבע שנים )או פחות(‪.‬‬
‫החליטו שבמקום לספור את כל הקולות‪ ,‬יבחרו בכל קלפי ‪ k‬פתקים )למשל‬
‫‪ ,(k = 10‬באקראי ובהתפלגות אחידה‪ ,‬עם החזרה; הפתקים האלה‪ ,‬משוקללים‬
‫לפי מספר המצביעים בקלפי‪ ,‬יקבעו את מספר המצביעים בבחירות לכל מפלגה‪.‬‬
‫נסמן ב־ ‪ ni‬את מספר המצביעים בקלפי ‪ ,i‬וב־ ‪ ai‬את מספר המצביעים למפלגת‬
‫לסוקרים" באותה קלפי‪ .‬מספר הקולות שנזקפים לטובת המפלגה הוא הסכום‬ ‫"כח ‪P‬‬
‫‪ai‬‬ ‫‪1‬‬
‫‪ ,X = k ni Xi‬כאשר ) ‪ .Xi ∼ Bin(ni , ni‬הראה שהתוחלת של ‪ X‬שווה למספר‬
‫הקולות שתמכו במפלגה‪ ,‬וחשב את סטיית התקן‪ .‬מה צריך להיות ‪ k‬כדי שהתוצאה‬
‫תהיה‪ ,‬בוודאות קרובה‪ ,‬אמינה?‬

‫תרגיל ‪ 2.3.22‬אדם מטיל קוביה הוגנת סטנדרטית‪ ,‬שבה סכום הנקודות על כל שתי‬
‫פאות מקבילות הוא ‪ .7‬לפני כל הטלה‪ ,‬עליו לבחור )ולא לספר לאף אחד( האם‬
‫הוא מאמץ הפעם את הפאה העליונה או התחתונה של הקוביה‪ .‬אחר־כך הוא‬
‫מטיל את הקוביה‪ ,‬מדווח באיזו פאה בחר‪ ,‬ומקבל את הסכום המוצג שם בשקלים‬
‫)לדוגמא‪ ,‬אם הקוביה מציגה ‪ 5‬והוא בחר בפאה התחתונה‪ ,‬יוכל לומר את האמת‬

‫‪51‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.3‬התפלגויות בדידות‬

‫ולקבל שני שקלים‪ ,‬או לשקר ולקבל חמישה(‪ .‬ההטלה היתה מוצלחת מבחינת‬
‫המשתתף‪ ,‬אם מספר הנקודות על הפאה שהוא אומר שבחר גבוה מזה של הפאה‬
‫הנגדית‪ .‬חוזרים על הניסוי עשרים פעם‪ .‬כמה הצלחות צפויות בממוצע? כמה‬
‫הצלחות יגרמו לכם לחשוד שהאדם משקר? )בסדרת ניסויים שערך דן אריאלי‪,‬‬
‫נמצא שמספר ההצלחות הממוצע הוא כ־‪.(14‬‬

‫התפלגות פואסון‬ ‫‪2.3.4‬‬


‫הגדרה ‪ 2.3.23‬למשתנה המקרי המקבל ערכים ‪ 0, 1, 2, . . .‬יש התפלגות פואסון עם פרמטר‬
‫‪−λ k‬‬
‫‪ λ‬אם ‪ ;P (X = k) = e k!λ‬מסמנים )‪.X ∼ Poi(λ‬‬

‫‪e−λ λn‬‬
‫∞‪P‬‬
‫‪ .‬הדרכה‪ .‬טור‬ ‫‪n=0‬‬ ‫!‪n‬‬
‫תרגיל ‪ 2.3.24‬הוכח שזוהי אכן התפלגות‪ ,‬כלומר‪ ,‬ש־‪= 1‬‬
‫טיילור‪.‬‬

‫!‪n‬‬
‫‪. (n−k)!n‬‬ ‫למה ‪ 2.3.25‬לכל ‪k →1 ,k‬‬

‫נניח שמגדירים משתנים מקריים ) ‪) .Xn ∼ Bin(n, λn‬פירוש אפשרי‪ :‬מספר האגוזים‬
‫בטבלת שוקולד‪ ,‬כשבוחנים אותה ברזולוציה הולכת וגדלה(‪ .‬אז לפי למה ‪,2.3.25‬‬

‫)‪lim P (Xn = k) = P (Z = k‬‬


‫∞→‪n‬‬

‫כאשר )‪.Z ∼ Poi(λ‬‬

‫תרגיל ‪ 2.3.26‬מספר האנשים הנכנסים לבנק במשך שעה מתפלג פואסונית עם‬
‫תוחלת ‪ .λ‬כל אחד מהם משאיר את כרטיס הביקור שלו‪ .‬כמה זוגות אפשר‬
‫להרכיב מן הכרטיסים? כמה ‪k‬־יות סדורות?‬
‫!‪X‬‬
‫)הראה שאם )‪ X ∼ Poi(λ‬אז ‪(.E( (X−k)! ) = λk‬‬

‫טענה ‪ 2.3.27‬נניח ש־)‪ X ∼ Poi(λ‬ו־) ‪ Y ∼ Poi(λ′‬הם משתנים בלתי תלויים‪.‬‬

‫‪.X + Y ∼ Poi(λ + λ′ ) .1‬‬


‫‪λ‬‬
‫‪.Bin(n, λ+λ‬‬‫‪ .2‬ההתפלגות של ‪ X|X + Y = n‬היא בינומית ) ‪′‬‬

‫טענה ‪ 2.3.28‬פיצול של תהליך פואסון‪ :‬נניח ש־)‪ ,N ∼ Poi(λ‬ובהנתן ‪X ∼ ,N‬‬


‫)‪ .Bin(N, p‬נסמן ‪ .Y = N − X‬אז ‪ X, Y‬בלתי תלויים ובעלי התפלגות פואסון‪,‬‬
‫)‪.Y ∼ Poi(λq) ,X ∼ Poi(λp‬‬

‫‪52‬‬
‫‪ .2.3‬התפלגויות בדידות‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫הוכחה‪.‬‬
‫∞‬
‫‪X‬‬
‫= )‪P (X = k‬‬ ‫)‪P (X = k | N = n)P (N = n‬‬
‫‪n=k‬‬
‫  ∞‬
‫‪X‬‬ ‫‪n k n−k e−λ λn‬‬
‫=‬ ‫‪p q‬‬
‫‪n=k‬‬
‫‪k‬‬ ‫!‪n‬‬
‫∞‬
‫‪(λp)k −λ X 1‬‬ ‫‪(λp)k −λp‬‬
‫=‬ ‫‪e‬‬ ‫= ‪(λq)m‬‬ ‫; ‪e‬‬
‫!‪k‬‬ ‫‪m=0‬‬
‫!‪m‬‬ ‫!‪k‬‬

‫כלומר‪ .X ∼ Poi(λp) ,‬מאותה סיבה גם )‪ ,Y ∼ Poi(λq‬ואי־התלות נובעת מכך ש־‬

‫)‪P (X = k, Y = m) = P (X = k, N = k + m‬‬
‫)‪= P (X = k|N = k + m)P (N = k + m‬‬
‫‪k + m k m e−λ λk+m‬‬
‫‬ ‫‬
‫=‬ ‫‪p q‬‬
‫‪k‬‬ ‫!)‪(k + m‬‬
‫‪−λp‬‬ ‫‪k −λq‬‬
‫‪e (λp) e (λq)m‬‬
‫=‬ ‫‪= P (X = k)P (Y = m).‬‬
‫!‪k‬‬ ‫!‪m‬‬
‫‬

‫תרגיל ‪ 2.3.29‬במצב המתואר בטענה ‪ ,2.3.28‬חשב את )‪ .Cov(X, N‬תאר את‬


‫ההתפלגות של ‪ N‬בהנתן ‪.X‬‬

‫‪ .1‬נניח ש־ ‪ .λ < λ′‬מצא דרך להגדיר שני משתנים מקריים ‪X, X ′‬‬ ‫תרגיל ‪2.3.30‬‬
‫‪′‬‬ ‫‪′‬‬ ‫‪′‬‬
‫באופן ש־)‪ ,X ∼ Poi(λ ) ,X ∼ Poi(λ‬ותמיד ‪ .X ≤ X‬הדרכה‪ .‬העזר‬
‫בטענה ‪ .2.3.27‬טכניקה זו נקראת צימוד )‪.(coupling‬‬

‫‪ .2‬הסק שאם )‪ X ∼ Poi(λ‬ו־) ‪ X ′ ∼ Poi(λ′‬כאשר ‪ ,λ < λ′‬אז לכל ‪ n‬מתקיים‬


‫)‪.P (X ≥ n) < P (X ′ ≥ n‬‬
‫‪e−λ λk‬‬
‫∞ עולה עם ‪.λ‬‬
‫‪P‬‬
‫‪k=n‬‬ ‫!‪k‬‬
‫‪ .3‬הסק שלכל ‪ n‬הפונקציה‬

‫תרגיל ‪ 2.3.31‬שכנעו חבר שאת הטענה "כל כרטיס רביעי זוכה" אפשר לפרש‬
‫בשתי משמעויות שונות‪" :‬רבע מהכרטיסים זוכים" ו־"ארבעה כרטיסים )רצופים?(‬
‫מבטיחים זכיה"‪ .‬מה הסיכוי לזכיה בהגרלה שבה רבע מהכרטיסים זוכים‪ ,‬אם‬
‫קונים ארבעה כרטיסים? ומה קורה כשמחליפים בכל מקום את המספר ארבע‬
‫בארבעים? בארבע־מאות?‬

‫‪53‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.3‬התפלגויות בדידות‬

‫תרגיל ‪ 2.3.32‬מטילים חצים לעבר לוח שיש בו ‪ 1000000‬משבצות‪ .‬באחת מהן טמון‬
‫מגנט שבגללו הסיכוי לפגוע בה הוא ‪ ;0.01‬לשאר המשבצות סיכויים שווים‪ .‬זורקים‬
‫‪ 1000‬חצים‪ .‬חסום מלמטה את הסיכוי לכך שהמשבצת הממוגנטת היא זו שתקלוט‬
‫את מספר החצים הגדול ביותר‪.‬‬

‫תרגיל ‪ 2.3.33‬נניח שבכל סיבוב הגרלה נבחר מספר זוכה בין ‪ 1‬ל־‪ ,600‬בסיכויים‬
‫שווים‪.‬‬
‫‪ .1‬בכמה אפשר לשפר את הסיכויים לבחור את המספר שיזכה בסיבוב הבא‪,‬‬
‫אם נחכה לסיבוב ה־‪ 1800‬ואז נבחר מספרים שטרם עלו בגורל?‬

‫‪ .2‬האם יתכן שישארו מספרים שלא יעלו בגורל אחרי ‪ 2400‬סיבובים? )כן;‬
‫בסיכוי ‪.(99.98%‬‬

‫תרגיל ‪ 2.3.34‬בהמשך לתרגילים ‪ 2.1.11‬ו־‪ ,2.2.30‬מהי השונות של מספר נקודות‬


‫השבת )העזר במשתנים מציינים(‪ .‬מהי‪ ,‬בקירוב‪ ,‬התפלגות מספר נקודות השבת‬
‫של תמורה מקרית?‬

‫תרגיל ‪ 2.3.35‬מתווך דירות שרצה להראות עד כמה קשה מצב השוק‪ ,‬הדגים )ב־‬
‫‪" :(1.8.2011‬בחודש האחרון עשיתי רק עסקה אחת של שכירות ובחודש רגיל‬
‫אנחנו עושים שתיים־שלוש עסקות"‪.‬‬
‫לאיזו משפחה שייכת ההתפלגות של מספר העסקאות בחודש? מהו‪ ,‬להערכתך‪,‬‬
‫הפרמטר? עד כמה מפתיעה העובדה שדווקא בחודש מסויים התבצעה רק עסקה‬
‫אחת?‬

‫תרגיל ‪ 2.3.36‬שעור החולים בסרטן דם נדיר הוא אחד ל־‪) 5000‬אינדקס סיכון ‪.(12‬‬
‫איך מתפלג מספר החולים בבניין שגרים בו ‪ 100‬דיירים? מה הסיכוי שבבניין כזה‬
‫יחלו שלושה אנשים?‬
‫ברחוב החרובים ‪ 17‬במעלה־נחושתיים התגלו שלושה מקרים של המחלה‬
‫האמורה‪ .‬האם זו ראיה לכך שגורמים סביבתיים מיוחדים מזיקים לדיירי הבנין?‬
‫)הנח שבישראל כ־‪ 70, 000‬בניינים שבכל אחד מהם גרים כ־‪ 100‬דיירים‪(.‬‬

‫תרגיל ‪ 2.3.37‬על מרחב גדול ‪ W‬מגדירים פונקציה מקרית ‪ ;f : W →W‬כלומר‪,‬‬


‫כל ערך )‪ f (w‬הוא משתנה מקרי בעל התפלגות אחידה המקבל ערכים ב־ ‪,W‬‬
‫ומשתנים אלו בלתי תלויים‪ .‬איך מתפלג‪ ,‬בקירוב‪ ,‬מספר המקורות |)‪ ?|f −1 (w‬ואיך‬
‫מתפלג |)‪?|f −1 f (w‬‬

‫תרגיל ‪ 2.3.38‬בסקר שנערך בין מנתחים‪ ,‬הודו ‪ 20%‬מהם שניתחו במהלך הקרייריה‬
‫שלהם את הצד הלא נכון לפחות פעם אחת‪ .‬הסיכוי לשגיאה כזו הוא קבוע בכל‬
‫ניתוח‪ .‬כמה פעמים בממוצע עשה כל אחד מהטועים את השגיאה המדוברת‪ ,‬אם‪:‬‬

‫‪54‬‬
‫‪ .2.3‬התפלגויות בדידות‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫‪ .1‬נניח שכל מנתח עשה עד כה אותו מספר של ניתוחים‪.‬‬

‫‪ .2‬נניח‪ ,‬בניתוח מדוקדק יותר‪ ,‬שכל מנתח עורך אותו מספר ניתוחים במהלך‬
‫הקריירה שלו‪ ,‬אבל הנשאלים נסקרו בשלב אקראי )בעל התפלגות אחידה(‬
‫בקריירה‪.‬‬

‫תרגיל ‪ 2.3.39‬לפי משפט המספרים הראשוניים‪ ,‬ה"סיכוי" של מספר טבעי ‪ x‬להיות‬


‫ראשוני הוא ‪) log1 x‬ביתר דיוק‪ :‬אם )‪ π(x‬מסמן את מספר הראשוניים עד ‪ ,x‬אז‬
‫‪ .(π(x) ∼ logx x‬תן הצדקה היוריסטית להשערת גולדבך‪ ,‬שלפיה כל מספר זוגי‬
‫אפשר להציג כסכום של שני ראשוניים‪.‬‬
‫הדרכה‪ .‬הראה שמספר הדרכים להציג מספר טבעי ‪ x‬כסכום של שני ראשוניים עולה‬
‫)בקירוב היוריסטי( על ‪ . 2 logx 2 x‬בהנחה שמספר ההצגות מתפלג פואסונית‪ ,‬הסיכוי לכך‬
‫שאין הצגות הוא בקירוב ) ‪ .exp(− 2 logx 2 x‬האינטגרל על הערך הזה‪ ,‬מ־‪ 10000‬עד אינסוף‪,‬‬
‫קטן מ־ ‪.10−23‬‬

‫‪ 2.3.5‬התפלגות גאומטרית‬
‫אומרים ש־)‪ X ∼ G(p‬אם ‪ X‬הוא מספר הנסיונות עד להצלחה ראשונה בסדרת ניסויי‬
‫ברנולי שהסתברות ההצלחה שלהם ‪ .p‬אז ‪ ,k ≥ 1 ,P (X = k) = q k−1p‬כאשר‬
‫‪.q = 1 − p‬‬
‫כדי לבדוק שזו אכן התפלגות‪ ,‬יש לחשב‪:‬‬
‫∞‬
‫‪X‬‬ ‫‪p‬‬
‫= ) · · · ‪q k−1p = p(1 + q + q 2 +‬‬ ‫‪= 1.‬‬
‫‪k=1‬‬
‫‪1−q‬‬

‫‪q‬‬ ‫‪1‬‬
‫= )‪.V(X‬‬ ‫‪p2‬‬
‫ו־‬ ‫= )‪E(X‬‬ ‫‪p‬‬
‫טענה ‪ 2.3.40‬נניח ש־)‪ .X ∼ G(p‬אז‬

‫‪1‬‬
‫∞‪P‬‬ ‫‪1‬‬
‫∞‪P‬‬
‫= )‪ .h′ (x‬לכן‬ ‫‪(1−x)2‬‬
‫=‬ ‫‪n=0 nx‬‬
‫‪n−1‬‬
‫= )‪ ,h(x‬ונגזור‪:‬‬ ‫‪1−x‬‬
‫=‬ ‫‪n=0‬‬ ‫הוכחה‪ .‬נסמן ‪xn‬‬

‫∞‬ ‫∞‬
‫‪X‬‬
‫‪k−1‬‬
‫‪X‬‬ ‫‪p‬‬ ‫‪1‬‬
‫= )‪E(X‬‬ ‫‪kq‬‬ ‫‪p=p‬‬ ‫= ‪kq k−1‬‬ ‫‪2‬‬
‫; =‬
‫‪k=1‬‬ ‫‪k=0‬‬
‫)‪(1 − q‬‬ ‫‪p‬‬

‫‪2‬‬
‫∞‪P‬‬
‫= )‪ .h′′ (x‬לכן‬ ‫‪(1−x)3‬‬
‫=‬ ‫‪n=0 n(n‬‬ ‫נגזור שוב ונקבל ‪− 1)xn−2‬‬
‫∞‬ ‫∞‬
‫‪X‬‬ ‫‪X‬‬ ‫‪2pq‬‬ ‫‪2q‬‬
‫= ))‪E(X(X − 1‬‬ ‫‪k(k − 1)q k−1p = pq‬‬ ‫= ‪k(k − 1)q k−2‬‬ ‫=‬ ‫‪.‬‬
‫‪k=1‬‬ ‫‪k=1‬‬
‫‪(1 − q)3‬‬ ‫‪p2‬‬

‫‪55‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.3‬התפלגויות בדידות‬

‫מכאן ש־‬
‫‪V(X) = E(X 2 ) − E(X)2 = E(X(X − 1)) + E(X) − E(X)2‬‬
‫‪2q 1‬‬ ‫‪1‬‬ ‫‪2q + p − 1‬‬ ‫‪q‬‬
‫= ‪= 2+ − 2‬‬ ‫‪2‬‬
‫‪= 2.‬‬
‫‪p‬‬ ‫‪p p‬‬ ‫‪p‬‬ ‫‪p‬‬
‫‬
‫∞‪P‬‬ ‫‪n+k‬‬
‫‬
‫‪.‬‬ ‫‪n=0‬‬ ‫‪k‬‬
‫תרגיל ‪ 2.3.41‬נניח ש־ ‪ .|x| < 1‬הוכח ש־ )‪xn = (1 − x)−(k+1‬‬

‫טענה ‪ 2.3.42‬נניח ש־)‪ .X ∼ G(p‬אז לכל ‪ ,n‬ההתפלגות המותנית של ‪ X − n‬בהנתן‬


‫‪ X > n‬היא )‪ .G(p‬תכונה זו נקראת חוסר הזכרון של ההתפלגות הגאומטרית‪.‬‬

‫ציטוט ‪" 2.3.43‬כדי להבטיח ‪ ,‬למשל‪ ,‬זכייה בפרס הראשון בלוטו‪ ,‬בהנחה שממלאים אותו‬
‫בצירופים שונים פעמיים בחודש חמש טבלאות בכל פעם‪ ,‬יש למלא טופס במשך ‪ 112‬אלף‬
‫שנים!" )ד"ר ברי כינורי‪.(TheMarker Cafe, 25.7.2012 ,‬‬

‫תרגיל ‪ 2.3.44‬מה תוחלת מספר הנסיונות עד לפעם הראשונה שהופיעו בסדרה‬


‫‪1‬‬
‫‪. pq‬‬ ‫גם הצלחה וגם כשלון? הדרכה‪ .‬התשובה היא ‪− 1‬‬

‫תרגיל ‪ 2.3.45‬מתבוננים בסדרת ניסויי ברנולי בעלי הסתברות קבעוה‪ .p ,‬מן הניסוי‬
‫השני ואילך‪ ,‬מכריזים בכל פעם האם התוצאה "שווה" או "שונה" לתוצאה הקודמת‪.‬‬
‫מה הסיכוי לתוצאה "שונה" ברגע מסויים? מה הסיכוי לשתי הכרזות "שונה"‬
‫רצופות? האם ההכרזה בזמן ‪ n + 1‬תלויה בהכרזה בזמן ‪ ?n‬ומה לגבי ההכרזות‬
‫בזמן ‪ n + 2‬ו־‪?n‬‬

‫תרגיל ‪ 2.3.46‬תוחלת מספר ההגרלות עד לזכיה ראשונה בהגרלה היא ‪ .n‬הערך‬


‫את הסיכוי לזכות לפחות פעם אחת ב־‪ αn‬הגרלות )כאשר ‪.(α ≪ 1‬‬

‫‪ .1‬מטילים מטבע הוגן שוב ושוב‪ .‬מה אורכו הצפוי של הרצף‬ ‫תרגיל ‪2.3.47‬‬
‫)היינו‪ ,‬סדרת תוצאות זהות( שיתחיל בהטלה הבאה?‬
‫‪ .2‬הערך‪ :‬כמה רצפים יהיו בסדרה באורך ‪ 1000‬הטלות?‬
‫‪ .3‬מה יהיה אורכו של הרצף הארוך ביותר בסדרה של ‪ 1000‬הטלות? בצע‬
‫סימולציה ממוחשבת כדי לקבל את התפלגות הרצף הארוך ביותר‪ ,‬והשווה‬
‫אותה לתוצאות המוערכות‪.‬‬

‫תרגיל ‪ 2.3.48‬נניח ש־ ‪ X, Y‬מתפלגים גאומטרית‪ .Y ∼ G(p2 ) ,X ∼ G(p1 ) ,‬הראה‬


‫שההתפלגות של ‪ X‬בהנתן ‪ X = Y‬היא ) ‪.G(p1 + p2 − p1 p2‬‬
‫באופן כללי יותר‪ ,‬אם ) ‪ Xi ∼ G(pi‬הם משתנים בלתי תלויים עבור ‪,i = 1, . . . , n‬‬
‫אז ההתפלגות של ‪ X1‬בהנתן ‪ X1 = · · · = Xn‬היא )) ‪.G(1 − (1 − p1 ) · · · (1 − pn‬‬

‫‪56‬‬
‫‪ .2.3‬התפלגויות בדידות‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫תרגיל ‪ 2.3.49‬לניסוי שלוש תוצאות אפשריות‪ :‬הצלחה מלאה‪ ,‬הצלחה חלקית‪,‬‬


‫וכשלון‪ .‬הסיכוי להצלחה מלאה הוא ‪ ,p‬והסיכוי להצלחה חלקית הוא ‪ .δ‬חוזרים על‬
‫הניסוי עד להצלחה המלאה הראשונה‪ .‬נסמן ב־‪ X‬את מספר הנסיונות שנערכו‪,‬‬
‫וב־ ‪ Y‬את מספר הנסיונות )מתוכם( שלא נכשלו‪.‬‬

‫‪ .1‬מה ההתפלגות של ‪ ?X‬הדרכה‪ .‬כרגיל‪.X ∼ G(p) ,‬‬

‫הדרכה‪ .‬לכל ‪,1 ≤ k ≤ n‬‬ ‫ההתפלגות המשותפת של ‪.X, Y‬‬ ‫‪ .2‬כתוב את‬
‫‪n−1‬‬
‫‪(1 − δ − p)n−k δk−1 p‬‬
‫‬
‫= )‪.P (Y = k, X = n‬‬ ‫‪k−1‬‬

‫‪ .3‬מה ההתפלגות של ‪ ,X‬בהנתן שאף ניסוי לא נכשל? הדרכה‪ .‬המאורע "אף‬


‫ניסוי לא נכשל" הוא המאורע ‪ .X = Y‬כפי שראינו ‪,P (X = Y = n) = δn−1 p‬‬
‫‪δn−1 p‬‬
‫‪P (X = n|X = Y ) = P P(X=Y‬‬ ‫)‪=n‬‬ ‫‪p‬‬
‫ולכן ‪ .P (X = Y ) = 1−δ‬מכאן ש־= )‪(X=Y ) = p/(1−δ‬‬
‫‪1‬‬
‫‪.E(X|X = Y ) = 1−δ‬‬ ‫)‪ ,δn−1 (1 − δ‬כלומר‪ .X|X = Y ∼ G(1 − δ) ,‬בפרט‬
‫‪p‬‬
‫‪.Y ∼ G( p+δ‬‬ ‫‪ .4‬מה ההתפלגות של ‪ ?Y‬הדרכה‪) .‬‬

‫‪ .5‬מצא את ההתפלגות של ‪ Y‬בהנתן ‪ .X‬הדרכה‪.(Y − 1|X) ∼ Bin(X − 1, δ) .‬‬

‫‪ .6‬מצא את ההתפלגות של ‪ X‬בהנתן ‪) Y‬ראה תת־סעיף ‪ .(2.3.6‬הדרכה‪.‬‬


‫)‪.(X − Y |Y ) ∼ NB(Y, 1 − δ − p‬‬

‫‪ .7‬הסבר כיצד יתכן שההתפלגות של ‪ Y‬שונה מן ההתפלגות של ‪ X‬בהנתן‬


‫‪.X = Y‬‬

‫תרגיל ‪ 2.3.50‬שני שחקנים מתחרים בקליעה למטרה‪ .‬לראשון סיכויי הצלחה ‪,α‬‬
‫ולשני סיכויי הצלחה ‪) β‬נסיונות הקליעה בלתי תלויים במשותף(‪ .‬במשחק ראשון‬
‫קובעים שהמנצח הוא מי שנזקק לפחות נסיונות קליעה עד לפגיעה הראשונה )אם‬
‫שניהם נזקקו לאותו מספר נסיונות‪ ,‬מוכרז תיקו(‪ .‬במשחק השני שניהם מנסים‬
‫לקלוע‪ :‬אם אחד קלע וחברו החטיא‪ ,‬הוא מוכרז כמנצח‪ ,‬ואם שניהם קלעו מוכרז‬
‫תיקו‪ .‬אם שניהם החמיצו‪ ,‬מנסים שוב‪.‬‬
‫הראה שהסתברויות הנצחון שוות בין שני המשחקים‪.‬‬

‫טענה ‪ 2.3.51‬נניח ש־) ‪ .X ∼ G( 21‬מהי התוחלת של ‪ ?2X‬ושל ‪?(−1)X‬‬

‫בתאוריה כלכלית ותורת קבלת ההחלטות‪ ,‬מקובל לומר שאדם בוחר בין אלטרנטיבות‬
‫לפי זו שמביאה לו תוחלת גדולה יותר‪.‬‬

‫תרגיל ‪ 2.3.52‬מפעל הפיס מציע משחק חדש‪ :‬תמורת כרטיס בשווי ‪ 100‬שקל‪,‬‬
‫תזכה ב־ ‪ 2X‬שקלים‪ ,‬כאשר ) ‪ .X ∼ G( 12‬האם כדאי להשתתף במשחק? ]שאלה‬
‫זו קשורה ל'פרדוקס של סנקט פטרבורג'‪[.‬‬

‫‪57‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.3‬התפלגויות בדידות‬

‫תרגיל ‪ 2.3.53‬בהימורי ה''בראקט'' של כדורסל המכללות בארה"ב‪ ,‬מנחשים את‬


‫זהות המנצח בכל אחד מבין ‪ 63‬משחקים‪ ,‬וגובה הפרס תלוי במספר ההצלחות‬
‫הרצופות )מן המשחק הראשון ואילך‪ (.‬בזכות ידע מוקדם‪ ,‬הסיכוי לנחש כל משחק‬
‫אינו חצי אלא ‪ .60%‬עד היום נמכרו מליארד טפסי הימורים‪ .‬הערך מה מספר‬
‫ההצלחות הרצוף הגבוה ביותר שהושג בהם‪ .‬הדרכה‪ .‬התוצאה הטובה ביותר היא‬
‫בעלת סיכוי של כאחד למליארד‪ ,‬שהם ‪ ;0.6−40.7‬נצפה‪ ,‬אם כך‪ ,‬ל־‪ 40-41‬הצלחות‪.‬‬

‫תרגיל ‪ 2.3.54‬בעיית אוסף הקופונים‪ :‬חברה גדולה מפיצה מספר שווה של קופונים‬
‫מכל אחד מ־‪ n‬סוגים‪ .‬כמה קופונים צריך אדם לאסוף‪ ,‬בתוחלת‪ ,‬על־מנת להרכיב‬
‫אוסף שיש בו לפחות קופון אחד מכל סוג? נסו להעריך כמה עליו לאסוף כדי‬
‫להחזיק לפחות שני קופונים מכל סוג‪.‬‬

‫תרגיל ‪ 2.3.55‬ב"משחק החיים" המשימה היא להתקל באקראי במכונית ששלוש‬


‫הספרות האמצעיות של מספר הרישוי שלה הן ‪ ,000‬אחר־כך במכונית שהספרות‬
‫שלה הן ‪ ,001‬וכן הלאה על ‪ ,999‬לפי סדר‪ .‬בכמה מספרי מכוניות יש להבחין כדי‬
‫להשלים את המשחק‪ ,‬בתוחלת? מה שונות משך המשחק?‬

‫תרגיל ‪ 2.3.56‬במשחק הקוביות ‪ Craps‬מטילים בכל פעם זוג קוביות‪ ,‬ומחשבים את‬
‫סכומן‪ .‬מן הערכים הקיצוניים ‪ 2, 3, 11, 12‬מתעלמים לחלוטין‪ .‬המשחק מורכב‬
‫מסדרת משחקונים‪ ,‬שבכל אחד מהם הכללים זהים‪ :‬בפתיחת המשחקון מטילים‬
‫את הקוביה עד שמתקבל הערך הראשון מהקבוצה ‪ .4, 5, 6, 8, 9, 10‬בשלב השני‬
‫של המשחקון‪ ,‬מטילים את הקוביות עד שמתקבל אחד משני סכומים‪ :‬אם מתקבל‬
‫הערך שנקבע בפתיחה‪'' ,‬זוכים'' בו‪ ,‬ומתחילים את המשחקון הבא‪ .‬אם מתקבל ‪,7‬‬
‫המשחק מסתיים‪.‬‬
‫‪ .1‬נניח שבפתיחת המשחקון נקבע הערך ‪ .4‬מה הסיכוי לכך שמשחקון זה‬
‫יסתיים בזכיה?‬

‫‪ .2‬מה הסיכוי לכך שמשחקון נתון יסתיים בזכיה?‬


‫‪ .3‬משחקון מסויים הסתיים בזכיה‪ .‬מהם הסיכויים לכך שהערך הזכוי הוא ‪?4‬‬

‫כמה משחקונים מתקיימים‬ ‫‪ .4‬מה התפלגות מספר המשחקונים במשחק?‬


‫במשחק‪ ,‬בתוחלת?‬

‫‪ .5‬מה הסיכוי לכך שהשחקן יזכה בערך ‪ 4‬במהלך משחק?‬

‫‪ .6‬כתוב סימולציה ממוחשבת שתעריך את הסיכוי לכך שהשחקן יזכה במהלך‬


‫משחק בכל ששת הערכים האפשריים‪) .‬התשובה היא כ־‪ 1‬ל־‪(.6100‬‬

‫הטענה הבאה שימושית בחישוב תוחלת של זמני המתנה‪:‬‬

‫‪58‬‬
‫‪ .2.3‬התפלגויות בדידות‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫הוכח ש־‬ ‫טענה ‪ 2.3.57‬יהי‪ XP‬משתנה מקרי המקבל ערכים שלמים חיוביים‪.‬‬
‫∞ = )‪.E(X‬‬
‫)‪n=0 P (X ≥ n‬‬

‫הוכחה‪.‬‬
‫∞‬
‫‪X‬‬ ‫‪∞ X‬‬
‫‪X‬‬ ‫∞‬
‫= )‪P (X ≥ n‬‬ ‫)‪P (X = k‬‬
‫‪n=0‬‬ ‫‪n=0 k=n‬‬
‫‪∞ X‬‬
‫‪X‬‬ ‫‪k‬‬
‫=‬ ‫)‪P (X = k‬‬
‫‪k=0 n=0‬‬
‫∞‬
‫‪X‬‬
‫=‬ ‫‪kP (X = k) = E(X).‬‬
‫‪k=0‬‬

‫‬

‫‪ ,x1 , xP‬הראה שהמכפלה האינסופית‬ ‫‪Q‬עבור מספרים חיוביים ‪2 , . . .‬‬ ‫‪.1‬‬ ‫תרגיל ‪2.3.58‬‬
‫‪x‬‬ ‫∞‬
‫מתכנס‪ .‬הדרכה‪.x ≤ (1+x) ≤ e .‬‬ ‫) ‪ n=1 (1+xi‬מתכנסת אם ורק אם ‪xi‬‬

‫∞ אם ורק אם‬
‫‪P yi‬‬ ‫‪Q‬‬
‫‪1−yi‬‬ ‫‪ P‬הראה ש־‪i=1 (1 − yi ) > 0‬‬ ‫‪ .2‬נניח ש־ ‪ y1 , y2 , . . .‬חיוביים‪.‬‬
‫מתכנס‪.‬‬ ‫מתכנס‪ ,‬אם ורק אם ‪yi‬‬

‫תרגיל ‪ 2.3.59‬מבצעים סדרת ניסויים בלתי תלויים‪ ,‬כך שההסתברות להצלחה‬


‫בניסוי ה־‪ ,n‬אם הוא מתרחש‪ ,‬היא ‪ .(qn = 1 − pn ) pn‬נסמן ב־ ‪ T‬את מספר‬
‫הניסויים עד להצלחה הראשונה )ו־∞ = ‪ T‬אם ההצלחה לעולם אינה מגיעה(‪.‬‬

‫‪ .1‬הראה ש־ ‪ ,P (T ≥ n) = q1 · · · qn‬וש־ ‪.P (T = n) = q1 · · · qn−1 pn‬‬

‫‪ .2‬אם ‪ pn = p‬הוא קבוע‪ ,‬אז )‪.T ∼ G(p‬‬

‫∞ ‪.‬‬
‫‪Q‬‬
‫‪ P‬לכן הסיכוי להצלחה‬ ‫‪ .3‬הסיכוי לכשלון בכל סדרת הניסויים הוא ‪n=1 qn‬‬
‫בשלב )סופי( כלשהו הוא ‪ 1‬אם ורק אם ∞ = ‪ . pn‬הדרכה‪ .‬תרגיל ‪.2.3.58‬‬

‫‪ .4‬בכד יש ‪ a‬כדורים לבנים וכדור אחד שחור‪ .‬בכל שלב מוציאים כדור‬
‫באקראי; אם הכדור לבן‪ ,‬זוהי הצלחה‪ ,‬והניסוי מסתיים‪ .‬אחרת‪ ,‬מוסיפים לכד‬
‫כדור שחור אחד‪ ,‬וממשיכים בסדרה‪.‬‬

‫)א( הראה שלכל ‪ ,a ≥ 1‬ההצלחה )בשלב סופי כלשהו( מובטחת‪.‬‬


‫‪1‬‬
‫= ) ‪ .E(T‬הדרכה‪ .‬העזר‬ ‫‪a−1‬‬
‫)ב( אם ‪ a = 1‬אז ∞ = ) ‪ ;E(T‬וכאשר ‪,a > 1‬‬
‫בטענה ‪.2.3.57‬‬

‫‪59‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.3‬התפלגויות בדידות‬

‫התפלגות בינומית שלילית‬ ‫‪2.3.6‬‬


‫יהי ‪ .r ≥ 1‬נסמן ב־‪ X‬את מספר ההצלחות בסדרת ניסויי ברנולי בלתי תלויים בעלי‬
‫הסתברות הצלחה ‪ ,p‬עד לכשלון ה־‪r‬־י‪ .‬על־מנת שהכשלון ה־‪r‬־י יחול לאחר ‪ k‬הצלחות‪,‬‬
‫עליו להתרחש בנסיון ה־‪ ,r + k‬כשמתוך ‪ r + k − 1‬הנסיונות הקודמים יש בדיוק ‪r − 1‬‬
‫‬ ‫‬ ‫כשלונות‪ .‬לפיכך‬
‫‪k+r−1 r k‬‬
‫= )‪P (X = k‬‬ ‫‪q p ,‬‬
‫‪k‬‬
‫לכל ‪ .k ≥ 0‬את ההתפלגות מסמנים ב־)‪ .X ∼ NB(r, p‬היא נקראת בינומית שלילית‬
‫ ‬ ‫משום ש־‬
‫‪−r‬‬ ‫‪k r‬‬
‫= )‪P (X = k‬‬ ‫‪(−p) q‬‬
‫‪k‬‬
‫)‪. xk = x(x−1)···(x−k+1‬‬
‫‬
‫!‪k‬‬
‫כאשר לכל ‪ x ∈ R‬מסמנים‬
‫דוגמא ‪ 2.3.60‬אם ‪ ,r = 1‬אז ‪ ,P (X = k) = qpk‬כלומר ‪.NB(1, p) = G(q) − 1‬‬
‫∞‪P‬‬
‫‪ . n=0 n+r‬הדרכה‪ .‬עיין‬
‫‪n‬‬
‫‪r‬‬
‫תרגיל ‪ 2.3.61‬יהי ‪ r‬מספר טבעי‪ .‬הראה ש־ ‪t = (1 − t)−r‬‬
‫בהתפלגות הבינומית השלילית; או הוכח באינדוקציה על ‪ r‬על־ידי גזירת הטור‪.‬‬

‫אפשר לכתוב את ‪ X‬כסכום של משתנים גאומטריים‪ :‬נסמן ב־ ‪ Yi‬את מספר‬


‫ההצלחות בין הכשלון ה־)‪ (i−1‬לכשלון ה־‪ .i‬אז )‪ ,Yi + 1 ∼ G(q‬ו־ ‪.X = Y1 + · · ·+ Yr‬‬
‫כך אפשר לחשב תוחלת ושונות‪:‬‬
‫‪rp‬‬ ‫‪rp‬‬
‫‪E(X) = ,‬‬ ‫‪V(X) = 2 .‬‬
‫‪q‬‬ ‫‪q‬‬

‫תרגיל ‪ 2.3.62‬נניח ש־)‪ X1 , X2 , · · · ∼ G(p‬הם משתנים בלתי תלויים‪ .‬נסמן = ‪Sr‬‬


‫‪.P (Sr = n) = n−1‬‬
‫‪n−r‬‬
‫‪ .X1 + · · · + Xr‬הראה שלכל ‪pr q n−r ,n ≥ r‬‬

‫תרגיל ‪ 2.3.63‬נסמן ב־ ‪ T‬את מספר הרצפים בסדרה של ‪ n‬משתני ברנולי ) ‪) b( 12‬למשל‪,‬‬


‫מספר הרצפים בסדרה ‪ 0011110‬הוא ‪ ;3‬סופרים גם את הרצף ש'לא הסתיים'(‪ .‬חשב את‬
‫ההתפלגות של ‪ .T‬פתרון‪ .‬אורכו של הרצף ה־‪ i‬הוא ) ‪ .Xi ∼ G( 12‬נסמן ‪,St = X1 + · · · + Xt‬‬
‫∞ = )‪.P (T < t) = P (St−1 ≥ n‬‬ ‫‪i−1‬‬
‫‪P‬‬ ‫‪ −i‬‬
‫‪i=n i−t+1 2‬‬ ‫אז ‪ T < t‬אם ורק אם ‪ .St−1 ≥ n‬לכן‬
‫]ראו טענה ‪ 2.6.31‬לבעיה דומה שבה החישובים מסתדרים טוב יותר‪[.‬‬
‫‪1‬‬
‫‪p‬‬
‫תרגיל ‪ 2.3.64‬מספר העכברים באסם‪ ,‬ועוד אחד‪ ,‬מתפלג גאומטרית עם תוחלת‬
‫)כך שהסיכוי שאין עכברים הוא ‪ .(p‬הסיכוי של כל עכבר להתפס במלכודת הוא‬
‫‪) α‬נסמן ‪.(β = 1 − α‬‬
‫כלומר‪ ,‬אם ‪ S‬הוא מספר העכברים באסם ו־‪ X‬מספר העכברים שנתפסו‪ ,‬אז‬
‫)‪ S + 1 ∼ G(p‬ו־)‪.X|S ∼ Bin(S, α‬‬

‫‪60‬‬
‫‪ .2.3‬התפלגויות בדידות‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫תשובה‪.‬‬ ‫‪ .1‬מצא את ההתפלגות של מספר העכברים שנתפסו‪ ,‬ואת התוחלת‪] .‬‬


‫‪ ;X + 1 ∼ G( 1−βq‬לכן ‪[.E(X) = qαp‬‬
‫‪p‬‬
‫ההתפלגות גאומטרית‪) :‬‬

‫‪ .2‬נניח שנתפסו ‪ X = k‬עכברים‪ .‬מה ההתפלגות של המשתנה ‪Y = S − X‬‬


‫הסופר כמה עכברים לא נתפסו? ]תשובה‪ .‬ההתפלגות היא בינומית שלילית‪[.Y |X ∼ NB(X + 1, qβ) :‬‬
‫‪[.E(Y |X) = (X+1)qβ‬‬
‫‪1−qβ‬‬
‫והתוחלת? ]תשובה‪.‬‬

‫‪[.Y + 1 ∼ G( βq+p‬‬ ‫‪ .3‬מה ההתפלגות של ‪] ?Y = S − X‬תשובה‪ .‬גאומטרית‪) :‬‬


‫‪p‬‬

‫‪ .4‬הסבר מדוע החקלאי מקווה לתפוס כמה שפחות עכברים‪ ,‬למרות שכל‬
‫עכבר שנתפס הוא עכבר אחד פחות המכרסם את התבואה‪.‬‬
‫‪ .5‬מצא את השונות המשותפת ) ‪] .Cov(X, Y‬תשובה‪[.Cov(X, Y ) = αβ(q/p)2 .‬‬
‫תרגיל ‪) 2.3.65‬בעיית הגפרורים( לסטטיסטיקאי ‪ n‬גפרורים בכל כיס‪ .‬כשעולה צורך‪,‬‬
‫הוא שולף גפרור באקראי מאחד הכיסים‪ .‬חשב את התפלגות מספר הגפרורים‬
‫שנותרו לו‪ ,‬כשהוא מרוקן את אחד הכיסים בפעם הראשונה‪.‬‬
‫)הכלליות אינה מוסיפה לקושי‪ ,‬ולכן אפשר להניח שיש לסטטיסטיקאי ‪ m‬גפרורים‬
‫בכיס הימני‪ ,‬ו־‪ n‬בשמאלי; ושהסיכוי לפנות לכיס ימין הם ‪ ,p‬לעומת ‪ q = 1 −p‬לגשת‬
‫לכיס שמאל‪(.‬‬
‫‪ .1‬נניח שהסטטיסטיקאי ממשיך לגשת אל הכיסים באקראי עד ששניהם מתרוקנים‪.‬‬
‫נסמן ב־ ‪ XR‬את מספר הפניות לכיס ימין עד לפניה ה־‪n‬־ית לכיס שמאל‪,‬‬
‫וב־ ‪ XL‬את מספר הפניות לכיס שמאל עד לפניה ה־‪m‬־ית לכיס ימין‪ .‬הוכח‬
‫שמתקיים בדיוק אחד משני התנאים ‪ XL < n‬או ‪.XR < m‬‬
‫‪ .2‬הראה ש־)‪ XL ∼ NB(n; p‬ו־)‪.XR ∼ NB(m; q‬‬
‫‪ .3‬נסמן ב־ ‪ Y‬את מספר הגפרורים שנותרו בכיס השני‪ ,‬כשהראשון מתרוקן‪.‬‬
‫הראה ש־ ‪ Y = m − XR‬אם ‪ XL = n‬ו־ ‪ Y = n − XL‬אם ‪.XR = m‬‬
‫‪ .4‬הסק משני הסעיפים הקודמים ש־‬
‫‬ ‫‬ ‫‬ ‫‬
‫‪n + m − k − 1 n−k m‬‬ ‫‪n + m − k − 1 n m−k‬‬
‫= )‪P (Y = k‬‬ ‫‪p q +‬‬ ‫‪p q‬‬ ‫‪,‬‬
‫‪m−1‬‬ ‫‪n−1‬‬
‫לכל }‪ .1 ≤ k ≤ max {n, m‬בפרט‪ ,‬אם ‪ n = m‬ו־‪ ,p = q‬אז = )‪pn,n (k‬‬
‫‪. 2n−1−k‬‬
‫‪n−1‬‬
‫‪2k−2n‬‬
‫‪ .5‬נסמן ב־)‪ pn,m (k‬את הסיכוי ש־‪ Y = k‬כשמתחילים מכיסים שיש בהם‬
‫‪ n, m‬גפרורים‪ .‬הראה באמצעות נוסחת ההסתברות השלמה ש־= )‪pn,m (k‬‬
‫)‪ ,ppn,m−1 (k) + qpn−1,m (k‬ובדוק שהנוסחה שהתקבלה לעיל מקיימת תנאי‬
‫זה‪.‬‬

‫‪61‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.3‬התפלגויות בדידות‬

‫‪ .6‬איך היתה משתנה ההתפלגות‪ ,‬אם במקום לדבר על מספר הגפרורים שיש‬
‫לסטטיסטיקאי בזמן שהוא מרוקן את הכיס הראשון‪ ,‬היינו מעוניינים במספר‬
‫הגפרורים שיש לו כשהוא מגלה כיס ריק בפעם הראשונה?‬

‫התפלגות היפרגאומטרית‬ ‫‪2.3.7‬‬


‫תרגיל ‪ 2.3.66‬נניח ש־)‪ ,Y ∼ Bin(m, p) ,X ∼ Bin(n, p‬בלתי תלויים‪ .‬חשב את‬
‫ההתפלגות של ‪ X‬בהנתן ‪.X + Y = N‬‬
‫אומרים ש־)‪ X ∼ Hyp(n; A, B‬אם ‪ X‬מספר האדומים בבחירת ‪ n‬כדורים משק‬
‫שיש בו ‪ N = A + B‬כדורים‪ ,‬מהם ‪ A‬אדומים ו־‪ B‬אחרים‪ .‬הדגימה כאן היא ללא‬
‫החזרה‪.‬‬
‫תרגיל ‪ 2.3.67‬הראה שאם הדגימה היתה עם החזרה‪ ,‬היינו מקבלים התפלגות ∼ ‪X‬‬
‫‪A‬‬
‫‪.Bin(n, N‬‬ ‫)‬
‫הדגימה שלנו היא‪ ,‬כאמור‪ ,‬ללא החזרה‪ .‬המאורע ‪ X = a‬מתרחש כשבוחרים ‪a‬‬
‫מתוך ‪ A‬הכדורים האדומים ו־‪ n − a‬מתוך ‪ B‬הכדורים הכחולים‪ ,‬ולכן‬
‫‪A‬‬
‫ ‪ B‬‬
‫‪a‬‬ ‫‪n−a‬‬
‫= )‪P (X = a‬‬ ‫‪N‬‬
‫‬ ‫‪.‬‬
‫‪n‬‬

‫‪PA‬‬ ‫‪A‬‬
‫‬ ‫‪B‬‬
‫‬ ‫‪N‬‬
‫‬
‫‪.‬‬ ‫‪a=0‬‬ ‫‪a‬‬ ‫‪n−a‬‬
‫=‬ ‫‪n‬‬
‫תרגיל ‪ 2.3.68‬תן הסבר קומבינטורי לכך ש־‬
‫את התוחלת אפשר לחשב באמצעות משתנים מציינים ‪ ,X1 , . . . , Xn‬המוגדרים כך‬
‫‪A‬‬
‫‪ E(Xi ) = A+B‬לכל ‪ .i‬המשתנים‬ ‫ש־‪ Xi = 1‬אם ורק אם הכדור ה־‪ i‬הוא אדום‪ .‬כך‬
‫‪nA‬‬
‫‪ Xi‬תלויים זה בזה‪ ,‬ובכל־זאת ל־ ‪ X = X1 + · · · + Xn‬יש תוחלת ‪ .E(X) = N‬מכיוון‬
‫‪.V(X) = nAB(N‬‬ ‫)‪−n‬‬
‫)‪N 2 (N −1‬‬
‫‪ ,Cov(Xi , Xj ) = N 2−AB‬ולכן‬
‫)‪(N −1‬‬
‫)‪,E(Xi Xj ) = NA(A−1‬‬
‫)‪(N −1‬‬
‫ש־‬
‫הערה ‪ 2.3.69‬תהי ‪ Ω‬קבוצה סופית‪ ,‬ותהי ‪ .S ⊆ Ω‬אם מגרילים קבוצה ‪ T ⊆ Ω‬בגודל ‪,n‬‬
‫אז )|‪.|S ∩ T | ∼ Hyp(n; |S|, |Ω| − |S‬‬
‫אין צורך להניח שקבוצה אחת קבועה במקומה‪ :‬תהי ‪ Ω‬קבוצה סופית‪ .‬אם מגרילים‬
‫קבוצות ‪ S, T ⊆ Ω‬כך ש־‪ ,|T | = m ,|S| = n‬אז )‪.|S ∩ T | ∼ Hyp(n; m, |Ω| − m‬‬
‫מן התאור האחרון עולה שההתפלגויות )‪.Hyp(A; n, A + B − n) ,Hyp(n; A, B‬‬
‫בדומה לזה‪ ,‬אם )‪ X ∼ Hyp(n; A, B‬אז מספר הכדורים הכחולים הוא ‪,n − X‬‬
‫שהתפלגותו )‪.Hyp(n; B, A‬‬
‫אם ‪ N‬גדול מאד‪ ,‬ההבדל בין דגימה עם החזרה לדגימה בלי החזרה הולך ומטשטש‪.‬‬
‫‪A‬‬
‫‪Hyp(n; θA, θB)→Bin(n, A+B‬‬ ‫תופעה זו מודגמת כאשר משכפלים את הרכב הכד‪) :‬‬
‫כש־∞→‪.θ‬‬

‫‪62‬‬
‫‪ .2.3‬התפלגויות בדידות‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫תרגיל ‪ 2.3.70‬בכד יש ‪ N = A+B +C‬כדורים‪ ,‬בשלושה צבעים‪ .‬נסמן ב־)‪(X, Y, Z‬‬


‫את מספר הכדורים בכל צבע כשבוחרים ‪ n‬כדורים‪.‬‬

‫‪.Y ∼ Hyp(n; B, A + C) ,X ∼ Hyp(n; A, B + C) .1‬‬

‫‪.X + Y ∼ Hyp(n; A + B, C) .2‬‬

‫‪ .3‬חשב את ) ‪.Cov(X, Y‬‬

‫רעיון ‪ 2.3.71‬מספר הדגים באגם קטן אינו ידוע‪ .‬דגים ‪ 1000‬דגים‪ ,‬ומסמנים להם את‬
‫הסנפיר‪ .‬אחרי שבוע דגים שוב ‪ 1000‬דגים‪ .‬נמצאו ‪ 17‬דגים מסומנים‪ .‬הערך את מספר‬
‫הדגים באגם?‬
‫)את השיטה הזו אפשר להפעיל גם קצת אחרת‪ ,‬אם מוסיפים לאגם ‪ 1000‬דגים‬
‫מסומנים‪(.‬‬

‫תרגיל ‪ 2.3.72‬הפרופסור קטרוס שופך לים התיכון כוס של מים סגולים‪ .‬המים‬
‫מתערבבים היטב‪ .‬הערך כמה מולקולות של מים כאלה יהיו בכוס מי ים לאחר‬
‫זמן‪) .‬שטח הים התיכון כ־‪ 2.5‬מליון קמ"ר; עמקו הממוצע כ־‪ 1500‬מ'; נפח הכוס‬
‫כ־‪ 200‬סמ"ק; המשקל האטומי של מים הוא ‪ ;18‬מספר אבוגדרו מוערך ב־ ‪.(6 · 1023‬‬

‫תרגיל ‪ 2.3.73‬בחודש פברואר ‪ 2011‬פגע רעש אדמה בעיר קרייסטצ'רץ' שבניו־‬


‫זילנד‪ ,‬שבה ‪ 390000‬תושבים‪ .‬ברעש נפגעו כ־‪ 100‬אנשים‪ .‬בעיר שהו בעת הרעש‬
‫כ־‪ 200‬ישראלים‪ .‬לכמה נפגעים ישראלים היית מצפה?‬

‫תרגיל ‪ 2.3.74‬במחלקות שונות במפעל יש ‪ 2, 3, 2, 4, 1, 2‬עובדים העונים לקריטריונים‬


‫לפרס מסויים‪ ,‬שיזכו בו ארבעה‪ .‬בסופו של דבר זוכים בפרס ‪1, 1, 2, 0, 0, 0‬‬
‫מועמדים ממחלקות אלה‪ ,‬בהתאמה‪ .‬חשב את הסיכויים לכך שכך יהיה במקרה‪.‬‬

‫תרגיל ‪ 2.3.75‬לאחרונה דווח ) ‪ (www.haaretz.co.il/hasite/spages/1236742.html‬ש"חוקרים ישראלים‬


‫גילו חומר המונע פוסט־טראומה"‪" :‬מחקר ראשוני שבוצע באחרונה בחדר המיון‬
‫במרכז הרפואי שיבא בקרב ‪ 24‬נפגעי תאונות דרכים שהראו סימני חרדה במיון‪,‬‬
‫מצא כי בקרב ‪ 12‬נבדקים שטופלו בהורמון קורטיזול‪ ,‬אחד בלבד פיתח פוסט־‬
‫טראומה‪ ,‬בהשוואה לשלושה בקרב ‪ 12‬הנבדקים שלא טופלו בהורמון וקיבלו טיפול‬
‫דמה"‪ .‬מהו הסיכוי לתוצאה שהתקבלה בניסוי‪ ,‬אם החומר אינו משפיע כלל?‬

‫תרגיל ‪ 2.3.76‬עורכים סדרה של ‪ n‬ניסויי ברנולי בלתי תלויים בעלי סיכוי הצלחה חצי‪.‬‬
‫אחר־כך מבצעים סדרה דומה של ניסויים‪ ,‬באותו אורך‪ .‬מה הסיכויים לכך שבשתי הסדרות‬
‫יהיה אותו מספר הצלחות? הדרכה‪ .‬נסמן את מספרי ההצלחות ב־ ‪ .X, Y‬מכיוון ש־∼ ‪X, Y‬‬
‫‪Pn‬‬ ‫‪n 2 −2n‬‬ ‫‪Pn‬‬ ‫‪n‬‬ ‫‪n‬‬ ‫‪2n‬‬ ‫‪√1‬‬
‫‪= 2−2n‬‬ ‫‪= 2−2n‬‬
‫‬ ‫‬ ‫‬ ‫‬
‫= ) ‪.P (X = Y‬‬ ‫‪k=0 k 2‬‬ ‫‪k=0 k‬‬ ‫‪n−k‬‬ ‫‪n‬‬ ‫≈‬ ‫‪πn‬‬
‫)‪,Bin(n, p‬‬

‫‪63‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.3‬התפלגויות בדידות‬

‫פרדוקס יום ההולדת‬


‫'''פרדוקס יום ההולדת''' הוא כינוי לתופעה מפתיעה‪ :‬כבר בקבוצה של ‪ 23‬אנשים‬
‫)שתאריכי הלידה שלהם מתפלגים באופן אחיד ובלתי תלוי על ‪ 365‬הימים האפשריים(‪,‬‬
‫הסיכוי לכך ששניים חולקים יום־הולדת משותף עולה על ‪ .50%‬עובדה זו נדמית‬
‫כפרדוקס‪ ,‬משום ש־‪ 23‬הוא מספר קטן ביחס ל־‪ .365‬נציג כמה דרכים לנתח את‬
‫התופעה‪.‬‬

‫טענה ‪ 2.3.77‬יהיו ]‪ X1 , . . . , Xm ∼ U[1, m‬משתנים מקריים בדידים בלתי תלויים‪.‬‬


‫)‪m(m−1‬‬
‫ה־ ‪Xi‬־ים שונים זה מזה קטן מ־ ‪ ,e− 2n‬ולכן יורד מתחת לחצי‬ ‫הסיכוי לכך שכל ‪p‬‬
‫כאשר ‪.m ≈ 2 log(2) n‬‬

‫הוכחה‪ .‬כידוע‪ e−x ≥ 1 − x ,‬לכל ‪ x‬ממשי‪ .‬הסיכוי שווה למכפלה‬

‫‪p = 1 · 1 − n1 · 1 − n2 . . . 1 − m−1‬‬
‫‬ ‫‬ ‫‬
‫‪n‬‬
‫‪1‬‬ ‫‪2‬‬ ‫‪m−1‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫‪m−1‬‬ ‫)‪m(m−1‬‬
‫‪< e− n · e− n · · · · · e−‬‬ ‫‪n‬‬ ‫‪= e−( n + n +···+‬‬ ‫‪n‬‬
‫)‬
‫‪= e−‬‬ ‫‪2n‬‬ ‫‪.‬‬

‫‬

‫עבור ‪ ,n = 365‬הסיכוי שלא תהיה אף התנגשות יורד מתחת לחצי כאשר ‪,m ≥ 23‬‬
‫ואכן החסם בטענה ‪ 2.3.77‬הוא ‪.m ≈ 22.5‬‬
‫אם מחשבים במקום זה את תוחלת מספר ההתנגשויות מקבלים תוצאה מאותו סדר‬
‫גודל‪ ,‬עם קבוע מעט שונה‪:‬‬

‫הערה ‪ 2.3.78‬נסמן )עבור ‪ (i < j‬ב־ ‪ ∆ij‬את המשתנה המקרי המציין‪P‬את המאורע‬
‫‪ .Xi = Xj‬אז ) ‪ ,∆ij ∼ b( n1‬ולכן התוחלת של מספר ההתנגשויות ‪ X = i<j ∆ij‬היא‬
‫√‬
‫‪ . n1 m2‬כדי שהתוחלת תגיע ל־‪ 1‬נדרש ‪.m ≈ 2n‬‬
‫‬

‫תרגיל ‪ 2.3.79‬הראה שהמשתנים ‪ ∆ij‬בלתי־תלויים בזוגות‪ .‬מצא תנאי על האינדקסים‬


‫לכך ששלושה משתנים מקבוצה זו יהיו תלויים‪ .‬הצע פירוש בשפה של תורת‬
‫הגרפים לתלות של קבוצה כלשהי של משתנים‪.‬‬

‫להגדיר } ‪ – T = minj {∃i < j : Xi = Xj‬זמן ההמתנה להתנגשות‬


‫הערה ‪ 2.3.80‬אפשר ‪p πn‬‬
‫≈ ) ‪.E(T‬‬ ‫‪2‬‬
‫הראשונה‪ .‬מתברר ש־‬
‫√‬
‫את זמן ההמתנה להתנגשות הראשונה‪ ,O( n) ,‬יש להשוות לזמן עד למילוי כל‬
‫התאים‪ ,‬שחושב בתרגיל ‪ 2.3.54‬להיות ))‪.O(n log(n‬‬

‫תרגיל ‪ 2.3.81‬הערך‪ ,‬מה מספר האנשים שממנו והלאה הסיכוי ששלושה יחלקו יום‬
‫הולדת משותף עולה על ‪?50%‬‬

‫‪64‬‬
‫‪ .2.3‬התפלגויות בדידות‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫הערה ‪ 2.3.82‬בלוטו הישראלי בוחרים ‪ 6‬מספרים מתוך ‪) 37‬נתעלם מן 'המספר הנוסף'(‪.‬‬


‫באוקטובר ‪ 2010‬התקבלו בדיוק אותם המספרים שהתקבלו שמונה הגרלות קודם לכן‪ .‬חשב‬
‫את הסיכוי לאירוע )מהו לדעתך ה'אירוע' הרלוונטי?(‪.‬‬
‫באותו אירוע היו גם חזרות על מספרים; למשל‪ ,‬המספר ‪ 14‬חזר ‪ 6‬פעמים בשמונה‬
‫הגרלות )זהו אירוע מסובך שקשה לחשב את ההסתברות שלו באופן ישיר‪ .‬לפי תוצאות‬
‫סימולציה‪ ,‬הסיכוי לזה בשמונה הגרלות שהוגדרו מראש הוא כ־‪.(1:800‬‬
‫מתברר שהסיכוי לכך שיופיעו בהגרלה נתונה לפחות שני מספרים עוקבים הוא ‪;61%‬‬
‫בכתבה ב־‪ Ynet‬מסביר אחד המהמרים הכבדים ש"הנטייה של מספרים עוקבים לחזור היא‬
‫גדולה מאוד‪ ,‬פרט שאינו מסתדר סטטיסטית בשום אופן"‪.‬‬

‫תרגיל ‪ 2.3.83‬לכל משתתף בכנס מייצרים מספר אישי אקראי‪ ,‬בטווח ]‪ .[1, d‬אם‬
‫משתתפים בכנס ‪ n‬אנשים‪ ,‬מה צריך להיות ‪ d‬כך שהסיכוי להתנגשות יהיה נמוך‬
‫למדי? ואם משתמשים באותה שיטה )עם אותו ‪ (d‬ב־‪ t‬כנסים שונים‪ ,‬כאשר החשש‬
‫מהתנגשות הוא רק בין המשתתפים של אותו כנס?‬

‫תרגיל ‪ 2.3.84‬מייצרים ‪ 3000‬שמות אקראיים לקבצים במערכת יוניקס‪ .‬כל שם‬


‫מורכב משבע אותיות אנגליות הנבחרות באקראי )באופן בלתי תלוי ובהתפלגות‬
‫אחידה( מכל ‪ 26 · 2 = 52‬האפשרויות )מערכת ההפעלה הזו מבחינה בין אותיות‬
‫גדולות וקטנות(‪ .‬אחר־כך מעתיקים את כל הקבצים למערכת חלונות‪ ,‬שבה אין‬
‫הבחנה בין אותיות גדולות לקטנות‪ .‬מה הסיכויים לכך שאחד הקבצים או יותר‬
‫יפגע מהתנגשות?‬

‫‪ 2.3.8‬גרפים מקריים‬
‫המבנה של עצמים קומבינטוריים מקריים )כגון גרפים‪ ,‬עצים‪ ,‬תמורות‪ ,‬פונקציות( הוא‬
‫מודל פשוט להתנהגות של מבנים מסובכים )למשל‪ ,‬מערך החברויות בפייסבוק הוא גרף‬
‫שבו המשתמשים הם קודקודים המחוברים בקשת אם הם חברים‪ .‬הגרף עצמו מסובך‬
‫מאד‪ ,‬וכדי לחקור אותו ממדלים אותו כגרף מקרי בעל תכונות מתאימות(‪ .‬את העצמים‬
‫הקומבינטוריים חוקרים באמצעות מגוון של טכניקות הסתברותיות‪ ,‬מהן בסיסיות ומהן‬
‫מתוחכמות יותר‪.‬‬
‫מרכזית אחת‪'' .‬מודל ‪ Erdös-Renyi‬לגרף מקרי''‬ ‫דוגמא‬ ‫המזלג‬ ‫קצה‬ ‫נציג כאן על‬
‫‪n‬‬
‫‬
‫הוא גרף על ‪ n‬קודקודים‪ ,‬שכל אחת מ־ ‪ 2‬הצלעות האפשרויות שלו קיימת בהסתברות‬
‫‪ ,p‬באופן בלתי תלוי באחרות‪ .‬בחקירת המבנה של גרף כזה מקובל לקבוע את ‪p‬‬
‫כפונקציה של ‪ ,n‬ולתת ל־‪ n‬לשאוף לאינסוף‪.‬‬

‫‪ .1‬כאשר ‪) p = nλ2‬מכאן ולהבא ‪ λ‬קבוע(‪ ,‬מספר הקשתות בגרף סופי )למרות ש־‪n‬‬
‫שואף לאינסוף(‪ .‬הקשתות מעטות כל־כך עד שאינן נפגשות )בהסתברות השואפת‬
‫ל־‪ 1‬כאשר ‪ n‬שואף לאינסוף‪ ,‬וכך בכל טענה בסעיף זה(‪.‬‬

‫‪65‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.4‬מרחב התפלגות כללי‬

‫‪λ‬‬ ‫‪λ‬‬
‫‪p = n4/3‬‬ ‫‪ p = n3/2‬נוצרים בגרף מסלולים באורך ‪ .2‬כאשר‬ ‫‪ .2‬כאשר ‪ p‬עולה ל־‬
‫נוצרים עצים בני שלוש קשתות )מכל הסוגים בבת־אחת(‪ ,‬וכן הלאה‪ .‬כל עוד‬
‫‪ ,np→0‬אין בגרף מעגלים‪.‬‬

‫‪ .3‬אלו נוצרים רק כאשר ‪ ,p = nλ‬ואז יש מעגלים בכל אורך )חסום(‪ .‬כאשר ‪λ < 1‬‬
‫כל מרכיבי הקשירות הם פשוטים )עצים עם קשת נוספת אחת לכל היותר(‪.‬‬
‫הגודל של מרכיבי הקשירות הוא לכל היותר כפולה של )‪ .log(n‬כאשר ‪λ = 1‬‬
‫מתרחש "מעבר פאזה" מסובך )שלא נתאר כאן(‪ .‬מיד אחר־כך‪ ,‬כאשר ‪,λ > 1‬‬
‫יש בגרף מרכיב קשירות ענק‪ ,‬שגודלו כפולה לינארית של ‪ ,n‬ושאר המרכיבים‬
‫עדיין פשוטים‪ .‬בכל השלב הזה יש בגרף קודקודים מבודדים רבים‪ e−λ :‬מכל‬
‫הקודקודים הם מבודדים‪.‬‬

‫)‪ .p = λ log(n‬כמעט כל מרכיבי הקשירות הקטנים נדבקו‬


‫‪n‬‬
‫‪ .4‬העידן הבא מגיע כאשר‬
‫למרכיב הענק זה מכבר‪ .‬יש רק מספר סופי של קודקודים מבודדים‪ ,‬והגרף נעשה‬
‫קשיר כשהאחרון ביניהם מצטרף למרכיב הקשירות הענק‪.‬‬

‫‪ 2.4‬מרחב התפלגות כללי‬


‫עד כאן‪ ,‬מרחב ההתפלגות שלנו היה מרחב סופי או בן־מניה‪ .‬אנו רוצים לטפל גם‬
‫במקרה הכללי‪ ,‬שבו המרחב הוא למשל ]‪ Ω = [0, 1‬או ‪ .Ω = R‬לפני שנציג את ההגדרות‬
‫הדרושות‪ ,‬עלינו להסביר מדוע ההגדרה הבדידה אינה מתאימה למקרה הכללי‪.‬‬

‫‪ 2.4.1‬סיכום על קבוצה שאינה בת־מניה‬


‫בת מניה בעזרת‬
‫באופן נאיבי‪ ,‬אנחנו עלולים לנסות להגדיר הסתברות על קבוצה שאינה‪P‬‬
‫ההגדרה המקורית‪ :‬נדרוש שהפונקציה ‪ P : Ω→R‬תקיים ‪ . P (ω) = 1‬הבעיה היא‬
‫שסכום על פני קבוצת נקודות שאינה בת מניה‪ ,‬אינו יכול להיות סופי‪ :‬אחרת כל‬
‫אחת מהקבוצות }‪ Ωn = {ω : P (ω) > 1/n‬מוכרחה להיות סופית‪ ,‬והרי = ‪∪Ωn‬‬
‫}‪ .{ω : P (ω) 6= 0‬לכן ‪ P‬תהיה אפס מחוץ לקבוצה בת מניה‪.‬‬

‫תרגיל ‪ 2.4.1‬לאור הקשיים בהגדרת התפלגות על קבוצות גדולות‪ ,‬האם יתכן שיש מידת‬
‫הסתברות על ‪ [0, 1] ∩ Q‬שאין בה נקודות מיוחסות )כלומר‪ P (α) = 0 ,‬לכל נקודה ‪α‬‬
‫במרחב(?‬

‫אי־קיומן של מידות אינווריאנטיות‬ ‫‪2.4.2‬‬


‫העובדה שלא ניתן לסכם על קבוצות גדולות מדי מונעת מאיתנו להגדיר את ההסתברות‬
‫ישירות על נקודות‪ .‬אבל בסופו של דבר איננו מעוניינים בנקודות‪ ,‬אלא במאורעות‪,‬‬

‫‪66‬‬
‫‪ .2.4‬מרחב התפלגות כללי‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫ונוכל להגדיר את ההסתברות ישירות עליהם‪ .‬לשם כך נרצה לשמור את האקסיומות‬


‫שבטענה ‪.2.1.8‬‬
‫מתברר שגם נסיון זה אינו עולה יפה‪ .‬נסמן ב־ ‪ S 1‬את הנקודות על מעגל היחידה‪,‬‬
‫שאיבריו הם המספרים המרוכבים )‪ e2πiθ = cos(θ) + i sin(θ‬עבור ‪ .θ ∈ R‬נניח ש־‬
‫‪ P : P(S 1 )→R‬היא פונקציה המקיימת את שתי ההנחות האמורות‪ .‬מכיוון שמטרתנו‬
‫להכליל את מושג אורך הקשת‪ ,‬שאינו מושפע מסיבוב‪ ,‬נניח שגם ‪ P‬היא אינווריאנטית‬
‫לסיבוב‪ :‬לכל ‪ .P (e2πiθ A) = P (A) ,e2πiθ ∈ S 1‬נגדיר יחס שקילות על ‪ x ∼ y :S 1‬אם‬
‫יש ‪ θ ∈ Q‬כך ש־‪ .y = e2πiθ x‬תהי ‪ X‬קבוצה הכוללת נציג אחד בדיוק מכל מחלקת‬
‫שקילות )קיומה של קבוצה כזו דורש את אקסיומת הבחירה(‪ .‬לפי ההנחה‪ ,‬הקבוצה ‪X‬‬
‫זרה לכל הסיבובים שלה ‪ e2πiθ X‬בזוויות רציונליות ]‪ ,θ ∈ Q ∩ [0, 1‬ואיחוד כל הקבוצות‬
‫האלה הוא ‪ .S 1‬לכן‪ ,‬לכאורה‪,‬‬
‫‪X‬‬ ‫‪X‬‬
‫= )‪1 = P (S 1 ) = P (∪θ e2πiθ X‬‬ ‫= )‪P (e2πiθ X‬‬ ‫‪P (X),‬‬
‫]‪θ∈Q∩[0,1‬‬ ‫]‪θ∈Q∩[0,1‬‬

‫אבל זהו סכום בן־מניה על ערך קבוע‪ :‬אם ‪ P (X) = 0‬הסכום הוא אפס‪ ,‬ואם‬
‫‪ P (X) > 0‬הסכום אינסופי‪.‬‬
‫הראינו שלא ניתן להכליל את מידת האורך באופן כזה שתהיה מוגדרת על כל‬
‫תת־הקבוצות של ‪ .S 1‬מתברר שאפשר לפתור את הבעיה אם רק נוותר על ההנחה‬
‫ש־)‪ P (X‬מוגדרת לקבוצות כגון ‪ X‬שבנינו לעיל‪ .‬כדי לפתח את התאוריה‪ ,‬נתמקד‬
‫כמובן בקבוצות שעבורן ‪ P‬כן מוגדרת‪.‬‬
‫הערה ‪ 2.4.2‬לאקסיומת הבחירה המופיעה בדוגמא זו יש מסקנות אבסורדיות עוד יותר‪:‬‬
‫למשל‪ ,‬פרדוקס בנך־טרסקי‪ ,‬המאפשר לפרק את הכדור ל־‪ 10‬חלקים ולהרכיב מחמשת‬
‫הראשונים ומחמשת האחרונים כדורים שלמים‪ .‬כתוצאה מכך‪ ,‬לא קיימת מידה אינווריאנטית‬
‫לסיבובים המוגדרת על כל תת־הקבוצות של פני הכדור ‪.S 2‬‬

‫סיגמא־אלגברות‬ ‫‪2.4.3‬‬
‫הגדרה ‪ 2.4.3‬משפחה )‪ F ⊆ P(Ω‬הכוללת את ‪ Ω‬וסגורה ללקיחת משלים ולאיחוד בן־‬
‫מניה‪ ,‬נקראת ‪σ‬־אלגברה על ‪.Ω‬‬
‫טענה ‪ 2.4.4‬כל ‪σ‬־אלגברה סגורה לפי כללי דה־מורגן לחיתוך בן־מניה‪ ,‬ובפרט גם לאיחוד‬
‫וחיתוך סופי )משפחה הסגורה למשלים ולאיחוד סופי נקראת אלגברה של קבוצות(‪.‬‬
‫דוגמא ‪ 2.4.5‬אוסף הקבוצות הסופיות והקו־סופיות ב־‪ ,R‬כלומר‪ ,‬אלה שהן או סופיות או‬
‫שמשלימותיהן סופיות‪ ,‬הוא אלגברה שאינה ‪σ‬־אלגברה‪.‬‬
‫מאידך‪ ,‬אלגברת בורל שנגדיר בהמשך היא ‪σ‬־אלגברה שאינה סגורה לאיחוד כלשהו‬
‫של קבוצות‪ .‬מכאן שהסגירות לאיחוד בן־מניה חלשה ממש מסגירות לאיחוד כלשהו‪,‬‬
‫אבל חזקה ממש מהסגירות לאיחוד סופי‪.‬‬

‫‪67‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.4‬מרחב התפלגות כללי‬

‫תרגיל ‪ 2.4.6‬תהי )‪σ F ⊆ P(Ω‬־אלגברה על ‪ ,Ω‬ותהי ‪ Y ⊆ Ω‬תת־קבוצה‪ .‬קבע‬


‫את הקשר בין הקבוצות } ‪ {A ∈ F : A ⊆ Y‬ו־} ‪ .{A ∩ Y : A ∈ F‬הוכח שאחת‬
‫מהן היא ‪σ‬־אלגברה על ‪ .Y‬הראה שהן שוות אם ‪.Y ∈ F‬‬

‫תרגיל ‪ 2.4.7‬הוכח שחיתוך משפחה כלשהי של ‪σ‬־אלגברות על ‪ Ω‬הוא ‪σ‬־אלגברה‪.‬‬


‫מכאן שלכל אוסף ‪ T‬קיימת ‪σ‬־אלגברה מינימלית המכילה את ‪ ;T‬זוהי ה־‪σ‬־‬
‫אלגברה הנוצרת על־ידי ‪.T‬‬

‫תרגיל ‪ 2.4.8‬הצפיפות הטבעית על תת־קבוצות ‪ A ⊆ N‬מוגדרת לפי = )‪δ(A‬‬


‫|}‪ ,limn→∞ |A∩{1,...,n‬אם הגבול קיים‪ .‬הראה שאוסף הקבוצות שיש להן צפיפות‬
‫‪n‬‬
‫טבעית סגור לאיחוד וללקיחת משלים‪ ,‬אבל אינו ‪σ‬־אלגברה‪ .‬הראה שלקבוצת‬
‫המספרים שמספר הספרות שלהם זוגי אין צפיפות טבעית‪.‬‬

‫מרחבי הסתברות‬ ‫‪2.4.4‬‬


‫תהי ‪-σ F‬אלגברה על המרחב ‪ .Ω‬פונקציה ‪ P : F →R‬היא אדיטיבית אם לכל ∈ ‪A, B‬‬
‫)‪ ;P (A ∪ B‬ו־‪σ‬־אדיטיבית אם לכל‬‫‪ ,F‬אם ∅ = ‪ A ∩ B‬אז )‪P = P (A) + P (B‬‬
‫‪ A1 , A2 , · · · ∈ F‬זרות בזוגות מתקיים ) ‪.P (∪An ) = n P (An‬‬

‫הגדרה ‪) 2.4.9‬האקסיומטיקה של קולמוגורוב( שלשה סדורה ) ‪ ,(Ω, F , P‬שבה ‪ Ω‬קבוצה‬


‫כלשהי‪ F ⊆ P(Ω) ,‬היא ‪-σ‬אלגברה‪ ,‬ו־ ‪ P : F →R‬נקראת מרחב הסתברות אם מתקיים‪:‬‬

‫‪ P .1‬חיובית )כלומר ‪ P (A) ≥ 0‬לכל ‪;(A ∈ F‬‬

‫‪;P (Ω) = 1 .2‬‬

‫‪σ P .3‬־אדיטיבית‪.‬‬

‫כמובן‪ ∪An ∈ F ,‬מכיוון ש־ ‪ F‬סגורה לאיחוד בן־מניה‪ .‬חושבים על ‪ F‬בתור קבוצת‬


‫המאורעות ‪ -‬דברים שיש משמעות להסתברות שלהם‪ .‬הפונקציה ‪ P‬נקראת פונקציית‬
‫הסתברות‪.‬‬

‫תרגיל ‪ 2.4.10‬אם ‪ P‬פונקציית הסתברות‪ ,‬אז לכל ‪ A ⊂ B‬השייכים ל־ ‪ F‬מתקיים‬


‫)‪.P (B−A) = P (B) − P (A‬‬

‫תרגיל ‪ 2.4.11‬תהי ‪ P : F →R‬פונקציה חיובית ואדיטיבית‪ ,‬ונניח ש־‪.P (Ω) = 1‬‬


‫הראה שהתנאים הבאים שקולים )בכל המקרים מדובר בקבוצות השייכות‬
‫ל־ ‪:(F‬‬

‫‪ P .1‬היא ‪σ‬־אדיטיבית‪.‬‬

‫‪68‬‬
‫‪ .2.4‬מרחב התפלגות כללי‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫‪ .2‬אם · · · ⊆ ‪ B1 ⊆ B2‬שרשרת עולה ב־ ‪ F‬אז ) ‪;P (∪Bn ) = limn→∞ P (Bn‬‬

‫‪ .3‬אם · · · ⊇ ‪ C1 ⊇ C2‬שרשרת יורדת ב־ ‪ F‬אז ) ‪.P (∩Cn ) = limn→∞ P (Cn‬‬

‫כדי להבין טוב יותר את ההבדל בין ההגדרה הנוכחית לקודמת‪ ,‬נעיר שבדוגמאות‬
‫שנראה בעתיד )עם ‪ ,Ω = R‬למשל(‪ ,‬יתקיים ‪ P ({a}) = 0‬לכל ‪ ,a ∈ Ω‬ולכן גם‬
‫‪ P (A) = 0‬לכל ‪ A‬בת־מניה‪ .‬מבחינת תורת ההסתברות )של מרחבים כאלה(‪ ,‬הקבוצות‬
‫בנות המניה אינן קיימות‪.‬‬

‫תרגיל ‪ 2.4.12‬שקול את ההבדל בין 'בלתי אפשרי' )∅ = ‪' ,(A ∩ Ω‬לא רלוונטי'‬
‫)‪' ,(A 6⊆ Ω‬בעל הסתברות לא מוגדרת' )‪ (A 6∈ F ,A ⊆ Ω‬ו'בעל הסתברות אפס'‬
‫)‪.(P (A) = 0‬‬

‫צמצום של מרחב הסתברות ) ‪ (Ω, F , P‬לתת־קבוצה ‪) B‬כאשר ‪ (P (B) > 0‬נעשה‬


‫)‪.P (C|B) = PP (B‬‬
‫)‪(C‬‬
‫כך‪ ,(B, F |B , P (·|B)) :‬כאשר }‪ ,F = {C ∈ F : C ⊆ B‬ו־‬

‫תרגיל ‪ 2.4.13‬הוכח ש־))‪ (B, F |B , P (·|B‬הוא מרחב הסתברות )ראה תרגיל ‪.(2.4.6‬‬

‫בעיית ברטרנד‬ ‫‪2.4.5‬‬


‫חוקר ההסתברות הצרפתי ג'וזף ברטרנד )‪ (1822-1900‬שאל את השאלה הבאה‪ :‬מעבירים‬
‫מיתר אקראי במעגל‪ .‬מה הסיכוי לכך שהוא יהיה ארוך יותר מצלע המשולש שווה‬
‫הצלעות החסום במעגל?‬

‫‪ .1‬אם בוחרים את המיתר דרך נקודות קצה אקראיות‪ ,‬הסיכוי הוא ‪.1/3‬‬

‫‪ .2‬אם מקצים את המיתר במאונך לנקודה אקראית על רדיוס אקראי‪ ,‬הסיכוי הוא‬
‫‪.1/2‬‬

‫‪ .3‬אם בוחרים את נקודת האמצע של המיתר באקראי )שים לב שנקודת האמצע‬


‫קובעת את המיתר(‪ ,‬הוא יהיה ארוך מן הצלע אם ורק אם הנקודה בתוך מעגל‬
‫ברדיוס חצי‪ ,‬ולזה יש הסתברות ‪.1/4‬‬

‫ה'פרדוקס' הזה נועד להדגים דבר אחד‪ :‬אי אפשר לדבר על 'אקראיות' סתם‪,‬‬
‫בלי להגדיר בדיוק באיזו התפלגות מדובר‪ .‬זהו אחד השעורים החשובים ביותר‬
‫בקורס‪ :‬חשובה לא רק האוכלוסיה שממנה בוחרים‪ ,‬אלא גם אופן הבחירה הקובע‬
‫את ההתפלגות‪.‬‬

‫‪69‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.5‬משתנים מקרים רציפים‬

‫‪ 2.5‬משתנים מקרים רציפים‬


‫‪-σ‬אלגברת בורל‬ ‫‪2.5.1‬‬
‫הגדרה ‪ 2.5.1‬ה־‪-σ‬אלגברה על ‪ R‬הנוצרת על־ידי כל הקטעים הפתוחים נקראת אלגברת‬
‫בורל; מסמנים אותה ב־‪.B‬‬
‫טענה ‪ 2.5.2‬אלגברת בורל כוללת את כל הקטעים והקרניים‪ .‬אכן‪ ,‬לכל ‪,a < b‬‬
‫∞∪ = )∞ ‪;(a,‬‬
‫‪n=1 (a, a + n) ∈ B .1‬‬

‫∞∪ = )‪;(−∞, b‬‬


‫‪n=1 (b − n, b) ∈ B .2‬‬

‫‪;[a, ∞) = (−∞, a)c ∈ B .3‬‬


‫‪;(−∞, b] = (b, ∞)c ∈ B .4‬‬
‫‪;[a, b) = [a, ∞) ∩ (−∞, b) ∈ B .5‬‬
‫‪;(a, b] = (a, ∞) ∩ (−∞, b] ∈ B .6‬‬
‫‪;[a, b] = [a, ∞) ∩ (−∞, b] ∈ B .7‬‬
‫‪.{a} = [a, ∞) ∩ (−∞, a] ∈ B .8‬‬
‫‪ B .9‬כוללת את כל הקבוצות בנות־המניה או שמשלימותיהן בנות מניה‪.‬‬
‫טענה ‪ 2.5.3‬אלגברת בורל היא גם ה־‪-σ‬אלגברה הנוצרת על־ידי הקרניים ]‪.(−∞, b‬‬
‫‬ ‫∞∪‪ ,‬ו־ ‪.(a, b) = (−∞, b) ∩ (−∞, a)c‬‬
‫הוכחה‪n=1 (−∞, b − 1/n] = (−∞, b) .‬‬

‫הגדרה ‪ 2.5.4‬יהי ) ‪ (Ω, F , P‬מרחב הסתברות‪ .‬פונקציה ‪ X : Ω→R‬היא משתנה מקרי‪,‬‬


‫אם ‪ X −1 (B) ∈ F‬לכל ‪] .B ∈ B‬פונקציה כזו נקראת מדידה‪[.‬‬
‫לפי טענה ‪ ,2.5.3‬די בכך ש־ ‪ {ω : X(ω) ≤ b} = X −1 ((−∞, b]) ∈ F‬לכל ‪ ,b‬ולפי‬
‫טענה ‪ 2.5.2‬כל הסתברות )‪ P (a < X < b‬מוגדרת באופן דומה‪.‬‬
‫שימו לב שהשאלה אם ‪ X‬הוא משתנה מקרי אינה תלויה כלל בפונקציית ההסתברות‬
‫‪.P‬‬
‫דוגמא ‪ 2.5.5‬לכל פונקציית הסתברות ‪ ,P‬פונקציית הזהות ‪ R→R‬היא משתנה מקרי על‬
‫המרחב ) ‪.(R, B, P‬‬
‫לכל פונקציה רציפה )או בעלת מספר סופי של נקודות אי־רציפות( ‪ ,f‬אם ‪X‬‬
‫משתנה מקרי אז גם )‪ f (X‬משתנה מקרי‪ .‬בנושא זה תעמיקו יותר בקורס על תורת‬
‫המידה‪.‬‬

‫‪70‬‬
‫‪ .2.5‬משתנים מקרים רציפים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫‪ 2.5.2‬פונקציית הצטברות‬
‫הגדרה ‪ 2.5.6‬פונקציה ‪ F : R→R‬שהיא מונוטונית לא יורדת‪ ,‬רציפה מימין‪ ,‬ומקיימת‬

‫‪lim F (x) = 0,‬‬


‫∞‪x→−‬‬

‫‪lim F (x) = 1,‬‬


‫∞→‪x‬‬

‫נקראת פונקציית הצטברות )לפעמים גם פונקציית התפלגות מצטברת(‪.‬‬

‫אנו עוסקים בפונקציות הצטברות בגלל ההתאמה ביניהן לבין משתנים מקריים‪:‬‬

‫טענה ‪ 2.5.7‬יהי ‪ X‬משתנה מקרי על ‪ .R‬אז הפונקציה )‪ FX (b) = P (X ≤ b‬היא‬


‫פונקציית הצטברות‪.‬‬

‫‪T‬‬
‫‬ ‫‪.‬‬ ‫‪n (−∞, b‬‬ ‫הוכחה‪ .‬הרציפות מימין נובעת מזה ש־ ]‪+ 1/n] = (−∞, b‬‬

‫טענה ‪ 2.5.8‬תהי ‪ FX‬פונקציית הצטברות‪ .‬אז )‪ P (X ≤ b) = F (b‬מגדיר משתנה מקרי‬


‫על ‪.R‬‬

‫מאיחוד הקטעים )‪ ,(−∞, b − 1/n‬נובע ש־‬

‫)‪(2.6‬‬ ‫‪P (X = b) = F (b) − lim− F (x).‬‬


‫‪x→b‬‬

‫מסקנה ‪ F 2.5.9‬רציפה אם ורק אם ‪ P (X = b) = 0‬לכל ‪.b‬‬

‫‪ .1‬לפונקציית הצטברות יש לכל היותר מספר בן מניה של נקודות אי־‬ ‫הערה ‪2.5.10‬‬
‫רציפות )זה נובע מנוסחה )‪.((2.6‬‬

‫‪ .2‬קבוצת נקודות אי־הגזירות הוא ממידה אפס )משפט לבג(‪.‬‬

‫‪ .3‬מאידך יתכן שיהיו ‪ ℵ‬נקודות אי־גזירות )פונקציית קנטור(‪.‬‬

‫‪71‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.5‬משתנים מקרים רציפים‬

‫פונקציית צפיפות‬ ‫‪2.5.3‬‬


‫∞‪R‬‬
‫נקראת פונקציית‬ ‫∞‪−‬‬
‫הגדרה ‪ 2.5.11‬פונקציה חיובית ‪ f : R→R‬כך ש־ ‪f (x)dx = 1‬‬
‫צפיפות‪.‬‬

‫‪Rb‬‬
‫פונקציית צפיפות מאפשרת להגדיר פונקציה ‪ ,F (b) = −∞ f (t)dt‬שהיא פונקציית‬
‫הצטברות גזירה בכל נקודה‪ .‬זו‪ ,‬בתורה‪ ,‬מגדירה משתנה מקרי בעל סיכוי אפס לכל‬
‫נקודה‪ .‬להיפך‪ ,‬בנקודות שבהן ‪ F‬גזירה‪ ,‬מתקיים )‪ ,f (b) = F ′ (b‬וזה מגדיר פונקציית‬
‫צפיפות‪.‬‬
‫פונקציית צפיפות מספקת תאור יעיל של המשתנה‪ ,‬ואפשר לחשב ממנה את כל‬
‫התכונות שלו‪ .‬הצפיפות מתארת את הסיכוי של המשתנה לקבל ערך בקטע קטן‪:‬‬
‫סביר יותר ליפול לקטע הכולא ערכי צפיפות גדולים מאשר לכזה הכולא ערכים קטנים‪.‬‬
‫בניסוי שבו "מרססים" נקודות על פי ההתפלגות‪ ,‬צפיפות הנקודות תהיה פרופורציונלית‬
‫לפונקציית הצפיפות )זוהי מסקנה מהחוק החלש של המספרים הגדולים‪ ,‬משפט ‪.(2.10.1‬‬

‫תוחלת ושונות‬ ‫‪2.5.4‬‬


‫התוחלת של משתנה מקרי ‪ X‬עם צפיפות ‪ fX‬מוגדרת לפי‬

‫‪Z‬‬ ‫∞‬
‫= )‪E(X‬‬ ‫‪fX (t)tdt,‬‬
‫∞‪−‬‬

‫שהאינטגרל הזה מתכנס‪ .‬באופן כללי יותר‪ ,‬התוחלת של פונקציה )‪ g(X‬היא‬


‫∞‪R‬‬ ‫בתנאי‬
‫‪.E(g(X)) = −∞ fX (t)g(t)dt‬‬
‫השונות מוגדרת כרגיל‪.V(X) = E(X 2) − E(X)2 :‬‬

‫טענה ‪ 2.5.12‬יהי ‪ X‬משתנה מקרי המקבל ערכים חיוביים‪ .‬אז‬


‫‪Z‬‬ ‫∞‬
‫= )‪E(X‬‬ ‫‪(1 − FX (t))dt‬‬
‫‪0‬‬

‫כאשר )‪ FX (x) = P (X ≤ x‬היא פונקציית ההצטברות‪.‬‬

‫‪72‬‬
‫‪ .2.5‬משתנים מקרים רציפים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫הוכחה‪ .‬מבצעים החלפות משתנים‪:‬‬


‫‪Z‬‬ ‫∞‬
‫= )‪E(X‬‬ ‫‪tfX (t)dt‬‬
‫‪0‬‬
‫‪Z ∞Z t‬‬
‫=‬ ‫‪fX (t)dsdt‬‬
‫‪0‬‬ ‫‪0‬‬
‫∞ ‪Z ∞Z‬‬
‫=‬ ‫‪fX (t)dtds‬‬
‫‪0‬‬ ‫‪s‬‬
‫∞ ‪Z‬‬
‫=‬ ‫‪P (X > s)ds‬‬
‫‪0‬‬
‫∞ ‪Z‬‬
‫=‬ ‫‪(1 − FX (s))ds.‬‬
‫‪0‬‬

‫‬
‫תרגיל ‪ 2.5.13‬הראה כיצד מכלילה טענה ‪) 2.5.12‬על הקשר בין התוחלת לפונקציית ההצטברות(‬
‫את טענה ‪) 2.3.57‬על קשר דומה במקרה הבדיד(‪.‬‬
‫תרגיל ‪ 2.5.14‬חזור לבעיית ברטרנד )סעיף ‪ (2.4.5‬והראה שתוחלת האורך של‬
‫המיתר האקראי היא ‪ π2 , π4‬או ‪ , 43‬בהתאמה לאופן ההגרלה שלו‪ :‬אם קובעים‬
‫נקודת קצה ומגרילים נקודת קצה שניה באופן אחיד על היקף המעגל‪ ,‬אם מרחקו‬
‫מהראשית מתפלג אחיד‪ ,‬או אם נקודת המרכז שלו מתפלגת באופן אחיד במעגל‪.‬‬
‫תרגיל ‪) 2.5.15‬אפקט הספגטי ‪ -‬גרסה בדידה( מספר הילדים במשפחה‪ ,‬שנסמן ב־‪,X‬‬
‫מתפלג לפי התפלגות מסויימת‪ .‬שואלים ילד אקראי כמה ילדים במשפחה שלו‪.‬‬
‫ שאותה נסמן ב־̂‪ ,X‬היא בעלת התפלגות שונה משל ‪;X‬‬ ‫הסבר מדוע התשובה‪,‬‬
‫)‪V(X‬‬ ‫‪P (X=k)k‬‬
‫‪.E(X̂) = E(X) +‬‬ ‫)‪E(X‬‬
‫ש־‬ ‫= ‪ .P X̂ = k‬הסק‬ ‫)‪E(X‬‬
‫ש־‬ ‫הראה‬
‫כעת נניח ש־) ‪ Y ∼ Bin(X, 12‬הוא מספר הבנים במשפחה‪ .‬הראה שבתוחלת‪,‬‬
‫מספר האחים של בן אקראי‪ ,‬לרבות הוא־עצמו‪ ,‬גדול ממספר הבנים במשפחה‬
‫)‪V(X‬‬
‫)‪ , 2E(X‬בעוד שמספר האחיות של בן אקראי גדול ממספר הבנות‬ ‫אקראית ב־ ‪+ 12‬‬
‫)‪V(X‬‬
‫)‪. 2E(X‬‬ ‫במשפחה אקראית ב־ ‪− 12‬‬
‫תרגיל ‪) 2.5.16‬אפקט הספגטי ־ גרסה רציפה( בקערה ענקית יש אטריות ספגטי שהאורך‬
‫שלהן מתפלג לפי פונקציית צפיפות ‪ ,f‬עם תוחלת ‪ .µ‬כשדוגמים אטריה‪ ,‬היא‬
‫מתקבלת בהסתברות פרופורציונלית לאורך שלה‪ :‬אם אטריה אחת ארוכה מהשניה‬
‫פי ‪ ,k‬אז הסיכוי ששיני המזלג יינעצו דווקא בה גדול פי ‪.k‬‬
‫‪1‬‬
‫= )‪ .g(t‬מצא את‬ ‫‪µ‬‬
‫‪f (t)t‬‬ ‫‪ .1‬הוכח שלאורך של אטריה נדגמת יש צפיפות‬
‫תוחלת האורך של אטריה נדגמת‪.‬‬

‫‪73‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.5‬משתנים מקרים רציפים‬

‫‪ .2‬חשוב מה יקרה אם להתפלגות ‪ f‬יש תוחלת אינסופית‪.‬‬


‫‪ .3‬הצע שיטה לאמוד את ‪ µ‬על־ידי דגימת אטריות )ראה סעיף ‪.(3.1.1‬‬

‫התפלגות משותפת‬ ‫‪2.5.5‬‬


‫פורמלית‪ ,‬כדי לטפל בזוגות של משתנים מקריים עלינו להכליל את אלגברת בורל אל‬
‫המרחב ‪ .R2‬ההכללה אינה מסובכת‪ ,‬אבל לא ניגע בה כאן‪.‬‬
‫הגדרה ‪ 2.5.17‬פונקציית צפיפות משותפת של שני משתנים מקריים ממשיים היא פונקציה‬
‫‪ ,f : R2 →R‬חיובית‪ ,‬המקיימת‬
‫∞ ‪Z ∞Z‬‬
‫‪f (x, y)dxdy = 1.‬‬
‫∞‪−‬‬ ‫∞‪−‬‬

‫‪R‬‬
‫תהי ‪ fX,Y‬פונקציית הצפיפות המשותפת של ‪ R.X, Y‬הפונקציה ‪fX (x) = fX,Y (x, y)dy‬‬
‫היא הצפיפות השולית של ‪ ,X‬ובדומה ‪ fY (y) = fX,Y dx‬היא הצפיפות השולית של‬
‫‪.Y‬‬
‫הערה ‪ 2.5.18‬נניח ש־ ‪ fX,Y‬היא פונקציית הצפיפות המשותפת של ‪ ,X, Y‬ו־ ‪ fX‬הצפיפות‬
‫השולית של ‪ .X‬לכל ‪,x‬‬
‫)‪fX,Y (x, y‬‬
‫= )‪fY |X=x (y‬‬
‫)‪fX (x‬‬
‫היא הצפיפות המותנית של ‪) Y‬בהנתן ‪ ,(X = x‬ובדומה עבור ‪) .X‬שימו לב לדמיון של‬
‫נוסחה זו לחוק בייס )‪.((2.3‬‬
‫גם להיפך‪ :‬אם לכל ‪ x‬ידוע ש־‪ Y |X = x‬הוא בעל צפיפות )·( ‪ ,gx‬אז הצפיפות‬
‫המשותפת היא )‪ ,fX,Y (x, y) = fX (x)gx (y‬ולכן הצפיפות של ‪ Y‬היא‬
‫‪Z‬‬
‫‪fY (y) = fX (x)gx (y)dx.‬‬

‫נוסחה זו היא האנלוג הרציף של נוסחת ההסתברות השלמה )‪.(2.2‬‬


‫דוגמא ‪ 2.5.19‬שוברים מקל שאורכו יחידה אחת‪ ,‬בנקודה אקראית ‪) X‬עם התפלגות‬
‫אחידה(‪ .‬את החלק שאורכו ‪ X‬שוברים שוב בנקודה אקראית )עם התפלגות אחידה(‪ ,‬כך‬
‫שמתקבלים חלקים באורך ‪ .A, X − A‬מה ההתפלגות של ‪ X‬בהנתן ‪ ?A‬והתוחלת?‬
‫פתרון‪ .‬לפי ההנחה‪ ,‬הצפיפות של ‪ X‬היא ‪ fX (x) = 1‬בקטע ‪ .0 ≤ x ≤ 1‬בהנתן‬
‫‪ fA|X=x (a) = x1 ,X = x‬בקטע ‪ .0 ≤ a ≤ x‬לכן ‪fA,X (a, x) = fX (x)fA|X=x (a) = x1‬‬
‫‪R1‬‬
‫בתחום ‪ .0 ≤ a ≤ x ≤ 1‬לכן פונקציית הצפיפות של ‪ A‬היא = ‪fA (a) = a fA,X (a, x)dx‬‬
‫‪f‬‬ ‫)‪(a,x‬‬ ‫‪1‬‬ ‫‪1‬‬
‫‪R1‬‬
‫‪ .fX|A=a(x) = A,X‬מכאן ש־‬ ‫)‪fA (a‬‬
‫)‪= − log(a‬‬ ‫‪x‬‬
‫)‪ . a x1 dx = − log(a‬לכל ‪,a‬‬
‫‪R1‬‬ ‫‪R1 1‬‬
‫)‪.E(X|A = a) = a fX|A=a (x)xdx = a − log(a‬‬ ‫‪dx = − 1−a‬‬
‫)‪log(a‬‬

‫‪74‬‬
‫‪ .2.5‬משתנים מקרים רציפים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫תרגיל ‪ 2.5.20‬שוברים מקל שאורכו ‪ 1‬בנקודה אקראית )בעלת התפלגות אחידה(‪.‬‬


‫אחר־כך שוברים כל אחד מהחלקים בנקודה אקראית‪ ,‬וחוזרים על תהליך זה ‪n‬‬
‫פעמים‪ ,‬כך שמתקבלים ‪ 2n‬חלקים‪ .‬מהו מקדם המתאם בין שני חלקים מן הדור‬
‫ה־‪ ,n‬שנפרדו זה מזה בדור ה־‪ ?m‬הראה ששני חלקים שנפרדו בדור הראשון‬
‫או השני מתחרים זה בזה )המקדם שלילי(‪ ,‬ואילו שני חלקים שהיו יחד בדור השני‬
‫)כלומר הגיעו מאותו רבע( הם שותפים )המקדם חיובי(‪.‬‬

‫אי־תלות‬
‫דוגמא ‪ 2.5.21‬לכל שתי פונקציות צפיפות ‪ ,fX , fY‬הפונקציה )‪(x, y) 7→ fX (x)fY (y‬‬
‫היא פונקציית צפיפות משותפת‪.‬‬

‫הגדרה ‪ X, Y 2.5.22‬בלתי תלויים אם )‪.fX,Y (x, y) = fX (x)fY (y‬‬

‫טענה ‪ 2.5.23‬התנאים הבאים שקולים‪:‬‬


‫‪ X, Y .1‬בלתי תלויים;‬
‫‪ .2‬קיימות פונקציות ‪ g1 , g2‬כך ש־)‪;fX,Y (x, y) = g1 (x)g2 (y‬‬
‫‪ .3‬לכל ‪;fY |X=x = fY |X=x′ ,x, x′‬‬
‫‪ .4‬לכל ‪.fX|Y =y = fX|Y =y′ ,y, y ′‬‬

‫‪ 2.5.6‬המקרה המעורב‬
‫אפשר לטפל בהתפלגות המשותפת של שני משתנים מקריים‪ ,X, T ,‬גם כאשר אחד מהם‬
‫רציף והשני בדיד‪.‬‬
‫נראה‪ ,‬לדוגמא‪ ,‬כיצד להפוך הסתברויות במקרה שבו לכל ‪ ,n‬המשתנה המקרי‬
‫המותנה ‪ T |X = n‬הוא בעל פונקציית צפיפות‪.fT |X=n (t) ,‬‬
‫הערה ‪ 2.5.24‬נניח ש־ ‪ T‬משתנה מקרי רציף‪ ,‬ושלכל ‪ t‬נתונה ההתפלגות )הבדידה( של‬
‫‪.fT |X=k (t) = P (X=k|T‬‬ ‫)‪=t‬‬
‫)‪P (X=k‬‬
‫‪ .X|T = t‬אז הצפיפות של ‪ T‬בהנתן ‪ X = k‬היא‬
‫‪Rt‬‬
‫)‪P (X=k,T ≤t‬‬ ‫)‪P (X=k|T ≤t)P (T ≤t‬‬ ‫‪P (X=k|T =s)ds‬‬
‫= )‪,P (T ≤ t|X = k‬‬ ‫)‪P (X=k‬‬
‫=‬ ‫)‪P (X=k‬‬
‫)‪= −∞ P (X=k‬‬ ‫אכן‪,‬‬
‫והצפיפות מתקבלת מגזירה ביחס ל־‪.t‬‬

‫הערה ‪ 2.5.25‬האינטגרל הבא שימושי מפעם לפעם; אפשר להוכיח אותו באינדוקציה על‬
‫‪Z 1‬‬ ‫‪.n‬‬
‫‪k‬‬ ‫‪n−k‬‬ ‫!)‪k!(n − k‬‬
‫= ‪x (1 − x) dx‬‬
‫‪0‬‬ ‫!)‪(n + 1‬‬

‫‪75‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.5‬משתנים מקרים רציפים‬

‫תרגיל ‪) 2.5.26‬אמידה בשיטת בייס‪ :‬משתנה בינומי בעל הסתברות לא ידועה( נניח שמאורע‬
‫מתרחש בהסתברות קבועה אבל לא ידועה‪ .‬יש הטוענים שכאשר ההסתברות‬
‫אינה ידועה‪ ,‬הבחירה הטבעית היא להניח שיש לו התפלגות אחידה‪.‬‬
‫המודל המתאים הוא שהמשתנה ]‪ P ∼ U[0, 1‬הוא פרמטר בעל התפלגות‬
‫וההתפלגות של ‪ X‬בהנתן ‪ P‬נתונה על־ידי ) ‪ .X ∼ Bin(n, P‬כלומר‪ ,‬לכל‬ ‫אחידה‪,‬‬
‫‪.P (X = k|P = p) = nk pk (1 − p)n−k ,p‬‬
‫‬

‫‪ .1‬הראה ש־‪ X‬מתפלג באחידות על הערכים ‪ .0, . . . , n‬רמז‪ .‬העזר באינטגרל‬


‫ ‪R1‬‬
‫‪. 0 nk pk (1 − p)n−k dp = n+1‬‬
‫‪1‬‬

‫‪ .2‬כתוב את הצפיפות המותנית )‪.fP |X=k (p‬‬


‫‪n k‬‬
‫)‪.fP |X=k (p) = (n + 1‬‬ ‫‪k p (1‬‬ ‫פתרון‪− p)n−k .‬‬

‫‪k+1‬‬
‫‪) E(P |X = k) = n+2‬עובדה זו קרויה אומד בייסיאני של ‪ .(P‬פתרון‪.‬‬ ‫‪ .3‬הוכח ש־‬
‫על־פי הערות ‪ 2.5.24‬ו־‪,2.5.25‬‬
‫‪1‬‬ ‫‪1‬‬ ‫ ‬
‫‪n k+1‬‬
‫‪Z‬‬ ‫‪Z‬‬
‫= )‪E(P |X = k‬‬ ‫= )‪fP |X=k (p‬‬ ‫)‪(n + 1‬‬ ‫‪p (1 − p)n−k dp‬‬
‫‪0‬‬ ‫‪k‬‬
‫ ‪ Z 1 0‬‬
‫‪(n + 1) nk‬‬ ‫‪n + 1 k+1‬‬
‫=‬ ‫‪n+1‬‬ ‫‪p (1 − p)n−k dp‬‬
‫‪k‬‬ ‫‪+‬‬ ‫‪1‬‬
‫‬
‫‪k+1‬‬ ‫‪0‬‬
‫‪n‬‬
‫‪(n + 1) k‬‬ ‫‪k+1‬‬
‫=‬ ‫‪n+1 = n + 2 .‬‬
‫‬
‫‪(n + 2) k+1‬‬

‫‪ .4‬שחקן משתתף בתוכנית הגרלות‪ .‬מאחר שאף אחד מעשרת הכרטיסים‬


‫שקנה לא זכה בפרס‪ ,‬הוא מעריך )על פי הסעיף הקודם( שהסיכוי לזכות‬
‫‪1‬‬
‫‪ . 11‬שותפו טוען שזה הסיכוי שלא לזכות בפרס הגדול דווקא )בהגרלה‬ ‫הוא‬
‫אפשר לזכות בחמישה פרסים שונים(‪ ,‬ולכן הסיכוי לזכות *בפרס הגדול*‬
‫‪1‬‬
‫‪ . 11‬לא יתכן ששניהם צודקים‪ .‬מה דעתך?‬ ‫הוא כ־‬

‫תרגיל ‪ 2.5.27‬במשחק טניס ההכרעה מתקבלת לפי רוב הנצחונות בחמש מערכות‪.‬‬
‫בכל מערכה‪ ,‬הסיכוי של שחקן א' לנצח את שחקן ב' הוא ‪ ,P‬באופן בלתי תלוי‬
‫במערכות האחרות‪ ,‬כאשר ]‪ .P ∼ U[0, 1‬נניח ששחקן א' ניצח בשתי המערכות‬
‫הראשונות‪ .‬מה הסיכוי שלו לנצח במשחק כולו?‬
‫)לפי כתבה שהתפרסמה בניו־יורק טיימס‪ ,‬ראו ‪,http://www.haaretz.co.il/sport/other/.premium-1.2330828‬‬
‫"ב־‪ 94%‬מהמשחקים בשלושת הסיבובים הראשונים של הרולאן גארוס בשנה‬
‫שעברה ניצח השחקן שהוביל ‪ 0 − 2‬במערכות"‪ .‬התשובה לתרגיל זה היא ‪(.95%‬‬

‫‪76‬‬
‫‪ .2.5‬משתנים מקרים רציפים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫תרגיל ‪ 2.5.28‬כמו בתרגיל ‪ ,2.5.27‬שני שחקנים משחקים ‪ 2n + 1‬מערכות בלתי‬


‫תלויות‪ ,‬והנצחון נקבע בשיטת הרוב‪ .‬הסיכוי של השחקן הראשון לנצח בכל משחקון‬
‫)באופן בלתי תלוי( הוא ‪ ,P‬כאשר ]‪ .P ∼ U[0, 1‬מהם סיכויי השחקן לנצח במשחק‬
‫)כלומר‪ ,‬לצבור רוב ב־‪ 2n + 1‬המערכות( אם הוא ניצח במערכה הראשונה?‬
‫‪. 3n+2‬‬
‫פתרון‪4n+2 .‬‬

‫וכעת דוגמא שבה טיפוסי המשתנים הפוכים‪:‬‬

‫‪ ,X‬ואילו ∼ ‪Y |X‬‬ ‫תרגיל ‪) 2.5.29‬משתנה פואסוני בעל פרמטר מעריכי( נניח ש־)‪∼ Exp(µ‬‬
‫‪R ∞ −x n‬‬ ‫‪1‬‬
‫‪ .Y + 1 ∼ G( 1+µ‬הדרכה‪P (Y = n) = 0 e n!x µ1 e−x/µ dx = .‬‬ ‫)‪ .Poi(X‬הוכח ש־)‬
‫‪1‬‬ ‫‪µ n‬‬
‫‪. 1+µ‬‬ ‫‪( 1+µ‬‬ ‫)‬

‫‪ 2.5.7‬סטטיסטיי הסדר‬
‫ראו תת־סעיף ‪ ,2.6.1‬שבו מוצגים סטטיסטיי הסדר של ההתפלגות האחידה‪.‬‬

‫טרנספורמציה של משתנה‬ ‫‪2.5.8‬‬


‫המקרה החד־ממדי‬
‫אם ‪ h : R→R‬פונקציה הפיכה ו־)‪ Y = h(X‬אז הצפיפות של ‪ Y‬היא = ))‪fY (h(t‬‬
‫‪.fX (t)h′ (t)−1‬‬

‫העזר‬ ‫הדרכה‪.‬‬ ‫תרגיל ‪ 2.5.30‬הוכח את הטענה למקרה ש־‪ h‬מונוטונית עולה‪.‬‬


‫בפונקציית ההצטברות‪.‬‬

‫דוגמא ‪.faX (t) = a−1 fX (a−1 t) 2.5.31‬‬

‫דוגמא ‪ .X ∼ U[0, 1] 2.5.32‬חשב את הצפיפות של ‪.Y = − log X‬‬

‫המקרה הדו־ממדי‬
‫תהי ) ‪ h = (h1 , h2‬פונקציה הפיכה מתחום פתוח במישור לתחום פתוח אחר )תחום‬
‫פתוח הוא קבוצה הכוללת‪ ,‬סביב כל נקודה‪ ,‬עיגול ברדיוס חיובי כלשהו; באופן טיפוסי זו‬
‫קבוצה המוגדרת!על־ידי אי־שוויונים מהצורה ‪ .(ϕ(x, y) > 0‬נניח שהנגזרות החלקיות‬
‫‪∂h1‬‬ ‫‪∂h1‬‬
‫‪∂x‬‬ ‫‪∂y‬‬
‫‪ ,Jh (t, s) = det‬כשהנגזרות מחושבות בנקודה )‪;(x, y‬‬ ‫‪∂h2‬‬ ‫‪∂h2‬‬ ‫קיימות‪ ,‬ונגדיר‬
‫‪∂x‬‬ ‫‪∂y‬‬
‫זהו היעקוביאן של ‪.h‬‬

‫‪77‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.6‬התפלגויות רציפות חשובות‬

‫כאשר מגדירים משתנים מקריים חדשים ) ‪ ,(U, V ) = h(X, Y‬הצפיפות המשותפת‬


‫היא ‪ .fU,V (h(x, y)) = fX,Y (x, y)Jh (x, y)−1‬הסיבה לכך היא כלל החלפת המשתנים‪,‬‬
‫שאפשר לתאר באופן סכימטי כך‪:‬‬
‫‪Z‬‬ ‫‪Z‬‬
‫= ‪f (h(u))du‬‬ ‫‪f (x)J −1 (x)dx.‬‬
‫‪D‬‬ ‫)‪h(D‬‬

‫דוגמא ‪ 2.5.33‬נניח ש־ ‪ X, Y‬משתנים מקריים בלתי תלויים בעלי צפיפויות ‪ .fX , fY‬אפשר‬
‫להגדיר ‪ U = X + Y‬ו־ ‪ ;V = Y‬אז ‪ ,J = 1‬והצפיפות המשותפת של ‪ X + Y, Y‬היא‬
‫)‪ .fX+Y,Y (u, v) = fX,Y (u − v, v) = fX (u − v)fY (v‬הצפיפות השולית של ‪X + Y‬‬
‫היא‪ ,‬לפי ההגדרה‪,‬‬
‫‪Z‬‬ ‫‪Z‬‬
‫‪fX+Y (u) = fX+Y,Y (u, v)dv = fX (u − v)fY (v)dv.‬‬

‫זוהי הקונוולוציה של ‪ .fX , fY‬השווה לדוגמא ‪.2.2.20‬‬


‫√‬
‫דוגמא ‪ X, Y ∼ U[0, 1] 2.5.34‬בלתי תלויים; נגדיר ‪ U = cos(2πX) −2 log Y‬ו־‬
‫‪1‬‬ ‫‪2‬‬ ‫‪2‬‬ ‫√‬
‫‪ Jh = −2π‬והרי ) ‪ .y = e− 2 (u +v‬לכן ‪ U, V‬בלתי‬
‫‪y‬‬
‫אז‬ ‫‪.V‬‬ ‫=‬ ‫)‪sin(2πX‬‬ ‫‪−2 log Y‬‬
‫תלויים; בהמשך נראה שהם מתפלגים התפלגות הנקראת ''נורמלית''‪.‬‬

‫התפלגויות רציפות חשובות‬ ‫‪2.6‬‬


‫‪ 2.6.1‬התפלגות אחידה‬
‫אומרים ש־‪ X‬מתפלג התפלגות אחידה בקטע ]‪) [a, b‬וכותבים ]‪ (X ∼ U[a, b‬אם‬
‫‪1‬‬
‫‪ .fX (t) = b−a‬שימו לב שהסימון זהה לזה של ההתפלגות האחידה הבדידה‪,‬‬ ‫)‪I[a,b] (t‬‬
‫ויש לפענח לאיזו התפלגות מתכוונים מן ההקשר‪.‬‬
‫‪2‬‬
‫)‪.V(X) = (b−a‬‬
‫‪12‬‬
‫‪ ,E(X) = a+b‬ו־‬
‫‪2‬‬
‫קל לחשב ש־‬

‫טענה ‪ 2.6.1‬אם ‪ X‬הוא משתנה מקרי בעל פונקציית הצטברות רציפה ‪ ,F‬אז )‪F (X‬‬
‫מתפלג ]‪.U[0, 1‬‬

‫הוכחה‪ .‬מכיוון ש־ ‪ F‬מונוטונית עולה‪,‬‬

‫;‪P (F (X) ≤ a) = P (X ≤ F −1 (a)) = F (F −1(a)) = a‬‬

‫‬ ‫כאן }‪.F −1 (a) = inf t {F (t) = a‬‬

‫‪78‬‬
‫‪ .2.6‬התפלגויות רציפות חשובות‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫טענה ‪ 2.6.2‬תהי ‪ F‬פונקציית הצטברות רציפה‪ .‬נניח ש־]‪ .U ∼ U[0, 1‬אז )‪ F −1 (U‬בעל‬
‫ההתפלגות ‪.F‬‬

‫שילוב שתי הטענות מאפשר לעבור מכל התפלגות רציפה לכל התפלגות רציפה‬
‫אחרת‪ ,‬תוצאה בעלת חשיבות מרכזית בהדמיה‪:‬‬

‫תרגיל ‪ 2.6.3‬תהיינה ‪ F, G‬שתי פונקציות הצטברות רציפות‪ .‬אם ‪ F‬היא פונקציית‬


‫ההצטברות של משתנה מקרי ‪ ,X‬אז ‪ G‬היא פונקציית ההצטברות של )‪.G−1 F (X‬‬

‫תרגיל ‪ 2.6.4‬עיין במושגים "התפלגות אחידה על הרציונליים בקטע סגור"‪ ,‬או "משתנה בעל‬
‫התפלגות אחידה ]‪ U[0, 1‬המקבל רק ערכים רציונליים"‪ ,‬לאור תרגיל ‪.2.4.1‬‬

‫סטטיסטיי הסדר‬
‫אם ‪ X1 , . . . , Xn‬משתנים מקריים‪ ,‬סטטיסטיי הסדר הם אותם ערכים‪ ,‬לאחר סידור‬
‫מחדש‪ ,‬כך ש־ )‪ .X(1) ≤ · · · ≤ X(n‬למשל‪.X(n) = max {Xi } ,X(1) = min {Xi } ,‬‬

‫טענה ‪ 2.6.5‬אם ‪ fX‬היא פונקציית הצפיפות של המשתנים הבלתי תלויים ‪,X1 , . .. , Xn‬‬
‫‪n n−1‬‬
‫‪k−1 X‬‬
‫אז פונקציית הצפיפות של סטטיסטי הסדר )‪ X(k‬היא ‪f (t)FX (t)k−1 (1 −‬‬
‫‪.FX (t))n−k‬‬

‫הוכחה‪.‬‬
‫‪X‬‬
‫= )‪P (X(k) ≤ t‬‬ ‫)‪P (∀i ∈ A : Xi ≤ t; ∀i 6∈ A : Xi > t‬‬
‫‪A⊆{1,...,n},|A|≥k‬‬
‫‪X‬‬
‫=‬ ‫|‪FX (t)|A| (1 − FX (t))n−|A‬‬
‫‪A⊆{1,...,n},|A|≥k‬‬
‫  ‪n‬‬
‫‪X‬‬ ‫‪n‬‬
‫=‬ ‫‪FX (t)i (1 − FX (t))n−i .‬‬
‫‪i=k‬‬
‫‪i‬‬

‫‬ ‫הנגזרת של פונקציה זו‪ ,‬לפי ‪ ,t‬היא כנטען לעיל‪.‬‬

‫‪ .X‬הראה שפונקצית הצפיפות של‬ ‫‪ .1‬נניח ש־]‪, . . . , Xn ∼ U[0, 1‬‬


‫‪ 1k−1‬‬ ‫תרגיל ‪2.6.6‬‬
‫‪) fX(k) (t) = n n−1‬ראה איור ‪.(2.1‬‬
‫‪k−1‬‬
‫‪t‬‬ ‫‪(1‬‬ ‫‪−‬‬ ‫)‪t‬‬ ‫‪n−k‬‬
‫היא‬ ‫‪X‬‬ ‫)‪(k‬‬ ‫הסדר‬ ‫סטטיסטי‬
‫‪k‬‬
‫= ) )‪ .E(X(k‬הדרכה‪ .‬העזר באינטגרל שבתרגיל ‪.2.5.25‬‬ ‫‪n+1‬‬
‫הוכח ש־‬ ‫‪.2‬‬
‫‪n‬‬
‫= ) )‪ E(X(n‬היתה נושא עבודת הדוקטור של ניקולאוס ברנולי‬ ‫‪n+1‬‬
‫]הטענה‬
‫ה־‪ ,I‬ב־‪.[1709‬‬

‫‪79‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.6‬התפלגויות רציפות חשובות‬

‫איור ‪ :2.1‬צפיפות סטטיסטיי הסדר עבור ]‪.X1 , . . . , X5 ∼ U[0, 1‬‬

‫)‪k(n+1−k‬‬
‫= ) )‪.V(X(k‬‬ ‫)‪(n+1)2 (n+2‬‬
‫ש־‬ ‫‪ .3‬בדוק‬

‫∗‪ .4‬מה מקדם המתאם בין )‪ ,X(i) , X(j‬כאשר ‪?i < j‬‬

‫תרגיל ‪ 2.6.7‬הכלל את טענה ‪ :2.6.5‬נניח ש־ ‪ X1 , . . . , Xn−1‬בעלי התפלגות ‪,F‬‬


‫ו־ ‪ Xn‬בעל התפלגות ‪ ,G‬עם פונקציות צפיפות ‪ f, g‬בהתאמה‪ .‬סטטיסטיי הסדר‬
‫מוגדרים באותו אופן‪ .‬הראה שהצפיפות של )‪ X(k‬היא‬
‫‬ ‫‬ ‫‬ ‫‬
‫‪n−1‬‬ ‫‪k−1‬‬ ‫)‪n−k g(t‬‬ ‫)‪G(t‬‬ ‫)‪1 − G(t‬‬
‫= )‪fX(k) (t‬‬ ‫))‪f (t)F (t) (1−F (t‬‬ ‫)‪+ (k − 1‬‬ ‫)‪+ (n − k‬‬ ‫‪.‬‬
‫‪k−1‬‬ ‫)‪f (t‬‬ ‫)‪F (t‬‬ ‫)‪1 − F (t‬‬

‫תרגיל ‪ 2.6.8‬נניח ש־]‪ ,X1 , . . . , Xn−1 ∼ U[0, 1‬ו־]‪ Xn ∼ U[0, a‬כאשר ‪0 < a < 1‬‬
‫הצפיפות של המקסימום } ‪ X(n) = max {X1 , . . . , Xn‬היא‬
‫קבוע‪ .‬הראה שפונקציית (‬
‫‪2 −1+an‬‬ ‫‪ntn−1 a1‬‬ ‫‪0<t<a‬‬
‫)‪.E(X(n) ) = nn(n+1‬‬ ‫= )‪ .fX(n) (t‬חשב את התוחלת‬ ‫‪n−2‬‬
‫‪(n − 1)t‬‬ ‫‪a<t<1‬‬
‫הציון הסופי בתחרות בינלאומית לסטודנטים הוא הציון הטוב ביותר שהשיג‬
‫אחד החברים בה‪ ,‬ועוד הציון הממוצע‪ .‬בנבחרת שותפים ‪ n − 1‬חברים שווי‬
‫יכולת )שהציון של כל אחד מהם מתפלג ]‪ .(U[0, 1‬יש מועמד נוסף‪ ,‬חלש יותר‪,‬‬
‫שהתפלגות הציונים שלו היא ]‪ ,U[0, a‬כאשר ‪ .a < 1‬הראה שכדאי לצרף את‬
‫המועמד הנוסף לנבחרת אם ורק אם )‪) .2an > (n + 1)(1 − 2a‬בתחרות ה־‪IMO‬‬
‫הציון הוא סכום שלוש התוצאות הטובות ביותר ועוד הממוצע(‪.‬‬

‫תרגיל ‪ 2.6.9‬בוחרים שתי נקודות על מקל )באופן אקראי ובלתי תלוי‪ ,‬בהתפלגות‬
‫אחידה(‪ ,‬ושוברים אותו בהן לשלושה חלקים‪ .‬מה הסיכוי שאפשר להרכיב מן‬
‫החלקים האלה משולש? )ואם שוברים את המקל ב־‪ n‬נקודות‪ ,‬מה הסיכוי שאפשר‬
‫להרכיב מן החלקים מצולע?(‬

‫‪80‬‬
‫‪ .2.6‬התפלגויות רציפות חשובות‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫‪ .1‬בוחרים שתי נקודות על מקל )באופן בלתי תלוי ובהתפלגות‬ ‫תרגיל ‪2.6.10‬‬
‫אחידה(‪ .‬אחר־כך מסמנים על המקל ‪ n − 1‬נקודות במרחקים שווים זו מזו‬
‫ומקצות המקל‪ ,‬ושוברים אותו ל־‪ n‬חלקים לפי החלוקה שהתקבלה‪ .‬מה‬
‫הסיכוי ששתי הנקודות שייכות לאותו חלק?‬

‫‪ .2‬בוחרים שתי נקודות על מקל‪ .‬אחר־כך מסמנים על המקל ‪ n − 1‬נקודות‪,‬‬


‫גם כן באקראי ובאופן בלתי תלוי‪ .‬שוב שוברים את המקל לפי החלוקה‬
‫שהתקבלה‪ .‬מה הסיכוי ששתי הנקודות שייכות לאותו חלק?‬

‫תרגיל ‪ 2.6.11‬יונתן יכול להגיע לעבודה בכל אחד משני אוטובוסים‪ .‬זמן ההמתנה‬
‫הממוצע לכל קו הוא ‪ 30‬דקות‪ .‬מה יהיה זמן ההמתנה הממוצע לקו הראשון מבין‬
‫השניים? ואם זמן ההמתנה לקו אחד הוא ‪ ,a‬ולשני ‪?b‬‬

‫תרגיל ‪ 2.6.12‬אלעד חוזר מהעבודה באחד משני אוטובוסים‪ ,‬שיש להם לוח זמנים‬
‫קבוע‪ :‬הם יוצאים לדרך פעם בשעה‪ .‬הוא מגיע אל התחנה בזמן אקראי )בעל‬
‫התפלגות אחידה(‪ ,‬ועולה על האוטובוס הראשון שעוצר בתחנה‪ .‬כיצד יתכן שהוא‬
‫עולה על קו ‪ 15‬רק ‪ 10%‬מהפעמים‪ ,‬ועל קו ‪ 52‬בשאר הזמן?‬

‫תרגיל ‪ 2.6.13‬נניח ש־ ‪ X1 , . . . , Xn‬הם משתנים מקריים בלתי תלויים בעלי פונקציית‬


‫הצטברות ‪ .F‬לפי תרגיל ‪ .F (X1 ), . . . , F (Xn ) ∼ U[0, 1] ,2.6.1‬הסק מתרגיל‬
‫‪ 2.6.6‬שהערך המקסימלי מבין ה־) ‪ F (Xi‬הוא בקירוב ‪ .1 − n1‬פירושו של דבר הוא‬
‫שבכל התפלגות‪ ,‬אם מגרילים ‪ n‬ערכים‪ ,‬סביר שאחד מהם יהיה קיצוני במידה כזו‬
‫שהסיכויים נגדו הם בערך ‪.1 : n‬‬

‫תרגיל ‪ 2.6.14‬משתנים מקריים רציפים ‪ X1 , X2 , . . .‬הם בלתי תלויים ושווי התפלגות‪.‬‬


‫מגדירים ‪ N = n‬כאשר ‪ n‬הוא הקטן ביותר כך שעבורו ‪ .Xn < Xn−1‬מה התוחלת‬
‫של ‪?N‬‬
‫‪1‬‬
‫= )‪.P(N > n‬‬ ‫!‪n‬‬ ‫הדרכה‪ .‬המאורע }‪ {N > n‬שווה למאורע } ‪ .{X1 < · · · < Xn‬לכן‬
‫∞ = ) ‪.E(N‬‬ ‫‪1‬‬
‫‪P‬‬
‫לפי טענה ‪n=0 n! = e ,2.3.57‬‬

‫תרגיל ‪ 2.6.15‬בספורט שוויוני )מקצוע תחרותי חדש שתוכנן למנוע יתרון לא הוגן‬
‫מבעלי הכשרון(‪ ,‬כל שחקן מגריל משתנה מקרי בעל התפלגות ]‪ .U[0, 1‬התוצאות‬
‫מוכנסות מיד למחשב ונשמרות בסוד‪ .‬המחשב מדווח בכל פעם שמתחרה קובע‬
‫שיא עולם חדש‪ ,‬כלומר כאשר הוא משיג תוצאה טובה יותר מכל קודמיו‪ .‬עד היום‬
‫נרשמו ‪ m‬תוצאות‪ .‬נסמן ב־‪ N‬את מספר התוצאות שיירשמו עד לשיא העולם‬
‫‪m‬‬
‫‪ .P (N ≥ k) = m+k−1‬הוכח ש־∞ = )‪.E(N‬‬ ‫הבא )‪ .(N ≥ 1‬הסבר מדוע‬

‫‪81‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.6‬התפלגויות רציפות חשובות‬

‫התפלגות מעריכית‬ ‫‪2.6.2‬‬


‫למשתנה ‪ X‬יש התפלגות מעריכית‪ ,‬עם הפרמטר ‪ ,λ‬אם פונקציית הצפיפות שלו היא‬
‫‪ .fX (x) = λ1 e−x/λ‬במקרה כזה מסמנים‬

‫‪X ∼ Exp(λ).‬‬

‫אפשר לחשב ש־ ‪ .P (X > t) = e−t/λ‬הזמן ‪ t‬שעבורו ‪ P (X > t) = 0.5‬נקרא זמן‬


‫מחצית החיים‪ ,‬ושווה ל־‪.log(2)λ‬‬
‫‪2‬‬
‫התוחלת של )‪ X ∼ Exp(λ‬היא ‪ ,E(X) = λ‬והשונות ‪.V(X) = λ‬‬

‫טענה ‪ 2.6.16‬תכונת חוסר הזכרון של ההתפלגות המעריכית‪ :‬נניח ש־)‪ .X ∼ Exp(λ‬אז‬


‫)‪ (X − a)|(X > a‬מתפלג )‪.Exp(λ‬‬

‫תרגיל ‪ 2.6.17‬נניח שהזמן בין רעידות אדמה חזקות באגן הירדן שעל השבר הסורי־‬
‫אפריקאי‪ ,‬מתפלג מעריכית‪ ,‬עם תוחלת ‪ 100‬שנה‪ .‬הרעידה האחרונה היתה לפני‬
‫כ־‪ 80‬שנה‪ .‬מתי צפויה )בתוחלת( הרעידה הבאה? )אגב‪ :‬במציאות‪ ,‬הזמן בין‬
‫רעידות אדמה אינו לגמרי חסר זכרון‪ ,‬משום שמדובר בשחרור פתאומי של אנרגיה‬
‫הנאצרת באופן מדורג(‪.‬‬

‫תרגיל ‪ 2.6.18‬נניח ש־)‪ .X ∼ Exp(1‬מה ההתפלגות של ‪ ?e−X‬השווה לתרגיל ‪.2.5.32‬‬

‫תרגיל ‪ 2.6.19‬קו אוטובוס יוצא מן התחנה מדי ‪ 30‬דקות‪ .‬לפיכך‪ ,‬זמן ההמתנה של‬
‫נוסע המגיע באקראי לתחנה מתפלג אחיד והוא יחכה בממוצע ‪ 15‬דקות‪.‬‬
‫לאחר זמן משנים את מתכונת הנסיעה‪ ,‬כך שבכל פעם שאוטובוס יוצא לדרכו‪,‬‬
‫מפעילים שעון עצר מעריכי ומשחררים את האוטובוס הבא לפי הערך המתקבל‬
‫)שהוא בעל התפלגות מעריכית עם תוחלת ‪ .(30‬מספר האוטובוסים הממוצע‬
‫ביממה יהיה כפי שהיה בעבר‪ .‬מה תהיה תוחלת זמן ההמתנה של הלקוחות לפי‬
‫השיטה החדשה? כיצד זה יתכן? )הסבר את הקשר לתרגיל ‪.(2.5.16‬‬

‫תרגיל ‪ .X, Y ∼ Exp(θ) 2.6.20‬חשב את ) ‪.P (X < αY‬‬

‫תרגיל ‪ 2.6.21‬מדען צופה במטר מטאורים‪ ,‬שבו יש )בתוחלת( ‪ α‬הופעות בדקה‪.‬‬


‫התצפית נפסקת כשנשבר העפרון‪ ,‬שמשך החיים שלו מעריכי עם תוחלת ‪ µ‬דקות‪.‬‬
‫נסמן ב־‪ X‬את משך זמן הצפיה וב־ ‪ Y‬את מספר המטאורים שנצפו; כך ∼ ‪X‬‬
‫)‪ Exp(µ‬ו־)‪.Y |X ∼ Poi(αX‬‬

‫‪ .1‬הראה שהתוחלת של ‪ Y‬היא ‪.E(Y ) = αλ‬‬


‫‪αλ‬‬
‫‪ .Y + 1 ∼ G( 1+αλ‬הדרכה‪ .‬ראה תרגיל ‪.2.5.26‬‬ ‫‪ .2‬הראה ש־)‬

‫‪82‬‬
‫‪ .2.6‬התפלגויות רציפות חשובות‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫‪ .3‬נניח ששני מדענים עובדים במקביל )וצופים כל אחד בחלקת שמיים אחרת(‪.‬‬
‫‬ ‫‪k‬‬
‫‪1‬‬ ‫‪αλ‬‬
‫)‪.P (Y1 = 0, Y2 = k|X1 > X2 ) = (αλ+1‬‬‫‪2‬‬ ‫)‪2(αλ+1‬‬
‫הראה ש־‬
‫‪1‬‬ ‫‪2‬‬
‫= )‪.P (Y1 = 0‬‬ ‫‪αλ+1‬‬
‫ש־‬ ‫= ) ‪ ,P (Y1 = 0|X1 > X2‬בעוד‬ ‫)‪(αλ+1)(αλ+2‬‬
‫ש־‬ ‫הסק‬

‫‪2−2−k‬‬ ‫‪αλ‬‬
‫‪k‬‬
‫= ) ‪.P (Y1 = k, Y2 = 0|X1 > X2‬‬ ‫‪(αλ+1)2‬‬ ‫‪αλ+1‬‬
‫ש־‬ ‫‪ .4‬הראה‬
‫‪2‬‬
‫= ) ‪.P (Y2 = 0|X1 > X2‬‬ ‫‪αλ+2‬‬
‫ש־‬ ‫הסק‬

‫סדרת משתנים מעריכיים‬


‫טענה ‪ 2.6.22‬נניח שהמשתנים ‪ X1 , X2‬מתפלגים מעריכית‪ X1 ∼ Exp(λ1 ) ,‬ו־∼ ‪X2‬‬
‫) ‪ ,Exp(λ2‬והם בלתי תלויים‪ .‬אז ) ‪ ,min(X1 , X2 ) ∼ Exp(λ′‬כאשר ‪. λ1′ = λ11 + λ12‬‬

‫מסקנה ‪ 2.6.23‬נניח ש־)‪ X1 , . . . , Xn ∼ Exp(λ‬בלתי תלויים‪ .‬אז סטטיסטי הסדר = ‪Y1‬‬


‫)‪ .min(X1 , . . . , Xn ) ∼ Exp(λ/n‬בפרט‪.E(Y1) = nλ ,‬‬

‫נניח ש־)‪ X1 , . . . , Xn ∼ Exp(λ‬בלתי תלויים‪ .‬מתכונת חוסר הזכרון נובע שבהנתן‬


‫‪ Yi+1 ,Yi‬הוא המינימום של ‪ n−i‬משתנים מעריכיים‪ ,‬ולכן )‪.Yi+1 −Yi ∼ Exp((n−i)λ‬‬
‫‪λ‬‬
‫‪.E(Yi+1 − Yi ) = n−i‬‬ ‫מכאן ש־‬
‫‪1‬‬
‫‪.E(Yi ) = n1 + · · · + n−i+1‬‬
‫‬
‫מסקנה ‪λ 2.6.24‬‬

‫‪.E(max(X1 , . . . , Xn )) = ( 11 +‬‬ ‫‪1‬‬


‫‪2‬‬
‫בפרט‪+ · · · + n1 )λ ,‬‬

‫תרגיל ‪ 2.6.25‬בכד ענק יש כדורים רבים )מספרם סופי(‪ ,‬שמהם ‪ p‬שחורים והשאר‬
‫לבנים‪ .‬מסננים את הכד באופן הבא‪ :‬דוגמים כדור; אם הוא לבן מחזירים אותו‬
‫לכד‪ ,‬ואם הוא שחור זורקים אותו החוצה‪ .‬כמה פעמים יש לחזור על התהליך עד‬
‫שפרופורציית הכדורים השחורים יורדת ל־ ‪?p′‬‬

‫התפלגות גמא‬
‫אומרים שמשתנה מקרי ‪ Y‬הוא בעל התפלגות גמא עם פרמטרים ‪ n, λ‬אם פונקציית‬
‫‪y n−1‬‬ ‫‪−y/λ‬‬
‫‪ .fY (y) = (n−1)!λ‬מסמנים )‪.Y ∼ Γ(n, λ‬‬ ‫‪ne‬‬ ‫הצפיפות שלו היא‬

‫טענה ‪ 2.6.26‬פונקציית ההצטברות של משתנה )‪ Y ∼ Γ(n, λ‬היא‬


‫∞‬
‫‪X‬‬ ‫‪xi −x/λ‬‬
‫= )‪FY (y) = P (Y ≤ y‬‬ ‫‪e‬‬ ‫‪.‬‬
‫‪i=n‬‬
‫‪i!λi‬‬

‫‪83‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.6‬התפלגויות רציפות חשובות‬

‫תרגיל ‪ 2.6.27‬ההתפלגות )‪ Γ(1, λ‬אינה אלא ההתפלגות המעריכית )‪.Exp(λ‬‬

‫טענה ‪ 2.6.28‬לכל ‪ ,n, m‬אם )‪ Y ∼ Γ(n, λ‬ו־)‪ Y ′ ∼ Γ(m, λ‬הם משתנים מקריים בלתי‬
‫תלויים‪ ,‬אז )‪.Y + Y ′ ∼ Γ(n + m, λ‬‬

‫‬ ‫הוכחה‪ .‬קונוולוציה‪.‬‬

‫מסקנה ‪ 2.6.29‬נניח ש־)‪ X1 , X2 , · · · ∼ Exp(λ‬הם משתנים בלתי תלויים‪ .‬לכל ‪ ,n‬הסכום‬


‫‪ Sn = X1 + · · · + Xn‬מתפלג )‪.Γ(n, λ‬‬

‫מסקנה ‪ 2.6.30‬אם )‪ Y ∼ Γ(n, λ‬אז ‪ E(Y ) = nλ‬ו־ ‪.V(Y ) = nλ2‬‬

‫הקשר להתפלגות פואסון‬


‫נניח ש־)‪ ,X1 , · · · ∼ Exp(λ‬בלתי תלויים‪ .‬לכל ‪ ,n‬נסמן כמקודם ‪.Sn = X1 + · · · + Xn‬‬
‫עבור ערך קבוע ‪ ,t‬נסמן }‪ .Nt = maxn {Sn < t‬אם התפלגות הזמן בין תקלות היא‬
‫מעריכית‪ ,‬אז ‪ Nt‬סופר כמה תקלות יהיו בפרק זמן נתון‪.‬‬

‫טענה ‪.Nt ∼ Poi(t/λ) 2.6.31‬‬

‫הוכחה‪ .‬את )‪ P (Nt ≥ n) = P (Sn ≤ t‬חישבנו בטענה ‪ .2.6.26‬מכאן נובע ש־‬

‫‪(t/λ)n e−t/λ‬‬
‫= )‪P (Nt = n) = P (Nt ≥ n + 1) − P (Nt ≥ n‬‬ ‫‪.‬‬
‫!‪n‬‬
‫‬

‫תרגיל ‪ 2.6.32‬העזר בחוסר הזכרון של ההתפלגות המעריכית כדי לחלץ מטענה ‪2.6.31‬‬
‫הוכחה חדשה לתרגיל )‪.2.3.27.(1‬‬

‫הכיוון ההפוך‪ :‬אם מפזרים מספר פואסוני של נקודות בקטע נתון‪ ,‬המרחקים‬
‫מתפלגים מערכית‪.‬‬

‫תרגיל ‪ 2.6.33‬נניח שמספר האירועים בקטע בכל אורך מתפלג פואסונית )עם‬
‫פרמטר התלוי רק באורך הקטע(‪ .‬הוכח שהתלות באורך הקטע היא ליניארית‪.‬‬

‫‪84‬‬
‫‪ .2.6‬התפלגויות רציפות חשובות‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫‪0.4‬‬

‫‪0.2‬‬

‫‪−3.0 −2.5 −2.0 −1.5 −1.0 −0.5 0 0.5 1.0 1.5 2.0‬‬ ‫‪2.5‬‬
‫איור ‪ :2.2‬גרף ההתפלגות הנורמלית הסטנדרטית‬

‫‪ 2.6.3‬התפלגות נורמלית‬
‫‪1 −t2 /2‬‬
‫= )‪ ,fZ (t‬כשאיננו יודעים‬ ‫‪c‬‬
‫‪e‬‬ ‫הגדרת התפלגות נורמלית סטנדרטית )‪:N(0, 1‬‬
‫בשלב זה את ‪.c‬‬

‫ציטוט ‪" 2.6.34‬ואכן‪ ,‬מה לגאומטריה של המעגל ולסטטיסטיקה של בני אדם? ככל שידיעתי‬
‫מגעת‪ ,‬איש לא הסביר זאת מעולם" )מרק ביוקנן‪ ,‬לשעבר עורך ‪" ,Nature‬האטום החברתי"‬
‫עמ' ‪.(68‬‬
‫‪2‬‬
‫נניח ש־ ]‪ T ∼ U[0, 2π‬ו־ ‪ fR (t) = e−t /2 t‬עבור ‪ ,t ≥ 0‬בלתי תלויים‪ .‬נגדיר‬
‫)היעקוביאן הוא ‪ .(R‬מהחלפת המשתנים יוצא‬
‫√‬ ‫) ‪ X = R cos(T‬ו־ ) ‪Y = R sin(T‬‬
‫)‪ ,X, Y ∼ N(0, 1‬כשהם בלתי תלויים‪ ,‬ו־ ‪.c = 2π‬‬

‫‪(t−µ)2‬‬
‫‪1‬‬
‫‪ f (t) = √2πσ‬הוא משתנה נורמלי‪ ,‬בעל‬ ‫‪2‬‬
‫הגדרה ‪ 2.6.35‬משתנה שהצפיפות שלו ‪e− 2σ2‬‬
‫התפלגות ) ‪ .N(µ, σ 2‬כל אחת מן ההתפלגויות במשפחה דו־פרמטרית זו נקראת התפלגות‬
‫נורמלית‪.‬‬

‫טענה ‪ 2.6.36‬אם )‪ Z ∼ N(0, 1‬אז ‪ X = µ + σZ‬הוא בעל ההתפלגות )‪.N(µ, σ 2‬‬

‫טענה ‪ 2.6.37‬נניח ש־)‪ .Z ∼ N(0, 1‬הראה ש־‪ E(Z) = 0‬ו־‪.V(Z) = 1‬‬


‫‪p‬‬
‫= )|‪.E(|Z‬‬ ‫תרגיל ‪ 2.6.38‬נניח )‪ .Z ∼ N(0, 1‬הראה ש־‪2/π‬‬

‫לפי טענה ‪ ,2.6.36‬אם ) ‪ ,X ∼ N(µ, σ 2‬אז ‪ E(X) = µ‬ו־ ‪ .V(X) = σ 2‬בפרט‪,‬‬


‫התפלגות נורמלית מוגדרת על־פי התוחלת והשונות שלה‪.‬‬

‫תרגיל ‪ X 2.6.39‬מתפלג נורמלית‪ .‬ידוע ש־‪.P (X < 0.7) = 0.7 ,P (X < 0.9) = 0.9‬‬
‫מצא את )‪] P (X < 0.5‬תשובה‪.[40.8% .‬‬

‫‪85‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.6‬התפלגויות רציפות חשובות‬

‫תרגיל ‪ 2.6.40‬ההישגים של פרחי־טיס בטיסת אימון הם בעלי התפלגות נורמלית‬


‫סטנדרטית‪ ,‬ובלתי תלויים זה בזה‪ .‬מדריך הטיסה משבח את החניך אם הישגיו‬
‫בטיסה מסויימת היו ‪ a‬סטיות תקן מעל לממוצע‪ ,‬ונוזף בו אם היו ‪ a‬סטיות תקן‬
‫מתחת לממוצע )כאן ‪ a > 0‬קבוע(‪ .‬חניך טס שתי טיסות‪.‬‬
‫‪ .1‬על־פי נתוני השאלה‪ ,‬מהם הסיכויים לכך שיחול שיפור בהישגים )הטיסה‬
‫השניה טובה יותר מן הראשונה(?‬
‫‪ .2‬הערך את הסיכוי לשיפור אם המדריך שיבח את החניך בפעם הראשונה;‬
‫הערך את הסיכוי לשיפור אם המדריך נזף בו‪.‬‬
‫‪ .3‬מה דעתך על המשוב הפנימי של מדריך הטיסה‪ ,‬האומר לעצמו 'בכל פעם‬
‫שאני משבח את החניך‪ ,‬הישגיו יורדים‪ .‬בכל פעם שאני נוזף‪ ,‬ההישגים‬
‫משתפרים‪ .‬מכאן שהשבחים מזיקים והנזיפות מועילות'?‬

‫טבלאות של התפלגות נורמלית‬


‫‪2‬‬
‫האינטגרל ‪ e−x‬אינו אלמנטרי‪ ,‬ולכן יש להעזר בטבלאות לחישוב הערכים שלו‪.‬‬
‫‪R‬‬

‫∞‬
‫‪1‬‬
‫‪Z‬‬
‫‪2‬‬
‫= )‪P (Z > z‬‬ ‫‪√ e−t /2 dt‬‬
‫‪Zz ∞ 2π‬‬
‫‪1‬‬
‫≤‬ ‫‪√ e−zt/2 dt‬‬
‫‪2π‬‬
‫‪rz‬‬
‫‪2 1 −z 2 /2‬‬
‫≤‬ ‫‪e‬‬
‫‪πz‬‬

‫‪1‬‬ ‫‪2‬‬
‫∼ )‪.P (Z > z‬‬ ‫‪z+ 21‬‬
‫‪e−z /2‬‬ ‫קירוב שימושי לערכים גדולים‪:‬‬

‫שאם )‪ X1 , . . . , Xn ∼ N(0, 1‬אז תוחלת‬


‫תרגיל ‪ 2.6.41‬המשך את תרגיל ‪ :2.6.13‬הראה √‬
‫הערך המקסימלי של ‪ Xi‬היא‪ ,‬בקירוב גס‪ .E(max Xi ) ≈ 2 log n ,‬למשל‪ ,‬אם ‪,n ≈ e50‬‬
‫אז ‪.max Xi ≈ 10‬‬
‫‪−e−x‬‬
‫‪ .FG (x) = e‬אם‬ ‫פונקציית ההצטברות של התפלגות ‪ Gumbel‬הסנדרטית היא‬
‫)‪ X1 , . . . , Xn ∼ N(0, 1‬בלתי תלויים‪ ,‬אז עבור הקבועים )‪ bn = Φ−1 (1 − 1/n‬ו־‬
‫)) ‪ ,an = 1/(nφ(bn‬התפלגות המקסימום )‪ X(n‬נתונה על־ידי‬
‫‬
‫‪P X(n) ≤ an x + bn →FG (x),‬‬

‫כאשר )·(‪ Φ‬היא פונקציית ההצטברות של ההתפלגות הנורמלית‪ ,‬ו־)·(‪ φ‬פונקציית הצפיפות‬
‫שלה‪.‬‬

‫‪86‬‬
‫‪ .2.6‬התפלגויות רציפות חשובות‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫תרגיל ‪ 2.6.42‬בספטמבר ‪ 2014‬הצביעו תושבי סקוטלנד כדי לקבוע האם יפרדו מעל‬
‫הממלכה המאוחדת הבריטית‪" .‬בסקוטלנד חיים כ־‪ 7000‬יהודים ]מתוך ‪ 5000000‬תושבים[‪,‬‬
‫כך שגם במשאל שעשוי להיות מאד צמוד‪ ,‬הם לא צפויים להכריע לשום כיוון" )אנשיל פפר‪,‬‬

‫"הארץ"‪ .(http://www.haaretz.co.il/news/world/europe/.premium-1.2437985 ,18/9/2014 ,‬נניח שלחצי מהתושבים זכות‬


‫בחירה‪ .‬נניח שהתושבים הלא־יהודים מצביעים באקראי ובהסתברות חצי‪ .‬הראה שאם‬
‫יצביעו כאיש אחד‪ ,‬הסיכוי של היהודים לקבוע את תוצאות ההצבעה גדול מ־‪.99%‬‬
‫תרגיל ‪ 2.6.43‬חזור לציטוט ‪ .1.2.13‬אם ציון מנת המשכל מתפלג נורמלית עם תוחלת ‪,100‬‬
‫מהי סטיית התקן?‬

‫התפלגות נורמלית דו־ממדית‬


‫טענה ‪ 2.6.44‬משפחת ההתפלגויות הנורמליות סגורה לחיבור‪ :‬אם ‪ X, Y‬שני משתנים‬
‫נורמליים בלתי תלויים‪ ,‬אז גם ‪ X +Y‬מתפלג נורמלית‪ .‬ביתר פירוט‪ ,‬אם ) ‪,X ∼ N(µ1 , σ12‬‬
‫) ‪ Y ∼ N(µ2 , σ22‬והם בלתי תלויים‪ ,‬אז ) ‪.X + Y ∼ N(µ1 + µ2 , σ12 + σ22‬‬
‫הוכחה‪ .‬הפעל את ההתמרה ‪ V = −sX + cY ,U = cX + sY‬כאשר ‪ .s2 + c2 = 1‬‬
‫תרגיל ‪ 2.6.45‬נניח ש־) ‪ X ∼ N(0, σ 2‬ובהנתן ‪ ,Y |X ∼ N(απ 2 X, π 2 ) ,X‬עבור‬
‫קבועים מתאימים ‪ .α, σ, π‬נסמן ‪) π ′2 = θ−1 σ 2 ,σ ′2 = θπ 2 ,θ = 1 + α2 π 2 σ 2‬שים‬
‫לב ש־‪ .(π ′ σ ′ = πσ‬העזר בתרגיל ‪ 2.5.18‬כדי להראות ש־ ‪ Y‬מתפלג נורמלית;‬
‫הסק מנוסחת השונות החוזרת ‪) 2.2.42‬או מחישוב האינטגרל( ש־) ‪.Y ∼ N(0, σ ′2‬‬
‫הפעל שוב את תרגיל ‪ 2.5.18‬כדי להראות שבהנתן ‪.X|Y ∼ N(απ ′2 Y, π ′2 ) ,Y‬‬
‫תרגיל ‪ 2.6.46‬במוח יש ‪ 25‬אזורים שאפשר למצוא בהם הבדל בין גברים לנשים;‬
‫נסמן ב־ ‪ X1 , . . . , X25‬את גדלי האזורים אצל נבדק מסויים‪ .‬לאחר נירמול‪ ,‬גודלו‬
‫‪ N(0.2, 1) P‬אצל גברים ו־)‪ N(−0.2, 1‬אצל נשים‪ .‬הראה אצל‬ ‫של כל אזור מתפלג‬
‫= ‪ X‬חיובי בסיכוי של כ־‪ ;99%‬ואצל נשים‪ ,‬להיפך‪ .‬הראה‬ ‫גברים הסכום ‪Xi‬‬
‫שהסיכוי שהסיכוי לכך שכל ‪ 0 < Xi‬אצל גבר נתון הוא פחות מאחד למליון‪ .‬העזר‬
‫בנתונים )מפוברקים( אלה כדי לכתוב שתי פסקאות‪ :‬אחת המוכיחה את קיומם‬
‫של ''מוח גברי'' ו''מוח נשי''‪ ,‬ואחת הלועגת לפתאים המאמינים בהבדלים כאלה‪,‬‬
‫ומראה שהם חסרי ממשות ביולוגית‪ .‬איזו פסקה נכונה?‬
‫)וראה‪(http://www.haaretz.co.il/news/science/.premium-1.2788500 :‬‬

‫‪ 2.6.4‬התפלגויות נוספות‬
‫∞‪R‬‬
‫הערה ‪ 2.6.47‬שמה של התפלגות גמא מגיע מפונקציית גמא ‪,Γ(z) = 0 tz−1 e−t dt‬‬
‫המקיימת את המשוואה הפונקציונלית )‪ .Γ(z +√1) = z · Γ(z‬מכיוון ש־‪,Γ(1) = 1‬‬
‫מתקבל !)‪ Γ(n) = (n − 1‬לכל ‪ n‬שלם‪ .‬בנוסף לזה ‪ ,Γ( 12 ) = π‬ולכן עבור ‪ n‬איזוגי‬
‫‪n−1‬‬ ‫√‬
‫‪.Γ(n/2) = 2− 2 1 · 3 · 5 · · · (n − 2) π‬‬

‫‪87‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.6‬התפלגויות רציפות חשובות‬

‫‪ .1‬נניח ש־)‪ Z1 , . . . , Zn ∼ N(0, 1‬והם בלתי תלויים‪ .‬לסכום הריבועים = ‪W‬‬


‫‪ Z12 + · · · + Zn2‬יש התפלגות‪ ,‬הקרויה התפלגות חי־בריבוע עם ‪ n‬דרגות חופש‪,‬‬
‫‪n/2−1 −x/2‬‬
‫ומסומנת ב־ ‪ .χ2n‬פונקציית הצפיפות היא ‪ , xΓ(n/2)2e n/2‬כמו בהתפלגות )‪.Γ( n2 , 2‬‬
‫התוחלת של ‪ W ∼ χ2n‬היא ‪ ,E(W ) = n‬שונות היא ‪.V(W ) = 2n‬‬

‫‪−1/2 e−x/2‬‬
‫‪ , x‬שאינה חסומה‪.‬‬ ‫√‬
‫‪2π‬‬
‫הערה ‪ 2.6.48‬פונקציית הצפיפות של התפלגות ‪ χ21‬היא‬
‫‪−x/2‬‬
‫‪ , e‬הלוא היא ההתפלגות המעריכית‬ ‫‪2‬‬
‫פונקציית הצפיפות של התפלגות ‪ χ22‬היא‬
‫עם תוחלת ‪.2‬‬

‫‪ T = √ Z‬הוא בעל התפלגות‬ ‫‪ .2‬אם )‪ Z ∼ N(0, 1‬ו־ ‪ W ∼ χ2n‬בלתי תלויים‪ ,‬אז‬


‫‪W/n‬‬
‫הנקראת התפלגות ‪ t‬של סטודנט‪ ,‬עם ‪ n‬דרגות חופש )'סטודנט' היא הכינוי שאימץ‬
‫לעצמו הסטטיסטיקאי ויליאם סילי גוסט‪ ,‬שפרסם את ההתפלגות ב־‪.(1908‬‬
‫פונקציית הצפיפות של ההתפלגות הזו היא‬
‫‪− n+1‬‬
‫‪Γ( n+1‬‬ ‫)‬ ‫‪t2‬‬
‫‬ ‫‪2‬‬
‫‪2‬‬
‫√ = )‪f (t‬‬ ‫‪1‬‬ ‫‪+‬‬ ‫‪.‬‬
‫) ‪nπ Γ( n2‬‬ ‫‪n‬‬

‫כאשר ‪ n‬גדול )למשל ‪ ,(n = 30‬התפלגות זו קרובה להתפלגות הנורמלית‪.‬‬


‫התוחלת היא ‪) E(T ) = 0‬כאשר ‪ ;n > 1‬ב־ ‪ n = 1‬אין תוחלת‪ :‬האינטגרל‬
‫‪n‬‬
‫‪.V(T ) = n−2‬‬ ‫אינו מתכנס( והשונות‬

‫‪ X = VU/n‬כאשר ‪ U ∼ χ2n‬ו־ ‪ V ∼ χ2m‬קוראים התפלגות ‪,F‬‬ ‫‪/m‬‬


‫‪ .3‬להתפלגות היחס‬
‫ומסמנים ‪ .X ∼ Fn,m‬פונקציית הצפיפות היא‬

‫‪Γ( n+m‬‬ ‫‪) n n n −1‬‬ ‫‪n‬‬ ‫‪n+m‬‬


‫‪n‬‬
‫‪2‬‬
‫( ‪m‬‬ ‫‪) 2 x 2 (1 + x)− 2 .‬‬
‫‪Γ( 2 )Γ( 2 ) m‬‬ ‫‪m‬‬

‫= ) ‪ .E(X) = E( n1 U)E(m V1‬השונות היא = )‪V(X‬‬ ‫‪m‬‬


‫‪m−2‬‬
‫התוחלת היא‬
‫‪2‬‬
‫)‪2m (m+n−2‬‬
‫)‪. n(m−2‬‬‫)‪2 (m−4‬‬

‫תרגיל ‪ T ∼ tn 2.6.49‬אם ורק אם ‪.T 2 ∼ F1,n‬‬

‫תרגיל ‪ X ∼ Fn,m 2.6.50‬אם ורק אם ‪. X1 ∼ Fm,n‬‬


‫‪Z2‬‬
‫תרגיל ‪ 2.6.51‬בדוק שפונקציית הצפיפות של היחס ‪ X = Z12‬כאשר ∼ ‪Z1 , Z2‬‬
‫‪2‬‬ ‫√‬ ‫‪1‬‬
‫)‪ .fX (x) = π√x(1+x‬הראה ש־)‪.P (|Z1 | < a |Z2 |) = 2 arctan( a‬‬ ‫)‪ N(0, 1‬היא‬

‫‪88‬‬
‫‪ .2.7‬חסמים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫תרגיל ‪ 2.6.52‬במדינה מסויימת נערכות בחירות מדי כמה שנים‪ .‬כדי להבטיח‬
‫הכרעה דמוקרטית באופן מלא‪ ,‬כל תושב בוחר באיזה משני המועמדים הוא תומך‬
‫על־פי תוצאת הטלת מטבע )הוגן(‪ ,‬המתבצעת זמן מה לפני הבחירות‪ .‬בבוקר‬
‫יום הבחירות מתרחש אירוע הגורם לכל תושב להפוך את החלטתו בהסתברות ‪ǫ‬‬
‫להראות שהסיכוי‬ ‫כדי‪p‬‬ ‫)ללא תלות בהחלטה הקודמת(‪ .‬העזר בתרגיל ‪2.6.51‬‬
‫‪ǫ‬‬
‫שתוצאת הבחירות תתהפך כתוצאה מן האירוע הוא ‪.2 arctan( 1−ǫ ) ≈ 2ǫ‬‬

‫‪ 2.7‬חסמים‬
‫אי־שוויון מרקוב‬ ‫‪2.7.1‬‬
‫טענה ‪ 2.7.1‬יהי ‪ X‬משתנה מקרי חיובי בעל תוחלת ‪ .µ‬אז לכל ‪.P (X ≥ aµ) ≤ a1 ,a‬‬
‫‪1‬‬
‫‪ P (X = 0) = 1 − aµ‬ו־‬ ‫שוויון מתקבל )כאשר ‪ (a ≥ 1‬רק עבור המשתנה שעבורו‬
‫‪1‬‬
‫‪.P (X = aµ) = aµ‬‬

‫תרגיל ‪ 2.7.2‬יהי ‪ X‬משתנה מקרי חיובי‪ .‬הראה ש־)‪.P (X ≥ 1) ≤ E(X‬‬

‫תרגיל ‪ 2.7.3‬תהי ‪ X1 , X2 , . . .‬סדרת משתנים מקריים חיוביים עם תוחלת קבועה‬


‫‪ .E(Xn ) = µ‬הראה ש־‪ .P (lim Xn = ∞) = 0‬הדרכה‪ .‬נסמן )∞ = ‪.ǫ = P (lim Xn‬‬
‫‪µ‬‬
‫≤ )‪ ,ǫ ≤ P (Xn > k‬ואם ‪ ǫ > 0‬אפשר לבחור ‪k > µ/ǫ‬‬ ‫ש־ ‪k‬‬ ‫בפרט לכל ‪ k‬קיים ‪ n‬כך‬
‫ולקבל סתירה‪.‬‬

‫אי־שוויון צ'ביצ'ב‬ ‫‪2.7.2‬‬


‫טענה ‪ 2.7.4‬לכל משתנה מקרי ‪) X‬בעל תוחלת ‪ µ‬ושונות ‪ ,(σ 2‬ולכל קבוע ‪ k‬מתקיים‬

‫‪P (|X − µ| ≥ kσ) ≤ k −2 .‬‬

‫‬ ‫הוכחה‪ .‬קח |‪ Y = |X − µ‬באי־שוויון מרקוב‪.‬‬

‫בפרט‪ ,‬אם ‪ E(X) = 0‬ו־‪ ,V(X) = 1‬אז לכל ‪ k‬מתקיים ‪.P (|X| ≥ k) ≤ k −2‬‬
‫להלן גרסה חד־צדדית של אי־השוויון הזה‪:‬‬

‫טענה ‪) 2.7.5‬אי־שוויון קנטלי( יהי ‪ X‬משתנה מקרי עם ‪ E(X) = 0‬ו־‪ .V(X) = 1‬לכל‬
‫‪ k ≥ 0‬מתקיים ‪.P (X ≥ k) ≤ k21+1‬‬

‫‪89‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.7‬חסמים‬

‫הוכחה‪ .‬לכל ‪ t ≥ −k‬מתקיים לפי אי־שוויון מרקוב‬


‫‬ ‫‬
‫‪X +t‬‬
‫‪P (X ≥ k) = P‬‬ ‫‪≥1‬‬
‫‪k+t‬‬
‫‬ ‫‬
‫‪X +t 2‬‬
‫( ‪≤ P‬‬ ‫‪) ≥1‬‬
‫‪k+t‬‬
‫‪1 + k −2‬‬
‫‬ ‫‬
‫‪X +t 2‬‬
‫( ‪≤ E‬‬ ‫= )‬
‫‪k+t‬‬ ‫‪(k + t)2‬‬

‫‬ ‫והתוצאה מתקבלת מבחירת ‪ ,t = k −1‬המביאה את אגף ימין למינימום‪.‬‬

‫תרגיל ‪ 2.7.6‬לכל משתנה מקרי בעל תוחלת ‪ µ‬ושונות ‪ ,σ 2‬ולכל ‪P (X ≥ µ + k) ≤ ,k > 0‬‬
‫‪2‬‬
‫‪. σ2σ+k2‬‬

‫אי־שוויון צ'רנוף‬ ‫‪2.7.3‬‬


‫יהי )‪ X ∼ Bin(m, p‬משתנה בינומי‪ .‬אי־שוויון צ'ביצ'ב נותן את החסם הריבועי‬
‫ ‬ ‫ ‬ ‫‬
‫‪ X‬‬ ‫ ‬ ‫‪pq‬‬
‫≤ ‪P − p ≥ ǫ‬‬ ‫‪.‬‬
‫‪m‬‬ ‫‪mǫ2‬‬

‫אי־שוויון צ'רנוב מספק שיפור מהותי של החסם הזה‪.‬‬


‫נסמן‬
‫‪x‬‬ ‫‪1−x‬‬
‫‪D(x||y) = x log + (1 − x) log‬‬ ‫;‬
‫‪y‬‬ ‫‪1−y‬‬
‫זוהי סטיית ‪ Kullback-Leibler‬בין ההתפלגויות )‪ b(x‬ו־)‪.b(y‬‬

‫הערה ‪ 2.7.7‬לכל ‪ .D(x||x) = 0 ,x‬לכל ‪ .D(x||y) ≥ 0 ,0 < x, y < 1‬קירוב טיילור‬


‫‪ǫ2‬‬
‫‪.D(p + ǫ||p) ≈ 2pq‬‬ ‫סביב ‪ ǫ = 0‬נותן‬

‫טענה ‪ 2.7.8‬יהי )‪ X ∼ Bin(m, p‬משתנה בינומי‪ .‬לכל ‪,ε > 0‬‬


‫‬ ‫‬
‫‪X‬‬
‫‪P‬‬ ‫‪≥ p + ε ≤ e−D(p+εkp)m‬‬
‫‪m‬‬

‫‬ ‫‬ ‫ו־‬


‫‪X‬‬ ‫‪−D(p−εkp)m‬‬
‫‪P‬‬ ‫‪≤p−ε‬‬ ‫‪≤e‬‬ ‫‪.‬‬
‫‪m‬‬

‫‪90‬‬
‫‪ .2.8‬פונקציה יוצרת מומנטים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫‪2 m/2pq‬‬
‫ ‬ ‫ ‬
‫‪ P X‬חסום על־ידי‬
‫‬
‫‪ ;e−ǫ‬זו‬ ‫‪m‬‬
‫‪−‬‬ ‫‪p‬‬ ‫בקירוב‪ ,‬פירושו של דבר הוא ש־ ‪ > ǫ‬‬
‫החלפה של החסם ‪ 1/k‬שקיבלנו מאי־שוויון צ'ביצ'ב בחסם ‪.e−k/2‬‬

‫הוכחה‪ .‬אפשר להניח ש־ ‪ X = X1 + · · · + Xm‬כאשר )‪ X1 , . . . , Xm ∼ b(p‬והם בלתי‬


‫‪′‬‬
‫‪ X‬אם ורק אם ‪ eX ≥ emp‬אם‬ ‫תלויים‪ .‬נסמן ‪ .q ′ = 1−p′ ,p′ = p+ǫ‬לכל ‪≥ p′ ,λ > 0‬‬
‫‪m Q‬‬
‫‪Q λXi‬‬ ‫‪′‬‬ ‫‪′‬‬
‫ורק אם ‪ , eXi ≥ emp‬אם ורק אם ‪Q. eλXi ≥ eλmp‬המשתנה‬
‫‪Q‬‬
‫‪ e‬חיובי‪ ,‬ולפי‬
‫] ‪eλXi‬‬ ‫‪λXi‬‬ ‫‪λ‬‬
‫‪≥ eλmp ≤ E[eλmp‬‬ ‫‪= [ E[eeλp′ ] ]m = [ peeλp+q‬‬
‫‪Q λXi‬‬ ‫‪′‬‬ ‫‪m‬‬
‫‪P‬‬ ‫‪e‬‬ ‫‪′‬‬ ‫] ‪′‬‬ ‫אי־שוויון מרקוב‪= ,‬‬
‫‪′‬‬ ‫‪′‬‬
‫‪ ,[peq λ + qe−p λ ]m‬משום ש־‪ P (Xi = 1) = p‬ו־‪ .P (Xi = 0) = q‬נציב = ‪λ‬‬
‫‪′‬‬ ‫‪′‬‬ ‫‪′‬‬
‫‪P m‬‬ ‫‪X‬‬
‫‪) log( qp‬זו נקודת המינימום של הפונקציה ‪ ,(peq λ + qe−p λ‬ונקבל ≤ ‪≥ p + ε‬‬ ‫‪q′ p‬‬
‫)‬
‫‪′‬‬ ‫‪′‬‬
‫‪. pp′ ( ppqq′ )mq = e−D(p+εkp)m‬‬
‫אי־השוויון השני מתקבל מהחלפת המשתנים ‪ Xi‬ב־ ‪ Xi′ = 1 − Xi‬והפעלת אותו‬
‫‬ ‫חסם‪.‬‬

‫‪ 2.8‬פונקציה יוצרת מומנטים‬


‫‪ 2.8.1‬מומנטים‬
‫יהי ‪ X‬משתנה מקרי‪ .‬התוחלות ) ‪ E(X n‬נקראות מומנטים של ‪ .X‬כפי שכבר ראינו‪,‬‬
‫התוחלת )‪ µ = E(X‬והשונות ) ‪ E((X − µ)2‬הם בין התכונות החשובות ביותר של כל‬
‫התפלגות‪ .‬המומנטים ) ‪ E((X − µ)n‬נקראים מומנטים מרכזיים‪.‬‬
‫זו הזדמנות להזכיר שהמומנטים לא בהכרח קיימים‪ :‬המומנט ה־‪n‬־י קיים אם‬
‫האינטגרל המגדיר את התוחלת המתאימה מתכנס‪.‬‬

‫טענה ‪ 2.8.1‬אם למשתנה מקרי ‪ X‬בעל צפיפות ‪ f‬יש מומנט מסדר ‪ ,n‬אז יש לו כל‬
‫המומנטים מסדרים נמוכים יותר‪.‬‬
‫ ‪R1‬‬ ‫ ‬ ‫‪R1‬‬
‫הוכחה‪ .‬לכל ‪ , −1 xk f (x) ≤ −1 f (x)dx < 1 ,k‬ולכן המומנט ה־‪ k‬קיים אם ורק אם‬
‫‪R −1‬‬ ‫∞‪R‬‬
‫∞ < ‪ 1 xk f (x) dx‬ו־∞ < ‪ . −∞ xk f (x) dx‬אבל כאשר ‪ k < n‬אפשר להשוות בקרניים‬
‫‪ R‬‬ ‫‪ R‬‬ ‫ ‬
‫‪ −1 k‬‬ ‫‪ −1 n‬‬ ‫∞‪R‬‬ ‫∞‪R‬‬
‫∞ < ‪ 1 xk f (x) dx ≤ 1 xn f (x) dx‬ובדומה < ‪ −∞ x f (x) dx ≤ −∞ x f (x) dx‬‬
‫ ‬
‫‬ ‫∞‪.‬‬

‫תרגיל ‪ 2.8.2‬נתון ‪ k‬שלם‪ .‬תן דוגמא למשתנה מקרי חיובי שיש לו המומנטים מסדר‬
‫‪ k‬ומטה‪ ,‬ואין לו מומנט מסדר ‪ .k + 1‬הדרכה‪ .‬בחר משתנה מקרי בעל ערכים טבעיים‪,‬‬
‫או משתנה רציף המקבל ערכים בקרן )∞ ‪.[1,‬‬

‫דוגמא ‪ 2.8.3‬הצפיפות )‪ fX (x) = π(x21+1‬מגדירה את התפלגות קושי‪ .‬למרות הסימטריה‪,‬‬


‫למשתנה בעל ההתפלגות הזו אין תוחלת‪ .‬גם למשתנה המקרי |‪ |X‬אין תוחלת‪.‬‬

‫‪91‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.8‬פונקציה יוצרת מומנטים‬

‫לעומת זאת יש משתנים שכל המומנטים שלהם מוגדרים‪ ,‬ובאלו נעסוק בהמשך‬
‫הסעיף‪.‬‬
‫) ‪E((X−µ)3‬‬
‫= )‪ ,γ1(X‬נקרא צידוד‬ ‫‪σ3‬‬
‫המומנט המרכזי השלישי‪ ,‬כשהוא מתוקנן לצורה‬
‫‪ .Skewness‬הוא מודד את חוסר הסימטריה של ההתפלגות‪ :‬למשתנה בעל צידוד‬
‫חיובי יש נטייה לקבל ערכים גבוהים ורחוקים מן הממוצע‪ ,‬יותר מאשר ערכים נמוכים‬
‫הרחוקים ממנו‪ ,‬ובגרף של פונקציית הצפיפות ניכר שהזנב הימני ארוך ועבה יותר מן‬
‫השמאלי‪ .‬הצידוד אינו משתנה תחת ‪4‬הפעלת טרנספורמציה ליניארית‪.‬‬
‫)‬
‫)‪ ,γ2 (X) = E((X−µ‬נקרא גבנוניות ‪.kurtosis‬‬ ‫‪σ4‬‬
‫המומנט המרכזי הרביעי‪− 3 ,‬‬
‫גבנוניות גבוהה מתבטאת בחריגות גדולות ונדירות מן הממוצע‪ ,‬בעוד שגבנוניות נמוכה‬
‫פירושה שהחריגות שכיחות אך קטנות יותר בעוצמתן‪ .‬הגבנוניות מנורמלת כך שלהתפלגות‬
‫הנורמלית יש גבנוניות ‪.0‬‬

‫‪ 2.8.2‬פונקציה יוצרת מומנטים‬


‫אפשר להצמיד למשתנה מקרי פונקציות רציפות בדרכים שונות‪ .‬גישה זו מאפשרת‬
‫לרתום את התוצאות של האנליזה ההרמונית‪ ,‬לחקר משתנים מקריים‪ .‬נתמקד כאן‬
‫בדוגמא הנפוצה ביותר‪.‬‬
‫הפונקציה יוצרת המומנטים של משתנה מקרי ‪ X‬היא הפונקציה הממשית‬
‫‪MX (t) = E(etX ).‬‬
‫)הפונקציה מוגדרת כאשר האינטגרל מתכנס‪ ,‬ולפי הנימוק של טענה ‪ 2.8.1‬תחום‬
‫ההתכנסות הוא קטע‪ ,‬אולי אינסופי ולאו דווקא סימטרי‪ ,‬סביב אפס(‪.‬‬
‫משפט ‪ ([8.26 ,1]) 2.8.4‬אם הפונקציה יוצרת המומנטים של משתנה מקרי ‪ X‬קיימת‬
‫)וסופית( בקטע פתוח סביב ‪ ,0‬אז כל המומנטים קיימים‪ ,‬ויש פיתוח טיילור = )‪MX (t‬‬
‫)‪(n‬‬ ‫‪E(X n ) n‬‬
‫∞ ; בפרט )‪.E(X n ) = MX (0‬‬
‫‪P‬‬
‫‪n=0‬‬ ‫!‪n‬‬
‫‪t‬‬
‫מכאן‪ ,‬כמובן‪ ,‬שמה של הפונקציה הזו‪ .‬למשל‪.MX (0) = 1 ,‬‬
‫דוגמא ‪ 2.8.5‬יהי ) ‪ X ∼ N(µ, σ 2‬משתנה בעל התפלגות נורמלית‪ .‬נחשב את הפונקציה‬
‫יוצרת המומנטים של ‪.X‬‬
‫) ‪MX (t) = E(etX‬‬
‫∞ ‪Z‬‬
‫‪1‬‬ ‫‪(x−µ)2‬‬
‫=‬ ‫√‬ ‫‪e− 2σ2 etx dx‬‬
‫∞‪−‬‬ ‫‪2πσ 2‬‬
‫∞ ‪Z‬‬
‫‪1‬‬ ‫‪(x−(µ+σ 2 t))2 −(2µ+σ 2 t)σ 2 t‬‬
‫√ =‬ ‫‪e−‬‬ ‫‪2σ 2‬‬ ‫‪dx‬‬
‫‪2‬‬
‫∞‪2πσ −‬‬
‫∞ ‪Z‬‬
‫‪µt+σ2 t2 /2‬‬ ‫‪1‬‬ ‫‪(x−(µ+σ 2 t))2‬‬ ‫‪2 2‬‬
‫‪= e‬‬ ‫√‬ ‫‪e−‬‬ ‫‪2σ 2‬‬ ‫‪dx = eµt+σ t /2 .‬‬
‫∞‪−‬‬ ‫‪2πσ 2‬‬

‫‪92‬‬
‫‪ .2.8‬פונקציה יוצרת מומנטים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫‪2 /2‬‬
‫‪ .MZ (t) = et‬כלומר‬ ‫בפרט‪ ,‬עבור המשתנה הנורמלי הסטנדרטי )‪,Z ∼ N(0, 1‬‬
‫∞‬ ‫∞‬
‫‪X‬‬ ‫‪E(Z n )tn‬‬ ‫‪2 /2‬‬
‫‪X‬‬ ‫‪t2m‬‬
‫‪= et‬‬ ‫=‬
‫‪n=0‬‬
‫!‪n‬‬ ‫‪m=0‬‬
‫!‪2m m‬‬

‫!)‪(2m‬‬
‫= ) ‪ .E(Z 2m‬למשל‬ ‫!‪2m m‬‬
‫ולכן ‪ E(Z 2m+1 ) = 0‬לכל ‪ ,m‬ואילו‬

‫!‪4‬‬ ‫!‪6‬‬
‫‪E(Z 2 ) = 1,‬‬ ‫= )‪E(Z 4‬‬ ‫‪= 3,‬‬ ‫= ) ‪E(Z 6‬‬ ‫‪= 15.‬‬
‫!‪22 2‬‬ ‫!‪23 3‬‬

‫דוגמא ‪ 2.8.6‬הפונקציה יוצרת המומנטים של‬


‫‪θ‬‬
‫‪; θ−t‬‬ ‫‪ .1‬התפלגות מעריכית‪:‬‬
‫‪t‬‬
‫‪ .2‬התפלגות פואסון‪.e(e −1)λ :‬‬

‫‪ .3‬התפלגות חי־בריבוע‪.(1 − 2t)−k/2 :‬‬

‫תרגיל ‪ 2.8.7‬יהי ‪ X‬משתנה מקרי חיובי‪ .‬אז )‪.limt→−∞ MX (t) = P (X = 0‬‬

‫טענה ‪ 2.8.8‬אם ‪ X‬משתנה מקרי‪ ,‬אז לכל קבוע ‪ a‬מתקיים )‪.MaX (t) = MX (at‬‬

‫טענה ‪ 2.8.9‬לפי טענה ‪ ,2.2.15‬אם ‪ X, Y‬בלתי תלויים‪ ,‬אז )‪.MX+Y (t) = MX (t)MY (t‬‬

‫תרגיל ‪ 2.8.10‬אם ‪ f ∈ R→R‬פונקציה רציפה כך ש־‪ f (0) = 0‬ו־‬

‫‪f (x + y) + f (x − y) = 2f (x) + f (y) + f (−y),‬‬

‫אז קיימים קבועים ‪ a, b‬כך ש־‪ .f (x) = ax2 + bx‬הדרכה‪ .‬נסמן )‪.g(x) = f (x)+ f (−x‬‬
‫הצבת ‪ −x, −y‬במשוואה‪ ,‬וחיסור המשוואות‪ ,‬מביא ל־)‪ g(x + y) = 2g(x) − g(x − y‬עם‬
‫‪ .g(0) = 0‬באינדוקציה על ‪ ,n‬נובע מכאן )‪ g(nx) = ng(x‬ולכן ‪ g(x) = 2bx‬עבור קבוע‬
‫‪ .c‬מכיוון ש־‪ f (x) = x‬הוא פתרון למשוואה המקורית‪ ,‬גם ההפרש ‪ f˜(x) = f (x) − bx‬הוא‬
‫פתרון‪ .‬אלא ש־)‪ ,f˜(−x) = f (−x) + bx = f (x) − bx = f˜(x‬ולכן‬

‫‪f˜(x + y) + f˜(x − y) = 2f˜(x) + 2f˜(y).‬‬


‫˜ ‪n2‬‬
‫‪f˜( m‬‬
‫‪n‬‬
‫‪y) = m‬‬ ‫˜‬ ‫˜‪2‬‬
‫כעת נציב ‪ ,x = ny‬ונקבל באינדוקציה )‪ ,f (ny) = n f (y‬ולכן גם )‪2 f (y‬‬

‫ובסופו של דבר ‪ f˜(x) = ax2‬עבור קבוע ‪ .a‬לכן ‪.f (x) = f˜(x) + bx = ax2 + bx‬‬

‫‪93‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.8‬פונקציה יוצרת מומנטים‬

‫משפט ‪ 2.8.11‬תהי ‪ F‬התפלגות בעלת והתכונה הבאה‪ :‬אם ‪ X, Y ∼ F‬בלתי תלויים‪ ,‬אז‬
‫‪ X + Y, X − Y‬בלתי תלויים‪ .‬נניח שהפונקציה יוצרת המומנטים של ‪ F‬רציפה‪ .‬אז היא‬
‫שווה לפונקציה יוצרת המומנטים של משתנה בעל התפלגות נורמלית‪.‬‬

‫הוכחה‪ .‬לפי האי־תלות של ‪ ,X + Y, X − Y‬לכל ‪ α, β‬מתקיים‬

‫= )‪M(α)2 M(β)M(−β‬‬ ‫)‪MX+Y (α)MX−Y (β‬‬


‫=‬ ‫)‪Mα(X+Y )+β(X−Y ) (1‬‬
‫=‬ ‫)‪M(α+β)X (1)M(α−β)Y (1‬‬
‫=‬ ‫‪M(α + β)M(α − β).‬‬

‫נסמן )‪ ,L(t) = log MX (t‬אז ‪ L(0) = 0‬ומתקיים‬

‫)‪(2.7‬‬ ‫‪2L(α) + L(β) + L(−β) = L(α + β) + L(α − β).‬‬


‫‪2 t2 /2‬‬
‫‪,M(t) = eµt+σ‬‬ ‫לפי תרגיל ‪ ,2.8.10‬קיימים ‪ σ, µ‬כך ש־‪ ,L(t) = µt + σ 2 t2 /2‬ולכן‬
‫‬ ‫כפי שהיה להוכיח‪.‬‬

‫‪ 2.8.3‬פונקציות יוצרות אחרות‬


‫הערה ‪ 2.8.12‬וריאציות על נושא‪ :‬מגדירים פונקציה יוצרת ) ‪) E(eizX‬כפונקציה מרוכבת(;‬
‫ופונקציית מומנטים פקטוריאליים המחשבת את התוחלות ))‪E(X(X −1) · · · (X −m+1‬‬
‫)מתאימה בעיקר למשתנים בדידים המקבלים ערכים שלמים(‪.‬‬

‫בסעיף זה נציג פונקציה יוצרת נוספת‪ ,‬שיש לה יתרונות בעיקר עבור משתנים‬
‫בדידים‪.‬‬

‫הגדרה ‪ 2.8.13‬יהי ‪ X‬משתנה מקרי‪ .‬מגדירים ) ‪ ,QX (t) = E(tX‬כמובן כאשר הטור‬
‫מתכנס‪.‬‬

‫‪ .QX (et ) = MX P‬אם ‪ X‬מקבל רק ערכים‬ ‫בפונקציה הזו אין חידוש רב‪ ,‬משום ש־)‪(t‬‬
‫= )‪ QX (t‬הוא טור חזקות פורמלי‪ ,‬שהוא‬ ‫טבעיים‪ ,0, 1, 2, . . . ,‬אז ‪P (X = n)tn‬‬
‫איבר של החוג ]]‪ ,R[[t‬וכך אנו פטורים משיקולי התכנסות‪.‬‬

‫תרגיל ‪ 2.8.14‬יהי ‪ X‬משתנה מקרי‪.‬‬

‫‪;QX (1) = 1 .1‬‬

‫‪;Q′X (1) = E(X) .2‬‬

‫‪94‬‬
‫‪ .2.8‬פונקציה יוצרת מומנטים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫)‪(k‬‬
‫‪ .3‬לכל ‪.QX (1) = E[X(X − 1) · · · (X − k + 1)] ,k ∈ N‬‬

‫תרגיל ‪ 2.8.15‬הראה שהטור )‪ QX (t‬מתכנס לפחות בקטע ]‪ ,(−1, 1‬ותן דוגמא‬


‫למשתנה שעבורו זה בדיוק תחום ההתכנסות‪.‬‬

‫תרגיל ‪ 2.8.16‬חשב את )‪ QX (t‬עבור )‪ .X ∼ G(p) ,X ∼ Bin(n, p‬הראה שאם‬


‫)‪ X ∼ Poi(λ‬אז ‪.QX (t) = e(t−1)λ‬‬

‫תרגיל ‪ 2.8.17‬אם ‪ X, Y‬בלתי תלויים‪ ,‬אז )‪.QX+Y (t) = QX (t)QY (t‬‬

‫תרגיל ‪ 2.8.18‬לכל שני משתנים מקריים‪.QY (t) = E(QY |X (t)) ,‬‬

‫תרגיל ‪ 2.8.19‬יהי ‪ Y‬משתנה מקרי המקבל ערכים טבעיים‪ ,‬ונניח שבהנתן ‪ Z ,Y‬הוא‬
‫סכום של ‪ Y‬משתנים מקריים בלתי תלויים ‪ X1 , . . . , XY‬בעלי אותה התפלגות‪.‬‬
‫הראה ש־))‪.QZ (t) = QY (QX (t‬‬

‫תרגיל ‪ 2.8.20‬תהי ‪ F‬התפלגות על המספרים הטבעיים‪ .‬נגדיר עץ מקרי )נקרא גם‬


‫תהליך גלטון־וטסון( להיות עץ‪ ,‬שבו מספר הענפים היוצאים מכל ענף מתפלג לפי‬
‫‪ .F‬פורמלית‪ ,‬התהליך הוא סדרה ‪ ,Y0 , Y1, . . .‬כך ש־‪ Y0 = 1‬ולכל ‪ Yn+1 ,n‬בהנתן‬
‫)‪P n (n‬‬
‫‪ Yi=1‬של ‪ Yn‬משתנים מקריים בלתי תלויים המתפלגים כולם‬ ‫‪ Yn‬הוא הסכום ‪Xi‬‬
‫)‪(n‬‬
‫‪.Xi ∼ F‬‬
‫)‪(n‬‬
‫הראה ש־)‪ ,QYn (t) = QFP(t‬כאשר ‪ n ,Q(n) = Q ◦ · · · ◦ Q‬פעמים‪.‬‬
‫∞‬
‫= ‪ ,S‬מספר הקודקודים הכולל בעץ‪ .‬הראה ש־= )‪QS (t‬‬ ‫נסמן ‪n=0 Yn‬‬
‫))‪) .t · QF (QS (t‬הדרכה‪ :‬אפשר לפרק ‪ S = 1 + S1 + · · · + SY1‬כאשר ‪ Si‬הם‬
‫בעלי אותה התפלגות כמו ‪.(S‬‬
‫מצא את ההתפלגות של ‪ S‬בהנחה ש־)‪ .F = Poi(λ‬דון בהבדלים המהותיים‬
‫בין המקרים ‪.λ > 1 ,λ = 1 ,λ < 1‬‬

‫תרגיל ‪ 2.8.21‬מכתב מסויים מצליח לשכנע כל אדם המקבל אותו לשלוח באקראי‬
‫‪ X‬עותקים של המכתב‪ ,‬כאשר ‪ X‬הוא משתנה מקרי בעל התפלגות קבועה‪ .‬האם‬
‫מכתב השרשרת ידעך או ישרוד? )הראה שהתשובה תלויה רק בתוחלת של ‪.(X‬‬
‫ ‬ ‫ ‬
‫תרגיל ‪ 2.8.22‬בשאלה ‪ ,2.3.37‬מה ההתפלגות של ))‪ , f −1 (f k (w‬כאשר ‪ k‬מספר‬
‫קטן יחסית?‬

‫תרגיל ‪ 2.8.23‬נגדיר סדרת משתנים מקריים באופן הבא‪ ,X0 ∼ Poi(λ) :‬ולכל > ‪n‬‬
‫‪ ,1‬ההתפלגות של ‪ Xn‬בהנתן ‪ Xn−1‬היא ) ‪ .Poi(Xn‬חשב את ) ‪ ,E(Xn‬את ) ‪V(Xn‬‬
‫ואת ) ‪ .Cov(Xn , Xm‬הראה ש־ ‪ P (Xn = 0) = e−λan‬כאשר ‪.an = 1 − e−an−1‬‬
‫הוכח שהסדרה מתאפסת‪ ,‬בסופו של דבר‪ ,‬בהסתברות ‪.1‬‬

‫‪95‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.9‬הלמה של בורל־קנטלי‬

‫‪ 2.9‬הלמה של בורל־קנטלי‬
‫נתבונן בסדרת מאורעות ‪ .A1 , A2 , . . .‬מאורע הנגזר מהם נקרא מאורע זנב אם הוא‬
‫אינו מושפע מאף קבוצה סופית של מאורעות‪ .‬להלן שתי דוגמאות עיקריות‪ .‬מסמנים‬

‫∞‬ ‫∞‬
‫!‬
‫\‬ ‫[‬
‫= ‪lim sup An‬‬ ‫‪Am‬‬ ‫;} ‪= {x : (∃∞ n) x ∈ An‬‬
‫‪n‬‬
‫‪n=1‬‬ ‫‪m=n‬‬

‫זהו המאורע "מתרחשים אינסוף מבין המאורעות ‪ ."An‬בדומה לזה‪ ,‬מגדירים‬

‫∞‬ ‫∞‬
‫!‬
‫[‬ ‫\‬
‫= ‪lim inf An‬‬ ‫‪Am‬‬ ‫;}) ‪= {x : (∃n0 )(n > n0 =⇒ x ∈ An‬‬
‫‪n‬‬
‫‪n=1‬‬ ‫‪m=n‬‬

‫כלומר "המאורעות ‪ An‬מתרחשים ממקום מסויים ואילך"‪ .‬מכיוון ש־‪σ‬־אלגברות‬


‫סגורות לאיחוד ולחיתוך‪ ,‬גם הגבול העליון והגבול התחתון הם מאורעות‪ ,‬וברור שהם‬
‫אינם משתנים אם נשנה מספר סופי מבין המאורעות בסדרה‪.‬‬
‫חוק האפס־אחד של קולמוגורוב )שלא נוכיח כאן( קובע שההסתברות למאורע זנב‬
‫היא תמיד אפס או אחד‪ .‬כלומר‪ ,‬מאורע זנה הוא או "נכון" )מתרחשב בהסתברות‬
‫אחד(‪ ,‬או "לא נכון" )מתרחש בהסתברות אפס(‪ .‬הלמות של בורל־קנטלי עונות לשאלה‬
‫מתי ‪ lim sup An‬נכון‪ ,‬ומתי הוא לא נכון‪.‬‬

‫‪P‬‬
‫‪ .‬אז מתקיים‬ ‫למה ‪) 2.9.1‬הלמה הראשונה של בורל־קנטלי( נניח ש־∞ < ) ‪P (An‬‬
‫‪.P (lim sup An ) = 0‬‬

‫‪P‬‬
‫= ‪ N‬את הסכום‪ .‬כעת‬ ‫‪ P‬המציין של ‪ ,An‬וב־ ‪Xn‬‬‫המשתנה המקרי‬
‫נסמן ב־ ‪ Xn‬את ‪P‬‬
‫הוכחה‪P .‬‬
‫= ) ‪ ,E(N) = E( Xn‬ולפי ההנחה זהו ערך סופי‪ .‬לכן בהכרח‬ ‫= ) ‪E(Xn‬‬ ‫) ‪P (An‬‬
‫‬ ‫‪.P (lim sup An ) = P (N = ∞) = 0‬‬

‫‪P‬‬
‫והמאורעות בלתי תלויים‬ ‫למה ‪) 2.9.2‬הלמה השניה של בורל־קנטלי( אם ∞ = ) ‪P (An‬‬
‫במשותף‪ ,‬אז ‪.P (lim sup An ) = 1‬‬

‫‪96‬‬
‫‪ .2.10‬חוקי המספרים הגדולים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫הוכחה‪ .‬לכל ‪ n‬קבוע מתקיים ש־‬


‫∞‬
‫!‬ ‫∞‬
‫!‬
‫[‬ ‫[‬
‫‪P‬‬ ‫‪Am‬‬ ‫‪= 1−P‬‬ ‫‪Am‬‬
‫‪m=n‬‬ ‫‪m=n‬‬
‫∞‬
‫!‬
‫\‬
‫‪= 1−P‬‬ ‫‪Am‬‬
‫‪m=n‬‬
‫∞‬
‫‪Y‬‬ ‫‬
‫‪= 1−‬‬ ‫‪P Am‬‬
‫‪m=n‬‬
‫‪Y‬‬‫∞‬
‫‪= 1−‬‬ ‫‪(1 − P (Am )) = 1,‬‬
‫‪m=n‬‬
‫∞‪P‬‬ ‫∞‪P‬‬
‫לכל ‪ ,n‬ומזה נובע שהמכפלה‬ ‫‪m=n‬‬ ‫אז ∞ = ) ‪P (Am‬‬ ‫‪m=1Q‬‬‫משום שאם ∞ = ) ‪P (Am‬‬
‫∞‬
‫‪S∞ . m=n (1 − P (Am )) = 0‬‬
‫היא סדרה יורדת‪ ,‬ולכן‬ ‫אבל סדרת המאורעות ‪m=n Am‬‬

‫[ ∞‬ ‫∞‬
‫!‬ ‫∞‬
‫!‬
‫\‬ ‫[‬
‫‪P (lim sup An ) = P‬‬ ‫‪Am = lim P‬‬ ‫‪Am‬‬ ‫‪= 1.‬‬
‫∞→‪n‬‬
‫‪n=1 m=n‬‬ ‫‪m=n‬‬

‫‬

‫‪ P‬תלויים במשותף‪ ,‬מתרחשים אינסוף‬‫לסיכום‪ ,‬לפחות כאשר המאורעות ‪ An‬בלתי‬


‫הוא אינסוף‪.‬‬ ‫מהם אם ורק אם סכום ההסתברויות ) ‪P (An‬‬

‫‪ 2.10‬חוקי המספרים הגדולים‬


‫אם ‪ X1 , X2 , . . .‬סדרה של משתנים מקריים‪ ,‬נסמן ‪.X̄n = (X1 + · · · + Xn )/n‬‬

‫החוק החלש של המספרים הגדולים‬ ‫‪2.10.1‬‬


‫‪P‬‬
‫סדרת משתנים מקריים ‪ Yn‬מתכנסת בהסתברות לקבוע ‪) µ‬כותבים ‪ ,(Yn −→ µ‬אם‬
‫לכל ‪,ε > 0‬‬
‫‪lim P (|Yn − µ| < ε) = 1.‬‬
‫∞→‪n‬‬

‫במלים אחרות‪ ,‬לכל ‪ ,ε > 0‬הסיכוי לכך ש־‪ |Yn − µ| > ε‬שואף לאפס‪.‬‬

‫‪97‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.10‬חוקי המספרים הגדולים‬

‫משפט ‪) 2.10.1‬החוק החלש של המספרים הגדולים( תהי ‪ X1 , X2 , . . .‬סדרה של משתנים‬


‫‪P‬‬
‫מקריים בלתי מתואמים‪ ,‬בעלי אותה תוחלת ‪ µ‬ושונות ‪ .σ 2‬אז ‪.X̄n −→ µ‬‬

‫‬ ‫הוכחה‪ .‬לפי אי־שוויון צ'ביצ'ב‪.‬‬

‫‪. n12‬‬
‫‪P‬‬
‫למעשה אין צורך להניח שונות קבועה‪ :‬די בכך ש־ ‪V(Xi )→0‬‬

‫ציטוט ‪" 2.10.2‬אם נטיל מטבע הוגן מליארד פעמים‪ ,‬יתכן גם רצף של עשרות אלפי 'עץ' ־‬
‫זהו החוק החלש" )ויקיפדיה‪ ,‬הערך "חוק המספרים הגדולים"‪ ,‬עורך אלמוני(‪.‬‬

‫החוק החלש אינו עוסק ברצפים של ערכים‪ .‬אם מטילים מטבע מילארדי פעמים‪,‬‬
‫צפוי שנתקל ברצף של ‪10‬־‪ 11‬הטלות זהות )ראה תרגיל ‪ .(2.3.47‬מה שהחוק החלש‬
‫יודע לומר במצב זה הוא שאם התמשכות סדרת ההטלות‪ ,‬הסיכוי שהערך הממוצע יפול‬
‫בטווח )‪ (0.4999, 0.5001‬הולך וגדל‪ ,‬ושואף לאחד‪.‬‬

‫תרגיל ‪ X1 , . . . , X100 2.10.3‬הם משתנים מקריים בלתי תלויים‪ ,‬בעלי תוחלת ‪0‬‬
‫‪1‬‬ ‫‪1‬‬
‫‪50‬‬
‫‪ . 50‬מה התוחלת של ‪(X51 + · · · +‬‬ ‫ושונות ‪ .1‬ידוע ש־‪(X1 + · · · + X50 ) = 0.14‬‬
‫) ‪?X100‬‬
‫הרהר בתפישה הנפוצה שלפיה המשך הסדרה אמור לתקן את ראשיתה‪ ,‬אם‬
‫זו סוטה מן הממוצע‪.‬‬

‫החוק החזק של המספרים הגדולים‬ ‫‪2.10.2‬‬


‫‪a.s.‬‬
‫סדרת משתנים מקריים ‪ Yn‬מתכנסת כמעט תמיד לקבוע ‪) µ‬כותבים ‪ ,(Yn −→ µ‬אם‬
‫‪.P (lim Yn = µ) = 1‬‬

‫הערה ‪ 2.10.4‬כאן צריך להוכיח שהדרישה ‪ lim Yn = 0‬היא אכן מאורע )אחרת‪ ,‬הסתברות‬
‫מניין(‪ .‬ואכן‪ ,‬המאורע הזה שווה ל־}‪ ,∩d ∪N ∩n≥N {|Yn | < 1/d‬ולכן שייך ל־‪-σ‬אלגברה‬
‫שביחס אליה כל ה־ ‪ Yn‬הם משתנים מקריים‪.‬‬

‫משפט ‪) 2.10.5‬החוק החזק של המספרים הגדולים( תהי ‪ X1 , X2 , . . .‬סדרת משתנים מקריים‬


‫‪a.s.‬‬
‫בלתי תלויים בעלי תוחלת ‪ µ‬ושונות ‪ .σ 2‬אז ‪.X̄n −→ µ‬‬

‫את המשפט החשוב הזה לא נוכיח‪ .‬גם כאן‪ ,‬אין צורך להניח שהשונות קבועה; די‬
‫להניח שהיא חסומה‪.‬‬
‫כעת נוכל לטפל בשאלה האם סדרת משתנים מתכנסת לאפס‪:‬‬
‫‪a.s.‬‬
‫טענה ‪ 2.10.6‬התכנסות כמעט תמיד גוררת התכנסות בהסתברות‪ :‬אם ‪ Yn −→ 0‬אז גם‬
‫‪P‬‬
‫‪.Yn −→ 0‬‬

‫‪98‬‬
‫‪ .2.10‬חוקי המספרים הגדולים‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫הוכחה‪ .‬נקבע ‪ ,ǫ > 0‬ונסמן ב־ ‪ An‬את המאורע ‪ .|Yn | < ǫ‬אז‬

‫)‪1 = P ( lim Yn = 0‬‬


‫∞→‪n‬‬
‫)‪= P (∀δ > 0∃N∀n ≥ N : |Yn | < δ‬‬
‫)}‪= P (∩δ ∪N ∩n≥N {|Yn | < δ‬‬
‫) ‪≤ P (∪N ∩n≥N An‬‬
‫;) ‪= lim P (∩n≥N An ) ≤ lim P (AN‬‬
‫∞→ ‪N‬‬ ‫∞→ ‪N‬‬

‫שים לב ש־) ‪ P (∩An‬אינו הגבול של ) ‪ ,P (An‬כי זו אינה סדרת מאורעות מונוטונית‪ .‬‬

‫דוגמא נגדית לכיוון ההפוך‪:‬‬


‫‪P‬‬
‫טענה ‪ 2.10.7‬נניח ) ‪ Yn ∼ b( n1‬בלתי תלויים‪ .‬אז ‪ ,Yn −→ 0‬אבל היא אינה מתכנסת‬
‫כמעט תמיד‪ :‬הסתברות ההתכנסות היא ‪.0‬‬

‫הוכחה‪ .‬לכל ‪ ,ǫ > 0‬אפשר לחשב ‪ ,P (Yn < ǫ) ≥ P (Yn = 0) = 1 − n1 →1‬ולכן‬


‫‪P‬‬
‫שהיא תתכנס ל־‪ 0‬נדרש שתהיה קבועה‬ ‫‪ .Yn −→ 0‬אבל מכיוון שזו סדרה בדידה‪,‬‬
‫‪ n−1‬כדי ‪Q‬‬
‫ממקום מסויים ואילך; לכל ‪ ,P (∀n ≥ N : Yn = 0) = n≥N n = 0 ,N‬ולכן‬
‫‬ ‫‪.P (∃N : ∀n ≥ N : Yn = 0) = 0‬‬

‫!‬ ‫!!‬ ‫תרגיל ‪2.10.8‬‬


‫∞‬
‫\‬ ‫∞‬
‫[‬ ‫∞‬
‫[‬ ‫∞‬
‫\‬ ‫∞‬
‫[‬
‫‪Am‬‬ ‫=‬ ‫‪Am‬‬ ‫‪.‬‬
‫‪n=1‬‬ ‫‪m=n‬‬ ‫‪k=1‬‬ ‫‪n=k‬‬ ‫‪m=n‬‬

‫‪ 2.10.3‬משפט הגבול המרכזי‬


‫משפט ‪ ,1]) 2.10.9‬משפט ‪ ([8.34‬אם )‪ MX (t‬קיימת לכל ‪ ,t‬אז הפונקציה קובעת את‬
‫ההתפלגות‪ .‬הערה‪ .‬לא נוכיח בקורס‪.‬‬

‫‪D‬‬
‫סדרת משתנים מקריים ‪ Yn‬מתכנסת בהתפלגות למשתנה מקרי ‪) Y‬כותבים →‪Yn −‬‬
‫‪ ,(Y‬אם לכל ‪,a‬‬
‫‪lim P (Yn ≤ a) = P (Y ≤ a).‬‬
‫∞→‪n‬‬

‫‪D‬‬ ‫‪P‬‬
‫טענה ‪ 2.10.10‬אם ‪ ,Yn − Y −→ 0‬אז ‪.Yn −→ Y‬‬

‫‪99‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.10‬חוקי המספרים הגדולים‬

‫‪D‬‬
‫טענה ‪ 2.10.11‬אם )‪ MYn (t)→MY (t‬לכל ‪ ,t‬אז ‪.Yn −→ Y‬‬

‫משפט ‪) 2.10.12‬משפט הגבול המרכזי( תהי ‪ X1 , X2 , . . .‬סדרה של משתנים מקריים בלתי‬


‫¯‬ ‫‪D‬‬
‫‪. Xσ/n√−µ‬‬
‫‪n‬‬
‫תלויים בעלי אותה התפלגות‪ ,‬שיש לה תוחלת ‪ µ‬ושונות ‪ .σ 2‬אז )‪−→ N(0, 1‬‬

‫הוכחה‪ .‬על־ידי טרנספורמציה ליניארית אפשר להניח ‪ .σ = 1 ,µ = 0‬לכן ‪,MX (0) = 1‬‬
‫‪.MX′′ (0) = 1 ,MX′ (0) = 0‬‬
‫ההוכחה בהנחה ש־ )‪ MX (t‬גזירה פעמיים ברציפות ב־‪ .t = 0‬נחשב‪:‬‬
‫√‬
‫‪n·X¯n‬‬
‫)‪lim M√n·X¯n (t‬‬ ‫=‬ ‫‪lim E(et‬‬ ‫)‬
‫∞→‪n‬‬ ‫∞→‪n‬‬
‫√‬
‫=‬ ‫‪lim E(et(X1 +···+Xn )/‬‬ ‫‪n‬‬
‫)‬
‫∞→‪n‬‬
‫√‬
‫‪tX/ n n‬‬
‫=‬ ‫‪lim E(e‬‬ ‫)‬
‫∞→‪n‬‬
‫√‬
‫=‬ ‫‪lim M(t/ n)n‬‬
‫∞→‪n‬‬
‫‬ ‫ √‬
‫)‪log M(t/ n‬‬
‫=‬ ‫‪exp lim‬‬
‫∞→‪n‬‬ ‫‪n−1‬‬
‫√‬
‫‪L′ hospital‬‬ ‫‪t‬‬ ‫)‪log M ′ (t/ n‬‬
‫=‬ ‫‪exp( lim‬‬ ‫√‬ ‫)‬
‫)‪n→∞ 2M(t/ n‬‬ ‫‪n−1/2‬‬
‫ √‬
‫)‪log M ′ (t/ n‬‬
‫‬
‫‪t‬‬
‫=‬ ‫‪exp‬‬ ‫‪lim‬‬
‫∞→‪2 n‬‬ ‫‪n−1/2‬‬
‫‬ ‫‬
‫‪L′ hospital‬‬ ‫‪t‬‬ ‫‪′′‬‬
‫‪p‬‬
‫=‬ ‫‪exp‬‬ ‫))‪lim tM (t/ (n‬‬
‫∞→‪2 n‬‬
‫‪ 2‬‬
‫‪t‬‬
‫=‬ ‫‪exp‬‬ ‫‪.‬‬
‫‪2‬‬
‫‬

‫הערה ‪ 2.10.13‬משפט ‪) Berry-Esseen‬עם קבוע משופר לפי ‪ (Tyurin, 2010‬נותן חסם‬


‫על גודל השגיאה במשפט הגבול המרכזי‪ :‬לכל ‪,z‬‬
‫ ‬ ‫‪ Z z‬‬ ‫ ‬ ‫ ‬ ‫! ‪ 3‬‬
‫̄‪X‬‬ ‫‪n‬‬ ‫‪−‬‬ ‫‪µ‬‬ ‫‪1‬‬ ‫‪t2‬‬ ‫‪1‬‬ ‫‪X‬‬ ‫‪1‬‬ ‫‪−‬‬ ‫‪µ‬‬ ‫‪ √1 .‬‬
‫ ‪√ e− 2 dt ≤ E‬‬
‫ ‬ ‫ ‬ ‫ ‬ ‫ ‬
‫‪ P‬‬ ‫‪√ ≤z −‬‬
‫ ‬ ‫‪σ/ n‬‬ ‫∞‪−‬‬ ‫‪2π‬‬ ‫‪2‬‬ ‫ ‪σ‬‬ ‫‪n‬‬

‫‪P‬‬
‫דוגמא ‪ 2.10.14‬במקרה המיוחד )‪ ,Xi ∼ b(p‬כמובן )‪ ; Xi ∼ Bin(n, p‬במקרה זה‬
‫משפט הגבול המרכזי קובע ש־ )‪ X ∼ Bin(n, p‬מתפלג בקירוב )‪ .N(np, npq‬המשפט‬
‫הזה נקרא 'משפט דה־מואבר‪−‬לפלס'‪ ,‬או הקירוב הנורמלי להתפלגות בינומית‪.‬‬

‫‪100‬‬
‫‪ .2.11‬שרשראות מרקוב‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫תרגיל ‪ 2.10.15‬נניח ש־ ‪ Xi‬הם משתנים מקריים בלתי תלויים‪ ,‬בעלי סיכוי שווה לקבל‬
‫את הערכים ‪ .±1‬הערך את גודלו של הסכום ‪ .X1 + · · · + X1000000‬מה הסיכויים‬
‫לכך שהוא יפול בטווח )‪?(−50, 50‬‬

‫תרגיל ‪ 2.10.16‬את השאלה הבאה הציג סמואל פפיס )‪ (1703-1633‬לניוטון‪ .‬זורקים‬


‫‪ 6k‬קוביות‪ ,‬במטרה לקבל לפחות ‪ k‬פעמים ‪ .6‬מתי הסיכוי גדול יותר‪ :‬כאשר‬
‫‪ k = 2 ,k = 1‬או ‪ ?k = 3‬חשב את הסיכוי כאשר ∞→‪.k‬‬
‫‪P‬‬
‫תרגיל ‪ 2.10.17‬דון בדוגמא )‪ ,X1 , . . . , Xn ∼ P (1‬עם )‪ , Xi ∼ P (n‬וקבל קירוב‬
‫נורמלי להתפלגות פואסונית‪.‬‬
‫‪P‬‬
‫תרגיל ‪ 2.10.18‬דון בדוגמא )‪ ,X1 , . . . , Xn ∼ P (λ/n‬כאשר ‪ λ‬קבוע‪ .‬כאן ∼ ‪Xi‬‬
‫)‪ .P (λ‬האם נובע מזה שכל התפלגות פואסונית היא למעשה נורמלית?‬

‫תרגיל ‪ 2.10.19‬מטילים קוביה מאתיים פעמים‪ .‬הערך את הסיכויים לכך שסכום מאה‬
‫ההטלות הראשונות יהיה שווה לסכום מאה ההטלות האחרונות‪ .‬הדרכה‪ .‬נסמן את שני‬
‫הסכומים ב־ ‪ .S1 , S2‬לפי משפט הגבול המרכזי‪ S1 , S2 ∼ N (350, σ 2 ) ,‬בקירוב עם ‪.σ ≈ 17.07‬‬
‫מכיוון שהסכומים נופלים בדרך כלל בטווח של סטיית תקן או שתיים מן התוחלת‪ ,‬כלומר בטווח‬
‫של כ־‪ 50‬ערכים‪ ,‬הסיכוי הוא בסביבות ‪) .0.02‬השווה לתרגיל ‪ ,2.3.76‬שאפשר לפתור בדרך‬
‫דומה‪(.‬‬

‫‪ P‬עם פרמטר ‪ ,λ‬אפשר‬ ‫תרגיל ‪ 2.10.20‬יהי ‪ λ‬קבוע‪ .‬כדי לקבל משתנה פואסוני‬
‫להגדיר )‪ ,X1 , . . . , Xn ∼ Poi(λ/n‬ולקחת )‪ .X = Xi ∼ Poi(λ‬הסבר מדוע לא‬
‫‪ Poi(λ)−λ‬מתפלג‪ ,‬בקירוב‪.N(0, 1) ,‬‬
‫√‬
‫‪λ‬‬
‫נובע ממשפט הגבול המרכזי שהיחס‬

‫שרשראות מרקוב‬ ‫‪2.11‬‬


‫שרשראות מרקוב הם נושא חשוב ורחב היקף בתורת ההסתברות‪ .‬בחרנו להציג את‬
‫הנושא על קצה המזלג כבר בקורס זה‪ ,‬משום ששרשראות מרקוב פותחות‪ ,‬במאמץ לא‬
‫גדול‪ ,‬פתח לפתרון של בעיות מעניינות וחשובות‪ ,‬הנמצאות מחוץ להישג ידן של השיטות‬
‫שפגשנו עד כה‪.‬‬

‫הגדרה ‪ 2.11.1‬שרשרת מרקוב היא סדרה של משתנים מקריים ‪ ,X0 , X1 , . . .‬כך שלכל‬
‫‪ Xn ,n < m‬מפריד את ‪ Xm‬מהווקטור ) ‪) (X0 , . . . , Xn−1‬ראה הגדרה ‪.(2.2.16‬‬

‫כלומר‪ ,‬ההווה מנתק את הקשר בין העבר והעתיד‪ .‬אנחנו נניח ש־‬

‫‪P (Xn+1 = i|Xn = j) = Aij‬‬

‫‪101‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.11‬שרשראות מרקוב‬

‫אינו תלוי ב־‪) n‬למרות שאפשר ללמוד גם ‪P‬‬


‫שרשראות התלויות בזמן(‪.‬‬
‫לכל ‪ ,j‬אפשר להגדיר שרשרת מרקוב‬ ‫בהנתן מטריצה ‪ Aij‬כך ש־‪i Aij = 1‬‬
‫באינדוקציה ‪ -‬קובעים )או מגרילים( את ‪ ,X0‬ולכל ‪ n‬מגרילים את ‪ Xn+1‬בהתפלגות‬
‫ש־ ‪ Xn‬מכתיב‪.‬‬

‫דוגמא ‪ 2.11.2‬אם מגרילים סדרת משתנים מקריים כך שהתפלגות ‪ Xn+1‬בהנתן ‪X1 , . . . , Xn‬‬
‫תלויה רק ב־ ‪ ,Xn‬מתקבל שרשרת מרקוב‪.‬‬

‫נסמן ב־‪ J‬את וקטור העמודה שכל רכיביו שווים ל־‪ .1‬וקטור התפלגות על ‪ N‬מצבים‬
‫הוא וקטור חיובי ‪ v‬באורך ‪ ,N‬המקיים ‪ .J t v = 1‬לדוגמא‪ ,‬את ההתפלגות '‪X = 2‬‬
‫בוודאות' מקודד וקטור היחידה ‪ .e2‬כל וקטור התפלגות הוא צירוף קמור של וקטורי‬
‫היחידה‪.‬‬

‫טענה ‪ 2.11.3‬תהי ‪ A‬מטריצת מרקוב; אז ‪.J t A = J t‬‬

‫אכן‪,‬‬ ‫טענה ‪ 2.11.4‬סכום הרכיבים בכל וקטור עצמי של ערך עצמי ‪ 6= 1‬הוא אפס‪.‬‬
‫מ־‪ Av = λv‬נובע ‪.J t v = J t Av = λJ t v‬‬

‫למה ‪ 2.11.5‬אם ‪ Xn ∼ v‬אז ‪.Xn+1 ∼ Av‬‬

‫זהו ניסוח מחדש של נוסחת ההסתברות השלמה‪.‬‬


‫באינדוקציה נובע מכאן ש־‪.Xn+k ∼ Ak v‬‬
‫מסקנה ‪.P (Xn+k = i|Xn = j) = (Ak )ij 2.11.6‬‬
‫בפרט‪ ,‬אם ההתפלגות של ‪ X0‬לפי וקטור ‪ ,u‬אז ההתפלגות של ‪ Xn‬היא לפי הווקטור‬
‫‪.An u‬‬

‫תאור גרפי‬ ‫‪2.11.1‬‬


‫שרשרת מרקוב אפשר לתאר בגרף שקודקודיו הם המצבים‪ ,‬כשעל כל חץ כתובה‬
‫ההסתברות למעבר; כלומר‪ ,‬על החץ מ־‪ i‬ל־‪ j‬תופיע ההסתברות )‪.P (Xn+1 = j|Xn = i‬‬
‫אם ההסתברות היא ‪ 0‬אין צורך בחץ‪ .‬אם כל ההסתברויות שוות‪ ,‬אפשר להשמיט את‬
‫הערך‪ .‬סכום כל ההסתברויות היוצאות מקודקוד צריך להיות ‪ ,1‬אלא אם מדובר‬
‫בקודקוד מיוחד שתפקידו מובן מן ההקשר )ראו קודקודים סופגים להלן(‪.‬‬

‫דוגמא ‪ 2.11.7‬הגרף‬
‫‪0.2‬‬ ‫&‬ ‫‪0.4‬‬ ‫&‬
‫‪0.8‬‬ ‫‪9‬‬ ‫‪1f‬‬ ‫‪2f‬‬ ‫‪3‬‬
‫‪0.6‬‬
‫מתאר שרשרת בת שלושה מצבים‪ ,‬שבו אפשר להשאר במצב ‪ 1‬או לעבור ממנו למצב ‪,2‬‬
‫ממצב ‪ 2‬עוברים לאחד משני המצבים האחרים‪ ,‬וממצב ‪ 3‬עוברים מיד למצב ‪.2‬‬

‫‪102‬‬
‫‪ .2.11‬שרשראות מרקוב‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫ההתפלגות הסטציונרית‬ ‫‪2.11.2‬‬


‫התפלגות ‪ u‬היא יציבה אם ‪ .Au = u‬יהי ‪ v‬וקטור עצמי של ערך עצמי כלשהו; כלומר‬
‫‪ .Av = λv‬אז ‪ ,J t v = J t Av = λJ t v‬ולכן יש שתי אפשרויות‪ :‬סכום הרכיבים הוא‬
‫אפס‪ ,‬או שהערך העצמי הוא ‪.1‬‬
‫לכל וקטור עצמי שסכומו אינו אפס‪ ,‬הערך העצמי הוא ‪ .1‬אם ‪ A‬לכסינה‪ ,‬אז‬
‫הווקטור ‪ An u‬הולך ומתקרב להתפלגות הסטציונרית‪ ,‬וזאת לכל וקטור ‪.u‬‬

‫‪15 5 2‬‬
‫‪ .( 22‬פירושו של דבר‬ ‫דוגמא ‪ 2.11.8‬בדוגמא ‪ ,2.11.7‬ההתפלגות הסטציונרית היא ) ‪, 22 , 22‬‬
‫שבטווח הארוך‪ ,‬השרשרת מבלה ‪ 15 : 5 : 2‬מהזמן במצבים ‪ 1, 2, 3‬בהתאמה‪.‬‬
‫‬ ‫‬
‫‪0.2‬‬ ‫‪0.8‬‬
‫דוגמא ‪ 2.11.9‬נגדיר שרשרת מרקוב לפי המטריצה ‪ .A = 0.4 0.6‬חשב את = ‪P (Xn‬‬
‫)‪ ,1|Xn+1 = 1‬בהנחה ש־‪ n‬גדול‪ .‬היפוך הזמן דורש חישוב של )‪.P (Xn = 1‬‬

‫‪ .1‬הראה שאם ‪ A‬מטריצת מרקוב ‪ 2 × 2‬עם וקטור עצמי ‪ v‬של‬ ‫תרגיל ‪2.11.10‬‬
‫הערך העצמי ‪ ,1‬אז ‪.A12 v1 = A21 v2‬‬

‫‪ .2‬הראה שבשרשרת מרקוב עם שני מצבים‪ ,‬אם ‪ n‬גדול‪ ,‬אז‬

‫‪P (Xn+1 = 1|Xn = 2) = P (Xn = 1|Xn+1 = 2).‬‬

‫‪ .3‬לכל ‪ ,k‬אם ‪ n‬גדול מתקיים‬

‫‪P (Xn+k = 1|Xn = 2) = P (Xn = 1|Xn+k = 2).‬‬

‫‪ .4‬הראה שתכונה זו אינה מתקיימת לתהליך ‪ ,3 × 3‬אפילו אם מניחים‬

‫‪P (X1 = 2|X0 = 3) = P (X1 = 1|X0 = 2) = 1.‬‬

‫תרגיל ‪ 2.11.11‬שיכור מהלך על המספרים ‪ ,0, . . . , n − 1‬כשבכל דקה הוא מבצע‬


‫צעד ימינה או שמאלה )מודולו ‪ .(n‬הראה שההתפלגות הסטציונרית היא ההתפלגות‬
‫האחידה‪.‬‬

‫‪103‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.11‬שרשראות מרקוב‬

‫תרגיל ‪ 2.11.12‬מהמר מתחיל את סדרת ההימורים שלו עם ‪ X0‬שקלים בכיסו‪ .‬בכל‬


‫משחקון‪ ,‬הוא מרוויח או מפסיד שקל אחד‪ ,‬בהסתברויות שוות‪ .‬אם הוא מפסיד את‬
‫כל כספו‪ ,‬הוא נזרק מן הקזינו‪ .‬אם הוא מגיע להון של ‪ n‬שקלים‪ ,‬הוא שומר על‬
‫רכושו ויוצא בראש מורם‪ .‬הראה שהסיכוי לכך שהמהמר יצליח שווה ל־ ‪. Xn0‬‬

‫דוגמא ‪ 2.11.13‬הדוגמא הבאה קרויה "ספריית צטלין" )‪ .(Tsetlin‬בספריה מדף ארוך‪,‬‬


‫שהספרן יושב בקצהו‪ .‬בין הספרים יש פופולריים יותר ופחות‪ :‬הסיכוי לבקש את ספר ‪i‬‬
‫הוא ‪ .p1 + · · · + pn = 1 ,pi‬מתוך עצלות‪ ,‬הספרן מחזיר את הספר תמיד לקצה המדף‪,‬‬
‫כשהוא דוחק את שאר הספרים במורד הרשימה‪ .‬עם הזמן‪ ,‬הספריה מתארגנת באופן כזה‬
‫שהספרים המבוקשים קרובים יותר לתחילת המדף‪ .‬זוהי שרשרת מרקוב על !‪ n‬הסידורים‬
‫האפשריים‪ ,‬כאשר התמורה ‪ σ‬מתאימה לסידור הספרים )‪.σ(1), σ(2), . . . , σ(n‬‬
‫לכל ‪ ,i‬הסיכוי לעבור מסידור הספרים המתאים לתמורה ))‪ (σ(1), . . . , σ(n‬אל הסידור‬
‫המתאים לתמורה ))‪ ,(σ(i), σ(1), . . . , σ(i − 1), σ(i + 1), . . . , σ(n‬הוא )‪.pσ(i‬‬
‫הוכח שההתפלגות הסטציונרית של הספרים על המדף היא זו המתקבלת מבחירת‬
‫הספרים לתחילת המדף ואילך‪ ,‬באקראי וללא החזרה‪.‬‬

‫מאורעות שאינם תלויי זמן‬ ‫‪2.11.3‬‬


‫ראינו בסעיף הקודם שחזקות של מטריצת המעבר מאפשרות לחשב היכן יבקר התהליך‬
‫בעוד מספר קבוע של צעדים‪ ,‬ואפילו היכן הוא יבקר בעתיד הרחוק‪ .‬אחת התכונות‬
‫היפות של שרשראות מרקוב היא שאפשר לחשב בעזרתם את ההסתברות למאורעות‬
‫שונים שאינם תלויים בזמן‪ .‬למשל‪ ,‬עבור תהליך נתון‪:‬‬
‫‪ .1‬מה ההסתברות שהתהליך יבקר בסופו של דבר במצב ‪?α‬‬

‫‪ .2‬מה ההסתברות לכך שהביקור הראשון במצב ‪ α‬יתרחש לפני הביקור הראשון‬
‫במצב ‪?β‬‬

‫‪ .3‬מהם הסיכויים לכך שהביקור הראשון במצב ‪ α‬יתרחש בזמן זוגי?‬


‫לפני שנציג פתרון לכל הבעיות האלה‪ ,‬נדון בבעיה בראשונה‪ .‬אם התהליך קשיר‬
‫)כלומר‪ ,‬אפשר להגיע בהסתברות חיובית מכל נקודה לכל נקודה אחרת(‪ ,‬הוא מבקר‬
‫בסופו של דבר בכל מצב )ולכן מבקר בכל מצב אינסוף פעמים(‪ .‬דוגמא פשוטה לתהליך‬
‫לא קשיר מתקבלת כאשר יש בו מצב סופג‪:‬‬

‫הגדרה ‪ 2.11.14‬מצב ‪ t‬של שרשרת מרקוב נקרא מצב סופג אם אי אפשר לעזוב אותו‪,‬‬
‫כלומר ‪.P (Xn+1 = t|Xn = t) = 1‬‬

‫אם יש לתהליך קשיר מצב סופג יחיד‪ ,‬הוא יגיע אליו בסופו של דבר בוודאות‪ .‬שאלה‬
‫‪ 1‬נעשית מעניינת אם יש לתהליך כמה מצבים סופגים‪ ,‬משום שאז לא ברור באיזה מהם‬

‫‪104‬‬
‫‪ .2.11‬שרשראות מרקוב‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫יתקע התהליך בסופו של דבר‪ .‬במקרים רבים אפשר להתאים את התהליך לבעיה‪.‬‬
‫למשל‪ ,‬אם רוצים לדעת מה הסיכויים להגיע למצב ‪ α‬לפני מצב ‪ ,β‬אפשר להפוך את‬
‫שניהם למצבים סופגים‪ ,‬משום שממילא ברגע שהתהליך הגיע לאחד משניהם השאלה‬
‫הוכרעה‪.‬‬
‫התשובה לשאלות שהוצגו בתחילת הסעיף‪ ,‬ואחרות‪ ,‬תלויה במצב ההתחלה‪ .‬על־מנת‬
‫לפתור שאלה כזו למצב התחלה נתון‪ ,‬יש לפתור אותה בבת־אחת לכל מצבי ההתחלה‪,‬‬
‫על־ידי הגדרת משתנים מתאימים ובניה של מערכת משוואות לינארית על המשתנים‪.‬‬
‫נדגים זאת בפתרון הבעיה הראשונה‪ :‬האם התהליך יגיע בסופו של דבר למצב ‪?α‬‬
‫נסמן‬
‫‪pi = P (∃n : Xn = α|X0 = i).‬‬
‫אז ‪ .pα = 1‬אם ‪ β 6= α‬הוא מצב סופג אז כמובן ‪ .pβ = 0‬באופן כללי‪ ,‬לכל ‪,j 6= α‬‬
‫‪X‬‬
‫= ‪pj‬‬ ‫)‪P (∃n : Xn = α|X1 = i, X0 = j)P (X1 = i|X0 = j‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫‪P (∃n : Xn = α|X1 = i)Aij‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫‪Aij pi = (At p)j .‬‬
‫‪i‬‬

‫זוהי כמובן מערכת משוואות ליניארית על המשתנים ‪ ,pi‬שאפשר אפילו להציג באופן‬
‫מטריציאלי‪.‬‬

‫‪ 2.11.15‬הראה שאם מסדרים את המצבים כך ש־‪ α‬הוא האחרון וכותבים‬ ‫תרגיל ‬‫‬
‫‪t‬‬ ‫‪t‬‬ ‫‪t‬‬
‫‪ ,A = w t α‬אז מן המשוואה ‪ J A = J‬יוצא ‪ ,w = (I − B )J0‬כאשר ‪ J0‬מסמן‬ ‫‪B‬‬ ‫‪v‬‬

‫את וקטור ‪ J‬ללא הרכיב האחרון‪ ,‬ולכן ‪ .(I − B t )(~p0 − J0 ) = 0‬אם ‪ α‬מצב סופג‪,‬‬
‫המשוואה שקולה ל־ ‪.(I − A)(~p − J) = 0‬‬

‫דוגמא ‪ 2.11.16‬שתי קבוצות שקולות מתחרות במשיכת חבל‪ .‬יש ארבעה מצבים‪ :‬נצחון‬
‫לראשונה‪ ,‬יתרון לראשונה‪ ,‬יתרון לשניה‪ ,‬נצחון לשניה‪ .‬הסיכוי לעבור מיתרון לנצחון הוא‬
‫‪ .0.2‬נניח שיש יתרון לקבוצה הראשונה‪.‬‬
‫‪0.8‬‬ ‫(‬
‫‪V1 o‬‬ ‫‪0.2‬‬ ‫‪L1 h‬‬ ‫‪L2‬‬ ‫‪0.2‬‬ ‫‪/‬‬ ‫‪V2‬‬
‫‪0.8‬‬

‫מה הסיכוי שהיא תנצח?‬

‫תרגיל ‪ 2.11.17‬חייל משוטט באקראי על לוח שחמט בן ‪ 6 × 6‬משבצות‪ :‬בכל צעד‬


‫הוא בוחר בין כל הכיוונים האפשריים בהסתברויות שוות‪ .‬המשחק נעצר כשהחייל‬

‫‪105‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.11‬שרשראות מרקוב‬

‫נוגע באחת הדפנות‪ ,‬ואז נקבע המנצח‪ :‬הצד "צפון ומזרח" או הצד "מערב ודרום"‪.‬‬
‫חשב את הסיכוי לנצחונו של השחקן הראשון אם החייל עומד ברביעיית המשבצות‬
‫שבמרכז‪ ,‬קרוב יותר לפינה שלו‪) .‬תרגיל זה מדגים כמה חשוב לזהות סימטריות‬
‫במצב‪ :‬לאורך האלכסון שבין השחקנים ההסתברויות הן ‪ ,1/2‬והלוח כולו סימטרי‬
‫לשיקוף באלכסון האחר; במקום ‪ 16‬נעלמים‪ ,‬יש כאן רק ארבעה‪(.‬‬

‫כדי לפתור את בעיה ‪) 3‬ובעיות נוספות בהמשך(‪ ,‬נתבונן במשתנה המקרי‬

‫‪T = min {n : Xn = α},‬‬

‫ונסמן ב־‪ A‬את המאורע '' ‪ T‬זוגי''‪ .‬כעת נסמן‬

‫‪qi = P (A | X0 = i).‬‬

‫שוב אפשר לקבל מערכת משוואות ליניארית מנוסחת ההסתברות השלמה‪,qα = 1 :‬‬
‫ולכל ‪,j 6= α‬‬
‫‪X‬‬
‫= ‪qj‬‬ ‫)‪P (A|X1 = i, X0 = j)P (X1 = i|X0 = j‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫‪P (A|X1 = i)Aij‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫‪Aij (1 − qi ),‬‬
‫‪i‬‬

‫משום שהסיכוי לבקר ב־‪ α‬לראשונה בזמן זוגי‪ ,‬אם ‪ ,X1 = i‬הוא הסיכוי לבקר שם‬
‫לראשונה בזמן אי־זוגי בהנתן ‪.X0 = i‬‬

‫תרגיל ‪ 2.11.18‬הילוך שיכור על ציר המספרים השלמים הוא תהליך מרקוב עם אינסוף‬
‫מצבים‪ ,‬שבו עוברים ממצב ‪ m‬למצבים ‪ m + 1‬ו־‪ m − 1‬בסיכוי ‪ . 21‬הראה ששיכור‬
‫המתחיל את ההילוך בנקודה ‪ m‬כלשהי יגיע בהסתברות ‪ 1‬לנקודה ‪) .0‬אם ‪ pm‬היא‬
‫ההסתברות להגיע לראשית מהנקודה ‪ ,m‬אז ) ‪ pm+1 = 12 (pm+1 + pm−1‬ומכאן ש־‬
‫) ‪(.pm = 1 − m(1 − p1‬‬

‫השפעת התוצאה על התהליך‬


‫הידיעה שמאורע מסויים התרחש‪ ,‬משנה את הסתברויות המעבר עצמן‪ .‬לדוגמא‪ ,‬אם‬
‫שמענו שקבוצת כדורגל מסויימת ניצחה במשחק ואנו צופים בו בשידור חוזר‪ ,‬נדע‬
‫שהסיכוי למהלך מוצלח מצד הקבוצה שניצחה בסופו של דבר‪ ,‬הוא גדול מן הסיכוי‬
‫שהיינו מקצים לאותה הצלחה אלמלא הידיעה המוקדמת‪.‬‬

‫‪106‬‬
‫‪ .2.11‬שרשראות מרקוב‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫חישוב ההסתברויות החדשות אינו מסובך‪ .‬יהי ‪ A‬מאורע שאינו תלוי בזמן‪ ,‬ונניח‬
‫ש־)‪ .pi = P (A|X0 = i‬הסתברויות המעבר בתהליך המותנה הן‬

‫)‪P (A, X1 = j|X0 = i‬‬


‫= )‪P (X1 = j|A, X0 = i‬‬
‫)‪P (A|X0 = i‬‬
‫)‪P (A|X1 = j, X0 = i)P (X1 = j|X0 = i‬‬
‫=‬
‫)‪P (A|X0 = i‬‬
‫‪pj‬‬
‫=‬ ‫‪Aji ,‬‬
‫‪pi‬‬

‫אלא אם ‪ i‬או ‪ j‬הם בעלי משמעות מיוחדת מבחינת המאורע ‪.A‬‬

‫תרגיל ‪ 2.11.19‬בנתוני שאלה ‪ ,2.11.16‬קבוצה ‪ 1‬ביתרון‪ ,‬וידוע שהיא נצחה בסופו של‬
‫דבר‪ .‬מהם הסיכויים לכך שהיתרון יישמט מידה בסיבוב הראשון?‬

‫תוחלת זמן ההגעה‬ ‫‪2.11.4‬‬


‫כדי לחשב את התוחלת ) ‪ ,E(T‬כאשר ‪ T‬הוא המשתנה שהוגדר לעיל עבור מצב קבוע‬
‫‪ ,α‬נבנה מערכת משוואות על התוחלות המותנות‬

‫‪ei = E(T |X0 = i) :‬‬

‫כמובן ‪ ,eα = 0‬ולכל ‪,j 6= α‬‬


‫‪X‬‬
‫= ‪ej‬‬ ‫)‪E(T |X1 = i, X0 = j)P (X1 = i|X0 = j‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫)‪Aij E(T |X1 = i‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫)‪Aij E(T + 1|X0 = i‬‬
‫‪i‬‬
‫‪X‬‬
‫‪= 1+‬‬ ‫‪Aij ei .‬‬
‫‪i‬‬

‫‬ ‫‬
‫‪q 0‬‬
‫= ‪?A‬‬ ‫‪p 1‬‬ ‫דוגמא ‪ 2.11.20‬איך מתפלג המשתנה המקרי ‪ T‬עבור מטריצת המעבר‬
‫הראה ש־‪.e1 = 1/p‬‬

‫‪107‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.11‬שרשראות מרקוב‬

‫תרגיל ‪ 2.11.21‬בהילוך השיכור של תרגיל ‪ ,2.11.18‬הראה שתוחלת זמן ההגעה מהנקודה ‪1‬‬
‫לנקודה־‪ 0‬היא אינסופית )למרות שהסיכוי להגיע הוא ‪) .(1‬אם ‪ en‬היא תוחלת זמן ההגעה‬
‫לאפס מהנקודה ‪ ,m‬אז ) ‪ em = 1+ 21 (em+1 +em−1‬ומכאן ש־ ‪.em = a(e1 −(m−1)) ≥ 0‬‬
‫הסק ש־∞ = ‪(.e1‬‬

‫לאחר חישוב התוחלות אפשר לחשב גם את שונות זמן ההגעה‪ ,‬על־ידי חישוב‬
‫התוחלת של ‪ :T 2‬נגדיר )‪ ,mi = E(T 2 |X0 = i‬כך ש־‪ ,mα = 0‬ולכל ‪j 6= α‬‬
‫‪X‬‬
‫= ‪mj‬‬ ‫)‪E(T 2 |X1 = i, X0 = j)P (X1 = j|X0 = j‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫)‪Aij E(T 2 |X1 = i‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫)‪Aij E((T + 1)2 |X0 = i‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫)‪Aij (mi + 2ei + 1‬‬
‫‪i‬‬
‫‪X‬‬
‫=‬ ‫‪(Aij mi ) + 2ej − 1.‬‬
‫‪i‬‬

‫דוגמא ‪ 2.11.22‬נמיה משוטטת בין שני שיחים הסמוכים למלכודת ‪ ,t‬לפי הגרף הבא‪:‬‬
‫‪0.4‬‬
‫)‬
‫‪0.5‬‬ ‫‪9‬‬ ‫❆ ‪1 ❆i‬‬ ‫‪⑥ e‬‬
‫‪2‬‬ ‫‪0.2‬‬
‫❆❆‬ ‫‪0.6‬‬ ‫⑥‬‫⑥‬
‫⑥‬
‫❆❆‪0.1‬‬ ‫‪0.2‬‬
‫⑥⑥⑥ ❆❆‬
‫⑥~‬
‫‪tY‬‬
‫‪1‬‬

‫מה תוחלת הזמן עד שתיפול למלכודת? מהי השונות? התשובה תלויה כמובן בנקודת‬
‫ההתחלה‪.‬‬

‫דוגמא ‪ 2.11.23‬ארנב ושועל מטיילים בין ארבעה קודקודי ריבוע‪ :‬בכל דקה‪ ,‬הארנב מקפץ‬
‫אל הקודקוד שמימין או משמאל למקומו הנוכחי‪ ,‬והשועל מקפץ אף הוא באקראי ובסיכויים‬
‫שווים‪ ,‬אך בהסתברות חצי הוא נשאר במקומו‪ .‬אם שניהם נמצאים באותו קודקוד‪ ,‬השועל‬
‫טורף את הארנב‪ .‬מה תוחלת חייו של הארנב‪ ,‬בהתחשב במיקום היחסי של שניהם בתחילת‬
‫הסיפור? )העזר בסימטריה כדי להציג את הבעיה כשרשרת מרקוב בת ‪ 4‬מצבים(‪.‬‬
‫כעת נניח שעל אותו ריבוע משוטט שועל נוסף‪ ,‬לפי אותם כללים‪ .‬השועלים יתפסו את‬
‫הארנב רק אם שלושת בעלי החיים נמצאים באותו קודקוד באותו זמן‪ .‬מה תוחלת חייו‬
‫של הארנב הזה?‬

‫‪108‬‬
‫‪ .2.11‬שרשראות מרקוב‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫תרגיל ‪ 2.11.24‬במגדלי האנוי מעבירים בהדרגה מגדל של טבעות במתקן עם‬


‫שלושה מוטות‪ ,‬כאשר טבעת גדולה לעולם אינה מונחת מעל טבעת קטנה‬
‫ממנה‪ .‬כמה צעדים נדרשים כדי להעביר מגדל בן שתי טבעות מן המוט השמאלי‬
‫לימני? ומה קורה אם מעבירים את הטבעות באקראי )בכל פעם מבצעים אחד‬
‫מהמהלכים החוקיים‪ ,‬בהסתברויות שוות(?‬

‫הרחבת זכרון‬ ‫‪2.11.5‬‬


‫שרשרת מרקוב היא‪ ,‬מטבעה‪ ,‬חסרת זכרון‪ .‬כדי לטפל בבעית שבהן נדרש זכרון‪ ,‬יש‬
‫להרחיב את השרשרת על־ידי תוספת מצבים‪.‬‬

‫תרגיל ‪ 2.11.25‬חשב את ההסתברות שבסדרת ניסויי ברנולי‪ ,‬עם הסתברות הצלחה‬


‫‪ ,p‬יתרחשו שתי הצלחות רצופות לפני שמתרחשים שלושה כשלונות רצופים‪.‬‬

‫תרגיל ‪ 2.11.26‬מטילים מטבע הוגן שוב ושוב‪ .‬כמה זמן יש להמתין להופעת הרצף‬
‫‪ ,0100‬הנקרא משמאל לימין? וכמה זמן עד להופעת הרצף ‪?0010‬‬

‫הטענה הבאה מסבירה מדוע התוחלות בתרגיל ‪ 2.11.26‬שוות זו לזו‪.‬‬

‫טענה ‪ 2.11.27‬מטילים קוביה כללית )מספר פאות סופי כלשהו‪ ,‬הסתברויות כלשהן(‪.‬‬
‫תוחלת זמן ההמתנה לרצף ‪ v = v1 · · · vt‬שווה לזו של זמן ההמתנה לרצף ההפוך‬
‫‪.v ′ = vt · · · v1‬‬
‫‪P‬‬
‫= ) ‪,E(T‬‬ ‫הוכחה‪ .‬נסמן ב־ ‪ T‬את תוחלת זמן ההמתנה‪ .‬לפי טענה ‪P (T ≥ n) ,2.3.57‬‬
‫‬ ‫וההסתברויות ל־‪ T ≥ n‬שוות עבור ‪ v‬ועבור ‪ v ′‬מטעמי סימטריה‪.‬‬

‫תרגיל ‪ 2.11.28‬בנתוני טענה ‪ ,2.11.27‬הראה שהסיכוי לכך שרצף ‪ v‬יופיע לפני רצף‬
‫‪ w‬שווה לסיכוי לכך שהרצף המנוגד ‪ v ′‬יופיע לפני הרצף המנוגד ‪ .w ′‬הדרכה‪.‬‬
‫ההסתברות שווה לסכום ההסתברויות לכך ש־‪ v‬מופיע לראשונה בזמן ‪ n‬ואילו ‪ w‬אינו‬
‫מופיע כלל‪.‬‬

‫תרגיל ‪ 2.11.29‬נחשב )ללא תהליכי מרקוב( את תוחלת זמן ההמתנה עד להופעה‬


‫של רצף ‪ ,w‬שאורכו ‪ ,n‬בסדרה ארוכה של הטלות מטבע הוגן‪.‬‬
‫על פי ] )‪ [.Solov’ev, A combinatorial identity..., Theory Prob Appl 11, 276–282, (1966‬סקירת מקורות בנושא זה‪Anant P.] :‬‬

‫‪[Godbole, Stavros G. Papastavridis, “Runs and Patterns in Probability: Selected Papers”, p. 214.‬‬

‫‪ .1‬נאמר שהופעה של ‪ w‬היא ''נקיה'' אם היא אינה חופפת את ההופעה הנקיה‬


‫הקודמת )בפרט‪ ,‬ההופעה הראשונה היא נקיה; ברצף ‪ 0001100000‬יש שתי‬
‫הופעות נקיות של ‪ ,000‬ושתיים לא נקיות(‪ .‬נסמן ב־‪ C‬את מספר ההופעות‬

‫‪109‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.11‬שרשראות מרקוב‬

‫הנקיות של ‪ w‬לאורך הסדרה‪ ,‬וב־‪ D‬את מספר ההופעות הלא נקיות‪.‬‬


‫ההופעות הלא נקיות של ‪ w‬החופפות הופעה נקיה מסויימת הוא‬ ‫מספר‬
‫‪ ,α = n6=k∈K 2k−n‬כאשר ‪ K‬היא קבוצת אורכי החפיפות של ‪ w‬עם עצמו‬
‫‪P‬‬

‫)למשל אם ‪ w = 000‬אז ‪ (.α = 2−1 + 2−2‬הראה ש־)‪.E(D) = αE(C‬‬

‫‪ .2‬הראה ש־‪ ,E(C + D) = 2−n ℓ‬כאשר ‪ ℓ‬הוא אורך הסדרה‪.‬‬

‫‪ .3‬הראה למספר המטבעות שיש להטיל מסופה של הופעה נקיה אחת עד‬
‫לסופה של ההופעה הנקיה הבאה יש אותה התפלגות‪ .‬נסמן את המשתנה‬
‫המקרי הזה ב־‪ .X‬הראה ש־‪) E(C)E(X) = E(CX) ≈ ℓ‬כלומר‪ ,‬היחס‬
‫שואף ל־‪.(1‬‬

‫= )‪ .E(X) = 2n (1 + α‬למשל‪ ,‬תוחלת זמן ההמתנה‬ ‫‪k‬‬


‫‪P‬‬
‫‪ .4‬הסק ש־ ‪k∈K 2‬‬
‫ל־‪ 010101‬היא ‪.26 + 24 + 22‬‬

‫תרגיל ‪ 2.11.30‬נתבונן בסדרת הטלות של מטבע הוגן‪ .‬נסמן ב־ ‪ αu|v‬את תוחלת‬


‫מספר ההטלות עד להופעת הרצף ‪ ,u‬אם הרצף האחרון שהוטל הוא ‪ .v‬בפרט‬
‫נסמן ‪ αu = αu|ε‬כאשר ‪ ε‬מסמן את הרצף הריק‪ .‬הראה כי לכל שלושה רצפים‬
‫‪:u, v, w‬‬

‫‪ .1‬אם ‪ u‬סיפא של ‪ v‬אז ‪ ;αu|v = 0‬אחרת ) ‪.αu|v = 1 + 21 (αu|v0 + αu|v1‬‬

‫‪ .2‬אם ‪ v‬רישא של ‪ ,u‬אז ‪.αu = αv + αu|v‬‬

‫‪ αu|wv ≤ αu|v .3‬ובפרט ‪.αu|v ≤ αu‬‬

‫דוגמא ‪ 2.11.31‬כדי להדגים את השפעת גודל הזכרון על ההתפלגות‪ ,‬להלן חמישה טקסטים‬
‫אקראיים שיוצרו על בסיס ההתפלגות של חמישה חומשי התורה )לפי נוסח המסורה‪,‬‬
‫עם נקודה בסופי הפסוקים(‪ .‬ההתפלגות הראשונה נבנתה על־ידי הגרלת אותיות לפי‬
‫התפלגות אחידה )הוספנו כמה רווחים כדי לשבור את השורות(‪ .‬בשניה הוגרלו האותיות‬
‫לפי השכיחות היחסית שלהן‪ .‬בשלישית כל אות מן השניה ואילך הוגרלה לפי השכיחות‬
‫שלה כעוקבת אחרי האות הקודמת )כאשר הרווח והנקודה נחשבים כאותיות לכל דבר(‪.‬‬
‫בדוגמא הרביעית כל אות‪ ,‬מן השלישית ואילך‪ ,‬הוגרלה לפי השכיחות שלה כעוקבת אחרי‬
‫שתי הקודמות לה‪ ,‬ובדוגמא האחרונה השתמשנו בהתפלגות הרביעיות‪ ,‬כך שההתפלגות של‬
‫כל אות תלויה בשלוש הקודמות לה‪.‬‬

‫תבזגרמףזו באפקבםסתהחךכהטדזךףןףגהפאחטמעזףט חכפקםתכגצךההזה‪.‬למע פולרסםקסףהר‬ ‫‪ .1‬התפלגות אחידה‪:‬‬


‫ךםגץהסתב‪.‬פנבנפחץפפ בדדמ ם צביתשףגפהחטצאאזנצצאבמלםוםנטףמםס‪.‬ן תדי‪.‬קו ר‪.‬פנו‪.‬י ‪.‬גוכןגסגךחינסטגחתונעץצטטם‪.‬רע‪.‬ש‬
‫טף‪.‬וגמחכיךעךתזךפםאסצעבחתילעשבסמבחם‪.‬בף לפטקבתאהיזה פצ‪ .‬כבךאעדידשיטרך‪.‬ןןכןיוםבימחםל‪...‬‬

‫‪110‬‬
‫‪ .2.11‬שרשראות מרקוב‬ ‫פרק ‪ .2‬מבוא להסתברות‬

‫ת רז לעתאהיתעשחד ה נהםמחא השאאל שתרהילהן המוויבכירע ו אבנאבא ע‪.‬האהש ה‬ ‫‪ .2‬התפלגות האותיות‪:‬‬


‫ייהשםסאהה יבתלהיםוילבהאביאוב כ ה ד וש ל צוד תייהלןונ ו ‪.‬בו חאבויתה ראצפר תררדא ענבהםיאלכולשים שודם הדנ‬
‫אטמשלןנאדקוע וביםמב אאןחהאויה ההדש נולעיב אאאבלמעמיץמ ר ה‪.‬האהיה ושהשטנ דנ‪...‬‬

‫אשישח א ו‪ .‬א תהואכלבדת הם עוטואמבכהיוהועואתחבריא לדבכתן אכתעפה לך אתיוים שפישתך‬ ‫‪ .3‬התפלגות הזוגות‪:‬‬
‫ים שם לנחת‪ .‬משרח ל א בנוההעת מניהים והות‪ .‬ל אמא ב תיהסמכל הקר א ארץ מקה ע י ועשפעשר היה בן עים ו ה ל‪.‬‬
‫ח או ות אלי אשבחמחשרב‪ .‬עלדהי בים השת הנעמר ים ע אשרבנתב איהאם ול אלתם ו י‪...‬‬

‫הקד וא תקב לא קדש לאמרועל כי יריב וישמך וצבאנו את הגידך‪ .‬ובני‪ .‬ועלה לותה ליעשה‬ ‫‪ .4‬התפלגות השלשות‪:‬‬
‫לך שבעלה חיום אתו עשה בין‪ .‬ונהוה ארצחו אשריתנו ושמן מצרים לו לאמר אישבעון רע טה אשה המו‪ .‬כי יה השבענו ליו‬
‫הואתולדו‪ .‬ואת אדמושם‪ .‬וית המחציר הואת בלך יב כבליל השית או ומרו אל יד ת‪...‬‬

‫ל יחרם אשר עד ותכלת הבאים עשית קרבנו רעהו עדת ארשה ועמוד ותכחשו את פרע מאת‬ ‫‪ .5‬התפלגות הרביעיות‪:‬‬
‫הגבריתם יקדש ומגרר ומיו את פרעה טרם ימים ונד נזר זניהם אשר לא תשמע בני ארון מכשפה לא תהיה הנתכם בחג הסרד‬
‫בן חמשים‪ .‬וישבים שה יפרש ובין המשקדיו תחשך ולא אליך גזלה על הנגב ויאמר אבן נ‪...‬‬

‫איך יראה טקסט אקראי המבוסס על ההתפלגות של עשיריות?‬

‫‪111‬‬
‫פרק ‪ .2‬מבוא להסתברות‬ ‫‪ .2.11‬שרשראות מרקוב‬

‫‪112‬‬
‫פרק ‪3‬‬

‫מבוא לסטטיסטיקה‬

‫‪ 3.1‬אמידה‬
‫במקרים רבים אנו יודעים שההתפלגות של משתנה מקרי שייכת למשפחה מסויימת‬
‫)למשל‪ ,‬התפלגות מעריכית או התפלגות נורמלית(‪ ,‬אבל איננו יודעים את הפרמטרים‬
‫המתאימים‪ .‬הנחה בסיסית זו נקראת מודל‪ .‬למשל‪ ,‬מספר המטאורים הנצפים מדי דקה‬
‫בלילה מסויים מתפלג פואסונית‪ .‬המודל קובע שהמספר )‪ ,X ∼ Poi(λ‬כאשר ‪ λ‬אינו‬
‫ידוע‪ .‬בניית המודל )סטטיסטי או אחר( היא הצעד הראשון בשיטה המדעית‪ :‬בסופו‬
‫של דבר ‪ X1 , . . . , Xn‬יקבלו ערכים מספריים‪ ,‬ואז הם יחדלו מלהיות משתנים מקריים‪.‬‬
‫הטבע אינו חושף את סודותיו בנקל‪ ,‬ולכן איננו יכולים לדעת כיצד התקבלו המספרים‬
‫האלה; המודל מציע משפחה של אפשרויות לתהליך כזה‪ ,‬ומשאיר בידי הסטטיסטיקאי‬
‫את הצורך להכריע מי מהן היא הסבירה ביותר‪.‬‬
‫תורת האמידה מעריכה פרמטרים של ההתפלגות על־פי ערכים הנדגמים ממנה‪ .‬כפי‬
‫שראינו‪ ,‬למשל‪ ,‬בהתפלגות הנורמלית‪ ,‬הפרמטרים עשויים להיות מומנטים של ההתפלגות‪,‬‬
‫כמו התוחלת והשונות‪ ,‬אבל לגיטימי לנסות לאמוד גם דברים כמו ‪ p/q‬בהתפלגות‬
‫בינומית‪ e−λ ,‬בהתפלגות פואסון‪ ,‬וכן הלאה‪.‬‬
‫בתורת האמידה‪ ,‬ובהסקה סטטיסטית בכלל‪ ,‬האוכלוסיה היא כלל הערכים הרלוונטיים‬
‫)למשל‪ ,‬אורך החיים של כל הנורות שמייצר המפעל(‪ ,‬והמדגם הוא אוסף )בדרך כלל‬
‫קטן( של ערכים שנאספו מן האוכלוסיה‪.‬‬
‫הניתוח המתמטי של המדגם‪ ,‬כמייצג של האוכלוסיה‪ ,‬מבוסס על ההנחה שהדגימה‬
‫אינה מוטה )כלומר‪ ,‬לכל פרט יש סיכוי שווה להופיע במדגם( ‪ -‬אחרת יש לבצע התאמות‬
‫שונות ומשונות‪ .‬זהו אינו קורס בסטטיסטיקה מעשית‪ ,‬ולכן לא נעסוק בהרחבה בהטיות‬
‫דגימה אפשרויות‪ .‬מכיוון שפטור בלא כלום אי אפשר‪ ,‬נסתפק ברמזים‪ :‬לא כל הפרטים‬
‫באוכלוסיה זמינים לצרכי דגימה )חסרי בית; תושבי חו"ל שיגיעו ליום הבחירות(; תהליך‬
‫הדגימה יוצר הטיות )בדגימה לפי מספרי טלפון יש לבעלי שני קווים סיכוי מוגבר‬

‫‪113‬‬
‫פרק ‪ .3‬מבוא לסטטיסטיקה‬ ‫‪ .3.1‬אמידה‬

‫להופיע; בדגימת אנשים בתחנת רכבת או בסניף דואר מגיעים לנוסעי רכבות ושולחי‬
‫דואר(; אנשים נוטים לשקר בסקרים )למשל בנושא שכר‪ ,‬הרגלים אישיים‪ ,‬אמונות‪' ,‬האם‬
‫עברת הטרדה מינית'( או להבין את השאלות אחרת מן הפרשן‪ ,‬כשעוסקים בהעדפות‬
‫ודעות התשובה אינה יציבה )האם אתה אוהב כרוב? לפעמים‪ ;(.‬ועוד ועוד‪.‬‬

‫אמידה נקודתית‬ ‫‪3.1.1‬‬


‫אומד נקודתי עבור פרמטר מסויים הוא פונקציה של המדגם שאינה תלויה בפרמטר )כל‬
‫פונקציה כזו נקראת סטטיסטי( שערכה אמור להיות קרוב לפרמטר המבוקש‪ .‬לדוגמא‪,‬‬
‫‪X1 +X2‬‬
‫‪2‬‬
‫אם המדגם כולל ) ‪ ,X1 , . . . , Xn ∼ N(µ, σ 2‬כאשר ‪ µ, σ 2‬אינם ידועים‪ ,‬אז ‪ X3‬ו־‬
‫הם אומדים אפשריים עבור ‪ .µ‬ערך של האומד נקרא אומדן‪.‬‬
‫כדי להבין איך פועל אומד נקודתי‪ ,‬יש לקרוא את התהליך בסדר הנכון‪ .‬הפרמטר‬
‫‪ θ‬הוא קבוע‪ ,‬אבל אינו ידוע לנו )אחרת לא היה צורך לאמוד אותו(‪ .‬עם זאת‪ ,‬הפרמטר‬
‫קובע את ההתפלגות ‪) Fθ‬היינו‪ ,‬זוהי משפחה של התפלגויות‪ ,‬ולכל ערך מתאימה‬
‫התפלגות אחרת(‪ ,‬ונתוני המדגם נאספים מתוך ההתפלגות ‪ .Fθ‬לאומד‪ ,‬המורכב מנתוני‬
‫המדגם‪ ,‬יש התפלגות‪ ,‬שגם היא תלויה ב־‪ .θ‬בפרט‪ ,‬התוחלת של האומד תלויה ב־‪θ‬‬
‫)אבל לא בנתוני המדגם – הרי זו תוחלת(‪.‬‬

‫הגדרה ‪ 3.1.1‬נניח ש־ ‪ ,X1 , . . . , Xn ∼ Fθ‬כאשר ‪ θ‬הוא פרמטר הקובע את ההתפלגות‪.‬‬


‫סטטיסטי ) ‪ T = t(X1 , . . . , Xn‬הוא אומד חסר הטיה של הפרמטר ‪ θ‬אם לכל ערך של‬
‫‪ ,θ‬התוחלת של ‪ T‬בהנחה ש־ ‪ X1 , . . . , Xn ∼ Fθ‬שווה ל־‪.θ‬‬
‫)באופן כללי יותר‪ ,‬סטטיסטי שהתוחלת שלו היא תמיד )‪ τ (θ‬הוא אומד חסר הטיה‬
‫ל־)‪(.τ (θ‬‬

‫דוגמא ‪ 3.1.2‬הזמן הנדרש לתוכנית מחשב מסויימת להתחיל לרוץ מתפלג מעריכית עם‬
‫תוחלת ‪ 30 + 12θ‬שניות‪ ,‬כאשר ‪ θ‬הוא מספר הווירוסים המתרוצצים בזכרון‪ .‬יהיה‬
‫נאיבי מצידנו לצפות שזמן הריצה )‪ X ∼ Exp(θ‬יהיה בדיוק ‪ ,30 + 12θ‬ובכל זאת‪,‬‬
‫‪1‬‬
‫‪ T = 12‬הוא אומד חסר הטיה למספר הווירוסים‪ ,‬משום שהתוחלת שלו היא ‪.θ‬‬ ‫)‪(X − 30‬‬
‫תרגיל‪ .‬מצא אומד חסר הטיה המקבל ערכים שלמים‪.‬‬

‫תרגיל ‪ 3.1.3‬בכל התפלגות‪ ,‬הממוצע ) ‪ n1 (X1 + · · · + Xn‬הוא אומד חסר הטיה של‬
‫התוחלת‪.‬‬

‫תרגיל ‪ 3.1.4‬במה עדיף הממוצע ) ‪ n1 (X1 + · · · + Xn‬על־פני האומד ‪ ,X2‬אם ממילא‬


‫שניהם חסרי הטיה?‬

‫תרגיל ‪ 3.1.5‬כשרוצים לאמוד את מספר התומכים במפלגת 'כרוב וחסה'‪ ,‬מניחים‬


‫שיש באוכלוסיה שעור מסויים‪ ,p ,‬של תומכים‪ .‬כשבוחרים את המדגם האקראי‪,‬‬
‫הסיכוי של כל משתתף במדגם להשתייך לקבוצת התומכים הוא ‪ ,p‬ולכן תוצאות‬

‫‪114‬‬
‫‪ .3.1‬אמידה‬ ‫פרק ‪ .3‬מבוא לסטטיסטיקה‬

‫המדגם מתפלגות )‪ .X1 , . . . , Xn ∼ b(p‬בדוק שהממוצע הוא אומד חסר הטיה ל־‬
‫‪ .p‬מה שונותו? איך היא תלויה ב־‪) n‬האם כדאי לקחת מדגם גדול פי ‪ (?100‬איך‬
‫תלויה השונות ב־‪ ,p‬ומה משמעות התוצאה הזו בבואנו לאמוד את מספר התומכים‬
‫במפלגה שעל גבול אחוז החסימה?‬

‫תרגיל ‪ 3.1.6‬מה דעתך על פרסום )אפרת וייס‪ (Ynet ,3/11/2002 ,‬שכותרתו‬


‫"מחקר‪ 141,710 :‬נשים מוכות בישראל"?‬

‫‪1‬‬
‫= ‪ ,s2‬והסק‬ ‫תרגיל ‪ 3.1.7‬חשב את התוחלת של שונות המדגם ‪(Xi − X̄)2‬‬
‫‪P‬‬
‫‪n‬‬
‫שזהו אינו אומד חסר הטיה לשונות האוכלוסיה ‪.σ 2‬‬

‫דוגמא ‪ 3.1.8‬נניח ש־) ‪.X1 , . . . , Xn ∼ N(µ, σ 2‬‬

‫‪ .1‬הממוצע הוא אומד חסר הטיה לתוחלת ‪.µ‬‬


‫‪1‬‬
‫‪ S 2 = n−1‬הוא אומד חסר הטיה של השונות ‪.σ 2‬‬ ‫‪(Xi − X̄)2 .2‬‬
‫‪P‬‬

‫למרות ש־ ‪ ,E(S 2 ) = σ 2‬אין סיבה לצפות ש־‪ ;E(S) = σ‬אכן‪ ,‬לא קיים אומד חסר‬
‫הטיה של סטיית התקן ‪ σ‬בהתפלגות כללית‪.‬‬

‫תרגיל ‪ 3.1.9‬רוצים לאמוד את האחוז ‪ p‬של הילדים הפוחדים מחושך‪ .‬חוששים‬


‫שהילדים לא יענו על שאלה כזו בכנות‪ ,‬ולכן מבקשים מהם לפעול כדלקמן‪ :‬כל‬
‫ילד יטיל מטבע; אם יצא 'עץ' הוא יאמר את התשובה הנכונה‪ ,‬ואם יצא 'פלי' הוא‬
‫יטיל מטבע שני‪ ,‬ויתן תשובה אקראית )כן או לא( על־פי התוצאה שקיבל שם‪.‬‬
‫הילדים לא יחששו לשתף פעולה‪ ,‬משום שתשובה חיובית יכולה להתקבל גם‬
‫כתוצאה מהטלת מטבע‪.‬‬

‫‪ .1‬אם ילד עונה שהוא פוחד מחושך‪ ,‬מה הסיכוי שזה אכן כך?‬

‫‪ .2‬כתוב את הסטטיסטי המתקבל באופן כזה‪ ,‬ובנה ממנו אומד חסר הטיה של‬
‫הפרמטר המבוקש‪) .‬מהי שונות האומד? השווה אותה לשונות של האומד‬
‫שהיה מתקבל אם אפשר היה לסמוך על התשובות כלשונן‪(.‬‬

‫רעיון ‪ 3.1.10‬פיקוד העורף מבצע תרגיל לבדיקת צופרי האזעקה‪ .‬אם יודיעו מראש שכל‬
‫אזרח שאינו שומע את האזעקה מתבקש להתקשר ולהתריע על כך‪ ,‬קווי הטלפון בפיקוד‬
‫יקרסו‪ .‬נתח את האפשרות שרק שהאזרחים שמספר הזהות שלהם מסתיים ב־‪ 345‬יתבקשו‬
‫להודיע במקרה הצורך‪ .‬מה דעתך על האלטרנטיבה‪ ,‬שלפיה רק אלו שמספר הזהות שלהם‬
‫מתחיל ב־‪ 345‬יתקשרו?‬

‫‪115‬‬
‫פרק ‪ .3‬מבוא לסטטיסטיקה‬ ‫‪ .3.1‬אמידה‬

‫תרגיל ‪ 3.1.11‬בבחירות לנשיאות בארצות הברית זוכה המועמד שצבר את מספר האלקטורים‬
‫ביותר‪ .‬ממדינה ‪ ,i = 1, . . . , k) i‬כאשר למשל ‪ (k = 50‬מגיעים ‪ ni‬אלקטורים‪,‬‬ ‫הגדול ‪P‬‬
‫= ‪ N‬אלקטורים בסך־הכל‪ .‬הסיכוי של מועמד ‪ A‬לנצח במדינה ‪) i‬על־פי‬ ‫מתוך ‪ni‬‬
‫‪1‬‬ ‫‪0‬‬
‫הסקרים המקומיים( הוא ‪ pi‬בדיוק‪ .‬נסמן ‪ p = p‬ו־)‪P.p = (1 − p‬הראה שהסיכוי של‬
‫‪ A‬לנצח בסופו של דבר הוא ) ‪.P = (ǫ1 ,...,ǫk )∈{0,1}k : P ǫini > 1 N (pǫ11 · · · pǫkk‬‬
‫‪2‬‬

‫קבוצת הווקטורים ‪ (ǫ1 , . . . , ǫk ) ∈ {0, 1}k‬המקיימים את התנאי ‪ǫi ni > 12 N‬‬


‫‪P‬‬
‫היא‬
‫מסובכת למדי‪ ,‬וחישוב ישיר של ‪ P‬עשוי להיות בלתי אפשרי‪ .‬הצע דרך מהירה לאמוד את‬
‫הפרמטר ‪ .P‬הדרכה‪ .‬בכל אחת מ־‪ 1000‬החזרות על הניסוי‪ ,‬מטילים ‪ k‬מטבעות‪.‬‬

‫השוואת אומדים‬
‫המודל קובע ש־ ‪ .X1 , . . . , Xn ∼ Fθ‬נניח ש־) ‪ T = t(X1 , . . . , Xn‬הוא אומד חסר הטיה‬
‫של ‪ .θ‬כדי להעריך את איכות האומד‪ ,‬ולבחור בין כמה אומדים אפשריים‪ ,‬מתבוננים‬
‫בשונות ) ‪ .Vθ (T‬גם כאן חשוב להדגיש שהשונות תלויה ב־‪ ,θ‬ולכן יתכן שאומד מסויים‬
‫יהיה בעל שונות נמוכה משל אומד אחר עבור ערכים מסויימים של הפרמטר‪ ,‬אבל בעל‬
‫שונות גבוהה יותר במקומות אחרים‪.‬‬
‫הגדרה ‪ 3.1.12‬אם ) ‪ Vθ (T1 ) ≤ Vθ (T2‬לכל ערך של ‪ ,θ‬אומרים ש־ ‪ T1‬עדיף על ‪.T2‬‬
‫מן ההגדרה מובן שבהנתן שני אומדים‪ ,‬יתכן שאף אחד מהם אינו עדיף על משנהו‪.‬‬
‫‪X1 +Xn‬‬
‫בתור אומדים לתוחלת בהתפלגות‬ ‫‪2‬‬
‫דוגמא ‪ 3.1.13‬הראה שהאומד ̄‪ X‬עדיף על‬
‫) ‪.N(µ, σ 2‬‬
‫תרגיל ‪ 3.1.14‬כל אחד מן המשתנים המקריים הבלתי תלויים ‪ X1 , . . . , Xn‬הוא אומד‬
‫חסר הטיה לגודל מסויים‪ ,‬עם שונות ‪ .E(Xi ) = σi2‬צירוף ליניארי ‪Y = α1 X1 +‬‬
‫‪ · · · + αn Xn‬הוא אומד חסר הטיה אם ‪P.α1 + · · · + αn = 1‬מצא את האומד בעל‬
‫השונות הקטנה ביותר מצורה זו‪ .‬הראה שעבורו ‪ ,V(Y ) = ( σi−2 )−1‬וערך זה‬
‫קטן מכל אחת מן השונויות ‪.σi2‬‬
‫תרגיל ‪ 3.1.15‬נניח ש־]‪.X1 , . . . , Xn ∼ U[0, θ‬‬
‫העזר בתרגיל ‪ 2.6.6‬כדי להראות שכל אחד מסטטיסטיי הסדר המתוקנים‬
‫‪n+1−k 2‬‬
‫‪ . (n+2)k‬השווה את‬ ‫‪ n+1‬מהווה אומד חסר הטיה לפרמטר ‪ ,θ‬בעל שונות ‪θ‬‬ ‫‪k‬‬
‫)‪X(k‬‬
‫‪2‬‬ ‫‪n+1‬‬ ‫‪n+1‬‬
‫האומד } ‪ n X(n) = n max {Xi‬לכפליים הממוצע ) ‪ . n (X1 + · · · + Xn‬איזה‬
‫אומד עדיף?‬
‫הגדרה ‪ 3.1.16‬אומד חסר הטיה שהוא עדיף על כל אומד חסר הטיה אחר‪ ,‬נקרא אומד‬
‫חסר הטיה בעל שונות מינימלית במידה שווה )ובקיצור‪ ,‬על־פי ראשי התיבות של השם‬
‫האנגלי‪.(UMVUE ,‬‬
‫ההפתעה הגדולה היא שעבור מודלים רבים‪ ,‬אומד כזה אכן קיים; מקוצר היריעה‬
‫לא נוכל להרחיב בכיוון זה‪.‬‬

‫‪116‬‬
‫‪ .3.1‬אמידה‬ ‫פרק ‪ .3‬מבוא לסטטיסטיקה‬

‫אומד נראות מקסימלית‬


‫נניח שהצפיפות של המשתנים ‪ Xi‬היא )‪ ,f (x; θ‬כאשר ‪ θ‬פרמטר לא ידוע הקובע את‬
‫‪ Q‬הנראות של המדגם ‪ X1 , . . . , Xn‬היא המכפלה = )‪L(X1 , . . . , Xn ; θ‬‬ ‫ההתפלגות‪.‬‬
‫)‪. f (Xi ; θ‬‬
‫אומד הנראות המקסימלית של ‪ θ‬הוא הפונקציה ) ‪ T = t(X1 , . . . , Xn‬המביאה את‬
‫)) ‪ L(X1 , . . . , Xn ; t(X1 , . . . , Xn‬למקסימום‪.‬‬
‫באופן מעשי‪ ,‬כדי למצוא את אומד הנראות המקסימלית‪ ,‬אפשר לגזור לפי ‪ θ‬את‬
‫)‪ ,log L(X1 , . . . , Xn ; θ‬ולהשוות לאפס‪.‬‬

‫‪ .1‬מצא את אומד הנראות המקסימלית עבור ‪ µ‬כאשר המדגם‬ ‫תרגיל ‪3.1.17‬‬


‫מגיע מהתפלגות נורמלית )‪.X1 , . . . , Xn ∼ N(µ, 1‬‬

‫‪ .2‬מצא את אומד הנראות המקסימלית עבור ‪ θ‬אם ) ‪.X1 , . . . , Xn ∼ N(θ, θ2‬‬

‫‪ .3‬מצא את אומד הנראות המקסימלית עבור ‪ θ‬אם )‪.X1 , . . . , Xn ∼ U(0, θ‬‬

‫רווחי סמך‬ ‫‪3.1.2‬‬


‫באמידה נקודתית מציעים סטטיסטי )היינו‪ ,‬פונקציה של המדגם(‪ ,‬האמור ''לקלוע'' אל‬
‫הערך של הפרמטר‪ .‬באמידת רווח המטרה שונה‪:‬‬

‫בעיה ‪ 3.1.18‬נאסף מדגם בלתי תלוי ‪ ,X1 , . . . , Xn ∼ Fθ‬מהתפלגות השייכת למשפחה‬


‫מוכרת של התפלגויות‪ ,‬התלויה בפרמטר ‪ θ‬שערכו אינו ידוע‪ .‬יש ליצור מנתוני המדגם רווח‬
‫) ‪ ,(T1 , T2‬כאשר ‪ T1 , T2‬הם סטטיסטים‪ ,‬כך שהסיכוי‬

‫) ‪Pθ (T1 < τ (θ) < T2‬‬

‫שווה למספר ‪ 1 − α‬שנקבע מראש‪.‬‬

‫הקטע ) ‪ (T1 , T2‬נקרא רווח סמך בעל רמת מובהקות ‪ α‬עבור )‪ .τ (θ‬גודל טיפוסי ל־‪α‬‬
‫הוא ‪ 0.05‬או ‪.0.01‬‬
‫אנו מסמנים )·( ‪ Pθ‬כדי להדגיש שההסתברות למאורע תלויה בפרמטר‪ :‬זוהי ההסתברות‬
‫במקרה ש־ ‪.X1 , . . . , Xn ∼ Fθ‬‬
‫לאחר ביצוע הליך הדגימה בפועל‪ ,‬המשתנים המקריים ‪ X1 , . . . , Xn‬מקבלים ערכים‬
‫מספריים‪ ,‬וכך הופכים גם קצות הקטע ‪ T1 , T2‬למספרים‪ ,‬נאמר ‪.t1 , t2‬‬
‫זו מכשלה נפוצה לומר שבמקרה זה‪" ,‬הסיכוי לכך שהפרמטר ‪ θ‬נמצא בין ‪ t1‬ל־ ‪t2‬‬
‫הוא ‪ ."1 − α‬ניסוח זה שגוי בתכלית‪ ,‬משום שלפרמטר אין התפלגות ‪ -‬הוא מספר‬
‫)וגם אם הוא נקבע על־פי התפלגות כלשהי‪ ,‬התפלגות זו אינה נלקחת בחשבון בחישוב‬
‫הרווח(‪ .‬אם כך‪ ,‬הסיכוי לכך שהפרמטר יהיה בין שני מספרים הוא או אפס או אחד‬

‫‪117‬‬
‫פרק ‪ .3‬מבוא לסטטיסטיקה‬ ‫‪ .3.1‬אמידה‬

‫)גם אם איננו יודעים איזו אפשרות היא הנכונה(‪ .‬א־פריורי‪ ,‬הסיכוי לכך שהפרמטר‬
‫יהיה שייך לקטע הוא בדיוק ‪ ;1 − α‬אבל לאחר מעשה‪ ,‬גורל הניסוי כבר נגזר‪ ,‬לשבט‬
‫)בסיכוי ‪ (α‬או לחסד‪ ,‬והוא איננו מאורע הסתברותי‪.‬‬
‫השיטה הפשוטה ביותר לבניית רווח סמך היא שיטת הכמות הצירית‪ ,‬שלפיה אנו‬
‫מוצאים פונקציה של המדגם ושל הפרמטר‪ ,‬שהתפלגותה אינה תלויה בפרמטר‪.‬‬

‫רווחי סמך לפרמטרים של ההתפלגות הנורמלית‬ ‫‪3.1.3‬‬


‫‪X1 −µ‬‬
‫= ‪ Q‬אינה‬ ‫‪σ‬‬
‫דוגמא ‪ 3.1.19‬נניח ש־) ‪ .X1 , . . . , Xn ∼ N(µ, σ 2‬אז ההתפלגות של‬
‫תלויה בפרמטרים‪ ,‬ולכן היא כמות צירית‪.‬‬
‫נחוצים לנו סימונים שיהפכו את פונקציית ההצטברות של ההתפלגויות הרלוונטיות‪:‬‬
‫הגדרה ‪ 3.1.20‬לכל ‪ zγ ,0 < γ < 1‬הוא המספר )היחיד( כך שמשתנה מקרי ∼ ‪Z‬‬
‫)‪ N(0, 1‬מקיים ‪.P (Z < zγ ) = γ‬‬
‫בדומה לזה‪ tm,γ ,‬מוגדר כך שמשתנה מקרי ‪ Z ∼ tm‬מקיים ‪ ,P (Z < tm,γ ) = γ‬וכך‬
‫גם ‪ P (W < χ2m,γ ) = γ‬כאשר ‪.W ∼ χ2m‬‬
‫את הערכים ‪ zα‬אפשר לקרוא בטבלה מתאימה‪ .‬הערכים השכיחים‪ ,‬שכדאי לזכור‬
‫בעל־פה‪ ,‬הם ‪ .z0.99 = 2.33 ,z0.975 = 1.96 ,z0.95 = 1.645‬בגלל הסימטריות של‬
‫ההתפלגות הנורמלית‪ .z1−α = −zα ,‬אם ‪.zα < 0 < z1−α ,α < 0.5‬‬

‫רווח סמך לתוחלת‬


‫נניח ש־) ‪ X1 , . . . , Xn ∼ N(µ, σ 2‬משתנים נורמליים בלתי תלויים‪ .‬אנו מבקשים רווח‬
‫‪.X̄n = X1 +···+X‬‬
‫‪n‬‬
‫‪n‬‬
‫סמך עבור התוחלת ‪ ,µ‬שאינה ידועה‪ .‬נסמן‬
‫‪ Q = X̄σ/n√−µ‬היא כמות צירית‪ ,‬בעלת התפלגות )‪.N(0, 1‬‬ ‫‪n‬‬
‫אם השונות ‪ σ 2‬ידועה‪ ,‬אז‬
‫ ‬ ‫ ‬
‫‪ ,P ( X̄σ/n√−µ‬ומכאן נובע ש־‬ ‫לפי הגדרה ‪ 3.1.20‬של ‪> z1− α2 ) = α ,z1− α2‬‬
‫ ‬ ‫ ‬
‫ ‪n‬‬
‫ ‬ ‫ ‬ ‫‪σ‬‬
‫‪P ( X̄n − µ > z1− α2 √ ) = α.‬‬
‫‪n‬‬

‫מסקנה ‪ 3.1.21‬ש־) ‪ X1 , . . . , Xn ∼ N(µ, σ 2‬משתנים נורמליים בלתי תלויים בעלי שונות‬


‫ידועה ‪ ,σ‬אז ) ‪ (X̄n − z1− α2 √σn , X̄n + z1− α2 √σn‬הוא רווח סמך בעל רמת מובהקות ‪α‬‬
‫לפרמטר ‪.µ‬‬
‫)זוהי רק דוגמא אחת למשפחה שלמה של רווחי סמך עבור ‪ ,µ‬שכולם בעלי אותה רמת‬
‫מובהקות‪ ,(X̄n + zγ √σn , X̄n + z1−α+γ √σn ) :‬כאשר ‪ 0 ≤ γ ≤ α‬הוא מספר כלשהו‪.‬‬
‫המקרה הקיצוני ‪ γ = 0‬נותן את רווח־הסמך החד־צדדי ) ‪ ,(−∞, X̄n +z1−α √σn‬והמקרה‬
‫‪ γ = α‬נותן )∞ ‪(.(X̄n + zα √σn ,‬‬

‫‪118‬‬
‫‪ .3.1‬אמידה‬ ‫פרק ‪ .3‬מבוא לסטטיסטיקה‬

‫תרגיל ‪ 3.1.22‬חשוב איך משפיע שינוי בכל אחד מהפרמטרים ‪ α, σ, n‬על רוחבו של‬
‫הרווח לתוחלת‪ .‬נסח את המסקנה במלים )ככל שרמת המובהקות קטנה יותר‪,‬‬
‫‪ ;...‬ככל שהמדגם גדול יותר‪(... ,‬‬

‫תרגיל ‪ 3.1.23‬את המשקל הממוצע של אדם בוגר בישראל אפשר להעריך באמצעות‬
‫מדגם בגודל ‪') 200‬אפשר להעריך' פירושו שאפשר לקבל רווח סמך ברוחב מסויים‬
‫וברמת מובהקות מסויימת(‪ .‬מה צריך להיות גודל המדגם אם רוצים להעריך את‬
‫המשקל הממוצע של אדם מבוגר בארצות־הברית‪ ,‬שאוכלוסיה מרובים פי ‪?50‬‬

‫כאשר השונות אינה ידועה‪ ,‬איננו יכולים להשתמש ברווח הסמך של מסקנה ‪:3.1.21‬‬
‫יש לבחור בכמות צירית שאינה מערבת את השונות ‪ .σ‬עלינו להחליף את ‪ σ 2‬באומד‬
‫שלו; למשל‪ ,‬האומד‬
‫‪1‬‬ ‫‪X‬‬
‫= ‪S2‬‬ ‫‪(Xi − X̄)2‬‬
‫‪n−1‬‬
‫של טענה ‪.3.1.8‬‬

‫משפט ‪ 3.1.24‬נניח ש־) ‪ X1 , . . . , Xn ∼ N(µ, σ 2‬משתנים נורמליים בלתי תלויים‪ .‬אז‪:‬‬


‫‪. X̄σ/n√−µ‬‬
‫‪n‬‬
‫‪∼ N(0, 1) .1‬‬
‫‪P Xi −X̄n 2‬‬
‫‪. n−1‬‬
‫‪σ2‬‬
‫= ‪S2‬‬ ‫‪( σ ) ∼ χ2n−1 .2‬‬
‫‪ X̄n .3‬ו־‪ S‬הם בלתי תלויים‪.‬‬
‫√‪X̄n‬‬
‫‪−µ‬‬
‫= ‪ Q‬הוא משתנה מקרי בעל התפלגות ‪.tn−1‬‬ ‫‪S/ n‬‬
‫‪.4‬‬

‫הוכחת החלק השלישי והרביעי של המשפט חורגת מגבולות הקורס שלנו‪ :‬היא עושה‬
‫שימוש בהתפלגות הנורמלית הרב־ממדית‪ ,‬שהיא התפלגות משותפת של כמה משתנים‬
‫שכל אחד מהם מתפלג נורמלית‪.‬‬
‫כמקודם‪ ,‬המספר ‪ tn−1,1− α2‬מקיים ‪.P (|Q| > tn−1,1− α2 ) = α‬‬
‫מסקנה ‪ 3.1.25‬נניח ש־) ‪ X1 , . . . , Xn ∼ N(µ, σ 2‬משתנים נורמליים בלתי תלויים בעלי‬
‫שונות ‪ σ‬שאינה ידועה‪ .‬אז ) ‪ (X̄n − tn−1,1− α2 √Sn , X̄n + tn−1,1− α2 √Sn‬הוא רווח סמך בעל‬
‫רמת מובהקות ‪ α‬לפרמטר ‪.µ‬‬

‫תרגיל ‪ 3.1.26‬אם הבחירה בידינו‪ ,‬נעדיף רווח סמך )בעל אותה רמת מובהקות(‬
‫לפרמטר מסויים‪ ,‬ככל שהוא קצר יותר‪ .‬אורכו של רווח הסמך של מסקנה ‪3.1.25‬‬
‫אינו קבוע מראש‪ ,‬ולכן ההשוואה אינה מובנת מאליה‪ .‬בכל זאת‪ ,‬איזה רווח סמך‬
‫עדיף לדעתך‪ ,‬זה של מסקנה ‪ ,3.1.21‬או זה של מסקנה ‪ ?3.1.25‬האם הרווח‬
‫העדיף יהיה בהכרח קצר יותר? )נסה להעריך את הסיכויים שלא כך יהיה‪ ,‬בהנחה‬
‫ש־‪(.α = 0.05‬‬

‫‪119‬‬
‫פרק ‪ .3‬מבוא לסטטיסטיקה‬ ‫‪ .3.1‬אמידה‬

‫רווח סמך להפרש תוחלות‬


‫נניח ש־) ‪ X1 , . . . , Xn ∼ N(µ1 , σ12‬ו־) ‪ ,Y1, . . . , Ym ∼ N(µ2 , σ22‬כולם בלתי תלויים‪.‬‬
‫לפעמים אין צורך באמידה של כל אחת מהתוחלות בנפרד‪ ,‬ומעוניינים רק בהפרש‬
‫‪.µ1 − µ2‬‬

‫דוגמא ‪ 3.1.27‬נניח ש־ ‪ X1 , . . . , Xn‬הם ציונים של תלמידים שלמדו סטטיסטיקה בשיטה‬


‫ישנה‪ ,‬ואילו ‪ Y1 , . . . , Ym‬הם ציוני תלמידים שלמדו לפי שיטה חדשה‪ .‬לציונים האבסולוטיים‬
‫יש משמעות נמוכה‪ ,‬משום שהם תלויים ברמת הקושי של הבחינה‪ .‬ההפרש הוא בעל‬
‫משמעות רבה יותר‪ ,‬משום שהוא מלמד האם המעבר לשיטה החדשה מועיל‪ ,‬מזיק‪ ,‬או אינו‬
‫משפיע על התוצאות‪.‬‬
‫‪σ12‬‬ ‫‪σ22‬‬
‫‪ ,X̄n − Ȳm ∼ N(µ1 − µ2 ,‬ולכן ‪X̄n − Ȳm ±‬‬ ‫‪+‬‬ ‫)‬
‫‪ .1‬שונויות ידועות‪:‬‬
‫‪n‬‬ ‫‪m‬‬
‫‪q‬‬
‫‪σ2‬‬ ‫‪σ2‬‬
‫‪ z1− 2 n1 + m2‬הם קצוות של רווח סמך ברמת מובהקות ‪ α‬ל־ ‪.µ1 − µ2‬‬
‫‪α‬‬

‫שונויות לא ידועות אבל שוות‪ :‬נניח ש־‪ .σ1 = σ2 = σ‬אז ∼ ‪X̄n − Ȳm‬‬ ‫‪ 2 .2‬‬
‫‪1‬‬ ‫‪1‬‬
‫) ‪ ,N(µ1 − µ2 , n + m σ‬אבל ‪ σ‬אינו ידוע; למרבה המזל‪ ,‬אם נסכם נקבל‬
‫‪ , σ12 ((n − 1)SX‬ולכן‬
‫‪2‬‬
‫‪+ (m − 1)SY2 ) ∼ χ2n+m−2‬‬
‫‪s‬‬
‫‪2‬‬
‫‪+ (m − 1)SY2‬‬
‫‬
‫‪1‬‬ ‫‪1 (n − 1)SX‬‬
‫‪X̄n − Ȳm ± tn+m−2,1− α2‬‬ ‫‪+‬‬
‫‪n m‬‬ ‫‪n+m−2‬‬

‫הם קצוות של רווח סמך כבסעיף הקודם‪.‬‬

‫‪ .3‬שונויות לא ידועות‪ :‬אם השונויות אינן ידועות ואין סיבה להניח שהן שוות‪ ,‬אז לא‬
‫ידוע רווח סמך מדוייק‪ ,‬ומשתמשים במקום זה בקירוב ‪:(1964) Satterthwaite‬‬

‫) ‪X̄ − Ȳ − (µ1 − µ2‬‬


‫=‪Q‬‬ ‫‪q 2‬‬
‫‪s1‬‬ ‫‪s2‬‬
‫‪n1‬‬
‫‪+ n22‬‬

‫‪(SX‬‬‫‪2 /n+S 2 /m)2‬‬


‫= ‪.ν‬‬ ‫‪(S 2 /n)2‬‬
‫‪Y‬‬
‫‪(S 2 /m)2‬‬
‫מתפלג בקירוב בהתפלגות ‪ ,tν‬כאשר‬
‫‪X‬‬ ‫‪+‬‬ ‫‪Y‬‬
‫‪n−1‬‬ ‫‪m−1‬‬

‫יש מקרה נוסף שבו רוצים לתת רווח סמך להפרש תוחלות ־ אם המדגמים מזווגים‪,‬‬
‫כלומר‪ X1 , . . . , Xn ∼ N(µ, π 2 ) ,‬ו־ ‪ ,Yi‬בהנתן ‪ ,Xi‬מתפלג נורמלית ) ‪.N(Xi + δ, σ 2‬‬
‫את ההנחה האחרונה אפשר לנסח גם כך‪.Yi − Xi ∼ N(δ, σ 2 ) :‬‬

‫מסקנה ‪ 3.1.28‬אם המדגמים מזווגים ורוצים לאמוד את הפרש התוחולת‪ ,‬אז מפעילים רווח‬
‫סמך לתוחלת בהתפלגות נומרלית על ההפרשים ‪.Yi − Xi‬‬

‫‪120‬‬
‫‪ .3.1‬אמידה‬ ‫פרק ‪ .3‬מבוא לסטטיסטיקה‬

‫רווח סמך לשונות‬


‫אם רוצים לבנות רווח סמך לתוחלת והשונות אינה ידועה‪ ,‬יש לאמוד אותה‪ .‬לפעמים‬
‫ממקדים את תשומת הלב בשונות עצמה‪ ,‬ולשם כך מתבקשת יצירת רווח סמך גם‬
‫עבורה‪.‬‬
‫‪2‬‬
‫‪ . (n−1)S‬מכאן‬
‫‪σ2‬‬
‫∼‬ ‫‪χ‬‬‫‪2‬‬
‫‪n−1‬‬ ‫‪,2.3.1.24‬‬ ‫משפט‬ ‫לפי‬ ‫הצירית‪.‬‬ ‫הכמות‬ ‫שיטת‬ ‫לפי‬ ‫שוב‬ ‫נפעל‬
‫שלכל ‪,α‬‬
‫‪2‬‬
‫‬ ‫‬
‫‪(n‬‬ ‫‪−‬‬ ‫‪1)S‬‬
‫< ‪P χ2n−1, α‬‬ ‫‪< χ2n−1,1− α = 1 − α,‬‬
‫‪2‬‬ ‫‪σ2‬‬ ‫‪2‬‬

‫ולכן‬

‫!‬ ‫מסקנה ‪3.1.29‬‬


‫‪2‬‬ ‫‪2‬‬
‫‪(n − 1)S (n − 1)S‬‬
‫‪,‬‬
‫‪χ2n−1,1− α‬‬ ‫‪χ2n−1, α‬‬
‫‪2‬‬ ‫‪2‬‬

‫הוא רווח סמך לשונות‪ ,‬ברמת מובהקות ‪.α‬‬

‫הסימטריות כאן היא בכך שהסיכוי שהקטע יפול מימינו של ‪ σ 2‬שווה לסיכוי שהקטע‬
‫יפול לשמאלו‪.‬‬
‫‪2‬‬
‫ומה אם רוצים להשוות שתי שונויות? נניח ש־) ‪Y1 , . . . , Ym ∼ ,X1 , . . . , Xn ∼ N(µ1 , σ1‬‬
‫‪(n−1)SX‬‬‫‪2‬‬
‫ובאותו אופן‬ ‫‪σ12‬‬
‫) ‪ ,N(µ2 , σ22‬כולם בלתי תלויים‪ .‬לפי משפט ‪∼ χ2n−1 ,3.1.24‬‬
‫‪ 2   2‬‬
‫‪S‬‬ ‫‪σ‬‬ ‫‪(m−1)S 2‬‬
‫‪ , σ2 Y ∼ χ2m−1‬ולכן היחס ‪ SX2 / σ12‬מתפלג ‪.Fn−1,m−1‬‬
‫‪Y‬‬ ‫‪2‬‬ ‫‪2‬‬

‫!‬ ‫מסקנה ‪3.1.30‬‬


‫‪2‬‬
‫‪SX‬‬ ‫‪/SY2‬‬ ‫‪2‬‬
‫‪SX‬‬ ‫‪/SY2‬‬
‫‪,‬‬
‫‪Fn−1,m−1,1− α2 Fn−1,m−1, α2‬‬

‫הוא רווח סמך ליחס השונויות ‪ σ12 /σ22‬ברמת מובהקות ‪.α‬‬

‫רווח סמך לפרופורציה‬


‫נניח ש־)‪ ,X ∼ Bin(n, p‬כאשר הפרופורציה ‪ p‬אינה ידועה )אפשר לחשוב על המשתנים‬
‫)‪ X1 , . . . , Xn ∼ b(p‬בתור נתוני המדגם הבלתי תלוי‪ ,‬אלא שבפועל אנו משתמשים‬
‫בנתוני המדגם רק דרך הסכום שלהם ‪.(X‬‬
‫‪pq‬‬
‫לפי משפט הגבול המרכזי‪ X̄ = n1 X ,‬מתפלג בקירוב נורמלית‪ N(p, n ) ,‬כאשר‬
‫‪ .q = 1 − p‬הפרמטר ‪ ,p‬אם כך‪ ,‬הוא התוחלת של ההתפלגות‪ ,‬אלא שאי אפשר להפעיל‬
‫כאן את השיטות של תת־סעיף ‪ 3.1.3‬משום שהשונות תלויה בתוחלת‪ .‬במקום זה מקובל‬
‫להשתמש בשני קירובים‪ ,‬לפי טווח הערכים של ‪.p‬‬

‫‪121‬‬
‫פרק ‪ .3‬מבוא לסטטיסטיקה‬ ‫‪ .3.2‬בדיקת השערות‬

‫‪z1− α‬‬ ‫‪z1− α‬‬


‫‪ (X̄ −‬הוא רווח סמך‬ ‫‪√2‬‬
‫‪2 n‬‬
‫‪, X̄ +‬‬ ‫‪√2‬‬
‫‪2 n‬‬
‫טענה ‪ 3.1.31‬יהי )‪ .X ∼ Bin(n, p‬אז לכל ‪) ,α‬‬
‫עבור ‪ ,p‬ברמת מובהקות ‪ α‬או פחות‪.‬‬

‫‪1‬‬
‫‪,X̄ ∼ N(p, 4n‬‬ ‫התוצאה נובעת מן החסם הטריוויאלי ‪ :pq ≤ 14‬אילו היינו יודעים ש־)‬
‫רמת המובהקות היתה בדיוק ‪ .α‬מכיוון שהשונות בפועל קטנה יותר‪ ,‬רמת המובהקות‬
‫טובה יותר‪.‬‬

‫תרגיל ‪ 3.1.32‬מה צריך להיות גודל המדגם‪ ,‬אם רוצים לקבל רווח סמך ברוחב‬
‫של מנדט אחד לכנסת לאחוז התומכים במפלגה מסויימת שרמת המובהקות שלו‬
‫‪?0.01‬‬

‫אם ידוע מראש ש־‪ p‬קיצוני )נאמר ‪ p < 0.1‬או ‪ ,(p > 0.9‬החסם ‪ pq ≤ 14‬מפריז‬
‫ברוחב רווח הסמך; אפשר להניח ש־̄‪ X‬אומד את ‪ p‬במידה מתקבלת על הדעת של דיוק‬
‫לצורך השונות‪ ,‬ולהשתמש בזה כדי לקבל רווח סמך לפרמטר עצמו‪:‬‬

‫‪ (X̄ − z1− α2 X̄(1−‬הוא רווח סמך‬


‫√‬
‫‪n‬‬
‫)̄‪X‬‬
‫‪, X̄ + z1− α2 X̄(1−‬‬
‫√‬
‫‪n‬‬
‫)̄‪X‬‬
‫טענה ‪ 3.1.33‬כאשר ‪ p‬קיצוני‪) ,‬‬
‫עבור ‪ ,p‬ברמת מובהקות מקורבת של ‪.α‬‬

‫תרגיל ‪ 3.1.34‬חזור על תרגיל ‪ 3.1.32‬אם רוצים לאמוד את שיעור המצביעים של‬


‫מפלגה המתנדנדת סביב אחוז החסימה ‪.2%‬‬

‫בדיקת השערות‬ ‫‪3.2‬‬


‫בדיקת השערות היא פרוצדורה המשתמשת בנתוני מדגם שנאסף מהתפלגות‪ ,‬כדי‬
‫להכריע בהשערה לגבי הפרמטרים של ההתפלגות‪ .‬למשל‪ ,‬אפשר לבנות פרוצדורה‬
‫שתכריע האם משקלו הממוצע של קלח כרוב שנמכר ברשת מסויימת גדול מ־‪2.2‬‬
‫קילוגרם‪ ,‬על־פי מדגם של קלחי כרוב שנמכרו באותה רשת‪.‬‬
‫הבדיקה מכריעה בין שתי השערות לגבי ההתפלגות‪ :‬השערת האפס ‪ H0‬שהיא לרוב‬
‫ההשערה השמרנית אותה מנסים לדחות‪ ,‬והשערה אלטרנטיבית ‪ .H1‬לרוב‪ H1 ,‬היא‬
‫התופעה שאותה רוצים להוכיח‪ .‬דחיית ‪ H0‬נחשבת להצלחה‪ ,‬משום שהיא מוכיחה את‬
‫‪ ,H1‬ברמת מובהקות שנקבעה מראש‪ .‬כמו בדגימה‪ ,‬גם בבדיקת השערות יש שגיאות‬
‫שצריך להזהר מהן‪ .‬אחת הדוגמאות המפורסמות היא 'הטיית המגירה'‪ ,‬המתארת את‬
‫הנטיה של חוקרים )ועורכים( להשאיר במגירה תוצאות שליליות‪ ,‬ולפרסם רק תוצאות‬
‫חיוביות‪.‬‬
‫בפרק זה נניח שהשערת האפס נקודתית‪ ,‬כלומר קובעת את ההתפלגות באופן חד־‬
‫משמעי )היא השערה מהצורה ‪ ,θ = 5‬ולא ‪ θ ≥ 5‬או )‪ .θ ∈ (5, 7‬גם השערות מורכבות‬
‫אפשר לבדוק‪ ,‬אבל לא נטפל בהכללה זו כאן‪(.‬‬

‫‪122‬‬
‫‪ .3.2‬בדיקת השערות‬ ‫פרק ‪ .3‬מבוא לסטטיסטיקה‬

‫דוגמא ‪ 3.2.1‬שעור האנשים בעלי הפרעת אישיות חרדתית באוכלוסיה הוא ‪ .3%‬חוקר‬
‫משער ששיעורם בקרב בני מזל טלה שונה מן השיעור בקרב בני המזלות האחרים‪ .‬הפרמטר‬
‫הלא־ידוע הוא ההסתברות ‪ p‬לכך שבן מזל טלה יפתח הפרעת אישיות חרדתית‪ .‬השערת‬
‫האפס תהיה ‪ .H0 : p = 0.03‬ההשערה האלטרנטיבית היא ‪.H1 : p 6= 0.03‬‬

‫השערות ושגיאות‬ ‫‪3.2.1‬‬


‫לבדיקת השערות יש שתי תוצאות אפשריות‪ :‬דחיה של השערת האפס‪ ,‬ואי־דחיה שלה‪.‬‬
‫לאפשרות השניה קוראים לפעמים "קבלה" של ‪ ,H0‬אבל חשוב להבין שאין בכוחה של‬
‫בדיקת השערות להוכיח טענה סטטיסטית‪.‬‬
‫גם במציאות יש שתי אפשרויות‪ :‬או שהשערות האפס נכונה‪ ,‬או שההשערה האלטרנטיבית‬
‫היא הנכונה‪ .‬בהתאם לכך‪ ,‬יש ארבע אפשרויות‪:‬‬

‫‪ H0 .1‬נכונה‪ ,‬והליך בדיקת ההשערות דוחה אותה‪ .‬אזעקת שווא‪ .‬זוהי טעות‪,‬‬
‫הנקראת טעות מסוג ראשון‪.‬‬

‫‪ H0 .2‬היא הנכונה‪ ,‬והליך בדיקת ההשערות לא דחה אותה‪ .‬בהתחשב בנסיבות‪ ,‬זו‬
‫כמובן התוצאה הרצויה של ההליך‪.‬‬

‫‪ H1 .3‬נכונה‪ ,‬והליך בדיקת ההשערות דוחה את ‪ ,H0‬ובכך מוכיח את ‪ .H1‬הניסוי‬


‫הצליח‪.‬‬

‫‪ H1 .4‬נכונה‪ ,‬והליך בדיקת ההשערות לא דוחה את ‪ ,H0‬ובכך מאשש בטעות את‬


‫‪ .H0‬גם זו טעות‪ ,‬הנקראת טעות מסוג שני‪.‬‬

‫דוגמא ‪ 3.2.2‬חוקר רוצה להוכיח שתוספת ויטמין ‪ K‬לתזונת פגים מעלה את המשקל שלהם‬
‫מעבר לתזונה הרגילה‪ .‬ידוע שהוויטמין הזה אינו מזיק‪ .‬נסמן את העליה במשקל מעבר‬
‫לצפוי ב־‪ .X‬השערת האפס )שאותה רוצים לדחות( קובעת שהתוחלת של ‪ X‬היא אפס‪,‬‬
‫כלומר ‪ .H0 : µ = 0‬כנגדה‪ ,‬ההשערה האלטרנטיבית היא ‪ .H1 : µ > 0‬נפרש את ארבע‬
‫האפשרויות‪ ,‬לפי הסדר שבו הן מופיעות לעיל‪.‬‬

‫‪ .1‬הוויטמין אינו מועיל‪ ,‬והחוקר 'הוכיח' שהוא כן מועיל‪ .‬נעשה כאן חוכא ואטלולא‬
‫מן השיטה המדעית‪ .‬טעות מסוג ראשון היא טעות חמורה‪.‬‬

‫‪ .2‬הוויטמין אינו מועיל‪ ,‬והחוקר נכשל בנסיונו להוכיח את ההיפך‪ .‬החוקר בזבז את‬
‫זמנו ואת כספן של קרנות המחקר‪ ,‬אבל הגיע בסופו של דבר לתוצאה הנכונה‪.‬‬

‫‪ .3‬הוויטמין מועיל‪ ,‬והחוקר מצליח לדחות את השערת האפס ולהוכיח שזה אכן כך‪.‬‬
‫כולם מרוצים‪ :‬המחקר מתפרסם בספרות המקצועית‪ ,‬ותזונת הפגים משתפרת‪.‬‬

‫‪123‬‬
‫פרק ‪ .3‬מבוא לסטטיסטיקה‬ ‫‪ .3.2‬בדיקת השערות‬

‫‪ .4‬הוויטמין מועיל‪ ,‬אלא שהניסוי לא הצליח להוכיח זאת‪ .‬זו טעות מסוג שני ‪ -‬לא‬
‫נעים )בזבוז זמן וכסף(‪ ,‬אבל לא נורא )בשנה הבאה יבצע מישהו אחר מחקר על‬
‫קבוצת תינוקות גדולה פי ארבעה‪ ,‬ואולי יצליח להוכיח את האפקט(‪.‬‬

‫דוגמא ‪ 3.2.3‬הסיווג של טעות מסוג ראשון כחמורה יותר מן הטעות מסוג שני אינו תורה‬
‫מסיני‪ .‬לדוגמא‪ ,‬אם מנסים לחזות פריצת מלחמה באמצעים סטטיסטיים‪ ,‬עדיף לדחות‬
‫בטעות את השערת האפס )ולגייס את המילואים לחינם(‪ ,‬מאשר לקבל בטעות את השערת‬
‫האפס )ולספוג מתקפת פתע(‪.‬‬

‫דוגמא ‪ 3.2.4‬לקראת תחילת שנת הלימודים האקדמית‪ ,‬סטודנט אינו בטוח האם הקורס‬
‫שנרשם אליו מתקיים בסמסטר הראשון או בסמסטר השני‪ .‬הוא מתכוון להכריע על־ידי‬
‫סקר בין סטודנטים אחרים )שרבים מהם מבולבלים לפחות כמוהו(‪ .‬דון במשמעות של‬
‫טעות משני הסוגים במקרה זה‪.‬‬

‫‪ 3.2.2‬הליך הבדיקה‬
‫נציג תאור מפורט )אם כי פשטני לפרקים( של הצעדים הדרושים לבדיקת השערות‪.‬‬

‫• רקע תאורטי‪:‬‬

‫– זיהוי והגדרת התופעה הנמדדת; זהו המשתנה המקרי ‪.X‬‬


‫– קביעת המודל‪ ,‬על־פי שיקולים תאורטיים‪ ,‬היורסיטיים וניסויים; המודל הוא‬
‫משפחת ההתפלגויות } ‪ ,{Fθ‬שהמשתנה ‪ X‬מתפלג לפי אחת מהן‪.‬‬
‫– מנסחים את השערת האפס‪ ,H0 : θ = θ0 ,‬כאשר ‪ θ0‬הוא הערך של הפרמטר‬
‫שאותו מנסים לשלול‪.‬‬
‫– מנסחים את ההשערה האלטרנטיבית לפי הידע התאורטי; בדרך כלל‬
‫‪ ,H1 : θ 6= θ0‬אבל יתכן גם ‪ ,H1 : θ = θ1 ,H1 : θ > θ0‬וכדומה‪.‬‬
‫– קובעים את רמת המובהקות ‪ .α‬פירוש הדבר הוא ש־‪ α‬תהיה ההסתברות‬
‫לטעות מסוג ראשון‪.‬‬

‫• רקע סטטיסטי‪:‬‬
‫– על פי משפחת ההתפלגויות והפרמטר שבו מדובר‪ ,‬קובעים סטטיסטי )למשל‪,‬‬
‫אומד של הפרמטר(‪.‬‬
‫– על־פי ההשערות ורמת המובהקות‪ ,‬קובעים אזור דחיה‪ ,‬שהוא תחום הערכים‬
‫שאם הסטטיסטי יפול לתוכו נכריז על דחיית השערת האפס‪.‬‬
‫– קובעים את גודל המדגם ‪ ,n‬בהתחשב באילוצים תקציביים או בחישוב‬
‫המבוסס על הסיכוי הרצוי לטעות מסוג שני )שאותו מסמנים ב־‪.(β‬‬

‫‪124‬‬
‫‪ .3.2‬בדיקת השערות‬ ‫פרק ‪ .3‬מבוא לסטטיסטיקה‬

‫• ביצוע הניסוי‪:‬‬

‫– אוספים נתוני מדגם ‪.X1 , . . . , Xn‬‬


‫– מחשבים את הסטטיסטי ‪.S‬‬
‫– בודקים האם הסטטיסטי נופל לאזור הדחיה‪.‬‬

‫• פרשנות התוצאות‪:‬‬

‫– אם הסטטיסטי נפל לאזור הדחיה‪ ,‬דוחים את השערת האפס‪ .‬זוהי 'הוכחה'‬


‫שהשערת האפס אינה נכונה‪ .‬אם ההשערה נכונה‪ ,‬הסיכוי לדחיה הוא ‪.α‬‬
‫– אם הסטטיסטי נפל מחוץ לאזור הדחיה‪ ,‬ההשערה אינה נדחית‪.‬‬

‫הערה ‪ 3.2.5‬אזור הדחיה מאופיין על־ידי התכונה הבאה‪ :‬אם ‪ H0‬נכונה‪ ,‬אז הסיכוי של‬
‫סטטיסטי המבחן ‪ S‬ליפול לאזור הדחיה שווה ל־‪.α‬‬

‫הערה ‪ 3.2.6‬ככל שאזור הדחיה קטן יותר‪ ,‬נעשה קשה יותר לדחות את השערת האפס‪,‬‬
‫וכך קטן הסיכוי לטעות מסוג ראשון‪ ,‬וגדל הסיכוי לטעות מסוג שני ‪ -‬ולהיפך‪.‬‬

‫הערך המקובל של ‪ α‬הוא ‪ .5%‬אם כך‪ ,‬רמת המובהקות המקובלת היא ‪ ,5%‬ויש‬
‫סיכוי של ‪ 5%‬לטעות מסוג ראשון‪ .‬כ־‪ 5%‬מן התוצאות החיוביות המוכרזות בספרות‬
‫המדעית כמובהקות‪ ,‬הוכרזו ככאלה בטעות; ראו ‪ http://xkcd.com/882/‬לאיור הכשל הזה )אכן‬
‫רופאים אינם מאמצים שיטות טיפול חדשות על־פי תוצאות של מחקר יחיד‪ ,‬אלא מחכים‬
‫שהתוצאה תחזור בניסויים אחרים(‪.‬‬

‫ציטוט ‪" 3.2.7‬נעשו מחקרים ובהם בדקו יותר ממאה פרמטרים שמאבחנים באמצעות‬
‫הרורשך‪ 95% ,‬מהם התגלו כלא תקפים מדעית‪ ,‬ורק ‪ 5%‬תקפים" )אביבה לורי‪" ,‬מרד‬
‫הפסיכולוגים"‪" ,‬הארץ"‪.(13.12.2007 ,‬‬

‫תרגיל ‪ 3.2.8‬נניח שבודקים סדרה של השערות על מכונה לייצור מספרים אקראיים;‬


‫בכל המקרים השערת האפס נכונה‪ ,‬ומשערים‪ ,‬כרגיל‪ ,‬שהיא שגויה‪ .‬איזה אחוז‬
‫מההשערות יימצאו "תקפות מבחינה מדעית"?‬

‫תרגיל ‪ 3.2.9‬מפעם לפעם מציגים נתונים השוואתיים על שביעות הרצון של סטודנטים‬


‫ממוסדות הלימוד שלהם‪ (1) .‬כיצד היית מציג את התוצאות של סקר שבו התקבלו‬
‫הערכים הממוצעים א=‪ ,8.41‬ב=‪ ,8.37‬ג=‪ ,7.91‬ד=‪ ,7.88‬ה=‪ ?7.74‬פתרון‪ .‬הייתי חוזר‬
‫אל הסטטיסטיקאי ודורש לקבל גם את מספר הנבדקים וסטיות התקן‪ (2) .‬ואם נשאלו‬
‫‪ 500‬תלמידים )‪ 100‬מכל מוסד( וסטיית התקן בכל המקרים היא ‪ ?1.5‬פתרון‪ .‬יש‬
‫לחשב עבור כל שני מוסדות האם ההפרש ביניהם מובהק‪ ,‬ולחלק אותם לקבוצות בהתאם‪.‬‬

‫‪125‬‬
‫פרק ‪ .3‬מבוא לסטטיסטיקה‬ ‫‪ .3.2‬בדיקת השערות‬

‫‪ 3.2.3‬בדיקת השערות בעזרת רווחי סמך‬


‫נסכם‪ :‬רווח סמך הוא אזור שהפרמטר נמצא בתוכו בסיכוי ‪ .1 − α‬אזור דחיה הוא‬
‫אזור ש)אם השערת האפס נכונה( הסטטיסטי נופל מחוץ לו בסיכוי ‪ .1 − α‬לפי משפט‬
‫הסיכום הבא‪ ,‬בדיקת השערות ובניית רווחי סמך הם צדדים שונים של אותו מטבע‪:‬‬

‫משפט ‪ 3.2.10‬נניח ש־ ‪ X1 , . . . , Xn ∼ Fθ‬הם נתוני מדגם בלתי תלויים‪ ,‬כאשר הפרמטר‬


‫‪ θ‬אינו ידוע‪ .‬נניח ש־) ‪ (T1 , T2‬הוא רווח סמך ברמת מובהקות ‪ .α‬אז }) ‪{θ0 6∈ (T1 , T2‬‬
‫הוא אזור דחיה אפשרי להשערה ‪.H0 : θ = θ0‬‬

‫במלים פשוטות‪ ,‬אפשר לדחות את ההשערה ‪ H0 : θ = θ0‬אם ‪ θ0‬אינו נופל בתוך רווח‬
‫סמך של ‪ ,θ‬והסיכוי לטעות מסוג ראשון היא המשלים ‪ α‬של רמת המובהקות של רווח‬
‫הסמך‪.‬‬
‫המשפט מאפשר לתרגם כל רווח סמך שבנינו בסעיף הקודם להליך לבדיקת השערה‬
‫לגבי פרמטר מתאים‪ :‬התוחלת‪ ,‬הפרש תוחלות‪ ,‬השונות‪ ,‬וכן הלאה‪.‬‬

‫דוגמא ‪) 3.2.11‬בדיקת השערות על התוחלת בהתפלגות נורמלית‪ ,‬כאשר השונות ‪ σ 2‬ידועה(‬


‫כשבוחנים את ‪ H0 : µ = µ0‬כנגד ההשערה האלטרנטיבית ‪,H1 : µ 6= µ0‬‬
‫אזור הדחיה הוא ‪ . X̄ − µ0 > z1−α/2 √σn‬לעומת זאת כשההשערה חד־צדדית‪ ,‬למשל‬
‫‪ ,H1 : µ > µ0‬אזור הדחיה הוא ‪.X̄ − µ0 > z1−α √σn‬‬
‫נשווה בין אזורי הדחיה של ההשערה הדו־צדדית להשערות חד־צדדיות כאשר = ‪α‬‬
‫‪ .0.05‬הערכים בטבלה מתייחסים להכרעה ) ‪ H1‬לדחייה‪ H0 ,‬לאי־דחייה(‪ ,‬על־פי הערך של‬
‫‪ ,Z = X̄−µ‬בהתאם להשערה האלטרנטיבית‪.‬‬ ‫הסטטיסטי ‪√ 0‬‬
‫‪σ/ n‬‬

‫ ‬
‫ ‬
‫ ‬ ‫‪−1.96‬‬
‫ ‬ ‫‪−1.645‬‬
‫ ‬ ‫‪0‬‬ ‫‪1.645‬‬
‫ ‬ ‫‪1.96‬‬
‫ ‬
‫‪H1 : µ 6= µ0‬‬ ‫‪ H1‬‬
‫ ‬
‫ ‬
‫ ‬ ‫‪H‬‬ ‫‪0‬‬
‫ ‬
‫ ‬ ‫‪H0‬‬ ‫ ‬
‫ ‬ ‫‪H‬‬ ‫‪0‬‬
‫ ‬
‫ ‬ ‫‪H1‬‬
‫‪H1 : µ < µ 0‬‬ ‫‪ H1‬‬
‫ ‬
‫ ‬
‫ ‬ ‫‪H1‬‬ ‫ ‬
‫ ‬ ‫‪H0‬‬ ‫ ‬
‫ ‬ ‫‪H‬‬ ‫‪0‬‬
‫ ‬
‫ ‬ ‫‪H0‬‬
‫‪H1 : µ > µ 0‬‬ ‫‪ H0‬‬ ‫ ‬ ‫‪H0‬‬ ‫ ‬ ‫‪H0‬‬ ‫ ‬ ‫‪H1‬‬ ‫ ‬ ‫‪H1‬‬

‫דוגמא ‪) 3.2.12‬בדיקת השערות על התוחלת בהתפלגות נורמלית‪ ,‬כאשר השונות לא ידועה(‬


‫‪2‬‬
‫פועלים בדיוק כמו בדוגמא ‪ 3.2.11‬פרט לשני הבדלים‪ :‬את הערך ‪ , σn‬שאינו ידוע‪ ,‬מחליפים‬
‫‪s2‬‬
‫‪ ; n−1‬ואת ערכי הטבלה ‪ z1−α‬וכדומה מחליפים ב־ ‪.tn−1,1−α‬‬ ‫באומד חסר ההטיה‬

‫נסיים בהסבר הרמז שניתן למעלה על הקשר בין גודל המדגם לסיכוי לטעות מסוג‬
‫שני‪ .‬נסמן ב־ )‪ Φ(z) = P (Z < z‬את פונקציית ההצטברות של המשתנה הנורמלי‬
‫הסטנדרטי )‪ .Z ∼ N(0, 1‬כלומר‪.Φ(zγ ) = γ ,‬‬

‫‪126‬‬
‫‪ .3.2‬בדיקת השערות‬ ‫פרק ‪ .3‬מבוא לסטטיסטיקה‬

‫טענה ‪ 3.2.13‬עבור התפלגות נורמלית ) ‪ ,N(µ, σ 2‬עם שונות ידועה‪ ,‬משערים את השערת‬
‫‪ ,H‬וכנגדהאת ההשערה האלטרנטיבית ‪ .H1 : µ = µ1‬נניח ש־ ‪.µ0 < µ1‬‬ ‫האפס ‪ 0 : µ = µ0‬‬
‫‪t−µ‬‬
‫עבור אזור הדחיה ‪ ,1 X̄n > t‬הסיכוי לטעות מסוג ראשון הוא ) ‪√0‬‬
‫‪ ,α = Φ(− σ/‬והסיכוי‬ ‫‪n‬‬
‫√‪µ1‬‬
‫‪−t‬‬
‫‪.β = Φ(− σ/‬‬ ‫‪n‬‬
‫לטעות מסוג שני הוא )‬
‫מכאן מתקבלת נוסחת ה־‪ trade-off‬הקושרת בין ‪ α‬ל־‪) β‬אם ‪ n‬קבוע(‪:‬‬
‫‪µ1 − µ0‬‬
‫‪zβ + zα = −‬‬ ‫; √‬
‫‪σ/ n‬‬

‫ככל שהסיכוי לטעות מסוג ראשון יורד‪ ,‬הסיכוי לטעות מסוג שני עולה‪ ,‬ולהיפך‪.‬‬
‫יישום נוסף‪ :‬כדי להגיע לסיכויי שגיאה ‪ ,α, β‬כאשר ‪ µ0 , µ1 , σ‬קבועים‪ ,‬יש לבחור‬
‫‬ ‫‪2‬‬
‫‪σ‬‬
‫‪.n ≥ µ1 −µ‬‬ ‫‪0‬‬
‫‪(zα + zβ )2‬‬
‫√‬
‫דוגמא ‪ 3.2.14‬נניח‪ ,‬בדוגמא הקודמת‪ ,‬ש־‪ µ0 = 0 ,σ/ n = 0.2‬ו־‪ .µ1 = 1‬מצא את ‪β‬‬
‫אם ‪.α = 0.05‬‬

‫התרגיל הבא מסביר‪ ,‬דרך דוגמא‪ ,‬מדוע איננו מספקים נוסחה דומה לזו של טענה‬
‫‪ 3.2.13‬למקרה של ההשערה האלטרנטיבית ‪.H1 : µ 6= µ0‬‬

‫תרגיל ‪ 3.2.15‬תנובת החלב הממוצעת של פרה היא כ־‪ 14‬ליטר חלב ביום‪ ,‬עם‬
‫סטיית תקן ‪ .3‬מה הסיכוי לכך שממוצע תנובת החלב של מאה פרות יהיה‪ ,‬בדיוק‬
‫של שלוש ספרות אחרי הנקודה‪ ?14.000 ,‬האם תוצאה כזו מוכיחה שתוחלת‬
‫תנובת החלב היא ‪ 14‬ולא ‪ ?14.00002‬מה צריך להיות גודל המדגם שיפריך את‬
‫הטענה ‪ ,µ = 14‬אם התוחלת האמיתית היא ‪?14.00002‬‬

‫‪1‬ככל שדוגמים ערך גדול יותר של ̄‪ ,X‬יותר מתקבל על הדעת שהתוחלת היא ‪ ;µ1‬לכן לוקחים את‬
‫אזור הדחיה להיות קרן ימנית‪.‬‬

‫‪127‬‬
‫פרק ‪ .3‬מבוא לסטטיסטיקה‬ ‫‪ .3.2‬בדיקת השערות‬

‫‪128‬‬
‫ביבליוגרפיה‬

‫]‪ [1‬מרצבך־שמרון‪.‬‬

‫‪129‬‬

You might also like