על שודדים, שוטרים וסטטיסטיקה בייסיאנית

על שודדים, שוטרים וסטטיסטיקה בייסיאנית

נרדיניה הציורית שוכנת אי-שם לאורך חופי הים התיכון. זו מדינה קטנה ומוזרה, ובה רק שני סוגי מכוניות: לבנות ואדומות, כאשר  80% מהמכוניות לבנות ו- 20% אדומות. יום אחד, אירע שוד בבנק המרכזי של נרדיניה: שודד חמוש רוקן את הכספת ונמלט במכונית גנובה. מה רבה הייתה המהומה והמבוכה במטה המשטרה! הנוכחים הציעו לסגור מיד את גבולות המדינה במחסומים, אך המפכ"ל צינן מיד את התלהבותם: "אין מספיק שוטרים, צריך משהו אחר".

כך חלפה לה שעה ארוכה של וויכוחים והתנצחויות, ואז ניגש אל המפכ"ל סגנו הנאמן ג'ונסון ולחש באוזנו: "צ'יף, הצלחנו לעלות על הקו הסלולרי של השודד. הוא מקלל בלי הרף, אבל משפט אחד חוזר שוב שוב: הרעידות האלו מטריפות אותי!"
עיניו של המפכ"ל אורו: "קשר אותי מיד עם משרד התחבורה". ג'ונסון הרים את גבותיו בתימהון. "מהר, מהר" שאג המפכ"ל.

השיחה עם משרד התחבורה נמשכה דקה בדיוק, ובסיומה התרווח המפכ"ל בכיסאו: "ג'ונסון, קח ניר ורשום לפניך: יש בעיית רעידות מנוע ב-1% של המכוניות הלבנות וב-50% של המכוניות האדומות". ג'ונסון הביט מודאג במפקדו. "צ'יף, יש לנו פה מקרה רציני ואתה מתעסק במחקרים על בעיות מכניות של מכוניות?".
"ג'ונסון," קרא המפכ"ל, "זה עתה נפתרה הבעיה! את מעט השוטרים שלנו נפזר בכל המחסומים, ואין צורך בהרבה שוטרים בכל מחסום כי  נעצור רק את המכוניות האדומות – רוב הסיכויים שהשודד במכונית אדומה ומספרן מועט ."
"אבל, צ'יף" הקשה הסגן, "החשוד יכול היה לברוח גם במכונית לבנה!"
"אתה צודק," ענה המפכ"ל, "אבל לאור הנתונים ממשרד התחבורה, מה הסיכוי שדבר כזה יקרה? חוץ מזה, אלטרנטיבות אחרות כגון חסימת חלק מהמעברים או בדיקת כל המכוניות בכל מעבר גרועות יותר."
ג'ונסון קימט את מצחו ואז לפתע אורו עיניו "צ'יף, אתה גאון!"
"זה נכון," חייך המפכ"ל בענווה, "אבל זו לא המצאה שלי. זה הרעיון של בייס"
"בייס?" תמה ג'ונסון "באיזו תחנה הוא משרת?"
"ג'ונסון יקירי," חייך המפכ"ל וטפח על כתף סגנו: "בייס אינו שוטר – הוא כומר. חוץ מזה, הוא הלך לעולמו לפני יותר ממאתיים שנה"


רגע, מה הסיכוי שייתפסו אותי?

הכומר תומס בייס (Thomas Bayes 1701-1761) הוא האיש שיצר את אחד הענפים הפוריים והשימושיים ביותר בסטטיסטיקה, שנקרא על שמו: 'סטטיסטיקה בייסיאנית'. הוא עשה זאת בהציעו לראשונה רעיון אלמנטרי והגיוני להפליא: לעדכן היפותזות בנושא כלשהו תוך שימוש באירועים הנובעים מקיום אותן היפותזות. ההסתברות של אותם אירועים נקראת הסתברות מותנית ובהסתברויות אלה עוסק חוק בייס. לדוגמה,  נניח כי קיימת היפותזה כי משבר פוליטי עומד להתרחש, וניתן לייחס לכך הסתברות כלשהי. עוד נניח כי, בעת משבר חל גידול באבטלה ובאינפלציה וצמצום בהשקעות. לכל אחת מהתרחשויות אלה יש הסתברות מותנה (בקיום המשבר הנ"ל). עתה נניח כי אחד הסימנים אכן התרחש, למשל, גידול באבטלה. במצב עניינים זה, חוק בייס שם בידנו כלי לעדכן את ההסתברות לכך שהמשבר התרחש (ההיפותזה שלנו) לאור המידע החדש.

איך חוק בייס קשור לנרדיניה? הבה נניח כי יש במדינה 10,000 מכוניות מתוכן 2,000 אדומות ו-8,000 לבנות. השודד יכול להיות בכל אחת מהן ולכן, עם מידע כזה בלבד, ברור כי הסתברות לכידת השודד ע"י בדיקת המכוניות האדומות בלבד היא 20%.  אבל, ברגע בו התברר כי במחצית המכוניות האדומות (1000 מכוניות) יש בעיה של רעידות מנוע וכך גם     ב-1% של הלבנות (80 מכוניות), הצטמצם עולמנו ל- 1080 מכוניות בלבד בהן עלול להימצא השודד.  "עולם חדש" זה מתואר בדיאגרמה הבאה ע"י השטח הסגול והשטח הכחול (הנמצאים בתוך האזור המקווקו). באזור זה,  93% מהמכוניות הן אדומות. לכן אם נבדוק רק את המכוניות האדומות קיימת הסתברות של 93% שנתפוס את השודד.

אחד היישומים המרתקים של הסטיסטיקה הבייסיאנית הוא בתחום המשפטי. קביעת אשמה של חשוד במשפט רצח, למשל, מבוססת על בדיקת רקמות שעל אף מהימנותה הרבה אינה חפה משגיאות ולכל אי-דיוק בבדיקה יכולות להיות משמעויות מרחיקות לכת.  בנוסף, קיים בדר"כ מאגר עצום של חשודים שאותו יש לצמצם. על מנת לעשות שימוש מושכל בעובדות אלו, כל עורך דין פלילי צריך לדעת קורטוב של סטטיסטיקה בייסיאנית, כפי שנראה בדוגמה הבאה.

ג'יימס נאשם ברצח. מבדיקת רקמות השוואתית התברר כי אכן קיימת התאמה בינו לבין הממצאים שהתגלו בזירה. הרצח התבצע בעיירה מבודדת שיש בה 40,001 איש בעלי גישה ישירה לזירה (למה דווקא 40,001 יתברר מיד). בחקירה הנגדית של מומחה התביעה התברר כי:
(א) אם נאשם כלשהו אכן ביצע את הרצח, הבדיקה תגלה זאת בוודאות מוחלטת (100%).
(ב) אם נאשם כלשהו לא ביצע את הרצח, קיימת הסתברות של 1/10,000 לשגיאה בבדיקה.
מה לדעתכם ההסתברות שג'יימס אכן ביצע את הרצח? האם מצבו באמת כה קשה? שימו לב לנימוקי הסנגור:

"נניח כי נערוך בדיקת רקמות לכל 40,001 האנשים שהייתה להם גישה לזירת הרצח. ידוע לנו כי 40,000 מהם אינם אשמים במעשה.  אחד, כן.  מאחר ולבדיקה הסתברות טעות של 1/10,000 , סביר להניח כי נשלוף (בטעות) 4 חשודים במעשה (4=40,000/10,000), אליהם יתווסף הרוצח האמיתי (שאותו תגלה הבדיקה בלי שום טעות). כלומר: יהיו בידינו 5 חשודים (4 חפים מפשע ואחד רוצח). אין כל דרך לגלות מי מהם הוא הרוצח האמתי. הווה אומר: ההסתברות של כל אחד מהם להיות הרוצח היא 0.2. תודו, שבמצב עניינים זה, מצבו של מרשי שונה לחלוטין."

אובג'קשן – התביעה מתעלמת מנוסחת בייס!

המצב ניתן לתאור בעזרת נוסחת בייס, אותה כתבנו תוך שימוש בסימונים שאינם מתמטיים. המכנה שהוא "עולם החשודים" מכיל שני סוגי נתונים: האיבר הראשון שבו הוא הביטוי לשגיאה הזעירה מאד של הבדיקה, בעטיה קיימת הסתברות של אחד לעשרת אלפים להפליל אדם חף מפשע. האיבר השני היא הסתברות זיהוי הרוצח האמיתי – אם הוא נבדק.


הסטטיסטיקה הבייסיאנית יכולה להיות משמעותית מאוד גם בתחום הרפואה, כפי שממחיש הסיפור הבא. ענת מבצעת כל שנה בדיקה לגילוי סרטן השד. לאחרונה, כאשר הגיעה למרפאה כדי לקבל את תוצאת הבדיקה ציפתה לה הפתעה לא נעימה. תוצאת הבדיקה הייתה חיובית. פניה של ענת נפלו, אך הרופאה מיהרה לעודד אותה "יקירתי, אל תתרגשי מהתוצאה החיובית של הבדיקה. זה בסך הכל אומר כי ההסתברות שחלית היא פחות מ-8%".

"איך זה ייתכן, דוקטור", אמרה ענת "הרי הבדיקה מדויקת מאד!"

"נכון," הסכימה הרופאה, "היא באמת מדויקת. 80% מהנשים שחלו, אכן, מקבלות תוצאה חיובית, אבל זו אינה התמונה כולה.  ידועות  לנו עוד שתי עובדות חשובות:
(א) רק 1% מאוכלוסית הנשים הנמצאות מעל גיל ארבעים, חולה במחלה זו.
(ב) 10% מהנבדקות שאינן חולות, מקבלות בטעות תוצאה חיובית.

"לא הבנתי כלום," הגיבה ענת.

"ראי," הרגיעה אותה הרופאה, "נניח שיש לנו 10,000 נשים ואנו יודעים כי 100 מתוכן (1%) חולות בסרטן השד (אגב, מחלה ממנה ניתן להירפא בהסתברות גבוהה מאד). אם אותן נשים תלכנה לבדיקה, 80 מהן  (80%) תקבלנה תוצאה חיובית. כל השאר (9,900 נשים) אמורות לקבל תשובה שלילית. אבל שימי לב!  10% מתוכן (שהן 990 נשים) תקבלנה בטעות תוצאה חיובית. בסה"כ, תקבלנה 1,070 נשים תוצאה חיובית (990+80), אבל רק 80 מתוכן חולות באמת, כלומר: ההסתברות כי מישהי מתוך קבוצה זו אכן חולה היא: 80/1070 שהם כ- 7.5%. את מבינה ענת, התוצאה החיובית אמנם מבהילה כי נראה שאת חולה בהסתברות של 80% אבל, לאחר שהכנסנו לתמונה את המידע הנוסף, גילינו שההסתברות המעודכנת נמוכה מ-8%."


תנשמי עמוק ותקראי את הפוסט על בייס

מה בעצם קרה? עולם האירועים שלנו מכיל ארבע קבוצות נשים כפי שמראה הדיאגרמה הבאה: הקבוצות ה"נורמליות" הן אלה הצבועות בכחול ובתכלת. הן מייצגות את מה שקורה בבדיקה ללא טעויות. בראשונה (כחול) נמצאות נשים חולות שמחלתן אכן התגלתה בבדיקה ובשנייה (תכלת) נשים בריאות שהבדיקה אכן הוכיחה זאת. בקבוצה הלבנה נמצאות נשים חולות שבטעות קבלו תוצאה שהכל בסדר – אלו נשים הנמצאות בסיכון הגדול ביותר. בקבוצה הוורודה נמצאות נשים בריאות שבטעות קבלו תשובה שהן חולות. זו תשובה שתסב להן סבל ופחד מיותרים, אך במשך הזמן תתברר כטעות.

נסכם: ב"עולם האירועים הישן" הייתה אשה אשר קיבלה תוצאה חיובית בטוחה ב-80% שאכן כך המצב. אבל, מהרגע בו התברר כי פרט לשגיאת הבדיקה של נשים חולות, קיימת גם שגיאת בדיקה של נשים בריאות, משתנה המצב באופן יסודי. ניתן לראות כי, בכל המקרים שהבאנו התחלנו מ"עולם ישן של אירועים" שהתחלף ב"עולם חדש של אירועים". ה"עולם החדש" מאופיין בתוספת אינפורמציה המשנה את ההסתברויות, וזה העיקרון של בייס.

עד כה לא נכנסנו לפירוט מתמטי כדי לא לטשטש את האינטואיציה, אך כעת נציג – על קצה המזלג אמנם – גם את הניסוח הפורמלי של חוק בייס.


רכבות קטנות, רכבות גדולות וסטטיסטיקה

דן התעורר השכם בבוקר לקול צלצול הטלפון. על הקו היה אלכס חברו: "ניאלץ לדחות את הפגישה בשעתיים, הרכבת שלי מאחרת".
"לא נורא" השיב דן. "זה ישאיר לי זמן לקנות כפפות סקי וכובעי פליז לילדות. אחה"צ אצא איתן להחליק בשלג".
"שלג?" גיחך אלכס, "הסיכוי לשלג הוא בערך 20%!"
"זה היה נכון," ענה דן בקולו המונוטוני, "עד שאמרת לי שהרכבת אחרה"
מכיוון שמהצד השני של הקו לא נשמעה כל תגובה, המשיך דן, "למעשה, ההסתברות לשלג כעת עומדת על 67%"
"דן"
"כן, אלכס"
"מה לעזאזל הקשר בין הרכבת שלי לשלג?"
"על בייס שמעת?"
"על מי?!"

על מנת להבין את תשובתו המוזרה של דן, ולמה דווקא 67%, נעזר בטבלה הבאה:

"העולם הישן" הוא עולם בו ידוע כי ב-50%  מהזמן זורחת השמש, ב-30% מהזמן יורד גשם וב-20% מהזמן יורד שלג. לעולם זה קשורים מאורעות משניים הנובעים מתופעות אלה. למשל: כשיורד גשם קיימת הסתברות של 20% שהרכבת תאחר, וכשיורד שלג עולה הסתברות זו ל-90%. ביום שמש, הסתברות האיחור היא רק 6%. גם המאורעות המשניים מהווים עד לרגע מסוים (רגע צלצול הטלפון) עניין הסתברותי. אבל, מהרגע שאלכס הודיע לדן כי הרכבת אחרה, הפך עולם הרכבות המאחרות לעולם היחיד הרלוונטי לדן. זה "העולם החדש". לעומתו, עולם הרכבות המגיעות בזמן, איננו קיים יותר כיוון שאיחור הרכבת היא עובדה מוצקה. אין היא יותר בגדר הסתברות. לכן, בבת אחת, עובר דן ל"עולם החדש" המתואר באיור הצבעוני:


עולם ישן, עדי יסוד נחריבה!

כפי שנראה מיד, השטח הכחול מהווה כ-67% מהעולם החדש. הווה אומר, אם נתונה העובדה שהרכבת איחרה, קיימת הסתברות של 67% שירד שלג. זאת בניגוד למה שהיה בעולם הישן בו הסתברות הופעת השלג היתה רק 20% . בנקודה זו יכולנו לסיים את הסיפור ולא היה נגרע דבר מכבודו של הכומר בייס, אך עבור הקוראים שבכל אופן רוצים לראות את נוסחת בייס בפעולה, הנה היא במלוא הדרה:

למי שהבין ורוצה עוד:
הכומר והבינה ההסתברותית מתוך YNET
בהנחה שאנחנו יודעים הסתברות בסיסית, כמה קל להבין הסתברות מותנית מתוך "לא מדוייק"
Beyes Theoram for Every one – YouTube
מי הסרט הטוב ביותר? מתוך בלוג זה

Compare hotel prices and find the best deal - HotelsCombined.com

תגיות:

להגיב על יוסי השחור לבטל

האימייל לא יוצג באתר. שדות החובה מסומנים *

כתיבת

  • 6 מחשבות על “על שודדים, שוטרים וסטטיסטיקה בייסיאנית

    • רשומה מעולה, ממש מרתקת. אמנם הכרתי בגדול את העקרונות של סטטיסטיקה בייסנית, אבל לא את המימוש עצמו. אני חושב שאני אשוב ואקרא אותה שוב ושוב כדי להפנים כי זה כ"כ נוגד את האינוטואיציה שלנו.

    • ובהקשר זה, לאחרונה שוחרר לציבור הספר חשיבה ביקורתית של ורדה ליברמן ועמוס טברסקי – http://ocw.openu.ac.il/opus/bin/en.jsp?enZone=External_Application13

    • בהקשר הזה, כדאי גם להזכיר את אומדן הנראות המקסימלית – בחירת הפרמטרים שימקסמו את הסיכוי לתצפיות הנתונות.
      אאל"ט, זהו האמדן העקיב עם הטעות הקטנה ביותר, אבל הוא מוטה (כמעט כתבתי "לא בלתי מוטה").

    • מומלץ לקרוא את הספר signal and the noise של Nata silver

    • בנוגע לג'יימס הנאשם: אם אכן כל 40000 התושבים של העיירה עברו בדיקת רקמות (או קבוצה של תושבים שנבחרה באקראי), אז אכן החישוב נכון.
      אם ג'יימס שייך לקבוצה קטנה של חשודים על סמך מידע אחר (עדות ראייה, מניע, וכו') ולכן עבר בדיקת רקמות, אזי מספר התושבים בעיירה אינו רלוונטי.
      יש מאמר מעניין של מיה בר-הלל על סטטיסטיקה במשפט שהתפרסם באודיסיאה: http://odyssey.org.il/209317

    • סבבה, אבל כדאי שתעברו על המספרים, יש לכם טעויות, אולי של חישוב, אולי של הקלדה.
      למשל בקטע הבא:

      "ראי," הרגיעה אותה הרופאה, "נניח שיש לנו 10,000 נשים ואנו יודעים כי 100 מתוכן (1%) חולות בסרטן השד (אגב, מחלה ממנה ניתן להירפא בהסתברות גבוהה מאד). אם אותן נשים תלכנה לבדיקה, 80 מהן (80%) תקבלנה תוצאה חיובית. כל השאר (1,900 נשים) אמורות לקבל תשובה שלילית. אבל שימי לב! 10% מתוכן (שהן 990 נשים) תקבלנה בטעות תוצאה חיובית. בסה"כ, תקבלנה 1,070 נשים תוצאה חיובית (990+80), אבל רק 80 מתוכן חולות באמת, כלומר: ההסתברות כי מישהי מתוך קבוצה זו אכן חולה היא: 80/1070 שהם כ- 7.5%. את מבינה ענת, התוצאה החיובית אמנם מבהילה כי נראה שאת חולה בהסתברות של 80% אבל, לאחר שהכנסנו לתמונה את המידע הנוסף, גילינו שההסתברות המעודכנת נמוכה מ-8%."

      צריך להיות לא (1,900 נשים) אלא (9,900 נשים):

      "ראי," הרגיעה אותה הרופאה, "נניח שיש לנו 10,000 נשים ואנו יודעים כי 100 מתוכן (1%) חולות בסרטן השד (אגב, מחלה ממנה ניתן להירפא בהסתברות גבוהה מאד). אם אותן נשים תלכנה לבדיקה, 80 מהן (80%) תקבלנה תוצאה חיובית. כל השאר (9,900 נשים) אמורות לקבל תשובה שלילית. אבל שימי לב! 10% מתוכן (שהן 990 נשים) תקבלנה בטעות תוצאה חיובית. בסה"כ, תקבלנה 1,070 נשים תוצאה חיובית (990+80), אבל רק 80 מתוכן חולות באמת, כלומר: ההסתברות כי מישהי מתוך קבוצה זו אכן חולה היא: 80/1070 שהם כ- 7.5%. את מבינה ענת, התוצאה החיובית אמנם מבהילה כי נראה שאת חולה בהסתברות של 80% אבל, לאחר שהכנסנו לתמונה את המידע הנוסף, גילינו שההסתברות המעודכנת נמוכה מ-8%."