מי הסרט הטוב ביותר?

נניח שאנו רוצים לערוך הצבעה שתגלה מי מאה הסרטים הטובים ביותר בכל הזמנים. לכאורה, אין דבר פשוט מכך – עבור כל סרט הגולשים יתנו ציון מאחד עד עשר, ומאה הסרטים שהממוצע שלהם הוא הגבוה ביותר יכנסו לרשימת הכבוד. אבל כאן צצה בעיה. שיטה זו אינה מתחשבת במספר ההצבעות עבור כל סרט. נניח, למשל, שהסרט קזבלנקה זכה לציון ממוצע 9.1 ממאה אלף גולשים, בעוד שהסרט הישראלי 'חגיגה בסנוקר' זכה לממוצע 9.2 ממאה גולשים בלבד. האם מכאן נכון להסיק שחגיגה בסנוקר עדיף על קזבלנקה?

התשובה כמובן שלילית, מכיוון שקבוצה קטנה של מעריצים מושבעים יכולה ליצור הטיה חזקה כלפי מעלה. אם למשל, קבוצה גדולה מאוד של צופים היו מדרגים את 'חגיגה בסנוקר' סביר מאוד להניח שהציון הממוצע היה יורד. אם כן, עלינו למצוא מדד שיביא בחשבון גם את גודל המדגם. מה דעתכם על:

כאשר: V – מספר המצביעים לסרט נתון m – מספר ההצבעות המינימאלי (סרט שקיבל פחות מ-m הצבעות לא יכול להכנס לרשימה) R –  הציון הממוצע של סרט נתון C – הציון הממוצע הגלובאלי של כל הסרטים במאגר.

תגובה אפשרית של חלק מהקוראים יכולה להיות…

אז לפני  שהעכבר זז לעשות X, אבקש הזדמנות  להסביר את ההיגיון, ואפילו את היופי של הביטוי המתמטי הזה.

ראשית, לפנינו נוסחה של ממוצע משוקלל בין הציון של הסרט לבין הציון הממוצע של כל הסרטים. מדוע זה נחוץ? נבדוק שני מצבים גבוליים. במקרה הראשון, הסרט מקבל את מספר ההצבעות המינימליות המאפשר לו להתמודד, היינו, V=m. אם נציב ערך זה בנוסחה, נקבל:  0.5R + 0.5C. כלומר, במקרה זה, הציון של הסרט הוא ממוצע פשוט בין הציון הממוצע של הגולשים (R) לבין הציון הממוצע הכללי (C). זה מאוד הגיוני, שכן סרט עם מספר מצביעים קטן נתון להטיה גדולה יחסית, ולכן היינו רוצים 'לרסן' את הציון הסופי שלו. אגב, ההטיה יכולה להיות גם כלפי למטה כאשר קבוצה קטנה של גולשים בוחרת 'להעניש' סרט מעבר למה שמגיע לו.

מצב הגבול השני הוא, שמספר ההצבעות עבור סרט הוא גדול מאוד. במקרה זה, V+m אינו שונה משמעותית מ-V (למשל, 10,000+100 קרוב מאוד ל- 10,000). כעת, המחובר הראשון בנוסחה יהיה בקירוב טוב R ואילו המחובר השני יהיה קטן מאוד, כמעט אפס. מה זה אומר? פשוט, הציון של הסרט הוא הממוצע של הגולשים ללא התחשבות בממוצע הכללי. האם זה הוגן? בוודאי, מכיוון שכעת המדגם מייצג ואפשר להסתמך עליו.  בפועל, ככל שמספר ההצבעות עבור סרט גדל, כך הממוצע המשוקלל נוטה יותר לכיוון הציון הממוצע של הגולשים עבורו. מאידך, כאשר מספר ההצבעות קטן, המדד מספק מעין 'הגנה' בפני הטיות לא מייצגות.

מסתבר שיש למדד הזה שם –  True Bayesian Estimate, והוא משמש את  IMDB (מאגר הנתונים הקולנועי המקיף והאיכותי ביותר באינטרנט) לדירוג 250 הסרטים האהובים ביותר. מובן, שניתן להשתמש במדד זה בכל פעם שרוצים לדרג פריטים (כגון: טלוויזיות, שחקני כדור-רגל, פוליטיקאים, שירים במצעד  ועוד)  בסיטואציה שבה יש מספר ההצבעות שונה עבור כל פריט. זה היופי של  נוסחה מתמטית: פשטות תמציתית שיכולה להתאים לאין ספור מצבים.

אם כן, מי הסרט הגדול של כל הזמנים?  (הרשימה העדכנית כאן)

בישראל קראו לו חומות של תקווה ולעניות לדעתי זה באמת סרט אדיר. מעניין, שבקופות הוא לא היה להיט גדול, אבל האיכות שלו שרדה את מבחן הזמן, וכבר שנים רבות שהוא בראש מכירות ה-DVD. אסיים בציטוט בלתי נשכח מהסרט (RED על אנדי):

"Geology is the study of pressure and time. That's all it takes really, pressure, and time"

3 thoughts on “מי הסרט הטוב ביותר?”

  1. הבעייה אם מדד כזה שהגדרה לטוב היא בעצם פופולאריות. לסרטים עכשוויים יש נטייה חזקה יותר להיות מיוצגים וכל סרט חדש שיוצא שמקבל ביקורות מתלהבות נכנס כמעט מייד לרשימה כי הרבה אנשים מצביעים. הרבה אנשים לא ראו סרטים ישנים ובנוסף, העובדה שמישהו לא ראה סרט מסוים לא בהכרח אומרת שהוא פחות איכותי. מדד אמין יותר יהיה לערוך השוואות בין סרטים שונים. אם תשאל אנשים איזה סרט יותר טוב, חומות של תקווה או הסנדק, רק מעטים יגידו שהראשון טוב יותר. יש מודלים רשתיים כאלו שעורכים הרבה השוואות אמיתיות ואז מוציאים מי הכי טוב. זה כמובן מסובך לביצוע כי זה דורש יותר זמן מאשר סתם דירוג מספרי. אלטרנטיבה נוספת היה פשוט לא לאפשר לדרג סרטים מהשנה או השנתיים האחרונות כדי לתת לאנשים קצת פרפסקטיבה על הסרטים.

  2. גיל – לא בטוח שאתה צודק. שים לב שברשימה מופיע סרט חדש (משנת 2010) רק במקום התשיעי, ובין עשרים הראשונים יש רק שני סרטים חדשים. וברמה התאורטית, מספר ההצבעות הרב לא בהכרח מקדם את הסרט בדירוג אלא ממצע את ההתלהבות ממנו. סרט שובר קופות כמו אואטר נמצא במקום ה-177 (!) , אחרי הסרט 'ענבי זעם' משנת 1940 (!), כאשר מספר המצביעים עבור האחרון קטן פי-12 (!) מהמצביעים עבור הראשון.

  3. נכון, אבל מה שקורה זה כשסרט טוב יוצא לשוק הוא מקבל המון הצבעות גבוהות ועם הזמן דברים נכנסים לפרופורציה והממוצע יורד. אני זוכר שאביר האופל היה מדורג ראשון אחרי יציאתו לאקרנים אבל בפרספקטיבה היסטורית הוא לא צריך להיות שם. הבעייה שהאתר קיים משהו כמו 10 שנים ולכן סרטים מהעבר לא נהנים מהבוסט של היציאה לאקרנים ויש כאן הטייה לדעתי.

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *