מדען נתונים חוקר

האם אתה צריך לראות סרט? ובכן, יש לקחת בחשבון הרבה גורמים כמו הבמאי, השחקנים ותקציב הסרט. רובנו מבססים את ההחלטה שלנו מתוך ביקורת, טריילר קצר, או פשוט על ידי בדיקת דירוג הסרט.
יש כמה סיבות טובות שתרצה להימנע מקריאת ביקורות, או צפייה בקרוואן, אם כי הן מביאות הרבה יותר מידע מאשר דירוג.
ראשית, כדאי להימנע לחלוטין מספוילרים, קטנים ככל שיהיו. אני מבין ש!
שנית, יכול להיות שאתה רוצה חוויה לא מושפעת של צפייה באותו סרט. זה חל בדרך כלל רק על ביקורות, שמפוזרות במסגרות, כמו "זה סרט על מורכבות היקום" או "הסרט הזה באמת לא עוסק באהבה". ברגע שמסגרות אלה מקודדות בזיכרון לטווח הקצר שלך, באמת קשה למנוע מהן להפריע לחוויית הסרט שלך.
סיבה טובה נוספת היא שאם אתה עייף או ממהר, אולי לא תרצה לקרוא ביקורת, שלא לדבר על לצפות בקרון של 2 דקות.
כך שנראה שדירוג סרטים מספרי הוא פיתרון טוב בלא מעט מצבים, עבור לא מעט אנשים.
מאמר זה נועד להמליץ על אתר יחיד להשיג במהירות דירוג מדויק של סרטים, ומציע טיעון חזק ונתוני נתונים עבורו.
קריטריונים ל"טובים ביותר "
המלצה כזו דומה לאמירה "זה המקום הכי טוב לחפש דירוג סרט", שהיא הצהרה הערכתית, הנשענת על כמה קריטריונים המשמשים לקביעת מה עדיף, מה גרוע או גרוע, ומה הכי טוב , במקרה הזה. להמלצתי אשתמש בקריטריון יחיד: התפלגות נורמלית.
המקום הטוב ביותר לחפש דירוג סרט הוא לראות את דירוגיו המופצים בתבנית הדומה ביותר, או זהה לדפוס של התפלגות נורמלית, והיא זו: בהינתן מערך ערכים המונח במרווח מסוים. , רובם נמצאים באמצע זה, והמעטים האחרים נמצאים בקיצוניות זו. באופן כללי, כך נראית התפלגות רגילה (נקראת גם גאוסית):

מה הרציונל מאחורי קריטריון זה? ובכן, מניסיוני המורכב מכמה מאות סרטים, אני יכול לומר שראיתי:
- כמה מצטיינים שראיתי כמה פעמים
- זוג שהיה ממש מחריד וגרם לי להתחרט על הזמן שצפיתי בהם
- וחבורה שלמה של ממוצעות, שברובן אני כבר לא זוכר את העלילה.
אני מאמין שרוב האנשים - בין אם המבקרים, הסינפילים או סתם צופי הקולנוע הרגילים - חוו חוויה דומה.
אם דירוגי הסרט אכן מבטאים את איכות הסרט, אז עלינו לראות את אותו דפוס עבור שניהם.
בהתחשב בכך שרובנו מעריכים את חלק הארי של הסרטים כאיכות ממוצעת, עלינו לראות את אותו דפוס כאשר אנו מנתחים דירוגי סרטים. היגיון דומה חל גם על סרטים גרועים וטובים.

אם אתה עדיין לא משוכנע שיש להתכתב בין הדפוסים, חשוב על חלוקת הרייטינג של סרט יחיד. ככל שאנשים רבים מעריכים את הסרט, זו לא קפיצת דרך להניח כי לרוב יהיו רבים מהם עם העדפות דומות. הם בדרך כלל יסכימו שהסרט גרוע, ממוצע או טוב (אני אמנה אחר כך את הערכים האיכותניים האלה). כמו כן, יהיו כמה אחרים שיעריכו את הסרט עם אחד משני הערכים האיכותניים האחרים.
אם דמיינו את התפלגות כל הדירוגים לסרט בודד, סביר להניח שנראה כי צביר אחד יחיד נוצר באחד האזורים המתאימים לדירוג נמוך, ממוצע או גבוה.
בתנאי שרוב הסרטים נחשבים לממוצעים, האשכול סביב האזור הממוצע הוא בעל הסבירות הגדולה ביותר להתרחש, ולשני האשכולות האחרים יש סבירות קטנה יותר (אך עדיין משמעותית). (שים לב כי ניתן לכמת את כל הסבירות הללו באופן עקרוני, אך הדבר ידרוש נתונים רבים ויהיה ביכולתו להפוך מאמר זה לספר.)
הפחות סביר יהיה התפלגות אחידה שבה אין אשכולות, והעדפותיהם של אנשים מפוצלות כמעט באותה מידה בין שלושת הערכים האיכותניים.
בהתחשב בסבירות אלה, התפלגות הרייטינג של מדגם גדול מספיק של סרטים צריכה להיות אחת עם אשכול קהה באזור הממוצע, שתוחמת בסורגים של ירידה בגובה (תדירות), הדומה לפיזור נורמלי.
אם קשה לך להבין את כל זה, שקול את האיור הזה:

IMDB, עגבניות רקובות, פנדנגו, או מטקריטים?
עכשיו, כשיש לנו קריטריון לעבוד איתו, בואו נצלול לתוך הנתונים.
יש שם הרבה אתרים המציגים דירוגים קולנועיים משלהם. בחרתי בארבעה בלבד, בעיקר על סמך הפופולריות שלהם, כדי שאוכל לקבל דירוגים לסרטים עם מספר קולות מקובל. הזוכים המאושרים הם IMDB, Fandango, Rotten Tomatoes ו- Metacritic.
בשנים האחרונות, התמקדתי רק על סוגי דירוג האייקונים שלהם - כלומר Tomatometer , ואת metascore -בעיקר בגלל שאלה גלויים יותר למשתמש בכל אחד מאתרי האינטרנט (כלומר מהר יותר למצוא אותם). אלה משותפים גם בשני האתרים האחרים (המטאסקור משותף ב- IMDB וטומטומטר בפנדנגו). מלבד דירוגים איקוניים אלה, לשני האתרים יש גם סוג דירוג פחות מובלט בו רק משתמשים יכולים לתרום.
אספתי דירוגים לכמה מהסרטים שנבחרו ונבדקו ביותר בשנת 2016 ובשנת 2017. מערך הנתונים הנקי כולל דירוגים של 214 סרטים, וניתן להוריד אותו מהדוח הזה של Github.
לא אספתי רייטינג לסרטים שיצאו לפני 2016, פשוט משום שחל שינוי קל במערכת הדירוג של פנדנגו זמן קצר לאחר הניתוח של וולט היקי, אליו אתייחס בהמשך מאמר זה.
אני מודע לכך שעבודה עם מדגם קטן היא מסוכנת, אבל לפחות זה מפוצה על ידי קבלת תמונת המצב האחרונה של התפלגויות הרייטינג.
לפני שתכנן ופרשתי את ההפצות, הרשו לי לכמת את הערכים האיכותיים שהשתמשתי בהם קודם: בקנה מידה 0 עד 10, סרט גרוע נמצא בין 0 ל -3, ממוצע בין 3 ל 7, וסרט טוב בין 7 ל 10 .
שימו לב להבחנה בין איכות לכמות. כדי להבחין בהמשך הדברים, אתייחס לדירוגים (כמות) כנמוכים, ממוצעים או גבוהים. כמו בעבר, איכות הסרט מתבטאת כרעה, ממוצעת או טובה. אם אתה דואג שהמונח "הממוצע" יהיה זהה, אל תעשה זאת, כי אני אדאג למנוע כל עמימות.
עכשיו בואו נסתכל על ההפצות:

במבט פשוט, ניתן להבחין שההיסטוגרמה של המטאסקור (כך נקרא גרף מסוג זה) דומה ביותר להתפלגות נורמלית. יש לו מקבץ עבה באזור הממוצע המורכב מסורגים בגבהים לא סדירים, מה שהופך את החלק העליון לא קהה ולא חד.
עם זאת, הם רבים וגדולים יותר מהסורגים בכל אחד משני האזורים האחרים, היורדים בגובה לקיצוניות, פחות או יותר בהדרגה. כל אלה מצביעים בבירור על כך שלרוב המטספורות יש ערך ממוצע, שזה פחות או יותר מה שאנחנו מחפשים.
במקרה של IMDB, עיקר ההתפלגות היא גם באזור הממוצע, אך ישנה הטיה ברורה לעבר הערכים הממוצעים הגבוהים ביותר. אזור הדירוגים הגבוה נראה דומה למה שהיה צפוי לראות להתפלגות נורמלית בחלק זה של ההיסטוגרמה. עם זאת, התכונה הבולטת היא שהאזור המייצג דירוגים נמוכים של סרטים הוא ריק לחלוטין, מה שמעלה סימן שאלה גדול.
בתחילה הטחתי את האשמה על המדגם הקטן וחשבתי כי גדול יותר יעשה צדק יותר עם IMDB. למזלי הצלחתי למצוא מערך נתונים מוכן ב- Kaggle המכיל דירוג IMDB ל -4,917 סרטים שונים. להפתעתי הרבה, ההפצה נראתה כך:

צורת ההפצה נראית כמעט זהה לזו של המדגם עם 214 סרטים, למעט אזור הרייטינג הנמוך, שבמקרה זה מאוכלס חלש עם 46 סרטים (מתוך 4917). עיקר הערכים נמצא עדיין באזור הממוצע, מה שהופך את דירוג ה- IMDB לשווה לשקול עוד לקבלת המלצה, אם כי ברור שקשה להתחרות במטאסקורה, עם הטיה זו.
בכל מקרה, מה שבאמת נהדר בתוצאה זו הוא שניתן להשתמש בה כטיעון חזק לתמיכה בתזה שמדגם 214 הסרטים הוא די מייצג עבור כל האוכלוסייה. במילים אחרות, יש ביטחון גדול יותר כעת כי תוצאות הניתוח הזה יהיו זהות - או לפחות דומות - לתוצאות שהושגו אם היו מנתחים את כל דירוגי הסרט מכל ארבעת האתרים.
עם ביטחון מוגבר זה, נעבור לבחינת התפלגות הדירוגים של פנדנגו, שנראה שלא השתנה הרבה מאז הניתוח של היקי. הטיה עדיין נראה לעבר החלק הגבוה יותר בספקטרום דירוג הסרטים, שם רוב הדירוגים שוכנים. האזור למחצית התחתונה של הדירוגים הממוצעים ריק לחלוטין, בדיוק כמו האזור לדירוגים נמוכים. ניתן להסיק בקלות שההפצה די רחוקה מלהתאים לקריטריון שלי. כתוצאה מכך, לא אשקול זאת להמלצה אפשרית.
(אני מבטיח שייסורי הגלילה יסתיימו בקרוב. הרבה יותר קל להשוות את ההפצות אם הן ממוקמות אחת ליד השנייה, במקום לפזר אותן במאמר.)
לבסוף, התפלגות העגבניות היא אחידה באופן בלתי צפוי, והיא תיראה אפילו שטוחה יותר תחת אסטרטגיית סיבוב שונה (אסטרטגיית סיבוב מוגדרת על ידי המספר הכולל של הסורגים והטווחים שלהם; אתה יכול לשחק בשני הפרמטרים האלה כשאתה יוצר היסטוגרמה) .
לא קל לפרש את ההפצה הזו בהקשר, מכיוון שמד העגבניות הוא לא דירוג קלאסי, אלא מייצג את אחוז המבקרים שנתנו ביקורת חיובית לסרט. זה הופך אותו לבלתי מתאים למסגרת האיכותית הרעה-ממוצעת-טובה, כי זה הופך סרטים לטובים או לרעים. בכל מקרה, אני מניח שזה עדיין אמור להסתכם באותה תפוצה נורמלית, כאשר ברוב הסרטים יש הבדל בינוני בין מספר הביקורות החיוביות לשליליות (מה שמביא דירוגים רבים של 30% - 70% ביקורות חיוביות), ו בכמה סרטים יש הבדל גדול משמעותית, בדרך זו או אחרת.
בהתחשב בשיקול האחרון וצורת החלוקה, העגבניות לא עומדות בקריטריון שלי. זה יכול להיות כי מדגם גדול יותר היה עושה את זה יותר צדק, אבל גם כך, אם הייתי ממליץ על זה, הייתי עושה את זה עם קצת רזרבות בגלל מערכת הדירוג החיובית או שלילית המעורפלת.
בשלב זה של הניתוח, יכולתי לומר שעל ידי התבוננות בהפצות, ההמלצה שלי היא המטסקור.
עם זאת, נראה כי חלוקה של ה- IMDB שווה לשקול גם זאת, במיוחד אם משנים מעט את מרווחי הדירוג לשלוש הקטגוריות האיכותיות (מרווחים שהגדרתי בעצמי, פחות או יותר באופן שרירותי). מנקודת מבט זו, המלצה על המטסקור על ידי ביצוע בדיקה חזותית היא בהחלט לא מספיק.
לכן, אנסה לתחום בין שני אלה באמצעות שיטה כמותית .
הרעיון הוא להשתמש במשתנה Fandango כהפניה שלילית, ואז לקבוע איזה משתנה, מתוך דירוג ה- IMDB והמטא-סקור, הכי פחות מתואם איתו (אני קורא למשתנים האלה מכיוון שהם יכולים לקחת ערכים שונים - למשל, metascore הוא משתנה מכיוון שהוא לוקח ערכים שונים, תלוי בסרט).
אני פשוט אחשב מקדמי קורלציה, והמשתנה בעל הערך הקטן ביותר יהיה ההמלצה שלי (אז אסביר כיצד מקדמי המתאם הללו עובדים). אבל לפני כן, הרשה לי להצדיק בקצרה את בחירת המשתנה פנדנגו כנקודת התייחסות שלילית.
המשתמשים של פנדנגו אוהבים יותר מדי סרטים
אחת הסיבות לבחירה זו היא שהפצת דירוג הסרטים של פנדנגו היא הרחוקה ביותר מזו של נורמלית, כשההתעקשות הברורה היא כלפי החלק הגבוה יותר בספקטרום דירוג הסרטים.
הסיבה הנוספת היא ענן החשדנות סביב פנדנגו שהשאיר הניתוח של וולט היקי. באוקטובר 2015 הוא גם תמה מהפצה דומה וגילה שבאתר של פנדנגו הדירוגים המספריים מעוגלים תמיד לחצי הכוכב הבא, ולא לזה הקרוב ביותר (למשל, דירוג ממוצע של סרט עבור סרט היה עוגלו ל -4.5 כוכבים, במקום 4.0).
צוות פנדנגו תיקן את מערכת הדירוג המוטה, ואמר להיקי כי לוגיקת הדירוג הייתה דווקא "תקלה בתוכנה" באתר האינטרנט שלהם, והצביעה על מערכת משוחדת באפליקציה הסלולרית שלהם. (עוד על כך במאמרו של היקי.) ההתאמה אכן שינתה כמה פרמטרים סטטיסטיים לטובה, אך לא די בכדי לשכנע אותי שלא לעבוד עם המשתנה פנדנגו כנקודת התייחסות שלילית.
כך נראה השינוי:

עכשיו, בואו ונתקרב לפנדנגו:

בין דירוג המטאסקור לדירוג IMDB, מה הכי פחות מתואם עם דירוג הפנדנגו?
הפחות מתואם עם דירוג הפנדנגו הוא מטאסקור. יש לו ערך r של פירסון 0.38 ביחס לפאנדנגו, ואילו דירוג ה- IMDB הוא בעל ערך של 0.63.
עכשיו תן לי להסביר את כל זה.
כששני משתנים משתנים, לוקחים ערכים שונים, הם מתואמים אם יש דפוס שמתאים לשני השינויים. מדידת מתאם פירושה פשוט למדוד עד כמה יש דפוס כזה.
אחת הדרכים לביצוע מדד זה היא חישוב ה- r של פירסון. אם הערך הוא +1.0, זה אומר שיש מתאם חיובי מושלם, ואם זה -1.0, זה אומר שיש מתאם שלילי מושלם.
מידת התאמת המשתנים יורדת ככל שה- r של פירסון מתקרב ל 0, הן מהצד השלילי והן מהחיובי.
בואו נראה טוב יותר את זה:

עכשיו, כדי להכניס את ההפשטה שלמעלה להקשר, אם נשווה את האופן שבו הערכים עבור שני סוגי דירוג משתנים - למשל פנדנגו ו- IMDB - נוכל לקבוע את המידה שבה יש דפוס המתאים לשני השינויים.
בהתחשב במקדמי המתאם שהוזכרו זה עתה, קיים דפוס בין Fandango ו- IMDB במידה רבה יותר מאשר עבור Fandango ו- metascore. שני המקדמים חיוביים, וככזה, נאמר כי המתאם חיובי, מה שאומר שככל שהדירוגים של פנדנגו עולים, הדירוגים של IMDB נוטים לעלות גם כן, יותר מאשר המטסקור.
במילים אחרות, עבור כל דירוג קולנוע נתון בפנדאנגו, סביר יותר שמטאסקורה תהיה שונה ממנו מדירוג ה- IMDB.
פסק הדין: השתמש במטאסקור של מטקריטיק
בסך הכל, אני ממליץ לבדוק את המטסקור בכל פעם שאתה מחפש דירוג סרט. כך זה עובד, והחסרונות שלו.
בקיצור נמרץ, המטסקור הוא ממוצע משוקלל של ביקורות רבות המגיעות ממבקרים נחשבים. צוות Metacritic קורא את הביקורות ומעניק לכל אחד ציון 0-100, אשר לאחר מכן ניתן משקל, בעיקר על סמך איכות הסקירה ומקורו. תוכל למצוא מידע נוסף על מערכת הדירוג שלהם כאן.
עכשיו, אני רק רוצה לציין כמה חסרונות של מטאסקור:
- מקדמי הניפוח הם חסויים, כך שלא תזכו לראות את המידה בה נספרה כל סקירה במטאסקורה.
- יהיה לך קשה למצוא מטספורות לסרטים פחות ידועים שהופיעו לפני 1999, השנה בה נוצרה Metacritic.
- חלק מהסרטים האחרונים ששפתם העיקרית אינה אנגלית אינם מופיעים אפילו ב- Metacritic. לדוגמה, הסרטים הרומניים שני כרטיסי לוטו (2016) ועסקים מזרחיים (2016) אינם רשומים ב- Metacritic, בעוד שהם ב- IMDB, עם דירוגים.
כמה מילים נוספות
לסיכום, במאמר זה המלצתי בודד היכן לחפש דירוג סרט. המלצתי על מטאסקור, בהתבסס על שני טיעונים: תפוצתו דומה ביותר לנורמה, והיא הכי פחות מתואמת עם דירוג הפנדנגו.
כל האלמנטים הכמותיים והוויזואליים של המאמר ניתנים לשחזור בפייתון, כפי שמוצג כאן.
תודה שקראת! וסרטים שמחים!