Explication du classement IMDb

Dimanche, octobre 25th, 2009 by dude

imdbclassement

IMDb c’est LA référence. C’est la case départ à tout soirée cinéma. Et quand bien même, on est a court de film, le classement top 250 d’IMDb est là pour offrir une liste complète et crédible de très bons long-métrages.
On peut la considérer comme la plus grande base de donnée collaborative sur le net (page statistique). Source infinie de connaissance cinématographique, on peut y rester des heures à naviguer de célébrités en célébrités.

J’ai même élaboré la théorie de la boucle infinie d’IMDb. Le principe est simple, en partant de la page de n’importe qui, on peut rejoindre une autre personnalité tiers qu’en utilisant les hyperliens.

Exemple: En partant de Zach Braff, il est aisé de rejoindre de Clint Eastwood (pourtant rien ne les rapproche, à priori).
Broken Hearts Club > Timothy Olyphant > Dreamcatcher > Morgan Freeman > Million Dollar Baby > Le tour est joué !

L’algorithme est assez simple, il suffit de tomber le plus rapidement possible sur des acteurs à grande carrière. Morgan Freeman est souvent pris pour référence, l’éternel second-rôle. Essayez avec n’importe quel acteur, la théorie se vérifie.

Passons. le top 250 d’IMDb est ce qu’il se fait de mieux pour l’instant. Mais comment est-il donc établi. Offrons-nous un forfait 2 minutes de réflexion et attaquons nous à la mystérieuse formule donnée par le site filiale d’Amazon:

 weighted rating (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C

Avec:

  • R = note moyenne (moyenne arithmétique, en d’autres termes: somme des notes que l’on divise par le nombre de vote)
  • v = nombre de vote.
  • m = nombre minimum de vote pour accéder au top 250 (actuellement 1500)
  • C = la  note moyenne sur l’ensemble des films (actuellement 6.8)

On se s’affole pas. Rien de bien complexe. Et rassurez-vous c’est du "True Bayesian estimate". Terme définitivement créé pour l’occasion, et ça en jète ! Tout ça pour dire qu’il s’agit grosso modo d’une moyenne arithmétique pondérée.

Pour faire simple, plus il y aura de votant plus la note made in IMDb sera proche de la moyenne arithmétique classique que l’on connait bien.

Exemple: Prenons un film 1 comptabilisant 300 000 votants, et un film 2 avec 5 000 participants. Tous les deux possèdent une moyenne arithmétique de 5:

+   WR1=5.01

+   WR2=5.41

Maintenant avec une moyenne R=8:

+   WR1=8

+   WR2=7.72

Jusque là, on est pas encore hors forfait. On remarque donc pourtant ce coefficient m=1500 ! Les notes des films avec peu de votes se rapprocheront de le moyenne globale à savoir 6.8. Bon ! Ca peut se tenir, si on suppose que les potentiels futurs votants noteront le film à 6.8.

Le doute réside en grande partie dans le m. Pour que la pondération devienne négligeable (c’est à dire pour que la moyenne des notes ne soit pas interférée par la moyenne globale: 6.8), il nous faut un rapport v/m négligeable devant 1. Ainsi on aura (WR)=1*R + 0*C. On peut considérer m négligeable devant v si v=100*m. Donc à partir de 150 000 votants, on pourra assimiler le WR à R.

Reste encore à savoir si 150 000 fanboys (qui voteraient 10/10) peuvent suffire à un film pour atteindre le TOP 250, sans que le classement d’IMDb ne perde pas sa crédibilité. (cf. Stars Wars, Lord of the Rings).

C’est pourquoi le site spécifie que seuls les votes des "regular voters" sont pris en compte pour l’élaboration du TOP 250.  Mystère et boule de gomme, lorsqu’on s’évertue à chercher la définition du "regular voters". IMDb s’efforce de garder secret cette dernière probablement pour éviter aux malvenus de falsifier le Saint Graal des classements cinématographiques.

Si par dessus tout tu n’es pas encore convaincu, il te reste encore le détails des votes (exemple pour Citizen Kane) qui va te permettre de te faire une idée de la valeur du film selon l’âge et le sexe des spectateurs. Si, par malheur, tu es cinéphile tourne toi vers les "TOP 1000 voters" ou "IMDb Staff" qui ont généralement de bons goûts !

En conclusion, malgré quelques défauts l’algorithme d’IMDb est le meilleur actuellement. Oublions les allocine qui sont juste bons à obtenir le synopsis et la bande annonce en français.