Comment la science des données stimule Netflix

Comment Netflix utilise le Big Data

Compte tenu de la durée de la présence de Netflix dans le secteur du streaming, il a empilé des tas de données sur ses téléspectateurs, telles que leur âge, leur sexe, leur emplacement, leur goût pour les médias, pour n’en nommer que quelques-uns.

En recueillant des informations à chaque interaction client, Netflix peut plonger directement dans l’esprit de ses téléspectateurs et avoir une idée de ce qu’ils aimeraient regarder ensuite avant même de terminer une émission ou un film.

Nous avons des données qui suggèrent qu’il existe un comportement de visualisation différent en fonction du jour de la semaine, de l’heure de la journée, de l’appareil et parfois même de l’emplacement.

– Reed Hastings

Netflix a une base d’utilisateurs massive de plus de 140 millions d’abonnés. Voici quelques mesures que Netflix suit pour donner un goût individuel à tout le monde —

  • Quel jour vous regardez du contenu
  • À quelle heure vous regardez du contenu
  • L’appareil sur lequel le contenu a été regardé
  • Comment la nature du contenu
  • Recherche sur la plate-forme
  • Portions de contenu qui ont été visionnées à nouveau
  • Si le contenu a été mis en pause, rembobiné ou avancé rapidement
  • Données de localisation de l’utilisateur
  • Lorsque vous quittez le contenu
  • Les notes données par les utilisateurs
  • Comportement de navigation et de défilement

Sur au fil du temps, Netflix a déployé plusieurs algorithmes et mécanismes qui utilisent ces données et génèrent des informations critiques qui aident à orienter l’entreprise dans la bonne direction. Certains de ces outils et fonctionnalités sont:

● Moteur de recommandation en temps quasi réel

Avec une mer d’utilisateurs, chaque utilisateur génère des centaines de notes par jour en fonction de ce qu’il regarde, recherche et ajoute à sa liste de surveillance, ces données deviennent finalement une partie du Big Data. Netflix stocke toutes ces informations et en utilisant des algorithmes d’apprentissage automatique clés, il crée un modèle indiquant le goût du spectateur. Ce modèle peut ne jamais correspondre à un autre spectateur en raison de la façon dont le goût de chacun est unique.

Sur la base des notes, Netflix catégorise ses médias et suggère au spectateur ce que le système de recommandation pense qu’il aimerait regarder ensuite.

GIF de Popcorn de télévision Par Bob l’éponge SquarePants (source)

Netflix saura tout. Netflix saura quand une personne arrête de le regarder. Ils ont tous leurs algorithmes et sauront que cette personne a regardé cinq minutes d’une émission puis s’est arrêtée. Ils peuvent dire par le comportement et l’heure de la journée qu’ils vont y revenir, en fonction de leur histoire.

– Mitchell Hurwitz

 Moteur de Recommandation En Temps Quasi Réel

 Moteur de Recommandation En Temps Quasi Réel

Moteur de Recommandation En Temps Quasi Réel (source)

● Illustration & Sélection d’images

Vous êtes-vous déjà demandé pourquoi Netflix montre plusieurs œuvres pour une seule émission de télévision ou un seul film?

L’outil derrière cela s’appelle AVA, qui est essentiellement un algorithme qui sélectionne quelles œuvres d’art et quelles images montrer à qui. Abréviation de l’analyse visuelle esthétique, AVA passe au crible chaque vidéo disponible et identifie les images les mieux adaptées pour être utilisées comme œuvres d’art.

AVA prend en compte de nombreuses métriques avant de finaliser les images, telles que les expressions faciales des acteurs, l’éclairage de la scène, les zones d’intérêt, le positionnement des sujets à l’écran. Il classe et trie même les œuvres d’art à montrer aux utilisateurs classés en plusieurs groupes de goûts.

Netflix est quelque chose que je regarde.

– Famke Janssen

● Planification de la production

Les données font partie intégrante lorsque les créateurs ont une idée d’une nouvelle émission ou d’un nouveau film. Beaucoup de remue-méninges ont lieu avant que quoi que ce soit soit sur le papier, et c’est là que les données entrent en jeu.

Avec une expérience préalable dans la création de contenu nouveau et original et de nombreuses données sur la façon dont les téléspectateurs percevaient le contenu précédent, le Big Data aide à mettre en évidence les solutions possibles à de nombreux défis rencontrés pendant la phase de planification.

Ces défis pourraient inclure l’identification des lieux de tournage, l’heure et le jour du tournage, etc. Même avec des modèles de prédiction simples, Netflix peut économiser beaucoup d’efforts dans la planification, réduisant encore les dépenses.

Netflix commande du contenu original parce qu’il sait ce que les gens veulent avant de le faire.

– Le New York Times

 Planification de la production chez Netflix

 Planification de la production chez Netflix

Photo de David Sager sur Unsplash

● Metaflow

Netflix a mis en ligne Metaflow, son framework cloud natif centré sur l’humain, qui vise à stimuler la productivité des data scientist.

L’idée derrière Metaflow était de déplacer l’attention des scientifiques des données de s’inquiéter de l’infrastructure des modèles vers la résolution de problèmes. Metaflow leur a permis la liberté d’expérimenter leurs idées en offrant un ensemble de fonctionnalités affinées qui donnent presque à Metaflow l’impression d’un framework plug-and-play. Quelques caractéristiques remarquables de Metaflow sont:

● Possibilité de travailler sur une plate-forme informatique distribuée

● Option d’instantané de code et de données pour le versionnage et l’expérimentation

● Client S3 haute vitesse et haute performance

● Prise en charge de la plupart des frameworks d’apprentissage automatique

 Metaflow - Une bibliothèque Python simple

 Metaflow - Une bibliothèque Python simple

Metaflow — Une bibliothèque Python simple (source)

● Polynote

Développé et open-source par Netflix, Polynote est un polyglotte ordinateur portable avec prise en charge de Scala et de diverses autres fonctionnalités. Polynote permet une intégration fluide de la plate-forme d’apprentissage automatique basée sur JVM avec Python aux scientifiques des données et aux chercheurs en apprentissage automatique. Quelques points forts de ce bloc-notes sont:

● Fournit des informations sur l’état du noyau et les tâches en exécution

● Offre une gestion simpliste des dépendances et de la configuration

● Fournit des fonctionnalités de typeE telles que l’auto-complétion, les surbrillances d’erreur, la reproductibilité, l’édition, les améliorations, la visibilité, la visualisation des données et bien d’autres.

● Metacat

Le vaste bassin de données sur lequel Netflix opère est réparti sur plusieurs plates-formes telles que Amazon S3, Druid, Redshift et MySQL, pour n’en nommer que quelques-unes. Pour maintenir une interopérabilité transparente entre ces magasins de données, Netflix avait besoin d’un service.

Ce besoin de simplicité a donné naissance à Metacat, dont le seul but était de fournir un accès centralisé aux métadonnées pour tous les magasins de données. Netflix a créé Metaflow dans le but de répondre aux objectifs principaux suivants:

● Pour unifier et fournir des vues centralisées des systèmes de métadonnées

● Pour offrir une API singulière pour les métadonnées d’ensembles de données pour les plates-formes

● Pour fournir une solution pour le stockage des métadonnées des ensembles de données par les entreprises et les utilisateurs

● Druide

 » Apache Druid est une base de données d’analyse en temps réel haute performance. Il est conçu pour les flux de travail où les requêtes et les ingérences rapides importent vraiment. Druid excelle dans la visibilité instantanée des données, les requêtes ad hoc, l’analyse opérationnelle et la gestion d’une concurrence élevée. »

— druide.io

Netflix utilise Apache Druid pour garantir à ses utilisateurs une expérience utilisateur de haute qualité à chaque fois. Offrir une expérience utilisateur de premier ordre à chaque fois n’est pas un exploit simple. Cela nécessite une analyse constante de plusieurs événements, la collecte des données nécessaires et leur analyse. Ces données peuvent être n’importe quoi, des informations de lecture aux informations sur l’appareil, en passant par les performances de la plate-forme de mesure et plusieurs autres. Toutes ces métriques d’événements compliquent les données brutes, et c’est là que Druid entre en jeu.

La tâche de Druid est de fournir des analyses en temps réel sur les bases de données où les requêtes s’exécutent régulièrement et à des périodes incertaines. Il est hautement évolutif et offre d’excellentes performances pour une charge de travail donnée.

● Utilisation de Python

Netflix aime Python en raison de sa puissance et de son excellence lorsqu’il est associé à des bibliothèques, sans parler de sa facilité d’intégration avec d’autres plates-formes. Netflix utilise Python pour gérer une multitude d’aspects critiques tels que:

● Applications gérant l’infrastructure CDN

● Analyse des données opérationnelles, de la distribution du trafic et de l’efficacité opérationnelle

● Outils de visualisation de prototypage

● Obtenir des informations via des outils statistiques, l’exploration et le nettoyage des données

● Pour maintenir la sécurité de l’information

● Gérer plusieurs tâches principales à l’aide des notebooks Jupyter

● Pour l’expérimentation à l’aide de tests A/B

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

Previous post Ligne scientifique de l’UCSB
Next post comment augmenter la taille du pénis naturellement exercices