hoe Data Science Netflix stimuleert

hoe Netflix Big Data gebruikt

gezien hoe lang Netflix al in de streaming business zit, heeft het stapels gegevens over zijn kijkers, zoals hun leeftijd, geslacht, locatie, hun smaak in media, om er maar een paar te noemen.

door informatie te verzamelen over elke interactie met de klant, kan Netflix direct in de hoofden van zijn kijkers duiken en een idee krijgen van wat ze zouden willen kijken naar de volgende, zelfs voordat ze klaar zijn met een show of film.

we hebben gegevens die suggereren dat er verschillend kijkgedrag is afhankelijk van de dag van de week, het tijdstip van de dag, het apparaat en soms zelfs de locatie.

– Reed Hastings

Netflix heeft een enorme user base van meer dan 140 miljoen abonnees. Hier zijn enkele statistieken die Netflix tracks om een individuele smaak aan iedereen te geven—

  • welke dag bekijkt u inhoud
  • hoe laat bekijkt u inhoud
  • het apparaat waarop de inhoud werd bekeken
  • hoe de aard van de inhoud
  • zoekt op het platform
  • Delen van inhoud die opnieuw werden bekeken
  • of inhoud werd gepauzeerd, terugspoelen of vooruitspoelen
  • locatiegegevens van de gebruiker
  • wanneer u inhoud
  • verlaat> de waarderingen gegeven door de gebruikers
  • blader-en scrolgedrag

over time, Netflix heeft verschillende algoritmen en mechanismen die gebruik maken van deze gegevens en het genereren van kritische inzichten die helpen sturen van het bedrijf in de juiste richting ingezet. Sommige van deze tools en functies zijn:

● Near Real-Time Recommendation Engine

met een zee van gebruikers genereert elke gebruiker honderden ratings per dag op basis van wat ze bekijken, zoeken en toevoegen aan hun watch-list, worden deze gegevens uiteindelijk een onderdeel van Big Data. Netflix slaat al deze informatie op en met behulp van belangrijke machine learning-algoritmen bouwt het een patroon dat de smaak van de kijker aangeeft. Dit patroon kan nooit overeenkomen met een andere kijker vanwege hoe ieders smaak is uniek.

op basis van de ratings, Netflix categoriseert de media en stelt de kijker wat het aanbeveling systeem denkt dat ze misschien willen kijken volgende.

televisie Popcorn GIF door SpongeBob SquarePants (bron)

Netflix zal alles weten. Netflix zal weten wanneer een persoon stopt met kijken. Ze hebben al hun algoritmes en zullen weten dat deze persoon vijf minuten van een show keek en toen stopte. Ze kunnen aan het gedrag en de tijd van de dag zien dat ze terug zullen komen, gebaseerd op hun geschiedenis.

– Mitchell Hurwitz

bijna-Realtimeaanbeveling Motor

bijna-Realtimeaanbeveling Motor

bijna Real-Time aanbeveling Engine(bron)

● Artwork & beeldselectie

ooit afgevraagd waarom Netflix meerdere kunstwerken toont voor één TV-show of film?

de tool hierachter heet AVA, wat in wezen een algoritme is dat selecteert welke kunstwerken en afbeeldingen aan wie getoond worden. Kort voor esthetiek visuele analyse, AVA zeven door elke video beschikbaar en identificeert de frames die het best geschikt zijn om te worden gebruikt als kunstwerken.

AVA neemt veel metrics in overweging alvorens beelden af te ronden, zoals gezichtsuitdrukkingen van acteurs, de scà neverlichting, interessegebieden, positionering van onderwerpen op het scherm. Het categoriseert en sorteert kunstwerken om te laten zien aan gebruikers gecategoriseerd in verschillende smaakgroepen.

Netflix is iets wat ik kijk.

– Famke Janssen

● productieplanning

Data speelt een integrale rol wanneer makers met een idee komen over een nieuwe show of film. Veel brainstormen vindt plaats voordat er iets op het papier komt, en dat is waar data in het spel komt.

met eerdere ervaring in het creëren van nieuwe en originele inhoud en ladingen gegevens over hoe de kijkers de vorige inhoud zagen, helpt Big Data de mogelijke oplossingen te vinden voor veel van de uitdagingen waarmee men tijdens de planningsfase wordt geconfronteerd.

deze uitdagingen kunnen het identificeren van de locaties, het tijdstip en de dag van de opname omvatten, en meer. Zelfs met eenvoudige voorspellingsmodellen kan Netflix een aanzienlijke hoeveelheid inspanning besparen die in de planning wordt gestoken, waardoor de kosten verder worden verlaagd.

Netflix is het inbedrijfstellen van originele content omdat het weet wat mensen willen voordat ze dat doen.

– The New York Times

productieplanning op Netflix

productieplanning op Netflix

Foto van David Sager op Unsplash

● Metaflow

Netflix heeft open-source Metaflow, hun cloud native, human-centric framework gericht op het stimuleren van data scientist productiviteit.

het idee achter Metaflow was om de focus van datawetenschappers te verschuiven van zorgen maken over de infrastructuur van modellen naar het oplossen van problemen. Metaflow gaf hen de vrijheid om te experimenteren met hun ideeën door het aanbieden van een set van verfijnde functies die Metaflow bijna het gevoel geeft als een plug-and-play framework. Een paar opmerkelijke kenmerken van Metaflow zijn:

● Mogelijkheid om te werken op een distributed computing platform

● de Optie om een momentopname van de code en de gegevens voor versiebeheer en experimenteren

● High-speed en high-performance-S3-client

● Ondersteuning voor de meeste machine learning kaders

Metaflow — Een eenvoudig Python-bibliotheek

Metaflow — Een eenvoudig Python-bibliotheek

Metaflow — Een eenvoudig Python-bibliotheek(bron)

● Polynote

Ontwikkeld en open-source door Netflix, Polynote is een polyglot notebook met ondersteuning voor Scala en diverse andere functies. Polynote maakt een soepele integratie van JVM gebaseerde machine learning platform met Python Data wetenschappers en machine learning onderzoekers. Een paar hoogtepunten van deze notebook zijn:

● geeft inzicht in kernel status en taken in uitvoering

● biedt simplistische afhankelijkheid en configuratiebeheer

● biedt IDE-achtige functies zoals auto-complete, fout highlights, reproduceerbaarheid, bewerken, verbeteringen, zichtbaarheid, data visualisatie en nog veel meer.

● metacat

de enorme pool van gegevens waarop Netflix werkt is verspreid over meerdere platforms zoals Amazon S3, Druid, Redshift en MySql, om er maar een paar te noemen. Om naadloze interoperabiliteit tussen deze gegevensopslag te behouden, had Netflix een service nodig.

deze behoefte aan eenvoud heeft geleid tot Metacat, dat uitsluitend tot doel had gecentraliseerde toegang tot metadata voor alle gegevensopslag te bieden. Netflix creëerde Metaflow met de bedoeling om de volgende kerndoelen te dienen:

● het unificeren en gecentraliseerd weergeven van metagegevensystemen

● het aanbieden van een enkelvoudige API voor dataset-metagegevens voor platforms

● het bieden van een oplossing voor het opslaan van metagegevens door bedrijven en gebruikers van datasets

● Druïde

“Apache Druid is een high performance real-time analytics database. Het is ontworpen voor workflows waar snelle query ‘ s en inname echt belangrijk zijn. Druid blinkt uit in directe zichtbaarheid van gegevens, ad-hoc query ‘ s, operationele analytics en het verwerken van hoge concurrency.”

— druïde.Io

Netflix gebruikt Apache Druid om ervoor te zorgen dat zijn gebruikers elke keer een hoogwaardige gebruikerservaring krijgen. Het leveren van een top-notch gebruikerservaring elke keer is niet een eenvoudige prestatie. Het vereist een constante analyse van verschillende gebeurtenissen, het verzamelen van de nodige gegevens en het analyseren ervan. Deze gegevens kunnen van alles zijn, van de afspeelinformatie tot apparaatinformatie, tot het meten van platformprestaties en verschillende anderen. Al deze gebeurtenissen maken ruwe gegevens ingewikkeld, en dat is waar Druid in het spel komt.

de taak van Druid is het leveren van real-time analytics op databases waar query ‘ s regelmatig en op onzekere tijdstippen worden uitgevoerd. Het is zeer schaalbaar en biedt uitstekende prestaties voor een bepaalde werkbelasting.

● gebruik van Python

Netflix houdt van Python vanwege hoe krachtig het is en hoe uitstekend het wordt wanneer gekoppeld met bibliotheken, niet te vergeten hoe soepel het integreert met andere platforms. Netflix gebruikt Python voor het beheren van een gastheer van zijn missie-kritische aspecten, zoals:

toepassingen beheer van de CDN-infrastructuur

analyse van operationele gegevens, verkeersdistributie en operationele efficiëntie

Prototyping-visualisatietools

verkrijgen van inzichten via statistische instrumenten, gegevensexploratie en-reiniging

voor het behoud van informatiebeveiliging

beheer van verschillende kerntaken met behulp van Jupyter-notebooks

voor experimenten met behulp van A/B-tests

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.

Previous post UCSB Science Line
Next post hoe vergroot je de penisgrootte natuurlijk oefeningen