Come Netflix utilizza i Big Data
Considerando quanto tempo Netflix è stato nel business dello streaming, ha accatastato cumuli di dati sui suoi spettatori, come la loro età, sesso, posizione, il loro gusto nei media, per citarne alcuni.
Raccogliendo informazioni su ogni interazione con i clienti, Netflix può immergersi direttamente nella mente dei suoi spettatori e avere un’idea di ciò che potrebbe piacere guardare dopo ancora prima di finire uno spettacolo o un film.
Abbiamo dati che suggeriscono che esiste un comportamento di visualizzazione diverso a seconda del giorno della settimana, dell’ora del giorno, del dispositivo e talvolta anche della posizione.
– Reed Hastings
Netflix ha una massiccia base di utenti di oltre 140 milioni di abbonati. Qui ci sono alcune metriche che Netflix tracce per dare un gusto per tutti—
- In che giorno si guarda il contenuto di
- Qual volta che si guarda il contenuto di
- Il dispositivo su cui il contenuto è stato visto
- Come la natura del contenuto
- Ricerche sulla piattaforma
- Porzioni di contenuto che ha ri-guardato
- Se il contenuto è stato messo in pausa, riavvolgere, o fast forward
- dati sulla posizione degli Utenti
- Quando si lascia contenuto
- I rating forniti dagli utenti
- la Navigazione e la modalità di scorrimento
Sopra tempo, Netflix ha implementato diversi algoritmi e meccanismi che fanno uso di questi dati e generano approfondimenti critici che aiutano a guidare l’azienda nella giusta direzione. Alcuni di questi strumenti e funzionalità sono:
● Near Real-Time Recommendation Engine
Con un mare di utenti, ogni utente genera centinaia di valutazioni al giorno in base a ciò che guardano, cercano e aggiungono alla loro watch-list, questi dati alla fine diventano parte dei Big Data. Netflix memorizza tutte queste informazioni e utilizzando algoritmi di apprendimento automatico chiave, costruisce un modello che indica il gusto dello spettatore. Questo modello non può mai corrispondere con un altro spettatore a causa di come il gusto di tutti è unico.
In base alle valutazioni, Netflix categorizza i suoi media e suggerisce allo spettatore ciò che il sistema di raccomandazione pensa che potrebbe piacere guardare dopo.
Netflix saprà tutto. Netflix saprà quando una persona smette di guardarlo. Hanno tutti i loro algoritmi e sapranno che questa persona ha guardato cinque minuti di uno spettacolo e poi si è fermata. Possono dire dal comportamento e l’ora del giorno che stanno per tornare ad esso, in base alla loro storia.
– Mitchell Hurwitz
● Opere d’arte & Immagini di Selezione
Mai chiesti perché Netflix mostra più opere d’arte per un unico show televisivo o un film?
Lo strumento alla base di questo si chiama AVA, che è essenzialmente un algoritmo che seleziona quali opere d’arte e immagini mostrare a chi. Abbreviazione di Estetica Analisi visiva, AVA passa al setaccio ogni video disponibile e identifica i fotogrammi che sono più adatti per essere utilizzati come opere d’arte.
AVA prende in considerazione molte metriche prima di finalizzare le immagini, come le espressioni facciali degli attori, l’illuminazione della scena, le aree di interesse, il posizionamento dei soggetti sullo schermo. E ‘ anche categorizza e ordina opere d’arte per mostrare agli utenti classificati in diversi gruppi di gusto.
Netflix è qualcosa che guardo.
– Famke Janssen
● Pianificazione della produzione
I dati svolgono una parte integrante quando i creatori hanno un’idea su un nuovo spettacolo o film. Un sacco di brainstorming avviene prima che qualcosa arrivi sulla carta, ed è qui che entrano in gioco i dati.
Con una precedente esperienza nella creazione di contenuti nuovi e originali e un sacco di dati su come gli spettatori percepivano il contenuto precedente, Big Data aiuta a far emergere le possibili soluzioni a molte delle sfide affrontate durante la fase di pianificazione.
Queste sfide potrebbero includere l’identificazione dei luoghi delle riprese, l’ora e il giorno delle riprese e altro ancora. Anche con semplici modelli di previsione, Netflix può risparmiare una notevole quantità di sforzi nella pianificazione, riducendo ulteriormente le spese.
Netflix sta commissionando contenuti originali perché sa cosa vogliono le persone prima di farlo.
– Il New York Times
● Metaflow
Netflix è open-source Metaflow, cloud nativo, human-centric quadro di rilancio dati scienziato produttività.
L’idea alla base di Metaflow era di spostare l’attenzione dei data scientist dalla preoccupazione per l’infrastruttura dei modelli alla risoluzione dei problemi. Metaflow ha permesso loro la libertà di sperimentare con le loro idee, offrendo una serie di funzioni perfezionate che quasi rende Metaflow sentire come un quadro plug-and-play. Alcune caratteristiche degne di nota di Metaflow sono:
● Capacità di lavorare su una piattaforma di calcolo distribuito
● Opzione snapshot codice e dati per il controllo delle versioni e la sperimentazione
● ad Alta velocità e ad alte prestazioni S3 client
● Supporto per la maggior parte di machine learning quadri
● Polynote
Sviluppato e open-source da Netflix, Polynote è un poliglotta notebook con supporto per Scala e varie altre funzionalità. Polynote consente l’integrazione fluida della piattaforma di apprendimento automatico basata su JVM con Python agli scienziati dei dati e ai ricercatori di apprendimento automatico. Alcuni punti salienti di questo notebook sono:
● Fornisce informazioni sullo stato del kernel e sulle attività in esecuzione
● Offre una gestione semplicistica delle dipendenze e della configurazione
● Fornisce funzionalità simili a IDE come completamento automatico, evidenziazioni degli errori, riproducibilità, modifica, miglioramenti, visibilità, visualizzazione dei dati e molti altri.
● Metacat
Il vasto pool di dati su cui opera Netflix è distribuito su più piattaforme come Amazon S3, Druid, Redshift e MySQL, solo per citarne alcuni. Per mantenere l’interoperabilità senza soluzione di continuità tra questi archivi di dati, Netflix aveva bisogno di un servizio.
Questa esigenza di semplicità ha dato vita a Metacat, il cui unico scopo era quello di fornire accesso centralizzato ai metadati per tutti gli archivi di dati. Netflix ha creato Metaflow con l’intento di servire i seguenti obiettivi principali:
● Per unificare e fornire viste centralizzate dei sistemi di metadati
● Per offrire un’API singolare per i metadati del set di dati per piattaforme
● Per fornire una soluzione per l’archiviazione dei metadati aziendali e degli utenti dei set di dati
● Druido
“Apache Druid è un database di analisi in tempo reale ad alte prestazioni. È progettato per flussi di lavoro in cui le query veloci e l’ingerimento sono davvero importanti. Druid eccelle nella visibilità istantanea dei dati, nelle query ad hoc, nell’analisi operativa e nella gestione dell’elevata concorrenza.”
— druido.io
Netflix utilizza Apache Druid per garantire ai suoi utenti un’esperienza utente di alta qualità ogni volta. Offrire un’esperienza utente di alto livello ogni volta non è un’impresa semplice. Richiede un’analisi costante di diversi eventi, raccogliendo i dati necessari e analizzandoli. Questi dati potrebbero essere qualsiasi cosa, dalle informazioni di riproduzione, alle informazioni sul dispositivo, alle prestazioni della piattaforma di misurazione e molti altri. Tutte queste metriche di eventi rendono i dati grezzi complicati, ed è qui che entra in gioco Druid.
Il compito di Druid è quello di fornire analisi in tempo reale su database in cui le query vengono eseguite regolarmente e in periodi di tempo incerti. È altamente scalabile e offre prestazioni eccellenti per qualsiasi carico di lavoro.
● Uso di Python
Netflix ama Python a causa di quanto sia potente e di quanto sia eccellente quando viene accoppiato con le librerie, per non parlare di come si integra perfettamente con altre piattaforme. Netflix utilizza Python per gestire una serie di aspetti mission-critical come:
● le Applicazioni di gestione del CDN infrastrutture
● Analisi dei dati di esercizio, la distribuzione del traffico e l’efficienza di funzionamento
● Prototipazione strumenti di visualizzazione
● raccogliere informazioni approfondite tramite strumenti statistici, l’esplorazione dei dati e la pulizia
● Per mantenere la sicurezza delle informazioni
● Gestione delle diverse attività di base utilizzando Jupyter notebook
● Per la sperimentazione di test A/B