cum știința datelor stimulează Netflix

cum folosește Netflix Big Data

având în vedere cât timp Netflix a fost în afacerea de streaming, a adunat grămezi de date despre spectatorii săi, cum ar fi vârsta, sexul, locația, gustul lor în mass-media, pentru a numi câteva.

prin colectarea de informații în fiecare interacțiune cu clienții, Netflix se poate scufunda direct în mintea spectatorilor săi și își poate face o idee despre ceea ce ar putea dori să urmărească în continuare, chiar înainte de a termina un spectacol sau un film.

avem date care sugerează că există un comportament de vizualizare diferit în funcție de ziua săptămânii, ora din zi, dispozitivul și uneori chiar locația.

– Reed Hastings

Netflix are o bază masivă de utilizatori de peste 140 de milioane de abonați. Iată câteva valori pe care Netflix le urmărește pentru a oferi un gust individual tuturor—

  • în ce zi urmăriți conținut
  • la ce oră urmăriți conținut
  • dispozitivul pe care a fost urmărit conținutul
  • cum natura conținutului
  • caută pe platformă
  • porțiuni de conținut care au fost Re-vizionate
  • dacă conținutul a fost întrerupt, derulat înapoi sau derulat rapid înainte
  • date despre locația utilizatorului
  • când lăsați conținut
  • evaluările date de utilizatori
  • comportamentul de navigare și derulare

peste timp, Netflix a implementat mai mulți algoritmi și mecanisme care utilizează aceste date și generează informații critice care ajută la direcționarea companiei în direcția corectă. Unele dintre aceste instrumente și caracteristici sunt:

motor de recomandare în timp real

cu o mare de utilizatori, fiecare utilizator generează sute de evaluări pe zi pe baza a ceea ce urmăresc, caută și adaugă la lista lor de vizionare, aceste date devin în cele din urmă o parte a datelor mari. Netflix stochează toate aceste informații și folosind algoritmi cheie de învățare automată, construiește un model care indică gustul privitorului. Este posibil ca acest model să nu se potrivească niciodată cu un alt spectator din cauza modului în care gustul fiecăruia este unic.

pe baza evaluărilor, Netflix își clasifică media și sugerează spectatorului ce crede sistemul de recomandări că ar putea dori să urmărească în continuare.

televiziunea Popcorn GIF de SpongeBob SquarePants(sursa)

Netflix va ști totul. Netflix va ști când o persoană nu mai urmărește. Au toți algoritmii lor și vor ști că această persoană a urmărit cinci minute dintr-un spectacol și apoi s-a oprit. Ei pot spune prin comportamentul și ora din zi că vor reveni la el, pe baza istoriei lor.

– Mitchell Hurwitz

aproape de motor de recomandare în timp Real

 aproape de motor de recomandare în timp Real

motor de recomandare aproape în timp Real (sursă)

● lucrări de artă & selecția imaginilor

v-ați întrebat vreodată de ce Netflix prezintă mai multe lucrări de artă pentru o singură emisiune TV sau film?

instrumentul din spatele acestui lucru se numește AVA, care este în esență un algoritm care selectează ce opere de artă și imagini pentru a arăta cui. Scurt pentru analiza vizuală estetică, AVA trece prin fiecare videoclip disponibil și identifică cadrele care sunt cele mai potrivite pentru a fi utilizate ca opere de artă.

AVA ia în considerare o mulțime de valori înainte de a finaliza imaginile, cum ar fi expresiile faciale ale actorilor, iluminarea scenei, zonele de interes, poziționarea subiecților pe ecran. Ea chiar clasifică și sortează opere de artă pentru a arăta utilizatorilor clasificate în mai multe grupuri de gust.

Netflix este ceva ce mă uit.

– Famke Janssen

● planificarea producției

datele joacă un rol esențial atunci când creatorii vin cu o idee despre un nou spectacol sau film. O mulțime de brainstorming are loc înainte de a ajunge ceva pe hârtie, și că este în cazul în care datele vin.

cu experiență anterioară în crearea de conținut nou și original și o mulțime de date despre modul în care spectatorii au perceput conținutul anterior, Big Data ajută la identificarea soluțiilor posibile la multe dintre provocările cu care se confruntă în timpul fazei de planificare.

aceste provocări ar putea include identificarea locațiilor de filmare, ora și ziua filmării și multe altele. Chiar și cu modele simple de predicție, Netflix poate economisi o cantitate semnificativă de efort depus în planificare, reducând în continuare cheltuielile.

Netflix pune în funcțiune conținut original, deoarece știe ce vor oamenii înainte de a face.

– The New York Times

planificarea producției la Netflix

planificarea producției la Netflix

fotografie de David Sager pe Unsplash

● Metaflow

Netflix are Metaflow open-source, cadrul lor nativ din cloud, centrat pe om, care vizează creșterea productivității cercetătorilor de date.

ideea din spatele Metaflow a fost de a schimba accentul oamenilor de știință de date de la îngrijorarea cu privire la infrastructura modelelor la rezolvarea problemelor. Metaflow le-a permis libertatea de a experimenta ideile lor oferind un set de caracteristici bine reglate, care aproape fac Metaflow să se simtă ca un cadru plug-and-play. Câteva caracteristici notabile ale Metaflow sunt:

capacitatea de a lucra pe o platformă de calcul distribuit

opțiunea de a instantaneu cod și date pentru versionare și experimentare

client S3 de mare viteză și de înaltă performanță

suport pentru majoritatea cadrelor de învățare automată

Metaflow — o bibliotecă Python simplu

 Metaflow — o bibliotecă Python simplu

Metaflow — o bibliotecă Python simplă (sursă)

● Polynote

dezvoltat și open-source de Netflix, Polynote este un poliglot notebook cu suport pentru Scala și diverse alte caracteristici. Polynote permite integrarea lină a platformei de învățare automată bazată pe JVM cu Python către oamenii de știință de date și cercetătorii de învățare automată. Câteva aspecte importante ale acestui notebook sunt:

Circus oferă informații despre starea kernel-ului și sarcinile în execuție

Circus oferă dependență simplistă și gestionarea configurației

Circus oferă funcții asemănătoare IDE, cum ar fi completarea automată, evidențierea erorilor, reproductibilitatea, editarea, îmbunătățirile, vizibilitatea, vizualizarea datelor și multe altele.

mitacat

vasta piscină de date pe care operează Netflix este răspândită pe mai multe platforme, cum ar fi Amazon S3, Druid, Redshift și MySql, pentru a numi câteva. Pentru a menține interoperabilitatea perfectă între aceste magazine de date, Netflix avea nevoie de un serviciu.

această nevoie de simplitate a dat naștere Metacat, al cărui unic scop era să ofere acces centralizat la metadate pentru toate magazinele de date. Netflix a creat Metaflow cu intenția de a îndeplini următoarele obiective de bază:

pentru a unifica și a oferi vederi centralizate ale sistemelor de metadate

pentru a oferi un API singular pentru metadatele seturilor de date pentru platforme

pentru a oferi o soluție pentru stocarea metadatelor de afaceri și de utilizator a seturilor de date

● Druid

„Apache Druid este o bază de date de analiză în timp real de înaltă performanță. Este conceput pentru fluxuri de lucru în care interogările rapide și ingerarea contează cu adevărat. Druid excelează la vizibilitatea instantanee a datelor, interogări ad-hoc, analize operaționale și gestionarea concurenței ridicate.”

— druid.io

Netflix folosește Apache Druid pentru a se asigura că utilizatorii săi obțin o experiență de utilizator de înaltă calitate de fiecare dată. Oferind o experiență de utilizator de top-notch de fiecare dată nu este un simplu feat. Aceasta necesită o analiză constantă a mai multor evenimente, colectarea datelor necesare și analizarea acestora. Aceste date ar putea fi orice, de la informațiile De redare, la informațiile despre dispozitiv, la măsurarea performanței platformei și multe altele. Toate aceste valori ale evenimentelor complică datele brute și aici intră în joc Druid.

sarcina Druid este de a oferi analize în timp real pe baze de date în care interogările se execută în mod regulat și la perioade de timp incerte. Este foarte scalabil și oferă performanțe excelente pentru orice volum de muncă dat.

utilizarea de Python

Netflix iubește Python din cauza cât de puternic este și cât de excelent devine atunci când este asociat cu bibliotecile, ca să nu mai vorbim de cât de ușor se integrează cu alte platforme. Netflix folosește Python pentru a gestiona o serie de aspecte critice ale misiunii sale, cum ar fi:

● Aplicații gestionarea CDN infrastructură

● Analiza datelor operative, trafic de distribuție și eficiența de operare

● Prototipuri instrumente de vizualizare

● Obținerea perspective prin instrumente statistice, explorarea datelor și curățarea

● Pentru menținerea securității informațiilor

● Gestionarea mai multe activități de bază, folosind Jupyter notebook-uri

● Pentru experimentare, folosind teste a/B

Lasă un răspuns

Adresa ta de email nu va fi publicată.

Previous post UCSB știință linie
Next post SUA Expat negru în Islanda și reacția țării la George Floyd