Hvordan Netflix Bruker Store Data
Med Tanke på Hvor lenge Netflix har vært i streamingbransjen, har Den stablet opp massevis av data om sine seere, for eksempel alder, kjønn, plassering, deres smak i media, for å nevne noen.
Ved å samle informasjon på tvers av hver kundeinteraksjon, Kan Netflix dykke rett inn i seerne og få en ide om hva De kanskje vil se neste gang, selv før de er ferdige med et show eller en film.
vi har data som tyder på at det er forskjellig visningsadferd, avhengig av ukedag, tidspunkt på dagen, enheten og noen ganger til og med plasseringen.
– Reed Hastings
Netflix har en massiv brukerbase på mer enn 140 millioner abonnenter. Her er Noen beregninger Som Netflix sporer for å gi en individuell smak til alle—
- hvilken dag ser du innhold
- hvilken tid ser du innhold
- enheten som innholdet ble sett på
- hvordan innholdet
- Søker på plattformen
- Deler av innhold som ble sett på nytt
- om innholdet ble satt på pause, spole tilbake eller spole fremover
- brukerplasseringsdata
- når du forlater innhold
- vurderingene gitt av brukerne
- bla gjennom og bla gjennom atferd
over Tid, Netflix har utplassert flere algoritmer og mekanismer som gjør bruk av disse dataene og generere kritisk innsikt som bidrar til å styre selskapet i riktig retning. Noen av disse verktøyene og funksjonene er:
● Nær Sanntids Anbefalingsmotor
med et hav av brukere genererer hver bruker hundrevis av rangeringer per dag basert på hva de ser, søker og legger til i deres overvåkingsliste, blir disse dataene til Slutt En Del Av Store Data. Netflix lagrer all denne informasjonen og bruker viktige maskinlæringsalgoritmer, det bygger et mønster som indikerer betrakterens smak. Dette mønsteret kan aldri matche med en annen seer på grunn av hvordan alles smak er unik.
Basert På rangeringer, Netflix kategoriserer sine medier og foreslår betrakteren hva anbefalingssystemet mener de kanskje har lyst til å se neste.
Netflix vil vite alt. Netflix vil vite når en person slutter å se den. De har alle sine algoritmer og vil vite at denne personen så fem minutter av et show og deretter stoppet. De kan fortelle av atferd og tid på dagen at de kommer til å komme tilbake til det, basert på deres historie.
– Mitchell Hurwitz
● Artwork & Imagery Selection
noen gang lurt på hvorfor Netflix viser flere kunstverk for en ENKELT TV-show eller film?
verktøyet bak dette kalles AVA, som egentlig er en algoritme som velger hvilke kunstverk og bilder som skal vises til hvem. KORT For Estetikk Visuell Analyse, ava siler gjennom hver video tilgjengelig og identifiserer rammer som er best egnet til å brukes som kunstverk.
AVA tar mange beregninger i betraktning før du fullfører bilder, for eksempel ansiktsuttrykk av skuespillere, scenebelysning, interesseområder, posisjonering av fag på skjermen. Det kategoriserer og sorterer kunstverk for å vise til brukere kategorisert i flere smak grupper.
Netflix er noe jeg ser på.
– Famke Janssen
● Produksjonsplanlegging
Data spiller en integrert rolle når skapere kommer opp med en ide om et nytt show eller en film. Mye brainstorming foregår før noe kommer på papiret, og det er der data kommer inn.
Med tidligere erfaring med å skape nytt og originalt innhold og masse data om hvordan seerne oppfattet det forrige innholdet, Bidrar Big Data til å få frem mulige løsninger på mange av utfordringene i planleggingsfasen.
disse utfordringene kan omfatte å identifisere skytesteder, tid og dag for skytingen og mer. Selv med enkle prediksjonsmodeller kan Netflix spare en betydelig innsats i planleggingen, noe som ytterligere reduserer utgiftene.
Netflix bestiller originalt innhold fordi Det vet hva folk vil ha før de gjør det.
– The New York Times
● Metaflow
Netflix har open-sourced Metaflow, deres skybaserte, menneskesentriske rammeverk for å øke datavitenskapens produktivitet.
Ideen bak Metaflow var å skifte fokus for datavitenskapere fra å bekymre seg for infrastrukturen til modeller for å løse problemer. Metaflow tillot dem frihet til å eksperimentere med sine ideer ved å tilby et sett med finjusterte funksjoner som nesten gjør Metaflow føles som en plug-and-play rammeverk. Noen bemerkelsesverdige trekk Ved Metaflow er:
● Evne til å jobbe på en distribuert dataplattform
● Alternativ til stillbildekode og data for versjonskontroll og eksperimentering
● Høyhastighets Og høy ytelse S3-klient
● Støtte for de fleste maskinlæringsrammer
● Polynote
Utviklet og åpen kildekode Av Netflix, Polynote er en polyglot notatbok med støtte For Scala og diverse andre funksjoner. Polynote tillater jevn integrering AV JVM-basert maskinlæringsplattform med Python til datavitenskapere og maskinlæringsforskere. Noen høydepunkter i denne notatboken er:
● Gir innsikt i kjernestatus og oppgaver i utførelse
● Tilbyr forenklet avhengighet og konfigurasjonsadministrasjon
● Gir IDE-lignende funksjoner Som autofullføring, feilhøydepunkter, reproduserbarhet, redigering, forbedringer, synlighet, datavisualisering og mange flere.
● Metacat
det store datamengden Som Netflix opererer på, er spredt over flere plattformer som Amazon S3, Druid, Redshift og MySql, for å nevne noen. For å opprettholde sømløs interoperabilitet mellom disse datalagrene, Trengte Netflix en tjeneste.
dette behovet for enkelhet fødte Metacat, hvis eneste formål var å gi sentralisert metadatatilgang for alle datalagre. Netflix opprettet Metaflow med den hensikt å tjene følgende kjernemål:
● å forene og gi sentraliserte visninger av metadatasystemer
● å tilby en enestående API for datasettmetadata for plattformer
● å tilby en løsning for lagring av forretningsmetadata og brukermetadata av datasett
● Druidene
«Apache Druid er en høy ytelse sanntid analytics database. Den er designet for arbeidsflyter der raske spørringer og inntak virkelig betyr noe. Druid utmerker seg med umiddelbar datasynlighet, ad hoc-spørringer, operasjonell analyse og håndtering av høy samtidighet.»
– druid.io
Netflix bruker Apache Druid for å sikre at brukerne får en brukeropplevelse av høy kvalitet hver gang. Å levere en førsteklasses brukeropplevelse hver gang er ikke en enkel prestasjon. Det krever konstant analyse av flere hendelser, samler de nødvendige dataene og analyserer den. Disse dataene kan være alt fra avspillingsinformasjon, til enhetsinformasjon, til måling av plattformytelse og flere andre. Alle disse hendelsesberegningene gjør rådata kompliserte, og Det er Her Druid kommer inn i spill.
Druids oppgave er å gi sanntidsanalyse på databaser der spørringer utføres regelmessig og i usikre tidsperioder. Det er svært skalerbar og tilbyr utmerket ytelse for enhver arbeidsbelastning.
● Bruk Av Python
Netflix elsker Python på grunn av hvor kraftig Det er og hvor utmerket det blir når det er parret med biblioteker, for ikke å nevne hvor jevnt det integreres med andre plattformer. Netflix bruker Python for å administrere en rekke av sine virksomhetskritiske aspekter som:
● Programmer administrere CDN infrastruktur
● Analyse av operasjonelle data, trafikk distribusjon og operasjonelle effektivitet
● Prototyping visualisering verktøy
● å Få innsikt via statistiske verktøy, data utforskning og rengjøring
● For å opprettholde sikkerheten til informasjonen
● Administrere flere viktige oppgaver ved hjelp av Jupyter bærbare
● For eksperimentering med A/B-tester