hvordan Datavidenskaben øger Netflys

hvordan Netflys bruger Big Data

i betragtning af hvor længe Netflys har været i streamingbranchen, har den stablet masser af data om sine seere, såsom deres alder, køn, placering, deres smag i medierne, for at nævne nogle få.

ved at indsamle oplysninger på tværs af hver kundeinteraktion, kan vi dykke lige ind i seernes sind og få en ide om, hvad de måske gerne vil se næste, selv før de er færdige med en serie eller film.

vi har data, der antyder, at der er forskellig visningsadfærd afhængigt af ugedagen, tidspunktet på dagen, enheden og nogle gange endda placeringen.

– Reed Hastings

vi har en massiv brugerbase på mere end 140 millioner abonnenter. Her er nogle metrics, som netfinder sporer for at give en individuel smag til alle—

  • hvilken dag ser du indhold
  • hvad tid ser du indhold
  • den enhed, som indholdet blev set på
  • hvordan indholdets art
  • søger på platformen
  • dele af indhold, der blev set igen
  • om indholdet blev sat på pause, spol tilbage eller Spol frem
  • brugerplaceringsdata
  • når du forlader indhold
  • vurderingerne givet af brugerne
  • gennemse og rulle adfærd

over time har implementeret flere algoritmer og mekanismer, der gør brug af disse data og genererer kritisk indsigt, der hjælper med at styre virksomheden i den rigtige retning. Nogle af disse værktøjer og funktioner er:

liter nær Realtidsanbefalingsmotor

med et hav af brugere genererer hver bruger hundredvis af vurderinger om dagen baseret på hvad de ser, søger og tilføjer til deres overvågningsliste, bliver disse data i sidste ende en del af Big Data. Ved hjælp af centrale maskinlæringsalgoritmer bygger den et mønster, der angiver seerens smag. Dette mønster kan aldrig matche med en anden seer på grund af, hvordan alles smag er unik.

baseret på klassificeringerne kategoriserer sine medier og foreslår seeren, hvad anbefalingssystemet mener, de måske gerne vil se næste gang.

tv Popcorn GIF af SvampeBob Firkant (kilde)

Netfinder ved alt. vil vide, hvornår en person holder op med at se det. De har alle deres algoritmer og vil vide, at denne person så fem minutter af en forestilling og derefter stoppede. De kan fortælle ved adfærd og tidspunktet på dagen, at de kommer tilbage til det, baseret på deres historie.

 i nærheden af Realtidsanbefalingsmotor

 i nærheden af Realtidsanbefalingsmotor

nær real-time anbefaling motor (kilde)

● illustrationer & billedvalg

har du nogensinde undret dig over, hvorfor viser flere kunstværker til en enkelt tv-serie eller film?

værktøjet bag dette kaldes AVA, som i det væsentlige er en algoritme, der vælger, hvilke kunstværker og billeder der skal vises til hvem. Forkortelse for Æstetik visuel analyse, Ava siver gennem hver tilgængelig video og identificerer de rammer, der er bedst egnede til at blive brugt som kunstværker.

AVA tager mange målinger i betragtning, inden de færdiggøres på billeder, såsom ansigtsudtryk af skuespillere, scenebelysning, interesseområder, placering af emner på skærmen. Det kategoriserer og sorterer endda kunstværker, der skal vises til brugere, der er kategoriseret i flere smaggrupper.

Netfleks er noget jeg ser.

– Famke Janssen

● produktionsplanlægning

Data spiller en integreret rolle, når skabere kommer med en ide om en ny serie eller film. En masse brainstorming finder sted, før noget kommer på papiret, og det er her data kommer ind.

med tidligere erfaring med at skabe nyt og originalt indhold og masser af data om, hvordan seerne opfattede det tidligere indhold, hjælper Big Data med at frembringe de mulige løsninger på mange af de udfordringer, der står over for i planlægningsfasen.

disse udfordringer kan omfatte identifikation af skydesteder, tidspunkt og dag for optagelsen og meget mere. Selv med enkle forudsigelsesmodeller kan Netfinder spare en betydelig indsats i planlægningen, hvilket yderligere reducerer udgifterne.

Netfinder idriftsætter originalt indhold, fordi det ved, hvad folk vil have, før de gør det.

– den nye York Times

produktionsplanlægning hos Netfinder

produktionsplanlægning hos Netfinder

foto af David Sager på Unsplash

● Metaflytningen

har open source Metaflytningen, deres cloud native, human-centreret ramme til formål at øge data videnskabsmand produktivitet.

ideen bag Metaflommen var at flytte dataforskernes fokus fra at bekymre sig om modellernes infrastruktur til at løse problemer. Metaflyden tillod dem friheden til at eksperimentere med deres ideer ved at tilbyde et sæt finjusterede funktioner, der næsten får Metaflyden til at føles som en plug-and-play-ramme. Et par bemærkelsesværdige træk ved Metaflukningen er:

karts evne til at arbejde på en distribueret computerplatform

karts mulighed for snapshot-kode og data til versionering og eksperimentering

karts højhastigheds-og højtydende S3-klient

Karrus-understøttelse til de fleste maskinindlærings-rammer

et simpelt Python bibliotek

et simpelt Python bibliotek

et simpelt Python-bibliotek (kilde)

● Polynote

Polynote er en polyglot notebook med understøttelse af Scala og forskellige andre funktioner. Polynote tillader jævn integration af JVM-baseret maskinindlæringsplatform med Python til dataforskere og maskinindlærings forskere. Et par højdepunkter i denne notesbog er:

karrus giver indsigt i kernestatus og opgaver under udførelse

karrus tilbyder forenklet afhængighed og konfigurationsstyring

karrus giver IDE-lignende funktioner såsom auto-complete, fejlhøjdepunkter, Reproducerbarhed, redigering, forbedringer, synlighed, datavisualisering og mange flere.

Kris Metacat

den enorme pulje af data, som netfinder opererer på, er spredt over flere platforme som f.eks. For at opretholde problemfri interoperabilitet mellem disse datalagre havde Netfinder brug for en service.

dette behov for enkelhed fødte Metacat, hvis eneste formål var at give centraliseret metadataadgang for alle datalagre. Med det formål at tjene følgende kernemål:

til at forene og levere centraliserede visninger af metadatasystemer

til at tilbyde en entydig API til datasætmetadata til platforme

til at levere en løsning til forretnings – og brugermetadatalagring af datasæt

● Druid

“Apache Druid er en højtydende real-time analytics database. Det er designet til arbejdsgange, hvor hurtige forespørgsler og indtagelse virkelig betyder noget. Druid udmærker sig ved øjeblikkelig datasynlighed, ad hoc-forespørgsler, operationel analyse og håndtering af høj samtidighed.”

— druid.io

bruger Apache Druid til at sikre, at brugerne får en brugeroplevelse af høj kvalitet hver gang. At levere en førsteklasses brugeroplevelse hver gang er ikke en simpel bedrift. Det kræver konstant analyse af flere begivenheder, indsamling af de nødvendige data og analyse af dem. Disse data kan være alt fra afspilningsoplysninger, til Enhedsoplysninger, til måling af platformens ydeevne og flere andre. Alle disse begivenhedsmålinger gør rådata komplicerede, og det er her Druid kommer i spil.

Druids opgave er at levere realtidsanalyse på databaser, hvor forespørgsler udføres regelmæssigt og i usikre tidsperioder. Det er meget skalerbart og tilbyder fremragende ydelse til enhver given arbejdsbyrde.

liter brug af Python

Jeg elsker Python på grund af, hvor kraftig den er, og hvor fremragende den bliver, når den parres med biblioteker, for ikke at nævne, hvor glat den integreres med andre platforme. Bruger Python til at styre en række af sine missionskritiske aspekter som:

● Programmer, administration af CDN infrastruktur

● at Analysere på operationelle data, trafik-distribution og-virkningsgrad

● Prototyping visualisering værktøjer

● at Få indsigt via statistiske værktøjer, data efterforskning og rengøring

● For at opretholde informationssikkerhed

● Styring af flere centrale opgaver ved hjælp af Jupyter notebooks

● For at eksperimentere ved hjælp af A/B tests

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.

Previous post UCSB Science Line
Next post USA Sort udstationerede i Island & landets reaktion på George Floyd