hur Netflix använder Big Data
med tanke på hur länge Netflix har varit i streamingbranschen har den staplat upp massor av data om sina tittare, till exempel deras ålder, kön, plats, deras smak i media, för att nämna några.
genom att samla information över varje kundinteraktion kan Netflix dyka rakt in i sina tittares sinnen och få en uppfattning om vad de kanske vill titta på nästa redan innan de avslutar en show eller film.
vi har data som tyder på att det finns olika visningsbeteenden beroende på veckodag, tid på dagen, enheten och ibland till och med platsen.
– Reed Hastings
Netflix har en massiv användarbas på mer än 140 miljoner abonnenter. Här är några mätvärden som Netflix spårar för att ge alla en individuell smak—
- vilken dag du tittar på innehåll
- vilken tid du tittar på innehåll
- den enhet som innehållet sågs på
- hur innehållet
- söker på plattformen
- delar av innehåll som sågs igen
- om innehållet pausades, spolades tillbaka eller snabbspolades
- användarplatsdata
- när du lämnar innehåll
- de betyg som ges av användarna
- bläddring och rullning beteende
över tid, Netflix har distribuerat flera algoritmer och mekanismer som utnyttjar dessa data och genererar kritiska insikter som hjälper till att styra företaget i rätt riktning. Några av dessa verktyg och funktioner är:
Brasilien nära Realtidsrekommendationsmotor
med ett hav av användare genererar varje användare hundratals betyg per dag baserat på vad de tittar på, söker och lägger till i sin bevakningslista blir dessa data i slutändan en del av Big Data. Netflix lagrar all denna information och använder viktiga maskininlärningsalgoritmer, det bygger ett mönster som indikerar betraktarens smak. Detta mönster kanske aldrig matchar med en annan tittare på grund av hur allas smak är unik.
baserat på betyg kategoriserar Netflix sitt media och föreslår tittaren vad rekommendationssystemet tycker att de kanske vill titta på nästa.
Netflix vet allt. Netflix vet när en person slutar titta på den. De har alla sina algoritmer och vet att den här personen tittade på fem minuter av en show och sedan slutade. De kan berätta av beteendet och tiden på dagen att de kommer att komma tillbaka till det, baserat på deras historia.
– Mitchell Hurwitz
● konstverk & bildval
någonsin undrat varför Netflix visar flera konstverk för en enda TV-show eller film?
verktyget bakom detta kallas AVA, som i huvudsak är en algoritm som väljer vilka konstverk och bilder som ska visas för vem. Kort för estetik visuell analys, Ava siktar igenom varje tillgänglig video och identifierar de ramar som är bäst lämpade att användas som konstverk.
AVA tar hänsyn till många mätvärden innan de slutförs på bilder, såsom ansiktsuttryck av skådespelare, scenbelysning, intresseområden, placering av ämnen på skärmen. Det kategoriserar även och sorterar konstverk för att visa för användare kategoriseras i flera smakgrupper.
Netflix är något jag tittar på.
– Famke Janssen
● produktionsplanering
Data spelar en integrerad roll när skaparna kommer med en uppfattning om en ny show eller film. Mycket brainstorming sker innan något kommer på papperet, och det är där data kommer in.
med tidigare erfarenhet av att skapa nytt och originellt innehåll och massor av data om hur tittarna uppfattade det tidigare innehållet, hjälper Big Data att ta fram möjliga lösningar på många av de utmaningar som ställdes inför under planeringsfasen.
dessa utmaningar kan inkludera att identifiera skjutplatser, tid och dag för skottet och mer. Även med enkla förutsägelsesmodeller kan Netflix spara en betydande ansträngning i planeringen, vilket ytterligare minskar kostnaderna.
Netflix beställer originalinnehåll eftersom det vet vad folk vill ha innan de gör det.
– New York Times
● Metaflow
Netflix har öppen källkod Metaflow, deras moln infödda, människocentrerad ram som syftar till att öka Data scientist produktivitet.
tanken bakom Metaflow var att flytta datavetenskaparnas fokus från att oroa sig för modellernas infrastruktur för att lösa problem. Metaflow gav dem friheten att experimentera med sina ideer genom att erbjuda en uppsättning finjusterade funktioner som nästan gör att Metaflow känns som en plug-and-play-ram. Några anmärkningsvärda funktioner i Metaflow är:
Brasilien förmåga att arbeta på en distribuerad datorplattform
Brasilien möjlighet att snapshot kod och data för versionshantering och experimentera
Brasilien hög hastighet och högpresterande S3-klient
Brasilien stöd för de flesta maskininlärning ramar
● Polynote
Polynote är utvecklad och öppen från Netflix och är en polyglot anteckningsbok med stöd för Scala och olika andra funktioner. Polynote möjliggör smidig integration av JVM-baserad maskininlärningsplattform med Python till datavetenskapare och maskininlärningsforskare. Några höjdpunkter i den här anteckningsboken är:
https: / /
metabolisk metacat
den stora poolen av data som Netflix fungerar på är spridd över flera plattformar som Amazon S3, Druid, Redshift och MySql, för att nämna några. För att upprätthålla sömlös interoperabilitet mellan dessa datalager behövde Netflix en tjänst.
detta behov av enkelhet födde Metacat, vars enda syfte var att tillhandahålla centraliserad metadataåtkomst för alla datalager. Netflix skapade Metaflow med avsikt att tjäna följande kärnmål:
för att förena och ge centraliserade vyer av metadatasystem
för att erbjuda en enda API för dataset metadata för plattformar
för att ge en lösning för företag och användare metadata lagring av dataset
● Druid
”Apache Druid är en högpresterande realtidsanalysdatabas. Den är utformad för arbetsflöden där snabba frågor och intag verkligen betyder något. Druid utmärker sig vid omedelbar datasynlighet, ad hoc-frågor, operativ analys och hantering av hög samtidighet.”
— druid.Io
Netflix använder Apache Druid för att säkerställa att användarna får en högkvalitativ användarupplevelse varje gång. Att leverera en förstklassig användarupplevelse varje gång är inte en enkel prestation. Det kräver ständig analys av flera händelser, samla in nödvändiga data och analysera den. Dessa data kan vara allt från uppspelningsinformation, till enhetsinformation, för att mäta plattformsprestanda och flera andra. Alla dessa händelsemått gör rådata komplicerade, och det är där Druid spelar in.
Druids uppgift är att tillhandahålla realtidsanalys på databaser där frågor körs regelbundet och vid osäkra tidsperioder. Det är mycket skalbart och erbjuder utmärkt prestanda för en viss arbetsbelastning.
användning av Python
Netflix älskar Python på grund av hur kraftfullt det är och hur Utmärkt det blir när det paras ihop med bibliotek, för att inte tala om hur smidigt det integreras med andra plattformar. Netflix använder Python för att hantera en mängd av sina verksamhetskritiska aspekter som:
● Program hantera CDN infrastrukturen
● Analysera operativa data, fördelning av trafik och operativa effektiviteten
● Prototyping visualisering
● Få nya insikter via statistiska verktyg, uppgifter prospektering och rengöring
● För att upprätthålla informationssäkerhet
● Hantera flera centrala uppgifter med hjälp av Jupyter anteckningsböcker
● För experiment med A/B-tester