Jak Netflix Používá Big Data
Vzhledem k tomu, jak dlouho Netflix byl v streaming podnikání, to má naskládané hromady údajů o své diváky, jako je jejich věk, pohlaví, umístění, jejich chuť v médiích, abychom jmenovali alespoň některé.
Tím, že shromažďování informací přes každé interakci se zákazníky, Netflix může ponořit přímo do myslí svých diváků a získat představu o tom, co by se chtěli dívat, ještě dříve, než se dokončí show, nebo film.
Máme data, která naznačují, že je jiná prohlížení chování v závislosti na den v týdnu, denní doba, zařízení, a někdy dokonce i umístění.
– Reed Hastings
Netflix má masivní uživatelskou základnu více než 140 milionů zákazníků. Zde jsou některé metriky, které Netflix stopy dát individuální chuti každého—
- Co den, kdy jste sledovat obsah
- Co když budete sledovat obsah
- zařízení, na kterém byl obsah sledovali
- Jak povaze obsahu
- Vyhledávání na platformě
- Porce obsahu, který dostal re-sledoval
- Zda obsah byl pozastaven, vzad, nebo rychle vpřed
- Uživatelská data o poloze
- Když necháte obsah
- hodnocení poskytnuté uživateli
- Procházení a posouvání chování
Více čas, Netflix má nasazeno několik algoritmů a mechanismů, které využívají tato data a vytvářet kritické postřehy, které pomáhají řídit společnost správným směrem. Některé z těchto nástrojů a funkcí, jsou:
● v Reálném Čase Doporučení Motoru
S mořskou uživatelů, každý uživatel generuje stovky hodnocení za den na co se dívat, hledat a přidat k jejich hodinky-seznam, tato data nakonec se stává součástí Big Data. Netflix ukládá všechny tyto informace a pomocí klíčových algoritmů strojového učení vytváří vzor označující vkus diváka. Tento vzor se nikdy nemusí shodovat s jiným divákem kvůli tomu, jak je vkus každého jedinečný.
na základě hodnocení Netflix kategorizuje svá média a navrhuje divákovi, co si systém doporučení myslí, že by se mohl rád dívat dál.
Netflix bude vědět všechno. Netflix bude vědět, kdy ho člověk přestane sledovat. Mají všechny své algoritmy a budou vědět, že tato osoba sledovala pět minut show a pak se zastavila. Podle chování a denní doby mohou říct, že se k tomu vrátí, na základě své historie.
– Mitchell Hurwitz
● Umělecká díla & Výběr Snímků
přemýšleli jste Někdy, proč Netflix ukazuje několik uměleckých děl pro jeden TELEVIZNÍ pořad nebo film?
nástroj za tím se nazývá AVA, což je v podstatě algoritmus, který vybírá, jaká umělecká díla a obrázky mají komu ukázat. Zkratka pro estetickou vizuální analýzu, AVA prochází každým dostupným videem a identifikuje snímky, které jsou nejvhodnější pro použití jako umělecká díla.
AVA bere v úvahu mnoho metrik před dokončením obrázků, jako jsou výrazy obličeje herců, osvětlení scény, oblasti zájmu, umístění subjektů na obrazovce. To dokonce kategorizuje a třídí umělecká díla ukázat uživatelům rozděleny do několika chuťových skupin.
Netflix je něco, co sleduji.
– Famke Janssen
● Plánování Výroby
Data hraje nedílnou část, kdy tvůrci přijít s nápadem o nové show, nebo film. Hodně brainstormingu se odehrává předtím, než se něco dostane na papír, a to je místo, kde data přicházejí.
S předchozí zkušenost při vytváření nového a originálního obsahu a spoustu dat o tom, jak diváci vnímají předchozí obsah, zpracování Velkých objemů Dat pomáhá, aby se na možné řešení mnoha výzev, kterým čelí během plánovací fáze.
tyto výzvy by mohly zahrnovat identifikaci místa natáčení, čas a den natáčení a další. I s jednoduchým predikčních modelů, Netflix může ušetřit značné množství úsilí do plánování, což dále snižuje náklady.
Netflix uvádí do provozu původní obsah, protože ví, co lidé chtějí, než to udělají.
– New York Times
● Metaflow
Netflix má open-source Metaflow, jejich cloud rodák, člověk-orientovaný rámec zaměřený na posílení údaje vědec produktivity.
myšlenkou Metaflow bylo přesunout zaměření vědců v oblasti dat od starostí o infrastrukturu modelů k řešení problémů. Metaflow dalo svobodu experimentovat s jejich nápady tím, že nabízí sadu doladit funkce, které téměř dělá Metaflow cítit jako plug-and-play framework. Několik pozoruhodných rysů Metaflow je:
● Schopnost pracovat na distribuované výpočetní platformy
● Možnost, aby se snímek kód a data pro verzování a experimentování
● High-speed a vysoce-výkon S3 klient
● Podpora pro většinu strojového učení rámců
● Polynote
Vyvinuté a open-source společností Netflix, Polynote je polyglot notebook s podporou Scala a různých dalších funkcí. Polynote umožňuje hladkou integraci platformy strojového učení založené na JVM s Pythonem pro datové vědce a výzkumníky strojového učení. Pár vrcholů tohoto notebooku jsou:
● Poskytuje vhled do jádra, stav a úkoly v provedení
● Nabízí zjednodušující závislost a řízení konfigurace
● Poskytuje IDE-jako funkce, jako je auto-kompletní, chyba zdůrazňuje, reprodukovatelnost, úpravy, vylepšení, viditelnost, vizualizace dat a mnoho dalších.
● Metacat
drtivá bazén údajů, které Netflix funguje na se šíří přes více platforem, jako jsou Amazon S3, Druid, rudý posuv a MySql, abychom jmenovali alespoň některé. K udržení bezproblémové interoperability mezi těmito datovými úložišti potřeboval Netflix službu.
tato potřeba jednoduchosti zrodila Metacat, jehož jediným účelem bylo poskytnout centralizovaný přístup k metadatům pro všechna úložiště dat. Netflix vytvořil Metaflow s úmyslem sloužit následujícím základním cílům:
● sjednotit a poskytovat centralizované zobrazení metadat systémy
● nabídnout jedinečnou API pro metadata pro platformy
● Chcete-li poskytnout řešení pro obchodní a uživatelská metadata, úložiště souborů dat
● Druid
„Apache Druid je vysoce výkonný real-time analytické databáze. Je určen pro pracovní postupy, kde Rychlé Dotazy a požití opravdu záleží. Druid vyniká okamžitou viditelností dat, ad-hoc dotazy, provozní analytika, a zpracování vysoké souběžnosti.“
– druid.io
Netflix používá Apache Druid pro zajištění toho, aby jeho uživatelé pokaždé získali vysoce kvalitní uživatelský zážitek. Poskytování špičkové uživatelské zkušenosti pokaždé není jednoduchý výkon. Vyžaduje neustálou analýzu několika událostí, shromažďování potřebných údajů a jejich analýzu. Tato data mohou být cokoli od informací o přehrávání, informací o zařízení, Měření výkonu platformy a několika dalších. Všechny tyto metriky událostí komplikují nezpracovaná data, a to je místo, kde Druid vstupuje do hry.
úkolem Druida je poskytovat analytiku v reálném čase v databázích, kde se dotazy provádějí pravidelně a v nejistých časových obdobích. Je vysoce škálovatelný a nabízí vynikající výkon pro danou pracovní zátěž.
● Použití Python
Netflix má rád Python, protože, jak silný to je a jak skvělé to bude, když spárována s knihovnami, nemluvě o tom, jak hladce integruje s jinými platformami. Netflix používá Python pro správu řady svých kritických aspektů, jako jsou:
● Aplikace řízení CDN infrastruktury
● Analýza provozních dat, rozložení provozu a provozní účinnost
● Prototypování vizualizační nástroje
● Získává poznatky prostřednictvím statistických nástrojů, zkoumání dat a čištění
● Pro zachování bezpečnosti informací
● Řízení několik základních úkolů pomocí poznámkové bloky Jupyter
● Pro experimentování pomocí A/B testů,