hogyan használja a Netflix a Big Data-t
figyelembe véve, hogy a Netflix mennyi ideig volt a streaming üzletágban, rengeteg adatot halmozott fel nézőiről, például életkorukról, nemükről, helyükről, ízlésükről a médiában, hogy csak néhányat említsünk.
azáltal, hogy minden ügyfél-interakció során információkat gyűjt, a Netflix közvetlenül a nézők elméjébe merülhet, és képet kaphat arról, hogy mit szeretne nézni legközelebb, még mielőtt befejeznének egy műsort vagy filmet.
olyan adataink vannak, amelyek arra utalnak, hogy a hét napjától, a napszaktól, az eszköztől és néha még a helytől függően is eltérő a megtekintési viselkedés.
– Reed Hastings
a Netflix hatalmas felhasználói bázissal rendelkezik, több mint 140 millió előfizetővel. Íme néhány mutató, amelyet a Netflix nyomon követ, hogy mindenki számára egyedi ízlést adjon—
- milyen napon néz tartalmat
- mikor néz tartalmat
- az eszköz, amelyen a tartalmat nézte
- hogyan keres A tartalom jellege
- a platformon
- az újra megtekintett tartalom részei
- A tartalom szüneteltetése, visszatekerése vagy gyors előretekerése
- felhasználói helyadatok
- tartalom elhagyásakor
- a felhasználók által megadott értékelések
- böngészési és görgetési viselkedés
felett a Netflix számos algoritmust és mechanizmust telepített, amelyek felhasználják ezeket az adatokat, és kritikus betekintést generálnak, amelyek segítenek a vállalat helyes irányba terelésében. Néhány ezek közül az eszközök és funkciók közül:
közel valós idejű ajánlási Motor
a felhasználók tengerével minden felhasználó naponta több száz értékelést generál annak alapján, hogy mit néz, keres és hozzáad a figyelőlistájához, ezek az adatok végül a Big Data részévé válnak. A Netflix tárolja ezeket az információkat, és kulcsfontosságú gépi tanulási algoritmusok segítségével felépít egy mintát, amely jelzi a néző ízlését. Ez a minta soha nem egyezik meg egy másik nézővel, mert mindenki ízlése egyedi.
az értékelések alapján a Netflix kategorizálja a médiát, és azt javasolja a nézőnek, hogy az ajánlási rendszer szerint mit szeretne nézni legközelebb.
a Netflix mindent tud. A Netflix tudni fogja, mikor hagyja abba az ember. Megvan az összes algoritmusuk, és tudni fogják, hogy ez a személy öt percig nézte a műsort, majd megállt. A viselkedésből és a napszakból meg tudják mondani, hogy vissza fognak térni hozzá, a történelmük alapján.
– Mitchell Hurwitz
● Artwork & Imagery Selection
Elgondolkozott már azon, hogy a Netflix miért mutat több műalkotást egyetlen TV-műsorhoz vagy filmhez?
a mögöttes eszközt AVA-nak hívják, amely lényegében egy algoritmus, amely kiválasztja, hogy melyik műalkotást és képet kinek mutassa meg. Az Ava az Aesthetics Visual Analysis rövidítése, amely minden rendelkezésre álló videót átlapoz, és azonosítja azokat a képkockákat, amelyek a legalkalmasabbak műalkotásként való felhasználásra.
az AVA sok mutatót vesz figyelembe a képek véglegesítése előtt, például a színészek arckifejezéseit, a jelenet megvilágítását, az érdeklődési területeket, a témák képernyőn történő elhelyezését. Még a műalkotásokat is kategorizálja és rendezi, hogy a felhasználóknak több ízlési csoportba sorolják.
a Netflixet nézem.
– Famke Janssen
● gyártási tervezés
az adatok szerves szerepet játszanak, amikor az alkotók új műsorral vagy filmmel kapcsolatos ötlettel állnak elő. Sok brainstorming történik, mielőtt bármi a papírra kerül,és ez az, ahol az adatok jönnek.
az új és eredeti tartalom létrehozásában szerzett korábbi tapasztalatokkal és rengeteg adattal, hogy a nézők hogyan érzékelték az előző tartalmat, a Big Data segít a lehetséges megoldások kidolgozásában a tervezési szakaszban felmerülő számos kihívásra.
ezek a kihívások magukban foglalhatják a forgatás helyének, idejének és napjának meghatározását stb. A Netflix még egyszerű előrejelzési modellekkel is jelentős erőfeszítéseket takaríthat meg a tervezésben, tovább csökkentve a költségeket.
a Netflix azért rendeli meg az eredeti tartalmat, mert tudja, mit akarnak az emberek, mielőtt megtennék.
– A New York Times
● Metaflow
a Netflix nyílt forráskódú Metaflow-val rendelkezik, felhőalapú, emberközpontú keretrendszerével, amelynek célja az adattudósok termelékenységének növelése.
a Metaflow ötlete az volt, hogy az adattudósok figyelmét a modellek infrastruktúrájával kapcsolatos aggodalmakról a problémák megoldására helyezzék át. A Metaflow lehetővé tette számukra, hogy kísérletezzenek ötleteikkel azáltal, hogy finomhangolt funkciókat kínálnak, amelyek szinte a metaflow-T plug-and-play keretrendszernek érzik. A Metaflow néhány figyelemre méltó jellemzője:
6511 >
az elosztott számítási platformon való munkavégzéshez szükséges képességek
az adatok és kód pillanatfelvételének lehetősége verziószámozás és kísérletezés céljából
a nagysebességű és nagy teljesítményű S3 kliens támogatása
a legtöbb gépi tanulási keretrendszer támogatása
● Polynote
a Netflix által kifejlesztett és nyílt forráskódú Polynote egy poliglot notebook támogatja a Scala és egyéb funkciók. A Polynote lehetővé teszi a JVM alapú gépi tanulási platform zökkenőmentes integrációját a Pythonnal az adattudósok és a gépi tanulási kutatók számára. A jegyzetfüzet néhány fontos eleme a következő:
a
a
a
a
a
a
6934 >
a Netflix hatalmas adatállománya több platformon is elterjedt, mint például az Amazon S3, A Druid, a Redshift és a MySql, hogy csak néhányat említsünk. Az adattárak közötti zökkenőmentes interoperabilitás fenntartása érdekében a Netflixnek szolgáltatásra volt szüksége.
ez az egyszerűség iránti igény szülte meg a Metacat-ot, amelynek egyetlen célja az volt, hogy központosított metaadat-hozzáférést biztosítson az összes adattár számára. A Netflix a következő alapvető célok kiszolgálása céljából hozta létre a Metaflow-t:
a metaadat-rendszerek egységesítése és központosított nézeteinek biztosítása céljából
az adatkészlet metaadatainak platformokra történő egyedi API-jának biztosítása céljából
az adatkészletek üzleti és felhasználói metaadatainak tárolására szolgáló megoldás biztosítása céljából
● Druida
“az Apache Druid egy nagy teljesítményű valós idejű elemzési adatbázis. Olyan munkafolyamatokra tervezték, ahol a gyors lekérdezések és a lenyelés valóban számít. A Druid kitűnik az azonnali adatok láthatóságában, az ad-hoc lekérdezésekben, az operatív elemzésben és a magas egyidejűség kezelésében.”
— Druida.Io
a Netflix az Apache Druid-ot használja annak biztosítására, hogy a felhasználók minden alkalommal magas színvonalú felhasználói élményt kapjanak. A csúcsminőségű felhasználói élmény biztosítása minden alkalommal nem egyszerű teljesítmény. Több esemény folyamatos elemzését, a szükséges adatok összegyűjtését és elemzését igényli. Ezek az adatok bármi lehetnek a lejátszási információktól kezdve az eszközinformációkig, a platform teljesítményének méréséig és még sok másig. Mindezek az eseménymutatók bonyolulttá teszik a nyers adatokat, és itt jön a játékba A druida.
a Druid feladata, hogy valós idejű elemzéseket nyújtson olyan adatbázisokon, ahol a lekérdezések rendszeresen és bizonytalan időszakokban futnak. Rendkívül skálázható és kiváló teljesítményt nyújt bármely adott munkaterheléshez.
a Python használata
a Netflix szereti a Pythont, mert mennyire erős, és milyen kiváló lesz a könyvtárakkal párosítva, nem is beszélve arról, hogy milyen simán integrálódik más platformokkal. A Netflix a Python-t használja számos kritikus szempontjának kezelésére, például:
● Alkalmazások kezelése a CDN infrastruktúra
● Elemzése a működési adatok, forgalmi engedély, valamint a működési hatékonyság
● Prototípus vizualizációs eszközök
● Egyre betekintést keresztül statisztikai eszközök, adatok feltárása, tisztítás
● fenntartására Vonatkozó információ biztonsági
● Irányító számos alapvető feladatok segítségével Jupyter notebook
● kísérletek segítségével A/B tesztek