Wie Data Science Netflix ankurbelt

Wie Netflix Big Data nutzt

Wenn man bedenkt, wie lange Netflix schon im Streaming-Geschäft ist, hat es jede Menge Daten über seine Zuschauer gesammelt, wie Alter, Geschlecht, Standort, Mediengeschmack, um nur einige zu nennen.

Durch das Sammeln von Informationen über jede Kundeninteraktion kann Netflix direkt in die Köpfe seiner Zuschauer eintauchen und eine Vorstellung davon bekommen, was sie als nächstes sehen möchten, noch bevor sie eine Show oder einen Film beenden.

Wir haben Daten, die darauf hindeuten, dass es je nach Wochentag, Tageszeit, Gerät und manchmal sogar Standort ein unterschiedliches Anzeigeverhalten gibt.

– Reed Hastings

Netflix hat eine riesige Nutzerbasis von mehr als 140 Millionen Abonnenten. Hier sind einige Metriken, die Netflix verfolgt, um jedem einen individuellen Geschmack zu verleihen —

  • An welchem Tag Sie Inhalte ansehen
  • Zu welcher Uhrzeit Sie Inhalte ansehen
  • Das Gerät, auf dem der Inhalt angesehen wurde
  • Wie die Art des Inhalts
  • Sucht auf der Plattform
  • Teile des Inhalts, die erneut angesehen wurden
  • Ob der Inhalt angehalten, zurückgespult oder Schnellvorlauf wurde
  • Benutzerstandortdaten
  • Wenn Sie Inhalte verlassen
  • Die Bewertungen der Benutzer
  • Browsing- und Scrollverhalten

Über zeit, Netflix hat mehrere Algorithmen und Mechanismen eingesetzt, die diese Daten nutzen und kritische Erkenntnisse generieren, die das Unternehmen in die richtige Richtung lenken. Einige dieser Tools und Funktionen sind:

● Near Real-Time Recommendation Engine

Mit einem Meer von Benutzern generiert jeder Benutzer Hunderte von Bewertungen pro Tag, basierend auf dem, was er sieht, sucht und zu seiner Beobachtungsliste hinzufügt. Netflix speichert all diese Informationen und erstellt mithilfe wichtiger Algorithmen für maschinelles Lernen ein Muster, das den Geschmack des Betrachters angibt. Dieses Muster passt möglicherweise nie zu einem anderen Betrachter, da jeder Geschmack einzigartig ist.

Basierend auf den Bewertungen kategorisiert Netflix seine Medien und schlägt dem Zuschauer vor, was das Empfehlungssystem als nächstes sehen möchte.

Fernsehen Popcorn GIF von SpongeBob Schwammkopf (Quelle)

Netflix wird alles wissen. Netflix wird wissen, wann eine Person aufhört, es zu sehen. Sie haben alle ihre Algorithmen und werden wissen, dass diese Person fünf Minuten einer Show gesehen und dann aufgehört hat. Sie können anhand des Verhaltens und der Tageszeit erkennen, dass sie aufgrund ihrer Geschichte darauf zurückkommen werden.

– Mitchell Hurwitz

 Nahezu in Echtzeit Recommendation Engine

Nahezu in Echtzeit Recommendation Engine

Nahezu in Echtzeit Recommendation Engine (Quelle)

● Kunstwerk & Bildauswahl

Haben Sie sich jemals gefragt, warum Netflix mehrere Kunstwerke für eine einzelne TV-Show oder einen Film zeigt?

Das Tool dahinter heißt AVA, was im Wesentlichen ein Algorithmus ist, der auswählt, welche Kunstwerke und Bilder wem gezeigt werden sollen. AVA, kurz für Aesthetics Visual Analysis, durchsucht jedes verfügbare Video und identifiziert die Frames, die am besten für die Verwendung als Kunstwerke geeignet sind.

AVA berücksichtigt viele Metriken, bevor Bilder finalisiert werden, z. B. Gesichtsausdrücke von Schauspielern, Szenenbeleuchtung, Interessengebiete und Positionierung von Motiven auf dem Bildschirm. Es kategorisiert und sortiert sogar Kunstwerke, um sie Benutzern zu zeigen, die in mehrere Geschmacksgruppen eingeteilt sind.

Netflix schaue ich mir an.

– Famke Janssen

● Produktionsplanung

Daten spielen eine wichtige Rolle, wenn Schöpfer eine Idee für eine neue Show oder einen neuen Film haben. Es findet viel Brainstorming statt, bevor etwas auf das Papier kommt, und hier kommen Daten ins Spiel.

Mit vorheriger Erfahrung in der Erstellung neuer und origineller Inhalte und vielen Daten darüber, wie die Zuschauer die vorherigen Inhalte wahrgenommen haben, hilft Big Data dabei, die möglichen Lösungen für viele der Herausforderungen in der Planungsphase aufzuzeigen.

Diese Herausforderungen können die Identifizierung von Drehorten, Uhrzeit und Tag des Drehs und mehr umfassen. Selbst mit einfachen Vorhersagemodellen kann Netflix einen erheblichen Planungsaufwand einsparen und die Kosten weiter senken.

Netflix stellt Originalinhalte bereit, weil es weiß, was die Leute wollen, bevor sie es tun.

– Deutsche Welle

 Produktionsplanung bei Netflix

Produktionsplanung bei Netflix

Foto von David Sager auf Unsplash

● Metaflow

Netflix hat Metaflow, ihr Cloud-natives, menschenzentriertes Framework, das darauf abzielt, die Produktivität von Datenwissenschaftlern zu steigern.

Die Idee hinter Metaflow war es, den Fokus der Datenwissenschaftler von der Sorge um die Infrastruktur von Modellen auf die Lösung von Problemen zu verlagern. Metaflow gab ihnen die Freiheit, mit ihren Ideen zu experimentieren, indem es eine Reihe von fein abgestimmten Funktionen anbot, die Metaflow fast wie ein Plug-and-Play-Framework erscheinen ließen. Einige bemerkenswerte Merkmale von Metaflow sind:

● Fähigkeit, auf einer verteilten Computerplattform zu arbeiten

● Option zum Snapshot von Code und Daten zum Versionieren und Experimentieren

● Hochgeschwindigkeits- und Hochleistungs-S3-Client

● Unterstützung für die meisten Frameworks für maschinelles Lernen

 Metaflow - Eine einfache Python-Bibliothek

Metaflow — Eine einfache Python-Bibliothek

Metaflow – Eine einfache Python-Bibliothek (Quelle)

● Polynote

Entwickelt und Open-Source von Netflix, ist Polynote ein polyglott notebook mit Unterstützung für Scala und verschiedene andere Funktionen. Polynote ermöglicht eine reibungslose Integration der JVM-basierten Machine Learning-Plattform mit Python für Data Scientists und Machine Learning-Forscher. Einige Highlights dieses Notebooks sind:

● Bietet Einblicke in den Kernel-Status und Aufgaben in der Ausführung

● Bietet vereinfachtes Abhängigkeits- und Konfigurationsmanagement

● Bietet IDE-ähnliche Funktionen wie automatische Vervollständigung, Fehlerhighlights, Reproduzierbarkeit, Bearbeitung, Verbesserungen, Sichtbarkeit, Datenvisualisierung und vieles mehr.

● Metacat

Der riesige Datenpool, mit dem Netflix arbeitet, ist auf mehrere Plattformen verteilt, darunter Amazon S3, Druid, Redshift und MySQL, um nur einige zu nennen. Um eine nahtlose Interoperabilität zwischen diesen Datenspeichern zu gewährleisten, benötigte Netflix einen Dienst.

Aus diesem Bedürfnis nach Einfachheit entstand Metacat, dessen einziger Zweck es war, einen zentralisierten Metadatenzugriff für alle Datenspeicher bereitzustellen. Netflix hat Metaflow mit der Absicht erstellt, die folgenden Kernziele zu erreichen:

● Vereinheitlichung und Bereitstellung zentralisierter Ansichten von Metadatensystemen

● Bereitstellung einer einzigartigen API für Dataset-Metadaten für Plattformen

● Bereitstellung einer Lösung für die Speicherung von Geschäfts- und Benutzermetadaten von Datensätzen

● Druide

“ Apache Druid ist eine leistungsstarke Echtzeit-Analysedatenbank. Es wurde für Workflows entwickelt, bei denen schnelle Abfragen und Ingest wirklich wichtig sind. Druid zeichnet sich durch sofortige Datentransparenz, Ad-hoc-Abfragen, Betriebsanalysen und den Umgang mit hoher Parallelität aus.“

– Druide.io

Netflix verwendet Apache Druid, um sicherzustellen, dass seine Benutzer jedes Mal eine qualitativ hochwertige Benutzererfahrung erhalten. Jedes Mal eine erstklassige Benutzererfahrung zu bieten, ist keine einfache Aufgabe. Es erfordert eine ständige Analyse mehrerer Ereignisse, das Sammeln der erforderlichen Daten und deren Analyse. Diese Daten können alles sein, von den Wiedergabeinformationen über Geräteinformationen bis hin zur Messung der Plattformleistung und mehreren anderen. All diese Ereignismetriken machen Rohdaten kompliziert, und hier kommt Druid ins Spiel.

Die Aufgabe von Druid besteht darin, Echtzeitanalysen für Datenbanken bereitzustellen, in denen Abfragen regelmäßig und zu unsicheren Zeiträumen ausgeführt werden. Es ist hoch skalierbar und bietet eine hervorragende Leistung für jeden Workload.

● Verwendung von Python

Netflix liebt Python, weil es so leistungsfähig ist und wie hervorragend es in Kombination mit Bibliotheken wird, ganz zu schweigen davon, wie reibungslos es sich in andere Plattformen integrieren lässt. Netflix verwendet Python für die Verwaltung einer Vielzahl seiner geschäftskritischen Aspekte wie:

● Anwendungen, die die CDN-Infrastruktur verwalten

● Analyse von Betriebsdaten, Verkehrsverteilung und Betriebseffizienz

● Prototyping-Visualisierungstools

● Gewinnung von Erkenntnissen über statistische Tools, Datenexploration und Bereinigung

● Zur Aufrechterhaltung der Informationssicherheit

● Verwaltung mehrerer Kernaufgaben mit Jupyter-Notebooks

● Zum Experimentieren mit A/B-Tests

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

Previous post UCSB Science Line
Next post Schwarzer Expat in Island & Die Reaktion des Landes auf George Floyd