넷플릭스는 빅 데이터를 사용하는 방법
넷플릭스는 스트리밍 사업에 얼마나 오래 고려,그것은 몇 가지 이름을,같은 연령,성별,위치,미디어 자신의 취향으로 시청자에 대한 데이터의 힙을 쌓아왔다.
넷플릭스는 모든 고객과의 상호작용을 통해 정보를 수집함으로써 시청자들의 마음을 사로잡고,공연이나 영화를 끝내기 전에도 다음에 무엇을 보고 싶은지에 대한 아이디어를 얻을 수 있다.
우리는 요일,시간,장치 및 때로는 위치에 따라 다른보기 동작이 있음을 시사하는 데이터를 가지고 있습니다.
-리드 헤이스팅스
넷플릭스는 1 억 4 천만 명 이상의 가입자의 대규모 사용자 기반을 가지고있다. 여기에 넷플릭스는 모든 사람에게 개인의 취향을 제공하기 위해 추적 몇 가지 통계는—
- 콘텐츠를 시청하는 날
- 콘텐츠를 시청하는 시간
- 콘텐츠를 시청하는 장치
- 콘텐츠 특성
- 다시 시청된 콘텐츠의 일부
- 콘텐츠가 일시 중지되었는지,되감기 또는 빨리 감기
- 콘텐츠를 떠날 때
- 사용자가 지정한 등급
- 탐색 및 스크롤 동작
사용자 위치 데이터
이상 시간,넷플릭스는이 데이터를 활용하고 올바른 방향으로 회사를 조종 도움이 중요한 통찰력을 생성하는 몇 가지 알고리즘과 메커니즘을 배포했습니다. 이러한 도구와 기능 중 일부는 다음과 같습니다:
실시간 추천 엔진 근처
사용자의 바다로,각 사용자는 검색,보고 자신의 감시 목록에 추가 무엇을 기반으로 하루에 평가의 수백을 생성,이 데이터는 궁극적으로 빅 데이터의 일부가된다. 넷플릭스는 모든 정보를 저장하고 주요 기계 학습 알고리즘을 사용하여 시청자의 취향을 나타내는 패턴을 만듭니다. 이 패턴은 모든 사람의 취향이 독특하기 때문에 다른 뷰어와 결코 일치하지 않을 수 있습니다.
등급에 따라 넷플릭스는 미디어를 분류하고 시청자에게 추천 시스템이 다음에 시청하고 싶다고 생각하는 것을 제안합니다.
넷플릭스는 모든 것을 알게 될 것이다. 사람이 그것을보고 중지 할 때 넷플릭스는 알 수 있습니다. 그들은 모든 알고리즘을 가지고 있으며이 사람이 5 분 동안 쇼를 본 다음 멈췄다는 것을 알게 될 것입니다. 그들은 그들의 역사에 따라 행동과 시간에 따라 그들이 다시 돌아올 것이라고 말할 수 있습니다.
-미첼 허비츠
● 작품&이미지 선택
넷플릭스는 하나의 텔레비전 쇼 또는 영화에 대해 여러 작품을 보여줍니다 왜 궁금해?
이 도구를 아바라고 하는데,이는 본질적으로 어떤 작품과 이미지를 누구에게 보여줄 것인지를 선택하는 알고리즘이다. 미학 시각적 분석을위한 짧은,아바는 사용할 수있는 모든 비디오를 통해 선별 및 작품으로 사용하기에 가장 적합한 프레임을 식별합니다.
아바는 배우의 얼굴 표정,장면 조명,관심 분야,화면에 피사체의 위치 지정과 같은 이미지를 마무리하기 전에 많은 메트릭을 고려합니다. 심지어 분류하고 여러 맛 그룹으로 분류 사용자에게 보여 작품을 정렬합니다.
넷플릭스는 내가 보는 무언가이다.
-팜케 얀센 J
● 제작 계획
제작자가 새로운 쇼 또는 영화에 대한 아이디어를 내놓을 때 데이터는 필수적인 역할을합니다. 아무것도 종이에 도착하기 전에 브레인 스토밍의 많은 일이 일어나고,데이터가 들어오는 곳이다.
새롭고 독창적 인 콘텐츠를 제작 한 경험과 시청자가 이전 콘텐츠를 어떻게 인식했는지에 대한 많은 데이터를 통해 빅 데이터는 계획 단계에서 직면 한 많은 과제에 대한 가능한 해결책을 제시합니다.
이러한 도전에는 촬영 위치,촬영 시간 및 요일 등을 식별하는 것이 포함될 수 있습니다. 심지어 간단한 예측 모델,넷플릭스는 더 비용을 절감,계획에 투입 노력의 상당한 금액을 절약 할 수 있습니다.
넷플릭스는 사람들이 무엇을 원하는지 알기 때문에 원본 콘텐츠를 시운전하고 있다.
-뉴욕 타임즈
● 메타플로우
넷플릭스는 데이터 과학자의 생산성을 높이기 위한 클라우드 네이티브 인간 중심 프레임워크인 오픈 소스 메타플로우를 보유하고 있습니다.
메타 플로우의 아이디어는 데이터 과학자의 초점을 모델 인프라에 대한 걱정에서 문제 해결로 전환하는 것이 었습니다. 메타 흐름은 그들에게 거의 메타 흐름이 플러그 앤 플레이 프레임 워크 같은 느낌 미세 조정 기능 세트를 제공하여 자신의 아이디어를 실험 할 수있는 자유를 허용했다. 메타 플로우의 몇 가지 주목할만한 기능은 다음과 같습니다:
분산 컴퓨팅 플랫폼에서 작업 할 수있는 능력
버전 관리 및 실험을위한 코드 및 데이터를 스냅 샷하는 옵션
대부분의 기계 학습 프레임 워크 지원
● 폴리노트
넷플릭스에 의해 개발 및 오픈 소스,폴리노트는 다국어입니다 스칼라 및 기타 다양한 기능을 지원하는 노트북. 폴리노트는 데이터 과학자와 기계 학습 연구자에게 파이썬과 기계 학습 플랫폼을 원활하게 통합할 수 있도록 해줍니다. 몇 가지의 하이라이트를 노트북습니다:
●에 대한 통찰력을 제공합 커널 상태에서 작업을 실행
●제공하는 단순한 의존성 및 구성 관리
●제공합 IDE 음과 같은 기능을 자동 완성,오류 하이라이트,재현성,편집,개선,가시성,데이터 시각화하고 더 많은합니다.
넷플 릭스가 운영하는 방대한 데이터 풀은 다음과 같은 여러 플랫폼에 퍼져 있습니다. 이러한 데이터 저장소 간의 원활한 상호 운용성을 유지하기 위해,넷플릭스는 서비스를 필요로했다.
이러한 단순성에 대한 요구는 메타캣을 낳았으며,그 유일한 목적은 모든 데이터 저장소에 중앙 집중식 메타 데이터 액세스를 제공하는 것이었다. 넷플릭스는 다음과 같은 핵심 목표를 제공 할 목적으로 메타 플로우를 만들었습니다:
● 드루이드
“아파치 드루이드는 고성능 실시간 분석 데이터베이스입니다. 빠른 쿼리 및 인제스트가 실제로 중요한 워크 플로우를 위해 설계되었습니다. 드루이드는 즉각적인 데이터 가시성,임시 쿼리,운영 분석 및 높은 동시성 처리에 탁월합니다.”
—드루이드.넷플릭스는 아파치 드루이드를 사용하여 사용자가 매번 고품질의 사용자 경험을 얻을 수 있도록 보장합니다. 매번 최고 수준의 사용자 경험을 제공하는 것은 단순한 위업이 아닙니다. 여러 이벤트에 대한 지속적인 분석,필요한 데이터 수집 및 분석이 필요합니다. 이 데이터는 재생 정보,장치 정보,플랫폼 성능 측정 및 기타 여러 가지 데이터 일 수 있습니다. 이러한 모든 이벤트 메트릭은 원시 데이터를 복잡하게 만들고,드루이드가 작용하는 곳입니다.
드루이드의 임무는 쿼리가 정기적으로 불확실한 시간에 실행되는 데이터베이스에 대한 실시간 분석을 제공하는 것입니다. 확장 성이 뛰어나고 주어진 작업 부하에 대해 우수한 성능을 제공합니다.
파이썬 사용
넷플릭스 때문에 그것이 얼마나 강력하고 다른 플랫폼과 통합하는 방법을 원활하게 언급하지 않기 위하여,라이브러리와 결합 할 때 얻는 방법 우수한의 파이썬을 사랑한다. 넷플릭스는 다음과 같은 미션 크리티컬 측면의 호스트를 관리하기 위해 파이썬을 사용:
●응용 프로그램을 관리 CDN 인프라
●운영 데이터 분석,트래픽 분포하고 운영 효율성을
●프로토타이핑 시각화 도구를
●통찰력을 얻을 통해 통계적 도구 데이터 탐사 및 청소
●유지를 위해 정보 보안
●관리하는 여러 가지 핵심을 사용하여 작업을 Jupyter 노트북
●에 대한 실험을 사용하여 A/B 테스트