[넷플릭스 랩스데이] 넷플릭스 추천 시스템의 비밀: '노가다'와 '머신러닝'
[로스가토스=IT동아 강일용 기자] 넷플릭스의 성공 비결. 수 많은 콘텐츠를 저렴한 가격에 무제한으로 볼 수 있다는 것이 가장 큰 이유겠지만, 사용자 친화적인 정책과 구조도 성공에 한 몫했다. 넷플릭스는 사용자가 선호하는 콘텐츠를 파악한 후 이를 바탕으로 유사한 콘텐츠를 사용자에게 추천해주는 시스템을 도입했다. 사용자가 일일이 검색하지 않고, 추천 시스템 만으로도 취향에 맞는 콘텐츠를 찾은 후 감상할 수 있는 것. 많은 사용자에게 호평받은 넷플릭스 추천 시스템의 비결을 토드 옐린(Todd Yellin) 넷플릭스 제품 혁신 부사장에게 들었다.
넷플릭스 추천 시스템의 두 기둥: 노가다와 머신러닝
"넷플릭스는 남녀노소 누구나 사용할 수 있도록 설계되어 있다. 넷플릭스 사용자 경험의 핵심은 추천 시스템이다. 넷플릭스의 추천 시스템은 차로 비유하면 엔진에 해당한다. 서비스를 지탱하는 핵심 기술이다."
"인터넷 시대가 열리면서 뉴스, 영화, 드라마, 음악 등 다양한 콘텐츠가 쏟아지고 있다. 하지만 이렇게 많은 콘텐츠 때문에 사용자는 오히려 혼란을 느낀다. 정보가 너무 많다. 대체 무엇을 시청해야 한단 말인가. 넷플릭스의 추천 시스템은 이러한 소비자들의 고민을 대신 해주는 기술이다. 넷플릭스에 수 천개의 콘텐츠가 존재한다고 해서 사용자가 그 모든 것을 검토하지는 않는다. 보통 30~40개의 타이틀만 검토한다. 추천 시스템은 사용자가 감상한 30~40개의 콘텐츠를 바탕으로 이와 유사한 콘텐츠를 찾아준다. 넷플릭스를 이용하면 검색을 할 필요가 없어진다. 넷플릭스가 추천해주는 콘텐츠만 감상해도 충분히 만족할 수 있다."
넷플릭스의 추천 시스템은 심심할 때 시간을 죽이기 위해 영화를 몰아보는 라이트 유저(서비스 이용 빈도가 낮은 사용자)를 중심으로 큰 반향을 이끌어 냈다. 넷플릭스만 켜면 그동안 밀린 자신 취향의 영화를 한 눈에 파악한 후 모두 감상할 수 있으니 말이다. 이러한 열풍을 설명하기 위해 '영화 폭식(binge-watching)'이라는 신조어까지 탄생했다.
넷플릭스 추천 시스템의 비결은 뭘까. 혹자는 정교한 컴퓨터 알고리즘을 통해 사용자 취향에 맞는 영화를 찾아준다고 말한다. 틀린 말은 아니다. 넷플릭스의 추천 시스템에는 머신러닝(기계학습)이 적용되어 있으니 말이다. 하지만 옐린 부사장이 밝힌 '진짜 비결'은 전혀 다른 것이었다. 바로 수많은 인력을 동원한 '노가다'식 시스템이었다.
"넷플릭스에 신작이 입고되면 내부의 콘텐츠 팀이 해당 영화, 드라마, 애니메이션을 일일이 감상한다. 그 다음 엑셀 스프레드 시트에 해당 영화와 관련있다고 생각되는 모든 태그(꼬리표)를 입력한다. 태그는 엄청 많이, 그리고 되도록 자세하게 입력한다."
"사용자가 처음 넷플릭스에 가입하면 자신의 취향에 맞는 콘텐츠 3개를 고르게 된다. 3개의 콘텐츠에 붙은 태그를 바탕으로 컴퓨터 알고리즘이 사용자 취향에 맞는 콘텐츠를 찾아준다. 태그의 일치도가 높은 콘텐츠가 우선 노출된다. 이후 사용자가 넷플릭스의 콘텐츠를 많이 감상하면 감상할 수록 더욱 정확한 결과가 나온다. 머신러닝을 바탕으로 넷플릭스의 클라우드 컴퓨팅 시스템이 수많은 태그를 일일이 대조한 후 사용자 취향에 맞는 콘텐츠를 찾아준다. 태그는 영어로만 입력하는 것이 아니다. 태그도 현지화된다. 해당 국가의 문화와 언어에 맞춰서 다양한 언어로 태그를 매긴다. 나라 별로 취향이 천차만별이기 때문이다."
때문에 넷플릭스의 메인 화면은 사용자 별로 전혀 다르다. 7,500만 명의 넷플릭스 가입자가 있으면, 7,500만 명의 넷플릭스 메인 화면이 존재한다.
또한, 넷플릭스의 추천 시스템은 사용자 개인 데이터 뿐만 아니라 지역에서 수집한 사용자 집단(클러스터)의 데이터도 활용된다. 어떤 지역에서 어떤 장르의 콘텐츠를 선호하는지 분석한 후 현지 사용자의 추천 시스템에 반영하는 식이다. 예를 들어 애니메이션의 선호도가 높은 일본 사용자에겐 신작 애니메이션도 추천하고, 러브 코미디의 선호도가 높은 한국 사용자에겐 신작 러브 코미디도 추천하는 식이다.
"넷플릭스는 두 가지 형태로 구성되어 있다. 외부 인터페이스와 내부 알고리즘이다. 많은 경쟁 서비스가 넷플릭스의 인터페이스를 베끼고 있다. 하지만 알고리즘은 베끼지 못한다. 추천 시스템 알고리즘이야 말로 넷플릭스의 핵심 경쟁력이다."
포스터 하나도 사용자 취향에 맞게
"넷플릭스의 주인은 사용자다. 직원이 임의로 판단하는 것은 금물이다. 때문에 콘텐츠를 제작한 후 사용자의 반응(피드백)을 언제나 철저하게 반영하고 있다."
"피드백의 가장 대표적인 사례가 '포스터'다. 얼마 전 드라마 '풀러 하우스'를 선보일 때 사용자들에게 6개의 포스터 이미지가 무작위로 노출되도록 했다. 그리고 이 가운데 어떤 이미지를 선호하는지 데이터를 수집했다. 넷플릭스 내부에선 주연 배우들의 이미지가 노출된 포스터를 선호할 것이라고 판단했으나, 결과는 그와 반대였다. 드라마의 배경이 되는 샌프란시스코의 명물 '금문교'를 내세운 포스터가 사용자들에게 선택받았다. 이 데이터가 나온 즉시 모든 사용자에게 금문교를 내세운 포스터가 노출되도록 했다."
<사용자 취향에 맞게
포스터를 노출하는 넷플릭스의 시스템을 설명 중인 토드 옐린 넷플릭스 제품 혁신 부사장>
지역 별로 (포스터를 보는) 사용자 취향이 다를 수도 있다. 때문에 넷플릭스는 지역 별로 데이터를 달리 수집해서 해당 지역에서 선호하는 포스터를 내걸고 있다. 포스터는 6개만 제작하는 것이 아니다. 인기 있는 작품의 경우 더 많이 제작하기도 한다. '제시카 존스' 같이 화제가 된 작품은 포스터를 더 많이 제작해 사용자 선택의 폭을 넓혔다.
글 / IT동아 강일용(zero@itdonga.com)