클릭률 그리고 추천 시스템, 기술과 가치의 조화
추천시스템에서 많이 사용하고 있는 지표중 하나는 클릭률이다. 이번 블로그는 클릭률과 추천시스템간의 관계를 분석하고 쿨릭률의 한계점을 제시할 예정이다. 추가적으로 윤리적 책무까지 다뤄서 전체적인 추천시스템의 방향을 다룬다.
현대 사회에서 추천 시스템은 이미 우리 일상에서 많이 활용되고 있습니다. 쇼핑, 엔터테인먼트, 뉴스, 소셜미디어 등 다양한 분야에서 개인화된 콘텐츠를 제안하며 우리의 선택을 돕고 있습니다.
그런데 추천 시스템은 과연 어떤 원리로 작동하며, 어떤 기준으로 성과를 평가받을까요?
그 중심에는 ‘ 클릭률 ‘이 있습니다. 하지만 클릭률 만으로 추천 시스템의 본질을 다 설명할 수 있을까요?
이번 글에서는 클릭률과 추천 시스템의 관계에 대해 깊이 있게 살펴보고, 나아가 프라이버시 보호와 윤리적 책임이라는 화두를 통해 바람직한 추천 시스템의 미래상을 그려보고자 합니다.
추천시스템의 목표
클릭률과 추천 시스템의 관계를 이해하기 위해서는 먼저 추천 시스템의 목적과 작동 방식에 대해 살펴볼 필요가 있습니다.
추천 시스템은 기본적으로 사용자가 관심을 가질 만한 아이템을 선별하여 제안함으로써 사용자의 만족도를 높이고,
기업 입장에서는 매출 증대나 사용자 유지율 향상 등의 비즈니스 성과를 이끌어 내는 것이 목표입니다.
이를 위해 콘텐츠 기반 필터링, 협업 필터링, 지식 기반 필터링 등 다양한 기법이 사용됩니다.
콘텐츠 기반 필터링은 아이템의 특성(예: 영화의 장르, 출연 배우 등)을 분석하여 사용자가 과거에 선호했던 아이템과 유사한 것을 추천하는 방식입니다.
협업 필터링은 사용자 간의 선호도 유사성을 기반으로 추천하는 것으로, ‘이 아이템을 좋아한 다른 사용자들이 이런 아이템도 좋아했습니다’와 같은 형태로 제안을 합니다.
지식 기반 필터링은 사용자의 명시적인 요구사항을 바탕으로 추론 규칙을 적용하여 아이템을 추천하는 방법입니다.
추천시스템에서 클릭률이 중요한 이유
그런데 이러한 추천 시스템의 성과를 평가할 때 클릭률이 중요한 이유는 무엇일까요?
그것은 클릭이 사용자의 관심과 선호를 가장 직접적으로 드러내는 행동이기 때문입니다.
추천 시스템이 아무리 정교한 알고리즘을 갖추고 있다 하더라도 실제로 사용자가 클릭하지 않는다면 무용지물이 되고 맙니다.
따라서 클릭률은 추천된 아이템이 사용자의 흥미를 얼마나 효과적으로 자극하는지, 나아가 전반적인 사용자 경험을 개선하는 데 기여하는지를 가늠하는 핵심 지표라고 할 수 있습니다.
나아가 클릭은 사용자의 피드백을 의미하기도 합니다.
초기에 출시된 추천 시스템들은 대개 사용자의 명시적인 평가(별점 등)에 의존했지만, 요즘에는 클릭, 구매, 조회 시간 등 사용자의 행동 데이터를 분석하는 암시적 피드백(implicit feedback)을 주로 활용합니다.
암시적 피드백은 사용자가 직접 평가를 입력하지 않아도 되므로 더 많은 데이터를 확보할 수 있다는 장점이 있습니다.
그런 점에서 클릭률은 추천 시스템을 지속적으로 발전시키고 개선하는 데 필수적인 피드백 지표로 기능합니다.
클릭률이 갖고 있는 한계점
하지만 이 대목에서 한 가지 짚고 넘어가야 할 점이 있습니다.
그것은 바로 ‘클릭’이 가진 한계입니다. 우선 클릭 자체가 사용자의 선호를 온전히 반영한다고 보기는 어렵습니다.
호기심에 클릭했지만 막상 내용이 별로일 수 있고, 반대로 관심은 있었지만 제목이 맘에 들지 않아 클릭하지 않았을 수도 있습니다.
또한 무분별한 ‘클릭 유도’로 인해 사용자의 신뢰가 훼손되고 장기적으로는 추천 시스템의 질이 저하될 수도 있습니다.
그렇기 때문에 기업들은 클릭률 외에도 다양한 지표를 활용하여 추천 시스템의 성과를 입체적으로 평가하려 노력합니다.
예컨대 클릭 후 실제로 해당 아이템을 얼마나 오래, 얼마나 깊이 있게 이용했는지를 나타내는 체류 시간(dwell time)이나 스크롤 깊이(scroll depth)가 그러한 지표에 해당합니다.
나아가 해당 세션에서의 클릭 수나 클릭한 아이템의 다양성 등을 분석함으로써 사용자의 관심사를 더욱 면밀히 추론하기도 합니다.
그러므로 추천 시스템을 설계하고 운영함에 있어서는 클릭률을 비롯한 정량적 지표와 함께 정성적인 사용자 경험까지 함께 살펴야 합니다.
사용자의 니즈를 깊이 있게 파악하고 장기적 관점에서 신뢰와 충성도를 이끌어 내는 것, 이것이 진정으로 사용자 중심적인 추천 시스템이 갖춰야 할 방향성일 것입니다.
클릭률을 넘어서는 최신 추천시스템 기술 및 윤리적 책무
특히 개인화된 추천을 제공하는 과정에서 사용자 프라이버시 보호라는 중요한 과제를 반드시 고려해야 합니다.
이를 위해 차등 프라이버시(Differential Privacy)나 연합학습(Federated Learning)과 같은 기술을 활용하는 추세입니다.
차등 프라이버시는 사용자의 민감한 정보를 보호하면서도 데이터의 유용성은 최대한 보존하는 방법론입니다.
핵심은 원본 데이터에 의도적인 잡음(noise)을 추가하여 특정 개인의 정보를 식별할 수 없도록 하는 것인데요.
이렇게 하면 전체 데이터의 통계적 특성은 유지하면서도 개인정보 노출 위험은 최소화할 수 있습니다. 애플, 구글 등 빅테크 기업들이 적극 도입하고 있는 방식이기도 합니다.
연합 학습을 이용한 LINE 스티커 추천 -한국어판-
최근 개인정보 보호를 고려한 머신 러닝 기법으로 연합 학습(federated learning)이라고 부르는 기술이 주목받고 있습니다. 연합 학습으로 머신 러닝 학습 처리의 일부를 클라이언트 앱 측에서 실행해서 민감한 데이터를 로컬 기기에 둔 채로 글로벌 모델을 갱신할 수 있습니다. 여기에 차등 프라이버시(differential privacy)라고 부르는 기술을 조합해 보다 강력하게 개인정보 보호를 실현하는 방법도 활발하게 연구되고 있습니다.
연합학습 역시 데이터 프라이버시를 보장하는 분산형 기계학습 방법론입니다.
중앙 서버에 데이터를 모으지 않고, 각 기기나 사용자 단위에서 로컬 학습을 수행한 후 그 결과(모델의 가중치)만 취합하여 글로벌 모델을 업데이트하는 방식으로 이루어집니다.
라인의 경우 연합학습을 활용한 LINE 스티커 추천 시스템을 개발하여, 참여사의 데이터는 그대로 두면서도 이를 바탕으로 고도화된 추천 서비스를 제공하고 있습니다.
이처럼 차등 프라이버시와 연합학습은 사용자의 프라이버시를 보호하면서도 빅데이터를 활용한 고도화된 추천이 가능하도록 하는 혁신적인 접근법이라 할 수 있습니다.
앞으로도 이러한 프라이버시 보호 기술에 대한 연구 개발과 상용화가 더욱 활발해질 것으로 전망됩니다.
더 나아가 최근에는 추천 시스템의 윤리적 책무에 대한 논의도 활발합니다. 추천 알고리즘이 특정 선호를 강화하거나 정보 편식을 조장할 수 있다는 우려가 제기되고 있기 때문입니다.
유튜브의 정치적 편향성 시비나 넷플릭스의 프라이버시 침해 논란 등이 대표적 사례죠.
따라서 추천 시스템은 관련 법규와 윤리 기준을 준수하는 동시에 알고리즘의 투명성, 다양성, 공정성을 제고하기 위해 부단히 노력해야 할 것입니다.
결론
추천하는 블로그 : 머신러닝 엔지니어가 되기 위한 커리어 성장 (로드맵, 강의 추천)