70명의 AI 현업 전문가와 공동 개발한 60개⁺ 학습 노드로 배워요.
#인공지능 

커머스를 위한 Vision Language Model

Vision Language Model이 커머스에서 어떻게 활용되고 있는지 네이버 쇼핑의 인공지능 사례를 통해 알아봅니다.

2024-03-05 | 김정은

이번 글에서는 모두의연구소 컨퍼런스 모두콘 2023에서 우태강 님의 세션 [커머스를 위한 Vision Language Model]의 내용을 전달 드리겠습니다.
태강님은 네이버 Commerce AI팀 소속으로 이화여자대학교 사이버보안학과 겸임교수로 재직중이십니다.
이번 강연에서는 커머스에서 Vision Language Model 구현 기술에 대해서 이야기하며 “어떻게 Vision Language Model이 커머스에서 활용되고 있는지” 네이버 쇼핑의 사례를 들어 모두콘 세션을 통해 자세히 들려주셨습니다.

네이버, ‘파운데이션 모델’의 가치와 활용

네이버 이커머스(e-Commerce) 플랫폼에서 적용 가능한 AI 모델링에서 파운데이션 모델에 대한 내용을 발표했습니다.

태강님은 기술이 유저에게 가치 있는 서비스로 제공되는 방법을 고민하며, 파운데이션 모델(Foundation Model)과 비전 랭귀지 모델(Vision Language Model), 클립 모델(e-Clip Model)을 소개하고 정의했어요.

해당 모델의 사용, 운영 방식에 대한 업그레이드와 함께 이커머스(e-Commerce)에서의 가치에 대해 논의했어요.

이커머스 업계에서 경쟁의 핵심

‘이커머스 업계’는 상품, 가격, 배송, 유저 중에서 유저 수가 가장 중요하며, 이커머스 플랫폼 중 배송이 압도적인 쿠팡과 가격에서 경쟁하는 업체들이 있어요.

‘상품’과 ‘유저’는 개선이 가능한 부분이고, 나머지 두 요소에는 인프라나 정책적인 지원이 필요한데, 가격은 생산자의 원가량과 마진을 고려하기 때문에 중개 업체가 직접 개선하는 것은 어렵고, 배송은 인프라투자가 필수적이에요.

업계는 성장하고 있지만 경쟁이 치열하며, 가격과 배송 구축에서 선도 기업과 경쟁 업체들이 다른 전략을 사용하고 있어요.

 

네이버 쇼핑 인공지능

이커머스에서 딥러닝 모델 활용의 중요성

상품과 유저는 딥러닝 모델링을 통해 기존에 없던 가치들을 창출할 수 있죠.

따라서 유저와 상품을 잘 표현할 수 있는 모델을 만드는 것이 중요해요.

쇼핑하는 과정에서 유저가 상품에 도달할 수 있게 하는 것이 중요하며, 검색어를 통해서 원하는 상품을 찾게돼요.

사용자의 노출에 의해 보고 싶지 않았지만 물건을 살 수 있다는 것을 알게되는 플로우도 존재해요.

이커머스 추천 시스템 구현의 어려움

이커머스 업에서 소프트웨어가 할 수 있는 근본적인 역할은 유저가 원하는 상품을 추천 시스템으로 추천하죠.

그러나 상품을 표현할 수 있는 모델도 필요하고, 유저와 광고나 미디어에 대한 정보까지 알아야 하는 모델이 필요하여 아직은 어려움이 있어요.

하지만 유저 검색을 통해서 원하는 의도를 파악하고, 유저가 상품에 도달할 수 있도록 하는 이 플로우 자체를 딥러닝 모델로 모델링하여 구현해 볼 거예요.

 

멀티 도메인 추천 시스템 구축 방안

추천 시스템 구축을 위해 멀티 도메인을 모델로 표현하면 서로 다른 도메인에서 상관없는 노드끼리 연동될 수 없어 근본적인 문제 발생해요.

각 도메인에 대한 파운데이션 모델(Foundation Model)이 필요하며, 해당 도메인의 컨텐츠를 이해 가능한 구조여야 합니다.

예를 들어 상품 임베딩 모델(Embedding Model)은 상품의 컨텐츠를 이해하는 모델이 되어야 하며, 유저의 구매 이력 등 다른 정보를 활용하여 멀티 도메인 추천 시스템을 구현합니다.

각 도메인의 파운데이션 모델(Foundation Model)을 구현하면 하나의 노드를 파악하는 추천 시스템을 구축할 수 있어요.

상품 부분의 예시로 글로 이루어진 상품 내용을 이해하는 모델 필요하며, 이러한 파운데이션 모델(Foundation Model)의 구축이 중요하다는 결론에 도달하고 있어요.

 

네이버 쇼핑 인공지능 네이버 쇼핑 인공지능 네이버 쇼핑 인공지능

 

상품 모델링에 필요한 방법

상품 모델링을 위해서는 멀티모달(MultiModal) 인풋(Input)을 가진 ‘컨트라스트 러닝(Contrast Learning) 대조 학습’이 필요해요.

파운데이션 모델(Foundation Model)은 나를 잘 나타내는 것이며, 오늘은 ‘상품에 대해 이야기’하므로, 이에 대한 모델을 만드는 것이 파운데이션 모델(Foundation Model)의 의미해요.

클립은 이미지, 텍스트 정보가 페어와이즈(PairWise)로 연결될 때 학습하는 ‘컨트라스트 러닝(Contrast Learning) 대조 학습 방법’으로, 임베딩 공간에 유사한 페어끼리는 가깝게, 유사하지 않은 페어끼리는 멀리 배치하는 방법이예요.

학습을 통해 매트릭스(Matrix)를 만들면, 이를 이용해 같은지 또는 틀린지를 판별하는 거죠.

 

네이버 쇼핑 인공지능

 

같은 상품들의 유사성을 인식하는 클러스터링 기술

네이버에서 운영하는 가격 비교 서비스를 위해 상품들을 중복없이 묶어주는 방법이 필요했어요.

유사한 상품끼리 묶어주는 클러스터링(Clustering)과 상품 속성과 카테고리 분류하는 태스크를 수행하면서 같은 상품들의 레이블을 동일하게 만드는 ‘스무딩(Smoothing)’ 기술과 이미지, 텍스트 전처리를 수행했죠.

이를 통해, 유사한 상품들이 가까운 임베딩(Embedding)을 가지는 것을 발견하여 모델 구성에 활용하였어요.

같은 상품들의 유사성을 인식하는 클러스터링(Clustering) 기술은 상품 판매 증진 및 구매자 만족도를 높일 수 있어요.

 

기술적 개선과 성능 향상은 무엇을 통해 이루어지나?

텍스트 분류를 위해 학습을 통해 기능 개선되었어요.

카테고리 분류에 어려움을 겪은 일본 쇼핑 플랫폼에서, 클립(e-Clip)을 사용하여 검수를 자동화했어요.

유사한 상품을 레이블로 업데이트하여 카테고리 분류 성능을 개선하고, 수동 검수 대비 90% 이상의 성능 향상을 보였죠.

학습 데이터의 노이즈와 레이블 유사도 분석을 통해 데이터 품질을 개선했고, 기존에 어렵게 얻을 수 있는 10억 개 이상의 상품을 효과적으로 다루며 개선했어요.

 

네이버 쇼핑 인공지능

네이버는 어떤 서비스로 유사 상품을 제시하는가?

네이버에서 제공하는 빠른 배송 서비스는 아직 커버리지가 높지 않아요.

네이버에서는 검색된 상품 중 나의 판매 상품과 배송 속도가 유사한 상품을 보여주는 기능을 작업하여 현재 도착 보장 서비스 관에서 운영 중이고, 더 확장할 예정이에요.

이 기능은 셀러에게도 유용한데, 비슷한 콘텐츠를 기반으로 판매자의 상품명 및 키워드 통계를 제공해 초보 셀러들에게 도움을 줄 수 있어요.

이러한 작업은 현재 굉장한 기술 발전이 이루어지고 있어 더 발전할 예정이예요.

 

네이버 쇼핑 인공지능

비전 랭귀지 모델의 로스 함수 설계 방법

클립의 기존 듀얼 인코더 레이트 퓨전(Dual Encoder Late Fusion) 방식의 한계* 때문에 얼리 퓨전, 미드 퓨전 방식 중 하나를 이용해서 한계점을 개선하고 있어요.

디펙토처럼 이용 방식이 사용되는 로스 함수는 대부분 LM(Auto-Aggressive Language Model)(비전+자연어)에서 이미지 텍스트 매칭과 컨트라스트 러닝(Contrast Learning) 대조 학습을 위한 손실함수를 사용하는 것이 보편적이라고 해요.

MLM(Masked Language Model) 말고는 사용되지 않는 로스 함수 구현에 따라 시간이 많지 않은 것으로 알려진 로스 함수에 대해 논의합니다.

예를 들어, 머리에 사용하는 에센스라는 힌트만 주어지는 문제로 MLM(Masked Language Model)이 가능한지 살펴보며, 이미 사용되는 방식 중에서 맞춤 선택이 필요한 비전 랭귀지 모델에서 로스 함수 설계와 구현이 중요하죠.

듀얼 인코더 레이트 퓨전(Dual Encoder Late Fusion) 방식의 한계* : 디테일한 정보들까지는 캡쳐하지는 못함

 

이미지와 텍스트 매칭을 위한 모델에서의 주요 학습 방법

이미지와 텍스트를 연결시키는 데 사용되는 비전 랭귀지 모델(Vision Language Model)에 대해 설명해보자면,

마스크드 랭귀지 모델(Masked Language Model)과 리플레이스 토큰 디텍션 로스(Replace Token Detection Loss)로 학습이 가능한가에 대한 질문을 다루며, 대부분의 비전 랭귀지 프리트레이닝(Vision Language Pretraining) 방법에서는 학습이 불가능하다고 하죠.

예를 들어, 쇼핑 상품명의 모호성이 많아 LM(Auto-Aggressive Language Model)을 사용 할 수 없다면 다른 모달리티(Modality) 정보를 추가하여 보완해야 해요.

또한, 이미지 텍스트 매칭을 위해 사용되는 이미지 컨트라스트 러닝(ITC : Image Contrast Learning) 로스는 클립(e-Clip) 로스라고하는 각각의 임베딩을 i2t와 t2i 크로스 엔트로피로 인포(NC) 로스로 학습해요.

이러한 모델은 이제 미드 퓨전(Mid Fusion)방식에서 많이 사용되고 있으며, 퓨전 레이어(Fusion Layer) 및 퓨전 트랜스포머 레이어(Fusion Transformer Layer)에서 이미지 컨트라스트 러닝(ITC)과 같은 하드 네거티브 페어(Hard Nagative Pair)를 학습할 때 사용돼요.

 

온라인 쇼핑 개인화 추천 알고리즘

 

e-Clip 2의 단점과 개선 방향

e-Clip 2의 비전 랭귀지 모델(Vision Language Model)의 단점은 이미지와 텍스트의 임베딩 스페이스를 정렬하는 것이 불가능해요.

리트리벌(Retrival) 관점에서는 현재 사용되는 임베딩은 이미지 컨트라스트 러닝(ITC) 로스를 학습하거나 동일한 네거티브로 처리되기 때문에 유사하지만 다른 상품들을 구분하기 어렵죠.

이를 개선하기 위해 수학적 연구와 우회적인 해결방안을 모색하고 있으며, 세일즈 포스 등의 회사가 해당 문제를 효과적으로 해결하는 방법을 가지고 있어요.

또한, 상품 도메인의 특성과 폴스(False) 네거티브(Nagative)의 존재를 이해하고, 모델을 개발하여 더 좋은 결과를 얻을 수 있어요.

 

마무리하며

저 또한 기술이 유저에게 가치 있는 서비스로 제공되는 방법에 흥미를 가지고 있었는데요. 현업에서 고민하며 개발하고 있는 내용들을 들려주셔서 25분 내내 지루하지 않고 흥미있게 세션을 들을 수 있었던 것 같아요. 커머스 업계는 경쟁이 치열하고 기술의 발전이 고객에게 피부로 바로 느껴질 수 있다보니 앞으로의 기술 발전도 기대가 되는대요?! 태강님의 세션 내용을 좀 더 자세히 보고 싶으시다면, 아래의 영상 링크를 통해 확인해주세요.

 

커머스를 위한 Vision Language Model – 우태강(네이버 Commerce AI, 이화여자대학교 사이버보안 겸임교수) | 모두콘2023

서비스에 필요한 ML 모델은 무엇일까요? LLM? LMM? 커머스 관점에서 어떤 모델이 만들어져야 하는지 이야기합니다. 본 영상은 모두의연구소만의 연례 AI 컨퍼런스 “모두콘 2023” 영상입니다. 모두의연구소는 함께 성장하고 싶은 모두에게 열려있습니다🤗 – 홈페이지 찾아가기 🏡 https://modulabs.co.kr/ #VLM #쇼핑 #모두콘2023

 

Share Value, Grow Together! 함께 지식을 공유하고 성장하는 연구 문화를 전파하는 | 모두의연구소

20초만에 구독하고, 매주 SW/AI 소식 받아보세요 | ✉️ 모두레터 구독하기