부트캠프와 다른 AI학교,
AI는 아이펠에서 배우세요
#모두의연구소 

CVPR 2024 에서 빛난 모두의연구소 랩의 5가지 AI 연구 성과

CVPR 2024에 게재된 모두의연구소 랩의 5편의 논문의 내용을 통해 AI 기술의 변화와 미래에 대해 함께 알아봅니다.

2024-06-18 | 장혜정

안녕하세요! 컴퓨터 비전 분야의 최고 권위 학회인 CVPR (Conference on Computer Vision and Pattern Recognition) 2024에서 모두의연구소 랩이 이뤄낸 연구 성과에 대해 소개해드리려 합니다.

CVPR은 매년 전 세계 최고의 인공지능 연구자들이 모여 최신 연구 결과를 공유하는 자리인데요, 이번 2024년 CVPR에서 모두의연구소 랩은 무려 5편의 논문을 발표하며 혁신적 AI 연구를 선도하는 모습을 보여주었어요.

이는 전문 기관이나 학교가 아니라 자율 연구 모임 활동에서는 매우 이례적인 성과로, 모두의연구소 랩이 글로벌 AI 연구를 리드하고 했음을 보여주는 결과라 할 수 있습니다.

모두의연구소 랩에서 이번에 발표한 5편의 논문은 각각 어떤 내용을 담고 있으며, 어떤 의의가 있는지 자세히 살펴보도록 할께요. 이 5편의 논문이 앞으로 AI 기술 발전에 어떤 영향을 미칠지, 함께 알아보시죠!

 

1. C-LoRA LAB : 인공지능 모델을 다이어트 시키다 

논문명 : PC-LoRA: Low-Rank Adaptation for Progressive Model Compression with Knowledge Distillation
학회명 : The 3rd Workshop on Transformers for Vision (T4V) at CVPR 2024
저자 : 황인준, 박혜원, 이영완, 양주영, 맹선재

C-LoRA 랩은 Low-rank Adaptation(LoRA)를 compression의 기법으로 사용해서, Computer vision model이나 Large Language model의 compression을 연구하는 LAB 입니다. 모두의연구소의 AI학교 아이펠 졸업생들로 구성되어 있죠. AI를 배운지 6개월만에 해외 학회에 억셉될 수 있는 연구를 지속해서 발전 시켰다는 점이 놀랍습니다. 사전 경험 없이 해외 논문 작성이 쉽지 않은 도전이었을텐데요. 모두의연구소 페이퍼샵을 통해 도움을 주신 이영완 패컬티님의 피드백이 큰 도움이 되었다고 합니다.

이번 CVPR에서 C-LoRA랩은 “PC-LoRA: Low-Rank Adaptation for Progressive Model Compression with Knowledge Distillation”라는 논문을 발표했습니다.  PC-LoRA가 뭐냐구요? 요즘 인공지능 모델은 너무 크고 복잡해서 실제로 사용하기 어려운 경우가 많습니다. 이 논문에서는 이런 문제를 해결하기 위해 ‘PC-LoRA’라는 새로운 방법을 제안했어요.

PC-LoRA는 기존 모델의 크기를 점점 줄여나가면서 성능은 유지하는 기술이에요. 마치 다이어트를 하면서 건강은 지키는 것과 비슷하다고 볼 수 있죠. 연구진은 ViT-B라는 이미지 인식 모델에 PC-LoRA를 적용했더니 모델 크기가 무려 94% 이상 줄어들었어요! 그런데도 이미지 인식 정확도는 거의 그대로 유지되었다고 해요. 자연어 처리 모델인 BERT에도 적용해봤는데, 비슷한 결과를 얻었습니다.

게다가 PC-LoRA는 압축 정도를 자유롭게 조절할 수 있어서 활용도가 높아요. 다른 모델 경량화 기술과 함께 사용할 수도 있대요. 압축된 모델의 성능도 기존 소형 모델들보다 더 좋았어요. 논문에서는 ‘Attention map’이라는 것으로 모델이 이미지의 어느 부분에 집중하는지 시각화했어요. PC-LoRA로 압축해도 모델이 중요한 부분을 잘 파악한다는 걸 확인할 수 있었죠.

앞으로 PC-LoRA가 널리 사용된다면 스마트폰 앱이나 사물인터넷 기기 등에서 인공지능을 더 쉽게 활용할 수 있게 될 거예요. 인공지능이 우리 생활 곳곳에 스며드는 날이 곧 올 것 같네요!
C-LoRA랩원들의 생생한 인터뷰 내용이 궁금하다면 <ICLR Workshop 논문 억셉된 아이펠 그루들에게 묻는다!> 블로그 글을 참고하세요.

PC-LoRA: Low-Rank Adaptation for Progressive Model Compression with Knowledge Distillation

출처 : CVPR 게재 논문 ‘PC-LoRA: Low-Rank Adaptation for Progressive Model Compression with Knowledge Distillation’

 

2. Prompt Tart LAB : AI가 그림 그릴 때 생기는 편향을 고쳐주는 방법

논문명 : Inpaint Biases: A Pathway to Accurate and Unbiased Image Generation
학회명 : Conference on Computer Vision and Pattern Recognition 2024 / Fourth Workshop on Ethical Considerations in Creative applications of Computer Vision
저자 : 명지윤, 박지현

Prompt Tart LAB은 맛있는 프롬프트 레시피를 찾아보자는 목표를 가진 랩이었어요.
랩짱님은 GPT Prompt를 보고 타르트 같다고 느꼈다고 해요. 레시피를 잘 만들면, 맛있는 타르트가 나오듯 다 같이 좋은 Prompt를 공유하면서, 일상생활 속에 풍요로움을 느끼자는 포부가 참신합니다.

Prompt Tart LAB이 CVPR에 발표하게 된 논문은 인공지능(AI)이 그림을 그릴 때 발생할 수 있는 편향(bias)에 대한 연구를 다루고 있어요. 최근 AI는 텍스트를 입력하면 그에 맞는 이미지를 생성하는 수준까지 발전했어요. 하지만 아직 완벽하지는 않답니다. AI가 학습한 데이터에 자주 등장하지 않는 개념들, 예를 들어 ‘파란 바나나’나 ‘사각형 수박’ 같은 것들은 잘 그리지 못하는 경우가 많거든요.

연구진은 이런 편향을 해결하기 위해 ‘Inpaint Biases’ 프레임워크를 개발했어요. 사용자가 원하는 그림이 나오지 않으면, 문제가 되는 부분에 마스크를 씌워요. 그리고 마스크 영역만 집중적으로 다시 그리도록 AI에게 지시하는 거예요. 이 과정에서 대형 언어 모델(LLM)이 중요한 역할을 해요. LLM이 마스크 영역을 어떻게 그려야 할지 더 자세한 지시 사항을 만들어 주거든요. 예를 들어 ‘노란 구름’을 잘 표현하고 싶다면, ‘생생하고 선명한 노란색 구름’처럼 더 구체적으로 묘사해 주는 거죠.

실험 결과, Inpaint Biases 프레임워크를 적용하니 AI가 훨씬 사용자의 의도에 맞는 그림을 그리더라고요. 특히 일반적이지 않은 개념들도 잘 표현할 수 있게 되었어요.

연구진은 앞으로도 계속 이 기술을 발전시켜서, 사용자가 개입하지 않아도 AI 스스로 편향된 부분을 찾아내고 고칠 수 있게 만들 계획이에요. 이 연구를 통해 AI가 창의적이고 다양한 표현을 할 수 있는 편견 없는 도구로 거듭나기를 기대하고 있어요!

Inpaint Biases: A Pathway to Accurate and Unbiased Image Generation

출처 : CVPR 게재 논문 ‘Inpaint Biases: A Pathway to Accurate and Unbiased Image Generation’

3. NVIDIA – Foundation Models LAB : AI가 이전에 학습한 것을 잊지 않고 새로운 것을 배우는 방법

논문명 : VLM-PL: Advanced Pseudo Labeling Approach for Class Incremental Object Detection via Vision-Language Model
학회명 : CVPR Workshop on Continual Learning (CLVision)
저자 : JunsuKim, Yunhoe Ku, Jihyeon Kim, Junuk Cha, Seungryul Baek

NVIDIA Foundation Models LAB은 NVIDIA가 만들거나 서비스 하고있는 Vision Foundation 모델들을 심도 있게 탐구하고, 이러한 모델들을 NVIDIA 자체환경 혹은 다른 방법을 통해 적용해 보는 것을 목표로 하고 있어요. Stable Diffusion, Llama, CLIP, metaCLIP, SAM, Llava, Osprey, Honeybee, Ferret, InternLM 등 다양한 Foundation이자 mLLM 모델을 포괄적으로 다루며, 이를 통해 downstream에서의 적용 및 논문 작성까지 목표로 하고 있죠.

CVPR에 발표한 논문은 인공지능(AI)이 계속 새로운 것을 배우면서도 이전에 학습한 내용을 잊어버리지 않도록 하는 연구를 다루고 있어요. AI는 보통 한 번에 하나의 task를 학습하도록 설계되어 있어요. 그래서 새로운 task를 학습하면 이전에 배웠던 지식을 잊어버리는 경우가 많죠. 이런 현상을 Catastrophic Forgetting이라고 해요.

이 문제를 해결하기 위해 연구자들은 Pseudo-labeling이라는 기술을 사용해왔어요. 이는 AI가 이미 잘하는 task의 결과를 활용해서 새로운 task를 학습하는 방식이에요. 하지만 이 방법은 점점 더 많은 task를 학습할수록 성능이 크게 떨어지는 한계가 있었죠. 그래서 저자들은 Vision-Language Model (VLM)을 활용한 새로운 방법을 제안했어요. VLM은 이미지와 텍스트를 모두 이해할 수 있는 강력한 AI 모델이에요.

연구진은 이 VLM을 사용해서 Pseudo-labeling의 결과를 검증하고 정제하는 과정을 거쳤어요. 즉, AI가 이전 task에서 얻은 지식을 활용해 만든 Pseudo-label이 맞는지 VLM이 확인해주는 거예요.

실험 결과, 이 VLM-assisted Pseudo-labeling (VLM-PL) 방법은 이전 방식들보다 훨씬 우수한 성능을 보였어요. 새로운 task를 계속 학습하면서도 이전 지식을 잘 유지할 수 있었거든요.

이 연구는 AI가 인간처럼 계속 새로운 것을 배우면서도 이전 지식을 잊지 않을 수 있는 가능성을 보여준 의미 있는 연구라고 할 수 있어요. 앞으로도 이런 연구들을 통해 AI가 더욱 발전할 수 있기를 기대해봅니다!

VLM-PL: Advanced Pseudo Labeling Approach for Class Incremental Object Detection via Vision-Language Model

출처 : CVPR 게재 논문 ‘VLM-PL: Advanced Pseudo Labeling Approach for Class Incremental Object Detection via Vision-Language Model’

4. Artificial Intelligence LAB : AI가 데이터를 잊어버리게 하는 효과적인 방법

논문명 : Towards Efficient Machine Unlearning with Data Augmentation: Guided Loss-Increasing (GLI) to Prevent the Catastrophic Model Utility Drop
학회명 : CVPR 2024 workshop on FAIR, DATA-EFFICIENT, AND TRUSTED COMPUTER VISION (TCV2)
저자 : 최다솔, 최수라, 이은선, 서진우, 나동빈

Artificial Intelligence LAB은 인공지능을 활용하여 사회적인 문제를 해결하는 것을 목표로 하고, 국제 학술지 혹은 학술 대회에 논문을 지속적으로 투고하고 발표하고 있어요. 한국어 편향 표현 분류 AI, 유해 물질 탐지 AI, 각종 벤치마크 데이터 세트 구축 연구(한국인 얼굴 특징 데이터 세트 등), 인공지능과 개인 정보 보호 등 정말 AI와 관련된 다양한 연구 주제를 다루고 있죠.

Artificial Intelligence LAB은 CVPR에 2개의 논문이 채택되었는데요. 그중에 하나는 인공지능(AI)이 특정 데이터를 잊어버리게 하는 연구를 진행했어요.

최근 개인정보 보호가 중요해지면서, AI 모델이 학습에 사용한 데이터를 잊어버리게 하는 것이 중요한 이슈가 되고 있어요. 이를 위해 연구자들은 ‘loss-increasing’ 방법을 사용해왔죠. 하지만 이 방법은 모델의 성능을 크게 떨어뜨리는 ‘대참사적 모델 유틸리티 저하(catastrophic model utility drop)’ 현상을 일으킬 수 있다는 문제가 있었어요.

그래서 연구진은 이 문제를 해결하기 위해 ‘Guided Loss-Increasing(GLI)’라는 새로운 데이터 증강 기법을 제안했어요. GLI는 데이터를 업데이트할 때 모델이 기존에 학습한 지식을 활용하도록 해요. 이렇게 하면 데이터를 잊어버리는 과정이 모델의 원래 성능에 부정적인 영향을 주지 않게 된답니다.

실험 결과, GLI 방법은 기존의 최신 기법들에 비해 모델의 성능과 망각 성능 모두 우수한 것으로 나타났어요. 또한 Jensen-Shannon divergence라는 척도를 사용하면 망각 정도를 더 안정적으로 평가할 수 있다는 것도 밝혀졌죠.

이 연구는 AI가 데이터를 잊어버리게 하면서도 성능 저하를 최소화할 수 있는 효과적인 방법을 제시했다는 점에서 의미가 있어요. 앞으로 이런 연구를 통해 AI가 개인정보를 더 안전하게 다룰 수 있게 되길 기대해봅니다!

본 논문의 세부 내용은 깃허브에서도 확인해보실 수 있어요.

Towards Efficient Machine Unlearning with Data Augmentation: Guided Loss-Increasing (GLI) to Prevent the Catastrophic Model Utility Drop

출처 : CVPR 게재 논문 ‘Towards Efficient Machine Unlearning with Data Augmentation: Guided Loss-Increasing (GLI) to Prevent the Catastrophic Model Utility Drop’

 

5. Artificial Intelligence LAB : 인공지능이 모르는 것을 알아내는 새로운 방법: DMR

논문명 : DMR: Disentangling Marginal Representations for Out-of-Distribution Detection
학회명 : CVPR 2024 workshop on VAND 2.0: Visual Anomaly and Novelty Detection (VAND)
저자 : 최다솔, 나동빈

Artificial Intelligence LAB이 CVPR에 게재한 두번째 논문은 인공지능(AI)이 처음 보는 이미지를 식별하는 새로운 방법에 대한 연구였어요.

현재 AI는 학습할 때 사용한 데이터와 비슷한 이미지는 잘 구별하지만, 전혀 새로운 종류의 이미지는 구별하기 어려워해요. 이런 문제를 해결하기 위해 연구자들은 OOD(Out-of-Distribution) 탐지 기술을 개발하고 있어요.

OOD 탐지를 하려면 보통 AI를 학습시킬 때 모르는 이미지들도 함께 사용해요. 하지만 현실에서는 AI가 모르는 모든 종류의 이미지를 수집하기가 어려워요.

그래서 연구진은 DMR(Disentangling Marginal Representations)이라는 새로운 방법을 제안했어요. DMR은 AI가 이미 알고 있는 이미지에서 중요하지 않은 부분만 추출해서, 이를 조합해 가짜 OOD 이미지를 만들어내요.

예를 들어 개, 고양이, 말 이미지에서 각각 배경만 추출해 섞으면, 어떤 특정 동물로 분류하기 애매한 이미지가 만들어져요. 사람 눈에는 이상해 보일 수 있지만, 이런 이미지로 AI를 학습시키면 OOD 탐지 능력이 크게 향상된대요.

실험 결과 DMR로 학습한 AI는 다른 최신 기법들보다 OOD 탐지를 더 잘했어요. 특히 다른 방법과 결합했을 때는 더욱 좋은 성능을 보였죠.

DMR은 별도의 OOD 이미지 없이도 AI 스스로 OOD를 잘 구별할 수 있게 만드는 획기적인 방법이에요. 앞으로 이 기술이 AI의 신뢰성을 높이는 데 크게 기여할 것으로 기대된답니다!

본 논문의 세부 내용은 깃허브에서도 확인해보실 수 있어요.
DMR: Disentangling Marginal Representations for Out-of-Distribution Detection

출처 : CVPR 게재 논문 ‘DMR: Disentangling Marginal Representations for Out-of-Distribution Detection’

 

CVPR에서 더 빛나는 모두의연구소 랩의 논문 내용들 어떠셨나요?

모두의연구소 랩에서 이번 CVPR 2024에서 발표한 다섯 편의 논문은 인공지능 기술의 한계를 뛰어넘는 혁신적인 방법들을 제시하고 있어요. Inpaint Biases, VLM-PL, PC-LoRA, DMR, GLI 등 각각의 연구는 인공지능 기술을 한 단계 높이는데 기여할 것으로 기대됩니다. 자율주행차, 의료 진단, 개인 맞춤형 서비스 등 다양한 분야에서 인공지능 기술에 대한 수요와 기대가 높아지고 있는 만큼, 앞으로도 많은 분들의 연구와 도전에 대해 모두의연구소는 적극 응원하겠습니다.

비슷한 관심사와 가치관을 갖고 있는 동료들과 함께 AI에 대한 연구 도전! 어떠신가요? 모두의연구소 링크드인 커뮤니티에서는 CVPR 현장 소식 뿐만 아니라 다양한 랩 연구와 커뮤니티 소식을 함께 만나볼 수 있어요!   🙂