6개월 성장으로 10년을 바꿀 수 있다면.
#인공지능 

AI가 위험한 발언을 하지 않게 만들기 : AI 레드팀

딥러닝 모델을 현실세계에 배포할 때 중요한 포인트는 데이터에 대한 보안과 AI 모델에 대한 신뢰도입니다. AI 레드팀은 2가지를 전부 포괄하고 있는 개념이며 마이크로소프트와 구글은 전담 팀을 구축했고 딥마인드와 네이버는 개념을 도입해 자동화를 추구하고 있습니다.

2023-08-16 | 이영빈

ChatGPT 이후에 초거대언어모델 (Large Language Model)의 성장세가 가파릅니다. 그렇기에 새로운 제품이 나올 때마다 사람들은 테스트를 위해 수많은 민감한 질문들을 합니다. 민감한 질문들중 자칫 답변에 혐오표현이 들어간다면 해당 챗봇의 성능과 상관없이 문제시됩니다.

많은 기업들이 LLM이 위험한 텍스트를 생성하지 않도록 여러 노력을 하고 있는데 빅테크에서는 AI 레드팀을 구축해 대응하고 있습니다. 레드팀이란 용어는 정보보안에서 사용하는 개념으로 조직 안에 모의 적군의 입장을 갖고 현 조직의 보안 문제를 파악하는 팀을 의미합니다. AI 레드팀이라는 개념은 마이크로소프트가 2018년에 처음 도입한 개념이며 현재 구글, Nvidia가 해당 개념을 도입해 운영하고 있으며 네이버도 레드팀 개념을 도입하고 있습니다.

마이크로소프트의 AI 레드팀

마이크로소프트 AI 레드팀 리드인 Ram Shankar siva Kumar가 쓴 레드팀에 대한 책

ChatGPT 이전까지 인공지능 업계를 이끌고 있는 기업은 구글이었습니다. 그러나 AI 레드팀을 최초로 만들어서 운영한 기업은 다름아닌 마이크로소프트입니다. 마이크로소프트가 먼저 AI 레드팀을 운영하게 된 계기는 AI를 마이크로소프트 클라우드 시스템인 Azure에 도입하기 위해서였습니다. 그렇기에 초기에는 전통적인 정보보안 측면에서 레드팀적인 요소를 더했습니다. 2021년까지 Microsoft 레드팀은 AI에 대한 보안 위험 평가와 같은 프레임워크 개발에 힘을 썼습니다.

그러나 시간이 지남에 따라 마이크로소프트의 레드팀은 새로운 방식의 공격을 진행합니다. 바로 머신러닝 컴포넌트를 악용하는 악성 요청을 생성하고 가상 머신의 결함을 악용해 클라우드 서비스의 다른 사용자에 대한 서비스 공격을 진행하는 방식이었습니다. 이 방식을 사용하면 한 고객의 활동이 다른 고객이 사용하고 있는 머신러닝 성능을 저하시킬 수 있습니다. 이 방식을 처음 선보인 이후 마이크로소프트의 AI 레드팀은 비단 AI에 대한 보안뿐만 아니라 AI 성능에 대한 평가 또한 관리하게 되었습니다, 현재 마이크로소프트의 AI 레드팀은 불특정다수가 LLM에 대한 공격을 진행할 때를 가정한 실험을 진행하고 있으며 이후 공격 트렌드를 예측해 미면에 방지하려고 노력하고 있습니다.

딥마인드의 언어모델을 활용한 LLM 레드팀

Ethan Perez ,Red Teaming Language Models with Language Models(2022)

마이크로소프트 AI 레드팀은 정보보안 측면에서 AI 파트에서 시작했다면 딥마인드는 언어모델에 대한 공격을 가정했습니다. 다만 딥마인드의 경우 팀을 만들었다기보다 레드팀이 가능한 언어모델을 만들었습니다 . 딥마인드가 레드팀ing을 만들게 된 계기는 2016년 마이크로소프트가 출시한 테이 사건이었습니다. 테이는 사용자에 대한 응답은 자동으로 트윗하는 트위터봇이었는데 몇몇 사용자가 테이에게 인종차별적이고 성적인 내용의 트윗을 유도했고 결국 5만명 이상의 트위터 사용자에게 성적인 내용을 보냈고 마이크로소프트는 16시간만에 테이를 다운시켰습니다.

딥마인드는 테이의 문제를 마이크로소프트에 원인을 찾지 않고 언어 모델 자체 시스템의 문제로 보았습니다. 실제 모델에 들어가는 인풋에 유해한 텍스트가 들어갈 여지는 많습니다. 물론 데이터 어노테이터가 일정 부분 걸러낼 수 있지만 이 방식은 비용이 많이 들어갑니다. 그렇기에 딥마인드는 자동화된 방식으로 잘못된 사례를 찾아내고 수동 텍스트를 보완하고 중요하게 간과된 오류 개수를 줄이는 걸 목표로 했습니다.

딥마인드는 공격적인 언어, 사적 데이터 노출, 특정 그룹에 대해 다른 그룹과 불공평하게 말하는 언어, 모욕적인 언어를 출력하는 언어 모델을 만들었습니다. 그리고 딥마인드가 이전에 만들었던 대화형 모델인 Dialoge-Prompted Gopher(DPG)와 대화를 시키면서 DPG가 어떤 결과물이 나오게 만드는지 지켜봅니다. 이 방식을 택하니 딥마인드는 성능 좋은 테스트를 만들었으며 일일이 사람이 공격하는 것이 아닌 LM을 통해서도 충분히 진행할 수 있다는걸 보여주었습니다.

네이버클라우드와 구글의 AI 레드팀

SQuARe Overview

Hwaran Lee, SQuARe: A Large-Scale Dataset of Sensitive Questions and Acceptable Responses Created Through Human-Machine Collaboration(2023)

네이버클라우드 또한 AI 레드팀을 운영하고 있습니다. 이화란 네이버클라우드 AI랩 연구팀장이 이끄는 팀에서 AI 윤리 모범답안 데이터셋을 공개했습니다. 해당 데이터셋 이름은 SquARe와 KokBi입니다. 두 데이터셋을 사용하는 방식을 보면 마이크로소프트의 AI 레드팀이라기보다는 딥마인드처럼 레드팀 LM을 만들고 HyperCLOVA에 넣고 필터링 이후 어노테이터에게 맡기는 방식입니다. 관련으로 자세한 내용은 2023년 8월 24일에 진행하는 팀네이버 컨퍼런스 단 23을 참고해주세요!

Google, Why Red Teams Play a Central Role in Helping Organizations Secure AI Systems

구글도 AI 레드팀을 발촉했습니다. 구글의 레드팀의 경우 딥마인드보다 마이크로소프트의 레드팀과 유사합니다. 팜플렛을 확인하면 AI 레드팀이 하는 역할에는 프롬프트 공격뿐만 아니라 데이터 이슈, 모델을 백도어하는 것, 적대적 예시, 데이터 오염 등 다양한 방면의 AI 보안을 고려하고 있습니다. 마소 모델을 따라가는 이유로 유추하자면 마이크로소프트와 마찬가지로 구글은 클라우드 사업을 하고 있으며 다양한 모델을 기반으로 프로덕트가 있다는 것도 동일합니다. 그렇기에 구글의 경우에는 마이크로소프트의 AI 레드팀을 따라가는것 같습니다. 그렇지만 구글이 마냥 마이크로소프트를 따라했다고 보기에는 무리가 있습니다. 구글은 AI 레드팀을 만들기 이전에 구글 리서치 내부의 책임감 있는 AI개발팀을 두어 AI를 지속적으로 관리하고 있었기에 AI 레드팀은 별도의 AI보안이 추가된 것으로도 보여집니다.

결론

현재 많은 기업들이 인공지능을 만들고 있으며 이를 상업적으로 활용하고 있습니다. 구글, 마이크로소프트, OpenAI와 같은 빅테크들은 모델을 만드는 동시에 Red Team을 내세워서 문제 발생을 최소화하는 AI를 만들고 있습니다. 우리나라에는 네이버가 Red Team을 만들어 책임감 있는 AI개발에 동참하고 있습니다. 추후에는 많은 기업들이 책임감 있는 AI개발에 동참할 것이라 믿고 있으며 더욱 다양한 기법으로 Red Team 방식이 개선될거라고 믿습니다. 필자의 개인적인 생각으로는 레드팀 연구는 이제부터 시작이며 딥마인드 방식처럼 자동으로 별도의 레드팀 AI가 우리가 서비스하는 AI를 공격하고 서비스할 AI가 올바르게 학습하게 만드는 것이 메인포인트라고 생각합니다!