AI, 어렵고 딱딱하기만 할까? 게임형 퀘스트로 재밌게 배우고 싶다면!
#인공지능 

생성AI의 안정성과 AI 보안

AI가 본격적으로 서비스화되는 동시에 AI 보안 이슈도 제기되고 있습니다. 그렇기에 많은 회사들이 AI 보안문제를 해결하기 위해 노력하고 있지만 아직 뚜렷한 해결책이 나오지 않고 있습니다. 현재까지 나온 AI 보안 관련 방법론에 대해서 고찰했습니다.

2024-02-28 | 이영빈

이번 모두의연구소 열린세미나 모두팝은 Trustworthy AI풀잎을 진행하고 있고 현재 AI보안 스타트업 창업준비하고 있는 유상윤님께서 핫한 주제인 “생성AI의 안정성과 AI 보안”이라는 주제로 세미나를 진행했습니다. 이번 세미나는 비전공자분들도 이해하기 쉽고 이 문제가 얼마나 심각한 사항인지 보여준 재미있는 세미나였습니다.

현재 Gen AI의 문제점

현재 생성 AI(Generative AI)는 비단 컨셉카 수준에서 넘어서서 실제 서비스화되고 있습니다. 검색을 도와주는 네이버 클라우드에서 만든 HyperCLOVA X로 만든 Cue 검색부터 업스테이지에서 만든 Solar를 기반으로 하는 AI캐릭터인 MAVE와 같은 사용수준이 무궁무진합니다. 그러나 현재 Gen AI의 가장 큰 문제는 모든 모델이 전부 사용자가 이야기하는 것을 바로 반영해버린다는 점입니다.

Chat GPT 프롬프트가 유출되었다는 유튜브 썸네일

최근에 GPT Store에서 ChatGPT를 컨트롤하는 시스템 프롬프트가 유출되었습니다. ChatGPT에서 가장 중요한 시스템인 프롬프트가 유출되면서 어찌보면 OpenAI는 지적재산권이 침해당했다고도 볼 수 있습니다.  그렇기에 수많은 빅테크들이 Prompt Security같은 AI 보안을 적극적으로 도입하려고 노력하고 있으며 NSA와 같은 정보기관들도 AI 보안 센터 (AI Security Center)를 만들어서 운영하고 있습니다.

전통적인 AI 보안문제

기존 전통적인 AI 보안문제는 크게 Extraction Attacks, Adversarial Attack 그리고 Bias, Fairness, Data Poisoning으로 나눌 수 있습니다. Extraction Attacks는 모델이 유출되는 공격으로 공개되어 있는 않은 모델이 저작권자의 허락없이 유출된 경우를 의미합니다. 이런 공격이 실제 당한다면 새로운 모델로 교체하는 방식도 있으며 설사 Training Data를 폐기했다하더라도 다시 복원해서 사용할 수 있는 기술까지 나왔다고 합니다.

판다 + 노이즈 = 긴팔원숭이

Adversarial Attack은 모델을 속이는 공격으로 원본 이미지에 노이즈를 추가해서 모델 입장엣 전혀 다르게 파악해서 혼선을 주는 공격을 의미합니다. 이런 분야의 경우 현재 몇몇기업에서는 이미지 저작권을 위해 학습을 진행하지 않게 만드는 방법론으로 많이 활용하고 있습니다.

마지막으로 Bias, Fairness, Data Poisoning 문제는 학습 데이터에 문제가 되는 데이터가 들어가서 혼선을 주는 문제입니다. Bias와 Fairness의 경우 학습 데이터가 편향되어 있는 문제를 의미합니다. Data Poisoning의 경우 학습을 진행할 때 신용카드, 주민등록번호와 같은 개인정보가 모델에 학습되어 유출되는 경우를 의미합니다. 이러한 공격들은 모델이 실제 배포되었을 때 사회적 논란을 야기할 수 있는 문제들입니다.

최신 AI의 보안문제

최신 AI 보안문제의 경우 LLM을 믿을 수 없다!로 귀결됩니다. 현재 LLM의 경우 잘못된 결과가 나오는 경우로 Hallucination, Prompt Injection, Jailbreaking Torjan Attacks등이 있습니다. Hallucination은 모델에 대한 결과값 정확도에 대한 이야기로 LLM도 결국 텍스트를 생성하는 것이기에 발생하는 문제입니다. Prompt injection, jailbreaking은 GPT Store의 프롬프트 유출처럼 시스템 프롬프트가 유출되는 문제입니다. 시스템 프롬프트가 유출되면 사용자는 사용자 프롬프트를 통해 시스템 프롬프트를 수정할 수 있게 되며 결국 시스템을 망가뜨릴 수 있습니다. Torjan Attacks는 학습 데이터셋에 특정 단어를 작성하면 해당 단어가 시스템 프롬프트를 망가뜨리는 내용이 출력되어 시스템이 뚫리는 방법론을 의미합니다.

그렇다면 최신 AI 보안문제가 발생한 원인이 무엇일까요? 최신 LLM에서의 Chat 시스템은 시스템 프롬프트에 강하게 의존하고 있습니다. 문제는 시스템 프롬프트의 경우 완벽하게 격리된 방식으로 작동하는 것이 아닌 충분히 오염시킬 수 있는 여지를 주는 문제를 갖고 있습니다. 뿐만 아니라 현재 AI 모델들의 데이터는 SQL를 통해 DB로 정리하고 있는데 이 부분이 뚫리게 되면 유저가 모르는 채로 DB가 바뀌는 문제가 발생합니다.

AI 보안을 강화하는 방법?

현재 이러한 문제를 해결하는 방법에는 Robust training, Attack Detector Model, Adversarial Purification이 있습니다. 이중에서 Attack Detector Model은 Input과 Output을 검사하는 모델로 입출력을 감시하면서 문제가 되는 것을 찾고 막는 역할을 합니다. 이 방식은 AI를 이용하기에 자동화가 될 수 있지만 Detector Model로 LLM을 사용하게 되면 기존 시스템에서 3배가 넘는 비용이 발생합니다. Adversarial Purification은 프롬프트를 통해 해당 문구가 안전한지 위험한지를 검사하는 방식입니다. 이 방식의 경우에도 프롬프트가 안전하다는걸 보장할 수 없고 토큰화된 방식의 공격을 해결할 수 없습니다.

현재 산업에 있는 방식은 크게 Langchain 가드, Lakera Guard, NeMo가 있습니다. Langchain 가드의 경우 오픈소스 모델이지만 단순하게 구성되어 있기 때문에 가드를 공격하는 모델이면 문제가 발생합니다. Lakera Guard는 AI보안 스타트업인 Lakera가 직접 관리하기 때문에 안전성을 보장할 수 있지만 Lakera에 시스템 프롬프트를 보내야 하며 현재 영어만 지원합니다. 마지막으로 엔비디아에서 제공하는 NeMo는 단순하게 LLM에게 다시한번 질문하는 방식이기에 이 경우도 취약한 편입니다.

그렇다면 미래는?

현재 퍼실님에 의하면 이 산업은 무궁무진하다라고 설명하고 있습니다. 현재 뚜렷한 방법론이 나오지 않았으며 현재 나온 보안 방법론은 LLM에 국한되어 있어 요즘 나오는 Multimodal LLM에는 취약합니다. 그리고 현재 AI에게 모든걸 맡기는 AI Agent 분야의 경우 안전성을 보장할 수 없습니다. 그렇기에 현재까지도 AI 보안은 연구를 진행하고 있는 분야이며 결국 안전성이 보장되어야 기술이 상용화된다고 퍼실님은 생각하고 있고 이를 기반으로 스타트업 창업을 준비하고 있다고 했습니다!

모두팝 영상

Gen AI Safety & Security – 유상윤 | 모두의연구소 K-디지털플랫폼 모두팝

No Description

연사님의 스타트업 회사 홈페이지 : AIM Intelligence

AI 보안 관련 또 다른 블로그를 보고 싶다면?  AI 레드팀