부트캠프와 다른 AI학교,
AI는 아이펠에서 배우세요
#인공지능 

AI 비전공자 에게 물어본 AI 논문쓰기

모두의연구소에서 AI 비전공자이신 조상현님과 최의진님이 어떻게 AI 논문을 쓰게 되셨는지 소개해주셨습니다. 조상현님은 회사에서 논문을 작성하셨고 최의진님은 캐글에서 알게 된 분과 같이 논문을 작성했습니다.

2023-04-06 | 이영빈

안녕하세요? 오늘 ‘AI 비전공자로 AI 논문 쓰기’라는 주제를 다루어보려고 합니다. 이를 위해서 OGQ GYN의 조상현 AI 연구원과 메가스터디의 최의진 Data Scientist(데이터 사이언티스트) 두 분을 초대했는데요. 두 분 모두 AI 비전공자일 뿐만 아니라, 비전공자로서 AI 논문을 쓰게 된 계기도 모두 매우 흥미롭습니다.

조상현님의 비전공자 AI 공부 일대기

거꾸로 학습하여 배운 AI

AI를 공부하게 된 계기 (입사 전, 20153~20176)

ai-experience

조상현 님은 2017년 7월부터 스타트업인 OGQ GYN에서 AI연구원으로 근무 중이며 주로 지능형 CCTV 등 영상 관련 분석 업무를 맡고 있는데요. 경찰청 의뢰로 드론 실종자 수색 관련 영상 분석 AI 모델을 개발하고 한국수자원공사와 함께 수도시설 지능형 안전관리시스템을 개발했습니다. 그 외 다중 언어를 지원하는 Tagging(AI 모델 개발과 Quantization(양자화) 기반 경량화 AI를 개발하기도 했습니다.

비전공자인 조성현 님이 AI를 공부하게 된 이유는 평소에 ‘하고 싶은 게 있고, 그것을 실현하기 위해서라면 새로운 것을 배우는 것도 마다하지 않는다’는 신념을 갖고 있기 때문이었습니다. 목표를 분석해 그에 필요한 기본 기술과 지식을 파악한 뒤 익히는 Reverse Engineering(리버스 엔지니어링)이라고도 설명할 수도 있겠네요.

본격적으로 AI에 관심을 갖게 된 계기는 2017년에 한참 화제가 되었던 알파고와의 바둑 대전이었습니다. AI 관련 업무를 맡을 회사를 찾으면서 처음부터 목표는 대기업이 아닌 스타트업이었는데요. 자신의 기량을 마음껏 펼치기에는 스타트업이 더 적합했다고 판단했기 때문입니다.

 

논문을 쓰기 위한 준비 (입사 후, 177~현재)

paperswithcode

조상현 님은 AI 논문을 쓰기에 앞서 영어와 수학 등에는 부족함을 느꼈지만, 자신의 능력에 대한 신뢰에서 오는 자신감이 있었는데요. 코딩 속도가 빠르고 굉장한 집중력을 가지고 있으며, 또한 한번 이해한 것은 모두 코드로 구현할 수 있다는 확신이 있었다고 합니다.

우선, Python(파이썬)이 제공하는 TensorFlow(텐서플로)로 가볍게 몸풀기를 하면서, 회사에 필요하거나 도입할만한 논문이라고 판단되면 모두 코드로 구현해서 공유하기 시작했습니다. 필요한 논문 중에 코드로 구현되지 않았거나 원하는 언어로는 구현되지 않은 것들이 많았기 때문이죠.

그런데, 필요한 논문을 PaperswithCode(페이퍼스위드코드)와 구글 등에서 계속 찾아보니 관련 논문이 너무 많았는데요. 수많은 논문을 빠르게 읽기 위해 Python의 Flask(플라스크)를 공부해서 논문을 크롤링(crawling)해서 데이터베이스로 만들고자 했습니다. 이어서 원하는 키워드를 입력하면 그와 관련된 모든 논문을 PDF 양식으로 모아주는 프로그램도 개발하게 되었죠.

아직 남아 있는 문제는 영어와 수학이었는데요. 다행히 수학은 고급 수준까지는 요구하지 않았지만, 영어 장벽은 높았습니다. 영어로 쓰고 영어로 발표해야 하기 때문이죠. 그래서, 영어 과외 선생님을 구해서 정치, 경제 등 다양한 주제로 매주 이메일을 쓰고 같이 토론도 했습니다. 또한, Focusmate(포커스메이트)라는 플랫폼을 통해 다양한 국가 출신의 외국인들과 영어로 대화도 하고, PDF에서 모르는 단어를 더블클릭하면 자동으로 데이터베이스로 보내지는 프로그램도 만들면서 영어를 학습했습니다.

논문 쓰기 (입사 후, 177~현재)

eccv 2022

조상현 님이 처음 논문 쓰게 된 계기는 회사에서 데이터 레이블링(data labeling)을 하는 데 너무 많은 시간이 들었기 때문이라고 하는데요. 레이블링 시간을 크게 줄일 수 있는 Weakly Supervised Semantic Segmentation(을 연구하기 시작하다가 논문을 쓸 결심을 하게 되었습니다.

근무 외 시간을 활용해서 논문을 쓰는 일은 결코 쉽지 않았는데요. 아이디어 4~5개를 한 달 동안 돌리며 실험했지만 모두 실패하기도 했습니다. 포기하고 싶은 마음도 들었지만, 잠시 쉬고 다시 도전해보라는 박사님의 조언을 들고 생각을 정리하고 아이디어를 보완하면서 논문을 완성할 수 있었습니다.

논문을 마무리한 후에는 다른 사람의 논문을 약 150개 정도 참고하며 자신만의 템플렛을 만들고, 영어권은 물론 비영어권 대상까지 고려해서 PPT 각 슬라이드에 대한 음성을 녹음하면서 발표를 준비했습니다. 당시 팬데믹으로 인해 학회를 대신해서 ‘Gather.town(게더타운)’에서 발표를 했는데요. 온라인 부스를 찾아온 6~7명과 몇 시간에 걸쳐 질문과 답변을 주고받으며 새로운 아이디어도 얻게 되면서 계속 논문을 쓰고 싶어졌습니다.

논문 RS+EPM (202111~현재)

그때의 논문이 다루었던 주제를 간단하게 소개하자면, 당시에는 아직 segmentation(분할)의 활용도에 대해 회의적인 시각이 많았는데요. 사실, segmentation을 할 수 있다는 것은 웬만한 디텍션은 가능하다는 의미입니다. 사람은 이미지 하나당 247초의 시간이 필요한 segmentation 과정을 RS+EPM은 2초 만에 마무리하기 때문에 시간을 크게 절약할 수 있습니다. 조상현 님의 논문은 그러한 segmentation의 효율성을 부각한 것이었습니다.

RS+EPM은 PASCAL VOC 2012이나 MS COCO 2014 등에서도 그 유용성을 증명해보였고, 최근에는 레이블링 수요가 점차 늘어나면서 올해 발표된 관련 논문만 해도 10편에 이릅니다. 이 논문들은 Paperswithcode에 기재되면서 segmentation의 범용적인 성능을 인정받았으며, 3가지 벤치마크에서도 그 우수성을 입증했습니다. 조상현 님의 다음 목표는 사람이 레이블링할 필요 없이 AI만으로 레이블링이 가능하도록 높은 성능을 구현하는 것이라고 합니다.

AI 발전 방향 예측

콘텐츠 생성(content generation)

잘 알려진 ‘Stable Diffusion(스테이블 디퓨젼)’을 비롯 ‘DALL·E2(달이2)’, ‘NovelAI(노블AI)’, ‘Imagen(이매진)’ 등 여러 인공지능 모델이 나왔고, 콘텐츠도 이미지, 비디오, 오디오 등 다양한 포맷으로 확장되고 있는데요. OpenAI(오픈AI)에서 방대한 규모의 데이터셋을 제공하고 있기에 가능한 일입니다. 국내에서는 카카오브레인에서 데이터셋 Coyo(코요)를 공개하기도 했죠.

다만, 데이터셋의 규모가 거대하다고는 해도 원하는 태그가 데이터셋에 없거나 필요한 목적에 맞지 않기도 한데요. 이럴 때는 사람이 일일이 찾아야 하는데, 그럼 시간과 금전적 비용이 올라가게 됩니다. 또한, 이미지 생성모델은 사회적으로 논란이 되는 지점들도 있는데요. 결과물을 제어할 수 없을뿐더러, 저작권 위반과 폭력성 등의 문제로 인해 최근에는 코드를 공개하지 않는 경우도 많습니다.

효율적인 데이터 학습(Data-efficient Training)

OpenAI에 이어 LAION(라이온)과 Coyo까지, 데이터가 급격히 불어나는 가운데 원하는 태그에 맞춰서 변환하는 비용은 늘어날 수밖에 없는데요. 이 때문에 앞으로는 데이터를 효율적으로 학습하는 방법이 꾸준히 개발될 것으로 예상합니다. 몇 가지 방법을 예를 들자면 아래와 같습니다.

– 대규모 데이터셋 전이학습(transfer)

– 추가적인 Annotation(색인)없이 Self-supervised Learning(자기주도 학습)으로 원하는 결과물 구현

– 태그 정보를 기반으로 Weakly Supervised Semantic Segmentation 문제 해결

– 사람이 Raw Data(미가공 데이터)로 학습을 하는 중간중간에 머신을 업데이트하는 액티브 러닝

윤리 문제(Ethical Issues)

ai-ethics

AI로 인한 윤리 문제가 적지 않은데, 특히 얼굴인식 모델이 편향된 예측을 하는 경우가 많습니다. 이것은 현재의 데이터셋이 모두 편향을 갖고 있기 때문인데요. 다른 클래스와 비교해 특정 클래스와 관련된 이미지나 샘플이 현저하게 많을 때는 예측에서 그러한 편향이 드러나는 것입니다.

예를 들면, 지금까지의 얼굴인식은 대부분 서양인에 맞춰져 있는데요. 특정 인종에 대한 예측 성능이 떨어지게 되면서 윤리 문제가 발생하게 되는 것입니다. AI 모델은 한복과 기모노를 제대로 예측하지 못하기도 하는데, 이는 한복과 기모노와 관련된 데이터셋도 적기 때문입니다.

이렇게 데이터가 저빈도에서 극단값을 보이면서 길게 늘어지다 사라지는 상태를 Long-tailed Distribution(긴꼬리 분포)라고 말하는데요. 데이터셋에서도 특정 태그에 관련된 샘플이 확연히 적어지는 ‘긴꼬리 분포’ 현상을 보여주고 있습니다. 따라서, 앞으로는 이러한 문제점을 극복하기 위한 연구가 활발하게 이뤄질 것으로 예상합니다.

최의진님의 비전공자 AI 공부 일대기

Kaggle in Life

kaggle_Logo

최의진 님은 메가스터디에서 Data Scientist(데이터 사이언티스트)로 재직 중인데요. 2019년 11월부터 2021년 4월까지는 Dacon(데이콘)에서도 Data Scientist로 근무하면서 AI 경진대회를 관리하는 Project Manager(프로젝트 매니저) 직을 맡기도 했습니다.

Conversational AI(대화형 AI)에 관심이 많은 최의진 님은 메가스터디에서 AI Tutor 개발을 위한 여정을 차곡차곡 밟고 나가고 있는데요. 그 과정에서 ASR(Automatic Speech Recognition, 자동음성인식) 모델을 활용한 영상 자동 자막 시스템 연구 개발, OCR(Optical Character Recognition, 광학문자판독) 모델을 활용한 유사 문제 검색 시스템 연구 개발, 그리고 문항 DB를 활용한 초개인화 문제 추천 시스템을 개발하게 됩니다.

음성인식을 더 깊이 연구하기 위해 Kaggle Competitions(캐글경진대회)에서 여러 음성인식 대회에 참여하게 되었는데요. 그중 새소리를 인식하는 대회인 BirdCLEF 2022에서 참여한 807개 팀 중 18위에 오르는 성과를 올리기도 했습니다. Kaggle Competitions에는 최고의 working note(워킹노트)를 제출하는 팀에게 2,500달러의 상금을 지급한다는 조건이 있었는데요. 대회에서 만난 grandmaster(그랜드마스터)로부터 논문을 써보지 않겠냐고 처음 제안을 받았습니다.

비전공자로서 논문을 쓴다는 것이 처음에는 정말 어렵게만 느껴졌는데요. 우선, 논문을 써본 경험이 없는 데다, 생활영어만 익숙했던 상황이라 정말 망막했습니다. 그 외에도, 논문에서 다루고자 하는 내용과 사용할 프로그램부터 목차, 테이블, 인용, 사진 첨부 규칙까지 고민되는 부분이 한둘이 아녔습니다.

다행히 상당 부분은 학회에서 제공하는 templates(견본)과 Overleaf(오버리프)라는 플랫폼으로 해결할 수 있었는데요. 시차를 극복하면서 grandmaster와 힘겹게 논문을 한번 완성하고 나니 자신감도 생기고 논문으로 만들면 좋을 것 같은 프로젝트들이 눈에 보이기 시작했습니다.

그렇게 grandmaster와 맺은 인연은 계속 이어지는데요. 초해상도에 관련된 워크숍이 ECCV(유럽컴퓨터비전학술대회) 2022에서 있었는데, 그곳에서 워크숍의 주최 측인 grandmaster를 다시 만난 것이죠. 그의 제안으로 초해상도 관련 AIM과 Mobile AI&AIM 등 두 경진대회에 참가하게 됐습니다.

경진대회의 주제인 Compressed Input Super-Resolution은 저해상도로 압축된 JPEG 파일로 다시 복원하는 방법을 겨루는 것인데요. SwinIR의 SwinV1 Transformer와 SwinV2 Transformer 등 이미지 복원(Image Restoration) 툴들을 비교하며 Swin2SR이라는 개량된 AI 모델을 제시하는 논문을 내놓게 되었습니다.

논문을 완성하는 과정은 쉽지 않았는데요. 논문에 필요한 많은 백데이터(back data)를 수집하고 성능 테스트, 학습, 리프로덕션, 그리고 JPEG Compression Artifact Reduction, Classical Image Super-Resolution, Lightweight Image Super-Resolution 등 여러 작업(task)을 수행해야만 했습니다.

AI 발전방향 예측

nvidia-omniverse

최의진 님이 다음 프로젝트로 주목하고 있는 것은 Conversation AI와 Metaverse(메타버스)입니다. Nvidia(엔비디아)의 Riva(리바)와 Omniverse(옴니버스)를 중심으로 설명하겠습니다. 미래에는 기본이 될 Conversation AI 분야에서는 Nvidia의 Riva가 음성인식, 챗봇, 음성합성 기술을 기반으로 이끌어나갈 것으로 예상합니다. 서비스에 기본적으로 Conversation AI가 들어가고, 거기에 어떤 logic(로직)을 적용하느냐만 결정하면 되는 형태가 될 것입니다.

반면, Nvidia의 Omniverse는 메타버스 세계를 구현하고 그 안에서 협력을 가능하게 하는 메타버스 솔루션인데요. Unreal(언리얼), Maya(마야), Unity(유니티) 등 어떠한 3D 툴을 썼더라도 Omniverse의 생태계 안에서는 똑같이 사용할 수 있는데, 관련 마이크로서비스로 AI가 접목될 가능성이 높습니다.

Nvidia의 자율주행 시뮬레이션 플랫폼 Drive Sim(드라이브 심), 로봇 시뮬레이션 Isaac Sim(아이작 심), NeRF(너프)를 적용한 Drive Sim, AI Pose(포즈) 등의 예와 같이, 가상의 세계를 Omniverse 안에 만들어주고 그 안에서 시뮬레이션을 돌리면 가상과 현실을 구분하지 못하는 AI에게 테스트에 적합한 환경을 만들어줄 수 있습니다.

 

본 모두팝 프로그램은 모두의연구소 K-디지털 플랫폼의 세미나 입니다.
모두팝은 축적된 지식, 팁, 노하우를 모두에게 공유하고 함께 성장하는 열린 세미나로 매주 화요일 저녁 7시 30분에 강남캠퍼스에서 만날 수 있습니다.
모두의연구소는 고용노동부, 한국산업인력공단과 함께 ‘디지털 융합훈련 Platform’을 구축하여 지역 내 다양한 수요자들에게 디지털 리터러시를 제고하고 누구나 경험하고 성장할 수 있도록 ‘K-디지털 플랫폼’과 함께 합니다.