컴퓨터 비전 활용 분야
컴퓨터 비전 분야는 기존의 통계적 방법에서 딥러닝 신경망 방법으로 전환되고 있습니다. 비록 여전히 해결해야 할 많은 도전 과제가 존재하지만, 딥러닝 방법은 특정 문제에서 최첨단 결과를 달성하고 있습니다.
원문: 9 Applications of Deep Learning for Computer Vision – MachineLearningMastery.com
컴퓨터 비전 분야는 기존의 통계적 방법에서 딥러닝 신경망 방법으로 전환되고 있습니다. 비록 여전히 해결해야 할 많은 도전 과제가 존재하지만, 딥러닝 방법은 특정 문제에서 최첨단 결과를 달성하고 있습니다. 딥러닝 모델의 벤치마크 문제에서의 성능뿐만 아니라, 단일 모델이 이미지를 통해 의미를 학습하고 비전 작업을 수행할 수 있다는 사실이 더욱 흥미롭습니다. 이는 전문적이고 수작업으로 설계된 방법들의 파이프라인을 필요로 하지 않게 만듭니다.
여기서는 딥러닝 방법이 일부 진전을 이루고 있는 아홉 가지 흥미로운 컴퓨터 비전 작업을 소개합니다.
그럼 시작해 봅시다.
컴퓨터 비전 활용 분야
딥러닝이 사용된 여러 컴퓨터 비전 문제를 살펴보겠습니다:
- 1. 이미지 분류 (Image Classification)
- 2. 위치 지정과 함께 하는 이미지 분류 (Image Classification with Localization)
- 3. 객체 검출 (Object Detection)
- 4. 객체 분할 (Object Segmentation)
- 5. 이미지 스타일 전환 (Image Style Transfer)
- 6. 이미지 색상화 (Image Colorization)
- 7. 이미지 복원 (Image Reconstruction)
- 8. 이미지 초해상도 (Image Super-Resolution)
- 9. 이미지 합성 (Image Synthesis)
- 10. 기타 문제들
이미지 분류(인식) 작업의 경우 ILSVRC의 명명 규칙이 채택되었습니다. 이 작업들은 이미지에 중점을 두고 있지만, 비디오의 프레임에도 일반화할 수 있습니다.
딥러닝이 잘 수행되는 더 학문적인 하위 문제들보다는 사용자가 관심을 가질 만한 실질적인 문제 유형에 초점을 맞추려고 했습니다. 각 예제는 문제 설명, 예제, 그리고 방법과 결과를 입증하는 논문 참고 자료를 제공합니다.
컴퓨터 비전 활용 분야 1 – 이미지 분류 (Image Classification)
이미지 분류는 전체 이미지나 사진에 레이블을 할당하는 작업을 의미합니다. 이 문제는 “객체 분류 (object classification)” 또는 “이미지 인식 (image recognition)”이라고도 불리며, 후자의 경우 이미지를 분류하는 것과 관련된 더 넓은 범위의 작업에 적용될 수 있습니다.
이미지 분류 예시
- 엑스레이를 암으로 진단하거나 그렇지 않다고 분류 (이진 분류).
- 손으로 쓴 숫자를 분류 (다중 클래스 분류).
- 얼굴 사진에 이름을 할당 (다중 클래스 분류).
인기 있는 데이터셋
- MNIST 데이터셋: 벤치마크 문제로 사용되는 손글씨 숫자 이미지 분류.
- SVHN 데이터셋: 실생활에서 손글씨 숫자 사진을 분류하는 데이터셋.
- CIFAR-10: 10개의 클래스에 대해 사진을 분류하는 데이터셋.
- CIFAR-100: 100개의 클래스에 대해 사진을 분류하는 데이터셋.
이미지 분류 작업 관련 논문과 결과를 모아놓은 웹페이지:
ILSVRC 대회
ILSVRC (Large Scale Visual Recognition Challenge)는 매년 열리는 대회로, 팀들이 ImageNet 데이터베이스에서 추출된 데이터를 사용하여 다양한 컴퓨터 비전 작업에서 최고의 성능을 목표로 경쟁합니다. 이 대회에서 발표된 논문들은 이미지 분류의 중요한 발전에 기여했습니다. 대표적인 논문으로는 다음과 같습니다:
- ImageNet Classification With Deep Convolutional Neural Networks (2012)
- Very Deep Convolutional Networks for Large-Scale Image Recognition (2014)
- Going Deeper with Convolutions (2015)
- Deep Residual Learning for Image Recognition (2015)
컴퓨터 비전 활용 분야 2 – 이미지 분류와 위치 지정 (Image Classification with Localization)
이미지 분류와 위치 지정 작업은 이미지에 클래스 레이블을 할당하고, 이미지 내 객체의 위치를 경계 상자(bounding box)로 표시하는 것입니다. 이는 단순한 이미지 분류보다 더 어려운 문제입니다.
이미지 분류와 위치 지정 예시
- 엑스레이를 암으로 분류하고 암이 있는 부위에 상자를 그리는 것.
- 동물 사진을 분류하고 각 장면에서 동물 주위에 상자를 그리는 것.
주요 데이터셋
- PASCAL VOC (Visual Object Classes): 이 데이터셋은 수년간 컴퓨터 비전 챌린지에서 사용되었습니다. 예를 들어 VOC 2012는 이미지 분류와 위치 지정 작업을 위한 고전적인 데이터셋입니다.
- ILSVRC2016: 이 데이터셋은 15만 장의 사진으로 구성되어 있으며, 1,000개의 객체 카테고리를 포함하고 있습니다.
이 작업은 이미지 내 동일 객체의 여러 예제 주위에 경계 상자를 추가하는 것을 포함할 수 있습니다. 따라서 이 작업은 “객체 검출”이라고도 불릴 수 있습니다.
관련 논문
이미지 분류와 위치 지정 작업에 대한 중요한 논문들은 다음과 같습니다:
- Selective Search for Object Recognition (2013)
- Rich feature hierarchies for accurate object detection and semantic segmentation (2014)
- Fast R-CNN (2015)
컴퓨터 비전 활용 분야 3 – 객체 검출 (Object Detection)
객체 검출은 이미지 분류와 위치 지정 작업을 포함하지만, 이미지에 여러 객체가 있는 경우 이를 모두 검출하고 분류해야 합니다. 이는 단순한 이미지 분류나 이미지 분류와 위치 지정보다 더 어려운 작업입니다.
객체 검출 예시
- 거리 장면에서 각 객체 주위에 경계 상자를 그리며 레이블을 지정.
- 실내 사진에서 각 객체 주위에 경계 상자를 그리며 레이블을 지정.
- 풍경 사진에서 각 객체 주위에 경계 상자를 그리며 레이블을 지정.
주요 데이터셋
- PASCAL VOC: 객체 검출 작업을 위한 고전적인 데이터셋으로, 예를 들어 VOC 2012가 있습니다.
- MS COCO (Microsoft Common Objects in Context): 여러 컴퓨터 비전 작업을 위한 데이터셋으로 자주 사용됩니다.
관련 논문
객체 검출에 대한 중요한 논문들은 다음과 같습니다:
- OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks (2014)
- Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks (2015)
- You Only Look Once: Unified, Real-Time Object Detection (2015)
컴퓨터 비전 활용 분야 4 – 객체 분할 (Object Segmentation)
객체 분할, 또는 의미론적 분할(semantic segmentation)은 이미지 내에서 객체를 검출하고, 각 객체 주위에 선을 그려 경계를 표시하는 작업입니다. 이는 단순히 경계 상자를 그리는 객체 검출과 달리, 객체에 속하는 특정 픽셀을 식별합니다. 이는 세밀한 위치 지정 작업이라고 할 수 있습니다.
객체 분할 예시
- 거리 장면에서 각 객체 주위에 경계를 그리는 작업.
- 실내 사진에서 각 객체 주위에 경계를 그리는 작업.
주요 데이터셋
- PASCAL VOC: 객체 분할 작업을 위한 고전적인 데이터셋으로, 예를 들어 VOC 2012가 있습니다.
- MS COCO (Microsoft Common Objects in Context): 여러 컴퓨터 비전 작업을 위한 데이터셋으로 자주 사용됩니다.
- KITTI Vision Benchmark Suite: 자율 주행 차량 모델을 훈련시키기 위해 거리 이미지를 제공하는 객체 분할 데이터셋입니다.
관련 논문
- Simultaneous Detection and Segmentation (2014)
- Fully Convolutional Networks for Semantic Segmentation (2015)
- Hypercolumns for Object Segmentation and Fine-grained Localization (2015)
- SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation (2016)
- Mask R-CNN (2017)
이러한 논문들은 객체 분할과 세밀한 위치 지정을 위한 기술적 발전을 다루고 있으며, 딥러닝을 사용한 객체 분할 작업의 효율성을 보여줍니다. 특히, Mask R-CNN은 객체 검출과 분할을 동시에 수행하는 강력한 모델로 평가받고 있습니다.
컴퓨터 비전 활용 분야 5 – 스타일 전이 (Style Transfer)
스타일 전이, 또는 신경 (neural) 스타일 전이는 한 장 이상의 이미지에서 스타일을 학습하고 그 스타일을 새로운 이미지에 적용하는 작업입니다. 이는 사진 필터 또는 변환의 한 종류로 생각할 수 있으며, 객관적인 평가 기준이 없을 수도 있습니다.
스타일 전이 예시
- 파블로 피카소나 빈센트 반 고흐와 같은 유명 예술 작품의 스타일을 새로운 사진에 적용하는 것.
데이터셋
스타일 전이를 위한 데이터셋에는 퍼블릭 도메인에 있는 유명 예술 작품과 표준 컴퓨터 비전 데이터셋에서 가져온 사진들이 사용됩니다.
관련 논문
- A Neural Algorithm of Artistic Style (2015)
- Image Style Transfer Using Convolutional Neural Networks (2016)
이 논문들은 신경망을 사용하여 예술 작품의 스타일을 새로운 이미지에 적용하는 방법을 다루고 있습니다. 특히, “A Neural Algorithm of Artistic Style” 논문은 스타일 전이의 대표적인 예제로 많이 언급됩니다. 이 방법을 통해 예술 작품의 고유한 스타일을 다른 이미지에 창의적으로 적용할 수 있습니다.
컴퓨터 비전 활용 분야 6 – 이미지 색상화 (Image Colorization)
이미지 색상화, 또는 신경 색상화는 흑백 이미지를 전체 색상 이미지로 변환하는 작업을 의미합니다. 이는 사진 필터 또는 변환의 한 종류로 생각할 수 있으며, 객관적인 평가 기준이 없을 수도 있습니다.
이미지 색상화 예시
- 오래된 흑백 사진과 영화에 색상을 입히는 작업.
데이터셋
이미지 색상화를 위한 데이터셋은 기존의 사진 데이터셋을 사용하여 생성된 흑백 버전의 사진들을 포함합니다. 모델은 이러한 흑백 사진을 학습하여 색상을 입히도록 훈련됩니다.
관련 논문
이미지 색상화에 대한 중요한 논문들은 다음과 같습니다:
- Colorful Image Colorization (2016)
- Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification (2016)
- Deep Colorization (2016)
이 논문들은 신경망을 사용하여 흑백 이미지를 자동으로 색상화하는 방법을 다루고 있습니다. 특히, “Colorful Image Colorization” 논문은 색상화 작업의 대표적인 예제로 많이 언급됩니다. 이 방법을 통해 오래된 흑백 이미지에 생동감 있는 색상을 입혀 현대적으로 재해석할 수 있습니다.
컴퓨터 비전 활용 분야 7 – 이미지 복원 (Image Reconstruction)
이미지 복원 및 이미지 인페인팅(inpainting)은 이미지의 손실되거나 손상된 부분을 채우는 작업입니다. 이는 사진 필터 또는 변환의 한 종류로 생각할 수 있으며, 객관적인 평가 기준이 없을 수도 있습니다.
이미지 복원 예시
- 오래된 흑백 사진이나 영화의 손상된 부분을 복원하는 작업 (예: 사진 복원).
데이터셋
이미지 복원을 위한 데이터셋은 기존의 사진 데이터셋을 사용하여 손상된 버전의 사진들을 포함합니다. 모델은 이러한 손상된 사진을 학습하여 복원하도록 훈련됩니다.
관련 논문
이미지 복원에 대한 중요한 논문들은 다음과 같습니다:
- Pixel Recurrent Neural Networks (2016)
- Image Inpainting for Irregular Holes Using Partial Convolutions (2018)
- Highly Scalable Image Reconstruction using Deep Neural Networks with Bandpass Filtering (2018)
이 논문들은 신경망을 사용하여 이미지의 손실된 부분을 채우고 복원하는 방법을 다루고 있습니다. 특히, “Image Inpainting for Irregular Holes Using Partial Convolutions” 논문은 불규칙한 형태의 구멍을 부분 합성곱을 사용해 복원하는 방법을 제안하며, 이미지 복원 작업의 대표적인 예제로 많이 언급됩니다. 이러한 기술을 통해 손상된 이미지나 사진을 원래의 상태로 복원할 수 있습니다.
컴퓨터 비전 활용 분야 8 – 이미지 초해상도 (Image Super-Resolution)
이미지 초해상도는 원래 이미지보다 더 높은 해상도와 세부 사항을 가진 새로운 버전을 생성하는 작업입니다.
이 작업은 종종 이미지 복원과 인페인팅과 관련된 문제를 해결하기 위해 사용될 수 있습니다.
이미지 초해상도 예시
- 저해상도 이미지를 고해상도로 변환하는 작업.
데이터셋
이미지 초해상도를 위한 데이터셋은 기존의 사진 데이터셋을 사용하여 축소된 버전의 사진들을 포함합니다. 모델은 이러한 축소된 사진을 학습하여 고해상도 버전을 생성하도록 훈련됩니다.
관련 논문
이미지 초해상도에 대한 중요한 논문들은 다음과 같습니다:
- Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network (2017)
- Deep Laplacian Pyramid Networks for Fast and Accurate Super-Resolution (2017)
- Deep Image Prior (2017)
이 논문들은 신경망을 사용하여 저해상도 이미지를 고해상도로 변환하는 방법을 다루고 있습니다. 특히, “Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network” 논문은 GAN을 사용하여 사진 실감형 단일 이미지 초해상도를 구현한 방법을 제안하며, 이미지 초해상도 작업의 대표적인 예제로 많이 언급됩니다. 이러한 기술을 통해 원본보다 훨씬 더 세밀하고 높은 해상도의 이미지를 생성할 수 있습니다.
컴퓨터 비전 활용 분야 9 – 이미지 합성 (Image Synthesis)
이미지 합성은 기존 이미지의 특정한 수정이나 완전히 새로운 이미지를 생성하는 작업입니다. 이 분야는 매우 넓고 빠르게 발전하고 있습니다.
이미지 합성 예시
이미지나 비디오의 작은 수정 작업을 포함할 수 있습니다. 예를 들어, 이미지-투-이미지 변환:
- 장면 내 객체의 스타일 변경.
- 장면에 객체 추가.
- 장면에 얼굴 추가.
주요 데이터셋
- CycleGAN (Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks): 예를 들어, 얼룩말과 말을 서로 스타일링하는 작업.
- DCGAN (Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks): 예를 들어, 새로운 욕실을 생성하는 작업.
완전히 새로운 이미지 생성 예시
- 얼굴 생성.
- 욕실 생성.
- 옷 생성.
관련 논문
이미지 합성에 대한 중요한 논문들은 다음과 같습니다:
- Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks (2015)
- Conditional Image Generation with PixelCNN Decoders (2016)
- Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (2017)
이 논문들은 신경망을 사용하여 이미지-투-이미지 변환 및 새로운 이미지 생성을 다루고 있습니다. 특히, GAN(Generative Adversarial Networks)을 사용한 방법들은 이미지 합성 작업의 대표적인 예제로 많이 언급되며, 창의적이고 실감나는 이미지 생성을 가능하게 합니다.
컴퓨터 비전 활용 분야 10 – 기타 문제
다루지 않은 중요한 문제들도 있지만, 이들은 순수한 컴퓨터 비전 작업이 아니기 때문에 포함되지 않았습니다.
주목할 만한 예시
- 이미지 캡셔닝 (Image Captioning): 이미지의 텍스트 설명을 생성하는 작업입니다. (예시 논문: Show and Tell: A Neural Image Caption Generator, 2014.)
- 이미지 설명 (Image Describing): 이미지의 각 객체에 대한 텍스트 설명을 생성하는 작업입니다. (예시 논문: Deep Visual-Semantic Alignments for Generating Image Descriptions, 2015.)
- 텍스트에서 이미지로 (Text to Image): 텍스트 설명을 기반으로 이미지를 합성하는 작업입니다. (예시 논문: AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks, 2017.)
이러한 작업들은 이미지와 오디오와 같은 다른 모달리티 사이를 매핑하는 학습을 포함할 수도 있습니다.
추가 자료
더 깊이 있는 연구를 위해 다음 자료들을 참고할 수 있습니다.
서베이 논문
- Object Detection with Deep Learning: A Review (2018).
- A Survey of Modern Object Detection Literature using Deep Learning (2018).
- A Survey on Deep Learning in Medical Image Analysis (2017).
데이터셋
- MNIST Dataset
- The Street View House Numbers (SVHN) Dataset
- ImageNet Dataset
- Large Scale Visual Recognition Challenge (ILSVRC)
- ILSVRC2016 Dataset
- The PASCAL Visual Object Classes Homepage
- MS COCO Dataset.
- The KITTI Vision Benchmark Suite
기사
- What is the class of this image?
- The 9 Deep Learning Papers You Need To Know About (Understanding CNNs Part 3)
- GAN paper list and review
- A 2017 Guide to Semantic Segmentation with Deep Learning.
참고문헌