Artificial Intelligence/Computer Vision

[논문리뷰] Coupled Generative Adversarial Networks

oranz.23 2021. 7. 25. 05:49

개요

    본 논문은 Multi-domain image의 Joint Distribution을 학습하는 문제를 해결하는 방법을 제안하고 있습니다. 이와 같은 학습의 효과로는 도메인 적용 또는 이미지 변환을 기대할 수 있는데요, 다만 기존의 학습 방법들은 다른 도메인에서 대응하는 이미지들을 묶어둔 데이터셋이 필요하다는 한계점이 있었습니다. 이러한 한계점을 극복하고자, CoGAN은 각 도메인의 Marginal Distribution으로부터 뽑아낸 Sample들로 Joint Distribution을 학습하는 방법을 고안해내었습니다.

 

공식 코드 링크: https://github.com/mingyuliutw/cogan

 

GitHub - mingyuliutw/CoGAN

Contribute to mingyuliutw/CoGAN development by creating an account on GitHub.

github.com

 

모델

CoGAN 모델 구조

    CoGAN은 GAN의 기본적인 Discriminator-Generator 구조를 따르고 있으며, 각 Domain마다 Generator와 Discrimator의 pair를 설정합니다. 그리고 Generator는 초반부 layer들이 high level, 후반부 layer들이 low level semantics를 학습하게 되고 반대로 Discriminator의 경우 초반부 layer들이 low level, 후반부 layer들이 high level semantics를 학습하게 된다는 관찰 결과에 착안하여, 대응하는 이미지들이 high-level concept을 공유한다는 가설을 바탕으로 Generator와 Discriminator에서 각각 high level을 담당하는 부분의 weight을 공유하게 됩니다. 이 때, Generator에서 마지막 layer와 Discriminator에서 첫 layer의 weight은 절대 공유하지 않으며, 총 몇 개의 layer를 공유할지는 hyperparameter로써, grid search를 수행했다고 밝히고 있습니다.  이에 따라 CoGAN은 다음과 같은 minmax function과 value function을 따르게 됩니다.

 

minmax function과 value function

실험

Digits Task

    숫자에 관련하여 두 가지 task를 진행했습니다. MNIST 숫자 이미지와 그것의 edge image / MNIST 숫자 이미지와 그것의 반전 이미지로 구성되어 있습니다. 이러한 2가지의 도메인이 있는 각 task에서 Generator로 corresponding image를 만들어내고 real corresponding image와의 pixel agreement ratio를 측정하였습니다. 공유하는 layer의 개수를 기준으로 그래프를 그렸을 때 다음과 같은 결과를 확인할 수 있습니다. 이 때 Generator는 총 5개의 convolutional layer로 구성되어 있으며, Discriminator는 LeNet 구조를 취하고 있습니다. 

    논문 저자들은 이와 같이 데이터셋에서 짝을 짓지 않고 학습하는 방식이 처음이기 때문에 기존의 Multi-Domain model과 비교하지 않고, Conditional GAN과 비교를 하는 방식을 취했다고 밝히고 있습니다. 이에 따라 위의 두 task를 시행하고 pixel agreement ratio를 비교해봤을 때, edge image를 만들어내는 Task A에서는 CoGAN이 0.952, CGAN이 0.909를 보였으며, Task B에서는 CoGAN이 0.967, CGAN이 0.778을 보임으로써 더 좋은 성능을 나타내는 것을 확인할 수 있었다고 합니다.

    이외에도 Face, RGBD 이미지들에 대해서 실험을 진행하였으며, 다음과 같은 결과를 확인할 수 있었습니다.

Face
Color & Depth

 

결론

    CoGAN은 별도의 corresponding image dataset을 생성하지 않아도 Multi-Domain task를 수행할 수 있는 모델을 제안했다는 점에서 그 의의가 있습니다. 실제로 하나하나 corresponding image를 제작하는 것은 굉장히 비용 부담이 큰 작업이기 때문에 이러한 연구는 충분히 의미가 있는 것으로 보입니다. 단지 한 Domain 내의 adaptation 문제만이 아니라 Domain 간의 transformation에도 효과를 보임으로써

이후의 연구들에 새로운 방향을 제시하였습니다.