Artificial Intelligence/Computer Vision
-
[논문리뷰] Coupled Generative Adversarial NetworksArtificial Intelligence/Computer Vision 2021. 7. 25. 05:49
개요 본 논문은 Multi-domain image의 Joint Distribution을 학습하는 문제를 해결하는 방법을 제안하고 있습니다. 이와 같은 학습의 효과로는 도메인 적용 또는 이미지 변환을 기대할 수 있는데요, 다만 기존의 학습 방법들은 다른 도메인에서 대응하는 이미지들을 묶어둔 데이터셋이 필요하다는 한계점이 있었습니다. 이러한 한계점을 극복하고자, CoGAN은 각 도메인의 Marginal Distribution으로부터 뽑아낸 Sample들로 Joint Distribution을 학습하는 방법을 고안해내었습니다. 공식 코드 링크: https://github.com/mingyuliutw/cogan GitHub - mingyuliutw/CoGAN Contribute to mingyuliutw/CoGA..
-
[논문리뷰] From Image to Text in Sentiment Analysis via Regression and DeepLearningArtificial Intelligence/Computer Vision 2021. 5. 25. 21:46
개요 이 논문 이전에는 Image에 대한 description을 만들어내는 연구들이 존재했지만, 객관적인 사실들을 나열하는 데에 그쳤습니다. 이 연구는 이미지에 대한 감성 분석을 바탕으로 특정한 템플릿 없이 Social Network에서 이뤄질만한 주관적인 impression을 generate하는 것을 목적으로 합니다. Training 데이터셋은 (Vadicamo, L et al. 2017.) 논문에서 수집한 twitter post들을 활용하고 있습니다. 해당 연구에서는 LSTM-SVM 모델을 사용해 각 포스트들을 positive, neutral, negative 3가지 감정 분류를 진행했는데요, 본 논문에서는 각 감정별로 10000개의 데이터를 활용했습니다. 추가적으로, input으로 image 데이터..
-
[논문리뷰] DCGAN: UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKSArtificial Intelligence/Computer Vision 2021. 5. 20. 00:34
개요 GAN 시리즈의 2번째 논문, DCGAN입니다. DCGAN은 노이즈가 많고, 학습 결과를 해석하기 어렵다고 일컬어지는 Plain GAN을 CNN 아키텍처를 도입함으로써 이를 안정화시켰다고 알려져 있습니다. 개인적으로 인상적이었던 점은 이 연구의 주안점이 GAN 자체를 발전시키는 것이라기보다 더욱 안정화된 GAN을 사용해 Unsupervised Learning을 보다 효과적으로 하는 데에 있었다는 것입니다. 이 점을 유의해서 논문을 간략하게 살펴보도록 하겠습니다. Approach & Model Architecture CNN 아키텍처를 GAN에 도입하려고 한 시도는 이 논문이 처음이 아니지만, 성공적이지 못했습니다. 그리고 DCGAN 연구진분들 역시 주로 Supervised Task에 사용되는 CNN을..
-
[논문리뷰] Generative Adversarial NetsArtificial Intelligence/Computer Vision 2021. 5. 13. 04:16
개요 딥러닝의 대가인 Ian Goodfellow에 의해 쓰여진 이 논문은 2014년에 NIPS에 발표되어 지금까지 30,000회가 넘는 인용수를 자랑하며 생성 분야에 있어서 새로운 지평을 열었다고 해도 과언이 아닌 성과를 낳았습니다. AlexNet이 ILSVRC에서 우승을 한 것이 2012년이니 딥러닝이 다시 본격적으로 주목받게 된지 시간이 좀 지난 후였습니다만, 아쉽게도 딥러닝은 아직 그 저력을 분류 모델에서만 보인 상태였습니다. Maximum Likelihood Estimation(MLE) 등에서 발생하는 확률 연산들을 근사하는 것, 생성의 관점에서 개별적인 선형 데이터들로부터 얻을 수 있는 이득을 극대화하는 것이 어려웠기 때문입니다. 이러한 한계점을 저자는 새로운 데이터를 만들어내는 Generato..
-
[코드리뷰] StarGANArtificial Intelligence/Computer Vision 2021. 5. 4. 18:09
지난번에는 StarGAN 논문을 훑어보며 StarGAN이 어떻게 여러 도메인 간의 translation을 하나로 통합하여 학습하며 그것이 어떻게 더 좋은 결과를 가져오는지를 살펴보았습니다. 수식 등을 통하여 이론적으로 어느 정도 파악했으니, 코드를 살펴봄으로써 어떻게 각 이론들을 실제로 구현하였는지 알아보는 것이 매우 큰 도움이 되리라 봅니다. 공식 코드 출처는 다음과 같습니다. https://github.com/yunjey/stargan yunjey/stargan StarGAN - Official PyTorch Implementation (CVPR 2018) - yunjey/stargan github.com DataLoader def get_loader(image_dir, attr_path, selec..
-
[논문리뷰] StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image TranslationArtificial Intelligence/Computer Vision 2021. 3. 30. 07:27
개요 기존의 GAN 기반 Image-to-Image Translation 모델들은 domain을 바꿀 때마다 해당 translation에 대한 모델을 가지고 있어야 했습니다. 예를 들어 blond hair와 black hair라는 두 domain에 대해 학습할 때, blond에서 black으로 바꾸는 모델과 black에서 blond로 바꾸는 모델이 별개로 존재한단 이야기입니다. 때문에 k개의 도메인을 가지고 있을 때에 k(k - 1)개의 translation model을 가지게 되며, 이는 데이터를 충분히 활용하지 못하는 동시에 parameter 수를 불필요하게 늘리는 결과를 낳았습니다. StarGAN은 이러한 점에 착안해 서로 다른 domain 간의 translation을 단 하나의 모델로도 가능하도록..
-
[논문리뷰] CRAFT: Character Region Awareness for Text DetectionArtificial Intelligence/Computer Vision 2021. 3. 21. 06:15
개요 이 논문은 Scene Text Detection Task에서 bounding box가 직사각형 모양이 아닌 경우들에 있어서 기존의 모델들이 가지고 있었던 한계점을 돌파하는 데에 그 주안점을 두고 있습니다. 바로 word level이 아니라 character level로 detect한 후 character들 간의 관계를 찾는 방식인데요, 개인적으로 주어진 데이터셋에 문제해결방식을 맞추는 것이 아니라 문제해결방식에 데이터셋을 맞추는 인상을 받아 놀라웠습니다. 그럼 어떻게 ClovaAI가 풀어나갔는지 간단히 살펴보도록 하겠습니다. 이 포스팅에서 첨부하는 이미지 및 코드는 아래 링크들로부터 가져왔음을 밝힙니다. 코드: https://github.com/clovaai/CRAFT-pytorch 논문: http..
-
[논문리뷰] FaceForensics++: Learning to Detect Manipulated Facial ImagesArtificial Intelligence/Computer Vision 2021. 3. 10. 04:26
개요 이 논문은 당시 명확하고 사용성이 좋은 SOTA method를 제시했을 뿐만 아니라, 1000개의 영상으로 부터 추출된 180만 장 이상의 이미지 데이터셋, 그리고 자동화된 탐지 성능 벤치마크를 온라인으로 제공함으로써 DeepFake Detection Task 분야의 초석을 다진 논문으로, ICCV 2019에 등재되었습니다. 각각에 대한 링크는 다음과 같습니다. 코드: github.com/ondyari/FaceForensics/ 벤치마크: kaldir.vc.in.tum.de/faceforensics_benchmark/ 데이터셋: github.com/ondyari/FaceForensics/blob/master/dataset/README.md 참조 (구글폼 작성 후 링크 받는 방식) Face Manip..