ClovaAI
-
[논문리뷰] StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image TranslationArtificial Intelligence/Computer Vision 2021. 3. 30. 07:27
개요 기존의 GAN 기반 Image-to-Image Translation 모델들은 domain을 바꿀 때마다 해당 translation에 대한 모델을 가지고 있어야 했습니다. 예를 들어 blond hair와 black hair라는 두 domain에 대해 학습할 때, blond에서 black으로 바꾸는 모델과 black에서 blond로 바꾸는 모델이 별개로 존재한단 이야기입니다. 때문에 k개의 도메인을 가지고 있을 때에 k(k - 1)개의 translation model을 가지게 되며, 이는 데이터를 충분히 활용하지 못하는 동시에 parameter 수를 불필요하게 늘리는 결과를 낳았습니다. StarGAN은 이러한 점에 착안해 서로 다른 domain 간의 translation을 단 하나의 모델로도 가능하도록..
-
[논문리뷰] CRAFT: Character Region Awareness for Text DetectionArtificial Intelligence/Computer Vision 2021. 3. 21. 06:15
개요 이 논문은 Scene Text Detection Task에서 bounding box가 직사각형 모양이 아닌 경우들에 있어서 기존의 모델들이 가지고 있었던 한계점을 돌파하는 데에 그 주안점을 두고 있습니다. 바로 word level이 아니라 character level로 detect한 후 character들 간의 관계를 찾는 방식인데요, 개인적으로 주어진 데이터셋에 문제해결방식을 맞추는 것이 아니라 문제해결방식에 데이터셋을 맞추는 인상을 받아 놀라웠습니다. 그럼 어떻게 ClovaAI가 풀어나갔는지 간단히 살펴보도록 하겠습니다. 이 포스팅에서 첨부하는 이미지 및 코드는 아래 링크들로부터 가져왔음을 밝힙니다. 코드: https://github.com/clovaai/CRAFT-pytorch 논문: http..
-
[논문리뷰] SATRN: On Recognizing Text of Arbitrary Shapes with 2D Self-AttentionArtificial Intelligence/Computer Vision 2020. 9. 13. 22:28
최근에 OCR (Optical Character Recognition)을 공부하며 관련 논문들을 읽고 있는데요, Clova AI에서 최근에 관련 논문을 내주셨다고 해서 읽어보게 되었습니다. 감사하게도 코드를 오픈소스로 공개해주시고 자료가 잘 정리되어 있어서 공부에 많은 도움이 되었습니다. 이 글의 내용은 상기 논문의 내용 및 이미지를 참고했음을 밝힙니다. 기존 방식의 문제점 Scene Text Recognition (STR)은 자연 상태의 이미지에서 주어진 텍스트의 내용을 알아내는 기술입니다. 이 과정에서 이미지의 특징을 추출하는 데에 CNN을 사용하고, Seq2Seq 구조의 RNN을 사용하여 순차적인 의존성을 파악하고, 그에 따른 문자열을 생성해내는 것이 기본 골자입니다. 기존의 방법은 입력 텍스트가 ..