-
CLIP - 논문 리뷰
안녕하세요 이번에 다룰 논문은 CLIP입니다! 논문 전체 이름은 Learning Transferable Visual Models From Natural Language Supervision target으로 GPT와 같이 자연어 분야에서 이뤄지던 대규모 데이터를 사용해 pre-training 후 다양한 task로 zero-shot transfer를 실험한 것으로 유명합니다. 여러 Diffusion 모델에서 이미지를 임베딩할 때는 다들 CLIP 모델을 사용하길래 알게 되어서 논문을 살펴보게 되었습니다. 어떤 구조와 특징을 가지고 있길래 모두 CLIP 모델을 사용하는지 지금부터 살펴보게 되었습니다:eyes... Read More
-
NeRF - 논문 리뷰
이번 논문은 NeRF: Representing Scenes as Nueral Radiance Fields for View Synthesis 입니다! 논문 이름에서도 볼 수 있듯이 NeRF는 Neural Radiance Fields를 줄임말로 2D 이미지를 입력으로 주었을 때 마치 3D를 보는 것처럼 다른 시점에서 본 입력 이미지를 생성하는 View Synthesis task를 다룹니다. 모델은 MLP 형식으로 단순한 구조로 3D scene representation을 성공한 것으로도 유명합니다. 처음으로 3D 관련 논문을 보게 되었는데, 생소한 단어가 많았습니다 정의하는 부분을 제 나름대로 정리했는... Read More
-
FUNIT - 논문 리뷰
이번 논문은 FUNIT이라 불리는 Few-shot Unsupervised Image-to-Image Translation입니다 Unsupervised image-to-image translation 모델들의 단점인 특정 클래스에 대한 입력을 수행하기 위해서는 해당 클래스에 대한 수많은 데이터셋을 학습하는 것을 해결하고자, FUNIT은 few-shot을 적용해 새로운 클래스의 이미지 단 몇장으로도 가능한 이미지 변환을 제안합니다. 또한 Few-shot unsupervised image-to-image translation task뿐만 아니라 few-shot classification task와 기존의... Read More
-
BigGAN - 논문 리뷰
이번 논문은 Large Scale GAN Training for High Fidelity Natural Image Synthesis로 BigGAN이라 불리는 논문입니다. BigGAN이란 이름에서도 Big을 쓰는만큼 나타내는 것처럼 BigGAN은 기존 GAN의 파라미터의 2~4배의 파라미터를 가지고 있으며 batchsize를 8배 이상 키운 것이 특징입니다. 이를 통해 ImageNet의 128x128 해상도에서 Inception Score(IS) Fréchet Inception Distance(FID)를 각각 166.5와 7.4로 이전 글인 SAGAN의 IS인 52.52와 FID 18.65를 넘어서는 class-c... Read More
-
SAGAN - 논문 리뷰
이번 논문은 self-attention을 Generative model에 적용한 SAGAN(Self-Attention Generative Adversarial Network)입니다. 사실 BIGGAN 논문을 보다 해당 논문이 SAGAN 모델을 바탕으로 한 걸 알게 되어서 SAGAN를 먼저 하게 되었습니다ㅎㅅㅎ Self-Attention Generative Adversarial Network(SAGAN)은 convolution을 self-attention으로 대체해 long-range dependency 모델링이 가능하도록 제안된 모델입니다. 또한 spectral normalization과 TTUR을 사용해 Inc... Read More
-
GANimation(1) - 논문 리뷰
안녕하세요! 이번 글은 이미지의 표정을 해부학적으로 의미있고 연속적으로 변환할 수 있어 표정 애니메이션을 만들 수 있어 GANimation이라 불리는 GANimation: Anatomically-aware Facial Animation from a Single Image 논문에 대해 살펴보겠습니다. 소개 Generative Adversarial Network는 발전하며 StarGAN과 같은 구조로 많은 발전이 이루어졌습니다. 나이, 머리색, 성별과 같이 여러 얼굴 속성을 변경할 수 있는 StarGAN은 데이터셋에 정의된 속성으로만 입력 이미지를 변환할 수 있으며 연속적인 변환이 불가능합니다. 예시로 RaF... Read More
-
MUNIT(2) - 논문 구현
이전 글인 MUNIT(1) - 논문 리뷰에 이은 MUNIT 코드 구현입니다! 얼레벌레 우당탕탕 구현기임을 감안해주세요 ㅎㅅㅎ… 논문의 공식 코드는 github에서 제공되고 있습니다. 1. 데이터셋 Fig.6. Animal image 변환의 결과 (MUNIT 논문) 논문에서 사용된 데이터 셋은 Edges $\leftrightarrow$ shoes/handbas, Animal image translation, Street scene images, Yosemete summer $\leftrightarrow$ winter가 있는데, 저는 그 중에서 Animal Translation dataset... Read More
-
MUNIT(1) - 논문 리뷰
이번 논문은 MUNIT(Multimodal Unsupervised Image-to-Image Translation) 입니다. multi-domain을 다뤘던 StarGAN에서 multi-modal을 다루는 MUNIT으로 넘어왔습니다. VAE-GAN을 사용하는 것이 특징으로 multi-modal 능력을 확인하기 위해 LPIPS, CIS를 사용해 모델의 성능을 측정해 좋은 성능을 증명했습니다. 모델의 구조부터 결과까지 하나하나 살펴보겠습니다:) 소개 Figure 1. MUNIT 그림 예시. (a)각 도메인 $\mathcal{X}_i$의 이미지는 공유 콘텐츠 공간 $\mathcal{C... Read More
-
StarGAN(2) - 논문 구현
StarGAN(1) - 논문 리뷰에 이은 StarGAN 논문 구현 글입니다! StarGAN의 공식 코드는 Github에서 확인하실 수 있습니다. 1. 데이터 셋 논문에서는 The CelebFaces Attributes dataset(CelebA)와 The Radboud Faces Database(RaFD)를 사용해 다중 데이터셋을 사용하는 모델을 구현했습니다. 이 중 RaFD는 대학에서 일하는 연구자임을 연구실 웹페이지 또는 최근 논문들을 이메일을 통해 보여주고 데이터를 얻을 수 있습니다. 저는 소속이 없으니 쿨하게 RaFD 데이터셋 사용을 포기했습니다 하지만 다중 데이터셋을 사용한 모델을 만들... Read More
-
StarGAN(1) - 논문 리뷰
이번 논문은 StarGAN입니다! 이전까지 논문 리뷰는 논문 번역을 하고 중요한 내용이나 수식 부분을 제 나름대로 정리한 걸 추가한 방식이였다면 이번 글부터는 논문 자체를 번역하기보다는 전체적인 내용을 요약하고 중요한 부분을 설명하는 방식으로 바꿔볼까 합니다. 그럼 시작하겠습니다 소개 Figure 1. RaFD 데이터셋에서 학습한 지식을 CelebA 데이터셋에 적용한 다중 도메인 이미지 간 변환 결과. Multi-domain image-to-image 변환 모델인 StarGAN입니다. 이전까지 포스팅했던 생성 모델 논문들은 2개의 도메인을 사용했었고 그 사이만 변환이 가능했었습... Read More
-
CycleGAN(2) - 논문 구현
pix2pix의 논문 구현 글로 이전 글인 CycleGAN(1) - 논문 리뷰의 논문의 내용을 따라 구현해 Pix2Pix와 비교해보겠습니다:) 공식 코드로는 Pytorch와 Torch가 있습니다. 1. 데이터 셋 이전 글이였던 pix2pix와 성능과 비교해보고자 이전의 pix2pix에서 사용했던 CMP Facade 데이터 셋을 사용했습니다. pix2pix 논문에서는 random jitter와 mirroring을 사용했다는 말이 있었지만 CycleGAN에는 씌여있지 않아 augmentation은 적용하지 않았으며 resize와 normalize만 적용했습니다. class Facade(Dataset): ... Read More
-
CycleGAN(1) - 논문 리뷰
소개 이번 글은 CycleGAN 논문 리뷰입니다! 기본적으로는 논문의 내용을 이해하기 위한 논문 번역을 적고 간단한 내용 요약과 추가 설명이 필요하다 생각되는 세션에는 [정리]로 설명을 적겠습니다. Abstract Image-to-Image 변환은 비전과 그래픽스 분야의 해결 과제 중 하나로 페어 이미지를 학습해 입력 이미지와 출력 이미지 사이의 매핑을 학습하는 것입니다. 하지만 많은 과제들에서 페어 이미지로 이루어진 학습 데이터를 사용할 수 없습니다. 우리는 페어 이미지의 데이터가 없는 경우 도메인 $X$에서 도메인 $Y$로 변환하는 방법을 학습하기 위한 접근 방식을 제안... Read More
-
Pix2Pix(2) - 논문 구현
pix2pix의 논문 구현 글로 이전 글인 Pix2Pix(1) - 논문 리뷰의 논문의 내용을 따라 구현해 보았습니다. 가능한 작은 데이터셋으로 논문을 구현하고 작은 데이터셋으로 얼만큼의 성능이 나오는지 확인해보고자 합니다:) 공식 코드로는 논문에 언급된 phillipi/pix2pix가 있으나 lua로 작성되어 있으며 PyTorch로 작성된 코드로는 Pix2Pix와 CycleGAN을 구현한 junyanz의 pytorch-CycleGAN-and-pix2pix가 있습니다. 1. 데이터 셋 논문에서는 총 8개의 데이터셋을 사용합니다. 이중에서 10,000장 이하의 작은 데이터셋은 3개가 있습니다. City... Read More
-
Pix2Pix(1) - 논문 리뷰
소개 Pair 데이터를 사용한 생성 모델인 Pix2Pix는 생성 모델을 Conditional GAN, 판별 모델을 PatchGAN으로 구성해 다양한 비전, 그래픽 과제들에 적용할 수 있는 범용적인 모델이라는 큰 장점으로 가지고 있습니다. 이번 글은 논문 리뷰로 기본적으로는 논문의 내용을 이해하기 위해 내용 번역을 논문 내용으로 적고 내용 요약과 추가 설명이 필요하다 생각되는 세션에는 [정리]로 설명을 적겠습니다. Abstract image-to-image 변환 문제에 대한 범용 솔루션으로 conditional adversarial networks(이후 조건부 GAN으로 대체 사용하겠습니다)를 사용하며 ... Read More
-
Condtional GAN
0. 소개 ‘Conditional Generative Adversarial Nets’는 GAN 논문이 발표된 이후 GAN 모델의 단점 중 하나였던 ‘원하는 모드의 결과 추출’을 해결한 논문으로 cGan으로도 불립니다. condition으로 원하는 결과에 해당하는 라벨 값을 주어 원하는 이미지를 생성하는 아이디어로 간단하지만 효과적인 방법이라 생각합니다. 논문에서는 2가지 실험을 진행했는데 첫번째는 기존 GAN 논문에서 실험했던 것과 같은 MNIST 데이터셋을 사용해 원하는 숫자 이미지를 생성하는 것이고 두번째는 Flickr 25k 데이터 셋을 이용한 이미지 태그 생성입니다. 이미지 생성 부분은 이전글이였던 gan... Read More
-
GAN(2) - 논문 구현
0. 소개 gan의 코드 구현 글입니다:) 논문에 언급된 부분들을 구현하고 그 외의 부분들은 기본적인 MLP 방식을 사용했습니다. 이전 글인 gan(1) - 논문 분석 글을 본 후 이 글을 보시는 걸 추천드립니다! 1. 데이터 데이터셋은 MNIST 데이터셋을 사용했습니다. torchvision에서 코드를 통해 다운받고 쓸 수 있으니 따로 다운받으실 필요없이 편하게 사용할 수 있습니다. 다만 다운받았을 때 torchvision의 데이터는 PIL.Image.Image타입으로 들어오게 됩니다. Tensor로 변경하기 위해 transform 부분 코드를 넣어 데이터 타입을 변경해주었습니다. dataloader = Dat... Read More
-
GAN(1) - 논문 분석
GAN? GAN의 시작입니다! 너무나도 유명한 모델이고 빠르게 발전하고 있는 GAN 모델들의 초석이 된 논문인 Generative Adversarial Networks 논문을 정리해보고자 합니다. 논문 이해 위주의 글이며 Related Work 부분은 제외했습니다. 논문의 내용을 번역하고 개념이 부족할 수 있는 단어나 수식을 추가 설명하는 식으로 정리해보았습니다. 추가되었으면 하는 부분이나 이해가 가지 않으시는 부분은 댓글로 남겨주시면 저도 아직 부족하지만 최대한 답을 해드릴 수 있도록 노력해보겠습니다. 잘못된 부분을 지적해 주시는 것도 언제나 환영합니다. 감사합니다:) 1. Introduction 지금까지... Read More
-
Style Transfer(1) - 'A Neural Algorithm of Artistic Style'로 Style transfer 맛보기
0. Style Transfer란? Style Transfer란 2개의 이미지(content, style)를 새로운 하나의 이미지로 구성할 수 있는 방법입니다. 새로운 이미지의 주된 내용과 형태는 content image, 스타일과 표현 기법은 style image와 유사하도록 만드는 것이 목표입니다. 신경망을 이용해 만들어 Neural Style Transfer라고도 불리며 짧게 NST라고도 합니다. 위의 그림과 같이 NST는 크게 이미지 최적화 방법과 모델 최적화 방법으로 나눌 수 있습니다. 그림은 Neural Style Transfer: A Review 에서 확인하실 수 있습니다. 이미지 최적화 방... Read More