<aside> 💫 ctrl+alt+t를 누르면 한 번에 여닫기를 할 수 있습니다. 그리고 화이트 모드로 보는 것을 권장드립니다.

CNN, Transformer를 전반적으로 짚어본 후, ViT에 대해서 자세하게 볼 예정입니다.

</aside>

<aside> 📢

<Contents>


</aside>

0. 요약

전반적으로 이런 내용을 다뤄요

1. CNN

1-1. CNN Introduction

1-2. CNN Application

1-3. Max-pooling & Stride

1-4. Design CNN Architecture


2. Transformer

2-1. Introduction

2-2. Multi-head Attention

2-3. Encoder block

2-4. Decoder with Masking

2-5. Positional Encoding

2-6. Learning rate warm-up and linear decay

2-7. Appendix: Beyond the paper


3. 논문 리뷰

<aside> 💡 앞의 1~2까지 내용을 보시고 아래 내용을 보시면 아래 논문을 이해하기 쉬울 것 같습니다.

</aside>

3-1. Introduction

3-2. Related Work

3-3. Method

3-4. Experiments

3-5. Conclusion


4. Code




5. 추후 방향성


6. 참고 링크


7. ViT 이전에 참고할 만한 논문


8. ViT이후 관련 논문 for CLIP

  1. 멀티모달 러닝
  2. Contrastive Learning
  3. Zero-Shot Learning
  4. Text Embedding
  5. Image Retrieval

9. 리뷰 후기

<aside> 💡 NLP만 주로 다루다가 이미지 생성 모델로 넘어가면서, 순수 Vision 분야의 논문을 자세하게 읽어본 것은 이번이 처음이었습니다. Transformer를 그대로 유지하려고 노력한 논문이기에, 기존에 Transformer를 이해하고 있어 읽기 편했고 실험 관련 내용을 자세하게 작성하지 못해서, 추후 마무리해서 완성하도록 하겠습니다.

</aside>