diff --git a/docs/source/ko/_toctree.yml b/docs/source/ko/_toctree.yml
index 56db314e8f..b8f43312e1 100644
--- a/docs/source/ko/_toctree.yml
+++ b/docs/source/ko/_toctree.yml
@@ -166,8 +166,8 @@
title: π€ Transformersλ‘ ν μ μλ μμ
- local: tasks_explained
title: π€ Transformersλ‘ μμ
μ ν΄κ²°νλ λ°©λ²
- - local: in_translation
- title: (λ²μμ€) The Transformer model family
+ - local: model_summary
+ title: Transformer λͺ¨λΈκ΅°
- local: in_translation
title: (λ²μμ€) Summary of the tokenizers
- local: attention
diff --git a/docs/source/ko/model_summary.md b/docs/source/ko/model_summary.md
new file mode 100644
index 0000000000..568b942533
--- /dev/null
+++ b/docs/source/ko/model_summary.md
@@ -0,0 +1,107 @@
+
+
+# Transformer λͺ¨λΈκ΅°[[the-transformer-model-family]]
+
+2017λ
μ μκ°λ [κΈ°λ³Έ Transformer](https://arxiv.org/abs/1706.03762) λͺ¨λΈμ μμ°μ΄ μ²λ¦¬(NLP) μμ
μ λμ΄ μλ‘κ³ ν₯λ―Έλ‘μ΄ λͺ¨λΈλ€μ μκ°μ μ£Όμμ΅λλ€. [λ¨λ°±μ§ μ ν ꡬ쑰 μμΈ‘](https://huggingface.co/blog/deep-learning-with-proteins), [μΉνμ λ¬λ¦¬κΈ° νλ ¨](https://huggingface.co/blog/train-decision-transformers), [μκ³μ΄ μμΈ‘](https://huggingface.co/blog/time-series-transformers) λ±μ μν λ€μν λͺ¨λΈμ΄ μ겨λ¬μ΅λλ€. Transformerμ λ³νμ΄ λ무 λ§μμ, ν° κ·Έλ¦Όμ λμΉκΈ° μ½μ΅λλ€. νμ§λ§ μ¬κΈ° μλ λͺ¨λ λͺ¨λΈμ 곡ν΅μ μ κΈ°λ³Έ Trasnformer μν€ν
μ²λ₯Ό κΈ°λ°μΌλ‘ νλ€λ μ μ
λλ€. μΌλΆ λͺ¨λΈμ μΈμ½λ λλ λμ½λλ§ μ¬μ©νκ³ , λ€λ₯Έ λͺ¨λΈλ€μ μΈμ½λμ λμ½λλ₯Ό λͺ¨λ μ¬μ©νκΈ°λ ν©λλ€. μ΄λ κ² Transformer λͺ¨λΈκ΅° λ΄ μμ λ 벨μμμ μ°¨μ΄μ μ λΆλ₯νκ³ κ²ν νλ©΄ μ μ©ν λΆλ₯ 체κ³λ₯Ό μ»μ μ μμΌλ©°, μ΄μ μ μ ν΄λ³΄μ§ λͺ»ν Transformer λͺ¨λΈλ€ λν μ΄ν΄νλ λ° λμμ΄ λ κ²μ
λλ€.
+
+κΈ°λ³Έ Transformer λͺ¨λΈμ μ΅μνμ§ μκ±°λ 볡μ΅μ΄ νμν κ²½μ°, Hugging Face κ°μμ [νΈλμ€ν¬λ¨Έλ μ΄λ»κ² λμνλμ?](https://huggingface.co/course/chapter1/4?fw=pt) μ±ν°λ₯Ό νμΈνμΈμ.
+
+
+
+
+
+## μ»΄ν¨ν° λΉμ [[computer-vision]]
+
+
+
+### ν©μ±κ³± λ€νΈμν¬[[convolutional-network]]
+
+[Vision Transformer](https://arxiv.org/abs/2010.11929)κ° νμ₯μ±κ³Ό ν¨μ¨μ±μ μ
μ¦νκΈ° μ κΉμ§ μ€λ«λμ ν©μ±κ³± λ€νΈμν¬(CNN)κ° μ»΄ν¨ν° λΉμ μμ
μ μ§λ°°μ μΈ ν¨λ¬λ€μμ΄μμ΅λλ€. κ·ΈλΌμλ λΆκ΅¬νκ³ , μ΄λ λΆλ³μ±(translation invariance)κ³Ό κ°μ CNNμ μ°μν λΆλΆμ΄ λλλΌμ§κΈ° λλ¬Έμ λͺλͺ (νΉν νΉμ κ³Όμ
μμμ) Transformer λͺ¨λΈμ μν€ν
μ²μ ν©μ±κ³±μ ν΅ν©νκΈ°λ νμ΅λλ€. [ConvNeXt](model_doc/convnext)λ μ΄λ° κ΄λ‘λ₯Ό λ€μ§μ΄ CNNμ νλννκΈ° μν΄ Transformerμ λμμΈμ μ°¨μ©ν©λλ€. μλ₯Ό λ€λ©΄ ConvNeXtλ κ²ΉμΉμ§ μλ μ¬λΌμ΄λ© μ°½(sliding window)μ μ¬μ©νμ¬ μ΄λ―Έμ§λ₯Ό ν¨μΉννκ³ , λ ν° μ»€λλ‘ μ μ μμ© νλ(global receptive field)λ₯Ό νμ₯μν΅λλ€. ConvNeXtλ λν λ©λͺ¨λ¦¬ ν¨μ¨μ λμ΄κ³ μ±λ₯μ ν₯μμν€κΈ° μν΄ μ¬λ¬ λ μ΄μ΄ μ€κ³λ₯Ό μ ννκΈ° λλ¬Έμ Transformerμ 견μ€λ§ν©λλ€!
+
+### μΈμ½λ[[cv-encoder]]
+
+[Vision Transformer(ViT)](model_doc/vit)λ ν©μ±κ³± μλ μ»΄ν¨ν° λΉμ μμ
μ λ§μ μ΄μμ΅λλ€. ViTλ νμ€ Transformer μΈμ½λλ₯Ό μ¬μ©νμ§λ§, κ°μ₯ ν° νμ μ μ΄λ―Έμ§λ₯Ό μ²λ¦¬νλ λ°©μμ΄μμ΅λλ€. λ¬Έμ₯μ ν ν°μΌλ‘ λΆν νλ κ²μ²λΌ μ΄λ―Έμ§λ₯Ό κ³ μ λ ν¬κΈ°μ ν¨μΉλ‘ λΆν νκ³ , μ΄λ₯Ό μ¬μ©νμ¬ μλ² λ©μ μμ±ν©λλ€. ViTλ Transformerμ ν¨μ¨μ μΈ μν€ν
μ²λ₯Ό νμ©νμ¬ νλ ¨μ λ μ μ μμμ μ¬μ©νλ©΄μλ λΉμ CNNμ λΉκ²¬νλ κ²°κ³Όλ₯Ό μ
μ¦νμ΅λλ€. κ·Έλ¦¬κ³ ViTλ₯Ό λ€μ΄μ΄ λΆν (segmentation)κ³Ό κ°μ κ³ λ°λ λΉμ μμ
κ³Ό νμ§ μμ
λ λ€λ£° μ μλ λ€λ₯Έ λΉμ λͺ¨λΈμ΄ λ±μ₯νμ΅λλ€.
+
+μ΄λ¬ν λͺ¨λΈ μ€ νλκ° [Swin](model_doc/swin) Transformerμ
λλ€. μ΄ λͺ¨λΈμ μμ ν¬κΈ°μ ν¨μΉμμ κ³μΈ΅μ νΉμ§ λ§΅(CNN πκ³Ό κ°μ§λ§ ViTμλ λ€λ¦)μ λ§λ€κ³ λ κΉμ λ μ΄μ΄μ μΈμ ν¨μΉμ λ³ν©ν©λλ€. μ΄ν
μ
(Attention)μ μ§μ μλμ° λ΄μμλ§ κ³μ°λλ©°, λͺ¨λΈμ΄ λ μ νμ΅ν μ μλλ‘ μ΄ν
μ
λ μ΄μ΄ κ°μ μλμ°λ₯Ό μ΄λνλ©° μ°κ²°μ μμ±ν©λλ€. Swin Transformerλ κ³μΈ΅μ νΉμ§ λ§΅μ μμ±ν μ μμΌλ―λ‘, λΆν (segmentation)κ³Ό νμ§μ κ°μ κ³ λ°λ μμΈ‘ μμ
μ μ ν©ν©λλ€. [SegFormer](model_doc/segformer) μμ Transformer μΈμ½λλ₯Ό μ¬μ©νμ¬ κ³μΈ΅μ νΉμ§ λ§΅μ ꡬμΆνμ§λ§, μλ¨μ κ°λ¨ν λ€μΈ΅ νΌμ
νΈλ‘ (MLP) λμ½λλ₯Ό μΆκ°νμ¬ λͺ¨λ νΉμ§ λ§΅μ κ²°ν©νκ³ μμΈ‘μ μνν©λλ€.
+
+BeITμ ViTMAEμ κ°μ λ€λ₯Έ λΉμ λͺ¨λΈμ BERTμ μ¬μ νλ ¨ λͺ©ν(objective)μμ μκ°μ μ»μμ΅λλ€. [BeIT](model_doc/beit)λ *λ§μ€ν¬λ μ΄λ―Έμ§ λͺ¨λΈλ§(MIM)*μΌλ‘ μ¬μ νλ ¨λλ©°, μ΄λ―Έμ§ ν¨μΉλ μμλ‘ λ§μ€νΉλκ³ μ΄λ―Έμ§λ μκ°μ ν ν°μΌλ‘ ν ν°νλ©λλ€. BeITλ λ§μ€νΉλ ν¨μΉμ ν΄λΉνλ μκ°μ ν ν°μ μμΈ‘νλλ‘ νμ΅λ©λλ€. [ViTMAE](model_doc/vitmae)λ λΉμ·ν μ¬μ νλ ¨ λͺ©νκ° μμ§λ§, μκ°μ ν ν° λμ ν½μ
μ μμΈ‘ν΄μΌ νλ€λ μ μ΄ λ€λ¦
λλ€. νΉμ΄ν μ μ μ΄λ―Έμ§ ν¨μΉμ 75%κ° λ§μ€νΉλμ΄ μλ€λ κ²μ
λλ€! λμ½λλ λ§μ€νΉλ ν ν°κ³Ό μΈμ½λ©λ ν¨μΉμμ ν½μ
μ μ¬κ΅¬μ±ν©λλ€. μ¬μ νλ ¨μ΄ λλλ©΄ λμ½λλ νκΈ°λκ³ μΈμ½λλ λ€μ΄μ€νΈλ¦Ό μμ
μ μ¬μ©ν μ€λΉκ° λ©λλ€.
+
+### λμ½λ[[cv-decoder]]
+
+λλΆλΆμ λΉμ λͺ¨λΈμ μΈμ½λμ μμ‘΄νμ¬ μ΄λ―Έμ§ ννμ νμ΅νκΈ° λλ¬Έμ λμ½λ μ μ© λΉμ λͺ¨λΈμ λλ
λλ€. νμ§λ§ μ΄λ―Έμ§ μμ± λ±μ μ¬λ‘μ κ²½μ°, GPT-2μ κ°μ ν
μ€νΈ μμ± λͺ¨λΈμμ 보μλ―μ΄ λμ½λκ° κ°μ₯ μ ν©ν©λλ€. [ImageGPT](model_doc/imagegpt)λ GPT-2μ λμΌν μν€ν
μ²λ₯Ό μ¬μ©νμ§λ§, μνμ€μ λ€μ ν ν°μ μμΈ‘νλ λμ μ΄λ―Έμ§μ λ€μ ν½μ
μ μμΈ‘ν©λλ€. ImageGPTλ μ΄λ―Έμ§ μμ± λΏλ§ μλλΌ μ΄λ―Έμ§ λΆλ₯λ₯Ό μν΄ λ―ΈμΈ μ‘°μ ν μλ μμ΅λλ€.
+
+### μΈμ½λ-λμ½λ[[cv-encoder-decoder]]
+
+λΉμ λͺ¨λΈμ μΌλ°μ μΌλ‘ μΈμ½λ(λ°±λ³ΈμΌλ‘λ μλ €μ§)λ₯Ό μ¬μ©νμ¬ μ€μν μ΄λ―Έμ§ νΉμ§μ μΆμΆν ν, μ΄λ₯Ό Transformer λμ½λλ‘ μ λ¬ν©λλ€. [DETR](model_doc/detr)μ μ¬μ νλ ¨λ λ°±λ³Έμ΄ μμ§λ§, κ°μ²΄ νμ§λ₯Ό μν΄ μμ ν Transformer μΈμ½λ-λμ½λ μν€ν
μ²λ μ¬μ©ν©λλ€. μΈμ½λλ μ΄λ―Έμ§ ννμ νμ΅νκ³ μ΄λ₯Ό λμ½λμμ κ°μ²΄ 쿼리(κ° κ°μ²΄ 쿼리λ μ΄λ―Έμ§μ μμ λλ κ°μ²΄μ μ€μ μ λκ³ νμ΅λ μλ² λ©)μ κ²°ν©ν©λλ€. DETRμ κ° κ°μ²΄ 쿼리μ λν λ°μ΄λ© λ°μ€ μ’νμ ν΄λμ€ λ μ΄λΈμ μμΈ‘ν©λλ€.
+
+## μμ°μ΄μ²λ¦¬[[natural-language-processing]]
+
+
+
+### μΈμ½λ[[nlp-encoder]]
+
+[BERT](model_doc/bert)λ μΈμ½λ μ μ© Transformerλ‘, λ€λ₯Έ ν ν°μ λ³΄κ³ μμ "λΆμ νμ"λ₯Ό μ μ§λ₯΄λ κ±Έ λ§κΈ° μν΄ μ
λ ₯μμ νΉμ ν ν°μ μμλ‘ λ§μ€νΉν©λλ€. μ¬μ νλ ¨μ λͺ©νλ 컨ν
μ€νΈλ₯Ό κΈ°λ°μΌλ‘ λ§μ€νΉλ ν ν°μ μμΈ‘νλ κ²μ
λλ€. μ΄λ₯Ό ν΅ν΄ BERTλ μΌμͺ½κ³Ό μ€λ₯Έμͺ½ 컨ν
μ€νΈλ₯Ό μΆ©λΆν νμ©νμ¬ μ
λ ₯μ λν΄ λ κΉκ³ νλΆν ννμ νμ΅ν μ μμ΅λλ€. κ·Έλ¬λ BERTμ μ¬μ νλ ¨ μ λ΅μλ μ¬μ ν κ°μ μ μ¬μ§κ° λ¨μ μμμ΅λλ€. [RoBERTa](model_doc/roberta)λ λ κΈ΄ μκ° λμ λ ν° λ°°μΉμ λν νλ ¨μ ν¬ν¨νκ³ , μ μ²λ¦¬ μ€μ ν λ²λ§ λ§μ€νΉνλ κ²μ΄ μλλΌ κ° μνμμ ν ν°μ μμλ‘ λ§μ€νΉνκ³ , λ€μ λ¬Έμ₯ μμΈ‘ λͺ©νλ₯Ό μ κ±°νλ μλ‘μ΄ μ¬μ νλ ¨ λ°©μμ λμ
ν¨μΌλ‘μ¨ μ΄λ₯Ό κ°μ νμ΅λλ€.
+
+μ±λ₯ κ°μ μ μν μ λ΅μΌλ‘ λͺ¨λΈ ν¬κΈ°λ₯Ό ν€μ°λ κ²μ΄ μ§λ°°μ μ
λλ€. νμ§λ§ ν° λͺ¨λΈμ νλ ¨νλ €λ©΄ κ³μ° λΉμ©μ΄ λ§μ΄ λλλ€. κ³μ° λΉμ©μ μ€μ΄λ ν κ°μ§ λ°©λ²μ [DistilBERT](model_doc/distilbert)μ κ°μ΄ μμ λͺ¨λΈμ μ¬μ©νλ κ²μ
λλ€. DistilBERTλ μμΆ κΈ°λ²μΈ [μ§μ μ¦λ₯(knowledge distillation)](https://arxiv.org/abs/1503.02531)λ₯Ό μ¬μ©νμ¬, κ±°μ λͺ¨λ μΈμ΄ μ΄ν΄ λ₯λ ₯μ μ μ§νλ©΄μ λ μμ λ²μ μ BERTλ₯Ό λ§λλλ€.
+
+κ·Έλ¬λ λλΆλΆμ Transformer λͺ¨λΈμ λ λ§μ λ§€κ°λ³μλ₯Ό μ¬μ©νλ κ²½ν₯μ΄ μ΄μ΄μ‘κ³ , μ΄μ λ°λΌ νλ ¨ ν¨μ¨μ±μ κ°μ νλ κ²μ μ€μ μ λ μλ‘μ΄ λͺ¨λΈμ΄ λ±μ₯νμ΅λλ€. [ALBERT](model_doc/albert)λ λ κ°μ§ λ°©λ²μΌλ‘ λ§€κ°λ³μ μλ₯Ό μ€μ¬ λ©λͺ¨λ¦¬ μ¬μ©λμ μ€μμ΅λλ€. λ°λ‘ ν° μ΄νλ₯Ό λ κ°μ μμ νλ ¬λ‘ λΆλ¦¬νλ κ²κ³Ό λ μ΄μ΄κ° λ§€κ°λ³μλ₯Ό 곡μ νλλ‘ νλ κ²μ
λλ€. [DeBERTa](model_doc/deberta)λ λ¨μ΄μ κ·Έ μμΉλ₯Ό λ κ°μ 벑ν°λ‘ κ°λ³μ μΌλ‘ μΈμ½λ©νλ λΆλ¦¬λ(disentangled) μ΄ν
μ
λ©μ»€λμ¦μ μΆκ°νμ΅λλ€. μ΄ν
μ
μ λ¨μ΄μ μμΉ μλ² λ©μ ν¬ν¨νλ λ¨μΌ λ²‘ν° λμ μ΄ λ³λμ 벑ν°μμ κ³μ°λ©λλ€. [Longformer](model_doc/longformer)λ νΉν μνμ€ κΈΈμ΄κ° κΈ΄ λ¬Έμλ₯Ό μ²λ¦¬ν λ, μ΄ν
μ
μ λ ν¨μ¨μ μΌλ‘ λ§λλ κ²μ μ€μ μ λμμ΅λλ€. μ§μ(local) μλμ° μ΄ν
μ
(κ° ν ν° μ£Όλ³μ κ³ μ λ μλμ° ν¬κΈ°μμλ§ κ³μ°λλ μ΄ν
μ
)κ³Ό μ μ(global) μ΄ν
μ
(λΆλ₯λ₯Ό μν΄ `[CLS]`μ κ°μ νΉμ μμ
ν ν°μλ§ ν΄λΉ)μ μ‘°ν©μ μ¬μ©νμ¬ μ 체(full) μ΄ν
μ
νλ ¬ λμ ν¬μ(sparse) μ΄ν
μ
νλ ¬μ μμ±ν©λλ€.
+
+### λμ½λ[[nlp-decoder]]
+
+[GPT-2](model_doc/gpt2)λ μνμ€μμ λ€μ λ¨μ΄λ₯Ό μμΈ‘νλ λμ½λ μ μ© Transformerμ
λλ€. ν ν°μ μ€λ₯Έμͺ½μΌλ‘ λ§μ€νΉνμ¬ λͺ¨λΈμ΄ μ΄μ ν ν°μ λ³΄κ³ "λΆμ νμ"λ₯Ό νμ§ λͺ»νλλ‘ ν©λλ€. GPT-2λ λ°©λν ν
μ€νΈμ λν΄ μ¬μ νλ ¨νμ¬ ν
μ€νΈκ° μΌλΆλ§ μ ννκ±°λ μ¬μ€μΈ κ²½μ°μλ μλΉν λ₯μνκ² ν
μ€νΈλ₯Ό μμ±ν μ μκ² λμμ΅λλ€. νμ§λ§ GPT-2λ BERTκ° μ¬μ νλ ¨μμ κ°λ μλ°©ν₯ 컨ν
μ€νΈκ° λΆμ‘±νκΈ° λλ¬Έμ νΉμ μμ
μ μ ν©νμ§ μμμ΅λλ€. [XLNET](model_doc/xlnet)μ μλ°©ν₯ νλ ¨μ΄ κ°λ₯ν permutation language modeling objective(PLM)λ₯Ό μ¬μ©νμ¬ BERTμ GPT-2μ μ¬μ νλ ¨ λͺ©νμ λν μ₯μ μ ν¨κ» κ°μ§κ³ μμ΅λλ€.
+
+GPT-2 μ΄ν, μΈμ΄ λͺ¨λΈμ λμ± κ±°λν΄μ‘κ³ νμ¬λ *λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)*λ‘ μλ €μ Έ μμ΅λλ€. μΆ©λΆν ν° λ°μ΄ν° μΈνΈλ‘ μ¬μ νλ ¨λ LLMμ ν¨μ·(few-shot) λλ μ λ‘μ·(zero-shot) νμ΅μ μνν©λλ€. [GPT-J](model_doc/gptj)λ 6B ν¬κΈ°μ λ§€κ°λ³μκ° μκ³ 400B ν¬κΈ°μ ν ν°μΌλ‘ νλ ¨λ LLMμ
λλ€. GPT-Jμ μ΄μ΄ λμ½λ μ μ© λͺ¨λΈκ΅°μΈ [OPT](model_doc/opt)κ° λ±μ₯νμΌλ©°, μ΄ μ€ κ°μ₯ ν° λͺ¨λΈμ 175B ν¬κΈ°μ΄κ³ 180B ν¬κΈ°μ ν ν°μΌλ‘ νλ ¨λμμ΅λλ€. [BLOOM](model_doc/bloom)μ λΉμ·ν μκΈ°μ μΆμλμμΌλ©°, μ΄ μ€ κ°μ₯ ν° λͺ¨λΈμ 176B ν¬κΈ°μ λ§€κ°λ³μκ° μκ³ 46κ°μ μΈμ΄μ 13κ°μ νλ‘κ·Έλλ° μΈμ΄λ‘ λ 366B ν¬κΈ°μ ν ν°μΌλ‘ νλ ¨λμμ΅λλ€.
+
+### μΈμ½λ-λμ½λ[[nlp-encoder-decoder]]
+
+[BART](model_doc/bart)λ κΈ°λ³Έ Transformer μν€ν
μ²λ₯Ό μ μ§νμ§λ§, μΌλΆ ν
μ€νΈ μ€ν¬(span)μ΄ λ¨μΌ `λ§μ€ν¬` ν ν°μΌλ‘ λ체λλ *text infilling* λ³νμΌλ‘ μ¬μ νλ ¨ λͺ©νλ₯Ό μμ ν©λλ€. λμ½λλ λ³νλμ§ μμ ν ν°(ν₯ν ν ν°μ λ§μ€νΉλ¨)μ μμΈ‘νκ³ μΈμ½λμ μλ μνλ₯Ό μ¬μ©νμ¬ μ΄ μμ
μ λμ΅λλ€. [Pegasus](model_doc/pegasus)λ BARTμ μ μ¬νμ§λ§, Pegasusλ ν
μ€νΈ μ€ν¬ λμ μ 체 λ¬Έμ₯μ λ§μ€νΉν©λλ€. Pegasusλ λ§μ€ν¬λ μΈμ΄ λͺ¨λΈλ§ μΈμλ gap sentence generation(GSG)λ‘ μ¬μ νλ ¨λ©λλ€. GSGλ λ¬Έμμ μ€μν λ¬Έμ₯ μ 체λ₯Ό λ§μ€νΉνμ¬ `λ§μ€ν¬` ν ν°μΌλ‘ λ체νλ κ²μ λͺ©νλ‘ ν©λλ€. λμ½λλ λ¨μ λ¬Έμ₯μμ μΆλ ₯μ μμ±ν΄μΌ ν©λλ€. [T5](model_doc/t5)λ νΉμ μ λμ¬λ₯Ό μ¬μ©νμ¬ λͺ¨λ NLP μμ
μ ν
μ€νΈ ν¬ ν
μ€νΈ λ¬Έμ λ‘ λ³ννλ λ νΉμν λͺ¨λΈμ
λλ€. μλ₯Ό λ€μ΄, μ λμ¬ `Summarize:`μ μμ½ μμ
μ λνλ
λλ€. T5λ μ§λ(GLUE λ° SuperGLUE) νλ ¨κ³Ό μκΈ°μ§λ νλ ¨(ν ν°μ 15%λ₯Ό μμλ‘ μνλ§νμ¬ μ κ±°)μΌλ‘ μ¬μ νλ ¨λ©λλ€.
+
+## μ€λμ€[[audio]]
+
+
+
+### μΈμ½λ[[audio-encoder]]
+
+[Wav2Vec2](model_doc/wav2vec2)λ Transformer μΈμ½λλ₯Ό μ¬μ©νμ¬ μλ³Έ μ€λμ€ νν(raw audio waveform)μμ μ§μ μμ± ννμ νμ΅ν©λλ€. νμ μμ± νν μΈνΈμμ μ€μ μμ± ννμ νλ³νλ λμ‘° μμ
μΌλ‘ μ¬μ νλ ¨λ©λλ€. [HuBERT](model_doc/hubert)λ Wav2Vec2μ μ μ¬νμ§λ§ νλ ¨ κ³Όμ μ΄ λ€λ¦
λλ€. νκ² λ μ΄λΈμ΄ μ μ¬ν μ€λμ€ μΈκ·Έλ¨ΌνΈκ° ν΄λ¬μ€ν°μ ν λΉλμ΄ μλ λ¨μ(unit)κ° λλ κ΅°μ§ν(clustering) λ¨κ³μμ μμ±λ©λλ€. μλ λ¨μλ μμΈ‘μ μν μλ² λ©μ λ§€νλ©λλ€.
+
+### μΈμ½λ-λμ½λ[[audio-encoder-decoder]]
+
+[Speech2Text](model_doc/speech_to_text)λ μλ μμ± μΈμ(ASR) λ° μμ± λ²μμ μν΄ κ³ μλ μμ± λͺ¨λΈμ
λλ€. μ΄ λͺ¨λΈμ μ€λμ€ ννμμ μΆμΆν log mel-filter bank νΉμ§μ μ±ννκ³ μκΈ°νκ· λ°©μμΌλ‘ μ¬μ νλ ¨νμ¬, μ μ¬λ³Έ λλ λ²μμ λ§λλλ€. [Whisper](model_doc/whisper)μ ASR λͺ¨λΈμ΄μ§λ§, λ€λ₯Έ λ§μ μμ± λͺ¨λΈκ³Ό λ¬λ¦¬ μ λ‘μ· μ±λ₯μ μν΄ λλμ β¨ λ μ΄λΈμ΄ μ§μ λ β¨ μ€λμ€ μ μ¬ λ°μ΄ν°μ λν΄ μ¬μ νλ ¨λ©λλ€. λ°μ΄ν° μΈνΈμ ν° λ¬Άμμλ μμ΄κ° μλ μΈμ΄λ ν¬ν¨λμ΄ μμ΄μ μμμ΄ μ μ μΈμ΄μλ Whisperλ₯Ό μ¬μ©ν μ μμ΅λλ€. ꡬ쑰μ μΌλ‘, Whisperλ Speech2Textμ μ μ¬ν©λλ€. μ€λμ€ μ νΈλ μΈμ½λμ μν΄ μΈμ½λ©λ log-mel spectrogramμΌλ‘ λ³νλ©λλ€. λμ½λλ μΈμ½λμ μλ μνμ μ΄μ ν ν°μΌλ‘λΆν° μκΈ°νκ· λ°©μμΌλ‘ μ μ¬λ₯Ό μμ±ν©λλ€.
+
+## λ©ν°λͺ¨λ¬[[multimodal]]
+
+
+
+### μΈμ½λ[[mm-encoder]]
+
+[VisualBERT](model_doc/visual_bert)λ BERT μ΄νμ μΆμλ λΉμ μΈμ΄ μμ
μ μν λ©ν°λͺ¨λ¬ λͺ¨λΈμ
λλ€. μ΄ λͺ¨λΈμ BERTμ μ¬μ νλ ¨λ κ°μ²΄ νμ§ μμ€ν
μ κ²°ν©νμ¬ μ΄λ―Έμ§ νΉμ§μ μκ° μλ² λ©μΌλ‘ μΆμΆνκ³ , ν
μ€νΈ μλ² λ©κ³Ό ν¨κ» BERTλ‘ μ λ¬ν©λλ€. VisualBERTλ λ§μ€νΉλμ§ μμ ν
μ€νΈμ μκ° μλ² λ©μ κΈ°λ°μΌλ‘ λ§μ€νΉλ ν
μ€νΈλ₯Ό μμΈ‘νκ³ , ν
μ€νΈκ° μ΄λ―Έμ§μ μΌμΉνλμ§ μμΈ‘ν΄μΌ ν©λλ€. ViTκ° μ΄λ―Έμ§ μλ² λ©μ ꡬνλ λ°©μμ΄ λ μ¬μ κΈ° λλ¬Έμ, ViTκ° μΆμλ ν [ViLT](model_doc/vilt)λ μν€ν
μ²μ ViTλ₯Ό μ±ννμ΅λλ€. μ΄λ―Έμ§ μλ² λ©μ ν
μ€νΈ μλ² λ©κ³Ό ν¨κ» μ²λ¦¬λ©λλ€. μ¬κΈ°μμ, ViLTλ μ΄λ―Έμ§ ν
μ€νΈ λ§€μΉ, λ§μ€ν¬λ μΈμ΄ λͺ¨λΈλ§, μ 체 λ¨μ΄ λ§μ€νΉμ ν΅ν΄ μ¬μ νλ ¨λ©λλ€.
+
+[CLIP](model_doc/clip)μ λ€λ₯Έ μ κ·Ό λ°©μμ μ¬μ©νμ¬ (`μ΄λ―Έμ§`, `ν
μ€νΈ`)μ μ μμΈ‘μ μνν©λλ€. (`μ΄λ―Έμ§`, `ν
μ€νΈ`) μμμμ μ΄λ―Έμ§μ ν
μ€νΈ μλ² λ© κ°μ μ μ¬λλ₯Ό μ΅λννκΈ° μν΄ 4μ΅ κ°μ (`μ΄λ―Έμ§`, `ν
μ€νΈ`) μ λ°μ΄ν° μΈνΈμ λν΄ μ΄λ―Έμ§ μΈμ½λ(ViT)μ ν
μ€νΈ μΈμ½λ(Transformer)λ₯Ό ν¨κ» νλ ¨ν©λλ€. μ¬μ νλ ¨ ν, μμ°μ΄λ₯Ό μ¬μ©νμ¬ μ΄λ―Έμ§κ° μ£Όμ΄μ§ ν
μ€νΈλ₯Ό μμΈ‘νκ±°λ κ·Έ λ°λλ‘ μμΈ‘νλλ‘ CLIPμ μ§μν μ μμ΅λλ€. [OWL-ViT](model_doc/owlvit)λ CLIPμ μ λ‘μ· κ°μ²΄ νμ§λ₯Ό μν λ°±λ³Έ(backbone)μΌλ‘ μ¬μ©νμ¬ CLIP μμ ꡬμΆλ©λλ€. μ¬μ νλ ¨ ν, κ°μ²΄ νμ§ ν€λκ° μΆκ°λμ΄ (`ν΄λμ€`, `λ°μ΄λ© λ°μ€`) μμ λν μ§ν©(set) μμΈ‘μ μνν©λλ€.
+
+### μΈμ½λ-λμ½λ[[mm-encoder-decoder]]
+
+κ΄ν λ¬Έμ μΈμ(OCR)μ μ΄λ―Έμ§λ₯Ό μ΄ν΄νκ³ ν
μ€νΈλ₯Ό μμ±νκΈ° μν΄ λ€μν κ΅¬μ± μμλ₯Ό νμλ‘ νλ μ ν΅μ μΈ ν
μ€νΈ μΈμ μμ
μ
λλ€. [TrOCR](model_doc/trocr)μ μ’
λ¨κ°(end-to-end) Transformerλ₯Ό μ¬μ©νμ¬ μ΄ νλ‘μΈμ€λ₯Ό κ°μνν©λλ€. μΈμ½λλ μ΄λ―Έμ§ μ΄ν΄λ₯Ό μν ViT λ°©μμ λͺ¨λΈμ΄λ©° μ΄λ―Έμ§λ₯Ό κ³ μ λ ν¬κΈ°μ ν¨μΉλ‘ μ²λ¦¬ν©λλ€. λμ½λλ μΈμ½λμ μλ μνλ₯Ό λ°μμ μκΈ°νκ· λ°©μμΌλ‘ ν
μ€νΈλ₯Ό μμ±ν©λλ€. [Donut](model_doc/donut)μ OCR κΈ°λ° μ κ·Ό λ°©μμ μμ‘΄νμ§ μλ λ μΌλ°μ μΈ μκ° λ¬Έμ μ΄ν΄ λͺ¨λΈμ
λλ€. μ΄ λͺ¨λΈμ Swin Transformerλ₯Ό μΈμ½λλ‘, λ€κ΅μ΄ BARTλ₯Ό λμ½λλ‘ μ¬μ©ν©λλ€. Donutμ μ΄λ―Έμ§μ ν
μ€νΈ μ£Όμμ κΈ°λ°μΌλ‘ λ€μ λ¨μ΄λ₯Ό μμΈ‘νμ¬ ν
μ€νΈλ₯Ό μ½λλ‘ μ¬μ νλ ¨λ©λλ€. λμ½λλ ν둬ννΈκ° μ£Όμ΄μ§λ©΄ ν ν° μνμ€λ₯Ό μμ±ν©λλ€. ν둬ννΈλ κ° λ€μ΄μ€νΈλ¦Ό μμ
μ λν νΉμ ν ν°μΌλ‘ ννλ©λλ€. μλ₯Ό λ€μ΄, λ¬Έμ νμ±(parsing)μλ μΈμ½λμ μλ μνμ κ²°ν©λμ΄ λ¬Έμλ₯Ό μ ν μΆλ ₯ νμ(JSON)μΌλ‘ νμ±νλ νΉμ `νμ±` ν ν°μ΄ μμ΅λλ€.
+
+## κ°ν νμ΅[[reinforcement-learning]]
+
+
+
+### λμ½λ[[rl-decoder]]
+
+Decision λ° Trajectory Transformerλ μν(state), νλ(action), 보μ(reward)μ μνμ€ λͺ¨λΈλ§ λ¬Έμ λ‘ ννν©λλ€. [Decision Transformer](model_doc/decision_transformer)λ κΈ°λ 보μ(returns-to-go), κ³Όκ±° μν λ° νλμ κΈ°λ°μΌλ‘ λ―Έλμ μνλ μμ΅(return)μΌλ‘ μ΄μ΄μ§λ μΌλ ¨μ νλμ μμ±ν©λλ€. λ§μ§λ§ *K* μκ° μ€ν
(timestep)μ λν΄, μΈ κ°μ§ λͺ¨λ¬λ¦¬ν°λ κ°κ° ν ν° μλ² λ©μΌλ‘ λ³νλκ³ GPTμ κ°μ λͺ¨λΈμ μν΄ μ²λ¦¬λμ΄ λ―Έλμ μ‘μ
ν ν°μ μμΈ‘ν©λλ€. [Trajectory Transformer](model_doc/trajectory_transformer)λ μν, νλ, 보μμ ν ν°ννμ¬ GPT μν€ν
μ²λ‘ μ²λ¦¬ν©λλ€. 보μ 쑰건μ μ€μ μ λ Decision Transformerμ λ¬λ¦¬ Trajectory Transformerλ λΉ μμΉ(beam search)λ‘ λ―Έλ νλμ μμ±ν©λλ€.
\ No newline at end of file