[Docs] Fix broken links and syntax issues (#28918)

* Fix model documentation links in attention.md

* Fix external link syntax

* Fix target anchor names of section links

* Fix copyright statement comments

* Fix documentation headings
This commit is contained in:
Klaus Hipp
2024-02-08 23:13:35 +01:00
committed by GitHub
parent d628664688
commit 2749e479f3
36 changed files with 59 additions and 62 deletions

View File

@@ -20,7 +20,7 @@ specific language governing permissions and limitations under the License.
## LSH attention
[Reformer](#reformer)はLSH局所的に散在ハッシュアテンションを使用します。
[Reformer](model_doc/reformer)はLSH局所的に散在ハッシュアテンションを使用します。
ソフトマックス(QK^t)では、行列QK^tの中でソフトマックス次元で最も大きな要素のみが有用な寄与を提供します。
したがって、各クエリqについて、クエリqに近いキーkのみを考慮できます。
qとkが近いかどうかを決定するために、ハッシュ関数が使用されます。
@@ -30,7 +30,7 @@ qとkが近いかどうかを決定するために、ハッシュ関数が使用
## Local attention
[Longformer](#longformer)はローカルアテンションを使用します。
[Longformer](model_doc/longformer)はローカルアテンションを使用します。
しばしば、ローカルコンテキスト左右の2つのトークンは何ですかは、特定のトークンに対して行動を起こすのに十分です。
また、小さなウィンドウを持つアテンションレイヤーを積み重ねることで、最後のレイヤーはウィンドウ内のトークンだけでなく、ウィンドウ内のトークンを超えて受容野を持つようになり、文全体の表現を構築できます。
@@ -48,5 +48,5 @@ qとkが近いかどうかを決定するために、ハッシュ関数が使用
### Axial positional encodings
[Reformer](#reformer)は軸方向の位置エンコーディングを使用しています。伝統的なトランスフォーマーモデルでは、位置エンコーディングEはサイズが \\(l\\) × \\(d\\) の行列で、\\(l\\) はシーケンスの長さ、\\(d\\) は隠れ状態の次元です。非常に長いテキストを扱う場合、この行列は非常に大きく、GPU上で大量のスペースを占有します。これを緩和するために、軸方向の位置エンコーディングは、この大きな行列Eを2つの小さな行列E1とE2に分解します。それぞれの行列はサイズ \\(l_{1} \times d_{1}\\) および \\(l_{2} \times d_{2}\\) を持ち、 \\(l_{1} \times l_{2} = l\\) および \\(d_{1} + d_{2} = d\\) という条件を満たします長さの積を考えると、これがはるかに小さくなります。行列E内の時刻 \\(j\\) の埋め込みは、E1内の時刻 \\(j \% l1\\) の埋め込みとE2内の時刻 \\(j // l1\\) の埋め込みを連結することによって得られます。
[Reformer](model_doc/reformer)は軸方向の位置エンコーディングを使用しています。伝統的なトランスフォーマーモデルでは、位置エンコーディングEはサイズが \\(l\\) × \\(d\\) の行列で、\\(l\\) はシーケンスの長さ、\\(d\\) は隠れ状態の次元です。非常に長いテキストを扱う場合、この行列は非常に大きく、GPU上で大量のスペースを占有します。これを緩和するために、軸方向の位置エンコーディングは、この大きな行列Eを2つの小さな行列E1とE2に分解します。それぞれの行列はサイズ \\(l_{1} \times d_{1}\\) および \\(l_{2} \times d_{2}\\) を持ち、 \\(l_{1} \times l_{2} = l\\) および \\(d_{1} + d_{2} = d\\) という条件を満たします長さの積を考えると、これがはるかに小さくなります。行列E内の時刻 \\(j\\) の埋め込みは、E1内の時刻 \\(j \% l1\\) の埋め込みとE2内の時刻 \\(j // l1\\) の埋め込みを連結することによって得られます。