From bfcd5743ee6746d81daae31264cb99fdfa1cf1da Mon Sep 17 00:00:00 2001
From: Bill Ray <31375073+billray0259@users.noreply.github.com>
Date: Tue, 28 Jun 2022 08:34:55 -0400
Subject: [PATCH] In `group_texts` function, drop last block if smaller than
 `block_size` (#17908)

---
 docs/source/en/tasks/language_modeling.mdx | 1 +
 docs/source/es/tasks/language_modeling.mdx | 1 +
 2 files changed, 2 insertions(+)

diff --git a/docs/source/en/tasks/language_modeling.mdx b/docs/source/en/tasks/language_modeling.mdx
index b3b6dd7530..4aa368fe0b 100644
--- a/docs/source/en/tasks/language_modeling.mdx
+++ b/docs/source/en/tasks/language_modeling.mdx
@@ -141,6 +141,7 @@ Now you need a second preprocessing function to capture text truncated from any
 >>> def group_texts(examples):
 ...     concatenated_examples = {k: sum(examples[k], []) for k in examples.keys()}
 ...     total_length = len(concatenated_examples[list(examples.keys())[0]])
+...     total_length = (total_length // block_size) * block_size
 ...     result = {
 ...         k: [t[i : i + block_size] for i in range(0, total_length, block_size)]
 ...         for k, t in concatenated_examples.items()
diff --git a/docs/source/es/tasks/language_modeling.mdx b/docs/source/es/tasks/language_modeling.mdx
index 33962a4988..565185072a 100644
--- a/docs/source/es/tasks/language_modeling.mdx
+++ b/docs/source/es/tasks/language_modeling.mdx
@@ -141,6 +141,7 @@ Ahora necesitas una segunda función de preprocesamiento para capturar el texto
 >>> def group_texts(examples):
 ...     concatenated_examples = {k: sum(examples[k], []) for k in examples.keys()}
 ...     total_length = len(concatenated_examples[list(examples.keys())[0]])
+...     total_length = (total_length // block_size) * block_size
 ...     result = {
 ...         k: [t[i : i + block_size] for i in range(0, total_length, block_size)]
 ...         for k, t in concatenated_examples.items()