Overwrite get_clean_sequence as this was causing a bottleneck (#13183)

2021-08-23 09:41:35 +02:00
parent 143738214c
commit 588e6caa15
1 changed files with 6 additions and 0 deletions
--- a/tests/test_tokenization_luke.py
+++ b/tests/test_tokenization_luke.py
@@ -15,6 +15,7 @@


 import unittest
+from typing import Tuple

 from transformers import AddedToken, LukeTokenizer
 from transformers.testing_utils import require_torch, slow
@@ -81,6 +82,11 @@ class Luke(TokenizerTesterMixin, unittest.TestCase):
        assert encoded_sentence == encoded_text_from_decode
        assert encoded_pair == encoded_pair_from_decode

+    def get_clean_sequence(self, tokenizer, max_length=20) -> Tuple[str, list]:
+        txt = "Beyonce lives in Los Angeles"
+        ids = tokenizer.encode(txt, add_special_tokens=False)
+        return txt, ids
+
    def test_space_encoding(self):
        tokenizer = self.get_tokenizer()