Merge pull request #1059 from GuillemGSubies/master

Better use of spacy tokenizer in open ai and xlm tokenizers
2019-08-21 01:53:48 +02:00
parent 260c86082d 388e3251fa
commit 41789c6c3d
2 changed files with 6 additions and 4 deletions
--- a/pytorch_transformers/tokenization_openai.py
+++ b/pytorch_transformers/tokenization_openai.py
@@ -89,8 +89,9 @@ class OpenAIGPTTokenizer(PreTrainedTokenizer):
        try:
            import ftfy
-            import spacy
+            from spacy.lang.en import English
-            self.nlp = spacy.load('en', disable=['parser', 'tagger', 'ner', 'textcat'])
+            _nlp = English()
            self.nlp = _nlp.Defaults.create_tokenizer(_nlp)
            self.fix_text = ftfy.fix_text
        except ImportError:
            logger.warning("ftfy or spacy is not installed using BERT BasicTokenizer instead of SpaCy & ftfy.")
--- a/pytorch_transformers/tokenization_xlm.py
+++ b/pytorch_transformers/tokenization_xlm.py
@@ -124,8 +124,9 @@ class XLMTokenizer(PreTrainedTokenizer):
                                           **kwargs)
        try:
            import ftfy
-            import spacy
+            from spacy.lang.en import English
-            self.nlp = spacy.load('en', disable=['parser', 'tagger', 'ner', 'textcat'])
+            _nlp = English()
            self.nlp = _nlp.Defaults.create_tokenizer(_nlp)
            self.fix_text = ftfy.fix_text
        except ImportError:
            logger.warning("ftfy or spacy is not installed using BERT BasicTokenizer instead of SpaCy & ftfy.")