Feed forward chunking others (#6365)

* Feed forward chunking for Distilbert & Albert * Added ff chunking for many other models * Change model signature * Added chunking for XLM * Cleaned up by removing some variables. * remove test_chunking flag Co-authored-by: patrickvonplaten <patrick.v.platen@gmail.com>
2020-08-19 05:31:10 -07:00
parent fe0b85e77a
commit 2a7402cbd3
13 changed files with 78 additions and 31 deletions
--- a/src/transformers/configuration_utils.py
+++ b/src/transformers/configuration_utils.py
@@ -191,6 +191,7 @@ class PretrainedConfig(object):
        self.pad_token_id = kwargs.pop("pad_token_id", None)
        self.eos_token_id = kwargs.pop("eos_token_id", None)
        self.decoder_start_token_id = kwargs.pop("decoder_start_token_id", None)
+        self.chunk_size_feed_forward = kwargs.pop("chunk_size_feed_forwar", 0)

        # task specific arguments
        self.task_specific_params = kwargs.pop("task_specific_params", None)