Reformat (#9482)

2021-01-10 15:10:15 +01:00
parent 96f1f74aaf
commit 4f7022d68d
19 changed files with 151 additions and 415 deletions
--- a/src/transformers/models/albert/modeling_tf_albert.py
+++ b/src/transformers/models/albert/modeling_tf_albert.py
@@ -803,6 +803,7 @@ class TFAlbertModel(TFAlbertPreTrainedModel):
        return outputs
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertModel.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
@@ -1080,15 +1081,12 @@ class TFAlbertForMaskedLM(TFAlbertPreTrainedModel, TFMaskedLanguageModelingLoss)
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForMaskedLM.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFMaskedLMOutput(
+        return TFMaskedLMOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1186,15 +1184,12 @@ class TFAlbertForSequenceClassification(TFAlbertPreTrainedModel, TFSequenceClass
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForSequenceClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFSequenceClassifierOutput(
+        return TFSequenceClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1291,15 +1286,12 @@ class TFAlbertForTokenClassification(TFAlbertPreTrainedModel, TFTokenClassificat
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForTokenClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFTokenClassifierOutput(
+        return TFTokenClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1409,15 +1401,13 @@ class TFAlbertForQuestionAnswering(TFAlbertPreTrainedModel, TFQuestionAnsweringL
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForQuestionAnswering.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
        return TFQuestionAnsweringModelOutput(
-            start_logits=output.start_logits,
+            start_logits=output.start_logits, end_logits=output.end_logits, hidden_states=hs, attentions=attns
            end_logits=output.end_logits,
            hidden_states=hs,
            attentions=attns,
        )
@@ -1564,12 +1554,9 @@ class TFAlbertForMultipleChoice(TFAlbertPreTrainedModel, TFMultipleChoiceLoss):
        return self.serving_output(output)
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForMultipleChoice.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFMultipleChoiceModelOutput(
+        return TFMultipleChoiceModelOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
--- a/src/transformers/models/bert/modeling_tf_bert.py
+++ b/src/transformers/models/bert/modeling_tf_bert.py
@@ -1128,11 +1128,7 @@ class TFBertForMaskedLM(TFBertPreTrainedModel, TFMaskedLanguageModelingLoss):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFMaskedLMOutput(
+        return TFMaskedLMOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
 class TFBertLMHeadModel(TFBertPreTrainedModel, TFCausalLanguageModelingLoss):
@@ -1241,11 +1237,7 @@ class TFBertLMHeadModel(TFBertPreTrainedModel, TFCausalLanguageModelingLoss):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFCausalLMOutput(
+        return TFCausalLMOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1348,11 +1340,7 @@ class TFBertForNextSentencePrediction(TFBertPreTrainedModel, TFNextSentencePredi
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFNextSentencePredictorOutput(
+        return TFNextSentencePredictorOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1453,11 +1441,7 @@ class TFBertForSequenceClassification(TFBertPreTrainedModel, TFSequenceClassific
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFSequenceClassifierOutput(
+        return TFSequenceClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1605,11 +1589,7 @@ class TFBertForMultipleChoice(TFBertPreTrainedModel, TFMultipleChoiceLoss):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFMultipleChoiceModelOutput(
+        return TFMultipleChoiceModelOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1715,11 +1695,7 @@ class TFBertForTokenClassification(TFBertPreTrainedModel, TFTokenClassificationL
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFTokenClassifierOutput(
+        return TFTokenClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1839,8 +1815,5 @@ class TFBertForQuestionAnswering(TFBertPreTrainedModel, TFQuestionAnsweringLoss)
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
        return TFQuestionAnsweringModelOutput(
-            start_logits=output.start_logits,
+            start_logits=output.start_logits, end_logits=output.end_logits, hidden_states=hs, attentions=attns
            end_logits=output.end_logits,
            hidden_states=hs,
            attentions=attns,
        )
--- a/src/transformers/models/ctrl/modeling_tf_ctrl.py
+++ b/src/transformers/models/ctrl/modeling_tf_ctrl.py
@@ -594,16 +594,14 @@ class TFCTRLModel(TFCTRLPreTrainedModel):
        )
        return outputs
    # Copied from transformers.models.gpt2.modeling_tf_gpt2.TFGPT2Model.serving_output
    def serving_output(self, output):
        pkv = tf.convert_to_tensor(output.past_key_values) if self.config.use_cache else None
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
        return TFBaseModelOutputWithPast(
-            last_hidden_state=output.last_hidden_state,
+            last_hidden_state=output.last_hidden_state, past_key_values=pkv, hidden_states=hs, attentions=attns
            past_key_values=pkv,
            hidden_states=hs,
            attentions=attns,
        )
@@ -741,17 +739,13 @@ class TFCTRLLMHeadModel(TFCTRLPreTrainedModel, TFCausalLanguageModelingLoss):
            attentions=transformer_outputs.attentions,
        )
    # Copied from transformers.models.gpt2.modeling_tf_gpt2.TFGPT2LMHeadModel.serving_output
    def serving_output(self, output):
        pkv = tf.convert_to_tensor(output.past_key_values) if self.config.use_cache else None
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFCausalLMOutputWithPast(
+        return TFCausalLMOutputWithPast(logits=output.logits, past_key_values=pkv, hidden_states=hs, attentions=attns)
            logits=output.logits,
            past_key_values=pkv,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -910,12 +904,9 @@ class TFCTRLForSequenceClassification(TFCTRLPreTrainedModel, TFSequenceClassific
            attentions=transformer_outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForSequenceClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFSequenceClassifierOutput(
+        return TFSequenceClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
--- a/src/transformers/models/distilbert/modeling_tf_distilbert.py
+++ b/src/transformers/models/distilbert/modeling_tf_distilbert.py
@@ -632,11 +632,7 @@ class TFDistilBertModel(TFDistilBertPreTrainedModel):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFBaseModelOutput(
+        return TFBaseModelOutput(last_hidden_state=output.last_hidden_state, hidden_states=hs, attentions=attns)
            last_hidden_state=output.last_hidden_state,
            hidden_states=hs,
            attentions=attns,
        )
 class TFDistilBertLMHead(tf.keras.layers.Layer):
@@ -753,15 +749,12 @@ class TFDistilBertForMaskedLM(TFDistilBertPreTrainedModel, TFMaskedLanguageModel
            attentions=distilbert_output.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForMaskedLM.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFMaskedLMOutput(
+        return TFMaskedLMOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -857,15 +850,12 @@ class TFDistilBertForSequenceClassification(TFDistilBertPreTrainedModel, TFSeque
            attentions=distilbert_output.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForSequenceClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFSequenceClassifierOutput(
+        return TFSequenceClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -951,15 +941,12 @@ class TFDistilBertForTokenClassification(TFDistilBertPreTrainedModel, TFTokenCla
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForTokenClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFTokenClassifierOutput(
+        return TFTokenClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1097,15 +1084,12 @@ class TFDistilBertForMultipleChoice(TFDistilBertPreTrainedModel, TFMultipleChoic
        return self.serving_output(output)
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForMultipleChoice.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFMultipleChoiceModelOutput(
+        return TFMultipleChoiceModelOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1207,13 +1191,11 @@ class TFDistilBertForQuestionAnswering(TFDistilBertPreTrainedModel, TFQuestionAn
            attentions=distilbert_output.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForQuestionAnswering.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
        return TFQuestionAnsweringModelOutput(
-            start_logits=output.start_logits,
+            start_logits=output.start_logits, end_logits=output.end_logits, hidden_states=hs, attentions=attns
            end_logits=output.end_logits,
            hidden_states=hs,
            attentions=attns,
        )
--- a/src/transformers/models/dpr/modeling_tf_dpr.py
+++ b/src/transformers/models/dpr/modeling_tf_dpr.py
@@ -658,11 +658,7 @@ class TFDPRContextEncoder(TFDPRPretrainedContextEncoder):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFDPRContextEncoderOutput(
+        return TFDPRContextEncoderOutput(pooler_output=output.pooler_output, hidden_states=hs, attentions=attns)
            pooler_output=output.pooler_output,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -755,11 +751,7 @@ class TFDPRQuestionEncoder(TFDPRPretrainedQuestionEncoder):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFDPRQuestionEncoderOutput(
+        return TFDPRQuestionEncoderOutput(pooler_output=output.pooler_output, hidden_states=hs, attentions=attns)
            pooler_output=output.pooler_output,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
--- a/src/transformers/models/electra/modeling_tf_electra.py
+++ b/src/transformers/models/electra/modeling_tf_electra.py
@@ -800,15 +800,12 @@ class TFElectraModel(TFElectraPreTrainedModel):
        return outputs
    # Copied from transformers.models.distilbert.modeling_tf_distilbert.TFDistilBertModel.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFBaseModelOutput(
+        return TFBaseModelOutput(last_hidden_state=output.last_hidden_state, hidden_states=hs, attentions=attns)
            last_hidden_state=output.last_hidden_state,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -900,11 +897,7 @@ class TFElectraForPreTraining(TFElectraPreTrainedModel):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFElectraForPreTrainingOutput(
+        return TFElectraForPreTrainingOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
 class TFElectraMaskedLMHead(tf.keras.layers.Layer):
@@ -1032,15 +1025,12 @@ class TFElectraForMaskedLM(TFElectraPreTrainedModel, TFMaskedLanguageModelingLos
            attentions=generator_hidden_states.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForMaskedLM.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFMaskedLMOutput(
+        return TFMaskedLMOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
 class TFElectraClassificationHead(tf.keras.layers.Layer):
@@ -1153,15 +1143,12 @@ class TFElectraForSequenceClassification(TFElectraPreTrainedModel, TFSequenceCla
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForSequenceClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFSequenceClassifierOutput(
+        return TFSequenceClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1303,15 +1290,12 @@ class TFElectraForMultipleChoice(TFElectraPreTrainedModel, TFMultipleChoiceLoss)
        return self.serving_output(output)
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForMultipleChoice.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFMultipleChoiceModelOutput(
+        return TFMultipleChoiceModelOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1404,15 +1388,12 @@ class TFElectraForTokenClassification(TFElectraPreTrainedModel, TFTokenClassific
            attentions=discriminator_hidden_states.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForTokenClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFTokenClassifierOutput(
+        return TFTokenClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1522,13 +1503,11 @@ class TFElectraForQuestionAnswering(TFElectraPreTrainedModel, TFQuestionAnswerin
            attentions=discriminator_hidden_states.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForQuestionAnswering.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
        return TFQuestionAnsweringModelOutput(
-            start_logits=output.start_logits,
+            start_logits=output.start_logits, end_logits=output.end_logits, hidden_states=hs, attentions=attns
            end_logits=output.end_logits,
            hidden_states=hs,
            attentions=attns,
        )
--- a/src/transformers/models/flaubert/modeling_tf_flaubert.py
+++ b/src/transformers/models/flaubert/modeling_tf_flaubert.py
@@ -288,15 +288,12 @@ class TFFlaubertModel(TFFlaubertPreTrainedModel):
        return outputs
    # Copied from transformers.models.distilbert.modeling_tf_distilbert.TFDistilBertModel.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFBaseModelOutput(
+        return TFBaseModelOutput(last_hidden_state=output.last_hidden_state, hidden_states=hs, attentions=attns)
            last_hidden_state=output.last_hidden_state,
            hidden_states=hs,
            attentions=attns,
        )
 # Copied from transformers.models.xlm.modeling_tf_xlm.TFXLMMultiHeadAttention with XLM->Flaubert
@@ -864,11 +861,7 @@ class TFFlaubertWithLMHeadModel(TFFlaubertPreTrainedModel):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFFlaubertWithLMHeadModelOutput(
+        return TFFlaubertWithLMHeadModelOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
--- a/src/transformers/models/funnel/modeling_tf_funnel.py
+++ b/src/transformers/models/funnel/modeling_tf_funnel.py
@@ -1189,15 +1189,12 @@ class TFFunnelBaseModel(TFFunnelPreTrainedModel):
            training=inputs["training"],
        )
    # Copied from transformers.models.distilbert.modeling_tf_distilbert.TFDistilBertModel.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFBaseModelOutput(
+        return TFBaseModelOutput(last_hidden_state=output.last_hidden_state, hidden_states=hs, attentions=attns)
            last_hidden_state=output.last_hidden_state,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1253,15 +1250,12 @@ class TFFunnelModel(TFFunnelPreTrainedModel):
            training=inputs["training"],
        )
    # Copied from transformers.models.distilbert.modeling_tf_distilbert.TFDistilBertModel.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFBaseModelOutput(
+        return TFBaseModelOutput(last_hidden_state=output.last_hidden_state, hidden_states=hs, attentions=attns)
            last_hidden_state=output.last_hidden_state,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1344,11 +1338,7 @@ class TFFunnelForPreTraining(TFFunnelPreTrainedModel):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFFunnelForPreTrainingOutput(
+        return TFFunnelForPreTrainingOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings("""Funnel Model with a `language modeling` head on top. """, FUNNEL_START_DOCSTRING)
@@ -1434,15 +1424,12 @@ class TFFunnelForMaskedLM(TFFunnelPreTrainedModel, TFMaskedLanguageModelingLoss)
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForMaskedLM.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFMaskedLMOutput(
+        return TFMaskedLMOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1527,15 +1514,12 @@ class TFFunnelForSequenceClassification(TFFunnelPreTrainedModel, TFSequenceClass
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForSequenceClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFSequenceClassifierOutput(
+        return TFSequenceClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1666,15 +1650,12 @@ class TFFunnelForMultipleChoice(TFFunnelPreTrainedModel, TFMultipleChoiceLoss):
        return self.serving_output(output)
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForMultipleChoice.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFMultipleChoiceModelOutput(
+        return TFMultipleChoiceModelOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1762,15 +1743,12 @@ class TFFunnelForTokenClassification(TFFunnelPreTrainedModel, TFTokenClassificat
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForTokenClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFTokenClassifierOutput(
+        return TFTokenClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1870,13 +1848,11 @@ class TFFunnelForQuestionAnswering(TFFunnelPreTrainedModel, TFQuestionAnsweringL
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForQuestionAnswering.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
        return TFQuestionAnsweringModelOutput(
-            start_logits=output.start_logits,
+            start_logits=output.start_logits, end_logits=output.end_logits, hidden_states=hs, attentions=attns
            end_logits=output.end_logits,
            hidden_states=hs,
            attentions=attns,
        )
--- a/src/transformers/models/gpt2/modeling_tf_gpt2.py
+++ b/src/transformers/models/gpt2/modeling_tf_gpt2.py
@@ -636,10 +636,7 @@ class TFGPT2Model(TFGPT2PreTrainedModel):
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
        return TFBaseModelOutputWithPast(
-            last_hidden_state=output.last_hidden_state,
+            last_hidden_state=output.last_hidden_state, past_key_values=pkv, hidden_states=hs, attentions=attns
            past_key_values=pkv,
            hidden_states=hs,
            attentions=attns,
        )
@@ -753,12 +750,7 @@ class TFGPT2LMHeadModel(TFGPT2PreTrainedModel, TFCausalLanguageModelingLoss):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFCausalLMOutputWithPast(
+        return TFCausalLMOutputWithPast(logits=output.logits, past_key_values=pkv, hidden_states=hs, attentions=attns)
            logits=output.logits,
            past_key_values=pkv,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1086,8 +1078,5 @@ class TFGPT2ForSequenceClassification(TFGPT2PreTrainedModel, TFSequenceClassific
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
        return TFSequenceClassifierOutputWithPast(
-            logits=output.logits,
+            logits=output.logits, past_key_values=pkv, hidden_states=hs, attentions=attns
            past_key_values=pkv,
            hidden_states=hs,
            attentions=attns,
        )
--- a/src/transformers/models/longformer/modeling_tf_longformer.py
+++ b/src/transformers/models/longformer/modeling_tf_longformer.py
@@ -2128,11 +2128,7 @@ class TFLongformerForMaskedLM(TFLongformerPreTrainedModel, TFMaskedLanguageModel
        g_attns = tf.convert_to_tensor(output.global_attentions) if self.config.output_attentions else None
        return TFLongformerMaskedLMOutput(
-            loss=None,
+            logits=output.logits, hidden_states=hs, attentions=attns, global_attentions=g_attns
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
            global_attentions=g_attns,
        )
@@ -2407,10 +2403,7 @@ class TFLongformerForSequenceClassification(TFLongformerPreTrainedModel, TFSeque
        g_attns = tf.convert_to_tensor(output.global_attentions) if self.config.output_attentions else None
        return TFLongformerSequenceClassifierOutput(
-            logits=output.logits,
+            logits=output.logits, hidden_states=hs, attentions=attns, global_attentions=g_attns
            hidden_states=hs,
            attentions=attns,
            global_attentions=g_attns,
        )
@@ -2567,10 +2560,7 @@ class TFLongformerForMultipleChoice(TFLongformerPreTrainedModel, TFMultipleChoic
        g_attns = tf.convert_to_tensor(output.global_attentions) if self.config.output_attentions else None
        return TFLongformerMultipleChoiceModelOutput(
-            logits=output.logits,
+            logits=output.logits, hidden_states=hs, attentions=attns, global_attentions=g_attns
            hidden_states=hs,
            attentions=attns,
            global_attentions=g_attns,
        )
@@ -2674,8 +2664,5 @@ class TFLongformerForTokenClassification(TFLongformerPreTrainedModel, TFTokenCla
        g_attns = tf.convert_to_tensor(output.global_attentions) if self.config.output_attentions else None
        return TFLongformerTokenClassifierOutput(
-            logits=output.logits,
+            logits=output.logits, hidden_states=hs, attentions=attns, global_attentions=g_attns
            hidden_states=hs,
            attentions=attns,
            global_attentions=g_attns,
        )
--- a/src/transformers/models/mobilebert/modeling_tf_mobilebert.py
+++ b/src/transformers/models/mobilebert/modeling_tf_mobilebert.py
@@ -1012,6 +1012,7 @@ class TFMobileBertModel(TFMobileBertPreTrainedModel):
        return outputs
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertModel.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
@@ -1229,15 +1230,12 @@ class TFMobileBertForMaskedLM(TFMobileBertPreTrainedModel, TFMaskedLanguageModel
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForMaskedLM.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFMaskedLMOutput(
+        return TFMaskedLMOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
 class TFMobileBertOnlyNSPHead(tf.keras.layers.Layer):
@@ -1346,15 +1344,12 @@ class TFMobileBertForNextSentencePrediction(TFMobileBertPreTrainedModel, TFNextS
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForNextSentencePrediction.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFNextSentencePredictorOutput(
+        return TFNextSentencePredictorOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1458,15 +1453,12 @@ class TFMobileBertForSequenceClassification(TFMobileBertPreTrainedModel, TFSeque
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForSequenceClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFSequenceClassifierOutput(
+        return TFSequenceClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1582,15 +1574,13 @@ class TFMobileBertForQuestionAnswering(TFMobileBertPreTrainedModel, TFQuestionAn
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForQuestionAnswering.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
        return TFQuestionAnsweringModelOutput(
-            start_logits=output.start_logits,
+            start_logits=output.start_logits, end_logits=output.end_logits, hidden_states=hs, attentions=attns
            end_logits=output.end_logits,
            hidden_states=hs,
            attentions=attns,
        )
@@ -1743,15 +1733,12 @@ class TFMobileBertForMultipleChoice(TFMobileBertPreTrainedModel, TFMultipleChoic
        return self.serving_output(output)
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForMultipleChoice.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFMultipleChoiceModelOutput(
+        return TFMultipleChoiceModelOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1855,12 +1842,9 @@ class TFMobileBertForTokenClassification(TFMobileBertPreTrainedModel, TFTokenCla
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForTokenClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFTokenClassifierOutput(
+        return TFTokenClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
--- a/src/transformers/models/mpnet/modeling_tf_mpnet.py
+++ b/src/transformers/models/mpnet/modeling_tf_mpnet.py
@@ -805,6 +805,7 @@ class TFMPNetModel(TFMPNetPreTrainedModel):
        )
        return outputs
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertModel.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
@@ -942,15 +943,12 @@ class TFMPNetForMaskedLM(TFMPNetPreTrainedModel, TFMaskedLanguageModelingLoss):
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForMaskedLM.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFMaskedLMOutput(
+        return TFMaskedLMOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
 class TFMPNetClassificationHead(tf.keras.layers.Layer):
@@ -1069,15 +1067,12 @@ class TFMPNetForSequenceClassification(TFMPNetPreTrainedModel, TFSequenceClassif
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForSequenceClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFSequenceClassifierOutput(
+        return TFSequenceClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1216,15 +1211,12 @@ class TFMPNetForMultipleChoice(TFMPNetPreTrainedModel, TFMultipleChoiceLoss):
        return self.serving_output(output)
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForMultipleChoice.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFMultipleChoiceModelOutput(
+        return TFMultipleChoiceModelOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1321,15 +1313,12 @@ class TFMPNetForTokenClassification(TFMPNetPreTrainedModel, TFTokenClassificatio
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForTokenClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFTokenClassifierOutput(
+        return TFTokenClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1439,13 +1428,11 @@ class TFMPNetForQuestionAnswering(TFMPNetPreTrainedModel, TFQuestionAnsweringLos
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForQuestionAnswering.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
        return TFQuestionAnsweringModelOutput(
-            start_logits=output.start_logits,
+            start_logits=output.start_logits, end_logits=output.end_logits, hidden_states=hs, attentions=attns
            end_logits=output.end_logits,
            hidden_states=hs,
            attentions=attns,
        )
--- a/src/transformers/models/openai/modeling_tf_openai.py
+++ b/src/transformers/models/openai/modeling_tf_openai.py
@@ -556,15 +556,12 @@ class TFOpenAIGPTModel(TFOpenAIGPTPreTrainedModel):
        )
        return outputs
    # Copied from transformers.models.distilbert.modeling_tf_distilbert.TFDistilBertModel.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFBaseModelOutput(
+        return TFBaseModelOutput(last_hidden_state=output.last_hidden_state, hidden_states=hs, attentions=attns)
            last_hidden_state=output.last_hidden_state,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -659,15 +656,12 @@ class TFOpenAIGPTLMHeadModel(TFOpenAIGPTPreTrainedModel, TFCausalLanguageModelin
            attentions=transformer_outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertLMHeadModel.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFCausalLMOutput(
+        return TFCausalLMOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -816,10 +810,7 @@ class TFOpenAIGPTDoubleHeadsModel(TFOpenAIGPTPreTrainedModel):
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
        return TFOpenAIGPTDoubleHeadsModelOutput(
-            logits=output.logits,
+            logits=output.logits, mc_logits=output.mc_logits, hidden_states=hs, attentions=attns
            mc_logits=output.mc_logits,
            hidden_states=hs,
            attentions=attns,
        )
@@ -973,12 +964,9 @@ class TFOpenAIGPTForSequenceClassification(TFOpenAIGPTPreTrainedModel, TFSequenc
            attentions=transformer_outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForSequenceClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFSequenceClassifierOutput(
+        return TFSequenceClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
--- a/src/transformers/models/roberta/modeling_tf_roberta.py
+++ b/src/transformers/models/roberta/modeling_tf_roberta.py
@@ -792,6 +792,7 @@ class TFRobertaModel(TFRobertaPreTrainedModel):
        return outputs
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertModel.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
@@ -930,15 +931,12 @@ class TFRobertaForMaskedLM(TFRobertaPreTrainedModel, TFMaskedLanguageModelingLos
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForMaskedLM.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFMaskedLMOutput(
+        return TFMaskedLMOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
 class TFRobertaClassificationHead(tf.keras.layers.Layer):
@@ -1056,15 +1054,12 @@ class TFRobertaForSequenceClassification(TFRobertaPreTrainedModel, TFSequenceCla
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForSequenceClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFSequenceClassifierOutput(
+        return TFSequenceClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1203,15 +1198,12 @@ class TFRobertaForMultipleChoice(TFRobertaPreTrainedModel, TFMultipleChoiceLoss)
        return self.serving_output(output)
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForMultipleChoice.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFMultipleChoiceModelOutput(
+        return TFMultipleChoiceModelOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1309,15 +1301,12 @@ class TFRobertaForTokenClassification(TFRobertaPreTrainedModel, TFTokenClassific
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForTokenClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFTokenClassifierOutput(
+        return TFTokenClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1427,13 +1416,11 @@ class TFRobertaForQuestionAnswering(TFRobertaPreTrainedModel, TFQuestionAnswerin
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForQuestionAnswering.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
        return TFQuestionAnsweringModelOutput(
-            start_logits=output.start_logits,
+            start_logits=output.start_logits, end_logits=output.end_logits, hidden_states=hs, attentions=attns
            end_logits=output.end_logits,
            hidden_states=hs,
            attentions=attns,
        )
--- a/src/transformers/models/t5/modeling_tf_t5.py
+++ b/src/transformers/models/t5/modeling_tf_t5.py
@@ -1571,12 +1571,9 @@ class TFT5EncoderModel(TFT5PreTrainedModel):
            attentions=encoder_outputs.attentions,
        )
    # Copied from transformers.models.distilbert.modeling_tf_distilbert.TFDistilBertModel.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFBaseModelOutput(
+        return TFBaseModelOutput(last_hidden_state=output.last_hidden_state, hidden_states=hs, attentions=attns)
            last_hidden_state=output.last_hidden_state,
            hidden_states=hs,
            attentions=attns,
        )
--- a/src/transformers/models/transfo_xl/modeling_tf_transfo_xl.py
+++ b/src/transformers/models/transfo_xl/modeling_tf_transfo_xl.py
@@ -1196,8 +1196,5 @@ class TFTransfoXLForSequenceClassification(TFTransfoXLPreTrainedModel, TFSequenc
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
        return TFTransfoXLSequenceClassifierOutputWithPast(
-            logits=output.logits,
+            logits=output.logits, mems=tf.convert_to_tensor(output.mems), hidden_states=hs, attentions=attns
            mems=tf.convert_to_tensor(output.mems),
            hidden_states=hs,
            attentions=attns,
        )
--- a/src/transformers/models/xlm/modeling_tf_xlm.py
+++ b/src/transformers/models/xlm/modeling_tf_xlm.py
@@ -749,15 +749,12 @@ class TFXLMModel(TFXLMPreTrainedModel):
        return outputs
    # Copied from transformers.models.distilbert.modeling_tf_distilbert.TFDistilBertModel.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFBaseModelOutput(
+        return TFBaseModelOutput(last_hidden_state=output.last_hidden_state, hidden_states=hs, attentions=attns)
            last_hidden_state=output.last_hidden_state,
            hidden_states=hs,
            attentions=attns,
        )
 class TFXLMPredLayer(tf.keras.layers.Layer):
@@ -905,11 +902,7 @@ class TFXLMWithLMHeadModel(TFXLMPreTrainedModel):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFXLMWithLMHeadModelOutput(
+        return TFXLMWithLMHeadModelOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1009,15 +1002,12 @@ class TFXLMForSequenceClassification(TFXLMPreTrainedModel, TFSequenceClassificat
            attentions=transformer_outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForSequenceClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFSequenceClassifierOutput(
+        return TFSequenceClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1173,15 +1163,12 @@ class TFXLMForMultipleChoice(TFXLMPreTrainedModel, TFMultipleChoiceLoss):
        return self.serving_output(output)
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForMultipleChoice.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFMultipleChoiceModelOutput(
+        return TFMultipleChoiceModelOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1284,15 +1271,12 @@ class TFXLMForTokenClassification(TFXLMPreTrainedModel, TFTokenClassificationLos
            attentions=transformer_outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForTokenClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFTokenClassifierOutput(
+        return TFTokenClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1406,13 +1390,11 @@ class TFXLMForQuestionAnsweringSimple(TFXLMPreTrainedModel, TFQuestionAnsweringL
            attentions=transformer_outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForQuestionAnswering.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
        return TFQuestionAnsweringModelOutput(
-            start_logits=output.start_logits,
+            start_logits=output.start_logits, end_logits=output.end_logits, hidden_states=hs, attentions=attns
            end_logits=output.end_logits,
            hidden_states=hs,
            attentions=attns,
        )
--- a/src/transformers/models/xlnet/modeling_tf_xlnet.py
+++ b/src/transformers/models/xlnet/modeling_tf_xlnet.py
@@ -1211,10 +1211,7 @@ class TFXLNetModel(TFXLNetPreTrainedModel):
        mems = tf.convert_to_tensor(output.mems) if output.mems is not None else None
        return TFXLNetModelOutput(
-            last_hidden_state=output.last_hidden_state,
+            last_hidden_state=output.last_hidden_state, mems=mems, hidden_states=hs, attentions=attns
            mems=mems,
            hidden_states=hs,
            attentions=attns,
        )
@@ -1393,12 +1390,7 @@ class TFXLNetLMHeadModel(TFXLNetPreTrainedModel, TFCausalLanguageModelingLoss):
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
        mems = tf.convert_to_tensor(output.mems) if output.mems is not None else None
-        return TFXLNetLMHeadModelOutput(
+        return TFXLNetLMHeadModelOutput(logits=output.logits, mems=mems, hidden_states=hs, attentions=attns)
            logits=output.logits,
            mems=mems,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1514,10 +1506,7 @@ class TFXLNetForSequenceClassification(TFXLNetPreTrainedModel, TFSequenceClassif
        mems = tf.convert_to_tensor(output.mems) if output.mems is not None else None
        return TFXLNetForSequenceClassificationOutput(
-            logits=output.logits,
+            logits=output.logits, mems=mems, hidden_states=hs, attentions=attns
            mems=mems,
            hidden_states=hs,
            attentions=attns,
        )
@@ -1679,12 +1668,7 @@ class TFXLNetForMultipleChoice(TFXLNetPreTrainedModel, TFMultipleChoiceLoss):
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
        mems = tf.convert_to_tensor(output.mems) if output.mems is not None else None
-        return TFXLNetForMultipleChoiceOutput(
+        return TFXLNetForMultipleChoiceOutput(logits=output.logits, mems=mems, hidden_states=hs, attentions=attns)
            logits=output.logits,
            mems=mems,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1793,12 +1777,7 @@ class TFXLNetForTokenClassification(TFXLNetPreTrainedModel, TFTokenClassificatio
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
        mems = tf.convert_to_tensor(output.mems) if output.mems is not None else None
-        return TFXLNetForTokenClassificationOutput(
+        return TFXLNetForTokenClassificationOutput(logits=output.logits, mems=mems, hidden_states=hs, attentions=attns)
            logits=output.logits,
            mems=mems,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
--- a/templates/adding_a_new_model/cookiecutter-template-{{cookiecutter.modelname}}/modeling_tf_{{cookiecutter.lowercase_modelname}}.py
+++ b/templates/adding_a_new_model/cookiecutter-template-{{cookiecutter.modelname}}/modeling_tf_{{cookiecutter.lowercase_modelname}}.py
@@ -777,6 +777,7 @@ class TF{{cookiecutter.camelcase_modelname}}Model(TF{{cookiecutter.camelcase_mod
        return outputs
    # Copied from transformers.models.distilbert.modeling_tf_distilbert.TFDistilBertModel.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
@@ -885,15 +886,12 @@ class TF{{cookiecutter.camelcase_modelname}}ForMaskedLM(TF{{cookiecutter.camelca
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForMaskedLM.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFMaskedLMOutput(
+        return TFMaskedLMOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
    """{{cookiecutter.modelname}} Model with a `language modeling` head on top for CLM fine-tuning. """, {{cookiecutter.uppercase_modelname}}_START_DOCSTRING
@@ -993,15 +991,12 @@ class TF{{cookiecutter.camelcase_modelname}}ForCausalLM(TF{{cookiecutter.camelca
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertLMHeadModel.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFCausalLMOutput(
+        return TFCausalLMOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
 class TF{{cookiecutter.camelcase_modelname}}ClassificationHead(tf.keras.layers.Layer):
    """Head for sentence-level classification tasks."""
@@ -1114,15 +1109,12 @@ class TF{{cookiecutter.camelcase_modelname}}ForSequenceClassification(TF{{cookie
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForSequenceClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFSequenceClassifierOutput(
+        return TFSequenceClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1258,15 +1250,12 @@ class TF{{cookiecutter.camelcase_modelname}}ForMultipleChoice(TF{{cookiecutter.c
        return self.serving_output(output)
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForMultipleChoice.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFMultipleChoiceModelOutput(
+        return TFMultipleChoiceModelOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1357,15 +1346,12 @@ class TF{{cookiecutter.camelcase_modelname}}ForTokenClassification(TF{{cookiecut
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForTokenClassification.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
-        return TFTokenClassifierOutput(
+        return TFTokenClassifierOutput(logits=output.logits, hidden_states=hs, attentions=attns)
            logits=output.logits,
            hidden_states=hs,
            attentions=attns,
        )
@add_start_docstrings(
@@ -1470,15 +1456,13 @@ class TF{{cookiecutter.camelcase_modelname}}ForQuestionAnswering(TF{{cookiecutte
            attentions=outputs.attentions,
        )
    # Copied from transformers.models.bert.modeling_tf_bert.TFBertForQuestionAnswering.serving_output
    def serving_output(self, output):
        hs = tf.convert_to_tensor(output.hidden_states) if self.config.output_hidden_states else None
        attns = tf.convert_to_tensor(output.attentions) if self.config.output_attentions else None
        return TFQuestionAnsweringModelOutput(
-            start_logits=output.start_logits,
+            start_logits=output.start_logits, end_logits=output.end_logits, hidden_states=hs, attentions=attns
            end_logits=output.end_logits,
            hidden_states=hs,
            attentions=attns,
        )
 {% else %}
@@ -2454,6 +2438,7 @@ class TF{{cookiecutter.camelcase_modelname}}Model(TF{{cookiecutter.camelcase_mod
            encoder_attentions=inputs["encoder_outputs"].attentions,
        )
    # Copied from transformers.models.bart.modeling_tf_bart.TFBartModel.serving_output
    def serving_output(self, output):
        pkv = tf.tuple(output.past_key_values)[1] if self.config.use_cache else None,
        dec_hs = tf.convert_to_tensor(output.decoder_hidden_states) if self.config.output_hidden_states else None
@@ -2616,6 +2601,7 @@ class TF{{cookiecutter.camelcase_modelname}}ForConditionalGeneration(TF{{cookiec
            encoder_attentions=outputs.encoder_attentions,  # 2 of e out
        )
    # Copied from transformers.models.bart.modeling_tf_bart.TFBartForConditionalGeneration.serving_output
    def serving_output(self, output):
        pkv = tf.tuple(output.past_key_values)[1] if self.config.use_cache else None,
        dec_hs = tf.convert_to_tensor(output.decoder_hidden_states) if self.config.output_hidden_states else None