Sort imports with isort.

This is the result of: $ isort --recursive examples templates transformers utils hubconf.py setup.py
2019-12-21 15:57:32 +01:00
parent bc1715c1e0
commit 158e82e061
195 changed files with 1182 additions and 1044 deletions
--- a/examples/benchmarks.py
+++ b/examples/benchmarks.py
@@ -18,12 +18,14 @@
 # If checking the tensors placement
 # tf.debugging.set_log_device_placement(True)

-from typing import List
-import timeit
-from transformers import is_tf_available, is_torch_available
-from time import time
 import argparse
 import csv
+import timeit
+from time import time
+from typing import List
+
+from transformers import AutoConfig, AutoTokenizer, is_tf_available, is_torch_available
+

 if is_tf_available():
    import tensorflow as tf
@@ -33,7 +35,6 @@ if is_torch_available():
    import torch
    from transformers import AutoModel

-from transformers import AutoConfig, AutoTokenizer

 input_text = """Bent over their instruments, three hundred Fertilizers were plunged, as 
 the Director of Hatcheries and Conditioning entered the room, in the 
--- a/examples/contrib/run_camembert.py
+++ b/examples/contrib/run_camembert.py
@@ -1,11 +1,11 @@
-from pathlib import Path
 import tarfile
 import urllib.request
+from pathlib import Path

 import torch

-from transformers.tokenization_camembert import CamembertTokenizer
 from transformers.modeling_camembert import CamembertForMaskedLM
+from transformers.tokenization_camembert import CamembertTokenizer


 def fill_mask(masked_input, model, tokenizer, topk=5):
--- a/examples/contrib/run_openai_gpt.py
+++ b/examples/contrib/run_openai_gpt.py
@@ -28,26 +28,27 @@
          --train_batch_size 16 \
 """
 import argparse
-import os
 import csv
-import random
 import logging
-from tqdm import tqdm, trange
+import os
+import random

 import numpy as np
 import torch
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset
+from tqdm import tqdm, trange

 from transformers import (
+    CONFIG_NAME,
+    WEIGHTS_NAME,
+    AdamW,
    OpenAIGPTDoubleHeadsModel,
    OpenAIGPTTokenizer,
-    AdamW,
    cached_path,
-    WEIGHTS_NAME,
-    CONFIG_NAME,
    get_linear_schedule_with_warmup,
 )

+
 ROCSTORIES_URL = "https://s3.amazonaws.com/datasets.huggingface.co/ROCStories.tar.gz"

 logging.basicConfig(
--- a/examples/contrib/run_swag.py
+++ b/examples/contrib/run_swag.py
@@ -19,28 +19,34 @@
 from __future__ import absolute_import, division, print_function

 import argparse
-import logging
 import csv
+import glob
+import logging
 import os
 import random
 import sys
-import glob

 import numpy as np
 import torch
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset
 from torch.utils.data.distributed import DistributedSampler
+from tqdm import tqdm, trange
+
+from transformers import (
+    WEIGHTS_NAME,
+    AdamW,
+    BertConfig,
+    BertForMultipleChoice,
+    BertTokenizer,
+    get_linear_schedule_with_warmup,
+)
+

 try:
    from torch.utils.tensorboard import SummaryWriter
 except:
    from tensorboardX import SummaryWriter

-from tqdm import tqdm, trange
-
-from transformers import WEIGHTS_NAME, BertConfig, BertForMultipleChoice, BertTokenizer
-
-from transformers import AdamW, get_linear_schedule_with_warmup

 logger = logging.getLogger(__name__)

--- a/examples/contrib/run_transfo_xl.py
+++ b/examples/contrib/run_transfo_xl.py
@@ -23,12 +23,13 @@ from __future__ import absolute_import, division, print_function, unicode_litera

 import argparse
 import logging
-import time
 import math
+import time

 import torch

-from transformers import TransfoXLLMHeadModel, TransfoXLCorpus, TransfoXLTokenizer
+from transformers import TransfoXLCorpus, TransfoXLLMHeadModel, TransfoXLTokenizer
+

 logging.basicConfig(
    format="%(asctime)s - %(levelname)s - %(name)s -   %(message)s", datefmt="%m/%d/%Y %H:%M:%S", level=logging.INFO
--- a/examples/distillation/distiller.py
+++ b/examples/distillation/distiller.py
@@ -15,31 +15,31 @@
 """ The distiller to distil the student.
    Adapted in part from Facebook, Inc XLM model (https://github.com/facebookresearch/XLM)
 """
-import os
 import math
-import psutil
+import os
 import time
-from tqdm import trange, tqdm
-import numpy as np

+import numpy as np
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
 from torch.optim import AdamW
+from torch.utils.data import BatchSampler, DataLoader, RandomSampler
 from torch.utils.data.distributed import DistributedSampler
-from torch.utils.data import RandomSampler, BatchSampler, DataLoader
+from tqdm import tqdm, trange
+
+import psutil
+from grouped_batch_sampler import GroupedBatchSampler, create_lengths_groups
+from lm_seqs_dataset import LmSeqsDataset
+from transformers import get_linear_schedule_with_warmup
+from utils import logger
+

 try:
    from torch.utils.tensorboard import SummaryWriter
 except:
    from tensorboardX import SummaryWriter

-from transformers import get_linear_schedule_with_warmup
-
-from utils import logger
-from lm_seqs_dataset import LmSeqsDataset
-from grouped_batch_sampler import GroupedBatchSampler, create_lengths_groups
-

 class Distiller:
    def __init__(
--- a/examples/distillation/grouped_batch_sampler.py
+++ b/examples/distillation/grouped_batch_sampler.py
@@ -17,8 +17,8 @@
 import bisect
 import copy
 from collections import defaultdict
-import numpy as np

+import numpy as np
 from torch.utils.data.sampler import BatchSampler, Sampler

 from utils import logger
--- a/examples/distillation/lm_seqs_dataset.py
+++ b/examples/distillation/lm_seqs_dataset.py
@@ -15,10 +15,10 @@
 """ Dataset to distilled models
    adapted in part from Facebook, Inc XLM model (https://github.com/facebookresearch/XLM)
 """
+import numpy as np
 import torch
 from torch.utils.data import Dataset

-import numpy as np
 from utils import logger


--- a/examples/distillation/run_squad_w_distillation.py
+++ b/examples/distillation/run_squad_w_distillation.py
@@ -18,56 +18,58 @@
 from __future__ import absolute_import, division, print_function

 import argparse
+import glob
 import logging
 import os
 import random
-import glob

 import numpy as np
 import torch
+import torch.nn as nn
+import torch.nn.functional as F
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset
 from torch.utils.data.distributed import DistributedSampler
-import torch.nn.functional as F
-import torch.nn as nn
-
-try:
-    from torch.utils.tensorboard import SummaryWriter
-except:
-    from tensorboardX import SummaryWriter
-
 from tqdm import tqdm, trange

 from transformers import (
    WEIGHTS_NAME,
+    AdamW,
    BertConfig,
    BertForQuestionAnswering,
    BertTokenizer,
+    DistilBertConfig,
+    DistilBertForQuestionAnswering,
+    DistilBertTokenizer,
    XLMConfig,
    XLMForQuestionAnswering,
    XLMTokenizer,
    XLNetConfig,
    XLNetForQuestionAnswering,
    XLNetTokenizer,
-    DistilBertConfig,
-    DistilBertForQuestionAnswering,
-    DistilBertTokenizer,
+    get_linear_schedule_with_warmup,
 )

-from transformers import AdamW, get_linear_schedule_with_warmup
-
 from ..utils_squad import (
-    read_squad_examples,
-    convert_examples_to_features,
    RawResult,
-    write_predictions,
    RawResultExtended,
+    convert_examples_to_features,
+    read_squad_examples,
+    write_predictions,
    write_predictions_extended,
 )

 # The follwing import is the official SQuAD evaluation script (2.0).
 # You can remove it from the dependencies if you are using this script outside of the library
 # We've added it here for automated tests (see examples/test_examples.py file)
-from ..utils_squad_evaluate import EVAL_OPTS, main as evaluate_on_squad
+from ..utils_squad_evaluate import EVAL_OPTS
+from ..utils_squad_evaluate import main as evaluate_on_squad
+
+
+try:
+    from torch.utils.tensorboard import SummaryWriter
+except:
+    from tensorboardX import SummaryWriter
+

 logger = logging.getLogger(__name__)

--- a/examples/distillation/scripts/binarized_data.py
+++ b/examples/distillation/scripts/binarized_data.py
@@ -16,12 +16,15 @@
 Preprocessing script before distillation.
 """
 import argparse
+import logging
 import pickle
 import random
 import time
+
 import numpy as np
-from transformers import BertTokenizer, RobertaTokenizer, GPT2Tokenizer
-import logging
+
+from transformers import BertTokenizer, GPT2Tokenizer, RobertaTokenizer
+

 logging.basicConfig(
    format="%(asctime)s - %(levelname)s - %(name)s -   %(message)s", datefmt="%m/%d/%Y %H:%M:%S", level=logging.INFO
--- a/examples/distillation/scripts/extract.py
+++ b/examples/distillation/scripts/extract.py
@@ -16,10 +16,13 @@
 Preprocessing script before training the distilled model.
 Specific to RoBERTa -> DistilRoBERTa and GPT2 -> DistilGPT2.
 """
-from transformers import BertForMaskedLM, RobertaForMaskedLM, GPT2LMHeadModel
-import torch
 import argparse

+import torch
+
+from transformers import BertForMaskedLM, GPT2LMHeadModel, RobertaForMaskedLM
+
+
 if __name__ == "__main__":
    parser = argparse.ArgumentParser(
        description="Extraction some layers of the full RobertaForMaskedLM or GPT2LMHeadModel for Transfer Learned Distillation"
--- a/examples/distillation/scripts/extract_distilbert.py
+++ b/examples/distillation/scripts/extract_distilbert.py
@@ -16,10 +16,13 @@
 Preprocessing script before training DistilBERT.
 Specific to BERT -> DistilBERT.
 """
-from transformers import BertForMaskedLM, RobertaForMaskedLM
-import torch
 import argparse

+import torch
+
+from transformers import BertForMaskedLM, RobertaForMaskedLM
+
+
 if __name__ == "__main__":
    parser = argparse.ArgumentParser(
        description="Extraction some layers of the full BertForMaskedLM or RObertaForMaskedLM for Transfer Learned Distillation"
--- a/examples/distillation/scripts/token_counts.py
+++ b/examples/distillation/scripts/token_counts.py
@@ -15,10 +15,11 @@
 """
 Preprocessing script before training the distilled model.
 """
-from collections import Counter
 import argparse
-import pickle
 import logging
+import pickle
+from collections import Counter
+

 logging.basicConfig(
    format="%(asctime)s - %(levelname)s - %(name)s -   %(message)s", datefmt="%m/%d/%Y %H:%M:%S", level=logging.INFO
--- a/examples/distillation/train.py
+++ b/examples/distillation/train.py
@@ -16,22 +16,32 @@
 Training the distilled model.
 Supported architectures include: BERT -> DistilBERT, RoBERTa -> DistilRoBERTa, GPT2 -> DistilGPT2.
 """
-import os
 import argparse
-import pickle
 import json
+import os
+import pickle
 import shutil
+
 import numpy as np
 import torch

-from transformers import BertConfig, BertForMaskedLM, BertTokenizer
-from transformers import RobertaConfig, RobertaForMaskedLM, RobertaTokenizer
-from transformers import DistilBertConfig, DistilBertForMaskedLM, DistilBertTokenizer
-from transformers import GPT2Config, GPT2LMHeadModel, GPT2Tokenizer
-
 from distiller import Distiller
-from utils import git_log, logger, init_gpu_params, set_seed
 from lm_seqs_dataset import LmSeqsDataset
+from transformers import (
+    BertConfig,
+    BertForMaskedLM,
+    BertTokenizer,
+    DistilBertConfig,
+    DistilBertForMaskedLM,
+    DistilBertTokenizer,
+    GPT2Config,
+    GPT2LMHeadModel,
+    GPT2Tokenizer,
+    RobertaConfig,
+    RobertaForMaskedLM,
+    RobertaTokenizer,
+)
+from utils import git_log, init_gpu_params, logger, set_seed


 MODEL_CLASSES = {
--- a/examples/distillation/utils.py
+++ b/examples/distillation/utils.py
@@ -15,14 +15,16 @@
 """ Utils to train DistilBERT
    adapted in part from Facebook, Inc XLM model (https://github.com/facebookresearch/XLM)
 """
-import git
 import json
+import logging
 import os
 import socket
-import torch
-import numpy as np

-import logging
+import numpy as np
+import torch
+
+import git
+

 logging.basicConfig(
    format="%(asctime)s - %(levelname)s - %(name)s - PID: %(process)d -  %(message)s",
--- a/examples/mm-imdb/run_mmimdb.py
+++ b/examples/mm-imdb/run_mmimdb.py
@@ -19,32 +19,33 @@ from __future__ import absolute_import, division, print_function

 import argparse
 import glob
+import json
 import logging
 import os
 import random
-import json
-from sklearn.metrics import f1_score

 import numpy as np
 import torch
 import torch.nn as nn
+from sklearn.metrics import f1_score
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler
 from torch.utils.data.distributed import DistributedSampler
-
-try:
-    from torch.utils.tensorboard import SummaryWriter
-except:
-    from tensorboardX import SummaryWriter
-
 from tqdm import tqdm, trange

-from utils_mmimdb import ImageEncoder, JsonlDataset, collate_fn, get_mmimdb_labels, get_image_transforms
-
 from transformers import (
    WEIGHTS_NAME,
+    AdamW,
+    AlbertConfig,
+    AlbertModel,
+    AlbertTokenizer,
    BertConfig,
    BertModel,
    BertTokenizer,
+    DistilBertConfig,
+    DistilBertModel,
+    DistilBertTokenizer,
+    MMBTConfig,
+    MMBTForClassification,
    RobertaConfig,
    RobertaModel,
    RobertaTokenizer,
@@ -54,17 +55,16 @@ from transformers import (
    XLNetConfig,
    XLNetModel,
    XLNetTokenizer,
-    DistilBertConfig,
-    DistilBertModel,
-    DistilBertTokenizer,
-    AlbertConfig,
-    AlbertModel,
-    AlbertTokenizer,
-    MMBTForClassification,
-    MMBTConfig,
+    get_linear_schedule_with_warmup,
 )
+from utils_mmimdb import ImageEncoder, JsonlDataset, collate_fn, get_image_transforms, get_mmimdb_labels
+
+
+try:
+    from torch.utils.tensorboard import SummaryWriter
+except:
+    from tensorboardX import SummaryWriter

-from transformers import AdamW, get_linear_schedule_with_warmup

 logger = logging.getLogger(__name__)

--- a/examples/mm-imdb/utils_mmimdb.py
+++ b/examples/mm-imdb/utils_mmimdb.py
@@ -17,13 +17,15 @@
 import json
 import os
 from collections import Counter
-from PIL import Image

 import torch
 import torch.nn as nn
+from torch.utils.data import Dataset
+
 import torchvision
 import torchvision.transforms as transforms
-from torch.utils.data import Dataset
+from PIL import Image
+

 POOLING_BREAKDOWN = {1: (1, 1), 2: (2, 1), 3: (3, 1), 4: (2, 2), 5: (5, 1), 6: (3, 2), 7: (7, 1), 8: (4, 2), 9: (3, 3)}

--- a/examples/pplm/run_pplm.py
+++ b/examples/pplm/run_pplm.py
@@ -34,10 +34,11 @@ import torch.nn.functional as F
 from torch.autograd import Variable
 from tqdm import trange

+from pplm_classification_head import ClassificationHead
 from transformers import GPT2Tokenizer
 from transformers.file_utils import cached_path
 from transformers.modeling_gpt2 import GPT2LMHeadModel
-from pplm_classification_head import ClassificationHead
+

 PPLM_BOW = 1
 PPLM_DISCRIM = 2
--- a/examples/pplm/run_pplm_discrim_train.py
+++ b/examples/pplm/run_pplm_discrim_train.py
@@ -24,16 +24,16 @@ import time
 import numpy as np
 import torch
 import torch.nn.functional as F
-import torch.optim
 import torch.optim as optim
 import torch.utils.data as data
-from nltk.tokenize.treebank import TreebankWordDetokenizer
-from torchtext import data as torchtext_data
-from torchtext import datasets
 from tqdm import tqdm, trange

-from transformers import GPT2Tokenizer, GPT2LMHeadModel
+from nltk.tokenize.treebank import TreebankWordDetokenizer
 from pplm_classification_head import ClassificationHead
+from torchtext import data as torchtext_data
+from torchtext import datasets
+from transformers import GPT2LMHeadModel, GPT2Tokenizer
+

 torch.manual_seed(0)
 np.random.seed(0)
--- a/examples/run_bertology.py
+++ b/examples/run_bertology.py
@@ -19,19 +19,19 @@
    Some parts of this script are adapted from the code of Michel et al. (http://arxiv.org/abs/1905.10650)
    which is available at https://github.com/pmichel31415/are-16-heads-really-better-than-1
 """
-import os
 import argparse
 import logging
-from datetime import timedelta, datetime
-from tqdm import tqdm
+import os
+from datetime import datetime, timedelta

 import numpy as np
-
 import torch
-from torch.utils.data import DataLoader, SequentialSampler, TensorDataset, Subset
-from torch.utils.data.distributed import DistributedSampler
 from torch.nn import CrossEntropyLoss, MSELoss
+from torch.utils.data import DataLoader, SequentialSampler, Subset, TensorDataset
+from torch.utils.data.distributed import DistributedSampler
+from tqdm import tqdm

+from run_glue import ALL_MODELS, MODEL_CLASSES, load_and_cache_examples, set_seed
 from transformers import (
    WEIGHTS_NAME,
    BertConfig,
@@ -44,13 +44,11 @@ from transformers import (
    XLNetForSequenceClassification,
    XLNetTokenizer,
 )
-
-from run_glue import set_seed, load_and_cache_examples, ALL_MODELS, MODEL_CLASSES
-
 from transformers import glue_compute_metrics as compute_metrics
 from transformers import glue_output_modes as output_modes
 from transformers import glue_processors as processors

+
 logger = logging.getLogger(__name__)


--- a/examples/run_generation.py
+++ b/examples/run_generation.py
@@ -21,15 +21,23 @@ from __future__ import absolute_import, division, print_function, unicode_litera
 import argparse
 import logging

-import torch
 import numpy as np
+import torch

-from transformers import GPT2LMHeadModel, GPT2Tokenizer
-from transformers import OpenAIGPTLMHeadModel, OpenAIGPTTokenizer
-from transformers import XLNetLMHeadModel, XLNetTokenizer
-from transformers import TransfoXLLMHeadModel, TransfoXLTokenizer
-from transformers import CTRLLMHeadModel, CTRLTokenizer
-from transformers import XLMWithLMHeadModel, XLMTokenizer
+from transformers import (
+    CTRLLMHeadModel,
+    CTRLTokenizer,
+    GPT2LMHeadModel,
+    GPT2Tokenizer,
+    OpenAIGPTLMHeadModel,
+    OpenAIGPTTokenizer,
+    TransfoXLLMHeadModel,
+    TransfoXLTokenizer,
+    XLMTokenizer,
+    XLMWithLMHeadModel,
+    XLNetLMHeadModel,
+    XLNetTokenizer,
+)


 logging.basicConfig(
--- a/examples/run_glue.py
+++ b/examples/run_glue.py
@@ -19,54 +19,54 @@ from __future__ import absolute_import, division, print_function

 import argparse
 import glob
+import json
 import logging
 import os
 import random
-import json

 import numpy as np
 import torch
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset
 from torch.utils.data.distributed import DistributedSampler
+from tqdm import tqdm, trange
+
+from transformers import (
+    WEIGHTS_NAME,
+    AdamW,
+    AlbertConfig,
+    AlbertForSequenceClassification,
+    AlbertTokenizer,
+    BertConfig,
+    BertForSequenceClassification,
+    BertTokenizer,
+    DistilBertConfig,
+    DistilBertForSequenceClassification,
+    DistilBertTokenizer,
+    RobertaConfig,
+    RobertaForSequenceClassification,
+    RobertaTokenizer,
+    XLMConfig,
+    XLMForSequenceClassification,
+    XLMRobertaConfig,
+    XLMRobertaForSequenceClassification,
+    XLMRobertaTokenizer,
+    XLMTokenizer,
+    XLNetConfig,
+    XLNetForSequenceClassification,
+    XLNetTokenizer,
+    get_linear_schedule_with_warmup,
+)
+from transformers import glue_compute_metrics as compute_metrics
+from transformers import glue_convert_examples_to_features as convert_examples_to_features
+from transformers import glue_output_modes as output_modes
+from transformers import glue_processors as processors
+

 try:
    from torch.utils.tensorboard import SummaryWriter
 except:
    from tensorboardX import SummaryWriter

-from tqdm import tqdm, trange
-
-from transformers import (
-    WEIGHTS_NAME,
-    BertConfig,
-    BertForSequenceClassification,
-    BertTokenizer,
-    RobertaConfig,
-    RobertaForSequenceClassification,
-    RobertaTokenizer,
-    XLMConfig,
-    XLMForSequenceClassification,
-    XLMTokenizer,
-    XLNetConfig,
-    XLNetForSequenceClassification,
-    XLNetTokenizer,
-    DistilBertConfig,
-    DistilBertForSequenceClassification,
-    DistilBertTokenizer,
-    AlbertConfig,
-    AlbertForSequenceClassification,
-    AlbertTokenizer,
-    XLMRobertaConfig,
-    XLMRobertaForSequenceClassification,
-    XLMRobertaTokenizer,
-)
-
-from transformers import AdamW, get_linear_schedule_with_warmup
-
-from transformers import glue_compute_metrics as compute_metrics
-from transformers import glue_output_modes as output_modes
-from transformers import glue_processors as processors
-from transformers import glue_convert_examples_to_features as convert_examples_to_features

 logger = logging.getLogger(__name__)

--- a/examples/run_lm_finetuning.py
+++ b/examples/run_lm_finetuning.py
@@ -32,23 +32,22 @@ import shutil

 import numpy as np
 import torch
-from torch.utils.data import DataLoader, Dataset, SequentialSampler, RandomSampler
+from torch.utils.data import DataLoader, Dataset, RandomSampler, SequentialSampler
 from torch.utils.data.distributed import DistributedSampler
-
-try:
-    from torch.utils.tensorboard import SummaryWriter
-except:
-    from tensorboardX import SummaryWriter
-
 from tqdm import tqdm, trange

 from transformers import (
    WEIGHTS_NAME,
    AdamW,
-    get_linear_schedule_with_warmup,
    BertConfig,
    BertForMaskedLM,
    BertTokenizer,
+    CamembertConfig,
+    CamembertForMaskedLM,
+    CamembertTokenizer,
+    DistilBertConfig,
+    DistilBertForMaskedLM,
+    DistilBertTokenizer,
    GPT2Config,
    GPT2LMHeadModel,
    GPT2Tokenizer,
@@ -58,15 +57,16 @@ from transformers import (
    RobertaConfig,
    RobertaForMaskedLM,
    RobertaTokenizer,
-    DistilBertConfig,
-    DistilBertForMaskedLM,
-    DistilBertTokenizer,
-    CamembertConfig,
-    CamembertForMaskedLM,
-    CamembertTokenizer,
+    get_linear_schedule_with_warmup,
 )


+try:
+    from torch.utils.tensorboard import SummaryWriter
+except:
+    from tensorboardX import SummaryWriter
+
+
 logger = logging.getLogger(__name__)


--- a/examples/run_multiple_choice.py
+++ b/examples/run_multiple_choice.py
@@ -23,35 +23,34 @@ import logging
 import os
 import random

-
 import numpy as np
 import torch
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset
 from torch.utils.data.distributed import DistributedSampler
+from tqdm import tqdm, trange
+
+from transformers import (
+    WEIGHTS_NAME,
+    AdamW,
+    BertConfig,
+    BertForMultipleChoice,
+    BertTokenizer,
+    RobertaConfig,
+    RobertaForMultipleChoice,
+    RobertaTokenizer,
+    XLNetConfig,
+    XLNetForMultipleChoice,
+    XLNetTokenizer,
+    get_linear_schedule_with_warmup,
+)
+from utils_multiple_choice import convert_examples_to_features, processors
+

 try:
    from torch.utils.tensorboard import SummaryWriter
 except:
    from tensorboardX import SummaryWriter

-from tqdm import tqdm, trange
-
-from transformers import (
-    WEIGHTS_NAME,
-    BertConfig,
-    BertForMultipleChoice,
-    BertTokenizer,
-    XLNetConfig,
-    XLNetForMultipleChoice,
-    XLNetTokenizer,
-    RobertaConfig,
-    RobertaForMultipleChoice,
-    RobertaTokenizer,
-)
-
-from transformers import AdamW, get_linear_schedule_with_warmup
-
-from utils_multiple_choice import convert_examples_to_features, processors

 logger = logging.getLogger(__name__)

--- a/examples/run_ner.py
+++ b/examples/run_ner.py
@@ -25,20 +25,35 @@ import random

 import numpy as np
 import torch
-from seqeval.metrics import precision_score, recall_score, f1_score
 from tensorboardX import SummaryWriter
 from torch.nn import CrossEntropyLoss
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset
 from torch.utils.data.distributed import DistributedSampler
 from tqdm import tqdm, trange
+
+from seqeval.metrics import f1_score, precision_score, recall_score
+from transformers import (
+    WEIGHTS_NAME,
+    AdamW,
+    BertConfig,
+    BertForTokenClassification,
+    BertTokenizer,
+    CamembertConfig,
+    CamembertForTokenClassification,
+    CamembertTokenizer,
+    DistilBertConfig,
+    DistilBertForTokenClassification,
+    DistilBertTokenizer,
+    RobertaConfig,
+    RobertaForTokenClassification,
+    RobertaTokenizer,
+    XLMRobertaConfig,
+    XLMRobertaForTokenClassification,
+    XLMRobertaTokenizer,
+    get_linear_schedule_with_warmup,
+)
 from utils_ner import convert_examples_to_features, get_labels, read_examples_from_file

-from transformers import AdamW, get_linear_schedule_with_warmup
-from transformers import WEIGHTS_NAME, BertConfig, BertForTokenClassification, BertTokenizer
-from transformers import RobertaConfig, RobertaForTokenClassification, RobertaTokenizer
-from transformers import DistilBertConfig, DistilBertForTokenClassification, DistilBertTokenizer
-from transformers import CamembertConfig, CamembertForTokenClassification, CamembertTokenizer
-from transformers import XLMRobertaConfig, XLMRobertaForTokenClassification, XLMRobertaTokenizer

 logger = logging.getLogger(__name__)

--- a/examples/run_squad.py
+++ b/examples/run_squad.py
@@ -16,57 +16,57 @@
 """ Finetuning the library models for question-answering on SQuAD (DistilBERT, Bert, XLM, XLNet)."""

 from __future__ import absolute_import, division, print_function
-from transformers.data.processors.squad import SquadV1Processor, SquadV2Processor, SquadResult
-from transformers.data.metrics.squad_metrics import (
-    compute_predictions_logits,
-    compute_predictions_log_probs,
-    squad_evaluate,
-)

 import argparse
+import glob
 import logging
 import os
 import random
-import glob
 import timeit
+
 import numpy as np
 import torch
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset
 from torch.utils.data.distributed import DistributedSampler
-
-try:
-    from torch.utils.tensorboard import SummaryWriter
-except:
-    from tensorboardX import SummaryWriter
-
 from tqdm import tqdm, trange

 from transformers import (
    WEIGHTS_NAME,
+    AdamW,
+    AlbertConfig,
+    AlbertForQuestionAnswering,
+    AlbertTokenizer,
    BertConfig,
    BertForQuestionAnswering,
    BertTokenizer,
+    DistilBertConfig,
+    DistilBertForQuestionAnswering,
+    DistilBertTokenizer,
+    RobertaConfig,
    RobertaForQuestionAnswering,
    RobertaTokenizer,
-    RobertaConfig,
    XLMConfig,
    XLMForQuestionAnswering,
    XLMTokenizer,
    XLNetConfig,
    XLNetForQuestionAnswering,
    XLNetTokenizer,
-    DistilBertConfig,
-    DistilBertForQuestionAnswering,
-    DistilBertTokenizer,
-    AlbertConfig,
-    AlbertForQuestionAnswering,
-    AlbertTokenizer,
-    XLMConfig,
-    XLMForQuestionAnswering,
-    XLMTokenizer,
+    get_linear_schedule_with_warmup,
+    squad_convert_examples_to_features,
 )
+from transformers.data.metrics.squad_metrics import (
+    compute_predictions_log_probs,
+    compute_predictions_logits,
+    squad_evaluate,
+)
+from transformers.data.processors.squad import SquadResult, SquadV1Processor, SquadV2Processor
+
+
+try:
+    from torch.utils.tensorboard import SummaryWriter
+except:
+    from tensorboardX import SummaryWriter

-from transformers import AdamW, get_linear_schedule_with_warmup, squad_convert_examples_to_features

 logger = logging.getLogger(__name__)

--- a/examples/run_tf_glue.py
+++ b/examples/run_tf_glue.py
@@ -1,15 +1,18 @@
 import os
+
 import tensorflow as tf
+
 import tensorflow_datasets
 from transformers import (
+    BertConfig,
+    BertForSequenceClassification,
    BertTokenizer,
    TFBertForSequenceClassification,
-    BertConfig,
    glue_convert_examples_to_features,
-    BertForSequenceClassification,
    glue_processors,
 )

+
 # script parameters
 BATCH_SIZE = 32
 EVAL_BATCH_SIZE = BATCH_SIZE * 2
--- a/examples/run_tf_ner.py
+++ b/examples/run_tf_ner.py
@@ -1,23 +1,33 @@
 # coding=utf-8
-import datetime
-import os
-import math
-import glob
-import re
-import tensorflow as tf
-import collections
-import numpy as np
-from seqeval import metrics
 import _pickle as pickle
-from absl import logging
-from transformers import TF2_WEIGHTS_NAME, BertConfig, BertTokenizer, TFBertForTokenClassification
-from transformers import RobertaConfig, RobertaTokenizer, TFRobertaForTokenClassification
-from transformers import DistilBertConfig, DistilBertTokenizer, TFDistilBertForTokenClassification
-from transformers import create_optimizer, GradientAccumulator
-from utils_ner import convert_examples_to_features, get_labels, read_examples_from_file
+import collections
+import datetime
+import glob
+import math
+import os
+import re
+
+import numpy as np
+import tensorflow as tf
+from absl import app, flags, logging
+
 from fastprogress import master_bar, progress_bar
-from absl import flags
-from absl import app
+from seqeval import metrics
+from transformers import (
+    TF2_WEIGHTS_NAME,
+    BertConfig,
+    BertTokenizer,
+    DistilBertConfig,
+    DistilBertTokenizer,
+    GradientAccumulator,
+    RobertaConfig,
+    RobertaTokenizer,
+    TFBertForTokenClassification,
+    TFDistilBertForTokenClassification,
+    TFRobertaForTokenClassification,
+    create_optimizer,
+)
+from utils_ner import convert_examples_to_features, get_labels, read_examples_from_file


 ALL_MODELS = sum(
--- a/examples/run_xnli.py
+++ b/examples/run_xnli.py
@@ -28,34 +28,33 @@ import numpy as np
 import torch
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset
 from torch.utils.data.distributed import DistributedSampler
+from tqdm import tqdm, trange
+
+from transformers import (
+    WEIGHTS_NAME,
+    AdamW,
+    BertConfig,
+    BertForSequenceClassification,
+    BertTokenizer,
+    DistilBertConfig,
+    DistilBertForSequenceClassification,
+    DistilBertTokenizer,
+    XLMConfig,
+    XLMForSequenceClassification,
+    XLMTokenizer,
+    get_linear_schedule_with_warmup,
+)
+from transformers import glue_convert_examples_to_features as convert_examples_to_features
+from transformers import xnli_compute_metrics as compute_metrics
+from transformers import xnli_output_modes as output_modes
+from transformers import xnli_processors as processors
+

 try:
    from torch.utils.tensorboard import SummaryWriter
 except:
    from tensorboardX import SummaryWriter

-from tqdm import tqdm, trange
-
-from transformers import (
-    WEIGHTS_NAME,
-    BertConfig,
-    BertForSequenceClassification,
-    BertTokenizer,
-    XLMConfig,
-    XLMForSequenceClassification,
-    XLMTokenizer,
-    DistilBertConfig,
-    DistilBertForSequenceClassification,
-    DistilBertTokenizer,
-)
-
-from transformers import AdamW, get_linear_schedule_with_warmup
-
-from transformers import xnli_compute_metrics as compute_metrics
-from transformers import xnli_output_modes as output_modes
-from transformers import xnli_processors as processors
-
-from transformers import glue_convert_examples_to_features as convert_examples_to_features

 logger = logging.getLogger(__name__)

--- a/examples/summarization/convert_bertabs_original_pytorch_checkpoint.py
+++ b/examples/summarization/convert_bertabs_original_pytorch_checkpoint.py
@@ -20,13 +20,13 @@ the model within the original codebase to be able to only save its `state_dict`.
 """

 import argparse
-from collections import namedtuple
 import logging
+from collections import namedtuple
+
 import torch

-from models.model_builder import AbsSummarizer  # The authors' implementation
 from model_bertabs import BertAbsSummarizer
-
+from models.model_builder import AbsSummarizer  # The authors' implementation
 from transformers import BertTokenizer


--- a/examples/summarization/modeling_bertabs.py
+++ b/examples/summarization/modeling_bertabs.py
@@ -27,9 +27,8 @@ import torch
 from torch import nn
 from torch.nn.init import xavier_uniform_

-from transformers import BertModel, BertConfig, PreTrainedModel
-
 from configuration_bertabs import BertAbsConfig
+from transformers import BertConfig, BertModel, PreTrainedModel


 MAX_SIZE = 5000
--- a/examples/summarization/run_summarization.py
+++ b/examples/summarization/run_summarization.py
@@ -1,26 +1,25 @@
 #! /usr/bin/python3
 import argparse
-from collections import namedtuple
 import logging
 import os
 import sys
+from collections import namedtuple

 import torch
 from torch.utils.data import DataLoader, SequentialSampler
 from tqdm import tqdm

-from transformers import BertTokenizer
-
 from modeling_bertabs import BertAbs, build_predictor
-
+from transformers import BertTokenizer
 from utils_summarization import (
    SummarizationDataset,
-    encode_for_summarization,
    build_mask,
-    fit_to_block_size,
    compute_token_type_ids,
+    encode_for_summarization,
+    fit_to_block_size,
 )

+
 logger = logging.getLogger(__name__)
 logging.basicConfig(stream=sys.stdout, level=logging.INFO)

--- a/examples/summarization/utils_summarization.py
+++ b/examples/summarization/utils_summarization.py
@@ -1,5 +1,5 @@
-from collections import deque
 import os
+from collections import deque

 import torch
 from torch.utils.data import Dataset
--- a/examples/summarization/utils_summarization_test.py
+++ b/examples/summarization/utils_summarization_test.py
@@ -17,12 +17,7 @@ import unittest
 import numpy as np
 import torch

-from utils_summarization import (
-    compute_token_type_ids,
-    fit_to_block_size,
-    build_mask,
-    process_story,
-)
+from utils_summarization import build_mask, compute_token_type_ids, fit_to_block_size, process_story


 class SummarizationDataProcessingTest(unittest.TestCase):
--- a/examples/test_examples.py
+++ b/examples/test_examples.py
@@ -12,14 +12,17 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
-from __future__ import absolute_import
-from __future__ import division
-from __future__ import print_function
+from __future__ import absolute_import, division, print_function

-import sys
-import unittest
 import argparse
 import logging
+import sys
+import unittest
+
+import run_generation
+import run_glue
+import run_squad
+

 try:
    # python 3.4+ can use builtin unittest.mock instead of mock package
@@ -27,9 +30,6 @@ try:
 except ImportError:
    from mock import patch

-import run_glue
-import run_squad
-import run_generation

 logging.basicConfig(level=logging.DEBUG)

--- a/examples/utils_multiple_choice.py
+++ b/examples/utils_multiple_choice.py
@@ -17,16 +17,17 @@

 from __future__ import absolute_import, division, print_function

-
+import csv
+import glob
+import json
 import logging
 import os
 import sys
 from io import open
-import json
-import csv
-import glob
-import tqdm
 from typing import List
+
+import tqdm
+
 from transformers import PreTrainedTokenizer


--- a/examples/utils_ner.py
+++ b/examples/utils_ner.py
@@ -21,6 +21,7 @@ import logging
 import os
 from io import open

+
 logger = logging.getLogger(__name__)