ft reranker

ZiyiXia · ZiyiXia · commit 6f224f1fd71a · 2024-11-07T15:25:14.000Z
diff --git a/FlagEmbedding/finetune/embedder/decoder_only/base/runner.py b/FlagEmbedding/finetune/embedder/decoder_only/base/runner.py
@@ -98,7 +98,7 @@ def load_trainer(self) -> DecoderOnlyEmbedderTrainer:
         """Load the trainer.
 
         Returns:
-            EncoderOnlyEmbedderTrainer: Loaded trainer instance.
+            DecoderOnlyEmbedderTrainer: Loaded trainer instance.
         """
         trainer = DecoderOnlyEmbedderTrainer(
             model=self.model,
diff --git a/FlagEmbedding/finetune/embedder/decoder_only/icl/runner.py b/FlagEmbedding/finetune/embedder/decoder_only/icl/runner.py
@@ -102,7 +102,7 @@ def load_trainer(self) -> DecoderOnlyEmbedderICLTrainer:
         """Load the trainer.
 
         Returns:
-            EncoderOnlyEmbedderTrainer: Loaded trainer instance.
+            DecoderOnlyEmbedderICLTrainer: Loaded trainer instance.
         """
         trainer = DecoderOnlyEmbedderICLTrainer(
             model=self.model,
diff --git a/FlagEmbedding/finetune/reranker/decoder_only/base/arguments.py b/FlagEmbedding/finetune/reranker/decoder_only/base/arguments.py
@@ -10,6 +10,9 @@ def default_target_modules() -> List[int]:
 
 @dataclass
 class RerankerModelArguments(AbsRerankerModelArguments):
+    """
+    Model argument class for decoder only reranker.
+    """
     use_lora: bool = field(
         default=True,
         metadata={"help": "If passed, will use LORA (low-rank parameter-efficient training) to train the model."}
diff --git a/FlagEmbedding/finetune/reranker/decoder_only/base/load_model.py b/FlagEmbedding/finetune/reranker/decoder_only/base/load_model.py
@@ -10,6 +10,14 @@
 
 
 def find_largest_checkpoint(checkpoint_dir):
+    """Find the largest checkpoint from directory.
+
+    Args:
+        checkpoint_dir (str): Directory to the checkpoint.
+
+    Returns:
+        str: Directory to the checkpoint, None no matching found.
+    """
     checkpoint_pattern = re.compile(r'checkpoint-(\d+)')
     max_number = -1
     max_checkpoint_file = None
@@ -27,6 +35,14 @@ def find_largest_checkpoint(checkpoint_dir):
 
 
 def get_model(model_args: RerankerModelArguments):
+    """Get the model.
+
+    Args:
+        model_args (RerankerModelArguments): Model arguments instance.
+
+    Returns:
+        transformers.PreTrainedModel or PeftModel: The loaded model.
+    """
     if model_args.config_name:
         config = AutoConfig.from_pretrained(
             model_args.config_name,
@@ -88,6 +104,13 @@ def get_model(model_args: RerankerModelArguments):
 
 
 def save_merged_model(model_args: RerankerModelArguments, output_dir: str):
+    """
+    Loads and save a model with specified configurations, merges it with PEFT layers if available.
+
+    Args:
+        model_args (RerankerModelArguments): Model arguments instance.
+        output_dir (str): Directory to save the model.
+    """
     if model_args.config_name:
         config = AutoConfig.from_pretrained(
             model_args.config_name,
diff --git a/FlagEmbedding/finetune/reranker/decoder_only/base/modeling.py b/FlagEmbedding/finetune/reranker/decoder_only/base/modeling.py
@@ -8,6 +8,14 @@
 
 
 class CrossDecoderModel(AbsRerankerModel):
+    """
+    Model class for decoder only reranker.
+
+    Args:
+        base_model (PreTrainedModel): The underlying pre-trained model used for encoding and scoring input pairs.
+        tokenizer (AutoTokenizer, optional): The tokenizer for encoding input text. Defaults to ``None``.
+        train_batch_size (int, optional): The batch size to use. Defaults to ``4``.
+    """
     def __init__(
         self,
         base_model: PreTrainedModel,
@@ -21,6 +29,14 @@ def __init__(
         )
 
     def encode(self, features):
+        """Encodes input features to logits.
+
+        Args:
+            features (dict): Dictionary with input features.
+
+        Returns:
+            torch.Tensor: The logits output from the model.
+        """
         if features is None:
             return None
         outputs = self.model(input_ids=features['input_ids'],
diff --git a/FlagEmbedding/finetune/reranker/decoder_only/base/runner.py b/FlagEmbedding/finetune/reranker/decoder_only/base/runner.py
@@ -17,6 +17,14 @@
 
 
 class DecoderOnlyRerankerRunner(AbsRerankerRunner):
+    """
+    Decoder only reranker runner for finetuning.
+    
+    Args:
+        model_args (RerankerModelArguments): Model arguments instance.
+        data_args (AbsRerankerDataArguments): Data arguments instance.
+        training_args (AbsRerankerTrainingArguments): Trainer arguments.
+    """
     def __init__(
         self,
         model_args: RerankerModelArguments,
@@ -26,6 +34,11 @@ def __init__(
         super().__init__(model_args, data_args, training_args)
 
     def load_tokenizer_and_model(self) -> Tuple[PreTrainedTokenizer, AbsRerankerModel]:
+        """Load the tokenizer and model.
+
+        Returns:
+            Tuple[PreTrainedTokenizer, AbsEmbedderModel]: Tokenizer and model instances.
+        """
         tokenizer = AutoTokenizer.from_pretrained(
             self.model_args.tokenizer_name if self.model_args.tokenizer_name else self.model_args.model_name_or_path,
             token=self.model_args.token,
@@ -66,6 +79,11 @@ def load_tokenizer_and_model(self) -> Tuple[PreTrainedTokenizer, AbsRerankerMode
         return tokenizer, model
 
     def load_trainer(self) -> DecoderOnlyRerankerTrainer:
+        """Load the trainer.
+
+        Returns:
+            DecoderOnlyRerankerTrainer: Loaded trainer instance.
+        """
         trainer = DecoderOnlyRerankerTrainer(
             model=self.model,
             args=self.training_args,
@@ -76,6 +94,9 @@ def load_trainer(self) -> DecoderOnlyRerankerTrainer:
         return trainer
 
     def run(self):
+        """
+        Run the finetuning.
+        """
         Path(self.training_args.output_dir).mkdir(parents=True, exist_ok=True)
 
         # Training
diff --git a/FlagEmbedding/finetune/reranker/decoder_only/base/trainer.py b/FlagEmbedding/finetune/reranker/decoder_only/base/trainer.py
@@ -11,7 +11,18 @@
 
 
 class DecoderOnlyRerankerTrainer(AbsRerankerTrainer):
+    """
+    Trainer class for encoder only base reranker models.
+    """
     def _save(self, output_dir: Optional[str] = None, state_dict=None):
+        """Save the model to directory.
+
+        Args:
+            output_dir (Optional[str], optional): Output directory to save the model. Defaults to ``None``.
+
+        Raises:
+            NotImplementedError
+        """
         output_dir = output_dir if output_dir is not None else self.args.output_dir
         os.makedirs(output_dir, exist_ok=True)
         logger.info("Saving model checkpoint to %s", output_dir)
diff --git a/FlagEmbedding/finetune/reranker/decoder_only/layerwise/arguments.py b/FlagEmbedding/finetune/reranker/decoder_only/layerwise/arguments.py
@@ -10,6 +10,9 @@ def default_target_modules() -> List[int]:
 
 @dataclass
 class RerankerModelArguments(AbsRerankerModelArguments):
+    """
+    Model argument class for decoder only reranker.
+    """
     use_lora: bool = field(
         default=True,
         metadata={"help": "If passed, will use LORA (low-rank parameter-efficient training) to train the model."}
diff --git a/FlagEmbedding/finetune/reranker/decoder_only/layerwise/load_model.py b/FlagEmbedding/finetune/reranker/decoder_only/layerwise/load_model.py
@@ -14,6 +14,14 @@
 
 
 def find_largest_checkpoint(checkpoint_dir):
+    """Find the largest checkpoint from directory.
+
+    Args:
+        checkpoint_dir (str): Directory to the checkpoint.
+
+    Returns:
+        str: Directory to the checkpoint, None no matching found.
+    """
     checkpoint_pattern = re.compile(r'checkpoint-(\d+)')
     max_number = -1
     max_checkpoint_file = None
@@ -31,6 +39,14 @@ def find_largest_checkpoint(checkpoint_dir):
 
 
 def get_model(model_args: RerankerModelArguments, only_for_one_logit):
+    """Get the model.
+
+    Args:
+        model_args (RerankerModelArguments): Model arguments instance.
+
+    Returns:
+        transformers.PreTrainedModel or PeftModel: The loaded model.
+    """
     if model_args.config_name:
         config = AutoConfig.from_pretrained(
             model_args.config_name,
@@ -152,6 +168,13 @@ def get_model(model_args: RerankerModelArguments, only_for_one_logit):
 
 
 def save_merged_model(model_args: RerankerModelArguments, output_dir: str):
+    """
+    Loads and save a model with specified configurations, merges it with PEFT layers if available.
+
+    Args:
+        model_args (RerankerModelArguments): Model arguments instance.
+        output_dir (str): Directory to save the model.
+    """
     if model_args.config_name:
         config = AutoConfig.from_pretrained(
             model_args.config_name,
diff --git a/FlagEmbedding/finetune/reranker/decoder_only/layerwise/modeling.py b/FlagEmbedding/finetune/reranker/decoder_only/layerwise/modeling.py
@@ -10,6 +10,15 @@
 
 
 class CrossDecoderModel(AbsRerankerModel):
+    """
+    Model class for decoder only reranker.
+
+    Args:
+        base_model (PreTrainedModel): The underlying pre-trained model used for encoding and scoring input pairs.
+        tokenizer (AutoTokenizer, optional): The tokenizer for encoding input text. Defaults to ``None``.
+        train_batch_size (int, optional): The batch size to use. Defaults to ``4``.
+        start_layer (int, optional): Starting layer for layerwise. Defaults to ``8``.
+    """
     def __init__(
         self,
         base_model: PreTrainedModel,
diff --git a/FlagEmbedding/finetune/reranker/decoder_only/layerwise/runner.py b/FlagEmbedding/finetune/reranker/decoder_only/layerwise/runner.py
@@ -16,6 +16,14 @@
 logger = logging.getLogger(__name__)
 
 class DecoderOnlyRerankerRunner(AbsRerankerRunner):
+    """
+    Decoder only layerwise reranker runner for finetuning.
+    
+    Args:
+        model_args (RerankerModelArguments): Model arguments instance.
+        data_args (AbsRerankerDataArguments): Data arguments instance.
+        training_args (AbsRerankerTrainingArguments): Trainer arguments.
+    """
     def __init__(
         self,
         model_args: RerankerModelArguments,
@@ -25,6 +33,11 @@ def __init__(
         super().__init__(model_args, data_args, training_args)
 
     def load_tokenizer_and_model(self) -> Tuple[PreTrainedTokenizer, AbsRerankerModel]:
+        """Load the tokenizer and model.
+
+        Returns:
+            Tuple[PreTrainedTokenizer, AbsEmbedderModel]: Tokenizer and model instances.
+        """
         # print(self.model_args.model_name_or_path)
         tokenizer = AutoTokenizer.from_pretrained(
             self.model_args.tokenizer_name if self.model_args.tokenizer_name else self.model_args.model_name_or_path,
@@ -67,6 +80,11 @@ def load_tokenizer_and_model(self) -> Tuple[PreTrainedTokenizer, AbsRerankerMode
         return tokenizer, model
 
     def load_trainer(self) -> DecoderOnlyRerankerTrainer:
+        """Load the trainer.
+
+        Returns:
+            DecoderOnlyRerankerTrainer: Loaded trainer instance.
+        """
         trainer = DecoderOnlyRerankerTrainer(
             model=self.model,
             args=self.training_args,
@@ -77,6 +95,9 @@ def load_trainer(self) -> DecoderOnlyRerankerTrainer:
         return trainer
 
     def run(self):
+        """
+        Run the finetuning.
+        """
         Path(self.training_args.output_dir).mkdir(parents=True, exist_ok=True)
 
         # Training
diff --git a/FlagEmbedding/finetune/reranker/decoder_only/layerwise/trainer.py b/FlagEmbedding/finetune/reranker/decoder_only/layerwise/trainer.py
@@ -11,7 +11,18 @@
 
 
 class DecoderOnlyRerankerTrainer(AbsRerankerTrainer):
+    """
+    Trainer class for encoder only base reranker models.
+    """
     def _save(self, output_dir: Optional[str] = None, state_dict=None):
+        """Save the model to directory.
+
+        Args:
+            output_dir (Optional[str], optional): Output directory to save the model. Defaults to ``None``.
+
+        Raises:
+            NotImplementedError
+        """
         output_dir = output_dir if output_dir is not None else self.args.output_dir
         os.makedirs(output_dir, exist_ok=True)
         logger.info("Saving model checkpoint to %s", output_dir)
diff --git a/FlagEmbedding/finetune/reranker/encoder_only/base/modeling.py b/FlagEmbedding/finetune/reranker/encoder_only/base/modeling.py
@@ -7,6 +7,13 @@
 
 
 class CrossEncoderModel(AbsRerankerModel):
+    """Model class for reranker.
+
+    Args:
+        base_model (PreTrainedModel): The underlying pre-trained model used for encoding and scoring input pairs.
+        tokenizer (AutoTokenizer, optional): The tokenizer for encoding input text. Defaults to ``None``.
+        train_batch_size (int, optional): The batch size to use. Defaults to ``4``.
+    """
     def __init__(
         self,
         base_model: PreTrainedModel,
@@ -20,4 +27,12 @@ def __init__(
         )
 
     def encode(self, features):
+        """Encodes input features to logits.
+
+        Args:
+            features (dict): Dictionary with input features.
+
+        Returns:
+            torch.Tensor: The logits output from the model.
+        """
         return self.model(**features, return_dict=True).logits
diff --git a/FlagEmbedding/finetune/reranker/encoder_only/base/runner.py b/FlagEmbedding/finetune/reranker/encoder_only/base/runner.py
@@ -13,7 +13,15 @@
 
 
 class EncoderOnlyRerankerRunner(AbsRerankerRunner):
+    """
+    Encoder only reranker runner for finetuning.
+    """
     def load_tokenizer_and_model(self) -> Tuple[PreTrainedTokenizer, AbsRerankerModel]:
+        """Load the tokenizer and model.
+
+        Returns:
+            Tuple[PreTrainedTokenizer, AbsEmbedderModel]: Tokenizer and model instances.
+        """
         tokenizer = AutoTokenizer.from_pretrained(
             self.model_args.model_name_or_path,
             cache_dir=self.model_args.cache_dir,
@@ -51,6 +59,11 @@ def load_tokenizer_and_model(self) -> Tuple[PreTrainedTokenizer, AbsRerankerMode
         return tokenizer, model
 
     def load_trainer(self) -> EncoderOnlyRerankerTrainer:
+        """Load the trainer.
+
+        Returns:
+            EncoderOnlyRerankerTrainer: Loaded trainer instance.
+        """
         trainer = EncoderOnlyRerankerTrainer(
             model=self.model,
             args=self.training_args,
diff --git a/FlagEmbedding/finetune/reranker/encoder_only/base/trainer.py b/FlagEmbedding/finetune/reranker/encoder_only/base/trainer.py
@@ -9,7 +9,18 @@
 
 
 class EncoderOnlyRerankerTrainer(AbsRerankerTrainer):
+    """
+    Trainer class for encoder only base reranker models.
+    """
     def _save(self, output_dir: Optional[str] = None, state_dict=None):
+        """Save the model to directory.
+
+        Args:
+            output_dir (Optional[str], optional): Output directory to save the model. Defaults to ``None``.
+
+        Raises:
+            NotImplementedError
+        """
         output_dir = output_dir if output_dir is not None else self.args.output_dir
         os.makedirs(output_dir, exist_ok=True)
         logger.info("Saving model checkpoint to %s", output_dir)