clean code

hanhainebula · hanhainebula · commit cc132001726e · 2024-10-30T22:25:27.000+08:00
- del main func in evaluation __main__.py
- del additional tabs
diff --git a/FlagEmbedding/abc/inference/AbsEmbedder.py b/FlagEmbedding/abc/inference/AbsEmbedder.py
@@ -41,21 +41,19 @@ class AbsEmbedder(ABC):
     """
 
     def __init__(
-            self,
-            model_name_or_path: str,
-            normalize_embeddings: bool = True,
-            use_fp16: bool = True,
-            query_instruction_for_retrieval: Optional[str] = None,
-            query_instruction_format: str = "{}{}",  # specify the format of query_instruction_for_retrieval
-            devices: Optional[Union[str, int, List[str], List[int]]] = None,
-            # inference
-            batch_size: int = 256,
-            query_max_length: int = 512,
-            passage_max_length: int = 512,
-            instruction: Optional[str] = None,
-            instruction_format: str = "{}{}",
-            convert_to_numpy: bool = True,
-            **kwargs: Any,
+        self,
+        model_name_or_path: str,
+        normalize_embeddings: bool = True,
+        use_fp16: bool = True,
+        query_instruction_for_retrieval: Optional[str] = None,
+        query_instruction_format: str = "{}{}",  # specify the format of query_instruction_for_retrieval
+        devices: Optional[Union[str, int, List[str], List[int]]] = None,
+        # inference
+        batch_size: int = 256,
+        query_max_length: int = 512,
+        passage_max_length: int = 512,
+        convert_to_numpy: bool = True,
+        **kwargs: Any,
     ):
         self.model_name_or_path = model_name_or_path
         self.normalize_embeddings = normalize_embeddings
@@ -67,8 +65,6 @@ def __init__(
         self.batch_size = batch_size
         self.query_max_length = query_max_length
         self.passage_max_length = passage_max_length
-        self.instruction = instruction
-        self.instruction_format = instruction_format
         self.convert_to_numpy = convert_to_numpy
 
         for k in kwargs:
@@ -132,12 +128,12 @@ def get_detailed_instruct(instruction_format: str, instruction: str, sentence: s
         return instruction_format.format(instruction, sentence)
 
     def encode_queries(
-            self,
-            queries: Union[List[str], str],
-            batch_size: Optional[int] = None,
-            max_length: Optional[int] = None,
-            convert_to_numpy: Optional[bool] = None,
-            **kwargs: Any
+        self,
+        queries: Union[List[str], str],
+        batch_size: Optional[int] = None,
+        max_length: Optional[int] = None,
+        convert_to_numpy: Optional[bool] = None,
+        **kwargs: Any
     ):
         """encode the queries using the instruction if provided.
 
@@ -166,12 +162,12 @@ def encode_queries(
         )
 
     def encode_corpus(
-            self,
-            corpus: Union[List[str], str],
-            batch_size: Optional[int] = None,
-            max_length: Optional[int] = None,
-            convert_to_numpy: Optional[bool] = None,
-            **kwargs: Any
+        self,
+        corpus: Union[List[str], str],
+        batch_size: Optional[int] = None,
+        max_length: Optional[int] = None,
+        convert_to_numpy: Optional[bool] = None,
+        **kwargs: Any
     ):
         """encode the corpus using the instruction if provided.
 
@@ -203,14 +199,14 @@ def encode_corpus(
         )
 
     def encode(
-            self,
-            sentences: Union[List[str], str],
-            batch_size: Optional[int] = None,
-            max_length: Optional[int] = None,
-            convert_to_numpy: Optional[bool] = None,
-            instruction: Optional[str] = None,
-            instruction_format: Optional[str] = None,
-            **kwargs: Any
+        self,
+        sentences: Union[List[str], str],
+        batch_size: Optional[int] = None,
+        max_length: Optional[int] = None,
+        convert_to_numpy: Optional[bool] = None,
+        instruction: Optional[str] = None,
+        instruction_format: Optional[str] = None,
+        **kwargs: Any
     ):
         """encode the input sentences with the embedding model.
 
@@ -265,13 +261,13 @@ def __del__(self):
 
     @abstractmethod
     def encode_single_device(
-            self,
-            sentences: Union[List[str], str],
-            batch_size: int = 256,
-            max_length: int = 512,
-            convert_to_numpy: bool = True,
-            device: Optional[str] = None,
-            **kwargs: Any,
+        self,
+        sentences: Union[List[str], str],
+        batch_size: int = 256,
+        max_length: int = 512,
+        convert_to_numpy: bool = True,
+        device: Optional[str] = None,
+        **kwargs: Any,
     ):
         """
         This method should encode sentences and return embeddings on a single device.
@@ -280,8 +276,8 @@ def encode_single_device(
 
     # adapted from https://github.com/UKPLab/sentence-transformers/blob/1802076d4eae42ff0a5629e1b04e75785d4e193b/sentence_transformers/SentenceTransformer.py#L807
     def start_multi_process_pool(
-            self,
-            process_target_func: Any,
+        self,
+        process_target_func: Any,
     ) -> Dict[Literal["input", "output", "processes"], Any]:
         """
         Starts a multi-process pool to process the encoding with several independent processes
@@ -320,7 +316,7 @@ def start_multi_process_pool(
     # adapted from https://github.com/UKPLab/sentence-transformers/blob/1802076d4eae42ff0a5629e1b04e75785d4e193b/sentence_transformers/SentenceTransformer.py#L976
     @staticmethod
     def _encode_multi_process_worker(
-            target_device: str, model: 'AbsEmbedder', input_queue: Queue, results_queue: Queue
+        target_device: str, model: 'AbsEmbedder', input_queue: Queue, results_queue: Queue
     ) -> None:
         """
         Internal working process to encode sentences in multi-process setup
@@ -364,10 +360,10 @@ def stop_multi_process_pool(pool: Dict[Literal["input", "output", "processes"],
 
     # adapted from https://github.com/UKPLab/sentence-transformers/blob/1802076d4eae42ff0a5629e1b04e75785d4e193b/sentence_transformers/SentenceTransformer.py#L877
     def encode_multi_process(
-            self,
-            sentences: List[str],
-            pool: Dict[Literal["input", "output", "processes"], Any],
-            **kwargs
+        self,
+        sentences: List[str],
+        pool: Dict[Literal["input", "output", "processes"], Any],
+        **kwargs
     ):
         chunk_size = math.ceil(len(sentences) / len(pool["processes"]))
 
diff --git a/FlagEmbedding/evaluation/air_bench/__init__.py b/FlagEmbedding/evaluation/air_bench/__init__.py
@@ -0,0 +1,8 @@
+from .arguments import AIRBenchEvalModelArgs, AIRBenchEvalArgs
+from .runner import AIRBenchEvalRunner
+
+__all__ = [
+    "AIRBenchEvalModelArgs",
+    "AIRBenchEvalArgs",
+    "AIRBenchEvalRunner"
+]
diff --git a/FlagEmbedding/evaluation/air_bench/__main__.py b/FlagEmbedding/evaluation/air_bench/__main__.py
@@ -1,29 +1,28 @@
 from transformers import HfArgumentParser
 
-from .arguments import AIRBenchEvalArgs, AIRBenchEvalModelArgs
-from .runner import AIRBenchEvalRunner
+from FlagEmbedding.evaluation.air_bench import (
+    AIRBenchEvalArgs, AIRBenchEvalModelArgs,
+    AIRBenchEvalRunner
+)
 
-def main():
-    parser = HfArgumentParser((
-        AIRBenchEvalArgs,
-        AIRBenchEvalModelArgs
-    ))
 
-    eval_args, model_args = parser.parse_args_into_dataclasses()
-    eval_args: AIRBenchEvalArgs
-    model_args: AIRBenchEvalModelArgs
+parser = HfArgumentParser((
+    AIRBenchEvalArgs,
+    AIRBenchEvalModelArgs
+))
 
-    runner = AIRBenchEvalRunner(
-        eval_args=eval_args,
-        model_args=model_args
-    )
+eval_args, model_args = parser.parse_args_into_dataclasses()
+eval_args: AIRBenchEvalArgs
+model_args: AIRBenchEvalModelArgs
 
-    runner.run()
+runner = AIRBenchEvalRunner(
+    eval_args=eval_args,
+    model_args=model_args
+)
 
-    print("==============================================")
-    print("Search results have been generated.")
-    print("For computing metrics, please refer to the official AIR-Bench docs:")
-    print("- https://github.com/AIR-Bench/AIR-Bench/blob/main/docs/submit_to_leaderboard.md")
+runner.run()
 
-if __name__ == "__main__":
-    main()
+print("==============================================")
+print("Search results have been generated.")
+print("For computing metrics, please refer to the official AIR-Bench docs:")
+print("- https://github.com/AIR-Bench/AIR-Bench/blob/main/docs/submit_to_leaderboard.md")
diff --git a/FlagEmbedding/evaluation/air_bench/arguments.py b/FlagEmbedding/evaluation/air_bench/arguments.py
@@ -1,8 +1,6 @@
 from dataclasses import dataclass, field
 from typing import List, Optional
 
-from air_benchmark import EvalArgs as AIRBenchEvalArgs
-
 
 @dataclass
 class AIRBenchEvalModelArgs:
diff --git a/FlagEmbedding/evaluation/beir/__main__.py b/FlagEmbedding/evaluation/beir/__main__.py
@@ -5,22 +5,19 @@
     BEIREvalRunner
 )
 
-def main():
-    parser = HfArgumentParser((
-        BEIREvalArgs,
-        BEIREvalModelArgs
-    ))
 
-    eval_args, model_args = parser.parse_args_into_dataclasses()
-    eval_args: BEIREvalArgs
-    model_args: BEIREvalModelArgs
+parser = HfArgumentParser((
+    BEIREvalArgs,
+    BEIREvalModelArgs
+))
 
-    runner = BEIREvalRunner(
-        eval_args=eval_args,
-        model_args=model_args
-    )
+eval_args, model_args = parser.parse_args_into_dataclasses()
+eval_args: BEIREvalArgs
+model_args: BEIREvalModelArgs
 
-    runner.run()
+runner = BEIREvalRunner(
+    eval_args=eval_args,
+    model_args=model_args
+)
 
-if __name__ == "__main__":
-    main()
+runner.run()
diff --git a/FlagEmbedding/evaluation/custom/__main__.py b/FlagEmbedding/evaluation/custom/__main__.py
@@ -5,22 +5,19 @@
     CustomEvalRunner
 )
 
-def main():
-    parser = HfArgumentParser((
-        CustomEvalArgs,
-        CustomEvalModelArgs
-    ))
 
-    eval_args, model_args = parser.parse_args_into_dataclasses()
-    eval_args: CustomEvalArgs
-    model_args: CustomEvalModelArgs
+parser = HfArgumentParser((
+    CustomEvalArgs,
+    CustomEvalModelArgs
+))
 
-    runner = CustomEvalRunner(
-        eval_args=eval_args,
-        model_args=model_args
-    )
+eval_args, model_args = parser.parse_args_into_dataclasses()
+eval_args: CustomEvalArgs
+model_args: CustomEvalModelArgs
 
-    runner.run()
+runner = CustomEvalRunner(
+    eval_args=eval_args,
+    model_args=model_args
+)
 
-if __name__ == "__main__":
-    main()
+runner.run()
diff --git a/FlagEmbedding/evaluation/custom/data_loader.py b/FlagEmbedding/evaluation/custom/data_loader.py
@@ -1,7 +1,4 @@
-import os
-import json
 import logging
-import datasets
 from tqdm import tqdm
 from typing import List, Optional
 
@@ -15,4 +12,4 @@ def available_dataset_names(self) -> List[str]:
         return []
 
     def available_splits(self, dataset_name: Optional[str] = None) -> List[str]:
-        return ["train", "dev", "test"]
+        return ["test"]
diff --git a/FlagEmbedding/evaluation/miracl/__main__.py b/FlagEmbedding/evaluation/miracl/__main__.py
@@ -5,22 +5,19 @@
     MIRACLEvalRunner
 )
 
-def main():
-    parser = HfArgumentParser((
-        MIRACLEvalArgs,
-        MIRACLEvalModelArgs
-    ))
 
-    eval_args, model_args = parser.parse_args_into_dataclasses()
-    eval_args: MIRACLEvalArgs
-    model_args: MIRACLEvalModelArgs
+parser = HfArgumentParser((
+    MIRACLEvalArgs,
+    MIRACLEvalModelArgs
+))
 
-    runner = MIRACLEvalRunner(
-        eval_args=eval_args,
-        model_args=model_args
-    )
+eval_args, model_args = parser.parse_args_into_dataclasses()
+eval_args: MIRACLEvalArgs
+model_args: MIRACLEvalModelArgs
 
-    runner.run()
+runner = MIRACLEvalRunner(
+    eval_args=eval_args,
+    model_args=model_args
+)
 
-if __name__ == "__main__":
-    main()
+runner.run()
diff --git a/FlagEmbedding/evaluation/mkqa/__main__.py b/FlagEmbedding/evaluation/mkqa/__main__.py
@@ -5,22 +5,19 @@
     MKQAEvalRunner
 )
 
-def main():
-    parser = HfArgumentParser((
-        MKQAEvalArgs,
-        MKQAEvalModelArgs
-    ))
 
-    eval_args, model_args = parser.parse_args_into_dataclasses()
-    eval_args: MKQAEvalArgs
-    model_args: MKQAEvalModelArgs
+parser = HfArgumentParser((
+    MKQAEvalArgs,
+    MKQAEvalModelArgs
+))
 
-    runner = MKQAEvalRunner(
-        eval_args=eval_args,
-        model_args=model_args
-    )
+eval_args, model_args = parser.parse_args_into_dataclasses()
+eval_args: MKQAEvalArgs
+model_args: MKQAEvalModelArgs
 
-    runner.run()
+runner = MKQAEvalRunner(
+    eval_args=eval_args,
+    model_args=model_args
+)
 
-if __name__ == "__main__":
-    main()
+runner.run()
diff --git a/FlagEmbedding/evaluation/mldr/__main__.py b/FlagEmbedding/evaluation/mldr/__main__.py
diff --git a/FlagEmbedding/evaluation/msmarco/__main__.py b/FlagEmbedding/evaluation/msmarco/__main__.py
diff --git a/FlagEmbedding/evaluation/mteb/__main__.py b/FlagEmbedding/evaluation/mteb/__main__.py