step2: remove read_config

64012d3d · nzy · cabb00c5 · 64012d3d
Commit 64012d3d authored Oct 29, 2024 by nzy
Hide whitespace changes
Inline Side-by-side

Showing with 10 additions and 7 deletions

step2_sftorm_convert_preference_to_sft.py
+10 -7

No files found.
--- a/step2_sftorm_convert_preference_to_sft.py
+++ b/step2_sftorm_convert_preference_to_sft.py
@@ -3,8 +3,8 @@
 # 1. Using reward loss
 # 2. Using SFT (Supervised Fine-Tuning) directly
 # This experiment aims to fairly compare these two approaches.
-
-from utils import load_json, read_config
+import argparse
+from utils import load_json
 from utils_dataset import mk_critic_qa, mk_critic_verify, mk_sft_item, mk_sft_dataset_info, save_dataset


@@ -19,14 +19,17 @@ def convert_preference_to_sft(item):


 if __name__ == "__main__":
-    cfg = read_config()
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--preference_dataset", type=str)
+    parser.add_argument("--llamafactory", type=str)
+    parser.add_argument("--dataset_name", type=str)
+    args = parser.parse_args()

-    preference_path = cfg["preference_dataset"]["min_edit_distance"]["preference_dataset_path"]
-    preference_dataset = load_json(preference_path)
+    preference_dataset = load_json(args.preference_dataset)

    sft_dataset = []
    for item in preference_dataset:
        sft_dataset.extend(convert_preference_to_sft(item))

-    dataset_info = mk_sft_dataset_info(cfg["sftorm"]["dataset_name"])
-    save_dataset(cfg["llamafactory_path"], dataset_info, sft_dataset)
+    dataset_info = mk_sft_dataset_info(args.dataset_name)
+    save_dataset(args.llamafactory, dataset_info, sft_dataset)