add reward_mapping into reward function and add permission

a8d29994 · Yaoyu Zhu · 85eb0b35 · a8d29994 · a8d29994 · a8d29994
Commit a8d29994 authored Apr 09, 2025 by Yaoyu Zhu
466 changed files
--- a/.github/dependabot.yml
+++ b/.github/dependabot.yml
--- a/.github/workflows/checkpoints.yml
+++ b/.github/workflows/checkpoints.yml
--- a/.github/workflows/dataset.yml
+++ b/.github/workflows/dataset.yml
--- a/.github/workflows/e2e_ascend.yml
+++ b/.github/workflows/e2e_ascend.yml
--- a/.github/workflows/e2e_digit_completion.yml
+++ b/.github/workflows/e2e_digit_completion.yml
--- a/.github/workflows/e2e_digit_completion_fire.yml
+++ b/.github/workflows/e2e_digit_completion_fire.yml
--- a/.github/workflows/e2e_eval_aime24.yml
+++ b/.github/workflows/e2e_eval_aime24.yml
--- a/.github/workflows/e2e_grpo.yml
+++ b/.github/workflows/e2e_grpo.yml
--- a/.github/workflows/e2e_gsm8k.yml
+++ b/.github/workflows/e2e_gsm8k.yml
--- a/.github/workflows/e2e_gsm8k_dapo.yml
+++ b/.github/workflows/e2e_gsm8k_dapo.yml
--- a/.github/workflows/e2e_gsm8k_megatron.yml
+++ b/.github/workflows/e2e_gsm8k_megatron.yml
--- a/.github/workflows/e2e_gsm8k_prime.yml
+++ b/.github/workflows/e2e_gsm8k_prime.yml
--- a/.github/workflows/e2e_lora.yml
+++ b/.github/workflows/e2e_lora.yml
--- a/.github/workflows/e2e_sft.yml
+++ b/.github/workflows/e2e_sft.yml
--- a/.github/workflows/e2e_sglang_gsm8k.yml
+++ b/.github/workflows/e2e_sglang_gsm8k.yml
--- a/.github/workflows/e2e_vlm_geo3k.yml
+++ b/.github/workflows/e2e_vlm_geo3k.yml
--- a/.github/workflows/model.yml
+++ b/.github/workflows/model.yml
--- a/.github/workflows/pylint.yml
+++ b/.github/workflows/pylint.yml
--- a/.github/workflows/ray_test.yml
+++ b/.github/workflows/ray_test.yml
--- a/.github/workflows/sandbox.yml
+++ b/.github/workflows/sandbox.yml
--- a/.github/workflows/sanity.yml
+++ b/.github/workflows/sanity.yml
--- a/.github/workflows/scorecard.yml
+++ b/.github/workflows/scorecard.yml
--- a/.github/workflows/secrets_scan.yml
+++ b/.github/workflows/secrets_scan.yml
--- a/.github/workflows/vllm.yml
+++ b/.github/workflows/vllm.yml
--- a/.github/workflows/yapf_format.yml
+++ b/.github/workflows/yapf_format.yml
--- a/.gitignore
+++ b/.gitignore
--- a/.readthedocs.yaml
+++ b/.readthedocs.yaml
--- a/.style.yapf
+++ b/.style.yapf
--- a/LICENSE
+++ b/LICENSE
--- a/Notice.txt
+++ b/Notice.txt
--- a/README.md
+++ b/README.md
--- a/docker/Dockerfile.megatron
+++ b/docker/Dockerfile.megatron
--- a/docker/Dockerfile.ngc.vllm
+++ b/docker/Dockerfile.ngc.vllm
--- a/docker/Dockerfile.ngc.vllm0.8
+++ b/docker/Dockerfile.ngc.vllm0.8
--- a/docker/Dockerfile.ngc.vllm0.8.sagemaker
+++ b/docker/Dockerfile.ngc.vllm0.8.sagemaker
--- a/docker/Dockerfile.rocm
+++ b/docker/Dockerfile.rocm
--- a/docker/Dockerfile.vemlp.vllm.te
+++ b/docker/Dockerfile.vemlp.vllm.te
--- a/docker/Dockfile.ngc.vllm0.8
+++ b/docker/Dockfile.ngc.vllm0.8
--- a/docs/Makefile
+++ b/docs/Makefile
--- a/docs/README.md
+++ b/docs/README.md
--- a/docs/README_vllm0.7.md
+++ b/docs/README_vllm0.7.md
--- a/docs/README_vllm0.8.md
+++ b/docs/README_vllm0.8.md
--- a/docs/_static/logo.png
+++ b/docs/_static/logo.png
--- a/docs/advance/checkpoint.rst
+++ b/docs/advance/checkpoint.rst
--- a/docs/advance/dpo_extension.rst
+++ b/docs/advance/dpo_extension.rst
--- a/docs/advance/fsdp_extension.rst
+++ b/docs/advance/fsdp_extension.rst
--- a/docs/advance/megatron_extension.rst
+++ b/docs/advance/megatron_extension.rst
--- a/docs/advance/placement.rst
+++ b/docs/advance/placement.rst
--- a/docs/amd_tutorial/amd_build_dockerfile.md
+++ b/docs/amd_tutorial/amd_build_dockerfile.md
--- a/docs/amd_tutorial/amd_build_dockerfile_page.rst
+++ b/docs/amd_tutorial/amd_build_dockerfile_page.rst
--- a/docs/amd_tutorial/amd_existing_docker.md
+++ b/docs/amd_tutorial/amd_existing_docker.md
--- a/docs/conf.py
+++ b/docs/conf.py
--- a/docs/data.rst
+++ b/docs/data.rst
--- a/docs/examples/config.rst
+++ b/docs/examples/config.rst
--- a/docs/examples/gsm8k_example.rst
+++ b/docs/examples/gsm8k_example.rst
--- a/docs/examples/ppo_code_architecture.rst
+++ b/docs/examples/ppo_code_architecture.rst
--- a/docs/experiment/ppo.rst
+++ b/docs/experiment/ppo.rst
--- a/docs/faq/faq.rst
+++ b/docs/faq/faq.rst
--- a/docs/hybrid_flow.rst
+++ b/docs/hybrid_flow.rst
--- a/docs/index.rst
+++ b/docs/index.rst
--- a/docs/perf/perf_tuning.rst
+++ b/docs/perf/perf_tuning.rst
--- a/docs/preparation/prepare_data.rst
+++ b/docs/preparation/prepare_data.rst
--- a/docs/preparation/reward_function.rst
+++ b/docs/preparation/reward_function.rst
--- a/docs/requirements-docs.txt
+++ b/docs/requirements-docs.txt
--- a/docs/start/install.rst
+++ b/docs/start/install.rst
--- a/docs/start/multinode.rst
+++ b/docs/start/multinode.rst
--- a/docs/start/quickstart.rst
+++ b/docs/start/quickstart.rst
--- a/docs/workers/fsdp_workers.rst
+++ b/docs/workers/fsdp_workers.rst
--- a/docs/workers/megatron_workers.rst
+++ b/docs/workers/megatron_workers.rst
--- a/docs/workers/ray_trainer.rst
+++ b/docs/workers/ray_trainer.rst
--- a/examples/checkpoint/run_deepseek_megatron_ckpt.sh
+++ b/examples/checkpoint/run_deepseek_megatron_ckpt.sh
--- a/examples/checkpoint/run_qwen_megatron_ckpt.sh
+++ b/examples/checkpoint/run_qwen_megatron_ckpt.sh
--- a/examples/data_preprocess/codev.py
+++ b/examples/data_preprocess/codev.py
--- a/examples/data_preprocess/full_hh_rlhf.py
+++ b/examples/data_preprocess/full_hh_rlhf.py
--- a/examples/data_preprocess/geo3k.py
+++ b/examples/data_preprocess/geo3k.py
--- a/examples/data_preprocess/gsm8k.py
+++ b/examples/data_preprocess/gsm8k.py
--- a/examples/data_preprocess/hellaswag.py
+++ b/examples/data_preprocess/hellaswag.py
--- a/examples/data_preprocess/kk.py
+++ b/examples/data_preprocess/kk.py
--- a/examples/data_preprocess/math_dataset.py
+++ b/examples/data_preprocess/math_dataset.py
--- a/examples/generation/run_deepseek7b_mutli_node.sh
+++ b/examples/generation/run_deepseek7b_mutli_node.sh
--- a/examples/generation/run_deepseek_v2_lite_math.sh
+++ b/examples/generation/run_deepseek_v2_lite_math.sh
--- a/examples/grpo_trainer/run_deepseek7b_llm.sh
+++ b/examples/grpo_trainer/run_deepseek7b_llm.sh
--- a/examples/grpo_trainer/run_deepseek7b_llm_math.sh
+++ b/examples/grpo_trainer/run_deepseek7b_llm_math.sh
--- a/examples/grpo_trainer/run_deepseek7b_llm_math_megatron.sh
+++ b/examples/grpo_trainer/run_deepseek7b_llm_math_megatron.sh
--- a/examples/grpo_trainer/run_deepseek7b_llm_megatron.sh
+++ b/examples/grpo_trainer/run_deepseek7b_llm_megatron.sh
--- a/examples/grpo_trainer/run_deepseek7b_llm_seq_balance.sh
+++ b/examples/grpo_trainer/run_deepseek7b_llm_seq_balance.sh
--- a/examples/grpo_trainer/run_qwen2-7b.sh
+++ b/examples/grpo_trainer/run_qwen2-7b.sh
--- a/examples/grpo_trainer/run_qwen2-7b_math.sh
+++ b/examples/grpo_trainer/run_qwen2-7b_math.sh
--- a/examples/grpo_trainer/run_qwen2-7b_math_megatron.sh
+++ b/examples/grpo_trainer/run_qwen2-7b_math_megatron.sh
--- a/examples/grpo_trainer/run_qwen2-7b_megatron.sh
+++ b/examples/grpo_trainer/run_qwen2-7b_megatron.sh
--- a/examples/grpo_trainer/run_qwen2-7b_seq_balance.sh
+++ b/examples/grpo_trainer/run_qwen2-7b_seq_balance.sh
--- a/examples/grpo_trainer/run_qwen2_5_vl-7b.sh
+++ b/examples/grpo_trainer/run_qwen2_5_vl-7b.sh
--- a/examples/ppo_trainer/run_deepseek7b_llm.sh
+++ b/examples/ppo_trainer/run_deepseek7b_llm.sh
--- a/examples/ppo_trainer/run_deepseek7b_llm_modelscope.sh
+++ b/examples/ppo_trainer/run_deepseek7b_llm_modelscope.sh
--- a/examples/ppo_trainer/run_deepseek7b_llm_sp2.sh
+++ b/examples/ppo_trainer/run_deepseek7b_llm_sp2.sh
--- a/examples/ppo_trainer/run_deepseek_full_hh_rlhf.sh
+++ b/examples/ppo_trainer/run_deepseek_full_hh_rlhf.sh
--- a/examples/ppo_trainer/run_deepseek_math_gsm8k_megatron.sh
+++ b/examples/ppo_trainer/run_deepseek_math_gsm8k_megatron.sh
--- a/examples/ppo_trainer/run_deepseek_megatron.sh
+++ b/examples/ppo_trainer/run_deepseek_megatron.sh
--- a/examples/ppo_trainer/run_gemma.sh
+++ b/examples/ppo_trainer/run_gemma.sh
--- a/examples/ppo_trainer/run_qwen2-7b_math_gsm8k_megatron.sh
+++ b/examples/ppo_trainer/run_qwen2-7b_math_gsm8k_megatron.sh
--- a/examples/ppo_trainer/run_qwen2-7b_megatron.sh
+++ b/examples/ppo_trainer/run_qwen2-7b_megatron.sh
--- a/examples/ppo_trainer/run_qwen2-7b_rm.sh
+++ b/examples/ppo_trainer/run_qwen2-7b_rm.sh
--- a/examples/ppo_trainer/run_qwen2-7b_rm_seq_balance.sh
+++ b/examples/ppo_trainer/run_qwen2-7b_rm_seq_balance.sh
--- a/examples/ppo_trainer/run_qwen2-7b_seq_balance.sh
+++ b/examples/ppo_trainer/run_qwen2-7b_seq_balance.sh
--- a/examples/ppo_trainer/run_qwen2.5-32b.sh
+++ b/examples/ppo_trainer/run_qwen2.5-32b.sh
--- a/examples/ppo_trainer/verl_getting_started.ipynb
+++ b/examples/ppo_trainer/verl_getting_started.ipynb
--- a/examples/ray/tutorial.ipynb
+++ b/examples/ray/tutorial.ipynb
--- a/examples/remax_trainer/run_qwen2.5-3b_seq_balance.sh
+++ b/examples/remax_trainer/run_qwen2.5-3b_seq_balance.sh
--- a/examples/remax_trainer/run_qwen2.5-7b_seq_balance.sh
+++ b/examples/remax_trainer/run_qwen2.5-7b_seq_balance.sh
--- a/examples/rloo_trainer/run_qwen2-7b.sh
+++ b/examples/rloo_trainer/run_qwen2-7b.sh
--- a/examples/sft/gsm8k/run_deepseek_6b7.sh
+++ b/examples/sft/gsm8k/run_deepseek_6b7.sh
--- a/examples/sft/gsm8k/run_gemma_2b.sh
+++ b/examples/sft/gsm8k/run_gemma_2b.sh
--- a/examples/sft/gsm8k/run_gemma_7b.sh
+++ b/examples/sft/gsm8k/run_gemma_7b.sh
--- a/examples/split_placement/README.md
+++ b/examples/split_placement/README.md
--- a/examples/split_placement/config/ppo_trainer_split.yaml
+++ b/examples/split_placement/config/ppo_trainer_split.yaml
--- a/examples/split_placement/main_ppo_split.py
+++ b/examples/split_placement/main_ppo_split.py
--- a/examples/split_placement/run_deepseek7b_llm.sh
+++ b/examples/split_placement/run_deepseek7b_llm.sh
--- a/examples/split_placement/split_monkey_patch.py
+++ b/examples/split_placement/split_monkey_patch.py
--- a/patches/megatron_v4.patch
+++ b/patches/megatron_v4.patch
--- a/plot_and_analyze/extract_ve2_result.py
+++ b/plot_and_analyze/extract_ve2_result.py
--- a/plot_and_analyze/plot.py
+++ b/plot_and_analyze/plot.py
--- a/pyproject.toml
+++ b/pyproject.toml
--- a/recipe/dapo/README.md
+++ b/recipe/dapo/README.md
--- a/recipe/dapo/dapo_7b_test.sh
+++ b/recipe/dapo/dapo_7b_test.sh
@@ -110,7 +110,8 @@ python3 -m verl.trainer.main_ppo \
    custom_reward_function.path=verl/utils/reward_score/codev.py \
    custom_reward_function.name=compute_score_wrapper \
    custom_reward_function.continuous_reward.enable=True \
-    custom_reward_function.continuous_reward.error_ratio_threshold=0.5 \
+    custom_reward_function.continuous_reward.err_threshold=0.5 \
+    custom_reward_function.continuous_reward.reward_mapping='zero' \
    algorithm.kl_ctrl.kl_coef=0.0 \
    trainer.critic_warmup=0 \
    trainer.logger=['console','wandb'] \

--- a/recipe/dapo/prepare_dapo_data.sh
+++ b/recipe/dapo/prepare_dapo_data.sh
--- a/recipe/dapo/run_dapo_codev_7b_16k.sh
+++ b/recipe/dapo/run_dapo_codev_7b_16k.sh
--- a/recipe/dapo/run_dapo_codev_7b_16k_err_l0.2_continuous_reward.sh
+++ b/recipe/dapo/run_dapo_codev_7b_16k_err_l0.2_continuous_reward.sh
@@ -110,12 +110,12 @@ python3 -m verl.trainer.main_ppo \
    custom_reward_function.path=verl/utils/reward_score/codev.py \
    custom_reward_function.name=compute_score_wrapper \
    custom_reward_function.continuous_reward.enable=True \
-    custom_reward_function.continuous_reward.error_ratio_threshold=0.2 \
+    custom_reward_function.continuous_reward.err_threshold=0.2 \
    algorithm.kl_ctrl.kl_coef=0.0 \
    trainer.critic_warmup=0 \
    trainer.logger=['console','wandb'] \
    trainer.project_name='codev' \
-    trainer.experiment_name='codev-7b-16k' \
+    trainer.experiment_name='codev-7b-16k-err0.2-threshold' \
    trainer.n_gpus_per_node=$USER_GPUS_PER_NODE \
    trainer.nnodes=$SLURM_JOB_NUM_NODES \
    +trainer.val_before_train=False \

--- a/recipe/dapo/run_dapo_codev_7b_16k_err_l0.2_continuous_reward_zero.sh
+++ b/recipe/dapo/run_dapo_codev_7b_16k_err_l0.2_continuous_reward_zero.sh
+#!/bin/bash
+set -x
+set -euxo pipefail
+project_name='DAPO'
+exp_name='DAPO-Early-Qwen2.5-32B'
+adv_estimator=grpo
+kl_coef=0.0
+kl_loss_coef=0.0
+clip_ratio_low=0.2
+clip_ratio_high=0.28
+enable_overlong_buffer=True
+overlong_buffer_len=$((1024 * 4))
+overlong_penalty_factor=1.0
+# An early version for DAPO
+enable_filter_groups=False
+gen_prompt_bsz=512 # NOTE: no filtering here
+train_prompt_bsz=512
+train_prompt_mini_bsz=32
+n_resp_per_prompt=16
+use_token_level_loss=False
+# Ray
+RAY_ADDRESS=${RAY_ADDRESS:-"http://localhost:8265"}
+WORKING_DIR=${WORKING_DIR:-"${PWD}"}
+RUNTIME_ENV=${RUNTIME_ENV:-"${WORKING_DIR}/verl/trainer/runtime_env.yaml"}
+NNODES=${NNODES:-16}
+# Paths
+# Algorithm
+## Train
+max_prompt_length=$((1024 * 2))
+max_response_length=$((1024 * 20))
+## Validation
+val_top_k=-1 # 0 for HF rollout, -1 for vLLM rollout
+# Performance Related Parameter
+sp_size=8
+use_dynamic_bsz=True
+actor_ppo_max_token_len=$((max_prompt_length + max_response_length))
+infer_ppo_max_token_len=$((max_prompt_length + max_response_length))
+offload=True
+gen_tp=4
+export VLLM_USE_V1=1
+echo "$WANDB_DIR"
+echo "$SAVE_DIR"
+echo "$WANDB_API_KEY"
+# Set default model path if not provided
+MODEL_PATH="/nfs_global/S/lvhanqi/LLaMA-Factory/saves/Qwen2.5-Coder-7B-Instruct-codev-r1-87k/full/sft_6epoch"
+# Train over a single node, 8 A100-80GB GPUs.
+python3 -m verl.trainer.main_ppo \
+    algorithm.adv_estimator=grpo \
+    data.train_files=/nfs_global/S/zhuyaoyu/projects/verl/data/codev/v1/16k_r1_filtered/train.parquet \
+    data.val_files=/nfs_global/S/zhuyaoyu/projects/verl/data/codev/v1/16k_r1_filtered/test.parquet \
+    data.train_batch_size=128 \
+    data.val_batch_size=512 \
+    data.max_prompt_length=2048 \
+    data.max_response_length=16384 \
+    actor_rollout_ref.model.path=$MODEL_PATH \
+    +actor_rollout_ref.model.override_config.attention_dropout=0. \
+    +actor_rollout_ref.model.override_config.embd_pdrop=0. \
+    +actor_rollout_ref.model.override_config.resid_pdrop=0. \
+    actor_rollout_ref.model.enable_gradient_checkpointing=True \
+    actor_rollout_ref.actor.optim.lr=1e-6 \
+    actor_rollout_ref.actor.optim.weight_decay=0.0 \
+    actor_rollout_ref.actor.use_dynamic_bsz=True\
+    actor_rollout_ref.actor.ppo_max_token_len_per_gpu=32768 \
+    actor_rollout_ref.model.use_remove_padding=True \
+    actor_rollout_ref.actor.clip_ratio_low=${clip_ratio_low} \
+    actor_rollout_ref.actor.clip_ratio_high=${clip_ratio_high} \
+    actor_rollout_ref.actor.ppo_mini_batch_size=64 \
+    actor_rollout_ref.actor.use_kl_loss=True \
+    actor_rollout_ref.actor.kl_loss_coef=0.00 \
+    actor_rollout_ref.actor.kl_loss_type=low_var_kl \
+    actor_rollout_ref.actor.entropy_coeff=0 \
+    actor_rollout_ref.actor.grad_clip=0.5 \
+    actor_rollout_ref.actor.use_token_level_loss=${use_token_level_loss} \
+    actor_rollout_ref.model.enable_gradient_checkpointing=True \
+    actor_rollout_ref.actor.fsdp_config.param_offload=False \
+    actor_rollout_ref.actor.fsdp_config.optimizer_offload=False \
+    actor_rollout_ref.rollout.log_prob_max_token_len_per_gpu=32768 \
+    actor_rollout_ref.rollout.tensor_model_parallel_size=4 \
+    actor_rollout_ref.rollout.name=vllm \
+    actor_rollout_ref.rollout.n=16 \
+    actor_rollout_ref.rollout.val_kwargs.n=2 \
+    actor_rollout_ref.rollout.temperature=1.0 \
+    actor_rollout_ref.rollout.val_kwargs.temperature=1.0 \
+    actor_rollout_ref.rollout.val_kwargs.do_sample=True \
+    actor_rollout_ref.rollout.gpu_memory_utilization=0.7 \
+    actor_rollout_ref.rollout.enforce_eager=False \
+    actor_rollout_ref.rollout.free_cache_engine=False \
+    reward_model.reward_manager=prime \
+    actor_rollout_ref.ref.fsdp_config.param_offload=True \
+    custom_reward_function.overlong_buffer.enable=${enable_overlong_buffer} \
+    custom_reward_function.overlong_buffer.len=${overlong_buffer_len} \
+    custom_reward_function.overlong_buffer.penalty_factor=${overlong_penalty_factor} \
+    custom_reward_function.path=verl/utils/reward_score/codev.py \
+    custom_reward_function.name=compute_score_wrapper \
+    custom_reward_function.continuous_reward.enable=True \
+    custom_reward_function.continuous_reward.err_threshold=0.2 \
+    custom_reward_function.continuous_reward.reward_mapping='zero' \
+    algorithm.kl_ctrl.kl_coef=0.0 \
+    trainer.critic_warmup=0 \
+    trainer.logger=['console','wandb'] \
+    trainer.project_name='codev' \
+    trainer.experiment_name='codev-7b-16k-err0.2-zero' \
+    trainer.n_gpus_per_node=$USER_GPUS_PER_NODE \
+    trainer.nnodes=$SLURM_JOB_NUM_NODES \
+    +trainer.val_before_train=False \
+    trainer.default_local_dir=$SAVE_DIR \
+    trainer.resume_mode=auto \
+    trainer.default_hdfs_dir=null \
+    trainer.save_freq=20 \
+    trainer.test_freq=20 \
+    trainer.total_epochs=100 "${@:1}"
\ No newline at end of file
--- a/recipe/dapo/run_dapo_codev_7b_16k_err_l1.0_continuous_reward.sh
+++ b/recipe/dapo/run_dapo_codev_7b_16k_err_l1.0_continuous_reward.sh
@@ -110,12 +110,12 @@ python3 -m verl.trainer.main_ppo \
    custom_reward_function.path=verl/utils/reward_score/codev.py \
    custom_reward_function.name=compute_score_wrapper \
    custom_reward_function.continuous_reward.enable=True \
-    custom_reward_function.continuous_reward.error_ratio_threshold=1.0 \
+    custom_reward_function.continuous_reward.err_threshold=1.0 \
    algorithm.kl_ctrl.kl_coef=0.0 \
    trainer.critic_warmup=0 \
    trainer.logger=['console','wandb'] \
    trainer.project_name='codev' \
-    trainer.experiment_name='codev-7b-16k' \
+    trainer.experiment_name='codev-7b-16k-err1.0' \
    trainer.n_gpus_per_node=$USER_GPUS_PER_NODE \
    trainer.nnodes=$SLURM_JOB_NUM_NODES \
    +trainer.val_before_train=False \

--- a/recipe/dapo/run_dapo_codev_7b_20k_err_l0.2_r1_continuous_reward.sh
+++ b/recipe/dapo/run_dapo_codev_7b_20k_err_l0.2_r1_continuous_reward.sh
--- a/recipe/dapo/run_dapo_codev_7b_3.4k.sh
+++ b/recipe/dapo/run_dapo_codev_7b_3.4k.sh
--- a/recipe/dapo/run_dapo_codev_7b_8k.sh
+++ b/recipe/dapo/run_dapo_codev_7b_8k.sh
--- a/recipe/dapo/run_dapo_codev_7b_8k_terminal.sh
+++ b/recipe/dapo/run_dapo_codev_7b_8k_terminal.sh
--- a/recipe/dapo/run_dapo_early_qwen2.5_32b.sh
+++ b/recipe/dapo/run_dapo_early_qwen2.5_32b.sh
--- a/recipe/dapo/run_dapo_qwen2.5_32b.sh
+++ b/recipe/dapo/run_dapo_qwen2.5_32b.sh
--- a/recipe/dapo/src/config/dapo_trainer.yaml
+++ b/recipe/dapo/src/config/dapo_trainer.yaml
--- a/recipe/dapo/src/dapo_ray_trainer.py
+++ b/recipe/dapo/src/dapo_ray_trainer.py
--- a/recipe/dapo/src/main_dapo.py
+++ b/recipe/dapo/src/main_dapo.py
--- a/recipe/dapo/test_dapo_7b.sh
+++ b/recipe/dapo/test_dapo_7b.sh
--- a/recipe/prime/__init__.py
+++ b/recipe/prime/__init__.py
--- a/recipe/prime/config/prime_trainer.yaml
+++ b/recipe/prime/config/prime_trainer.yaml
--- a/recipe/prime/main_prime.py
+++ b/recipe/prime/main_prime.py
--- a/recipe/prime/prime_core_algos.py
+++ b/recipe/prime/prime_core_algos.py
--- a/recipe/prime/prime_dp_rm.py
+++ b/recipe/prime/prime_dp_rm.py
--- a/recipe/prime/prime_fsdp_workers.py
+++ b/recipe/prime/prime_fsdp_workers.py
--- a/recipe/prime/prime_ray_trainer.py
+++ b/recipe/prime/prime_ray_trainer.py
--- a/recipe/prime/run_prime_qwen.sh
+++ b/recipe/prime/run_prime_qwen.sh
--- a/recipe/r1/__init__.py
+++ b/recipe/r1/__init__.py
--- a/recipe/r1/config/evaluation.yaml
+++ b/recipe/r1/config/evaluation.yaml
--- a/recipe/r1/data_process.py
+++ b/recipe/r1/data_process.py
--- a/recipe/r1/main_eval.py
+++ b/recipe/r1/main_eval.py
--- a/recipe/r1/reward_score.py
+++ b/recipe/r1/reward_score.py
--- a/recipe/r1/run_r1_distill_qwen.sh
+++ b/recipe/r1/run_r1_distill_qwen.sh
--- a/recipe/r1/tasks/__init__.py
+++ b/recipe/r1/tasks/__init__.py
--- a/recipe/r1/tasks/gpqa.py
+++ b/recipe/r1/tasks/gpqa.py
--- a/recipe/r1/tasks/livecodebench.py
+++ b/recipe/r1/tasks/livecodebench.py
--- a/recipe/r1/tasks/math.py
+++ b/recipe/r1/tasks/math.py
--- a/requirements.txt
+++ b/requirements.txt
--- a/requirements_sglang.txt
+++ b/requirements_sglang.txt
--- a/results/dapo_7b_test/dapo_7b_test.sh
+++ b/results/dapo_7b_test/dapo_7b_test.sh
+#!/bin/bash
+set -x
+set -euxo pipefail
+project_name='DAPO'
+exp_name='DAPO-Early-Qwen2.5-32B'
+adv_estimator=grpo
+kl_coef=0.0
+kl_loss_coef=0.0
+clip_ratio_low=0.2
+clip_ratio_high=0.28
+enable_overlong_buffer=True
+overlong_buffer_len=$((1024 * 1))
+overlong_penalty_factor=1.0
+# An early version for DAPO
+enable_filter_groups=False
+gen_prompt_bsz=512 # NOTE: no filtering here
+train_prompt_bsz=512
+train_prompt_mini_bsz=32
+n_resp_per_prompt=16
+use_token_level_loss=False
+# Ray
+RAY_ADDRESS=${RAY_ADDRESS:-"http://localhost:8265"}
+WORKING_DIR=${WORKING_DIR:-"${PWD}"}
+RUNTIME_ENV=${RUNTIME_ENV:-"${WORKING_DIR}/verl/trainer/runtime_env.yaml"}
+NNODES=${NNODES:-16}
+# Paths
+# Algorithm
+## Train
+max_prompt_length=$((1024 * 2))
+max_response_length=$((1024 * 20))
+## Validation
+val_top_k=-1 # 0 for HF rollout, -1 for vLLM rollout
+# Performance Related Parameter
+sp_size=8
+use_dynamic_bsz=True
+actor_ppo_max_token_len=$((max_prompt_length + max_response_length))
+infer_ppo_max_token_len=$((max_prompt_length + max_response_length))
+offload=True
+gen_tp=4
+export VLLM_USE_V1=1
+echo "$WANDB_DIR"
+echo "$SAVE_DIR"
+echo "$WANDB_API_KEY"
+# Set default model path if not provided
+MODEL_PATH="/share/collab/codemodel/models/Qwen2.5-Coder-7B-Instruct"
+# Train over a single node, 8 A100-80GB GPUs.
+python3 -m verl.trainer.main_ppo \
+    algorithm.adv_estimator=grpo \
+    data.train_files=/nfs_global/S/zhuyaoyu/projects/verl/data/codev/v1/1.6k/train.parquet \
+    data.val_files=/nfs_global/S/zhuyaoyu/projects/verl/data/codev/v1/1.6k/test.parquet \
+    data.train_batch_size=128 \
+    data.val_batch_size=512 \
+    data.max_prompt_length=1024 \
+    data.max_response_length=3072 \
+    actor_rollout_ref.model.path=$MODEL_PATH \
+    +actor_rollout_ref.model.override_config.attention_dropout=0. \
+    +actor_rollout_ref.model.override_config.embd_pdrop=0. \
+    +actor_rollout_ref.model.override_config.resid_pdrop=0. \
+    actor_rollout_ref.model.enable_gradient_checkpointing=True \
+    actor_rollout_ref.actor.optim.lr=1e-6 \
+    actor_rollout_ref.actor.optim.weight_decay=0.0 \
+    actor_rollout_ref.actor.use_dynamic_bsz=True\
+    actor_rollout_ref.actor.ppo_max_token_len_per_gpu=12000 \
+    actor_rollout_ref.model.use_remove_padding=True \
+    actor_rollout_ref.actor.clip_ratio_low=${clip_ratio_low} \
+    actor_rollout_ref.actor.clip_ratio_high=${clip_ratio_high} \
+    actor_rollout_ref.actor.ppo_mini_batch_size=64 \
+    actor_rollout_ref.actor.use_kl_loss=True \
+    actor_rollout_ref.actor.kl_loss_coef=0.00 \
+    actor_rollout_ref.actor.kl_loss_type=low_var_kl \
+    actor_rollout_ref.actor.entropy_coeff=0 \
+    actor_rollout_ref.actor.grad_clip=0.5 \
+    actor_rollout_ref.actor.use_token_level_loss=${use_token_level_loss} \
+    actor_rollout_ref.model.enable_gradient_checkpointing=True \
+    actor_rollout_ref.actor.fsdp_config.param_offload=False \
+    actor_rollout_ref.actor.fsdp_config.optimizer_offload=False \
+    actor_rollout_ref.rollout.log_prob_max_token_len_per_gpu=24000 \
+    actor_rollout_ref.rollout.tensor_model_parallel_size=4 \
+    actor_rollout_ref.rollout.name=vllm \
+    actor_rollout_ref.rollout.n=8 \
+    actor_rollout_ref.rollout.val_kwargs.n=2 \
+    actor_rollout_ref.rollout.temperature=1.0 \
+    actor_rollout_ref.rollout.val_kwargs.temperature=1.0 \
+    actor_rollout_ref.rollout.val_kwargs.do_sample=True \
+    actor_rollout_ref.rollout.gpu_memory_utilization=0.7 \
+    actor_rollout_ref.rollout.enforce_eager=False \
+    actor_rollout_ref.rollout.free_cache_engine=False \
+    reward_model.reward_manager=prime \
+    actor_rollout_ref.ref.fsdp_config.param_offload=True \
+    custom_reward_function.overlong_buffer.enable=${enable_overlong_buffer} \
+    custom_reward_function.overlong_buffer.len=${overlong_buffer_len} \
+    custom_reward_function.overlong_buffer.penalty_factor=${overlong_penalty_factor} \
+    custom_reward_function.path=verl/utils/reward_score/codev.py \
+    custom_reward_function.name=compute_score_wrapper \
+    custom_reward_function.continuous_reward.enable=True \
+    custom_reward_function.continuous_reward.err_threshold=0.5 \
+    custom_reward_function.continuous_reward.reward_mapping='zero' \
+    algorithm.kl_ctrl.kl_coef=0.0 \
+    trainer.critic_warmup=0 \
+    trainer.logger=['console','wandb'] \
+    trainer.project_name='codev' \
+    trainer.experiment_name='codev-7b-16k' \
+    trainer.n_gpus_per_node=$USER_GPUS_PER_NODE \
+    trainer.nnodes=$SLURM_JOB_NUM_NODES \
+    +trainer.val_before_train=False \
+    trainer.default_local_dir=$SAVE_DIR \
+    trainer.resume_mode=auto \
+    trainer.default_hdfs_dir=null \
+    trainer.save_freq=20 \
+    trainer.test_freq=20 \
+    trainer.total_epochs=100 "${@:1}"
+    # custom_reward_function.path=/nfs_global/S/zhuyaoyu/projects/dapo/verl/utils/reward_score/codev.py \
\ No newline at end of file
--- a/results/run_dapo_codev_7b_16k_continuous_reward_0.2_zero/run_dapo_codev_7b_16k_err_l0.2_continuous_reward_zero.sh
+++ b/results/run_dapo_codev_7b_16k_continuous_reward_0.2_zero/run_dapo_codev_7b_16k_err_l0.2_continuous_reward_zero.sh
+#!/bin/bash
+set -x
+set -euxo pipefail
+project_name='DAPO'
+exp_name='DAPO-Early-Qwen2.5-32B'
+adv_estimator=grpo
+kl_coef=0.0
+kl_loss_coef=0.0
+clip_ratio_low=0.2
+clip_ratio_high=0.28
+enable_overlong_buffer=True
+overlong_buffer_len=$((1024 * 4))
+overlong_penalty_factor=1.0
+# An early version for DAPO
+enable_filter_groups=False
+gen_prompt_bsz=512 # NOTE: no filtering here
+train_prompt_bsz=512
+train_prompt_mini_bsz=32
+n_resp_per_prompt=16
+use_token_level_loss=False
+# Ray
+RAY_ADDRESS=${RAY_ADDRESS:-"http://localhost:8265"}
+WORKING_DIR=${WORKING_DIR:-"${PWD}"}
+RUNTIME_ENV=${RUNTIME_ENV:-"${WORKING_DIR}/verl/trainer/runtime_env.yaml"}
+NNODES=${NNODES:-16}
+# Paths
+# Algorithm
+## Train
+max_prompt_length=$((1024 * 2))
+max_response_length=$((1024 * 20))
+## Validation
+val_top_k=-1 # 0 for HF rollout, -1 for vLLM rollout
+# Performance Related Parameter
+sp_size=8
+use_dynamic_bsz=True
+actor_ppo_max_token_len=$((max_prompt_length + max_response_length))
+infer_ppo_max_token_len=$((max_prompt_length + max_response_length))
+offload=True
+gen_tp=4
+export VLLM_USE_V1=1
+echo "$WANDB_DIR"
+echo "$SAVE_DIR"
+echo "$WANDB_API_KEY"
+# Set default model path if not provided
+MODEL_PATH="/nfs_global/S/lvhanqi/LLaMA-Factory/saves/Qwen2.5-Coder-7B-Instruct-codev-r1-87k/full/sft_6epoch"
+# Train over a single node, 8 A100-80GB GPUs.
+python3 -m verl.trainer.main_ppo \
+    algorithm.adv_estimator=grpo \
+    data.train_files=/nfs_global/S/zhuyaoyu/projects/verl/data/codev/v1/16k_r1_filtered/train.parquet \
+    data.val_files=/nfs_global/S/zhuyaoyu/projects/verl/data/codev/v1/16k_r1_filtered/test.parquet \
+    data.train_batch_size=128 \
+    data.val_batch_size=512 \
+    data.max_prompt_length=2048 \
+    data.max_response_length=16384 \
+    actor_rollout_ref.model.path=$MODEL_PATH \
+    +actor_rollout_ref.model.override_config.attention_dropout=0. \
+    +actor_rollout_ref.model.override_config.embd_pdrop=0. \
+    +actor_rollout_ref.model.override_config.resid_pdrop=0. \
+    actor_rollout_ref.model.enable_gradient_checkpointing=True \
+    actor_rollout_ref.actor.optim.lr=1e-6 \
+    actor_rollout_ref.actor.optim.weight_decay=0.0 \
+    actor_rollout_ref.actor.use_dynamic_bsz=True\
+    actor_rollout_ref.actor.ppo_max_token_len_per_gpu=32768 \
+    actor_rollout_ref.model.use_remove_padding=True \
+    actor_rollout_ref.actor.clip_ratio_low=${clip_ratio_low} \
+    actor_rollout_ref.actor.clip_ratio_high=${clip_ratio_high} \
+    actor_rollout_ref.actor.ppo_mini_batch_size=64 \
+    actor_rollout_ref.actor.use_kl_loss=True \
+    actor_rollout_ref.actor.kl_loss_coef=0.00 \
+    actor_rollout_ref.actor.kl_loss_type=low_var_kl \
+    actor_rollout_ref.actor.entropy_coeff=0 \
+    actor_rollout_ref.actor.grad_clip=0.5 \
+    actor_rollout_ref.actor.use_token_level_loss=${use_token_level_loss} \
+    actor_rollout_ref.model.enable_gradient_checkpointing=True \
+    actor_rollout_ref.actor.fsdp_config.param_offload=False \
+    actor_rollout_ref.actor.fsdp_config.optimizer_offload=False \
+    actor_rollout_ref.rollout.log_prob_max_token_len_per_gpu=32768 \
+    actor_rollout_ref.rollout.tensor_model_parallel_size=4 \
+    actor_rollout_ref.rollout.name=vllm \
+    actor_rollout_ref.rollout.n=16 \
+    actor_rollout_ref.rollout.val_kwargs.n=2 \
+    actor_rollout_ref.rollout.temperature=1.0 \
+    actor_rollout_ref.rollout.val_kwargs.temperature=1.0 \
+    actor_rollout_ref.rollout.val_kwargs.do_sample=True \
+    actor_rollout_ref.rollout.gpu_memory_utilization=0.7 \
+    actor_rollout_ref.rollout.enforce_eager=False \
+    actor_rollout_ref.rollout.free_cache_engine=False \
+    reward_model.reward_manager=prime \
+    actor_rollout_ref.ref.fsdp_config.param_offload=True \
+    custom_reward_function.overlong_buffer.enable=${enable_overlong_buffer} \
+    custom_reward_function.overlong_buffer.len=${overlong_buffer_len} \
+    custom_reward_function.overlong_buffer.penalty_factor=${overlong_penalty_factor} \
+    custom_reward_function.path=verl/utils/reward_score/codev.py \
+    custom_reward_function.name=compute_score_wrapper \
+    custom_reward_function.continuous_reward.enable=True \
+    custom_reward_function.continuous_reward.err_threshold=0.2 \
+    custom_reward_function.continuous_reward.reward_mapping='zero' \
+    algorithm.kl_ctrl.kl_coef=0.0 \
+    trainer.critic_warmup=0 \
+    trainer.logger=['console','wandb'] \
+    trainer.project_name='codev' \
+    trainer.experiment_name='codev-7b-16k-err0.2-zero' \
+    trainer.n_gpus_per_node=$USER_GPUS_PER_NODE \
+    trainer.nnodes=$SLURM_JOB_NUM_NODES \
+    +trainer.val_before_train=False \
+    trainer.default_local_dir=$SAVE_DIR \
+    trainer.resume_mode=auto \
+    trainer.default_hdfs_dir=null \
+    trainer.save_freq=20 \
+    trainer.test_freq=20 \
+    trainer.total_epochs=100 "${@:1}"
\ No newline at end of file
--- a/scripts/model_merger.py
+++ b/scripts/model_merger.py
--- a/setup.py
+++ b/setup.py
--- a/slurm_submit.py
+++ b/slurm_submit.py
@@ -116,9 +116,9 @@ if __name__ == "__main__":
    parser = argparse.ArgumentParser(description="Submit a Slurm job with specified parameters.")
    # 添加命令行参数
-    parser.add_argument("--node_count", type=int, default=1, help="Number of nodes required.")
+    parser.add_argument("--node_count", type=int, default=2, help="Number of nodes required.")
    parser.add_argument("--gpus_per_node", type=int, default=8, help="Number of GPUs per node (4 or 8).")
-    parser.add_argument("--node_type", type=str, default="r8l40", help="Node type (r8l40/r8l40s/r8a100).")
+    parser.add_argument("--node_type", type=str, default="r8l40s", help="Node type (r8l40/r8l40s/r8a100).")
    parser.add_argument("--partition", type=str, default=None, help="Partition name. (r8nv-gpu-dedicated needs to be specified)")
    parser.add_argument("--qos", type=str, default=None, help="QOS type. (gpu-long needs to be specified)")

--- a/tests/__init__.py
+++ b/tests/__init__.py
--- a/tests/checkpoint/run_deepseek_megatron_ckpt.sh
+++ b/tests/checkpoint/run_deepseek_megatron_ckpt.sh
--- a/tests/checkpoint/run_qwen_megatron_ckpt.sh
+++ b/tests/checkpoint/run_qwen_megatron_ckpt.sh
--- a/tests/checkpoint/test_fsdp_ckpt.py
+++ b/tests/checkpoint/test_fsdp_ckpt.py
--- a/tests/distributed/run_all.sh
+++ b/tests/distributed/run_all.sh
--- a/tests/distributed/test_tensor_dict.py
+++ b/tests/distributed/test_tensor_dict.py
--- a/tests/distro/requirements.py
+++ b/tests/distro/requirements.py
--- a/tests/e2e/__init__.py
+++ b/tests/e2e/__init__.py
--- a/tests/e2e/arithmetic_sequence/data/create_dataset.py
+++ b/tests/e2e/arithmetic_sequence/data/create_dataset.py
--- a/tests/e2e/arithmetic_sequence/model/config.json
+++ b/tests/e2e/arithmetic_sequence/model/config.json
--- a/tests/e2e/arithmetic_sequence/model/create_model_tokenizer.py
+++ b/tests/e2e/arithmetic_sequence/model/create_model_tokenizer.py
--- a/tests/e2e/arithmetic_sequence/model/generation_config.json
+++ b/tests/e2e/arithmetic_sequence/model/generation_config.json
--- a/tests/e2e/arithmetic_sequence/model/model.safetensors
+++ b/tests/e2e/arithmetic_sequence/model/model.safetensors
--- a/tests/e2e/arithmetic_sequence/model/tokenizer_config.json
+++ b/tests/e2e/arithmetic_sequence/model/tokenizer_config.json
--- a/tests/e2e/arithmetic_sequence/rl/README.md
+++ b/tests/e2e/arithmetic_sequence/rl/README.md
--- a/tests/e2e/arithmetic_sequence/rl/main_trainer.py
+++ b/tests/e2e/arithmetic_sequence/rl/main_trainer.py
--- a/tests/e2e/check_custom_rwd_fn.py
+++ b/tests/e2e/check_custom_rwd_fn.py
--- a/tests/e2e/check_results.py
+++ b/tests/e2e/check_results.py
--- a/tests/e2e/envs/__init__.py
+++ b/tests/e2e/envs/__init__.py
--- a/tests/e2e/envs/digit_completion/__init__.py
+++ b/tests/e2e/envs/digit_completion/__init__.py
--- a/tests/e2e/envs/digit_completion/task.py
+++ b/tests/e2e/envs/digit_completion/task.py
--- a/tests/e2e/envs/digit_completion/tokenizer.py
+++ b/tests/e2e/envs/digit_completion/tokenizer.py
--- a/tests/e2e/run_deepseek_grpo.sh
+++ b/tests/e2e/run_deepseek_grpo.sh
--- a/tests/e2e/run_deepseek_grpo_megatron.sh
+++ b/tests/e2e/run_deepseek_grpo_megatron.sh
--- a/tests/e2e/run_deepseek_megatron.sh
+++ b/tests/e2e/run_deepseek_megatron.sh
--- a/tests/e2e/run_deepseek_megatron_parallelism.sh
+++ b/tests/e2e/run_deepseek_megatron_parallelism.sh
--- a/tests/e2e/run_qwen2vl_geo3k_function_rm.sh
+++ b/tests/e2e/run_qwen2vl_geo3k_function_rm.sh
--- a/tests/e2e/run_qwen_grpo.sh
+++ b/tests/e2e/run_qwen_grpo.sh
--- a/tests/e2e/run_qwen_grpo_megatron.sh
+++ b/tests/e2e/run_qwen_grpo_megatron.sh
--- a/tests/e2e/run_qwen_gsm8k_custom_function_rm.sh
+++ b/tests/e2e/run_qwen_gsm8k_custom_function_rm.sh
--- a/tests/e2e/run_qwen_gsm8k_dapo.sh
+++ b/tests/e2e/run_qwen_gsm8k_dapo.sh
--- a/tests/e2e/run_qwen_gsm8k_function_rm.sh
+++ b/tests/e2e/run_qwen_gsm8k_function_rm.sh
--- a/tests/e2e/run_qwen_gsm8k_function_rm_both_kl.sh
+++ b/tests/e2e/run_qwen_gsm8k_function_rm_both_kl.sh
--- a/tests/e2e/run_qwen_gsm8k_function_rm_grpo.sh
+++ b/tests/e2e/run_qwen_gsm8k_function_rm_grpo.sh
--- a/tests/e2e/run_qwen_gsm8k_function_rm_no_rmpad.sh
+++ b/tests/e2e/run_qwen_gsm8k_function_rm_no_rmpad.sh
--- a/tests/e2e/run_qwen_gsm8k_function_rm_remax.sh
+++ b/tests/e2e/run_qwen_gsm8k_function_rm_remax.sh
--- a/tests/e2e/run_qwen_gsm8k_model_rm.sh
+++ b/tests/e2e/run_qwen_gsm8k_model_rm.sh
--- a/tests/e2e/run_qwen_gsm8k_model_rm_liger_kernel.sh
+++ b/tests/e2e/run_qwen_gsm8k_model_rm_liger_kernel.sh
--- a/tests/e2e/run_qwen_gsm8k_model_rm_no_rmpad.sh
+++ b/tests/e2e/run_qwen_gsm8k_model_rm_no_rmpad.sh
--- a/tests/e2e/run_qwen_gsm8k_model_rm_seq_balance.sh
+++ b/tests/e2e/run_qwen_gsm8k_model_rm_seq_balance.sh
--- a/tests/e2e/run_qwen_gsm8k_model_rm_ulysses.sh
+++ b/tests/e2e/run_qwen_gsm8k_model_rm_ulysses.sh
--- a/tests/e2e/run_qwen_gsm8k_prime.sh
+++ b/tests/e2e/run_qwen_gsm8k_prime.sh
--- a/tests/e2e/run_qwen_megatron.sh
+++ b/tests/e2e/run_qwen_megatron.sh
--- a/tests/e2e/run_qwen_megatron_parallelism.sh
+++ b/tests/e2e/run_qwen_megatron_parallelism.sh
--- a/tests/e2e/run_r1_distill_qwen_aime24_eval.sh
+++ b/tests/e2e/run_r1_distill_qwen_aime24_eval.sh
--- a/tests/e2e/run_ray_trainer.sh
+++ b/tests/e2e/run_ray_trainer.sh
--- a/tests/e2e/run_ray_trainer_fire_sampling.sh
+++ b/tests/e2e/run_ray_trainer_fire_sampling.sh
--- a/tests/e2e/run_ray_trainer_rmpad.sh
+++ b/tests/e2e/run_ray_trainer_rmpad.sh
--- a/tests/gpu_utility/test_memory_buffers.py
+++ b/tests/gpu_utility/test_memory_buffers.py
--- a/tests/gpu_utility/test_ops.py
+++ b/tests/gpu_utility/test_ops.py
--- a/tests/gpu_utility/test_torch_functional.py
+++ b/tests/gpu_utility/test_torch_functional.py
--- a/tests/kill_github_tests.sh
+++ b/tests/kill_github_tests.sh
--- a/tests/model/test_transformer.py
+++ b/tests/model/test_transformer.py
--- a/tests/model/test_transformers_ulysses.py
+++ b/tests/model/test_transformers_ulysses.py
--- a/tests/my_test.py
+++ b/tests/my_test.py
--- a/tests/ray/check_worker_alive/main.py
+++ b/tests/ray/check_worker_alive/main.py
--- a/tests/ray/detached_worker/README.md
+++ b/tests/ray/detached_worker/README.md
--- a/tests/ray/detached_worker/client.py
+++ b/tests/ray/detached_worker/client.py
--- a/tests/ray/detached_worker/run.sh
+++ b/tests/ray/detached_worker/run.sh
--- a/tests/ray/detached_worker/server.py
+++ b/tests/ray/detached_worker/server.py
--- a/tests/ray/test_check_worker_alive.py
+++ b/tests/ray/test_check_worker_alive.py
--- a/tests/ray/test_colocated_workers.py
+++ b/tests/ray/test_colocated_workers.py
--- a/tests/ray/test_data_transfer.py
+++ b/tests/ray/test_data_transfer.py
--- a/tests/ray/test_driverfunc_to_worker.py
+++ b/tests/ray/test_driverfunc_to_worker.py
--- a/tests/ray/test_high_level_scheduling_api.py
+++ b/tests/ray/test_high_level_scheduling_api.py
--- a/tests/ray/test_ray_local_envs.py
+++ b/tests/ray/test_ray_local_envs.py
--- a/tests/ray/test_rvdz.py
+++ b/tests/ray/test_rvdz.py
--- a/tests/ray/test_worker_group_basics.py
+++ b/tests/ray/test_worker_group_basics.py
--- a/tests/ray/test_worker_group_torch.py
+++ b/tests/ray/test_worker_group_torch.py
--- a/tests/rollout/run_fsdp_vllm.py
+++ b/tests/rollout/run_fsdp_vllm.py
--- a/tests/rollout/test_sglang_spmd.py
+++ b/tests/rollout/test_sglang_spmd.py
--- a/tests/rollout/test_vllm_hf_loader.py
+++ b/tests/rollout/test_vllm_hf_loader.py
--- a/tests/rollout/test_vllm_spmd.py
+++ b/tests/rollout/test_vllm_spmd.py
--- a/tests/sandbox/test_sandbox.py
+++ b/tests/sandbox/test_sandbox.py
--- a/tests/sanity/check_license.py
+++ b/tests/sanity/check_license.py
--- a/tests/sanity/test_import.py
+++ b/tests/sanity/test_import.py
--- a/tests/sft/run_sft.sh
+++ b/tests/sft/run_sft.sh
--- a/tests/sft/run_sft_qwen05_peft.sh
+++ b/tests/sft/run_sft_qwen05_peft.sh
--- a/tests/sft/run_sft_qwen05_sp2_liger.sh
+++ b/tests/sft/run_sft_qwen05_sp2_liger.sh
--- a/tests/sft/run_sft_sp_loss_match.sh
+++ b/tests/sft/run_sft_sp_loss_match.sh
--- a/tests/sft/test_sp_loss_match.py
+++ b/tests/sft/test_sp_loss_match.py
--- a/tests/utility/test_tensor_dict_utilities.py
+++ b/tests/utility/test_tensor_dict_utilities.py
--- a/tests/verl/utils/dataset/test_rl_dataset.py
+++ b/tests/verl/utils/dataset/test_rl_dataset.py
--- a/tests/verl/utils/dataset/test_rm_dataset.py
+++ b/tests/verl/utils/dataset/test_rm_dataset.py
--- a/tests/verl/utils/dataset/test_sft_dataset.py
+++ b/tests/verl/utils/dataset/test_sft_dataset.py
--- a/verl/__init__.py
+++ b/verl/__init__.py
--- a/verl/models/README.md
+++ b/verl/models/README.md
--- a/verl/models/__init__.py
+++ b/verl/models/__init__.py
--- a/verl/models/llama/__init__.py
+++ b/verl/models/llama/__init__.py
--- a/verl/models/llama/megatron/__init__.py
+++ b/verl/models/llama/megatron/__init__.py
--- a/verl/models/llama/megatron/checkpoint_utils/__init__.py
+++ b/verl/models/llama/megatron/checkpoint_utils/__init__.py
--- a/verl/models/llama/megatron/checkpoint_utils/llama_loader.py
+++ b/verl/models/llama/megatron/checkpoint_utils/llama_loader.py
--- a/verl/models/llama/megatron/checkpoint_utils/llama_loader_depracated.py
+++ b/verl/models/llama/megatron/checkpoint_utils/llama_loader_depracated.py
--- a/verl/models/llama/megatron/checkpoint_utils/llama_saver.py
+++ b/verl/models/llama/megatron/checkpoint_utils/llama_saver.py
--- a/verl/models/llama/megatron/layers/__init__.py
+++ b/verl/models/llama/megatron/layers/__init__.py
--- a/verl/models/llama/megatron/layers/parallel_attention.py
+++ b/verl/models/llama/megatron/layers/parallel_attention.py
--- a/verl/models/llama/megatron/layers/parallel_decoder.py
+++ b/verl/models/llama/megatron/layers/parallel_decoder.py
--- a/verl/models/llama/megatron/layers/parallel_linear.py
+++ b/verl/models/llama/megatron/layers/parallel_linear.py
--- a/verl/models/llama/megatron/layers/parallel_mlp.py
+++ b/verl/models/llama/megatron/layers/parallel_mlp.py
--- a/verl/models/llama/megatron/layers/parallel_rmsnorm.py
+++ b/verl/models/llama/megatron/layers/parallel_rmsnorm.py
--- a/verl/models/llama/megatron/modeling_llama_megatron.py
+++ b/verl/models/llama/megatron/modeling_llama_megatron.py
--- a/verl/models/qwen2/__init__.py
+++ b/verl/models/qwen2/__init__.py
--- a/verl/models/qwen2/megatron/__init__.py
+++ b/verl/models/qwen2/megatron/__init__.py
--- a/verl/models/qwen2/megatron/checkpoint_utils/__init__.py
+++ b/verl/models/qwen2/megatron/checkpoint_utils/__init__.py
--- a/verl/models/qwen2/megatron/checkpoint_utils/qwen2_loader.py
+++ b/verl/models/qwen2/megatron/checkpoint_utils/qwen2_loader.py
--- a/verl/models/qwen2/megatron/checkpoint_utils/qwen2_loader_depracated.py
+++ b/verl/models/qwen2/megatron/checkpoint_utils/qwen2_loader_depracated.py
--- a/verl/models/qwen2/megatron/checkpoint_utils/qwen2_saver.py
+++ b/verl/models/qwen2/megatron/checkpoint_utils/qwen2_saver.py
--- a/verl/models/qwen2/megatron/layers/__init__.py
+++ b/verl/models/qwen2/megatron/layers/__init__.py
--- a/verl/models/qwen2/megatron/layers/parallel_attention.py
+++ b/verl/models/qwen2/megatron/layers/parallel_attention.py
--- a/verl/models/qwen2/megatron/layers/parallel_decoder.py
+++ b/verl/models/qwen2/megatron/layers/parallel_decoder.py
--- a/verl/models/qwen2/megatron/layers/parallel_linear.py
+++ b/verl/models/qwen2/megatron/layers/parallel_linear.py
--- a/verl/models/qwen2/megatron/layers/parallel_mlp.py
+++ b/verl/models/qwen2/megatron/layers/parallel_mlp.py
--- a/verl/models/qwen2/megatron/layers/parallel_rmsnorm.py
+++ b/verl/models/qwen2/megatron/layers/parallel_rmsnorm.py
--- a/verl/models/qwen2/megatron/modeling_qwen2_megatron.py
+++ b/verl/models/qwen2/megatron/modeling_qwen2_megatron.py
--- a/verl/models/registry.py
+++ b/verl/models/registry.py
--- a/verl/models/transformers/__init__.py
+++ b/verl/models/transformers/__init__.py
--- a/verl/models/transformers/llama.py
+++ b/verl/models/transformers/llama.py
--- a/verl/models/transformers/monkey_patch.py
+++ b/verl/models/transformers/monkey_patch.py
--- a/verl/models/transformers/qwen2.py
+++ b/verl/models/transformers/qwen2.py
--- a/verl/models/transformers/qwen2_vl.py
+++ b/verl/models/transformers/qwen2_vl.py
--- a/verl/models/weight_loader_registry.py
+++ b/verl/models/weight_loader_registry.py
--- a/verl/protocol.py
+++ b/verl/protocol.py
--- a/verl/single_controller/__init__.py
+++ b/verl/single_controller/__init__.py
--- a/verl/single_controller/base/__init__.py
+++ b/verl/single_controller/base/__init__.py
--- a/verl/single_controller/base/decorator.py
+++ b/verl/single_controller/base/decorator.py
--- a/verl/single_controller/base/megatron/__init__.py
+++ b/verl/single_controller/base/megatron/__init__.py
--- a/verl/single_controller/base/megatron/worker.py
+++ b/verl/single_controller/base/megatron/worker.py
--- a/verl/single_controller/base/megatron/worker_group.py
+++ b/verl/single_controller/base/megatron/worker_group.py
--- a/verl/single_controller/base/register_center/__init__.py
+++ b/verl/single_controller/base/register_center/__init__.py
--- a/verl/single_controller/base/register_center/ray.py
+++ b/verl/single_controller/base/register_center/ray.py
--- a/verl/single_controller/base/worker.py
+++ b/verl/single_controller/base/worker.py
--- a/verl/single_controller/base/worker_group.py
+++ b/verl/single_controller/base/worker_group.py
--- a/verl/single_controller/ray/__init__.py
+++ b/verl/single_controller/ray/__init__.py
--- a/verl/single_controller/ray/base.py
+++ b/verl/single_controller/ray/base.py
--- a/verl/single_controller/ray/megatron.py
+++ b/verl/single_controller/ray/megatron.py
--- a/verl/third_party/__init__.py
+++ b/verl/third_party/__init__.py
--- a/verl/third_party/sglang/__init__.py
+++ b/verl/third_party/sglang/__init__.py
--- a/verl/third_party/sglang/parallel_state.py
+++ b/verl/third_party/sglang/parallel_state.py
--- a/verl/third_party/vllm/__init__.py
+++ b/verl/third_party/vllm/__init__.py
--- a/verl/third_party/vllm/vllm_v_0_3_1/__init__.py
+++ b/verl/third_party/vllm/vllm_v_0_3_1/__init__.py
--- a/verl/third_party/vllm/vllm_v_0_3_1/arg_utils.py
+++ b/verl/third_party/vllm/vllm_v_0_3_1/arg_utils.py
--- a/verl/third_party/vllm/vllm_v_0_3_1/config.py
+++ b/verl/third_party/vllm/vllm_v_0_3_1/config.py
--- a/verl/third_party/vllm/vllm_v_0_3_1/llm.py
+++ b/verl/third_party/vllm/vllm_v_0_3_1/llm.py
--- a/verl/third_party/vllm/vllm_v_0_3_1/llm_engine_sp.py
+++ b/verl/third_party/vllm/vllm_v_0_3_1/llm_engine_sp.py
--- a/verl/third_party/vllm/vllm_v_0_3_1/model_loader.py
+++ b/verl/third_party/vllm/vllm_v_0_3_1/model_loader.py
--- a/verl/third_party/vllm/vllm_v_0_3_1/model_runner.py
+++ b/verl/third_party/vllm/vllm_v_0_3_1/model_runner.py
--- a/verl/third_party/vllm/vllm_v_0_3_1/parallel_state.py
+++ b/verl/third_party/vllm/vllm_v_0_3_1/parallel_state.py
--- a/verl/third_party/vllm/vllm_v_0_3_1/tokenizer.py
+++ b/verl/third_party/vllm/vllm_v_0_3_1/tokenizer.py
--- a/verl/third_party/vllm/vllm_v_0_3_1/weight_loaders.py
+++ b/verl/third_party/vllm/vllm_v_0_3_1/weight_loaders.py
--- a/verl/third_party/vllm/vllm_v_0_3_1/worker.py
+++ b/verl/third_party/vllm/vllm_v_0_3_1/worker.py
--- a/verl/third_party/vllm/vllm_v_0_4_2/__init__.py
+++ b/verl/third_party/vllm/vllm_v_0_4_2/__init__.py
--- a/verl/third_party/vllm/vllm_v_0_4_2/arg_utils.py
+++ b/verl/third_party/vllm/vllm_v_0_4_2/arg_utils.py
--- a/verl/third_party/vllm/vllm_v_0_4_2/config.py
+++ b/verl/third_party/vllm/vllm_v_0_4_2/config.py
--- a/verl/third_party/vllm/vllm_v_0_4_2/dtensor_weight_loaders.py
+++ b/verl/third_party/vllm/vllm_v_0_4_2/dtensor_weight_loaders.py
--- a/verl/third_party/vllm/vllm_v_0_4_2/hf_weight_loader.py
+++ b/verl/third_party/vllm/vllm_v_0_4_2/hf_weight_loader.py
--- a/verl/third_party/vllm/vllm_v_0_4_2/llm.py
+++ b/verl/third_party/vllm/vllm_v_0_4_2/llm.py
--- a/verl/third_party/vllm/vllm_v_0_4_2/llm_engine_sp.py
+++ b/verl/third_party/vllm/vllm_v_0_4_2/llm_engine_sp.py
--- a/verl/third_party/vllm/vllm_v_0_4_2/megatron_weight_loaders.py
+++ b/verl/third_party/vllm/vllm_v_0_4_2/megatron_weight_loaders.py
--- a/verl/third_party/vllm/vllm_v_0_4_2/model_loader.py
+++ b/verl/third_party/vllm/vllm_v_0_4_2/model_loader.py
--- a/verl/third_party/vllm/vllm_v_0_4_2/model_runner.py
+++ b/verl/third_party/vllm/vllm_v_0_4_2/model_runner.py
--- a/verl/third_party/vllm/vllm_v_0_4_2/parallel_state.py
+++ b/verl/third_party/vllm/vllm_v_0_4_2/parallel_state.py
--- a/verl/third_party/vllm/vllm_v_0_4_2/spmd_gpu_executor.py
+++ b/verl/third_party/vllm/vllm_v_0_4_2/spmd_gpu_executor.py
--- a/verl/third_party/vllm/vllm_v_0_4_2/tokenizer.py
+++ b/verl/third_party/vllm/vllm_v_0_4_2/tokenizer.py
--- a/verl/third_party/vllm/vllm_v_0_4_2/worker.py
+++ b/verl/third_party/vllm/vllm_v_0_4_2/worker.py
--- a/verl/third_party/vllm/vllm_v_0_5_4/__init__.py
+++ b/verl/third_party/vllm/vllm_v_0_5_4/__init__.py
--- a/verl/third_party/vllm/vllm_v_0_5_4/arg_utils.py
+++ b/verl/third_party/vllm/vllm_v_0_5_4/arg_utils.py
--- a/verl/third_party/vllm/vllm_v_0_5_4/config.py
+++ b/verl/third_party/vllm/vllm_v_0_5_4/config.py
--- a/verl/third_party/vllm/vllm_v_0_5_4/dtensor_weight_loaders.py
+++ b/verl/third_party/vllm/vllm_v_0_5_4/dtensor_weight_loaders.py
--- a/verl/third_party/vllm/vllm_v_0_5_4/hf_weight_loader.py
+++ b/verl/third_party/vllm/vllm_v_0_5_4/hf_weight_loader.py
--- a/verl/third_party/vllm/vllm_v_0_5_4/llm.py
+++ b/verl/third_party/vllm/vllm_v_0_5_4/llm.py
--- a/verl/third_party/vllm/vllm_v_0_5_4/llm_engine_sp.py
+++ b/verl/third_party/vllm/vllm_v_0_5_4/llm_engine_sp.py
--- a/verl/third_party/vllm/vllm_v_0_5_4/megatron_weight_loaders.py
+++ b/verl/third_party/vllm/vllm_v_0_5_4/megatron_weight_loaders.py
--- a/verl/third_party/vllm/vllm_v_0_5_4/model_loader.py
+++ b/verl/third_party/vllm/vllm_v_0_5_4/model_loader.py
--- a/verl/third_party/vllm/vllm_v_0_5_4/model_runner.py
+++ b/verl/third_party/vllm/vllm_v_0_5_4/model_runner.py
--- a/verl/third_party/vllm/vllm_v_0_5_4/parallel_state.py
+++ b/verl/third_party/vllm/vllm_v_0_5_4/parallel_state.py
--- a/verl/third_party/vllm/vllm_v_0_5_4/spmd_gpu_executor.py
+++ b/verl/third_party/vllm/vllm_v_0_5_4/spmd_gpu_executor.py
--- a/verl/third_party/vllm/vllm_v_0_5_4/tokenizer.py
+++ b/verl/third_party/vllm/vllm_v_0_5_4/tokenizer.py
--- a/verl/third_party/vllm/vllm_v_0_5_4/worker.py
+++ b/verl/third_party/vllm/vllm_v_0_5_4/worker.py
--- a/verl/third_party/vllm/vllm_v_0_6_3/__init__.py
+++ b/verl/third_party/vllm/vllm_v_0_6_3/__init__.py
--- a/verl/third_party/vllm/vllm_v_0_6_3/arg_utils.py
+++ b/verl/third_party/vllm/vllm_v_0_6_3/arg_utils.py
--- a/verl/third_party/vllm/vllm_v_0_6_3/config.py
+++ b/verl/third_party/vllm/vllm_v_0_6_3/config.py
--- a/verl/third_party/vllm/vllm_v_0_6_3/dtensor_weight_loaders.py
+++ b/verl/third_party/vllm/vllm_v_0_6_3/dtensor_weight_loaders.py
--- a/verl/third_party/vllm/vllm_v_0_6_3/hf_weight_loader.py
+++ b/verl/third_party/vllm/vllm_v_0_6_3/hf_weight_loader.py
--- a/verl/third_party/vllm/vllm_v_0_6_3/llm.py
+++ b/verl/third_party/vllm/vllm_v_0_6_3/llm.py
--- a/verl/third_party/vllm/vllm_v_0_6_3/llm_engine_sp.py
+++ b/verl/third_party/vllm/vllm_v_0_6_3/llm_engine_sp.py
--- a/verl/third_party/vllm/vllm_v_0_6_3/megatron_weight_loaders.py
+++ b/verl/third_party/vllm/vllm_v_0_6_3/megatron_weight_loaders.py
--- a/verl/third_party/vllm/vllm_v_0_6_3/model_loader.py
+++ b/verl/third_party/vllm/vllm_v_0_6_3/model_loader.py
--- a/verl/third_party/vllm/vllm_v_0_6_3/model_runner.py
+++ b/verl/third_party/vllm/vllm_v_0_6_3/model_runner.py
--- a/verl/third_party/vllm/vllm_v_0_6_3/parallel_state.py
+++ b/verl/third_party/vllm/vllm_v_0_6_3/parallel_state.py
--- a/verl/third_party/vllm/vllm_v_0_6_3/spmd_gpu_executor.py
+++ b/verl/third_party/vllm/vllm_v_0_6_3/spmd_gpu_executor.py
--- a/verl/third_party/vllm/vllm_v_0_6_3/tokenizer.py
+++ b/verl/third_party/vllm/vllm_v_0_6_3/tokenizer.py
--- a/verl/third_party/vllm/vllm_v_0_6_3/worker.py
+++ b/verl/third_party/vllm/vllm_v_0_6_3/worker.py
--- a/verl/trainer/__init__.py
+++ b/verl/trainer/__init__.py
--- a/verl/trainer/config/evaluation.yaml
+++ b/verl/trainer/config/evaluation.yaml
--- a/verl/trainer/config/generation.yaml
+++ b/verl/trainer/config/generation.yaml
--- a/verl/trainer/config/ppo_megatron_trainer.yaml
+++ b/verl/trainer/config/ppo_megatron_trainer.yaml
--- a/verl/trainer/config/ppo_trainer.yaml
+++ b/verl/trainer/config/ppo_trainer.yaml
@@ -180,7 +180,8 @@ custom_reward_function:
    log: False
  continuous_reward:
    enable: False
-    error_ratio_threshold: 0.0 # between 0 and 1, set to 0 is equivalent to discrete reward; set to 1 lets all reward pass
+    err_threshold: 0.0 # between 0 and 1, set to 0 is equivalent to discrete reward; set to 1 lets all reward pass
+    reward_mapping: 'threshold' # 'threshold' or 'zero'
 algorithm:
  gamma: 1.0

--- a/verl/trainer/config/sft_trainer.yaml
+++ b/verl/trainer/config/sft_trainer.yaml
--- a/verl/trainer/fsdp_sft_trainer.py
+++ b/verl/trainer/fsdp_sft_trainer.py
--- a/verl/trainer/main_eval.py
+++ b/verl/trainer/main_eval.py
--- a/verl/trainer/main_generation.py
+++ b/verl/trainer/main_generation.py
--- a/verl/trainer/main_ppo.py
+++ b/verl/trainer/main_ppo.py
@@ -155,7 +155,8 @@ class TaskRunner:
        print(compute_score)
        if config.custom_reward_function.continuous_reward.enable and compute_score:
            import functools
-            compute_score = functools.partial(compute_score, reward_mode='continuous', error_ratio_threshold=config.custom_reward_function.continuous_reward.error_ratio_threshold)
+            cfg = config.custom_reward_function.continuous_reward
+            compute_score = functools.partial(compute_score, reward_mode='continuous', err_threshold=cfg.err_threshold, reward_mapping=cfg.reward_mapping)
        reward_fn = reward_manager_cls(tokenizer=tokenizer,
                                    num_examine=1,
                                    compute_score=compute_score,

--- a/verl/trainer/ppo/__init__.py
+++ b/verl/trainer/ppo/__init__.py
--- a/verl/trainer/ppo/core_algos.py
+++ b/verl/trainer/ppo/core_algos.py
--- a/verl/trainer/ppo/metric_utils.py
+++ b/verl/trainer/ppo/metric_utils.py
--- a/verl/trainer/ppo/ray_trainer.py
+++ b/verl/trainer/ppo/ray_trainer.py
--- a/verl/trainer/runtime_env.yaml
+++ b/verl/trainer/runtime_env.yaml
--- a/verl/utils/__init__.py
+++ b/verl/utils/__init__.py
--- a/verl/utils/checkpoint/__init__.py
+++ b/verl/utils/checkpoint/__init__.py
--- a/verl/utils/checkpoint/checkpoint_manager.py
+++ b/verl/utils/checkpoint/checkpoint_manager.py
--- a/verl/utils/checkpoint/fsdp_checkpoint_manager.py
+++ b/verl/utils/checkpoint/fsdp_checkpoint_manager.py
--- a/verl/utils/checkpoint/megatron_checkpoint_manager.py
+++ b/verl/utils/checkpoint/megatron_checkpoint_manager.py
--- a/verl/utils/config.py
+++ b/verl/utils/config.py
--- a/verl/utils/dataset/README.md
+++ b/verl/utils/dataset/README.md
--- a/verl/utils/dataset/__init__.py
+++ b/verl/utils/dataset/__init__.py
--- a/verl/utils/dataset/rl_dataset.py
+++ b/verl/utils/dataset/rl_dataset.py
--- a/verl/utils/dataset/rm_dataset.py
+++ b/verl/utils/dataset/rm_dataset.py
--- a/verl/utils/dataset/sft_dataset.py
+++ b/verl/utils/dataset/sft_dataset.py
--- a/verl/utils/debug/__init__.py
+++ b/verl/utils/debug/__init__.py
--- a/verl/utils/debug/performance.py
+++ b/verl/utils/debug/performance.py
--- a/verl/utils/debug/trajectory_tracker.py
+++ b/verl/utils/debug/trajectory_tracker.py
--- a/verl/utils/distributed.py
+++ b/verl/utils/distributed.py
--- a/verl/utils/flops_counter.py
+++ b/verl/utils/flops_counter.py
--- a/verl/utils/fs.py
+++ b/verl/utils/fs.py
--- a/verl/utils/fsdp_utils.py
+++ b/verl/utils/fsdp_utils.py
--- a/verl/utils/hdfs_io.py
+++ b/verl/utils/hdfs_io.py
--- a/verl/utils/import_utils.py
+++ b/verl/utils/import_utils.py
--- a/verl/utils/logger/__init__.py
+++ b/verl/utils/logger/__init__.py
--- a/verl/utils/logger/aggregate_logger.py
+++ b/verl/utils/logger/aggregate_logger.py
--- a/verl/utils/logging_utils.py
+++ b/verl/utils/logging_utils.py
--- a/verl/utils/megatron/__init__.py
+++ b/verl/utils/megatron/__init__.py
--- a/verl/utils/megatron/memory.py
+++ b/verl/utils/megatron/memory.py
--- a/verl/utils/megatron/optimizer.py
+++ b/verl/utils/megatron/optimizer.py
--- a/verl/utils/megatron/pipeline_parallel.py
+++ b/verl/utils/megatron/pipeline_parallel.py
--- a/verl/utils/megatron/sequence_parallel.py
+++ b/verl/utils/megatron/sequence_parallel.py
--- a/verl/utils/megatron/tensor_parallel.py
+++ b/verl/utils/megatron/tensor_parallel.py
--- a/verl/utils/megatron_utils.py
+++ b/verl/utils/megatron_utils.py
--- a/verl/utils/memory_buffer.py
+++ b/verl/utils/memory_buffer.py
--- a/verl/utils/model.py
+++ b/verl/utils/model.py
--- a/verl/utils/py_functional.py
+++ b/verl/utils/py_functional.py
--- a/verl/utils/ray_utils.py
+++ b/verl/utils/ray_utils.py
--- a/verl/utils/rendezvous/__init__.py
+++ b/verl/utils/rendezvous/__init__.py
--- a/verl/utils/rendezvous/ray_backend.py
+++ b/verl/utils/rendezvous/ray_backend.py
--- a/verl/utils/reward_score/__init__.py
+++ b/verl/utils/reward_score/__init__.py
--- a/verl/utils/reward_score/codev.py
+++ b/verl/utils/reward_score/codev.py
@@ -74,15 +74,19 @@ def compute_score_618832(solution_str, ground_truth, exceed_length=False):
    return reward
-def compute_score(solution_str, ground_truth, reward_mode='discrete', error_ratio_threshold=None):
+def compute_score(solution_str, ground_truth, **kwargs):
+    reward_mode = kwargs.get('reward_mode', 'discrete')
+    err_threshold = kwargs.get('err_threshold', None)
+    reward_mapping = kwargs.get('reward_mapping', None)
    # if isinstance(ground_truth, dict):
    #     reward_mode = ground_truth.get("reward_mode", "discrete")
-    #     error_ratio_threshold = ground_truth.get("error_ratio_threshold", 1.0)
+    #     err_threshold = ground_truth.get("err_threshold", 1.0)
    #     ground_truth = ground_truth.get("answer", "")
    # else:
    #     reward_mode = "discrete"
    assert reward_mode in ['discrete', 'continuous'], "mode should be either 'discrete' or 'continuous'"
-    assert reward_mode != 'continuous' or error_ratio_threshold is not None, "error_ratio_threshold should be given when using continuous reward!"
+    assert reward_mode != 'continuous' or err_threshold is not None, "err_threshold should be given when using continuous reward!"
+    assert reward_mapping in ['threshold', 'zero'], "reward_mapping should be either 'threshold' or 'zero'"
    # print("Reward mode is:", reward_mode)
    # model_output= re.sub(r'^.*?<\|im_start\|>assistant', '<|im_start|>assistant', model_output, flags=re.DOTALL,count = 1)
    # print("compute_score for codev is called !!!")
@@ -110,18 +114,18 @@ def compute_score(solution_str, ground_truth, reward_mode='discrete', error_rati
    else:
        result = verify_one_sample_wrapper((ground_truth, extracted_answer))
        # print("result is", result)
-        if reward_mode == 'discrete':
+        if result["correct"] == True:
-            if result["correct"] == True:
+            reward = 1.0
-                reward = 1.0
-            else:
-                reward = 0.0
        else:
-            # GRPO对比单题用error_rate应该问题不大，别的算法不好说
+            if reward_mode == 'discrete':
-            if 'error_rate' in result:
-                reward = 1 - result['error_rate'] if result['error_rate'] <= error_ratio_threshold else 0.0
-                # print('Error rate is', result['error_rate'])
-            else:
                reward = 0.0
+            else:
+                # GRPO对比单题用error_rate应该问题不大，别的算法不好说
+                if 'error_rate' in result and result['error_rate'] <= err_threshold:
+                    reward = 1 - result['error_rate'] if reward_mapping == 'threshold' else 1 - err_threshold - result['error_rate']
+                    # print('Error rate is', result['error_rate'])
+                else:
+                    reward = 0.0
        # if "test_error" in result:
        #     print("=============test error=============")
@@ -136,8 +140,8 @@ def compute_score(solution_str, ground_truth, reward_mode='discrete', error_rati
    return reward
-def compute_score_wrapper(data_source, solution_str, ground_truth, extra_info, reward_mode='discrete', error_ratio_threshold=None):
+def compute_score_wrapper(data_source, solution_str, ground_truth, extra_info, **kwargs):
-    return compute_score(solution_str, ground_truth, reward_mode, error_ratio_threshold)
+    return compute_score(solution_str, ground_truth, **kwargs)
 if __name__ == '__main__':

--- a/verl/utils/reward_score/codev_eval_toolkit/eval_codev.py
+++ b/verl/utils/reward_score/codev_eval_toolkit/eval_codev.py
--- a/verl/utils/reward_score/codev_eval_toolkit/verify.py
+++ b/verl/utils/reward_score/codev_eval_toolkit/verify.py
--- a/verl/utils/reward_score/geo3k.py
+++ b/verl/utils/reward_score/geo3k.py
--- a/verl/utils/reward_score/gsm8k.py
+++ b/verl/utils/reward_score/gsm8k.py
--- a/verl/utils/reward_score/math.py
+++ b/verl/utils/reward_score/math.py
--- a/verl/utils/reward_score/math_dapo.py
+++ b/verl/utils/reward_score/math_dapo.py
--- a/verl/utils/reward_score/math_verify.py
+++ b/verl/utils/reward_score/math_verify.py
--- a/verl/utils/reward_score/prime_code/__init__.py
+++ b/verl/utils/reward_score/prime_code/__init__.py
--- a/verl/utils/reward_score/prime_code/testing_util.py
+++ b/verl/utils/reward_score/prime_code/testing_util.py
--- a/verl/utils/reward_score/prime_code/utils.py
+++ b/verl/utils/reward_score/prime_code/utils.py
--- a/verl/utils/reward_score/prime_math/__init__.py
+++ b/verl/utils/reward_score/prime_math/__init__.py
--- a/verl/utils/reward_score/prime_math/grader.py
+++ b/verl/utils/reward_score/prime_math/grader.py
--- a/verl/utils/reward_score/prime_math/math_normalize.py
+++ b/verl/utils/reward_score/prime_math/math_normalize.py
--- a/verl/utils/seqlen_balancing.py
+++ b/verl/utils/seqlen_balancing.py
--- a/verl/utils/tokenizer.py
+++ b/verl/utils/tokenizer.py
--- a/verl/utils/torch_dtypes.py
+++ b/verl/utils/torch_dtypes.py
--- a/verl/utils/torch_functional.py
+++ b/verl/utils/torch_functional.py
--- a/verl/utils/tracking.py
+++ b/verl/utils/tracking.py
--- a/verl/utils/ulysses.py
+++ b/verl/utils/ulysses.py
--- a/verl/version/version
+++ b/verl/version/version
--- a/verl/workers/__init__.py
+++ b/verl/workers/__init__.py
--- a/verl/workers/actor/__init__.py
+++ b/verl/workers/actor/__init__.py
--- a/verl/workers/actor/base.py
+++ b/verl/workers/actor/base.py
--- a/verl/workers/actor/dp_actor.py
+++ b/verl/workers/actor/dp_actor.py
--- a/verl/workers/actor/megatron_actor.py
+++ b/verl/workers/actor/megatron_actor.py
--- a/verl/workers/critic/__init__.py
+++ b/verl/workers/critic/__init__.py
--- a/verl/workers/critic/base.py
+++ b/verl/workers/critic/base.py
--- a/verl/workers/critic/dp_critic.py
+++ b/verl/workers/critic/dp_critic.py
--- a/verl/workers/critic/megatron_critic.py
+++ b/verl/workers/critic/megatron_critic.py
--- a/verl/workers/fsdp_workers.py
+++ b/verl/workers/fsdp_workers.py
--- a/verl/workers/megatron_workers.py
+++ b/verl/workers/megatron_workers.py
--- a/verl/workers/reward_manager/__init__.py
+++ b/verl/workers/reward_manager/__init__.py
--- a/verl/workers/reward_manager/dapo.py
+++ b/verl/workers/reward_manager/dapo.py
--- a/verl/workers/reward_manager/naive.py
+++ b/verl/workers/reward_manager/naive.py
--- a/verl/workers/reward_manager/prime.py
+++ b/verl/workers/reward_manager/prime.py
--- a/verl/workers/reward_model/__init__.py
+++ b/verl/workers/reward_model/__init__.py
--- a/verl/workers/reward_model/base.py
+++ b/verl/workers/reward_model/base.py
--- a/verl/workers/reward_model/megatron/__init__.py
+++ b/verl/workers/reward_model/megatron/__init__.py
--- a/verl/workers/reward_model/megatron/reward_model.py
+++ b/verl/workers/reward_model/megatron/reward_model.py
--- a/verl/workers/rollout/__init__.py
+++ b/verl/workers/rollout/__init__.py
--- a/verl/workers/rollout/base.py
+++ b/verl/workers/rollout/base.py
--- a/verl/workers/rollout/hf_rollout.py
+++ b/verl/workers/rollout/hf_rollout.py
--- a/verl/workers/rollout/naive/__init__.py
+++ b/verl/workers/rollout/naive/__init__.py
--- a/verl/workers/rollout/naive/naive_rollout.py
+++ b/verl/workers/rollout/naive/naive_rollout.py
--- a/verl/workers/rollout/sglang_rollout/__init__.py
+++ b/verl/workers/rollout/sglang_rollout/__init__.py
--- a/verl/workers/rollout/sglang_rollout/sglang_rollout.py
+++ b/verl/workers/rollout/sglang_rollout/sglang_rollout.py
--- a/verl/workers/rollout/tokenizer.py
+++ b/verl/workers/rollout/tokenizer.py
--- a/verl/workers/rollout/vllm_rollout/__init__.py
+++ b/verl/workers/rollout/vllm_rollout/__init__.py
--- a/verl/workers/rollout/vllm_rollout/fire_vllm_rollout.py
+++ b/verl/workers/rollout/vllm_rollout/fire_vllm_rollout.py
--- a/verl/workers/rollout/vllm_rollout/vllm_rollout.py
+++ b/verl/workers/rollout/vllm_rollout/vllm_rollout.py
--- a/verl/workers/rollout/vllm_rollout/vllm_rollout_spmd.py
+++ b/verl/workers/rollout/vllm_rollout/vllm_rollout_spmd.py
--- a/verl/workers/sharding_manager/__init__.py
+++ b/verl/workers/sharding_manager/__init__.py
--- a/verl/workers/sharding_manager/base.py
+++ b/verl/workers/sharding_manager/base.py
--- a/verl/workers/sharding_manager/fsdp_sglang.py
+++ b/verl/workers/sharding_manager/fsdp_sglang.py
--- a/verl/workers/sharding_manager/fsdp_ulysses.py
+++ b/verl/workers/sharding_manager/fsdp_ulysses.py
--- a/verl/workers/sharding_manager/fsdp_vllm.py
+++ b/verl/workers/sharding_manager/fsdp_vllm.py
--- a/verl/workers/sharding_manager/megatron_vllm.py
+++ b/verl/workers/sharding_manager/megatron_vllm.py