feat: upgrade veRL to v0.7.1 with trainer file migration by chenyushuo · Pull Request #525 · agentscope-ai/Trinity-RFT

chenyushuo · 2026-04-03T12:41:03Z

Description

Upgrade veRL from v0.7.0 to v0.7.1 with core trainer migration

Update dependencies: verl==0.7.1, vllm<=0.19.0, megatron-core==0.16.1, transformer-engine==2.13.0
Migrate 7 core trainer files for upstream compatibility
Add support for: use_prefix_grouper, calculate_sum_pi_squared, sum_pi_squared_checkpointing
Implement upstream checkpoint manager patterns and metadata handling
Remove transformers v5 compatibility patch (handled by upstream)
Add Docker fixtures and init_migration helper script
Add veRL upgrade checklist and migration plan documentation

Checklist

Please check the following items before code is ready to be reviewed.

Code has passed all tests
Docstrings have been added/updated in Google Style
Documentation has been updated
Code is ready for review

- Update dependencies: verl==0.7.1, vllm<=0.19.0, megatron-core==0.16.1, transformer-engine==2.13.0 - Migrate 7 core trainer files for upstream compatibility - Add support for: use_prefix_grouper, calculate_sum_pi_squared, sum_pi_squared_checkpointing - Implement upstream checkpoint manager patterns and metadata handling - Remove transformers v5 compatibility patch (handled by upstream) - Add Docker fixtures and init_migration helper script - Add veRL upgrade checklist and migration plan documentation

chenyushuo · 2026-04-03T12:42:09Z

/unittest-all

github-actions · 2026-04-03T12:45:57Z

Summary

Tests 📝	Passed ✅	Failed ❌	Skipped ⏭️	Other ❓	Flaky 🍂	Duration ⏱️
0	0	0	0	0	0	3h 10m

Tests

Test Name	Status	Flaky	Duration

Github Test Reporter by CTRF 💚

Copilot

Pull request overview

This PR upgrades Trinity’s veRL integration from v0.7.0 to v0.7.1 by migrating core trainer/worker/actor/checkpoint code to align with upstream interfaces and adding support for new v0.7.1 features (prefix grouper + sum_pi_squared-related paths), alongside dependency/version, Docker, and migration-documentation updates.

Changes:

Bump dependencies to verl==0.7.1 and expand supported transformers/vllm version ranges; adjust Megatron/TE/mbridge deps.
Migrate trainer/workers/actors/checkpoint managers to veRL v0.7.1 patterns (LoRA ref-logprob path, MFU images seqlens, checkpoint retention registration, mbridge args passthrough).
Add migration tooling + documentation for future veRL upgrades.

Reviewed changes

Copilot reviewed 19 out of 19 changed files in this pull request and generated 4 comments.

Show a summary per file

File	Description
trinity/trainer/verl/verl_trainer.py	Add v0.7.1 metrics (`compute_variance_proxy_metrics`) and multimodal `images_seqlens` meta propagation.
trinity/trainer/verl/verl_config.py	Update config schema to v0.7.1 (mcore config, rollout correction config, prefix grouper + sum_pi_squared flags, reward nesting).
trinity/trainer/verl/monkey_patch.py	Wire `use_prefix_grouper` patch hook into model monkey patch pipeline.
trinity/trainer/verl/megatron_workers.py	Align with v0.7.1 worker behavior (MTP wiring, LoRA ref-logprob handling, images_seqlens MFU input, weight export tweaks).
trinity/trainer/verl/megatron_checkpoint_manager.py	Migrate to upstream retention/registration patterns and mbridge `save_weights` signature-based passthrough.
trinity/trainer/verl/megatron_actor.py	Align micro-batch rearrangement + MTP loss reporting with v0.7.1.
trinity/trainer/verl/fsdp_workers.py	Thread `use_prefix_grouper` and `pad_token_id` through actor/ref/logprob paths; pass `sum_pi_squared` when present.
trinity/trainer/verl/fsdp_checkpoint_manager.py	Align retention rotation with upstream `ensure_checkpoint_capacity()` + checkpoint registration.
trinity/trainer/verl/dp_actor.py	Reduce local overrides, pass `pad_token_id`, and select prefix grouper keys (`prompts`/`uid`) when enabled.
trinity/trainer/verl/init.py	Remove transformers-v5 compatibility patch side-effects (now empty).
trinity/common/models/vllm_patch/worker_patch.py	Extend supported vLLM versions up to `0.19.0`.
trinity/common/models/utils.py	Remove transformers-v5 patch calls when loading veRL checkpoints/converters.
scripts/migrate_from_verl/init_migration.py	Add helper script to snapshot/migrate upstream veRL files into `build/<version>/`.
scripts/docker/Dockerfile.uv	Update Docker build deps/overrides for the new version set (vLLM/Transformers/TE/Megatron).
pyproject.toml	Dependency bumps and tighter version constraints (`verl==0.7.1`, `transformers<=5.3.0`, `vllm<=0.19.0`, etc.).
docs/agent_summarization/verl_v0.7.1_migration_plan.md	Add detailed migration plan and “what changed/what to keep” notes.
docs/agent_summarization/verl_upgrade_checklist.md	Add upgrade checklist for future veRL bumps.
benchmark/bench.py	Add CLI/config support for `trainer_strategy`.
.github/workflows/docker/docker-compose.yaml	Update CI docker image tag + VLM model env vars.

💡 Add Copilot custom instructions for smarter, more guided reviews. Learn how to get started.

trinity/trainer/verl/megatron_workers.py

trinity/trainer/verl/megatron_checkpoint_manager.py

scripts/migrate_from_verl/init_migration.py

chenyushuo · 2026-04-03T13:00:07Z

/unittest-all

github-actions · 2026-04-03T14:35:39Z

Summary

Tests 📝	Passed ✅	Failed ❌	Skipped ⏭️	Other ❓	Flaky 🍂	Duration ⏱️
265	251	8	6	0	0	1525h 39m

Failed Tests

Failed Tests ❌	Fail Message
❌ tests/buffer/formatter_test.py::TestFormatter::test_multi_modal_sft_formatter	The test failed in the call phase due to an assertion error
❌ tests/service/data_juicer_test.py::TestDataJuicerTaskPipeline::test_data_juicer_task_pipeline	The test failed in the call phase due to an exception
❌ tests/trainer/trainer_test.py::TestTrainerCountdown_1_megatron::test_trainer	The test failed in the call phase
❌ tests/trainer/trainer_test.py::TestFullyAsyncMode_2_megatron::test_fully_async_mode	The test failed in the call phase
❌ tests/trainer/trainer_test.py::TestTrainerCheckpointSave_1_megatron::test_trainer	The test failed in the call phase
❌ tests/trainer/trainer_test.py::TestMultiModalGRPO::test_trainer	The test failed in the call phase due to an assertion error
❌ tests/trainer/trainer_test.py::TestMultiModalSFT::test_trainer	The test failed in the call phase due to an assertion error
❌ tests/trainer/trainer_test.py::AgentScopeTunerTest::test_agentscope_tuner	The test failed in the call phase

Skipped

Tests	Status
tests/common/vllm_test.py::TestTinkerAsyncAPIServer::test_api_async	skipped ⏭️
tests/explorer/workflow_test.py::TestAgentScopeWorkflowAdapter::test_adapter_v1	skipped ⏭️
tests/trainer/trainer_test.py::TestTrainerSFTWarmupGSM8K::test_trainer	skipped ⏭️
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer	skipped ⏭️
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer_class	skipped ⏭️
tests/utils/swanlab_test.py::TestSwanlabMonitor::test_swanlab_monitor_smoke	skipped ⏭️

Tests

Test Name	Status	Duration
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_batch_level_std_grpo	✅	6ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_batch_level_step_wise_grpo_advantage	✅	4ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_duplicate_grpo	✅	5ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_grpo_advantage	✅	3ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_grpo_correct_bias	✅	3ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_grpo_reward_std	✅	2ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_step_wise_grpo_advantage	✅	2ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_step_wise_grpo_with_std_threshold	✅	3ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_abs_kl_fn	✅	2ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_fallback	✅	2ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_loss	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_same_policy	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_with_old_logprob	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_dummy_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_k1_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_k2_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_k3_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_kl_loss_aggregation_modes	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_low_var_kl_fn	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_dpo_policy_loss	✅	3ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_gspo_policy_loss	✅	2ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_mix_policy_loss	✅	4ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_opmd_policy_loss	✅	2ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_ppo_policy_loss	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_ppo_policy_loss_with_sequence_masking	✅	2ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_sapo_policy_loss	✅	2ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_sft_policy_loss	✅	1ms
tests/buffer/experience_pipeline_test.py::TestExperiencePipeline::test_experience_pipeline	✅	16.5s
tests/buffer/experience_pipeline_test.py::TestExperiencePipeline::test_pass_rate_calculation	✅	6.3s
tests/buffer/experience_storage_test.py::ExperienceStorageTest::test_sql_experience_buffer	✅	3.0s
tests/buffer/experience_storage_test.py::ExperienceStorageTest::test_sql_storage_0_sft	✅	5.3s
tests/buffer/experience_storage_test.py::ExperienceStorageTest::test_sql_storage_1_dpo	✅	5.4s
tests/buffer/file_test.py::TestFileBuffer::test_file_reader	✅	439ms
tests/buffer/file_test.py::TestFileBuffer::test_file_writer	✅	1.8s
tests/buffer/formatter_test.py::TestFormatter::test_dpo_messages_formatter	✅	1.4s
tests/buffer/formatter_test.py::TestFormatter::test_dpo_plaintext_formatter	✅	1.3s
tests/buffer/formatter_test.py::TestFormatter::test_multi_modal_sft_formatter	❌	2.3s
tests/buffer/formatter_test.py::TestFormatter::test_sft_messages_formatter	✅	2.9s
tests/buffer/formatter_test.py::TestFormatter::test_sft_plaintext_formatter	✅	2.2s
tests/buffer/formatter_test.py::TestFormatter::test_task_formatter	✅	491ms
tests/buffer/queue_test.py::TestQueueBuffer::test_priority_queue_buffer_reuse	✅	6.6s
tests/buffer/queue_test.py::TestQueueBuffer::test_priority_queue_capacity	✅	2.3s
tests/buffer/queue_test.py::TestQueueBuffer::test_priority_queue_reuse_count_control	✅	4.3s
tests/buffer/queue_test.py::TestQueueBuffer::test_queue_buffer_0_queue	✅	3.3s
tests/buffer/queue_test.py::TestQueueBuffer::test_queue_buffer_1_priority_queue	✅	3.1s
tests/buffer/queue_test.py::TestQueueBuffer::test_queue_buffer_capacity	✅	3.8s
tests/buffer/reader_test.py::TestBufferReader::test_buffer_reader_registration	✅	1.2s
tests/buffer/reward_shaping_mapper_test.py::TestRewardShapingMapper::test_basic_usage	✅	8ms
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_default_queue_default_sample_strategy	✅	1.9s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_default_queue_staleness_control_sample_strategy	✅	1.8s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_priority_queue_default_sample_strategy	✅	1.6s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_priority_queue_staleness_control_sample_strategy	✅	1.8s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_sql_staleness_control_sample_strategy	✅	4.9s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_default_queue_default_sample_strategy	✅	2.2s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_default_queue_staleness_control_sample_strategy	✅	1.8s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_priority_queue_default_sample_strategy	✅	1.8s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_priority_queue_staleness_control_sample_strategy	✅	1.6s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_sql_staleness_control_sample_strategy	✅	3.9s
tests/buffer/sql_test.py::TestSQLBuffer::test_sql_exp_buffer_read_write_0	✅	6.4s
tests/buffer/sql_test.py::TestSQLBuffer::test_sql_exp_buffer_read_write_1	✅	2.7s
tests/buffer/sql_test.py::TestSQLBuffer::test_sql_task_buffer_read_write	✅	3.2s
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_0	✅	91ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_1	✅	63ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_2	✅	99ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_3	✅	99ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_4	✅	98ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_5	✅	102ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_6	✅	115ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_simple	✅	48ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_0_file	✅	396ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_1_sql	✅	3.2s
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_2_file	✅	44ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_3_sql	✅	3.0s
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_4_file	✅	47ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_5_sql	✅	3.4s
tests/cli/launcher_test.py::TestLauncherMain::test_debug_mode	✅	1m 7s
tests/cli/launcher_test.py::TestLauncherMain::test_log_mode	✅	169ms
tests/cli/launcher_test.py::TestLauncherMain::test_main_run_command	✅	7.4s
tests/cli/launcher_test.py::TestLauncherMain::test_main_run_in_dlc	✅	1.2s
tests/cli/launcher_test.py::TestLauncherMain::test_main_studio_command	✅	750ms
tests/cli/launcher_test.py::TestLauncherMain::test_multi_stage_run	✅	4.2s
tests/common/config_test.py::TestConfig::test_all_examples_are_valid	✅	21.7s
tests/common/config_test.py::TestConfig::test_chat_template_path	✅	88ms
tests/common/config_test.py::TestConfig::test_config_flatten	✅	33ms
tests/common/config_test.py::TestConfig::test_continue_from_checkpoint_is_valid	✅	191ms
tests/common/config_test.py::TestConfig::test_default_workflow	✅	88ms
tests/common/config_test.py::TestConfig::test_load_default_config	✅	1.4s
tests/common/config_test.py::TestConfig::test_max_token_len_per_gpu_set_correctly	✅	90ms
tests/common/config_test.py::TestConfig::test_optimizer_config_propagation	✅	88ms
tests/common/config_test.py::TestConfig::test_update_config_from_ray_cluster	✅	412ms
tests/common/experience_test.py::TestEID::test_eid_properties	✅	1ms
tests/common/experience_test.py::TestExperience::test_action_mask_and_logprobs_type	✅	1ms
tests/common/experience_test.py::TestExperience::test_assertions	✅	1ms
tests/common/experience_test.py::TestExperience::test_deserialize_legacy_pickle_payload	✅	1ms
tests/common/experience_test.py::TestExperience::test_deserialize_single_rejects_batch_payload	✅	1ms
tests/common/experience_test.py::TestExperience::test_dpo_experience	✅	1ms
tests/common/experience_test.py::TestExperience::test_hf_datasets_conversion	✅	15ms
tests/common/experience_test.py::TestExperience::test_multi_turn_experience	✅	1ms
tests/common/experience_test.py::TestExperience::test_serialize_deserialize	✅	1ms
tests/common/experience_test.py::TestExperience::test_serialize_many_deserialize_many	✅	1ms
tests/common/experience_test.py::TestExperience::test_serialize_many_with_shared_multimodal_tensor	✅	1ms
tests/common/experience_test.py::TestExperience::test_single_turn_experience	✅	1ms
tests/common/experience_test.py::TestExperience::test_to_dict	✅	1ms
tests/common/experience_test.py::TestExperienceConversion::test_experience_model_experience_conversion	✅	1ms
tests/common/models/utils_test.py::TestTokenizeAndMaskMessagesDefault::test_first_message_is_assistant	✅	1.2s
tests/common/models/utils_test.py::TestTokenizeAndMaskMessagesDefault::test_messages_empty	✅	510ms
tests/common/models/utils_test.py::TestTokenizeAndMaskMessagesDefault::test_no_assistant_messages	✅	501ms
tests/common/models/utils_test.py::TestTokenizeAndMaskMessagesDefault::test_normal_conversation_data	✅	1.1s
tests/common/sudoku_test.py::test_9x9_generator_produces_valid_solution	✅	2ms
tests/common/sudoku_test.py::test_9x9_generator_creates_holes	✅	1ms
tests/common/sudoku_test.py::test_9x9_solution_is_fully_filled	✅	1ms
tests/common/sudoku_test.py::test_judge_allows_incomplete_board	✅	1ms
tests/common/sudoku_test.py::test_judge_detects_row_violation	✅	1ms
tests/common/sudoku_test.py::test_judge_detects_column_violation	✅	1ms
tests/common/sudoku_test.py::test_judge_detects_block_violation	✅	1ms
tests/common/sudoku_test.py::test_4x4_generator_produces_valid_solution	✅	1ms
tests/common/sudoku_test.py::test_4x4_solution_is_fully_filled	✅	1ms
tests/common/sudoku_test.py::test_4x4_judge_detects_row_violation	✅	1ms
tests/common/sudoku_test.py::test_4x4_judge_detects_block_violation	✅	1ms
tests/common/vllm_test.py::ModelWrapperTest_0::test_generate	✅	1m 9s
tests/common/vllm_test.py::ModelWrapperTest_1::test_generate	✅	43.4s
tests/common/vllm_test.py::ModelWrapperTest_2::test_generate	✅	45.2s
tests/common/vllm_test.py::TestModelLen_0::test_model_len	✅	28.2s
tests/common/vllm_test.py::TestModelLen_1::test_model_len	✅	42.1s
tests/common/vllm_test.py::TestModelLen_2::test_model_len	✅	28.0s
tests/common/vllm_test.py::TestModelLenWithoutPromptTruncation::test_model_len	✅	27.9s
tests/common/vllm_test.py::TestMessageProcess::test_no_prompt_truncation	✅	27.6s
tests/common/vllm_test.py::TestMessageProcess::test_truncation_status	✅	28.6s
tests/common/vllm_test.py::TestAPIServer::test_api	✅	29.8s
tests/common/vllm_test.py::TestLogprobs::test_logprobs_api	✅	24.9s
tests/common/vllm_test.py::TestAsyncAPIServer::test_api_async	✅	26.3s
tests/common/vllm_test.py::TestTinkerAsyncAPIServer::test_api_async	⏭️	1ms
tests/common/vllm_test.py::TestTokenizer::test_action_mask	✅	550ms
tests/common/vllm_test.py::TestTokenizer::test_action_mask_with_tools	✅	1.1s
tests/common/vllm_test.py::TestAPIServerToolCall_0_deepseek_r1::test_api_tool_calls	✅	41.3s
tests/common/vllm_test.py::TestAPIServerToolCall_1::test_api_tool_calls	✅	26.3s
tests/common/vllm_test.py::TestSuperLongGeneration::test_generate	✅	3m 11s
tests/common/vllm_test.py::TestTinkerAPI::test_tinker_api	✅	46.4s
tests/explorer/explorer_test.py::TestExplorerCountdownEval::test_explorer	✅	1m 48s
tests/explorer/explorer_test.py::TestExplorerEvalDetailedStats::test_explorer	✅	1m 18s
tests/explorer/explorer_test.py::TestExplorerGSM8KRULERNoEval::test_explorer	✅	1m 8s
tests/explorer/explorer_test.py::TestExplorerGSM8k::test_explorer	✅	3m 7s
tests/explorer/explorer_test.py::ServeTest::test_serve	✅	58.7s
tests/explorer/proxy_test.py::RecorderTest::test_recorder	✅	86ms
tests/explorer/scheduler_test.py::SchedulerTest::test_async_workflow	✅	5.3s
tests/explorer/scheduler_test.py::SchedulerTest::test_concurrent_operations	✅	5.8s
tests/explorer/scheduler_test.py::SchedulerTest::test_dynamic_timeout	✅	13.4s
tests/explorer/scheduler_test.py::SchedulerTest::test_get_results	✅	31.2s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_non_repeatable_workflow_0	✅	5.3s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_non_repeatable_workflow_1	✅	5.2s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_repeatable_workflow_0	✅	5.2s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_repeatable_workflow_1	✅	5.4s
tests/explorer/scheduler_test.py::SchedulerTest::test_multi_step_execution	✅	5.9s
tests/explorer/scheduler_test.py::SchedulerTest::test_non_repeatable_workflow	✅	5.6s
tests/explorer/scheduler_test.py::SchedulerTest::test_over_rollout_min_wait	✅	13.9s
tests/explorer/scheduler_test.py::SchedulerTest::test_scheduler_all_methods	✅	15.5s
tests/explorer/scheduler_test.py::SchedulerTest::test_scheduler_restart_after_stop	✅	10.0s
tests/explorer/scheduler_test.py::SchedulerTest::test_split_tasks	✅	8.7s
tests/explorer/scheduler_test.py::SchedulerTest::test_stepwise_experience_eid	✅	26.1s
tests/explorer/scheduler_test.py::SchedulerTest::test_wait_all	✅	8.1s
tests/explorer/scheduler_test.py::SchedulerTest::test_wait_all_timeout_with_multi_batch	✅	14.1s
tests/explorer/scheduler_test.py::TestRunnerStateCollection::test_runner_state_collection	✅	10.4s
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_reward_propagation_workflow_0	✅	1ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_reward_propagation_workflow_1	✅	602ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_step_wise_reward_workflow_0	✅	1ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_step_wise_reward_workflow_1	✅	1.0s
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_workflows_raise_error	✅	1ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_workflows_stop_at_max_env_steps	✅	1.0s
tests/explorer/workflow_test.py::WorkflowTest::test_gsm8k_workflow	✅	17ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_boxed_workflow	✅	18ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_complex_workflow	✅	137ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_eval_workflow	✅	4ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_fraction_workflow	✅	11ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_workflow	✅	8ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_repeatable_0	✅	1ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_repeatable_1	✅	102ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_resettable_0	✅	1ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_resettable_1	✅	201ms
tests/explorer/workflow_test.py::MultiTurnWorkflowTest_0::test_multi_turn_workflow	✅	22.7s
tests/explorer/workflow_test.py::MultiTurnWorkflowTest_1::test_multi_turn_workflow	✅	23.3s
tests/explorer/workflow_test.py::TestWorkflowStateRecording::test_workflow_state_recording	✅	4.0s
tests/explorer/workflow_test.py::TestAgentScopeWorkflowAdapter::test_adapter_v0	✅	728ms
tests/explorer/workflow_test.py::TestAgentScopeWorkflowAdapter::test_adapter_v1	⏭️	13ms
tests/explorer/workflow_test.py::TestWorkflowRunner::test_workflow_runner	✅	139ms
tests/explorer/workflow_test.py::TestWorkflowRunner::test_workflow_runner_get_state	✅	8.1s
tests/explorer/workflow_test.py::TestWorkflowRunner::test_workflow_with_openai	✅	24.3s
tests/explorer/workflow_test.py::TestConcurrentWorkflowRunner::test_concurrent_workflow_runner	✅	47.6s
tests/manager/log_manager_test.py::TestLogManager::test_file_rotation	✅	2ms
tests/manager/log_manager_test.py::TestLogManager::test_init_and_tracking	✅	2ms
tests/manager/log_manager_test.py::TestLogManager::test_keyword_filter_and_search_pattern	✅	1ms
tests/manager/synchronizer_test.py::TestSynchronizerExit_0::test_synchronizer	✅	2m 19s
tests/manager/synchronizer_test.py::TestSynchronizerExit_1::test_synchronizer	✅	2m 41s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_0::test_synchronizer	✅	2m 13s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_1::test_synchronizer	✅	1m 43s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_2::test_synchronizer	✅	2m 15s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_3::test_synchronizer	✅	2m 55s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_4::test_synchronizer	✅	2m 42s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_5::test_synchronizer	✅	2m 52s
tests/manager/synchronizer_test.py::TestNCCLBasedSynchronizer_0::test_synchronizer	✅	1m 10s
tests/manager/synchronizer_test.py::TestNCCLBasedSynchronizer_1::test_synchronizer	✅	1m 6s
tests/manager/synchronizer_test.py::TestNCCLBasedSynchronizer_2::test_synchronizer	✅	1m 5s
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_no_new_version_logs_warning	✅	3ms
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_pull_latest_weights_0	✅	2ms
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_pull_latest_weights_1	✅	4ms
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_pull_latest_weights_2	✅	2ms
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_pull_latest_weights_3	✅	3ms
tests/service/data_juicer_test.py::TestDataJuicer::test_config	✅	850ms
tests/service/data_juicer_test.py::TestDataJuicer::test_server_start	✅	21.0s
tests/service/data_juicer_test.py::TestDataJuicerExperiencePipeline::test_data_juicer_operators	✅	20.7s
tests/service/data_juicer_test.py::TestDataJuicerTaskPipeline::test_data_juicer_task_pipeline	❌	15.0s
tests/trainer/trainer_test.py::TestTrainerCountdown_0_fsdp::test_trainer	✅	3m 56s
tests/trainer/trainer_test.py::TestTrainerCountdown_1_megatron::test_trainer	❌	1.7s
tests/trainer/trainer_test.py::TestStepAheadAsyncRL::test_trainer	✅	1m 32s
tests/trainer/trainer_test.py::TestTrainerGSM8K_0_fsdp::test_trainer	✅	1m 12s
tests/trainer/trainer_test.py::TestTrainerGSM8K_1_fsdp2::test_trainer	✅	1m 7s
tests/trainer/trainer_test.py::TestTrainerGSM8K_2_fsdp::test_trainer	✅	1m 11s
tests/trainer/trainer_test.py::TestTrainerGSM8K_3_fsdp2::test_trainer	✅	1m 21s
tests/trainer/trainer_test.py::TestTrainerSFTWarmupGSM8K::test_trainer	⏭️	1ms
tests/trainer/trainer_test.py::TestTrainerDPO::test_trainer	✅	41.7s
tests/trainer/trainer_test.py::TestTrainerSFT::test_trainer	✅	37.8s
tests/trainer/trainer_test.py::TestTrainerToolsSFT::test_trainer_tools	✅	38.6s
tests/trainer/trainer_test.py::TestFullyAsyncMode_0_fsdp::test_fully_async_mode	✅	1m 47s
tests/trainer/trainer_test.py::TestFullyAsyncMode_1_fsdp::test_fully_async_mode	✅	1m 47s
tests/trainer/trainer_test.py::TestFullyAsyncMode_2_megatron::test_fully_async_mode	❌	113ms
tests/trainer/trainer_test.py::TestTrainerCheckpointSave_0_fsdp::test_trainer	✅	3m 4s
tests/trainer/trainer_test.py::TestTrainerCheckpointSave_1_megatron::test_trainer	❌	112ms
tests/trainer/trainer_test.py::TestTrainerMIX::test_trainer	✅	2m 6s
tests/trainer/trainer_test.py::TestServeWithTrainer::test_serve_with_trainer	✅	1m 50s
tests/trainer/trainer_test.py::TestMultiModalGRPO::test_trainer	❌	4m 22s
tests/trainer/trainer_test.py::TestMultiModalSFT::test_trainer	❌	1m 45s
tests/trainer/trainer_test.py::TestTrainerLoRA::test_trainer	✅	3m 25s
tests/trainer/trainer_test.py::TestOverRollout::test_trainer	✅	1m 14s
tests/trainer/trainer_test.py::TestTrainerPromptTruncation::test_trainer	✅	48.2s
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer	⏭️	1ms
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer_class	⏭️	1ms
tests/trainer/trainer_test.py::AgentScopeTunerTest::test_agentscope_tuner	❌	920ms
tests/trainer/trainer_test.py::ColocateModeTest::test_trainer	✅	2m 7s
tests/utils/eval_utils_test.py::TestComputeScore::test_both_boxed_and_equivalent	✅	3ms
tests/utils/eval_utils_test.py::TestComputeScore::test_both_boxed_and_not_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_empty_ground_truth	✅	2ms
tests/utils/eval_utils_test.py::TestComputeScore::test_empty_solution_string	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_multiple_boxed_answers_in_solution	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_boxed_truth_raw_and_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_boxed_truth_raw_and_not_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_not_boxed	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_raw_and_ground_truth_boxed_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestMathEvalUtils::test_extract_answer	✅	4ms
tests/utils/eval_utils_test.py::TestMathEvalUtils::test_verify_math_answer	✅	62ms
tests/utils/eval_utils_test.py::TestEvalUtils::test_is_equiv	✅	5ms
tests/utils/log_test.py::LogTest::test_actor_log	✅	2.3s
tests/utils/log_test.py::LogTest::test_group_by_node	✅	2.0s
tests/utils/log_test.py::LogTest::test_no_actor_log	✅	900ms
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_local_0__workspace_tests_utils_plugins	✅	93ms
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_local_1_tests_utils_plugins	✅	90ms
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_remote_0__workspace_tests_utils_plugins	✅	10.2s
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_remote_1_tests_utils_plugins	✅	10.0s
tests/utils/plugin_test.py::TestPluginLoader::test_passing_custom_class_0__workspace_tests_utils_plugins	✅	5.6s
tests/utils/plugin_test.py::TestPluginLoader::test_passing_custom_class_1_tests_utils_plugins	✅	5.4s
tests/utils/registry_test.py::TestRegistryWithRay::test_dynamic_import	✅	3.3s
tests/utils/registry_test.py::TestRegistry::test_algorithm_registry_mapping	✅	10ms
tests/utils/registry_test.py::TestRegistry::test_buffer_module_registry_mapping	✅	3ms
tests/utils/registry_test.py::TestRegistry::test_common_module_registry_mapping	✅	55ms
tests/utils/registry_test.py::TestRegistry::test_register_module	✅	1ms
tests/utils/registry_test.py::TestRegistry::test_utils_module_registry_mapping	✅	1ms
tests/utils/swanlab_test.py::TestSwanlabMonitor::test_swanlab_monitor_smoke	⏭️	1ms

Github Test Reporter by CTRF 💚

JiwaniZakir

In benchmark/bench.py, the new --trainer_strategy argument writes to config["trainer"]["trainer_strategy"] without first verifying that config["trainer"] exists — the same pattern used for config["synchronizer"] above it, which likely assumes the key is always present. If a benchmark config omits the trainer section entirely, this will raise a KeyError at runtime rather than a clear error message; consider adding a guard like config.setdefault("trainer", {}) before the assignment.

In docker-compose.yaml, both TRINITY_VLM_MODEL_PATH and TRINITY_ALTERNATIVE_VLM_MODEL_PATH are now set to the identical path Qwen3.5-0.8B. If the intent is to test alternative VLM code paths, using the same model for both means any logic that branches on TRINITY_ALTERNATIVE_VLM_MODEL_PATH won't be meaningfully exercised in CI. This should either be intentional (with a comment explaining why) or the alternative should point to a distinct model.

The two new documentation files under docs/agent_summarization/ reference snapshot directories at trinity/trainer/verl/build/v0.7.0/ and trinity/trainer/verl/build/v0.7.1/ as prerequisites for the three-way diff process, but those directories don't appear in the PR diff. If these snapshots are not committed to the repo, the checklist's step 3 ("确认需要对照的上游快照已经生成") is unverifiable for reviewers and future contributors.

chenyushuo · 2026-04-06T08:43:11Z

/unittest-all

github-actions · 2026-04-06T10:35:12Z

Summary

Tests 📝	Passed ✅	Failed ❌	Skipped ⏭️	Other ❓	Flaky 🍂	Duration ⏱️
265	259	1	5	0	0	1814h 41m

Failed Tests

Failed Tests ❌	Fail Message
❌ tests/trainer/trainer_test.py::TestMultiModalSFT::test_trainer	The test failed in the call phase due to an assertion error

Skipped

Tests	Status
tests/common/vllm_test.py::TestTinkerAsyncAPIServer::test_api_async	skipped ⏭️
tests/trainer/trainer_test.py::TestTrainerSFTWarmupGSM8K::test_trainer	skipped ⏭️
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer	skipped ⏭️
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer_class	skipped ⏭️
tests/utils/swanlab_test.py::TestSwanlabMonitor::test_swanlab_monitor_smoke	skipped ⏭️

Tests

Test Name	Status	Duration
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_batch_level_std_grpo	✅	6ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_batch_level_step_wise_grpo_advantage	✅	4ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_duplicate_grpo	✅	6ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_grpo_advantage	✅	4ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_grpo_correct_bias	✅	2ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_grpo_reward_std	✅	2ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_step_wise_grpo_advantage	✅	2ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_step_wise_grpo_with_std_threshold	✅	3ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_abs_kl_fn	✅	2ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_fallback	✅	2ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_loss	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_same_policy	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_with_old_logprob	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_dummy_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_k1_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_k2_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_k3_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_kl_loss_aggregation_modes	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_low_var_kl_fn	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_dpo_policy_loss	✅	2ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_gspo_policy_loss	✅	2ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_mix_policy_loss	✅	4ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_opmd_policy_loss	✅	2ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_ppo_policy_loss	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_ppo_policy_loss_with_sequence_masking	✅	2ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_sapo_policy_loss	✅	2ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_sft_policy_loss	✅	1ms
tests/buffer/experience_pipeline_test.py::TestExperiencePipeline::test_experience_pipeline	✅	11.5s
tests/buffer/experience_pipeline_test.py::TestExperiencePipeline::test_pass_rate_calculation	✅	6.9s
tests/buffer/experience_storage_test.py::ExperienceStorageTest::test_sql_experience_buffer	✅	3.1s
tests/buffer/experience_storage_test.py::ExperienceStorageTest::test_sql_storage_0_sft	✅	4.7s
tests/buffer/experience_storage_test.py::ExperienceStorageTest::test_sql_storage_1_dpo	✅	7.8s
tests/buffer/file_test.py::TestFileBuffer::test_file_reader	✅	406ms
tests/buffer/file_test.py::TestFileBuffer::test_file_writer	✅	1.6s
tests/buffer/formatter_test.py::TestFormatter::test_dpo_messages_formatter	✅	1.5s
tests/buffer/formatter_test.py::TestFormatter::test_dpo_plaintext_formatter	✅	1.4s
tests/buffer/formatter_test.py::TestFormatter::test_multi_modal_sft_formatter	✅	1.8s
tests/buffer/formatter_test.py::TestFormatter::test_sft_messages_formatter	✅	2.8s
tests/buffer/formatter_test.py::TestFormatter::test_sft_plaintext_formatter	✅	2.3s
tests/buffer/formatter_test.py::TestFormatter::test_task_formatter	✅	488ms
tests/buffer/queue_test.py::TestQueueBuffer::test_priority_queue_buffer_reuse	✅	6.5s
tests/buffer/queue_test.py::TestQueueBuffer::test_priority_queue_capacity	✅	2.1s
tests/buffer/queue_test.py::TestQueueBuffer::test_priority_queue_reuse_count_control	✅	4.1s
tests/buffer/queue_test.py::TestQueueBuffer::test_queue_buffer_0_queue	✅	3.3s
tests/buffer/queue_test.py::TestQueueBuffer::test_queue_buffer_1_priority_queue	✅	3.3s
tests/buffer/queue_test.py::TestQueueBuffer::test_queue_buffer_capacity	✅	3.6s
tests/buffer/reader_test.py::TestBufferReader::test_buffer_reader_registration	✅	1.1s
tests/buffer/reward_shaping_mapper_test.py::TestRewardShapingMapper::test_basic_usage	✅	8ms
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_default_queue_default_sample_strategy	✅	2.1s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_default_queue_staleness_control_sample_strategy	✅	1.6s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_priority_queue_default_sample_strategy	✅	1.6s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_priority_queue_staleness_control_sample_strategy	✅	1.6s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_sql_staleness_control_sample_strategy	✅	4.9s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_default_queue_default_sample_strategy	✅	2.0s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_default_queue_staleness_control_sample_strategy	✅	1.8s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_priority_queue_default_sample_strategy	✅	1.8s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_priority_queue_staleness_control_sample_strategy	✅	1.6s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_sql_staleness_control_sample_strategy	✅	4.0s
tests/buffer/sql_test.py::TestSQLBuffer::test_sql_exp_buffer_read_write_0	✅	6.4s
tests/buffer/sql_test.py::TestSQLBuffer::test_sql_exp_buffer_read_write_1	✅	3.0s
tests/buffer/sql_test.py::TestSQLBuffer::test_sql_task_buffer_read_write	✅	3.6s
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_0	✅	78ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_1	✅	60ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_2	✅	95ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_3	✅	99ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_4	✅	95ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_5	✅	103ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_6	✅	116ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_simple	✅	49ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_0_file	✅	446ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_1_sql	✅	3.2s
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_2_file	✅	44ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_3_sql	✅	3.1s
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_4_file	✅	43ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_5_sql	✅	3.4s
tests/cli/launcher_test.py::TestLauncherMain::test_debug_mode	✅	1m 11s
tests/cli/launcher_test.py::TestLauncherMain::test_log_mode	✅	167ms
tests/cli/launcher_test.py::TestLauncherMain::test_main_run_command	✅	7.3s
tests/cli/launcher_test.py::TestLauncherMain::test_main_run_in_dlc	✅	1.3s
tests/cli/launcher_test.py::TestLauncherMain::test_main_studio_command	✅	731ms
tests/cli/launcher_test.py::TestLauncherMain::test_multi_stage_run	✅	5.9s
tests/common/config_test.py::TestConfig::test_all_examples_are_valid	✅	21.7s
tests/common/config_test.py::TestConfig::test_chat_template_path	✅	93ms
tests/common/config_test.py::TestConfig::test_config_flatten	✅	35ms
tests/common/config_test.py::TestConfig::test_continue_from_checkpoint_is_valid	✅	201ms
tests/common/config_test.py::TestConfig::test_default_workflow	✅	92ms
tests/common/config_test.py::TestConfig::test_load_default_config	✅	1.2s
tests/common/config_test.py::TestConfig::test_max_token_len_per_gpu_set_correctly	✅	94ms
tests/common/config_test.py::TestConfig::test_optimizer_config_propagation	✅	92ms
tests/common/config_test.py::TestConfig::test_update_config_from_ray_cluster	✅	433ms
tests/common/experience_test.py::TestEID::test_eid_properties	✅	1ms
tests/common/experience_test.py::TestExperience::test_action_mask_and_logprobs_type	✅	1ms
tests/common/experience_test.py::TestExperience::test_assertions	✅	1ms
tests/common/experience_test.py::TestExperience::test_deserialize_legacy_pickle_payload	✅	2ms
tests/common/experience_test.py::TestExperience::test_deserialize_single_rejects_batch_payload	✅	1ms
tests/common/experience_test.py::TestExperience::test_dpo_experience	✅	1ms
tests/common/experience_test.py::TestExperience::test_hf_datasets_conversion	✅	15ms
tests/common/experience_test.py::TestExperience::test_multi_turn_experience	✅	1ms
tests/common/experience_test.py::TestExperience::test_serialize_deserialize	✅	1ms
tests/common/experience_test.py::TestExperience::test_serialize_many_deserialize_many	✅	1ms
tests/common/experience_test.py::TestExperience::test_serialize_many_with_shared_multimodal_tensor	✅	1ms
tests/common/experience_test.py::TestExperience::test_single_turn_experience	✅	1ms
tests/common/experience_test.py::TestExperience::test_to_dict	✅	1ms
tests/common/experience_test.py::TestExperienceConversion::test_experience_model_experience_conversion	✅	1ms
tests/common/models/utils_test.py::TestTokenizeAndMaskMessagesDefault::test_first_message_is_assistant	✅	1.2s
tests/common/models/utils_test.py::TestTokenizeAndMaskMessagesDefault::test_messages_empty	✅	504ms
tests/common/models/utils_test.py::TestTokenizeAndMaskMessagesDefault::test_no_assistant_messages	✅	498ms
tests/common/models/utils_test.py::TestTokenizeAndMaskMessagesDefault::test_normal_conversation_data	✅	981ms
tests/common/sudoku_test.py::test_9x9_generator_produces_valid_solution	✅	1ms
tests/common/sudoku_test.py::test_9x9_generator_creates_holes	✅	1ms
tests/common/sudoku_test.py::test_9x9_solution_is_fully_filled	✅	1ms
tests/common/sudoku_test.py::test_judge_allows_incomplete_board	✅	1ms
tests/common/sudoku_test.py::test_judge_detects_row_violation	✅	1ms
tests/common/sudoku_test.py::test_judge_detects_column_violation	✅	1ms
tests/common/sudoku_test.py::test_judge_detects_block_violation	✅	1ms
tests/common/sudoku_test.py::test_4x4_generator_produces_valid_solution	✅	1ms
tests/common/sudoku_test.py::test_4x4_solution_is_fully_filled	✅	1ms
tests/common/sudoku_test.py::test_4x4_judge_detects_row_violation	✅	1ms
tests/common/sudoku_test.py::test_4x4_judge_detects_block_violation	✅	1ms
tests/common/vllm_test.py::ModelWrapperTest_0::test_generate	✅	1m 7s
tests/common/vllm_test.py::ModelWrapperTest_1::test_generate	✅	50.7s
tests/common/vllm_test.py::ModelWrapperTest_2::test_generate	✅	56.5s
tests/common/vllm_test.py::TestModelLen_0::test_model_len	✅	28.7s
tests/common/vllm_test.py::TestModelLen_1::test_model_len	✅	25.5s
tests/common/vllm_test.py::TestModelLen_2::test_model_len	✅	35.9s
tests/common/vllm_test.py::TestModelLenWithoutPromptTruncation::test_model_len	✅	27.9s
tests/common/vllm_test.py::TestMessageProcess::test_no_prompt_truncation	✅	28.2s
tests/common/vllm_test.py::TestMessageProcess::test_truncation_status	✅	27.3s
tests/common/vllm_test.py::TestAPIServer::test_api	✅	27.3s
tests/common/vllm_test.py::TestLogprobs::test_logprobs_api	✅	24.8s
tests/common/vllm_test.py::TestAsyncAPIServer::test_api_async	✅	26.2s
tests/common/vllm_test.py::TestTinkerAsyncAPIServer::test_api_async	⏭️	1ms
tests/common/vllm_test.py::TestTokenizer::test_action_mask	✅	554ms
tests/common/vllm_test.py::TestTokenizer::test_action_mask_with_tools	✅	1.1s
tests/common/vllm_test.py::TestAPIServerToolCall_0_deepseek_r1::test_api_tool_calls	✅	33.1s
tests/common/vllm_test.py::TestAPIServerToolCall_1::test_api_tool_calls	✅	27.0s
tests/common/vllm_test.py::TestSuperLongGeneration::test_generate	✅	2m 23s
tests/common/vllm_test.py::TestTinkerAPI::test_tinker_api	✅	47.2s
tests/explorer/explorer_test.py::TestExplorerCountdownEval::test_explorer	✅	1m 52s
tests/explorer/explorer_test.py::TestExplorerEvalDetailedStats::test_explorer	✅	4m 20s
tests/explorer/explorer_test.py::TestExplorerGSM8KRULERNoEval::test_explorer	✅	2m 10s
tests/explorer/explorer_test.py::TestExplorerGSM8k::test_explorer	✅	3m 18s
tests/explorer/explorer_test.py::ServeTest::test_serve	✅	1m 12s
tests/explorer/proxy_test.py::RecorderTest::test_recorder	✅	96ms
tests/explorer/scheduler_test.py::SchedulerTest::test_async_workflow	✅	6.7s
tests/explorer/scheduler_test.py::SchedulerTest::test_concurrent_operations	✅	6.4s
tests/explorer/scheduler_test.py::SchedulerTest::test_dynamic_timeout	✅	14.7s
tests/explorer/scheduler_test.py::SchedulerTest::test_get_results	✅	33.3s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_non_repeatable_workflow_0	✅	6.1s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_non_repeatable_workflow_1	✅	5.8s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_repeatable_workflow_0	✅	6.0s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_repeatable_workflow_1	✅	5.8s
tests/explorer/scheduler_test.py::SchedulerTest::test_multi_step_execution	✅	6.5s
tests/explorer/scheduler_test.py::SchedulerTest::test_non_repeatable_workflow	✅	6.1s
tests/explorer/scheduler_test.py::SchedulerTest::test_over_rollout_min_wait	✅	15.1s
tests/explorer/scheduler_test.py::SchedulerTest::test_scheduler_all_methods	✅	15.9s
tests/explorer/scheduler_test.py::SchedulerTest::test_scheduler_restart_after_stop	✅	11.0s
tests/explorer/scheduler_test.py::SchedulerTest::test_split_tasks	✅	9.4s
tests/explorer/scheduler_test.py::SchedulerTest::test_stepwise_experience_eid	✅	27.1s
tests/explorer/scheduler_test.py::SchedulerTest::test_wait_all	✅	9.0s
tests/explorer/scheduler_test.py::SchedulerTest::test_wait_all_timeout_with_multi_batch	✅	14.7s
tests/explorer/scheduler_test.py::TestRunnerStateCollection::test_runner_state_collection	✅	10.9s
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_reward_propagation_workflow_0	✅	2ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_reward_propagation_workflow_1	✅	602ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_step_wise_reward_workflow_0	✅	1ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_step_wise_reward_workflow_1	✅	1.0s
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_workflows_raise_error	✅	1ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_workflows_stop_at_max_env_steps	✅	1.0s
tests/explorer/workflow_test.py::WorkflowTest::test_gsm8k_workflow	✅	14ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_boxed_workflow	✅	18ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_complex_workflow	✅	145ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_eval_workflow	✅	5ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_fraction_workflow	✅	12ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_workflow	✅	9ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_repeatable_0	✅	1ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_repeatable_1	✅	102ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_resettable_0	✅	1ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_resettable_1	✅	203ms
tests/explorer/workflow_test.py::MultiTurnWorkflowTest_0::test_multi_turn_workflow	✅	22.7s
tests/explorer/workflow_test.py::MultiTurnWorkflowTest_1::test_multi_turn_workflow	✅	23.4s
tests/explorer/workflow_test.py::TestWorkflowStateRecording::test_workflow_state_recording	✅	4.0s
tests/explorer/workflow_test.py::TestAgentScopeWorkflowAdapter::test_adapter_v0	✅	884ms
tests/explorer/workflow_test.py::TestAgentScopeWorkflowAdapter::test_adapter_v1	✅	2.4s
tests/explorer/workflow_test.py::TestWorkflowRunner::test_workflow_runner	✅	141ms
tests/explorer/workflow_test.py::TestWorkflowRunner::test_workflow_runner_get_state	✅	8.1s
tests/explorer/workflow_test.py::TestWorkflowRunner::test_workflow_with_openai	✅	25.2s
tests/explorer/workflow_test.py::TestConcurrentWorkflowRunner::test_concurrent_workflow_runner	✅	48.1s
tests/manager/log_manager_test.py::TestLogManager::test_file_rotation	✅	2ms
tests/manager/log_manager_test.py::TestLogManager::test_init_and_tracking	✅	1ms
tests/manager/log_manager_test.py::TestLogManager::test_keyword_filter_and_search_pattern	✅	1ms
tests/manager/synchronizer_test.py::TestSynchronizerExit_0::test_synchronizer	✅	2m 28s
tests/manager/synchronizer_test.py::TestSynchronizerExit_1::test_synchronizer	✅	2m 44s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_0::test_synchronizer	✅	2m 12s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_1::test_synchronizer	✅	1m 49s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_2::test_synchronizer	✅	2m 16s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_3::test_synchronizer	✅	2m 54s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_4::test_synchronizer	✅	2m 32s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_5::test_synchronizer	✅	2m 54s
tests/manager/synchronizer_test.py::TestNCCLBasedSynchronizer_0::test_synchronizer	✅	1m 12s
tests/manager/synchronizer_test.py::TestNCCLBasedSynchronizer_1::test_synchronizer	✅	1m 7s
tests/manager/synchronizer_test.py::TestNCCLBasedSynchronizer_2::test_synchronizer	✅	1m 7s
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_no_new_version_logs_warning	✅	4ms
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_pull_latest_weights_0	✅	3ms
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_pull_latest_weights_1	✅	4ms
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_pull_latest_weights_2	✅	3ms
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_pull_latest_weights_3	✅	3ms
tests/service/data_juicer_test.py::TestDataJuicer::test_config	✅	930ms
tests/service/data_juicer_test.py::TestDataJuicer::test_server_start	✅	21.0s
tests/service/data_juicer_test.py::TestDataJuicerExperiencePipeline::test_data_juicer_operators	✅	20.8s
tests/service/data_juicer_test.py::TestDataJuicerTaskPipeline::test_data_juicer_task_pipeline	✅	15.2s
tests/trainer/trainer_test.py::TestTrainerCountdown_0_fsdp::test_trainer	✅	3m 53s
tests/trainer/trainer_test.py::TestTrainerCountdown_1_megatron::test_trainer	✅	5m 8s
tests/trainer/trainer_test.py::TestStepAheadAsyncRL::test_trainer	✅	1m 39s
tests/trainer/trainer_test.py::TestTrainerGSM8K_0_fsdp::test_trainer	✅	1m 11s
tests/trainer/trainer_test.py::TestTrainerGSM8K_1_fsdp2::test_trainer	✅	1m 10s
tests/trainer/trainer_test.py::TestTrainerGSM8K_2_fsdp::test_trainer	✅	1m 12s
tests/trainer/trainer_test.py::TestTrainerGSM8K_3_fsdp2::test_trainer	✅	1m 26s
tests/trainer/trainer_test.py::TestTrainerSFTWarmupGSM8K::test_trainer	⏭️	1ms
tests/trainer/trainer_test.py::TestTrainerDPO::test_trainer	✅	42.0s
tests/trainer/trainer_test.py::TestTrainerSFT::test_trainer	✅	39.0s
tests/trainer/trainer_test.py::TestTrainerToolsSFT::test_trainer_tools	✅	38.2s
tests/trainer/trainer_test.py::TestFullyAsyncMode_0_fsdp::test_fully_async_mode	✅	1m 49s
tests/trainer/trainer_test.py::TestFullyAsyncMode_1_fsdp::test_fully_async_mode	✅	1m 48s
tests/trainer/trainer_test.py::TestFullyAsyncMode_2_megatron::test_fully_async_mode	✅	2m 38s
tests/trainer/trainer_test.py::TestTrainerCheckpointSave_0_fsdp::test_trainer	✅	2m 54s
tests/trainer/trainer_test.py::TestTrainerCheckpointSave_1_megatron::test_trainer	✅	5m 43s
tests/trainer/trainer_test.py::TestTrainerMIX::test_trainer	✅	2m 15s
tests/trainer/trainer_test.py::TestServeWithTrainer::test_serve_with_trainer	✅	1m 58s
tests/trainer/trainer_test.py::TestMultiModalGRPO::test_trainer	✅	2m 25s
tests/trainer/trainer_test.py::TestMultiModalSFT::test_trainer	❌	1m 9s
tests/trainer/trainer_test.py::TestTrainerLoRA::test_trainer	✅	3m 31s
tests/trainer/trainer_test.py::TestOverRollout::test_trainer	✅	1m 18s
tests/trainer/trainer_test.py::TestTrainerPromptTruncation::test_trainer	✅	52.7s
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer	⏭️	1ms
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer_class	⏭️	1ms
tests/trainer/trainer_test.py::AgentScopeTunerTest::test_agentscope_tuner	✅	1m 27s
tests/trainer/trainer_test.py::ColocateModeTest::test_trainer	✅	2m 9s
tests/utils/eval_utils_test.py::TestComputeScore::test_both_boxed_and_equivalent	✅	11ms
tests/utils/eval_utils_test.py::TestComputeScore::test_both_boxed_and_not_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_empty_ground_truth	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_empty_solution_string	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_multiple_boxed_answers_in_solution	✅	2ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_boxed_truth_raw_and_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_boxed_truth_raw_and_not_equivalent	✅	2ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_not_boxed	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_raw_and_ground_truth_boxed_equivalent	✅	2ms
tests/utils/eval_utils_test.py::TestMathEvalUtils::test_extract_answer	✅	4ms
tests/utils/eval_utils_test.py::TestMathEvalUtils::test_verify_math_answer	✅	62ms
tests/utils/eval_utils_test.py::TestEvalUtils::test_is_equiv	✅	5ms
tests/utils/log_test.py::LogTest::test_actor_log	✅	2.3s
tests/utils/log_test.py::LogTest::test_group_by_node	✅	2.2s
tests/utils/log_test.py::LogTest::test_no_actor_log	✅	906ms
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_local_0__workspace_tests_utils_plugins	✅	99ms
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_local_1_tests_utils_plugins	✅	95ms
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_remote_0__workspace_tests_utils_plugins	✅	10.7s
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_remote_1_tests_utils_plugins	✅	10.8s
tests/utils/plugin_test.py::TestPluginLoader::test_passing_custom_class_0__workspace_tests_utils_plugins	✅	6.0s
tests/utils/plugin_test.py::TestPluginLoader::test_passing_custom_class_1_tests_utils_plugins	✅	5.9s
tests/utils/registry_test.py::TestRegistryWithRay::test_dynamic_import	✅	3.3s
tests/utils/registry_test.py::TestRegistry::test_algorithm_registry_mapping	✅	11ms
tests/utils/registry_test.py::TestRegistry::test_buffer_module_registry_mapping	✅	5ms
tests/utils/registry_test.py::TestRegistry::test_common_module_registry_mapping	✅	61ms
tests/utils/registry_test.py::TestRegistry::test_register_module	✅	1ms
tests/utils/registry_test.py::TestRegistry::test_utils_module_registry_mapping	✅	1ms
tests/utils/swanlab_test.py::TestSwanlabMonitor::test_swanlab_monitor_smoke	⏭️	1ms

Github Test Reporter by CTRF 💚

chenyushuo · 2026-04-06T12:12:41Z

/unittest-all

github-actions · 2026-04-06T14:01:35Z

Summary

Tests 📝	Passed ✅	Failed ❌	Skipped ⏭️	Other ❓	Flaky 🍂	Duration ⏱️
265	260	0	5	0	0	1767h 48m

Skipped

Tests	Status
tests/common/vllm_test.py::TestTinkerAsyncAPIServer::test_api_async	skipped ⏭️
tests/trainer/trainer_test.py::TestTrainerSFTWarmupGSM8K::test_trainer	skipped ⏭️
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer	skipped ⏭️
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer_class	skipped ⏭️
tests/utils/swanlab_test.py::TestSwanlabMonitor::test_swanlab_monitor_smoke	skipped ⏭️

Tests

Test Name	Status	Duration
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_batch_level_std_grpo	✅	6ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_batch_level_step_wise_grpo_advantage	✅	4ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_duplicate_grpo	✅	6ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_grpo_advantage	✅	5ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_grpo_correct_bias	✅	2ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_grpo_reward_std	✅	2ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_step_wise_grpo_advantage	✅	2ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_step_wise_grpo_with_std_threshold	✅	3ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_abs_kl_fn	✅	2ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_fallback	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_loss	✅	2ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_same_policy	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_with_old_logprob	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_dummy_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_k1_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_k2_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_k3_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_kl_loss_aggregation_modes	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_low_var_kl_fn	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_dpo_policy_loss	✅	2ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_gspo_policy_loss	✅	2ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_mix_policy_loss	✅	3ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_opmd_policy_loss	✅	2ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_ppo_policy_loss	✅	2ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_ppo_policy_loss_with_sequence_masking	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_sapo_policy_loss	✅	3ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_sft_policy_loss	✅	1ms
tests/buffer/experience_pipeline_test.py::TestExperiencePipeline::test_experience_pipeline	✅	15.8s
tests/buffer/experience_pipeline_test.py::TestExperiencePipeline::test_pass_rate_calculation	✅	6.5s
tests/buffer/experience_storage_test.py::ExperienceStorageTest::test_sql_experience_buffer	✅	3.9s
tests/buffer/experience_storage_test.py::ExperienceStorageTest::test_sql_storage_0_sft	✅	4.9s
tests/buffer/experience_storage_test.py::ExperienceStorageTest::test_sql_storage_1_dpo	✅	5.2s
tests/buffer/file_test.py::TestFileBuffer::test_file_reader	✅	406ms
tests/buffer/file_test.py::TestFileBuffer::test_file_writer	✅	1.8s
tests/buffer/formatter_test.py::TestFormatter::test_dpo_messages_formatter	✅	1.4s
tests/buffer/formatter_test.py::TestFormatter::test_dpo_plaintext_formatter	✅	1.3s
tests/buffer/formatter_test.py::TestFormatter::test_multi_modal_sft_formatter	✅	2.4s
tests/buffer/formatter_test.py::TestFormatter::test_sft_messages_formatter	✅	2.7s
tests/buffer/formatter_test.py::TestFormatter::test_sft_plaintext_formatter	✅	2.2s
tests/buffer/formatter_test.py::TestFormatter::test_task_formatter	✅	495ms
tests/buffer/queue_test.py::TestQueueBuffer::test_priority_queue_buffer_reuse	✅	6.4s
tests/buffer/queue_test.py::TestQueueBuffer::test_priority_queue_capacity	✅	2.3s
tests/buffer/queue_test.py::TestQueueBuffer::test_priority_queue_reuse_count_control	✅	4.1s
tests/buffer/queue_test.py::TestQueueBuffer::test_queue_buffer_0_queue	✅	3.3s
tests/buffer/queue_test.py::TestQueueBuffer::test_queue_buffer_1_priority_queue	✅	3.1s
tests/buffer/queue_test.py::TestQueueBuffer::test_queue_buffer_capacity	✅	4.0s
tests/buffer/reader_test.py::TestBufferReader::test_buffer_reader_registration	✅	1.1s
tests/buffer/reward_shaping_mapper_test.py::TestRewardShapingMapper::test_basic_usage	✅	8ms
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_default_queue_default_sample_strategy	✅	1.9s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_default_queue_staleness_control_sample_strategy	✅	1.6s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_priority_queue_default_sample_strategy	✅	1.6s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_priority_queue_staleness_control_sample_strategy	✅	1.8s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_sql_staleness_control_sample_strategy	✅	5.1s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_default_queue_default_sample_strategy	✅	2.1s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_default_queue_staleness_control_sample_strategy	✅	1.6s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_priority_queue_default_sample_strategy	✅	1.6s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_priority_queue_staleness_control_sample_strategy	✅	1.6s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_sql_staleness_control_sample_strategy	✅	4.0s
tests/buffer/sql_test.py::TestSQLBuffer::test_sql_exp_buffer_read_write_0	✅	6.3s
tests/buffer/sql_test.py::TestSQLBuffer::test_sql_exp_buffer_read_write_1	✅	2.8s
tests/buffer/sql_test.py::TestSQLBuffer::test_sql_task_buffer_read_write	✅	3.5s
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_0	✅	79ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_1	✅	64ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_2	✅	99ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_3	✅	99ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_4	✅	97ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_5	✅	101ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_6	✅	115ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_simple	✅	49ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_0_file	✅	374ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_1_sql	✅	3.2s
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_2_file	✅	45ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_3_sql	✅	2.9s
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_4_file	✅	44ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_5_sql	✅	3.8s
tests/cli/launcher_test.py::TestLauncherMain::test_debug_mode	✅	1m 8s
tests/cli/launcher_test.py::TestLauncherMain::test_log_mode	✅	173ms
tests/cli/launcher_test.py::TestLauncherMain::test_main_run_command	✅	6.9s
tests/cli/launcher_test.py::TestLauncherMain::test_main_run_in_dlc	✅	1.2s
tests/cli/launcher_test.py::TestLauncherMain::test_main_studio_command	✅	762ms
tests/cli/launcher_test.py::TestLauncherMain::test_multi_stage_run	✅	5.9s
tests/common/config_test.py::TestConfig::test_all_examples_are_valid	✅	21.7s
tests/common/config_test.py::TestConfig::test_chat_template_path	✅	94ms
tests/common/config_test.py::TestConfig::test_config_flatten	✅	34ms
tests/common/config_test.py::TestConfig::test_continue_from_checkpoint_is_valid	✅	204ms
tests/common/config_test.py::TestConfig::test_default_workflow	✅	93ms
tests/common/config_test.py::TestConfig::test_load_default_config	✅	21.2s
tests/common/config_test.py::TestConfig::test_max_token_len_per_gpu_set_correctly	✅	704ms
tests/common/config_test.py::TestConfig::test_optimizer_config_propagation	✅	97ms
tests/common/config_test.py::TestConfig::test_update_config_from_ray_cluster	✅	446ms
tests/common/experience_test.py::TestEID::test_eid_properties	✅	1ms
tests/common/experience_test.py::TestExperience::test_action_mask_and_logprobs_type	✅	1ms
tests/common/experience_test.py::TestExperience::test_assertions	✅	1ms
tests/common/experience_test.py::TestExperience::test_deserialize_legacy_pickle_payload	✅	1ms
tests/common/experience_test.py::TestExperience::test_deserialize_single_rejects_batch_payload	✅	1ms
tests/common/experience_test.py::TestExperience::test_dpo_experience	✅	1ms
tests/common/experience_test.py::TestExperience::test_hf_datasets_conversion	✅	14ms
tests/common/experience_test.py::TestExperience::test_multi_turn_experience	✅	1ms
tests/common/experience_test.py::TestExperience::test_serialize_deserialize	✅	1ms
tests/common/experience_test.py::TestExperience::test_serialize_many_deserialize_many	✅	1ms
tests/common/experience_test.py::TestExperience::test_serialize_many_with_shared_multimodal_tensor	✅	1ms
tests/common/experience_test.py::TestExperience::test_single_turn_experience	✅	1ms
tests/common/experience_test.py::TestExperience::test_to_dict	✅	1ms
tests/common/experience_test.py::TestExperienceConversion::test_experience_model_experience_conversion	✅	1ms
tests/common/models/utils_test.py::TestTokenizeAndMaskMessagesDefault::test_first_message_is_assistant	✅	517ms
tests/common/models/utils_test.py::TestTokenizeAndMaskMessagesDefault::test_messages_empty	✅	1.0s
tests/common/models/utils_test.py::TestTokenizeAndMaskMessagesDefault::test_no_assistant_messages	✅	499ms
tests/common/models/utils_test.py::TestTokenizeAndMaskMessagesDefault::test_normal_conversation_data	✅	527ms
tests/common/sudoku_test.py::test_9x9_generator_produces_valid_solution	✅	1ms
tests/common/sudoku_test.py::test_9x9_generator_creates_holes	✅	1ms
tests/common/sudoku_test.py::test_9x9_solution_is_fully_filled	✅	2ms
tests/common/sudoku_test.py::test_judge_allows_incomplete_board	✅	1ms
tests/common/sudoku_test.py::test_judge_detects_row_violation	✅	1ms
tests/common/sudoku_test.py::test_judge_detects_column_violation	✅	1ms
tests/common/sudoku_test.py::test_judge_detects_block_violation	✅	1ms
tests/common/sudoku_test.py::test_4x4_generator_produces_valid_solution	✅	1ms
tests/common/sudoku_test.py::test_4x4_solution_is_fully_filled	✅	1ms
tests/common/sudoku_test.py::test_4x4_judge_detects_row_violation	✅	1ms
tests/common/sudoku_test.py::test_4x4_judge_detects_block_violation	✅	1ms
tests/common/vllm_test.py::ModelWrapperTest_0::test_generate	✅	1m 7s
tests/common/vllm_test.py::ModelWrapperTest_1::test_generate	✅	51.2s
tests/common/vllm_test.py::ModelWrapperTest_2::test_generate	✅	57.0s
tests/common/vllm_test.py::TestModelLen_0::test_model_len	✅	35.0s
tests/common/vllm_test.py::TestModelLen_1::test_model_len	✅	25.5s
tests/common/vllm_test.py::TestModelLen_2::test_model_len	✅	28.4s
tests/common/vllm_test.py::TestModelLenWithoutPromptTruncation::test_model_len	✅	33.2s
tests/common/vllm_test.py::TestMessageProcess::test_no_prompt_truncation	✅	27.7s
tests/common/vllm_test.py::TestMessageProcess::test_truncation_status	✅	27.4s
tests/common/vllm_test.py::TestAPIServer::test_api	✅	26.6s
tests/common/vllm_test.py::TestLogprobs::test_logprobs_api	✅	24.5s
tests/common/vllm_test.py::TestAsyncAPIServer::test_api_async	✅	25.9s
tests/common/vllm_test.py::TestTinkerAsyncAPIServer::test_api_async	⏭️	1ms
tests/common/vllm_test.py::TestTokenizer::test_action_mask	✅	581ms
tests/common/vllm_test.py::TestTokenizer::test_action_mask_with_tools	✅	1.0s
tests/common/vllm_test.py::TestAPIServerToolCall_0_deepseek_r1::test_api_tool_calls	✅	33.7s
tests/common/vllm_test.py::TestAPIServerToolCall_1::test_api_tool_calls	✅	26.7s
tests/common/vllm_test.py::TestSuperLongGeneration::test_generate	✅	2m 10s
tests/common/vllm_test.py::TestTinkerAPI::test_tinker_api	✅	47.0s
tests/explorer/explorer_test.py::TestExplorerCountdownEval::test_explorer	✅	1m 52s
tests/explorer/explorer_test.py::TestExplorerEvalDetailedStats::test_explorer	✅	1m 17s
tests/explorer/explorer_test.py::TestExplorerGSM8KRULERNoEval::test_explorer	✅	1m 1s
tests/explorer/explorer_test.py::TestExplorerGSM8k::test_explorer	✅	3m 7s
tests/explorer/explorer_test.py::ServeTest::test_serve	✅	1m 3s
tests/explorer/proxy_test.py::RecorderTest::test_recorder	✅	87ms
tests/explorer/scheduler_test.py::SchedulerTest::test_async_workflow	✅	5.1s
tests/explorer/scheduler_test.py::SchedulerTest::test_concurrent_operations	✅	5.2s
tests/explorer/scheduler_test.py::SchedulerTest::test_dynamic_timeout	✅	13.3s
tests/explorer/scheduler_test.py::SchedulerTest::test_get_results	✅	30.1s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_non_repeatable_workflow_0	✅	5.0s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_non_repeatable_workflow_1	✅	4.9s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_repeatable_workflow_0	✅	4.9s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_repeatable_workflow_1	✅	4.9s
tests/explorer/scheduler_test.py::SchedulerTest::test_multi_step_execution	✅	5.7s
tests/explorer/scheduler_test.py::SchedulerTest::test_non_repeatable_workflow	✅	5.1s
tests/explorer/scheduler_test.py::SchedulerTest::test_over_rollout_min_wait	✅	13.5s
tests/explorer/scheduler_test.py::SchedulerTest::test_scheduler_all_methods	✅	15.1s
tests/explorer/scheduler_test.py::SchedulerTest::test_scheduler_restart_after_stop	✅	9.3s
tests/explorer/scheduler_test.py::SchedulerTest::test_split_tasks	✅	9.2s
tests/explorer/scheduler_test.py::SchedulerTest::test_stepwise_experience_eid	✅	25.2s
tests/explorer/scheduler_test.py::SchedulerTest::test_wait_all	✅	8.2s
tests/explorer/scheduler_test.py::SchedulerTest::test_wait_all_timeout_with_multi_batch	✅	13.8s
tests/explorer/scheduler_test.py::TestRunnerStateCollection::test_runner_state_collection	✅	10.0s
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_reward_propagation_workflow_0	✅	1ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_reward_propagation_workflow_1	✅	602ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_step_wise_reward_workflow_0	✅	1ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_step_wise_reward_workflow_1	✅	1.0s
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_workflows_raise_error	✅	1ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_workflows_stop_at_max_env_steps	✅	1.0s
tests/explorer/workflow_test.py::WorkflowTest::test_gsm8k_workflow	✅	13ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_boxed_workflow	✅	18ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_complex_workflow	✅	142ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_eval_workflow	✅	5ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_fraction_workflow	✅	13ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_workflow	✅	9ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_repeatable_0	✅	1ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_repeatable_1	✅	102ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_resettable_0	✅	1ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_resettable_1	✅	202ms
tests/explorer/workflow_test.py::MultiTurnWorkflowTest_0::test_multi_turn_workflow	✅	23.9s
tests/explorer/workflow_test.py::MultiTurnWorkflowTest_1::test_multi_turn_workflow	✅	23.2s
tests/explorer/workflow_test.py::TestWorkflowStateRecording::test_workflow_state_recording	✅	4.0s
tests/explorer/workflow_test.py::TestAgentScopeWorkflowAdapter::test_adapter_v0	✅	789ms
tests/explorer/workflow_test.py::TestAgentScopeWorkflowAdapter::test_adapter_v1	✅	2.3s
tests/explorer/workflow_test.py::TestWorkflowRunner::test_workflow_runner	✅	144ms
tests/explorer/workflow_test.py::TestWorkflowRunner::test_workflow_runner_get_state	✅	8.1s
tests/explorer/workflow_test.py::TestWorkflowRunner::test_workflow_with_openai	✅	25.2s
tests/explorer/workflow_test.py::TestConcurrentWorkflowRunner::test_concurrent_workflow_runner	✅	48.0s
tests/manager/log_manager_test.py::TestLogManager::test_file_rotation	✅	2ms
tests/manager/log_manager_test.py::TestLogManager::test_init_and_tracking	✅	1ms
tests/manager/log_manager_test.py::TestLogManager::test_keyword_filter_and_search_pattern	✅	1ms
tests/manager/synchronizer_test.py::TestSynchronizerExit_0::test_synchronizer	✅	2m 19s
tests/manager/synchronizer_test.py::TestSynchronizerExit_1::test_synchronizer	✅	2m 44s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_0::test_synchronizer	✅	2m 12s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_1::test_synchronizer	✅	1m 56s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_2::test_synchronizer	✅	2m 12s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_3::test_synchronizer	✅	2m 51s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_4::test_synchronizer	✅	2m 32s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_5::test_synchronizer	✅	2m 53s
tests/manager/synchronizer_test.py::TestNCCLBasedSynchronizer_0::test_synchronizer	✅	1m 10s
tests/manager/synchronizer_test.py::TestNCCLBasedSynchronizer_1::test_synchronizer	✅	1m 5s
tests/manager/synchronizer_test.py::TestNCCLBasedSynchronizer_2::test_synchronizer	✅	1m 5s
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_no_new_version_logs_warning	✅	4ms
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_pull_latest_weights_0	✅	2ms
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_pull_latest_weights_1	✅	5ms
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_pull_latest_weights_2	✅	3ms
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_pull_latest_weights_3	✅	2ms
tests/service/data_juicer_test.py::TestDataJuicer::test_config	✅	869ms
tests/service/data_juicer_test.py::TestDataJuicer::test_server_start	✅	21.0s
tests/service/data_juicer_test.py::TestDataJuicerExperiencePipeline::test_data_juicer_operators	✅	20.7s
tests/service/data_juicer_test.py::TestDataJuicerTaskPipeline::test_data_juicer_task_pipeline	✅	15.2s
tests/trainer/trainer_test.py::TestTrainerCountdown_0_fsdp::test_trainer	✅	3m 48s
tests/trainer/trainer_test.py::TestTrainerCountdown_1_megatron::test_trainer	✅	5m 2s
tests/trainer/trainer_test.py::TestStepAheadAsyncRL::test_trainer	✅	1m 36s
tests/trainer/trainer_test.py::TestTrainerGSM8K_0_fsdp::test_trainer	✅	1m 9s
tests/trainer/trainer_test.py::TestTrainerGSM8K_1_fsdp2::test_trainer	✅	1m 9s
tests/trainer/trainer_test.py::TestTrainerGSM8K_2_fsdp::test_trainer	✅	1m 15s
tests/trainer/trainer_test.py::TestTrainerGSM8K_3_fsdp2::test_trainer	✅	1m 27s
tests/trainer/trainer_test.py::TestTrainerSFTWarmupGSM8K::test_trainer	⏭️	2ms
tests/trainer/trainer_test.py::TestTrainerDPO::test_trainer	✅	40.9s
tests/trainer/trainer_test.py::TestTrainerSFT::test_trainer	✅	36.8s
tests/trainer/trainer_test.py::TestTrainerToolsSFT::test_trainer_tools	✅	36.5s
tests/trainer/trainer_test.py::TestFullyAsyncMode_0_fsdp::test_fully_async_mode	✅	1m 48s
tests/trainer/trainer_test.py::TestFullyAsyncMode_1_fsdp::test_fully_async_mode	✅	1m 46s
tests/trainer/trainer_test.py::TestFullyAsyncMode_2_megatron::test_fully_async_mode	✅	2m 34s
tests/trainer/trainer_test.py::TestTrainerCheckpointSave_0_fsdp::test_trainer	✅	3m 4s
tests/trainer/trainer_test.py::TestTrainerCheckpointSave_1_megatron::test_trainer	✅	5m 43s
tests/trainer/trainer_test.py::TestTrainerMIX::test_trainer	✅	2m 14s
tests/trainer/trainer_test.py::TestServeWithTrainer::test_serve_with_trainer	✅	1m 54s
tests/trainer/trainer_test.py::TestMultiModalGRPO::test_trainer	✅	4m 45s
tests/trainer/trainer_test.py::TestMultiModalSFT::test_trainer	✅	1m 47s
tests/trainer/trainer_test.py::TestTrainerLoRA::test_trainer	✅	3m 26s
tests/trainer/trainer_test.py::TestOverRollout::test_trainer	✅	1m 8s
tests/trainer/trainer_test.py::TestTrainerPromptTruncation::test_trainer	✅	51.6s
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer	⏭️	1ms
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer_class	⏭️	1ms
tests/trainer/trainer_test.py::AgentScopeTunerTest::test_agentscope_tuner	✅	1m 25s
tests/trainer/trainer_test.py::ColocateModeTest::test_trainer	✅	2m 6s
tests/utils/eval_utils_test.py::TestComputeScore::test_both_boxed_and_equivalent	✅	10ms
tests/utils/eval_utils_test.py::TestComputeScore::test_both_boxed_and_not_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_empty_ground_truth	✅	2ms
tests/utils/eval_utils_test.py::TestComputeScore::test_empty_solution_string	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_multiple_boxed_answers_in_solution	✅	2ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_boxed_truth_raw_and_equivalent	✅	2ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_boxed_truth_raw_and_not_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_not_boxed	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_raw_and_ground_truth_boxed_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestMathEvalUtils::test_extract_answer	✅	4ms
tests/utils/eval_utils_test.py::TestMathEvalUtils::test_verify_math_answer	✅	63ms
tests/utils/eval_utils_test.py::TestEvalUtils::test_is_equiv	✅	5ms
tests/utils/log_test.py::LogTest::test_actor_log	✅	2.0s
tests/utils/log_test.py::LogTest::test_group_by_node	✅	2.3s
tests/utils/log_test.py::LogTest::test_no_actor_log	✅	915ms
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_local_0__workspace_tests_utils_plugins	✅	99ms
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_local_1_tests_utils_plugins	✅	96ms
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_remote_0__workspace_tests_utils_plugins	✅	9.5s
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_remote_1_tests_utils_plugins	✅	9.5s
tests/utils/plugin_test.py::TestPluginLoader::test_passing_custom_class_0__workspace_tests_utils_plugins	✅	5.4s
tests/utils/plugin_test.py::TestPluginLoader::test_passing_custom_class_1_tests_utils_plugins	✅	5.2s
tests/utils/registry_test.py::TestRegistryWithRay::test_dynamic_import	✅	2.7s
tests/utils/registry_test.py::TestRegistry::test_algorithm_registry_mapping	✅	10ms
tests/utils/registry_test.py::TestRegistry::test_buffer_module_registry_mapping	✅	4ms
tests/utils/registry_test.py::TestRegistry::test_common_module_registry_mapping	✅	57ms
tests/utils/registry_test.py::TestRegistry::test_register_module	✅	1ms
tests/utils/registry_test.py::TestRegistry::test_utils_module_registry_mapping	✅	1ms
tests/utils/swanlab_test.py::TestSwanlabMonitor::test_swanlab_monitor_smoke	⏭️	1ms

Github Test Reporter by CTRF 💚

Copilot

Pull request overview

Copilot reviewed 24 out of 24 changed files in this pull request and generated 4 comments.

💡 Add Copilot custom instructions for smarter, more guided reviews. Learn how to get started.

trinity/trainer/verl/verl_config.py

trinity/service/data_juicer/server/utils.py

scripts/docker/Dockerfile.uv

trinity/trainer/verl/utils.py

chenyushuo · 2026-04-07T02:30:23Z

/unittest-module-trainer

github-actions · 2026-04-07T03:25:59Z

Summary

Tests 📝	Passed ✅	Failed ❌	Skipped ⏭️	Other ❓	Flaky 🍂	Duration ⏱️
27	23	1	3	0	0	878h 56m

Failed Tests

Failed Tests ❌	Fail Message
❌ tests/trainer/trainer_test.py::ColocateModeTest::test_trainer	The test failed in the call phase due to an assertion error

Skipped

Tests	Status
tests/trainer/trainer_test.py::TestTrainerSFTWarmupGSM8K::test_trainer	skipped ⏭️
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer	skipped ⏭️
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer_class	skipped ⏭️

Tests

Test Name	Status	Duration
tests/trainer/trainer_test.py::TestTrainerCountdown_0_fsdp::test_trainer	✅	4m 21s
tests/trainer/trainer_test.py::TestTrainerCountdown_1_megatron::test_trainer	✅	4m 55s
tests/trainer/trainer_test.py::TestStepAheadAsyncRL::test_trainer	✅	1m 54s
tests/trainer/trainer_test.py::TestTrainerGSM8K_0_fsdp::test_trainer	✅	1m 24s
tests/trainer/trainer_test.py::TestTrainerGSM8K_1_fsdp2::test_trainer	✅	1m 7s
tests/trainer/trainer_test.py::TestTrainerGSM8K_2_fsdp::test_trainer	✅	1m 11s
tests/trainer/trainer_test.py::TestTrainerGSM8K_3_fsdp2::test_trainer	✅	1m 22s
tests/trainer/trainer_test.py::TestTrainerSFTWarmupGSM8K::test_trainer	⏭️	1ms
tests/trainer/trainer_test.py::TestTrainerDPO::test_trainer	✅	40.8s
tests/trainer/trainer_test.py::TestTrainerSFT::test_trainer	✅	35.4s
tests/trainer/trainer_test.py::TestTrainerToolsSFT::test_trainer_tools	✅	36.4s
tests/trainer/trainer_test.py::TestFullyAsyncMode_0_fsdp::test_fully_async_mode	✅	1m 47s
tests/trainer/trainer_test.py::TestFullyAsyncMode_1_fsdp::test_fully_async_mode	✅	1m 45s
tests/trainer/trainer_test.py::TestFullyAsyncMode_2_megatron::test_fully_async_mode	✅	2m 37s
tests/trainer/trainer_test.py::TestTrainerCheckpointSave_0_fsdp::test_trainer	✅	2m 54s
tests/trainer/trainer_test.py::TestTrainerCheckpointSave_1_megatron::test_trainer	✅	5m 53s
tests/trainer/trainer_test.py::TestTrainerMIX::test_trainer	✅	2m 5s
tests/trainer/trainer_test.py::TestServeWithTrainer::test_serve_with_trainer	✅	1m 58s
tests/trainer/trainer_test.py::TestMultiModalGRPO::test_trainer	✅	4m 40s
tests/trainer/trainer_test.py::TestMultiModalSFT::test_trainer	✅	1m 49s
tests/trainer/trainer_test.py::TestTrainerLoRA::test_trainer	✅	3m 24s
tests/trainer/trainer_test.py::TestOverRollout::test_trainer	✅	1m 13s
tests/trainer/trainer_test.py::TestTrainerPromptTruncation::test_trainer	✅	50.3s
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer	⏭️	1ms
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer_class	⏭️	1ms
tests/trainer/trainer_test.py::AgentScopeTunerTest::test_agentscope_tuner	✅	1m 27s
tests/trainer/trainer_test.py::ColocateModeTest::test_trainer	❌	2m 2s

Github Test Reporter by CTRF 💚

chenyushuo · 2026-04-07T03:28:39Z

/unittest-pattern-ColocateModeTest

github-actions · 2026-04-07T03:34:13Z

Summary

Tests 📝	Passed ✅	Failed ❌	Skipped ⏭️	Other ❓	Flaky 🍂	Duration ⏱️
1	1	0	0	0	0	48h 18m

Tests

Test Name	Status	Flaky	Duration
tests/trainer/trainer_test.py::ColocateModeTest::test_trainer	✅		2m 40s

Github Test Reporter by CTRF 💚

pyproject.toml

docs/agent_summarization/verl_v0.7.1_migration_plan.md

.github/workflows/docker/docker-compose.yaml

chenyushuo · 2026-04-07T11:59:57Z

/unittest-module-trainer

github-actions · 2026-04-07T12:55:14Z

Summary

Tests 📝	Passed ✅	Failed ❌	Skipped ⏭️	Other ❓	Flaky 🍂	Duration ⏱️
27	24	0	3	0	0	874h 34m

Skipped

Tests	Status
tests/trainer/trainer_test.py::TestTrainerSFTWarmupGSM8K::test_trainer	skipped ⏭️
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer	skipped ⏭️
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer_class	skipped ⏭️

Tests

Test Name	Status	Duration
tests/trainer/trainer_test.py::TestTrainerCountdown_0_fsdp::test_trainer	✅	4m 49s
tests/trainer/trainer_test.py::TestTrainerCountdown_1_megatron::test_trainer	✅	5m 8s
tests/trainer/trainer_test.py::TestStepAheadAsyncRL::test_trainer	✅	1m 45s
tests/trainer/trainer_test.py::TestTrainerGSM8K_0_fsdp::test_trainer	✅	1m 5s
tests/trainer/trainer_test.py::TestTrainerGSM8K_1_fsdp2::test_trainer	✅	1m 5s
tests/trainer/trainer_test.py::TestTrainerGSM8K_2_fsdp::test_trainer	✅	1m 9s
tests/trainer/trainer_test.py::TestTrainerGSM8K_3_fsdp2::test_trainer	✅	1m 20s
tests/trainer/trainer_test.py::TestTrainerSFTWarmupGSM8K::test_trainer	⏭️	1ms
tests/trainer/trainer_test.py::TestTrainerDPO::test_trainer	✅	41.9s
tests/trainer/trainer_test.py::TestTrainerSFT::test_trainer	✅	37.2s
tests/trainer/trainer_test.py::TestTrainerToolsSFT::test_trainer_tools	✅	34.8s
tests/trainer/trainer_test.py::TestFullyAsyncMode_0_fsdp::test_fully_async_mode	✅	1m 50s
tests/trainer/trainer_test.py::TestFullyAsyncMode_1_fsdp::test_fully_async_mode	✅	1m 47s
tests/trainer/trainer_test.py::TestFullyAsyncMode_2_megatron::test_fully_async_mode	✅	2m 32s
tests/trainer/trainer_test.py::TestTrainerCheckpointSave_0_fsdp::test_trainer	✅	2m 54s
tests/trainer/trainer_test.py::TestTrainerCheckpointSave_1_megatron::test_trainer	✅	5m 53s
tests/trainer/trainer_test.py::TestTrainerMIX::test_trainer	✅	2m 10s
tests/trainer/trainer_test.py::TestServeWithTrainer::test_serve_with_trainer	✅	1m 55s
tests/trainer/trainer_test.py::TestMultiModalGRPO::test_trainer	✅	4m 21s
tests/trainer/trainer_test.py::TestMultiModalSFT::test_trainer	✅	1m 48s
tests/trainer/trainer_test.py::TestTrainerLoRA::test_trainer	✅	3m 22s
tests/trainer/trainer_test.py::TestOverRollout::test_trainer	✅	1m 7s
tests/trainer/trainer_test.py::TestTrainerPromptTruncation::test_trainer	✅	51.3s
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer	⏭️	1ms
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer_class	⏭️	1ms
tests/trainer/trainer_test.py::AgentScopeTunerTest::test_agentscope_tuner	✅	1m 25s
tests/trainer/trainer_test.py::ColocateModeTest::test_trainer	✅	2m 4s

Github Test Reporter by CTRF 💚

chenyushuo · 2026-04-07T13:37:43Z

/unittest-all

github-actions · 2026-04-07T15:25:08Z

Summary

Tests 📝	Passed ✅	Failed ❌	Skipped ⏭️	Other ❓	Flaky 🍂	Duration ⏱️
267	261	1	5	0	0	1736h 38m

Failed Tests

Failed Tests ❌	Fail Message
❌ tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_non_repeatable_workflow_1	The test failed in the call phase due to an assertion error

Skipped

Tests	Status
tests/common/vllm_test.py::TestTinkerAsyncAPIServer::test_api_async	skipped ⏭️
tests/trainer/trainer_test.py::TestTrainerSFTWarmupGSM8K::test_trainer	skipped ⏭️
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer	skipped ⏭️
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer_class	skipped ⏭️
tests/utils/swanlab_test.py::TestSwanlabMonitor::test_swanlab_monitor_smoke	skipped ⏭️

Tests

Test Name	Status	Duration
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_batch_level_std_grpo	✅	6ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_batch_level_step_wise_grpo_advantage	✅	4ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_duplicate_grpo	✅	6ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_grpo_advantage	✅	4ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_grpo_correct_bias	✅	3ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_grpo_reward_std	✅	2ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_step_wise_grpo_advantage	✅	2ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_step_wise_grpo_with_std_threshold	✅	2ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_abs_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_fallback	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_loss	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_same_policy	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_with_old_logprob	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_dummy_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_k1_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_k2_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_k3_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_kl_loss_aggregation_modes	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_low_var_kl_fn	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_dpo_policy_loss	✅	3ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_gspo_policy_loss	✅	2ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_mix_policy_loss	✅	4ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_opmd_policy_loss	✅	2ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_ppo_policy_loss	✅	2ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_ppo_policy_loss_with_sequence_masking	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_sapo_policy_loss	✅	3ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_sft_policy_loss	✅	1ms
tests/buffer/experience_pipeline_test.py::TestExperiencePipeline::test_experience_pipeline	✅	15.8s
tests/buffer/experience_pipeline_test.py::TestExperiencePipeline::test_pass_rate_calculation	✅	6.0s
tests/buffer/experience_storage_test.py::ExperienceStorageTest::test_sql_experience_buffer	✅	3.1s
tests/buffer/experience_storage_test.py::ExperienceStorageTest::test_sql_storage_0_sft	✅	5.5s
tests/buffer/experience_storage_test.py::ExperienceStorageTest::test_sql_storage_1_dpo	✅	5.2s
tests/buffer/file_test.py::TestFileBuffer::test_file_reader	✅	411ms
tests/buffer/file_test.py::TestFileBuffer::test_file_writer	✅	1.8s
tests/buffer/formatter_test.py::TestFormatter::test_dpo_messages_formatter	✅	1.4s
tests/buffer/formatter_test.py::TestFormatter::test_dpo_plaintext_formatter	✅	1.3s
tests/buffer/formatter_test.py::TestFormatter::test_multi_modal_sft_formatter	✅	2.4s
tests/buffer/formatter_test.py::TestFormatter::test_sft_messages_formatter	✅	2.7s
tests/buffer/formatter_test.py::TestFormatter::test_sft_plaintext_formatter	✅	2.2s
tests/buffer/formatter_test.py::TestFormatter::test_task_formatter	✅	493ms
tests/buffer/queue_test.py::TestQueueBuffer::test_priority_queue_buffer_reuse	✅	6.4s
tests/buffer/queue_test.py::TestQueueBuffer::test_priority_queue_capacity	✅	2.1s
tests/buffer/queue_test.py::TestQueueBuffer::test_priority_queue_reuse_count_control	✅	4.1s
tests/buffer/queue_test.py::TestQueueBuffer::test_queue_buffer_0_queue	✅	3.1s
tests/buffer/queue_test.py::TestQueueBuffer::test_queue_buffer_1_priority_queue	✅	3.1s
tests/buffer/queue_test.py::TestQueueBuffer::test_queue_buffer_capacity	✅	4.0s
tests/buffer/reader_test.py::TestBufferReader::test_buffer_reader_registration	✅	1.1s
tests/buffer/reward_shaping_mapper_test.py::TestRewardShapingMapper::test_basic_usage	✅	8ms
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_default_queue_default_sample_strategy	✅	2.1s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_default_queue_staleness_control_sample_strategy	✅	1.8s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_priority_queue_default_sample_strategy	✅	1.8s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_priority_queue_staleness_control_sample_strategy	✅	1.6s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_sql_staleness_control_sample_strategy	✅	5.1s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_default_queue_default_sample_strategy	✅	1.9s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_default_queue_staleness_control_sample_strategy	✅	1.8s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_priority_queue_default_sample_strategy	✅	1.6s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_priority_queue_staleness_control_sample_strategy	✅	1.6s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_sql_staleness_control_sample_strategy	✅	4.1s
tests/buffer/sql_test.py::TestSQLBuffer::test_sql_exp_buffer_read_write_0	✅	6.0s
tests/buffer/sql_test.py::TestSQLBuffer::test_sql_exp_buffer_read_write_1	✅	2.6s
tests/buffer/sql_test.py::TestSQLBuffer::test_sql_task_buffer_read_write	✅	3.4s
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_0	✅	80ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_1	✅	63ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_2	✅	97ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_3	✅	98ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_4	✅	115ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_5	✅	103ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_6	✅	117ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_simple	✅	52ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_0_file	✅	379ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_1_sql	✅	3.2s
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_2_file	✅	46ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_3_sql	✅	2.9s
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_4_file	✅	44ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_5_sql	✅	3.6s
tests/cli/launcher_test.py::TestLauncherMain::test_debug_mode	✅	1m 7s
tests/cli/launcher_test.py::TestLauncherMain::test_log_mode	✅	166ms
tests/cli/launcher_test.py::TestLauncherMain::test_main_run_command	✅	6.9s
tests/cli/launcher_test.py::TestLauncherMain::test_main_run_in_dlc	✅	1.2s
tests/cli/launcher_test.py::TestLauncherMain::test_main_studio_command	✅	744ms
tests/cli/launcher_test.py::TestLauncherMain::test_multi_stage_run	✅	4.0s
tests/common/config_test.py::TestConfig::test_all_examples_are_valid	✅	21.5s
tests/common/config_test.py::TestConfig::test_chat_template_path	✅	95ms
tests/common/config_test.py::TestConfig::test_config_flatten	✅	36ms
tests/common/config_test.py::TestConfig::test_continue_from_checkpoint_is_valid	✅	204ms
tests/common/config_test.py::TestConfig::test_default_workflow	✅	625ms
tests/common/config_test.py::TestConfig::test_load_default_config	✅	1.3s
tests/common/config_test.py::TestConfig::test_max_token_len_per_gpu_set_correctly	✅	96ms
tests/common/config_test.py::TestConfig::test_optimizer_config_propagation	✅	98ms
tests/common/config_test.py::TestConfig::test_update_config_from_ray_cluster	✅	418ms
tests/common/experience_test.py::TestEID::test_eid_properties	✅	1ms
tests/common/experience_test.py::TestExperience::test_action_mask_and_logprobs_type	✅	1ms
tests/common/experience_test.py::TestExperience::test_assertions	✅	1ms
tests/common/experience_test.py::TestExperience::test_deserialize_legacy_pickle_payload	✅	1ms
tests/common/experience_test.py::TestExperience::test_deserialize_single_rejects_batch_payload	✅	1ms
tests/common/experience_test.py::TestExperience::test_dpo_experience	✅	1ms
tests/common/experience_test.py::TestExperience::test_hf_datasets_conversion	✅	14ms
tests/common/experience_test.py::TestExperience::test_multi_turn_experience	✅	1ms
tests/common/experience_test.py::TestExperience::test_serialize_deserialize	✅	1ms
tests/common/experience_test.py::TestExperience::test_serialize_many_deserialize_many	✅	1ms
tests/common/experience_test.py::TestExperience::test_serialize_many_with_shared_multimodal_tensor	✅	1ms
tests/common/experience_test.py::TestExperience::test_single_turn_experience	✅	1ms
tests/common/experience_test.py::TestExperience::test_to_dict	✅	1ms
tests/common/experience_test.py::TestExperienceConversion::test_experience_model_experience_conversion	✅	1ms
tests/common/external_model_test.py::TestExternalModel::test_external_model	✅	30.0s
tests/common/external_model_test.py::TestExternalModelLoad::test_external_model_load	✅	2.1s
tests/common/models/utils_test.py::TestTokenizeAndMaskMessagesDefault::test_first_message_is_assistant	✅	530ms
tests/common/models/utils_test.py::TestTokenizeAndMaskMessagesDefault::test_messages_empty	✅	961ms
tests/common/models/utils_test.py::TestTokenizeAndMaskMessagesDefault::test_no_assistant_messages	✅	483ms
tests/common/models/utils_test.py::TestTokenizeAndMaskMessagesDefault::test_normal_conversation_data	✅	497ms
tests/common/sudoku_test.py::test_9x9_generator_produces_valid_solution	✅	1ms
tests/common/sudoku_test.py::test_9x9_generator_creates_holes	✅	1ms
tests/common/sudoku_test.py::test_9x9_solution_is_fully_filled	✅	1ms
tests/common/sudoku_test.py::test_judge_allows_incomplete_board	✅	1ms
tests/common/sudoku_test.py::test_judge_detects_row_violation	✅	1ms
tests/common/sudoku_test.py::test_judge_detects_column_violation	✅	1ms
tests/common/sudoku_test.py::test_judge_detects_block_violation	✅	1ms
tests/common/sudoku_test.py::test_4x4_generator_produces_valid_solution	✅	1ms
tests/common/sudoku_test.py::test_4x4_solution_is_fully_filled	✅	1ms
tests/common/sudoku_test.py::test_4x4_judge_detects_row_violation	✅	1ms
tests/common/sudoku_test.py::test_4x4_judge_detects_block_violation	✅	1ms
tests/common/vllm_test.py::ModelWrapperTest_0::test_generate	✅	1m 10s
tests/common/vllm_test.py::ModelWrapperTest_1::test_generate	✅	43.3s
tests/common/vllm_test.py::ModelWrapperTest_2::test_generate	✅	51.5s
tests/common/vllm_test.py::TestModelLen_0::test_model_len	✅	28.7s
tests/common/vllm_test.py::TestModelLen_1::test_model_len	✅	25.4s
tests/common/vllm_test.py::TestModelLen_2::test_model_len	✅	28.5s
tests/common/vllm_test.py::TestModelLenWithoutPromptTruncation::test_model_len	✅	28.9s
tests/common/vllm_test.py::TestMessageProcess::test_no_prompt_truncation	✅	27.4s
tests/common/vllm_test.py::TestMessageProcess::test_truncation_status	✅	42.2s
tests/common/vllm_test.py::TestAPIServer::test_api	✅	35.8s
tests/common/vllm_test.py::TestLogprobs::test_logprobs_api	✅	25.1s
tests/common/vllm_test.py::TestAsyncAPIServer::test_api_async	✅	26.0s
tests/common/vllm_test.py::TestTinkerAsyncAPIServer::test_api_async	⏭️	1ms
tests/common/vllm_test.py::TestTokenizer::test_action_mask	✅	555ms
tests/common/vllm_test.py::TestTokenizer::test_action_mask_with_tools	✅	1.0s
tests/common/vllm_test.py::TestAPIServerToolCall_0_deepseek_r1::test_api_tool_calls	✅	33.6s
tests/common/vllm_test.py::TestAPIServerToolCall_1::test_api_tool_calls	✅	26.5s
tests/common/vllm_test.py::TestSuperLongGeneration::test_generate	✅	53.0s
tests/common/vllm_test.py::TestTinkerAPI::test_tinker_api	✅	47.1s
tests/explorer/explorer_test.py::TestExplorerCountdownEval::test_explorer	✅	1m 48s
tests/explorer/explorer_test.py::TestExplorerEvalDetailedStats::test_explorer	✅	1m 16s
tests/explorer/explorer_test.py::TestExplorerGSM8KRULERNoEval::test_explorer	✅	59.8s
tests/explorer/explorer_test.py::TestExplorerGSM8k::test_explorer	✅	3m 8s
tests/explorer/explorer_test.py::ServeTest::test_serve	✅	1m 3s
tests/explorer/proxy_test.py::RecorderTest::test_recorder	✅	83ms
tests/explorer/scheduler_test.py::SchedulerTest::test_async_workflow	✅	5.2s
tests/explorer/scheduler_test.py::SchedulerTest::test_concurrent_operations	✅	5.3s
tests/explorer/scheduler_test.py::SchedulerTest::test_dynamic_timeout	✅	13.1s
tests/explorer/scheduler_test.py::SchedulerTest::test_get_results	✅	30.0s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_non_repeatable_workflow_0	✅	4.9s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_non_repeatable_workflow_1	❌	5.0s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_repeatable_workflow_0	✅	5.1s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_repeatable_workflow_1	✅	5.1s
tests/explorer/scheduler_test.py::SchedulerTest::test_multi_step_execution	✅	5.7s
tests/explorer/scheduler_test.py::SchedulerTest::test_non_repeatable_workflow	✅	5.2s
tests/explorer/scheduler_test.py::SchedulerTest::test_over_rollout_min_wait	✅	13.8s
tests/explorer/scheduler_test.py::SchedulerTest::test_scheduler_all_methods	✅	14.9s
tests/explorer/scheduler_test.py::SchedulerTest::test_scheduler_restart_after_stop	✅	9.9s
tests/explorer/scheduler_test.py::SchedulerTest::test_split_tasks	✅	8.9s
tests/explorer/scheduler_test.py::SchedulerTest::test_stepwise_experience_eid	✅	25.2s
tests/explorer/scheduler_test.py::SchedulerTest::test_wait_all	✅	8.1s
tests/explorer/scheduler_test.py::SchedulerTest::test_wait_all_timeout_with_multi_batch	✅	13.5s
tests/explorer/scheduler_test.py::TestRunnerStateCollection::test_runner_state_collection	✅	10.2s
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_reward_propagation_workflow_0	✅	2ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_reward_propagation_workflow_1	✅	602ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_step_wise_reward_workflow_0	✅	1ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_step_wise_reward_workflow_1	✅	1.0s
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_workflows_raise_error	✅	1ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_workflows_stop_at_max_env_steps	✅	1.0s
tests/explorer/workflow_test.py::WorkflowTest::test_gsm8k_workflow	✅	13ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_boxed_workflow	✅	18ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_complex_workflow	✅	136ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_eval_workflow	✅	3ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_fraction_workflow	✅	11ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_workflow	✅	9ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_repeatable_0	✅	1ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_repeatable_1	✅	101ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_resettable_0	✅	1ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_resettable_1	✅	201ms
tests/explorer/workflow_test.py::MultiTurnWorkflowTest_0::test_multi_turn_workflow	✅	23.5s
tests/explorer/workflow_test.py::MultiTurnWorkflowTest_1::test_multi_turn_workflow	✅	23.5s
tests/explorer/workflow_test.py::TestWorkflowStateRecording::test_workflow_state_recording	✅	4.0s
tests/explorer/workflow_test.py::TestAgentScopeWorkflowAdapter::test_adapter_v0	✅	714ms
tests/explorer/workflow_test.py::TestAgentScopeWorkflowAdapter::test_adapter_v1	✅	2.1s
tests/explorer/workflow_test.py::TestWorkflowRunner::test_workflow_runner	✅	143ms
tests/explorer/workflow_test.py::TestWorkflowRunner::test_workflow_runner_get_state	✅	8.1s
tests/explorer/workflow_test.py::TestWorkflowRunner::test_workflow_with_openai	✅	24.9s
tests/explorer/workflow_test.py::TestConcurrentWorkflowRunner::test_concurrent_workflow_runner	✅	46.4s
tests/manager/log_manager_test.py::TestLogManager::test_file_rotation	✅	2ms
tests/manager/log_manager_test.py::TestLogManager::test_init_and_tracking	✅	1ms
tests/manager/log_manager_test.py::TestLogManager::test_keyword_filter_and_search_pattern	✅	2ms
tests/manager/synchronizer_test.py::TestSynchronizerExit_0::test_synchronizer	✅	2m 18s
tests/manager/synchronizer_test.py::TestSynchronizerExit_1::test_synchronizer	✅	2m 40s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_0::test_synchronizer	✅	2m 11s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_1::test_synchronizer	✅	1m 48s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_2::test_synchronizer	✅	2m 13s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_3::test_synchronizer	✅	2m 47s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_4::test_synchronizer	✅	2m 28s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_5::test_synchronizer	✅	2m 53s
tests/manager/synchronizer_test.py::TestNCCLBasedSynchronizer_0::test_synchronizer	✅	1m 10s
tests/manager/synchronizer_test.py::TestNCCLBasedSynchronizer_1::test_synchronizer	✅	1m 4s
tests/manager/synchronizer_test.py::TestNCCLBasedSynchronizer_2::test_synchronizer	✅	1m 6s
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_no_new_version_logs_warning	✅	4ms
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_pull_latest_weights_0	✅	3ms
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_pull_latest_weights_1	✅	3ms
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_pull_latest_weights_2	✅	3ms
tests/manager/synchronizer_test.py::TestPullLatestWeights::test_pull_latest_weights_3	✅	2ms
tests/service/data_juicer_test.py::TestDataJuicer::test_config	✅	865ms
tests/service/data_juicer_test.py::TestDataJuicer::test_server_start	✅	21.0s
tests/service/data_juicer_test.py::TestDataJuicerExperiencePipeline::test_data_juicer_operators	✅	20.6s
tests/service/data_juicer_test.py::TestDataJuicerTaskPipeline::test_data_juicer_task_pipeline	✅	15.2s
tests/trainer/trainer_test.py::TestTrainerCountdown_0_fsdp::test_trainer	✅	3m 56s
tests/trainer/trainer_test.py::TestTrainerCountdown_1_megatron::test_trainer	✅	4m 59s
tests/trainer/trainer_test.py::TestStepAheadAsyncRL::test_trainer	✅	1m 38s
tests/trainer/trainer_test.py::TestTrainerGSM8K_0_fsdp::test_trainer	✅	1m 10s
tests/trainer/trainer_test.py::TestTrainerGSM8K_1_fsdp2::test_trainer	✅	1m 12s
tests/trainer/trainer_test.py::TestTrainerGSM8K_2_fsdp::test_trainer	✅	1m 10s
tests/trainer/trainer_test.py::TestTrainerGSM8K_3_fsdp2::test_trainer	✅	1m 20s
tests/trainer/trainer_test.py::TestTrainerSFTWarmupGSM8K::test_trainer	⏭️	1ms
tests/trainer/trainer_test.py::TestTrainerDPO::test_trainer	✅	43.6s
tests/trainer/trainer_test.py::TestTrainerSFT::test_trainer	✅	35.7s
tests/trainer/trainer_test.py::TestTrainerToolsSFT::test_trainer_tools	✅	37.6s
tests/trainer/trainer_test.py::TestFullyAsyncMode_0_fsdp::test_fully_async_mode	✅	1m 48s
tests/trainer/trainer_test.py::TestFullyAsyncMode_1_fsdp::test_fully_async_mode	✅	1m 47s
tests/trainer/trainer_test.py::TestFullyAsyncMode_2_megatron::test_fully_async_mode	✅	2m 32s
tests/trainer/trainer_test.py::TestTrainerCheckpointSave_0_fsdp::test_trainer	✅	3m 3s
tests/trainer/trainer_test.py::TestTrainerCheckpointSave_1_megatron::test_trainer	✅	5m 43s
tests/trainer/trainer_test.py::TestTrainerMIX::test_trainer	✅	2m 9s
tests/trainer/trainer_test.py::TestServeWithTrainer::test_serve_with_trainer	✅	1m 51s
tests/trainer/trainer_test.py::TestMultiModalGRPO::test_trainer	✅	4m 36s
tests/trainer/trainer_test.py::TestMultiModalSFT::test_trainer	✅	1m 46s
tests/trainer/trainer_test.py::TestTrainerLoRA::test_trainer	✅	3m 23s
tests/trainer/trainer_test.py::TestOverRollout::test_trainer	✅	1m 10s
tests/trainer/trainer_test.py::TestTrainerPromptTruncation::test_trainer	✅	48.4s
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer	⏭️	1ms
tests/trainer/trainer_test.py::TestTinkerTrainer::test_trainer_class	⏭️	1ms
tests/trainer/trainer_test.py::AgentScopeTunerTest::test_agentscope_tuner	✅	1m 31s
tests/trainer/trainer_test.py::ColocateModeTest::test_trainer	✅	2m 8s
tests/utils/eval_utils_test.py::TestComputeScore::test_both_boxed_and_equivalent	✅	11ms
tests/utils/eval_utils_test.py::TestComputeScore::test_both_boxed_and_not_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_empty_ground_truth	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_empty_solution_string	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_multiple_boxed_answers_in_solution	✅	2ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_boxed_truth_raw_and_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_boxed_truth_raw_and_not_equivalent	✅	2ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_not_boxed	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_raw_and_ground_truth_boxed_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestMathEvalUtils::test_extract_answer	✅	4ms
tests/utils/eval_utils_test.py::TestMathEvalUtils::test_verify_math_answer	✅	60ms
tests/utils/eval_utils_test.py::TestEvalUtils::test_is_equiv	✅	5ms
tests/utils/log_test.py::LogTest::test_actor_log	✅	2.1s
tests/utils/log_test.py::LogTest::test_group_by_node	✅	2.3s
tests/utils/log_test.py::LogTest::test_no_actor_log	✅	907ms
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_local_0__workspace_tests_utils_plugins	✅	100ms
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_local_1_tests_utils_plugins	✅	97ms
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_remote_0__workspace_tests_utils_plugins	✅	9.4s
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_remote_1_tests_utils_plugins	✅	9.5s
tests/utils/plugin_test.py::TestPluginLoader::test_passing_custom_class_0__workspace_tests_utils_plugins	✅	5.4s
tests/utils/plugin_test.py::TestPluginLoader::test_passing_custom_class_1_tests_utils_plugins	✅	5.1s
tests/utils/registry_test.py::TestRegistryWithRay::test_dynamic_import	✅	2.4s
tests/utils/registry_test.py::TestRegistry::test_algorithm_registry_mapping	✅	10ms
tests/utils/registry_test.py::TestRegistry::test_buffer_module_registry_mapping	✅	3ms
tests/utils/registry_test.py::TestRegistry::test_common_module_registry_mapping	✅	54ms
tests/utils/registry_test.py::TestRegistry::test_register_module	✅	1ms
tests/utils/registry_test.py::TestRegistry::test_utils_module_registry_mapping	✅	1ms
tests/utils/swanlab_test.py::TestSwanlabMonitor::test_swanlab_monitor_smoke	⏭️	1ms

Github Test Reporter by CTRF 💚

chenyushuo requested a review from Copilot April 3, 2026 12:42

Copilot started reviewing on behalf of chenyushuo April 3, 2026 12:42 View session

Copilot AI reviewed Apr 3, 2026

View reviewed changes

fix unittest

41040fa

JiwaniZakir reviewed Apr 4, 2026

View reviewed changes

fix unittest

0db3100

fix unittest

5686265

chenyushuo requested review from Copilot, hiyuchang and pan-x-c April 6, 2026 14:10

Copilot started reviewing on behalf of chenyushuo April 6, 2026 14:11 View session

Copilot AI reviewed Apr 6, 2026

View reviewed changes

trinity/trainer/verl/verl_config.py Show resolved Hide resolved

trinity/service/data_juicer/server/utils.py Show resolved Hide resolved

scripts/docker/Dockerfile.uv Outdated Show resolved Hide resolved

trinity/trainer/verl/utils.py Outdated Show resolved Hide resolved

chenyushuo changed the title ~~[WIP] feat: upgrade veRL to v0.7.1 with trainer file migration~~ feat: upgrade veRL to v0.7.1 with trainer file migration Apr 7, 2026

apply reviews from copilot

5303168

pan-x-c reviewed Apr 7, 2026

View reviewed changes

chenyushuo added 2 commits April 7, 2026 14:50

add docs for verl upgrade

f46806d

update unittest workflows

e739579

Merge branch 'agentscope-ai:main' into upd/verl0.7.1

0a12b20

Conversation

chenyushuo commented Apr 3, 2026

Description

Checklist

Uh oh!

chenyushuo commented Apr 3, 2026

Uh oh!

github-actions bot commented Apr 3, 2026

Summary

Tests

Uh oh!

Copilot AI left a comment

Choose a reason for hiding this comment

Pull request overview

Reviewed changes

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

chenyushuo commented Apr 3, 2026

Uh oh!

github-actions bot commented Apr 3, 2026

Summary

Failed Tests

Skipped

Tests

Uh oh!

JiwaniZakir left a comment

Choose a reason for hiding this comment

Uh oh!

chenyushuo commented Apr 6, 2026

Uh oh!

github-actions bot commented Apr 6, 2026

Summary

Failed Tests

Skipped

Tests

Uh oh!

chenyushuo commented Apr 6, 2026

Uh oh!

github-actions bot commented Apr 6, 2026

Summary

Skipped

Tests

Uh oh!

Copilot AI left a comment

Choose a reason for hiding this comment

Pull request overview

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

chenyushuo commented Apr 7, 2026

Uh oh!

github-actions bot commented Apr 7, 2026

Summary

Failed Tests

Skipped

Tests

Uh oh!

chenyushuo commented Apr 7, 2026

Uh oh!

github-actions bot commented Apr 7, 2026

Summary

Tests

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

chenyushuo commented Apr 7, 2026

Uh oh!

github-actions bot commented Apr 7, 2026

Summary

Skipped

Tests

Uh oh!

chenyushuo commented Apr 7, 2026