[https://nvbugs/5550283][fix] update test case to call post quantization explicitly due to code refactor (#8188)

xxi-nv · web-flow · commit ea640a186b0f · 2025-10-09T09:41:47.000+08:00
Signed-off-by: xxi &lt;xxi@nvidia.com&gt;
diff --git a/tests/unittest/_torch/modules/test_fused_moe.py b/tests/unittest/_torch/modules/test_fused_moe.py
@@ -740,6 +740,7 @@ def per_rank_test_fused_moe_alltoall_fp8_blockwise(job_id):
             )
         alltoall_model.to("cuda")
         alltoall_model.load_weights([weights])
+        alltoall_model.post_load_weights()
 
         # Use DeepGemmFusedMoE as reference
         ref_model = DeepGemmFusedMoE(
@@ -755,6 +756,7 @@ def per_rank_test_fused_moe_alltoall_fp8_blockwise(job_id):
         )
         ref_model.to("cuda")
         ref_model.load_weights([weights])
+        ref_model.post_load_weights()
 
         # Evaluate the outputs on variant sequence lengths
         m = MAX_NUM_TOKENS

Original file line number	Diff line number	Diff line change
`@@ -740,6 +740,7 @@ def per_rank_test_fused_moe_alltoall_fp8_blockwise(job_id):`
`740`	`740`	`)`
`741`	`741`	`alltoall_model.to("cuda")`
`742`	`742`	`alltoall_model.load_weights([weights])`
	`743`	`+ alltoall_model.post_load_weights()`
`743`	`744`
`744`	`745`	`# Use DeepGemmFusedMoE as reference`
`745`	`746`	`ref_model = DeepGemmFusedMoE(`
`@@ -755,6 +756,7 @@ def per_rank_test_fused_moe_alltoall_fp8_blockwise(job_id):`
`755`	`756`	`)`
`756`	`757`	`ref_model.to("cuda")`
`757`	`758`	`ref_model.load_weights([weights])`
	`759`	`+ ref_model.post_load_weights()`
`758`	`760`
`759`	`761`	`# Evaluate the outputs on variant sequence lengths`
`760`	`762`	`m = MAX_NUM_TOKENS`