Skip to content

Commit 6c52eac

Browse files
author
Eurekaxun
committed
add e2e test under tests/ut/e2e
1 parent 2324bc7 commit 6c52eac

File tree

3 files changed

+1742
-1
lines changed

3 files changed

+1742
-1
lines changed

examples/openclaw-plugin/tests/e2e/test-archive-expand.py

Lines changed: 27 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -132,7 +132,33 @@
132132
在 Phase 4 前重启 Gateway 清除工作记忆,强制走归档展开路径。
133133
134134
================================================================================
135-
六、预期结果
135+
六、已知限制
136+
================================================================================
137+
138+
1. LLM 是否调用 ov_archive_expand:
139+
不同模型对工具调用的倾向性不同。如果模型直接从 archive overview 摘要
140+
中推测答案而不展开归档,关键词可能命中(摘要恰好包含)也可能不命中。
141+
使用 --gateway-restart-cmd 可强制清除工作记忆,迫使走归档展开路径。
142+
143+
2. 关键词精确匹配:
144+
数字格式差异可能导致匹配失败(如 "12000" vs "12,000" vs "1.2万")。
145+
Q4 的 "12000" 在实际测试中因 LLM 输出 "12,000" 而未命中,但整体命中率
146+
仍达 67% 超过 50% 阈值。
147+
148+
3. 测试耗时:
149+
完整测试需要 32 轮对话 + 验证 + 追问,约 10-15 分钟。如需快速验证,可
150+
使用 --phase expand 单独跑追问阶段(前提是已有归档数据)。
151+
152+
4. 对话顺序依赖:
153+
4 批对话必须按顺序执行(Phase 1 → 2a → 2b → 2c),因为后续批次的归档
154+
编号依赖前序批次。不能单独跑 chat2 而跳过 chat1。
155+
156+
5. 环境要求:
157+
Gateway 必须配置 OpenViking 插件且启用 ov_archive_expand 工具定义,
158+
否则 LLM 无法调用归档展开。
159+
160+
================================================================================
161+
七、预期结果
136162
================================================================================
137163
138164
15/15 断言全部通过:

0 commit comments

Comments
 (0)