docs(ragflow-knowledge): 澄清文件上传要求并修复API调用逻辑

Geniusay · Geniusay · commit f3f0de7f6e6e · 2026-03-16T19:03:34.000+08:00
更新SKILL.md文档，明确说明文件上传时必须保持原始格式，禁止擅自转换内容。同时修正save_knowledge.py中的API调用逻辑，优先使用正确的POST端点触发文档解析，并添加适当的错误处理和回退机制。
diff --git a/skills/ragflow-knowledge/SKILL.md b/skills/ragflow-knowledge/SKILL.md
@@ -64,8 +64,8 @@ python3 skills/ragflow-knowledge/scripts/list_datasets.py
 python3 skills/ragflow-knowledge/scripts/save_knowledge.py --content "要保存的内容" [--file_path "/文件/路径"] [--dataset_name "目标知识库名称"]
 ```
 
-- **Content**: 直接保存的文本内容。
-- **File Path**: 要上传的本地文件路径。
+- **Content**: 直接保存的文本内容（如果不使用文件上传）。
+- **File Path**: 要上传的本地文件路径。**重要要求**：当用户要求上传或保存已存在的文件时，Agent **必须原封不动**地使用此参数将源文件上传，**绝对禁止**擅自读取文件内容并将其转换为纯文本或新文件后再上传，这会导致原有格式（如 Markdown、PDF 的结构、图片、表格）丢失！
 - **Dataset Name**: （可选）保存到的数据集名称。如果不指定，脚本将尝试使用默认值或创建新库。
 
 ## 脚本详情
diff --git a/skills/ragflow-knowledge/scripts/save_knowledge.py b/skills/ragflow-knowledge/scripts/save_knowledge.py
@@ -133,20 +133,26 @@ def save_knowledge():
                         
                         # 3. Trigger Parsing (Run)
                         print("Triggering parsing...")
-                        run_payload = {"run": 1, "progress": 0} 
-                        run_response = requests.put(f"{full_url}/datasets/{dataset_id}/documents/{doc_id}", headers=headers, json=run_payload)
+                        # Correcting the trigger logic based on RAGFlow API
+                        # POST /api/v1/datasets/{dataset_id}/documents/run
+                        run_payload = {"ids": [doc_id], "run": 1}
+                        run_response = requests.post(f"{full_url}/datasets/{dataset_id}/documents/run", headers=headers, json=run_payload)
                         
                         run_status = "Unknown"
-                        if run_response.status_code == 200 and run_response.json().get("code") == 0:
-                             run_status = "Started"
+                        if run_response.status_code == 200:
+                             res_json = run_response.json()
+                             if res_json.get("code") == 0:
+                                 run_status = "Started"
+                             else:
+                                 run_status = f"Failed ({res_json.get('message')})"
                         else:
-                             # Try bulk run endpoint fallback
-                             bulk_run_payload = {"ids": [doc_id], "run": 1}
-                             bulk_response = requests.post(f"{full_url}/datasets/{dataset_id}/documents/run", headers=headers, json=bulk_run_payload)
-                             if bulk_response.status_code == 200 and bulk_response.json().get("code") == 0:
-                                 run_status = "Started (Bulk)"
+                             # Try fallback to PUT if POST fails (older API versions)
+                             fallback_payload = {"run": 1}
+                             fallback_res = requests.put(f"{full_url}/datasets/{dataset_id}/documents/{doc_id}", headers=headers, json=fallback_payload)
+                             if fallback_res.status_code == 200 and fallback_res.json().get("code") == 0:
+                                 run_status = "Started (Fallback PUT)"
                              else:
-                                 run_status = f"Failed to trigger ({run_response.status_code})"
+                                 run_status = f"Failed (POST:{run_response.status_code}, PUT:{fallback_res.status_code})"
 
                         # Return details
                         print(f"\n--- Save Complete ---")