Einfach mit OpenClaw chatten: "Research X" → erledigt.
🇺🇸 English · 🇨🇳 中文 · 🇯🇵 日本語 · 🇰🇷 한국어 · 🇫🇷 Français · 🇩🇪 Deutsch · 🇪🇸 Español · 🇧🇷 Português · 🇷🇺 Русский · 🇸🇦 العربية
🏆 Paper-Showcase · 🧑
🧪 Wir suchen Tester! Teste die Pipeline mit deiner eigenen Forschungsidee — aus jedem Fachgebiet — und sag uns, was du denkst. Dein Feedback beeinflusst direkt die naechste Version. → Testing Guide | → 中文测试指南 | → 日本語テストガイド
- [04/08/2026] Ethik- und Richtlinien zur verantwortungsvollen Nutzung! — Umfassende Ethikrichtlinien zu akademischer Integrität, Transparenz, Zitatverifizierung, Missbrauchsprävention und Dual-Use hinzugefügt. KI-generierte Arbeiten sind Entwürfe — menschliche Überprüfung ist unerlässlich.
- [04/01/2026] v0.4.0 — Human-in-the-Loop Co-Pilot-System — AutoResearchClaw ist nicht mehr rein autonom. Das neue HITL-System fuegt 6 Interventionsmodi hinzu (
full-auto,gate-only,checkpoint,step-by-step,co-pilot,custom), stufenspezifische Richtlinien und tiefe Mensch-KI-Kollaboration. Enthalten: Ideen-Workshop zur gemeinsamen Hypothesenerstellung, Baseline-Navigator zur Ueberpruefung des Experimentdesigns, Paper-Co-Writer fuer kollaboratives Verfassen, SmartPause (konfidenzgesteuerte dynamische Intervention), ALHF-Interventionslernen, Anti-Halluzinations-Behauptungsverifikation, Kostenbudget-Leitplanken, Pipeline-Verzweigung fuer parallele Hypothesenerkundung und CLI-Befehle (attach/status/approve/reject/guide). → Vollstaendige HITL-Anleitung - [03/30/2026] Flexibles Skill-Laden — AutoResearchClaw unterstuetzt jetzt das Laden von Open-Source- und benutzerdefinierten Skills aus jeder Disziplin, um Ihr Forschungserlebnis weiter zu verbessern. 19 vorinstallierte Skills sind als sofort einsetzbare Referenzen enthalten, die wissenschaftliches Schreiben, Experimentdesign, Chemie, Biologie und mehr abdecken — einschliesslich eines A-Evolve Agentic-Evolution-Skills, der von der Community beigesteuert wurde. Laden Sie eigene ueber
researchclaw skills installoder legen Sie eineSKILL.mdin.claude/skills/ab. Siehe Skills-Bibliothek. - [03/22/2026] v0.3.2 — Plattformuebergreifende Unterstuetzung + grosse Stabilitaet — AutoResearchClaw laeuft jetzt mit jedem ACP-kompatiblen Agenten-Backend (Claude Code, Codex CLI, Copilot CLI, Gemini CLI, Kimi CLI) und unterstuetzt Messaging-Plattformen (Discord, Telegram, Lark, WeChat) ueber die OpenClaw-Bruecke. Neues CLI-Agent-Code-Generierungs-Backend delegiert Stages 10 und 13 an externe CLI-Agenten mit Budgetkontrolle und Timeout-Management. Enthaelt Anti-Fabrication-System (VerifiedRegistry + Experiment-Diagnose- und Reparaturschleife), 100+ Bugfixes, modulares Executor-Refactoring,
--resumeAuto-Erkennung, LLM-Retry-Haertung und Community-Fixes.
Frühere Versionen
- [03/18/2026] v0.3.1 — OpenCode Beast Mode + Community Contributions — New "Beast Mode" routes complex code generation to OpenCode with automatic complexity scoring and graceful fallback. Added Novita AI provider support, thread-safety hardening, improved LLM output parsing robustness, and 20+ bug fixes from community PRs and internal audit.
- [03/17/2026] v0.3.0 — MetaClaw Integration — AutoResearchClaw now supports MetaClaw cross-run learning: pipeline failures → structured lessons → reusable skills, injected into all 23 stages. +18.3% robustness in controlled experiments. Opt-in (
metaclaw_bridge.enabled: true), fully backward-compatible. See Integration Guide. - [03/16/2026] v0.2.0 — Three multi-agent subsystems (CodeAgent, BenchmarkAgent, FigureAgent), hardened Docker sandbox with network-policy-aware execution, 4-round paper quality audit (AI-slop detection, 7-dim review scoring, NeurIPS checklist), and 15+ bug fixes from production runs.
- [03/15/2026] v0.1.0 — We release AutoResearchClaw: a fully autonomous 23-stage research pipeline that turns a single research idea into a conference-ready paper. No human intervention required.
# Vollstaendig autonom — kein menschliches Eingreifen
pip install -e . && researchclaw setup && researchclaw init && researchclaw run --topic "Your research idea here" --auto-approve
# Co-Pilot-Modus — an wichtigen Entscheidungspunkten mit KI zusammenarbeiten
researchclaw run --topic "Your research idea here" --mode co-pilotDu denkst es. AutoResearchClaw schreibt es. Du triffst die wichtigen Entscheidungen.
Gib ein Forschungsthema ein — erhalte ein vollstaendiges wissenschaftliches Paper mit echter Literatur von OpenAlex, Semantic Scholar und arXiv, hardwarebewussten Sandbox-Experimenten (automatische GPU/MPS/CPU-Erkennung), statistischer Analyse, Multi-Agenten-Peer-Review und konferenzfertigem LaTeX fuer NeurIPS/ICML/ICLR. Fuehre es vollstaendig autonom aus, oder verwende den Co-Pilot-Modus, um die KI an kritischen Entscheidungspunkten zu lenken — waehle Forschungsrichtungen, pruefe Experimentdesigns und verfasse das Paper gemeinsam. Keine halluzinierten Referenzen.
| 📄 | paper_draft.md | Vollstaendiges wissenschaftliches Paper (Einleitung, Verwandte Arbeiten, Methode, Experimente, Ergebnisse, Fazit) |
| 📐 | paper.tex | Konferenzfertiges LaTeX (NeurIPS / ICLR / ICML Templates) |
| 📚 | references.bib | Echte BibTeX-Referenzen von OpenAlex, Semantic Scholar und arXiv — automatisch bereinigt, um Inline-Zitationen zu entsprechen |
| 🔍 | verification_report.json | 4-Schicht-Zitationsintegritaets- und Relevanzpruefung (arXiv, CrossRef, DataCite, LLM) |
| 🧪 | experiment runs/ | Generierter Code + Sandbox-Ergebnisse + strukturierte JSON-Metriken |
| 📊 | charts/ | Automatisch generierte Vergleichsdiagramme mit Fehlerbalken und Konfidenzintervallen |
| 📝 | reviews.md | Multi-Agenten-Peer-Review mit Methodik-Evidenz-Konsistenzpruefungen |
| 🧬 | evolution/ | Selbstlernende Erkenntnisse aus jedem Durchlauf |
| 📦 | deliverables/ | Alle finalen Ergebnisse in einem Ordner — kompilierbereit fuer Overleaf |
Die Pipeline laeuft End-to-End — vollstaendig autonom oder mit Human-in-the-Loop-Kollaboration. Wenn Experimente fehlschlagen, repariert sie sich selbst. Wenn Hypothesen nicht bestaetigt werden, schwenkt sie um. Wenn Zitationen gefaelscht sind, entfernt sie diese. Wenn du steuern moechtest, pausiert sie und hoert zu.
🌍 Ueberall ausfuehrbar. AutoResearchClaw ist nicht an eine einzelne Plattform gebunden. Nutzen Sie es eigenstaendig ueber die CLI, verbinden Sie es mit OpenClaw, oder integrieren Sie es mit jedem ACP-kompatiblen AI-Agenten — 🤖 Claude Code, 💻 Codex CLI, 🐙 Copilot CLI, ♊ Gemini CLI, 🌙 Kimi CLI und mehr. Dank der Messaging-Bruecke von OpenClaw koennen Sie eine komplette Forschung von 💬 Discord,
# 1. Klonen & installieren
git clone https://github.com/aiming-lab/AutoResearchClaw.git
cd AutoResearchClaw
python3 -m venv .venv && source .venv/bin/activate
pip install -e .
# 2. Setup (interaktiv — installiert OpenCode Beast Mode, prueft Docker/LaTeX)
researchclaw setup
# 3. Konfigurieren
researchclaw init # Interaktiv: LLM-Anbieter waehlen, erstellt config.arc.yaml
# Oder manuell: cp config.researchclaw.example.yaml config.arc.yaml
# 4. Ausfuehren
export OPENAI_API_KEY="sk-..."
researchclaw run --config config.arc.yaml --topic "Your research idea" --auto-approveAusgabe → artifacts/rc-YYYYMMDD-HHMMSS-<hash>/deliverables/ — kompilierfertiges LaTeX, BibTeX, Experimentcode, Diagramme.
📝 Minimale erforderliche Konfiguration
project:
name: "my-research"
research:
topic: "Your research topic here"
llm:
base_url: "https://api.openai.com/v1"
api_key_env: "OPENAI_API_KEY"
primary_model: "gpt-4o"
fallback_models: ["gpt-4o-mini"]
experiment:
mode: "sandbox"
sandbox:
python_path: ".venv/bin/python"| Faehigkeit | Funktionsweise |
|---|---|
| 🧑 |
6 Interventionsmodi — von vollstaendig autonom bis Schritt-fuer-Schritt. Lenke die KI bei kritischen Entscheidungen (Hypothesen, Baselines, Paper-Erstellung) oder lass sie frei laufen. SmartPause erkennt automatisch, wann menschlicher Input hilfreich waere. |
| 🔄 PIVOT / REFINE Schleife | Stufe 15 entscheidet autonom: PROCEED, REFINE (Parameter anpassen) oder PIVOT (neue Richtung). Artefakte automatisch versioniert. |
| 🤖 Multi-Agenten-Debatte | Hypothesengenerierung, Ergebnisanalyse und Peer-Review verwenden jeweils strukturierte Multi-Perspektiven-Debatten. |
| 🧬 Selbstlernen | Erkenntnisse pro Durchlauf extrahiert (Entscheidungsbegruendungen, Laufzeitwarnungen, Metrikanaomalien) mit 30-Tage-Zeitabklingung. Zukuenftige Durchlaeufe lernen aus vergangenen Fehlern. |
| 📚 Wissensdatenbank | Jeder Durchlauf baut eine strukturierte KB ueber 6 Kategorien auf (Entscheidungen, Experimente, Ergebnisse, Literatur, Fragen, Reviews). |
| 🛡️ Sentinel Watchdog | Hintergrund-Qualitaetsmonitor: NaN/Inf-Erkennung, Paper-Evidenz-Konsistenz, Zitationsrelevanz-Bewertung, Anti-Fabrikationsschutz. |
| 🔍 Behauptungsverifikation | Inline-Faktencheck: extrahiert Behauptungen aus KI-generiertem Text und gleicht sie mit gesammelter Literatur ab. Markiert unbegruendete Zitationen und fabrizierte Zahlen. |
| 🌿 Verzweigungserkundung | Forke die Pipeline, um mehrere Forschungsrichtungen gleichzeitig zu erkunden, Ergebnisse nebeneinander zu vergleichen und den besten Pfad zusammenzufuehren. |
AutoResearchClaw ist ein OpenClaw-kompatibler Dienst. Installiere es in OpenClaw und starte autonome Forschung mit einer einzigen Nachricht — oder verwende es eigenstaendig ueber CLI, Claude Code oder jeden anderen KI-Coding-Assistenten.
Wenn du bereits OpenClaw als KI-Assistenten nutzt:
1️⃣ Teile die GitHub-Repo-URL mit OpenClaw
2️⃣ OpenClaw liest automatisch RESEARCHCLAW_AGENTS.md → versteht die Pipeline
3️⃣ Sage: "Research [dein Thema]"
4️⃣ Fertig — OpenClaw klont, installiert, konfiguriert, fuehrt aus und liefert Ergebnisse
Das war's. OpenClaw uebernimmt git clone, pip install, Konfiguration und Pipeline-Ausfuehrung automatisch. Du chattest einfach.
💡 Was unter der Haube passiert
- OpenClaw liest
RESEARCHCLAW_AGENTS.md→ lernt die Forschungs-Orchestrator-Rolle - OpenClaw liest
README.md→ versteht Installation und Pipeline-Struktur - OpenClaw kopiert
config.researchclaw.example.yaml→config.yaml - Fragt nach deinem LLM-API-Schluessel (oder verwendet deine Umgebungsvariable)
- Fuehrt
pip install -e .+researchclaw run --topic "..." --auto-approveaus - Liefert Paper, LaTeX, Experimente und Zitationen zurueck
Fuer tiefere Integration enthaelt AutoResearchClaw ein Bridge-Adapter-System mit 6 optionalen Faehigkeiten:
# config.arc.yaml
openclaw_bridge:
use_cron: true # ⏰ Geplante Forschungsdurchlaeufe
use_message: true # 💬 Fortschrittsbenachrichtigungen (Discord/Slack/Telegram)
use_memory: true # 🧠 Sitzungsuebergreifende Wissenspersistenz
use_sessions_spawn: true # 🔀 Parallele Sub-Sessions fuer gleichzeitige Stufen
use_web_fetch: true # 🌐 Live-Websuche waehrend der Literaturrecherche
use_browser: false # 🖥️ Browserbasierte Paper-SammlungJedes Flag aktiviert ein typisiertes Adapter-Protokoll. Wenn OpenClaw diese Faehigkeiten bereitstellt, nutzen die Adapter sie ohne Codeaenderungen. Siehe integration-guide.md fuer vollstaendige Details.
AutoResearchClaw kann jeden ACP-kompatiblen Coding-Agenten als LLM-Backend verwenden — keine API-Schluessel erforderlich. Der Agent kommuniziert ueber acpx und haelt eine einzige persistente Sitzung ueber alle 23 Pipeline-Stufen aufrecht.
| Agent | Befehl | Hinweise |
|---|---|---|
| Claude Code | claude |
Anthropic |
| Codex CLI | codex |
OpenAI |
| Copilot CLI | gh |
GitHub |
| Gemini CLI | gemini |
|
| OpenCode | opencode |
SST |
| Kimi CLI | kimi |
Moonshot |
# config.yaml — ACP-Beispiel
llm:
provider: "acp"
acp:
agent: "claude" # Jeder ACP-kompatible Agent-CLI-Befehl
cwd: "." # Arbeitsverzeichnis fuer den Agenten
# Kein base_url oder api_key noetig — der Agent verwaltet seine eigene Authentifizierung.# Einfach ausfuehren — der Agent verwendet seine eigenen Anmeldedaten
researchclaw run --config config.yaml --topic "Your research idea" --auto-approve| Methode | Anleitung |
|---|---|
| Standalone CLI | researchclaw run --topic "..." --auto-approve (autonom) oder --mode co-pilot (kollaborativ) |
| Python API | from researchclaw.pipeline import Runner; Runner(config).run() |
| Claude Code | Liest RESEARCHCLAW_CLAUDE.md — sage einfach "Run research on [Thema]" |
| Copilot CLI | researchclaw run --topic "..." mit llm.acp.agent: "gh" |
| OpenCode | Liest .claude/skills/ — gleiche natuerliche Sprachschnittstelle |
| Jeder KI-CLI | Uebergib RESEARCHCLAW_AGENTS.md als Kontext → Agent bootstrappt automatisch |
Phase A: Forschungsplanung Phase E: Experimentausfuehrung
1. TOPIC_INIT 12. EXPERIMENT_RUN
2. PROBLEM_DECOMPOSE 13. ITERATIVE_REFINE ← Selbstheilung
Phase B: Literaturrecherche Phase F: Analyse & Entscheidung
3. SEARCH_STRATEGY 14. RESULT_ANALYSIS ← Multi-Agent
4. LITERATURE_COLLECT ← echte API 15. RESEARCH_DECISION ← PIVOT/REFINE
5. LITERATURE_SCREEN [Gate]
6. KNOWLEDGE_EXTRACT Phase G: Papiererstellung
16. PAPER_OUTLINE
Phase C: Wissenssynthese 17. PAPER_DRAFT
7. SYNTHESIS 18. PEER_REVIEW ← Evidenzpruefung
8. HYPOTHESIS_GEN ← Debatte 19. PAPER_REVISION
Phase D: Experimentdesign Phase H: Finalisierung
9. EXPERIMENT_DESIGN [Gate] 20. QUALITY_GATE [Gate]
10. CODE_GENERATION 21. KNOWLEDGE_ARCHIVE
11. RESOURCE_PLANNING 22. EXPORT_PUBLISH ← LaTeX
23. CITATION_VERIFY ← Relevanzpruefung
Gate-Stufen (5, 9, 20) pausieren fuer menschliche Genehmigung oder werden mit
--auto-approveautomatisch genehmigt. Bei Ablehnung wird die Pipeline zurueckgesetzt.
Co-Pilot-Modus (
--mode co-pilot): Tiefe Mensch-KI-Kollaboration in den Stufen 7-8 (Ideen-Workshop), Stufe 9 (Baseline-Navigator) und Stufen 16-17 (Paper-Co-Writer). Andere Stufen laufen automatisch mit SmartPause-Ueberwachung.
Entscheidungsschleifen: Stufe 15 kann REFINE (→ Stufe 13) oder PIVOT (→ Stufe 8) ausloesen, mit automatischer Artefakt-Versionierung.
📋 Was jede Phase bewirkt
| Phase | Beschreibung |
|---|---|
| A: Planung | LLM zerlegt das Thema in einen strukturierten Problembaum mit Forschungsfragen |
| A+: Hardware | Automatische GPU-Erkennung (NVIDIA CUDA / Apple MPS / nur CPU), Warnung bei eingeschraenkter Hardware, Codegenerierung wird entsprechend angepasst |
| B: Literatur | Multi-Source-Suche (OpenAlex → Semantic Scholar → arXiv) nach echten Papern, Relevanzscreening, Extraktion von Wissenskarten |
| C: Synthese | Clustering der Ergebnisse, Identifizierung von Forschungsluecken, Generierung testbarer Hypothesen via Multi-Agenten-Debatte |
| D: Design | Experimentplan entwerfen, hardwarebewussten ausfuehrbaren Python-Code generieren (GPU-Stufe → Paketauswahl), Ressourcenbedarf schaetzen |
| E: Ausfuehrung | Experimente in Sandbox ausfuehren, NaN/Inf und Laufzeitfehler erkennen, Code via gezielter LLM-Reparatur selbst heilen |
| F: Analyse | Multi-Agenten-Analyse der Ergebnisse; autonome PROCEED / REFINE / PIVOT Entscheidung mit Begruendung |
| G: Schreiben | Gliederung → abschnittsweises Verfassen (5.000-6.500 Woerter) → Peer-Review (mit Methodik-Evidenz-Konsistenz) → Revision mit Laengenpruefung |
| H: Finalisierung | Qualitaets-Gate, Wissensarchivierung, LaTeX-Export mit Konferenztemplate, Zitationsintegritaets- und Relevanzpruefung |
| Funktion | Beschreibung |
|---|---|
| 📚 Multi-Source-Literatur | Echte Paper von OpenAlex, Semantic Scholar und arXiv — Abfrageerweiterung, Deduplizierung, Circuit Breaker mit Graceful Degradation |
| 🔍 4-Schicht-Zitationsverifikation | arXiv-ID-Pruefung → CrossRef/DataCite-DOI → Semantic-Scholar-Titelabgleich → LLM-Relevanzbewertung. Halluzinierte Refs automatisch entfernt. |
| 🖥️ Hardwarebewusste Ausfuehrung | Automatische GPU-Erkennung (NVIDIA CUDA / Apple MPS / nur CPU) und Anpassung von Codegenerierung, Imports und Experimentumfang |
| 🦾 OpenCode Beast Mode | Komplexe Experimente werden automatisch an OpenCode weitergeleitet — generiert Multi-File-Projekte mit individuellen Architekturen, Trainingsschleifen und Ablationsstudien. Installation ueber researchclaw setup. |
| 🧪 Sandbox-Experimente | AST-validierter Code, unveraenderlicher Harness, NaN/Inf-Schnellabbruch, selbstheilende Reparatur, iterative Verfeinerung (bis zu 10 Runden), Teilergebnis-Erfassung |
| 📝 Konferenzqualitaet | NeurIPS/ICML/ICLR-Templates, abschnittsweises Verfassen (5.000-6.500 Woerter), Anti-Fabrikationsschutz, Revisions-Laengenschutz, Anti-Disclaimer-Durchsetzung |
| 📐 Template-Umschaltung | neurips_2025, iclr_2026, icml_2026 — Markdown → LaTeX mit Mathematik, Tabellen, Abbildungen, Querverweisen, \cite{} |
| 🛡️ Anti-Fabrikation | VerifiedRegistry erzwingt Ground-Truth-Experimentdaten in Papern. Automatische Diagnose und Reparatur fehlgeschlagener Experimente vor dem Schreiben. Ungepruefte Zahlen bereinigt. |
| 🚦 Qualitaets-Gates | 3 Human-in-the-Loop-Gates (Stufen 5, 9, 20) mit Rollback. Ueberspringen mit --auto-approve. |
| 🧑 |
6 Interventionsmodi mit stufenspezifischen Richtlinien. Ideen-Workshop, Baseline-Navigator, Paper-Co-Writer fuer tiefe Kollaboration. SmartPause, Kostenbudget-Leitplanken, Eskalationsrichtlinien und Interventionslernen fuer Produktionssicherheit. CLI/WebSocket/MCP-Adapter. |
| 💰 Kostenbudget-Leitplanken | Budgetueberwachung mit konfigurierbaren Schwellenwert-Alarmen (50%/80%/100%). Pipeline pausiert automatisch, wenn die Kosten das Budget ueberschreiten. |
| 🔐 Reproduzierbarkeit | SHA256-Pruefsummen fuer alle Stufenartefakte. Unveraenderliche Manifeste zur Verifikation. Mehrstufiges Undo mit versionierten Snapshots. |
AutoResearchClaw v0.4.0 fuehrt ein vollstaendiges Human-in-the-Loop (HITL)-System ein, das die Pipeline von rein autonom zu einer kollaborativen Mensch-KI-Forschungsmaschine transformiert. Waehle dein Beteiligungsniveau:
| Modus | Befehl | Beschreibung |
|---|---|---|
| Full Auto | --auto-approve |
Urspruengliches Verhalten — kein menschliches Eingreifen |
| Gate Only | --mode gate-only |
Pause an 3 Gate-Stufen (5, 9, 20) zur Genehmigung |
| Checkpoint | --mode checkpoint |
Pause an jeder Phasengrenze (8 Checkpoints) |
| Co-Pilot | --mode co-pilot |
Tiefe Kollaboration an kritischen Stufen, sonst automatisch |
| Step-by-Step | --mode step-by-step |
Pause nach jeder Stufe — lerne die Pipeline kennen |
| Express | --mode express |
Schnellpruefung — nur die 3 kritischsten Gates |
Du: researchclaw run --topic "Quantenrauschen als neuronales Netzwerk-Regularisierung" --mode co-pilot
Pipeline fuehrt Stufen 1-7 automatisch aus...
┌─────────────────────────────────────────────────────────────┐
│ HITL | Stufe 08: HYPOTHESIS_GEN │
│ Post-Stage-Pruefung │
│ │
│ Erwaehnte Hypothesen: 3 │
│ Neuheitswert: 0.72 (moderat) │
│ │
│ [a] Genehmigen [r] Ablehnen [e] Bearbeiten [c] Kollaborieren │
│ [i] Anleitung einfuegen [v] Ausgabe anzeigen [q] Abbrechen │
└─────────────────────────────────────────────────────────────┘
Du: c (kollaborativen Chat starten)
Du: Hypothese 3 ist interessant, braucht aber Dropout/Label Smoothing als Baselines
KI: Aktualisiert — Dropout, Label Smoothing, MixUp, CutMix als Baselines hinzugefuegt...
Du: genehmigen
Pipeline setzt mit deiner verfeinerten Hypothese fort...
# Mit HITL-Modus starten
researchclaw run --topic "..." --mode co-pilot
# An eine pausierte Pipeline anhaengen (von einem anderen Terminal)
researchclaw attach artifacts/rc-2026-xxx
# Pipeline- und HITL-Status pruefen
researchclaw status artifacts/rc-2026-xxx
# Von einem anderen Terminal oder Skript genehmigen/ablehnen
researchclaw approve artifacts/rc-2026-xxx --message "Sieht gut aus"
researchclaw reject artifacts/rc-2026-xxx --reason "Wichtige Baseline fehlt"
# Anleitung fuer eine Stufe einfuegen (auch bevor sie laeuft)
researchclaw guide artifacts/rc-2026-xxx --stage 9 --message "ResNet-50 als primaere Baseline verwenden"| Funktion | Beschreibung |
|---|---|
| Ideen-Workshop | Hypothesen gemeinsam brainstormen, bewerten und verfeinern (Stufe 7-8) |
| Baseline-Navigator | KI schlaegt Baselines vor + Mensch fuegt hinzu/entfernt + Reproduzierbarkeitscheckliste (Stufe 9) |
| Paper-Co-Writer | Abschnittsweises Verfassen mit menschlicher Bearbeitung und KI-Feinschliff (Stufe 16-19) |
| SmartPause | Konfidenzgesteuerte dynamische Pausierung — erkennt automatisch, wann menschlicher Input hilfreich waere |
| Behauptungsverifikation | Inline-Faktencheck gegen gesammelte Literatur — markiert unbegruendete Behauptungen |
| Kostenbudget-Leitplanken | Budgetueberwachung mit 50%/80%/100% Schwellenwert-Alarmen |
| Interventionslernen | ALHF — lernt aus deinen Review-Mustern, um zukuenftige Pausen-Entscheidungen zu optimieren |
| Verzweigungserkundung | Forke die Pipeline, um mehrere Hypothesen zu erkunden, vergleiche und fuehre die beste zusammen |
| Eskalationsrichtlinie | Gestufte Benachrichtigung (Terminal → Slack → E-Mail → Auto-Halt) bei Unbeaufsichtigung |
| 3 Adapter | CLI (Terminal), WebSocket (Web-Dashboard), MCP (externe Agenten) |
# config.arc.yaml
hitl:
enabled: true
mode: co-pilot # full-auto | gate-only | checkpoint | co-pilot | custom
cost_budget_usd: 50.0 # Pausieren wenn Kosten das Budget ueberschreiten (0 = kein Limit)
notifications:
on_pause: true
on_quality_drop: true
channels: ["terminal"] # terminal | slack | webhook
timeouts:
default_human_timeout_sec: 86400 # 24h Standard-Wartezeit
auto_proceed_on_timeout: false
collaboration:
max_chat_turns: 50
save_chat_history: true
# Stufenspezifische benutzerdefinierte Richtlinien (optional, fuer 'custom'-Modus)
stage_policies:
8: { require_approval: true, enable_collaboration: true }
9: { require_approval: true, allow_edit_output: true }- Standard: AUS. Ohne
hitl.enabled: trueoder--modeverhaelt sich die Pipeline exakt wie zuvor. --auto-approvefunktioniert weiterhin. Es ueberschreibt den HITL-Modus.- Alle 2.699 bestehenden Tests bestehen mit vorhandenem HITL-Code.
AutoResearchClaw + MetaClaw = Eine Pipeline, die aus jedem Durchlauf lernt.
MetaClaw fuegt durchlaufuebergreifenden Wissenstransfer zu AutoResearchClaw hinzu. Wenn aktiviert, erfasst die Pipeline automatisch Erkenntnisse aus Fehlern und Warnungen, konvertiert sie in wiederverwendbare Skills und injiziert diese Skills in alle 23 Pipeline-Stufen bei nachfolgenden Durchlaeufen — damit dieselben Fehler nie wiederholt werden.
Durchlauf N wird ausgefuehrt → Fehler/Warnungen als Lektionen erfasst
↓
MetaClaw Lektion → Skill-Konvertierung
↓
arc-* Skill-Dateien in ~/.metaclaw/skills/ gespeichert
↓
Durchlauf N+1 → build_overlay() injiziert Skills in jeden LLM-Prompt
↓
LLM vermeidet bekannte Fallstricke → hoehere Qualitaet, weniger Wiederholungen
# 1. MetaClaw installieren (falls nicht vorhanden)
pip install metaclaw
# 2. In der Konfiguration aktivieren# config.arc.yaml
metaclaw_bridge:
enabled: true
proxy_url: "http://localhost:30000" # MetaClaw-Proxy (optional)
skills_dir: "~/.metaclaw/skills" # Wo Skills gespeichert werden
fallback_url: "https://api.openai.com/v1" # Direkter LLM-Fallback
fallback_api_key: "" # API-Schluessel fuer Fallback-URL
lesson_to_skill:
enabled: true
min_severity: "warning" # Warnungen + Fehler konvertieren
max_skills_per_run: 3# 3. Wie gewohnt ausfuehren — MetaClaw arbeitet transparent
researchclaw run --config config.arc.yaml --topic "Your idea" --auto-approveNach jedem Durchlauf kannst du ~/.metaclaw/skills/arc-*/SKILL.md pruefen, um die erlernten Skills deiner Pipeline zu sehen.
In kontrollierten A/B-Experimenten (gleiches Thema, gleiches LLM, gleiche Konfiguration):
| Metrik | Baseline | Mit MetaClaw | Verbesserung |
|---|---|---|---|
| Stufen-Wiederholungsrate | 10.5% | 7.9% | -24.8% |
| Anzahl REFINE-Zyklen | 2.0 | 1.2 | -40.0% |
| Pipeline-Stufenabschluss | 18/19 | 19/19 | +5.3% |
| Gesamtrobustheitswert (Komposit) | 0.714 | 0.845 | +18.3% |
Der Komposit-Robustheitswert ist ein gewichteter Durchschnitt aus Stufenabschlussrate (40%), Wiederholungsreduktion (30%) und REFINE-Zykluseffizienz (30%).
- Standard: AUS. Wenn
metaclaw_bridgefehlt oderenabled: false, verhaelt sich die Pipeline exakt wie zuvor. - Keine neuen Abhaengigkeiten. MetaClaw ist optional — die Kern-Pipeline funktioniert ohne.
- Alle 2.699 bestehenden Tests bestehen mit dem Integrationscode.
AutoResearchClaw unterstuetzt jetzt das Laden von Open-Source- und benutzerdefinierten Skills, um Ihr Forschungserlebnis weiter zu verbessern. Wir liefern ausserdem 19 vorinstallierte integrierte Skills (wissenschaftliches Schreiben, Literatursuche, Chemie, Biologie und mehr) als sofort einsetzbare Referenzen mit, die von Anfang an ein hohes Mass an Flexibilitaet bieten. Deaktivieren Sie einen Skill, indem Sie enabled: false in seinen Frontmatter einfuegen.
Beispiele fuer integrierte Skills:
| Kategorie | Skill | Beschreibung |
|---|---|---|
| Schreiben | scientific-writing |
IMRAD-Struktur, Zitationsformatierung, Berichtsrichtlinien |
| Domaene | chemistry-rdkit |
Molekuelanalyse, SMILES, Fingerprints, Wirkstoffforschung |
| Experiment | literature-search |
Systematische Uebersicht, PRISMA-Methodik |
Alle 19 Skills anzeigen mit
researchclaw skills list.
# Option 1: Skill installieren (projektuebergreifend persistent)
researchclaw skills install /path/to/my-skill/
# Option 2: SKILL.md ins Projekt legen
mkdir -p .claude/skills/my-custom-skill
# Dann eine SKILL.md mit YAML-Frontmatter erstellen (name, description, trigger-keywords, applicable-stages)
# Option 3: Gemeinsame Skill-Verzeichnisse in config.arc.yaml konfigurieren
# skills:
# custom_dirs:
# - /path/to/team-shared-skillsSkills werden automatisch geladen und in LLM-Prompts injiziert — keine manuelle Aktivierung noetig. Verwenden Sie die CLI zur Inspektion:
researchclaw skills list # Alle geladenen Skills mit Quellen anzeigen
researchclaw skills validate ./my-skill # SKILL.md-Format pruefenCommunity-Skills durchsuchen: K-Dense-AI/claude-scientific-skills (150+ wissenschaftliche Skills aus mehreren Disziplinen).
Klicken zum Aufklappen der vollstaendigen Konfigurationsreferenz
# === Projekt ===
project:
name: "my-research" # Projektbezeichner
mode: "docs-first" # docs-first | semi-auto | full-auto
# === Forschung ===
research:
topic: "..." # Forschungsthema (erforderlich)
domains: ["ml", "nlp"] # Forschungsdomaenen fuer Literatursuche
daily_paper_count: 8 # Ziel-Paperzahl pro Suchabfrage
quality_threshold: 4.0 # Mindestqualitaetswert fuer Paper
# === Laufzeit ===
runtime:
timezone: "America/New_York" # Fuer Zeitstempel
max_parallel_tasks: 3 # Limit gleichzeitiger Experimente
approval_timeout_hours: 12 # Gate-Stufen-Timeout
retry_limit: 2 # Wiederholungsanzahl bei Stufenfehler
# === LLM ===
llm:
provider: "openai-compatible" # openai | openrouter | deepseek | minimax | acp | openai-compatible
base_url: "https://..." # API-Endpunkt (erforderlich fuer openai-compatible)
api_key_env: "OPENAI_API_KEY" # Umgebungsvariable fuer API-Schluessel (erforderlich fuer openai-compatible)
api_key: "" # Oder Schluessel direkt eintragen
primary_model: "gpt-4o" # Primaeres Modell
fallback_models: ["gpt-4o-mini"] # Fallback-Kette
s2_api_key: "" # Semantic Scholar API-Schluessel (optional, hoehere Rate-Limits)
acp: # Nur verwendet wenn provider: "acp"
agent: "claude" # ACP-Agent-CLI-Befehl (claude, codex, gemini, etc.)
cwd: "." # Arbeitsverzeichnis fuer den Agenten
# === Experiment ===
experiment:
mode: "sandbox" # simulated | sandbox | docker | ssh_remote
time_budget_sec: 300 # Max. Ausfuehrungszeit pro Durchlauf (Standard: 300s)
max_iterations: 10 # Max. Optimierungsiterationen
metric_key: "val_loss" # Primaerer Metrikname
metric_direction: "minimize" # minimize | maximize
sandbox:
python_path: ".venv/bin/python"
gpu_required: false
allowed_imports: [math, random, json, csv, numpy, torch, sklearn]
max_memory_mb: 4096
docker:
image: "researchclaw/experiment:latest"
network_policy: "setup_only" # none | setup_only | pip_only | full
gpu_enabled: true
memory_limit_mb: 8192
auto_install_deps: true # Automatische Import-Erkennung → requirements.txt
ssh_remote:
host: "" # GPU-Server-Hostname
gpu_ids: [] # Verfuegbare GPU-IDs
remote_workdir: "/tmp/researchclaw_experiments"
opencode: # OpenCode Beast Mode (auto-installiert ueber `researchclaw setup`)
enabled: true # Hauptschalter (Standard: true)
auto: true # Auto-Ausloesung ohne Bestaetigung (Standard: true)
complexity_threshold: 0.2 # 0.0-1.0 — hoeher = nur bei komplexen Experimenten ausloesen
model: "" # Modell ueberschreiben (leer = llm.primary_model verwenden)
timeout_sec: 600 # Max. Sekunden fuer OpenCode-Generierung
max_retries: 1 # Wiederholungsanzahl bei Fehler
workspace_cleanup: true # Temporaeren Workspace nach Sammlung entfernen
code_agent: # CodeAgent v2 — Mehrphasen-Codegenerierung
enabled: true # CodeAgent statt Legacy-Einzelprompt-Codegen verwenden
architecture_planning: true # Tiefe Implementierungsblaupause vor dem Codieren generieren
sequential_generation: true # Dateien einzeln nach Abhaengigkeits-DAG generieren
hard_validation: true # AST-basierte Validierungs-Gates (blockiert identische Ablationen, hardcodierte Metriken)
hard_validation_max_repairs: 2 # Max. Reparaturversuche bei fehlgeschlagener Validierung
exec_fix_max_iterations: 3 # Ausfuehrungs-Reparaturversuche
exec_fix_timeout_sec: 60 # Timeout pro Reparaturversuch
benchmark_agent: # BenchmarkAgent — automatisierte Datensatz- & Baseline-Auswahl
enabled: true # 4-Agenten-Benchmark-Pipeline aktivieren (Surveyor→Selector→Acquirer→Validator)
enable_hf_search: true # HuggingFace Datasets durchsuchen
enable_web_search: true # Google Scholar nach Benchmarks durchsuchen
tier_limit: 2 # Datensatz-Stufen-Filter (1=klein/gecacht, 2=mittel, 3=gross)
min_benchmarks: 1 # Mindestanzahl Datensaetze
min_baselines: 2 # Mindestanzahl Baseline-Methoden
figure_agent: # FigureAgent — akademische Abbildungserstellung
enabled: true # 5-Agenten-Abbildungs-Pipeline aktivieren (Planner→CodeGen→Renderer→Critic→Integrator)
min_figures: 3 # Mindestanzahl Abbildungen
max_figures: 8 # Maximalanzahl Abbildungen
max_iterations: 3 # Kritik-gesteuerte Verfeinerungsiterationen
dpi: 300 # Ausgabeaufloesung
strict_mode: false # Pipeline bei fehlgeschlagener Abbildungserstellung abbrechen
repair: # Anti-Fabrikations-Experiment-Reparatur
enabled: true # Fehlgeschlagene Experimente automatisch diagnostizieren und reparieren
max_cycles: 3 # Reparatur-Wiederholungsschleifen
min_completion_rate: 0.5 # >=50% Bedingungen muessen abgeschlossen sein
min_conditions: 2 # Mindestens 2 Bedingungen fuer gueltiges Experiment
use_opencode: true # Reparaturen ueber OpenCode Beast Mode leiten
# === Websuche (Optional) ===
web_search:
enabled: true # Web-erweiterte Literatursuche aktivieren
tavily_api_key_env: "TAVILY_API_KEY" # Tavily API-Schluessel Umgebungsvariable (optional)
enable_scholar: true # Google Scholar-Suche
enable_pdf_extraction: true # Text aus PDFs extrahieren
max_web_results: 10 # Max. Webergebnisse pro Abfrage
# === Export ===
export:
target_conference: "neurips_2025" # neurips_2025 | iclr_2026 | icml_2026
authors: "Anonymous"
bib_file: "references"
# === Prompts ===
prompts:
custom_file: "" # Pfad zur benutzerdefinierten Prompts-YAML (leer = Standardwerte)
# === HITL Co-Pilot (NEU in v0.4.0) ===
hitl:
enabled: false # Auf true setzen um HITL zu aktivieren
mode: co-pilot # full-auto | gate-only | checkpoint | step-by-step | co-pilot | custom
cost_budget_usd: 0.0 # Kostenlimit in USD (0 = kein Limit)
notifications:
on_pause: true # Benachrichtigung wenn Pipeline pausiert
on_quality_drop: true # Benachrichtigung bei Qualitaetsproblemen
channels: ["terminal"] # terminal | slack | webhook
timeouts:
default_human_timeout_sec: 86400 # Bis zu 24h auf menschlichen Input warten
auto_proceed_on_timeout: false # Wenn true, automatisch genehmigen bei Timeout
collaboration:
max_chat_turns: 50 # Max. Turns pro Kollaborationssitzung
save_chat_history: true # Chat-Protokolle speichern
stage_policies: {} # Stufenspezifische Ueberschreibungen (fuer 'custom'-Modus)
# === Sicherheit ===
security:
hitl_required_stages: [5, 9, 20] # Stufen, die menschliche Genehmigung erfordern
allow_publish_without_approval: false
redact_sensitive_logs: true
# === Wissensdatenbank ===
knowledge_base:
backend: "markdown" # markdown | obsidian
root: "docs/kb"
# === Benachrichtigungen ===
notifications:
channel: "console" # console | discord | slack
target: ""
# === MetaClaw Bridge (Optional) ===
metaclaw_bridge:
enabled: false # Auf true setzen fuer durchlaufuebergreifendes Lernen
proxy_url: "http://localhost:30000" # MetaClaw-Proxy-URL
skills_dir: "~/.metaclaw/skills" # Wo arc-* Skills gespeichert werden
fallback_url: "" # Direkter LLM-Fallback wenn Proxy nicht erreichbar
fallback_api_key: "" # API-Schluessel fuer Fallback-Endpunkt
lesson_to_skill:
enabled: true # Lektionen automatisch in Skills konvertieren
min_severity: "warning" # Mindestschwere fuer Konvertierung
max_skills_per_run: 3 # Max. neue Skills pro Pipeline-Durchlauf
prm: # Process Reward Model Qualitaets-Gate (optional)
enabled: false # LLM-als-Juror zur Bewertung von Stufenausgaben verwenden
model: "gpt-5.4" # PRM-Juror-Modell
votes: 3 # Mehrheitsentscheidung-Anzahl
gate_stages: [5, 9, 15, 20] # Stufen fuer PRM-Gates
# === OpenClaw Bridge ===
openclaw_bridge:
use_cron: false # Geplante Forschungsdurchlaeufe
use_message: false # Fortschrittsbenachrichtigungen
use_memory: false # Sitzungsuebergreifende Wissenspersistenz
use_sessions_spawn: false # Parallele Sub-Sessions starten
use_web_fetch: false # Live-Websuche
use_browser: false # Browserbasierte Paper-SammlungInspiriert von:
- 🔬 AI Scientist (Sakana AI) — Pionier der automatisierten Forschung
- 🧠 AutoResearch (Andrej Karpathy) — End-to-End-Forschungsautomatisierung
- 🌐 FARS (Analemma) — Fully Automated Research System
AutoResearchClaw ist ein Forschungshilfswerkzeug, kein Ersatz für menschliche Forscher. Wir bitten alle Nutzer, die folgenden Grundsätze einzuhalten:
Akademische Integrität. Von AutoResearchClaw generierte Arbeiten sollten als Entwürfe behandelt werden, die vor der Einreichung einer gründlichen menschlichen Überprüfung, Verifizierung und Überarbeitung bedürfen. Die auf einer Arbeit aufgeführten Autoren tragen die volle Verantwortung für deren Inhalt, Aussagen und Korrektheit. Die Verwendung von KI-generiertem Text ohne angemessene menschliche Aufsicht oder Offenlegung kann gegen die akademischen Integritätsrichtlinien Ihrer Institution oder der Zielkonferenz verstoßen.
Transparenz und Offenlegung. Wir empfehlen dringend, die Nutzung von AutoResearchClaw (oder jeder KI-Unterstützung) in Manuskripten offenzulegen, gemäß den Richtlinien der Zielkonferenz (z. B. verlangen NeurIPS, ICML, ICLR und andere große Konferenzen jetzt die Offenlegung von KI-Schreibhilfe). Der Human-in-the-Loop Co-Pilot existiert gerade deshalb, um eine sinnvolle menschliche Kontrolle über Forschungsentscheidungen aufrechtzuerhalten.
Zitation und Zuordnung. AutoResearchClaw verifiziert Zitate über eine 4-Schichten-Pipeline, aber kein automatisiertes System ist perfekt. Nutzer müssen vor der Einreichung manuell überprüfen, dass alle Zitate echt, relevant und korrekt referenziert sind. Gefälschte oder falsch zugeordnete Zitate untergraben das wissenschaftliche Vertrauen.
Missbrauchsrisiko. Wie jedes leistungsstarke Werkzeug kann AutoResearchClaw missbraucht werden, um minderwertige oder irreführende Forschung in großem Maßstab zu produzieren. Wir unterstützen nicht die Verwendung dieses Systems zur Erzeugung von Papierfabriken, betrügerischen Einreichungen oder Inhalten, die darauf abzielen, das Peer-Review-Verfahren zu manipulieren. Bei systematischem Missbrauch behalten wir uns das Recht vor, die Lizenz oder Nutzungsbedingungen zu aktualisieren.
Doppelter Verwendungszweck. Autonome Forschungssysteme werfen breitere Fragen über die Zukunft der wissenschaftlichen Arbeit, Autorenschaftsnormen und Begutachtungsprozesse auf. Wir begrüßen Diskussionen der Gemeinschaft zu diesen Themen und setzen uns für eine verantwortungsvolle Entwicklung dieser Technologie ein.
Durch die Nutzung von AutoResearchClaw stimmen Sie zu, es in einer Weise zu verwenden, die mit diesen Grundsätzen sowie den ethischen Richtlinien Ihrer Institution und Forschungsgemeinschaft vereinbar ist.
MIT — siehe LICENSE fuer Details.
Wenn du AutoResearchClaw nuetzlich findest, zitiere bitte:
@misc{liu2026autoresearchclaw,
author = {Liu, Jiaqi and Xia, Peng and Han, Siwei and Qiu, Shi and Zhang, Letian and Chen, Guiming and Tu, Haoqin and Yang, Xinyu and Zhou, Jiawei and Zhu, Hongtu and Li, Yun and Zhang, Jiaheng and Zhou, Yuyin and Zheng, Zeyu and Xie, Cihang and Ding, Mingyu and Yao, Huaxiu},
title = {AutoResearchClaw: Fully Autonomous Research from Idea to Paper},
year = {2026},
organization = {GitHub},
url = {https://github.com/aiming-lab/AutoResearchClaw},
}Gebaut mit 🦞 vom AutoResearchClaw-Team

