مستوحى من طريقة تعلّم الدماغ. اجعل 🦞 الخاص بك يتعلّم ويتطوّر من كل محادثة حقيقية. لا حاجة لوحدات GPU. يدعم Kimi وQwen وClaude وMiniMax والمزيد.
🇺🇸 English • 🇨🇳 中文 • 🇯🇵 日本語 • 🇰🇷 한국어 • 🇫🇷 Français • 🇩🇪 Deutsch • 🇪🇸 Español • 🇧🇷 Português • 🇷🇺 Русский • 🇮🇹 Italiano • 🇻🇳 Tiếng Việt • 🇮🇳 हिन्दी
نظرة عامة • البدء السريع • الإعدادات • وضع المهارات • وضع RL • وضع MadMax • الاقتباس
metaclaw setup # معالج الإعداد لمرة واحدة
metaclaw start # الوضع الافتراضي: madmax، مهارات + تدريب RL مُجدوَل
metaclaw start --daemon # تشغيل في الخلفية، السجلات -> ~/.metaclaw/metaclaw.log
metaclaw start --daemon --log-file /tmp/metaclaw.log # مسار سجل مخصص
metaclaw start --mode rl # RL بدون مُجدوِل (يتدرّب فورًا عند اكتمال الدُّفعة)
metaclaw start --mode skills_only # مهارات فقط، بدون RL (لا حاجة لـ Tinker)- [2026/03/16] v0.3.2 دعم متعدد الـ Claw: أصبح IronClaw وPicoClaw وZeroClaw وCoPaw وNanoClaw وNemoClaw مدعومين إلى جانب OpenClaw. NanoClaw عبر نقطة النهاية الجديدة المتوافقة مع Anthropic
/v1/messages؛ NemoClaw عبر توجيه الاستدلال OpenShell. إضافة OpenRouter كمنصة LLM مدعومة. - [2026/03/13] v0.3.1 دعم واجهة MinT الخلفية: يعمل تدريب RL الآن مع Tinker وMinT معًا. يمكن ضبطه عبر
rl.backend(auto/tinker/mint). - [2026/03/13] v0.3 دعم التعلّم الفوقي المستمر: تحديثات RL البطيئة تعمل فقط خلال ساعات النوم أو فترات الخمول أو اجتماعات Google Calendar. تمت إضافة فصل مجموعات support/query لمنع إشارات المكافأة القديمة من تلويث تحديثات النموذج.
- [2026/03/11] v0.2 نشر بنقرة واحدة عبر واجهة
metaclawCLI. المهارات مُفعّلة افتراضيًا، وRL أصبح اختياريًا. - [2026/03/09] إطلاق MetaClaw رسميًا. فقط تحدّث مع الوكيل ودعه يتطوّر تلقائيًا. لا حاجة لنشر GPU، فقط اتصل بـ API.
video_v2_compressed.mp4
MetaClaw وكيل يتعلّم فوقيًا ويتطوّر في البيئات الحقيقية. فقط تحدّث مع وكيلك كالمعتاد. يحوّل MetaClaw كل محادثة حيّة إلى إشارة تعلّم، مما يُمكّن الوكيل من التحسّن المستمر من خلال النشر الفعلي بدلًا من الاعتماد على التدريب دون اتصال فقط.
في الخلفية، يضع MetaClaw نموذجك خلف وكيل وسيط متوافق مع OpenAI (مع نقطة نهاية /v1/messages متوافقة مع Anthropic للوكلاء مثل NanoClaw) يعترض التفاعلات من OpenClaw وNanoClaw وNemoClaw وغيرها من الوكلاء المدعومين، ويحقن المهارات ذات الصلة في كل دور، ويتعلّم فوقيًا من التجارب المتراكمة. تُلخَّص المهارات تلقائيًا بعد كل جلسة. عند تفعيل RL، يؤجّل مُجدوِل التعلّم الفوقي تحديثات الأوزان إلى فترات الخمول حتى لا يُقاطَع الوكيل أثناء الاستخدام النشط.
لا حاجة لمجموعة GPU. يعمل MetaClaw مع أي واجهة LLM API متوافقة مع OpenAI مباشرةً، ويستخدم واجهة خلفية متوافقة مع Tinker لتدريب LoRA السحابي. Tinker هو المسار المرجعي الافتراضي، ويمكن تفعيل MinT من خلال حزمة توافق منفصلة عند الحاجة.
قم بالإعداد مرة واحدة باستخدام metaclaw setup، ثم metaclaw start يُشغّل الوكيل الوسيط ويحقن المهارات ويربط OpenClaw تلقائيًا. لا حاجة لسكربتات shell يدوية.
| الوضع | افتراضي | الوصف |
|---|---|---|
skills_only |
وكيل وسيط لواجهة LLM API الخاصة بك. يحقن المهارات ويُلخّصها تلقائيًا بعد كل جلسة. لا حاجة لـ GPU / Tinker. | |
rl |
المهارات + تدريب RL (GRPO). يتدرّب فورًا عند اكتمال الدُّفعة. OPD اختياري لتقطير المعلّم. | |
madmax |
✅ | المهارات + RL + مُجدوِل ذكي. تحديثات أوزان RL تعمل فقط خلال فترات النوم/الخمول/الاجتماعات. |
الخدمة ونمذجة المكافآت والتدريب منفصلة تمامًا. يستمر الوكيل في الاستجابة بينما يعمل التقييم والتحسين بالتوازي في الخلفية.
pip install -e . # وضع skills_only (خفيف الوزن)
pip install -e ".[rl]" # + دعم تدريب RL (torch، transformers، tinker)
pip install -e ".[evolve]" # + تطوير المهارات عبر LLM متوافق مع OpenAI
pip install -e ".[scheduler]" # + تكامل Google Calendar مع المُجدوِل
pip install -e ".[rl,evolve,scheduler]" # موصى به: إعداد RL + مُجدوِل كاملإذا كنت تريد استخدام rl.backend=mint، قم بتثبيت حزمة توافق MinT بشكل منفصل في نفس البيئة، مثل mindlab-toolkit. لا يضمّن MetaClaw هذه التبعية في الحزمة الافتراضية حتى يتمكّن مستخدمو RL من اختيار Tinker أو MinT بشكل صريح.
metaclaw setupسيرشدك المعالج التفاعلي لاختيار مزوّد LLM (Kimi أو Qwen أو MiniMax أو مخصّص)، وإدخال مفتاح API الخاص بك، وتفعيل تدريب RL اختياريًا.
يمكن لمسار RL في MetaClaw التبديل صراحةً بين tinker وmint. القيمة الافتراضية الموصى بها هي auto وستظل تستنتج MinT من بيانات الاعتماد أو عناوين URL ذات النمط المشابه لـ Mint عندما تكون حزمة MinT مثبّتة.
Tinker (الافتراضي):
metaclaw config rl.backend tinker
metaclaw config rl.api_key sk-...
metaclaw config rl.model moonshotai/Kimi-K2.5MinT:
metaclaw config rl.backend mint
metaclaw config rl.api_key sk-mint-...
metaclaw config rl.base_url https://mint.macaron.xin/
metaclaw config rl.model Qwen/Qwen3-4B-Instruct-2507الأسماء المستعارة القديمة rl.tinker_api_key وrl.tinker_base_url لا تزال مقبولة للتوافق مع الإصدارات السابقة.
metaclaw startهذا كل شيء. يُشغّل MetaClaw الوكيل الوسيط ويُعدّ OpenClaw تلقائيًا ويُعيد تشغيل البوابة. افتح OpenClaw وابدأ المحادثة، حيث تُحقن المهارات في كل دور وتُلخَّص الجلسة تلقائيًا إلى مهارات جديدة عند الانتهاء.
ملف الإعدادات موجود في ~/.metaclaw/config.yaml، يُنشأ بواسطة metaclaw setup.
أوامر CLI:
metaclaw setup # معالج الإعداد التفاعلي لأول مرة
metaclaw start # تشغيل MetaClaw (الوضع الافتراضي: madmax)
metaclaw start --daemon # تشغيل MetaClaw في الخلفية
metaclaw start --daemon --log-file /tmp/metaclaw.log # مسار سجل مخصص
metaclaw start --mode rl # فرض وضع RL لهذه الجلسة (بدون مُجدوِل)
metaclaw start --mode skills_only # فرض وضع المهارات فقط لهذه الجلسة
metaclaw stop # إيقاف مثيل MetaClaw قيد التشغيل
metaclaw status # التحقق من صحة الوكيل الوسيط والوضع الحالي وحالة المُجدوِل
metaclaw config show # عرض الإعدادات الحالية
metaclaw config KEY VALUE # تعيين قيمة إعداد
عند تشغيل MetaClaw مع --daemon، ينتظر الأمر حتى يصبح الوكيل المحلي جاهزًا قبل الإرجاع. استخدم metaclaw status للتحقق من الجاهزية و metaclaw stop لإيقاف العملية في الخلفية.
المرجع الكامل للإعدادات (انقر للتوسيع)
mode: madmax # "madmax" | "rl" | "skills_only"
llm:
provider: kimi # kimi | qwen | openai | minimax | custom
model_id: moonshotai/Kimi-K2.5
api_base: https://api.moonshot.cn/v1
api_key: sk-...
proxy:
port: 30000
api_key: "" # اختياري: رمز bearer للوكيل الوسيط المحلي لـ MetaClaw
skills:
enabled: true
dir: ~/.metaclaw/skills # دليل مكتبة المهارات الخاصة بك
retrieval_mode: template # template | embedding
top_k: 6
task_specific_top_k: 10 # الحد الأقصى للمهارات الخاصة بالمهمة (افتراضي 10)
auto_evolve: true # تلخيص المهارات تلقائيًا بعد كل جلسة
rl:
enabled: false # اضبط على true لتفعيل تدريب RL
backend: auto # "auto" | "tinker" | "mint"
model: moonshotai/Kimi-K2.5
api_key: ""
base_url: "" # نقطة نهاية خلفية اختيارية، مثل https://mint.macaron.xin/ لـ MinT
tinker_api_key: "" # اسم مستعار متوافق لـ api_key
tinker_base_url: "" # اسم مستعار متوافق لـ base_url
prm_url: https://api.openai.com/v1
prm_model: gpt-5.2
prm_api_key: ""
lora_rank: 32
batch_size: 4
resume_from_ckpt: "" # اختياري: استئناف التدريب من نقطة تفتيش
evolver_api_base: "" # اتركه فارغًا لإعادة استخدام llm.api_base
evolver_api_key: ""
evolver_model: gpt-5.2
opd:
enabled: false # اضبط على true لتفعيل OPD (تقطير المعلّم)
teacher_url: "" # عنوان URL الأساسي لنموذج المعلّم (متوافق مع OpenAI /v1/completions)
teacher_model: "" # اسم نموذج المعلّم (مثل Qwen/Qwen3-32B)
teacher_api_key: "" # مفتاح API لنموذج المعلّم
kl_penalty_coef: 1.0 # معامل عقوبة KL لـ OPD
max_context_tokens: 20000 # الحد الأقصى لرموز prompt قبل الاقتطاع
scheduler: # v0.3: مُجدوِل التعلّم الفوقي (يُفعَّل تلقائيًا في وضع madmax)
enabled: false # يُفعَّل تلقائيًا في وضع madmax، يجب ضبطه يدويًا في وضع rl
sleep_start: "23:00"
sleep_end: "07:00"
idle_threshold_minutes: 30
min_window_minutes: 15
calendar:
enabled: false
credentials_path: ""
token_path: ""metaclaw start --mode skills_only
أخف وضع تشغيل. لا حاجة لـ GPU أو واجهة RL خلفية. يضع MetaClaw واجهة LLM الخاصة بك خلف وكيل وسيط يحقن المهارات ذات الصلة في كل دور محادثة، ثم يُلخّص مهارات جديدة تلقائيًا بعد كل محادثة.
المهارات هي تعليمات Markdown قصيرة تُخزَّن في ~/.metaclaw/skills/ كملفات SKILL.md مستقلة. تنمو المكتبة تلقائيًا مع استخدامك.
لتحميل بنك المهارات المدمج مسبقًا (أكثر من 40 مهارة تشمل البرمجة والأمان ومهام الوكيل وغيرها):
cp -r memory_data/skills/* ~/.metaclaw/skills/metaclaw start --mode rl
كل ما في وضع المهارات، بالإضافة إلى الضبط الدقيق المستمر بالتعلّم المعزّز من المحادثات الحيّة. يتم تحويل كل دور محادثة إلى رموز وإرساله كعيّنة تدريب. يقوم نموذج LLM حكم (PRM) بتقييم الاستجابات بشكل غير متزامن، وتُجري واجهة خلفية متوافقة مع Tinker (مثل Tinker السحابي أو MinT) ضبطًا دقيقًا لـ LoRA مع تبديل الأوزان تلقائيًا.
Tinker (الافتراضي):
metaclaw config rl.backend tinker
metaclaw config rl.api_key sk-...
metaclaw config rl.model moonshotai/Kimi-K2.5
metaclaw config rl.prm_url https://api.openai.com/v1
metaclaw config rl.prm_api_key sk-...
metaclaw start --mode rlMinT:
metaclaw config rl.backend mint
metaclaw config rl.api_key sk-mint-...
metaclaw config rl.base_url https://mint.macaron.xin/
metaclaw config rl.model Qwen/Qwen3-4B-Instruct-2507
metaclaw config rl.prm_url https://api.openai.com/v1
metaclaw config rl.prm_api_key sk-...
metaclaw start --mode rlيستخرج نموذج LLM مُطوِّر مخصّص أيضًا مهارات جديدة من الحلقات الفاشلة ويُعيدها إلى مكتبة المهارات.
التنفيذ البرمجي (بدون واجهة OpenClaw TUI): اضبط openclaw_env_data_dir على دليل يحتوي ملفات مهام JSONL:
{"task_id": "task_1", "instruction": "Register the webhook at https://example.com/hook"}OPD إضافة اختيارية لوضع RL. يُقطّر نموذج معلّم أكبر إلى نموذج الطالب على السياسة: يُنشئ نموذج الطالب الاستجابات كالمعتاد، بينما يوفّر نموذج المعلّم احتمالات لوغاريتمية لكل رمز على نفس الاستجابات. تُوجّه عقوبة KL نموذج الطالب نحو توزيع المعلّم.
metaclaw config opd.enabled true
metaclaw config opd.teacher_url http://localhost:8082/v1
metaclaw config opd.teacher_model Qwen/Qwen3-32B
metaclaw config opd.kl_penalty_coef 1.0يجب نشر نموذج المعلّم خلف نقطة نهاية /v1/completions متوافقة مع OpenAI (مثل vLLM أو SGLang). يمكن الجمع بين OPD وتقييم PRM، حيث يعمل كلاهما بشكل غير متزامن. راجع examples/run_conversation_opd.py وscripts/run_openclaw_tinker_opd.sh.
metaclaw start
كل ما في وضع RL، بالإضافة إلى مُجدوِل تعلّم فوقي يؤجّل تحديثات الأوزان إلى فترات عدم نشاط المستخدم حتى لا يُقاطَع الوكيل أثناء الاستخدام النشط. هذا هو الوضع الافتراضي.
تُوقف خطوة تبديل أوزان RL الوكيل لعدة دقائق. بدلًا من التدريب فورًا عند اكتمال الدُّفعة (كما في وضع RL)، ينتظر MadMax نافذة مناسبة.
ثلاثة شروط تُفعّل نافذة التحديث (أي شرط منها كافٍ):
- ساعات النوم: وقت بداية/نهاية قابل للتعديل (مثل 23:00 إلى 07:00)
- خمول لوحة المفاتيح: يُفعَّل بعد N دقيقة من عدم النشاط
- أحداث Google Calendar: يكتشف الاجتماعات لتشغيل التحديثات أثناء غيابك
metaclaw config scheduler.sleep_start "23:00"
metaclaw config scheduler.sleep_end "07:00"
metaclaw config scheduler.idle_threshold_minutes 30
# اختياري: تكامل Google Calendar
pip install -e ".[scheduler]"
metaclaw config scheduler.calendar.enabled true
metaclaw config scheduler.calendar.credentials_path ~/.metaclaw/client_secrets.jsonإذا عاد المستخدم أثناء التحديث، تُحفظ الدُّفعة الجزئية وتُستأنف في النافذة التالية.
يحمل كل ConversationSample علامة إصدار skill_generation. عندما يرفع تطوّر المهارات رقم الإصدار، يُفرَّغ مخزن RL المؤقت بحيث تُستخدم فقط العيّنات بعد التطوّر لتحديثات التدرّج (فصل مجموعات support/query في MAML).
@misc{xia2026metaclaw,
author = {Xia, Peng and Chen, Jianwen and Yang, Xinyu and Tu, Haoqin and Han, Siwei and Qiu, Shi and Zheng, Zeyu and Xie, Cihang and Yao, Huaxiu},
title = {MetaClaw: Just Talk --- An Agent That Meta-Learns and Evolves in the Wild},
year = {2026},
organization = {GitHub},
url = {https://github.com/aiming-lab/MetaClaw},
}MetaClaw مبني على المشاريع مفتوحة المصدر التالية:
- OpenClaw , إطار عمل الوكيل الأساسي.
- SkillRL , إطار عمل RL المُعزَّز بالمهارات.
- Tinker , يُستخدم لتدريب RL عبر الإنترنت.
- MinT , واجهة خلفية بديلة لتدريب RL عبر الإنترنت.
- OpenClaw-RL , مصدر إلهام لتصميم RL الخاص بنا.
- awesome-openclaw-skills , يوفّر الأساس لبنك المهارات الخاص بنا.
- NanoClaw , وكيل Claude الشخصي من qwibitai، يتصل عبر نقطة النهاية
/v1/messagesالمتوافقة مع Anthropic. - NemoClaw , مكوّن إضافي لوكيل OpenShell من NVIDIA للاستدلال.
هذا المشروع مرخّص بموجب ترخيص MIT.
