Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
4 changes: 4 additions & 0 deletions CHANGELOG.md
Original file line number Diff line number Diff line change
Expand Up @@ -8,11 +8,15 @@
- 신규 에이전트/스킬 생성 전 중복 검토 단계 (Phase 3-0, Phase 4-0)
- `references/agent-design-patterns.md` "에이전트 재사용 설계" 섹션
- `references/skill-writing-guide.md` §9 "스킬 재사용 설계"
- **Phase 7-6: 증거 주도 자율 진화 루프 (옵트인)** — 결정적 검증기를 갖춘 하네스가 실행 트레이스에서 실패를 채굴하고, 바운디드·표면 결박 편집을 제안하며, held-in/held-out 비퇴행 게이트(`Δ_in ≥ 0 AND Δ_ho ≥ 0 AND max > 0`)로만 채택하는 자율 진화 모드. 자격 게이트(결정적 신호 + 분할 가능 과제 집합)를 통과한 하네스에만 적용. Self-Harness(arXiv:2606.09498) paradigm 기반. (Add evidence-driven autonomous self-evolution loop, opt-in for verifier-equipped harnesses.)
- `references/self-evolution-loop.md` — 자격 분류(A/B/C), 실패 시그니처 스키마 `(c, q, m)`, 3단계 루프, 비퇴행 수용 규칙, 되돌리기·로깅 프로토콜, 주관 하네스 golden-sample 폴백, 오케스트레이션 스케치, 실패 모드 가드 수록.

### Changed
- Phase 선택 매트릭스에 3-0/4-0 명시
- Phase 2-3에 재사용 검토 단계 포인터 추가
- 산출물 체크리스트에 재사용 검토 항목 2개 추가
- Phase 7 진화를 두 모드(피드백 주도 기본 / 증거 주도 자율 옵트인)로 명시 구분
- 산출물 체크리스트에 자격 게이트(7-6) 판정 항목 추가

---

Expand Down
28 changes: 27 additions & 1 deletion skills/harness/SKILL.md
Original file line number Diff line number Diff line change
Expand Up @@ -360,7 +360,12 @@ Phase마다 다른 모드를 섞어 구성한다. 자주 쓰이는 조합:

### Phase 7: 하네스 진화

하네스는 한 번 만들고 끝나는 정적 산출물이 아니다. 사용자 피드백에 따라 계속 진화하는 시스템이다.
하네스는 한 번 만들고 끝나는 정적 산출물이 아니다. 계속 진화하는 시스템이다. 진화에는 두 모드가 있다:

- **피드백 주도 (기본, 7-1~7-4)** — 사용자 피드백을 수정 대상에 매핑한다. 모든 하네스에 적용된다.
- **증거 주도 자율 루프 (옵트인, 7-6)** — 실행 트레이스에서 실패를 채굴해 스스로 바운디드 편집을 제안·검증한다. **결정적 검증기를 갖춘 하네스에만** 적용된다.

두 모드는 배타적이지 않다. 결정적 검증기가 없는 하네스는 7-1~7-4만 따르고, 있는 하네스는 7-6을 추가로 가동한다.

#### 7-1. 실행 후 피드백 수집

Expand Down Expand Up @@ -426,6 +431,25 @@ Phase마다 다른 모드를 섞어 구성한다. 자주 쓰이는 조합:
- 대규모 변경(아키텍처 변경, 에이전트 3개 이상 추가/삭제) 시 Phase 6-3(실행 테스트), 6-5(드라이런)까지 수행
- CLAUDE.md와 실제 파일의 일치 여부 최종 확인

#### 7-6. 증거 주도 자율 진화 루프 (옵트인)

피드백 주도 진화(7-1~7-4)는 사람이 말해야 시작되고, 사람의 문장을 근거로 삼으며, 편집 후 회귀를 자동으로 막지 못한다. 검증기를 갖춘 하네스라면 이 루프를 **실행 증거 기반의 자율 루프**로 격상할 수 있다. 출처: Self-Harness (arXiv:2606.09498) — 고정 모델이 자기 하네스를 propose-validate-accept 루프로 개선한다는 paradigm을, 하네스 팩토리의 진화 단계에 맞게 적용한 것이다.

**자격 게이트 (이 게이트를 통과한 하네스에만 적용).** 두 전제가 모두 충족돼야 자율 루프가 의미를 갖는다. 무리하게 적용하면 "가짜 정밀성"이 된다.
1. **결정적/재현 가능한 검증 신호** — pass/fail 검증기, 수치 KPI, 스키마 적합성, 탐지기 재실행 등 사람 판단 없이 반복 측정 가능한 outcome. 대개 이미 존재하는 QA·팩트체크·감사 에이전트의 출력이 신호원이 된다.
2. **분할 가능한 반복 과제 집합** — held-in / held-out으로 나눌 수 있는 task 모집단. 매 실행이 1회성 bespoke 잡(예: "이 칼럼 한 편")이면 분할이 성립하지 않으므로 자격 미달이다.

> 자격 분류(A: 적용 / B: 구조적 하위검사만 / C: 미적용)와 각 클래스 판정 기준은 `references/self-evolution-loop.md` "자격 분류" 참조.

**3단계 루프 (요약).** 상세 절차·실패 시그니처 스키마·수용 규칙은 `references/self-evolution-loop.md` 참조.
1. **약점 채굴** — 현재 하네스를 held-in 과제에 실행해 트레이스를 모으고, **실패** 트레이스를 시그니처 `(검증기 원인, 행동의 인과 상태, 편집 표면)`로 군집화한다. "무엇이 거부됐나"와 "어떤 재사용 행동이 원인인가"를 분리하는 것이 핵심 — 편집을 처방하지 않고 증거 번들만 만든다.
2. **바운디드 제안** — 같은 모델/팀이 제안자로 돌아, 군집당 **서로 다른 · 최소 단위** 후보 편집 K개를 생성한다. 각 편집은 1 실패 메커니즘 ↔ 1 편집 표면(시스템 프롬프트·검증 지시·실패복구 지시·런타임 정책·에이전트·스킬)에 결박한다.
3. **검증 게이트** — 각 후보를 held-in **및 held-out**에 재평가하고, 보수적 비퇴행 규칙으로만 채택한다: `Δ_in ≥ 0 AND Δ_ho ≥ 0 AND max(Δ_in, Δ_ho) > 0`. held-out은 제안자가 보지 못한 회귀 테스트로, 관측된 실패에 대한 과적합을 막는다. 통과분만 병합한다.

**되돌리기·로깅 (필수).** 편집 전 대상(에이전트/스킬/오케스트레이터)의 스냅샷을 보존하고, 모든 전이(편집 표면·양쪽 split 점수·accept/reject·사유)를 CLAUDE.md 변경 이력에 기록한다. 채택이 헛발질이면 스냅샷으로 즉시 롤백한다.

**검증기가 없거나 주관적인 하네스 (B/C 클래스).** 결정적 게이트를 강요하지 말 것. 대신 (1) 채굴·바운디드 제안·되돌리기·로깅이라는 *규율*은 유지하되, (2) 게이트만 **기존 QA/리뷰 에이전트 판정 + 고정 golden-sample(과거 우수작 5~10개)에 대한 LLM-judge/사용자 승인**으로 강등한다. 이는 논문의 "사람 없는 자율"을 포기하는 대신, 증거 기반·최소·표면 결박·되돌리기 가능이라는 드리프트 방지 속성을 보존한다.

## 산출물 체크리스트

생성 완료 후 확인:
Expand All @@ -446,6 +470,7 @@ Phase마다 다른 모드를 섞어 구성한다. 자주 쓰이는 조합:
- [ ] **CLAUDE.md에 하네스 포인터 등록** (트리거 규칙 + 변경 이력)
- [ ] **CLAUDE.md 변경 이력에 에이전트/스킬 추가/삭제/수정 기록**
- [ ] **오케스트레이터 Phase 1에 컨텍스트 확인 단계** (초기/후속/부분 재실행 판별)
- [ ] 결정적 검증기를 갖춘 하네스는 자격 게이트(7-6) 판정 — 통과 시 자율 진화 루프 옵트인 여부 기록

## 참고

Expand All @@ -455,3 +480,4 @@ Phase마다 다른 모드를 섞어 구성한다. 자주 쓰이는 조합:
- **스킬 작성 가이드**: `references/skill-writing-guide.md` — 작성 패턴, 예시, 데이터 스키마 표준
- **스킬 테스트 가이드**: `references/skill-testing-guide.md` — 테스트/평가/반복 개선 방법론
- **QA 에이전트 가이드**: `references/qa-agent-guide.md` — 빌드 하네스에 QA 에이전트를 포함할 때 참조. 통합 정합성 검증 방법론, 경계면 버그 패턴, QA 에이전트 정의 템플릿 포함. 실제 프로젝트에서 발견된 7개 버그 사례 기반.
- **자율 진화 루프**: `references/self-evolution-loop.md` — Phase 7-6 옵트인 자율 진화 루프 참조. 자격 분류(A/B/C), 실패 시그니처 스키마, 3단계 루프 절차, 비퇴행 수용 규칙, 주관 하네스 폴백(golden-sample judge) 포함. Self-Harness(arXiv:2606.09498) paradigm 기반.
Loading