revfactory · epoko77-ai · Jun 18, 2026
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -8,11 +8,15 @@
 - 신규 에이전트/스킬 생성 전 중복 검토 단계 (Phase 3-0, Phase 4-0)
 - `references/agent-design-patterns.md` "에이전트 재사용 설계" 섹션
 - `references/skill-writing-guide.md` §9 "스킬 재사용 설계"
+- **Phase 7-6: 증거 주도 자율 진화 루프 (옵트인)** — 결정적 검증기를 갖춘 하네스가 실행 트레이스에서 실패를 채굴하고, 바운디드·표면 결박 편집을 제안하며, held-in/held-out 비퇴행 게이트(`Δ_in ≥ 0 AND Δ_ho ≥ 0 AND max > 0`)로만 채택하는 자율 진화 모드. 자격 게이트(결정적 신호 + 분할 가능 과제 집합)를 통과한 하네스에만 적용. Self-Harness(arXiv:2606.09498) paradigm 기반. (Add evidence-driven autonomous self-evolution loop, opt-in for verifier-equipped harnesses.)
+- `references/self-evolution-loop.md` — 자격 분류(A/B/C), 실패 시그니처 스키마 `(c, q, m)`, 3단계 루프, 비퇴행 수용 규칙, 되돌리기·로깅 프로토콜, 주관 하네스 golden-sample 폴백, 오케스트레이션 스케치, 실패 모드 가드 수록.
 
 ### Changed
 - Phase 선택 매트릭스에 3-0/4-0 명시
 - Phase 2-3에 재사용 검토 단계 포인터 추가
 - 산출물 체크리스트에 재사용 검토 항목 2개 추가
+- Phase 7 진화를 두 모드(피드백 주도 기본 / 증거 주도 자율 옵트인)로 명시 구분
+- 산출물 체크리스트에 자격 게이트(7-6) 판정 항목 추가
 
 ---
 

diff --git a/skills/harness/SKILL.md b/skills/harness/SKILL.md
@@ -360,7 +360,12 @@ Phase마다 다른 모드를 섞어 구성한다. 자주 쓰이는 조합:
 
 ### Phase 7: 하네스 진화
 
-하네스는 한 번 만들고 끝나는 정적 산출물이 아니다. 사용자 피드백에 따라 계속 진화하는 시스템이다.
+하네스는 한 번 만들고 끝나는 정적 산출물이 아니다. 계속 진화하는 시스템이다. 진화에는 두 모드가 있다:
+
+- **피드백 주도 (기본, 7-1~7-4)** — 사용자 피드백을 수정 대상에 매핑한다. 모든 하네스에 적용된다.
+- **증거 주도 자율 루프 (옵트인, 7-6)** — 실행 트레이스에서 실패를 채굴해 스스로 바운디드 편집을 제안·검증한다. **결정적 검증기를 갖춘 하네스에만** 적용된다.
+
+두 모드는 배타적이지 않다. 결정적 검증기가 없는 하네스는 7-1~7-4만 따르고, 있는 하네스는 7-6을 추가로 가동한다.
 
 #### 7-1. 실행 후 피드백 수집
 
@@ -426,6 +431,25 @@ Phase마다 다른 모드를 섞어 구성한다. 자주 쓰이는 조합:
 - 대규모 변경(아키텍처 변경, 에이전트 3개 이상 추가/삭제) 시 Phase 6-3(실행 테스트), 6-5(드라이런)까지 수행
 - CLAUDE.md와 실제 파일의 일치 여부 최종 확인
 
+#### 7-6. 증거 주도 자율 진화 루프 (옵트인)
+
+피드백 주도 진화(7-1~7-4)는 사람이 말해야 시작되고, 사람의 문장을 근거로 삼으며, 편집 후 회귀를 자동으로 막지 못한다. 검증기를 갖춘 하네스라면 이 루프를 **실행 증거 기반의 자율 루프**로 격상할 수 있다. 출처: Self-Harness (arXiv:2606.09498) — 고정 모델이 자기 하네스를 propose-validate-accept 루프로 개선한다는 paradigm을, 하네스 팩토리의 진화 단계에 맞게 적용한 것이다.
+
+**자격 게이트 (이 게이트를 통과한 하네스에만 적용).** 두 전제가 모두 충족돼야 자율 루프가 의미를 갖는다. 무리하게 적용하면 "가짜 정밀성"이 된다.
+1. **결정적/재현 가능한 검증 신호** — pass/fail 검증기, 수치 KPI, 스키마 적합성, 탐지기 재실행 등 사람 판단 없이 반복 측정 가능한 outcome. 대개 이미 존재하는 QA·팩트체크·감사 에이전트의 출력이 신호원이 된다.
+2. **분할 가능한 반복 과제 집합** — held-in / held-out으로 나눌 수 있는 task 모집단. 매 실행이 1회성 bespoke 잡(예: "이 칼럼 한 편")이면 분할이 성립하지 않으므로 자격 미달이다.
+
+> 자격 분류(A: 적용 / B: 구조적 하위검사만 / C: 미적용)와 각 클래스 판정 기준은 `references/self-evolution-loop.md` "자격 분류" 참조.
+
+**3단계 루프 (요약).** 상세 절차·실패 시그니처 스키마·수용 규칙은 `references/self-evolution-loop.md` 참조.
+1. **약점 채굴** — 현재 하네스를 held-in 과제에 실행해 트레이스를 모으고, **실패** 트레이스를 시그니처 `(검증기 원인, 행동의 인과 상태, 편집 표면)`로 군집화한다. "무엇이 거부됐나"와 "어떤 재사용 행동이 원인인가"를 분리하는 것이 핵심 — 편집을 처방하지 않고 증거 번들만 만든다.
+2. **바운디드 제안** — 같은 모델/팀이 제안자로 돌아, 군집당 **서로 다른 · 최소 단위** 후보 편집 K개를 생성한다. 각 편집은 1 실패 메커니즘 ↔ 1 편집 표면(시스템 프롬프트·검증 지시·실패복구 지시·런타임 정책·에이전트·스킬)에 결박한다.
+3. **검증 게이트** — 각 후보를 held-in **및 held-out**에 재평가하고, 보수적 비퇴행 규칙으로만 채택한다: `Δ_in ≥ 0 AND Δ_ho ≥ 0 AND max(Δ_in, Δ_ho) > 0`. held-out은 제안자가 보지 못한 회귀 테스트로, 관측된 실패에 대한 과적합을 막는다. 통과분만 병합한다.
+
+**되돌리기·로깅 (필수).** 편집 전 대상(에이전트/스킬/오케스트레이터)의 스냅샷을 보존하고, 모든 전이(편집 표면·양쪽 split 점수·accept/reject·사유)를 CLAUDE.md 변경 이력에 기록한다. 채택이 헛발질이면 스냅샷으로 즉시 롤백한다.
+
+**검증기가 없거나 주관적인 하네스 (B/C 클래스).** 결정적 게이트를 강요하지 말 것. 대신 (1) 채굴·바운디드 제안·되돌리기·로깅이라는 *규율*은 유지하되, (2) 게이트만 **기존 QA/리뷰 에이전트 판정 + 고정 golden-sample(과거 우수작 5~10개)에 대한 LLM-judge/사용자 승인**으로 강등한다. 이는 논문의 "사람 없는 자율"을 포기하는 대신, 증거 기반·최소·표면 결박·되돌리기 가능이라는 드리프트 방지 속성을 보존한다.
+
 ## 산출물 체크리스트
 
 생성 완료 후 확인:
@@ -446,6 +470,7 @@ Phase마다 다른 모드를 섞어 구성한다. 자주 쓰이는 조합:
 - [ ] **CLAUDE.md에 하네스 포인터 등록** (트리거 규칙 + 변경 이력)
 - [ ] **CLAUDE.md 변경 이력에 에이전트/스킬 추가/삭제/수정 기록**
 - [ ] **오케스트레이터 Phase 1에 컨텍스트 확인 단계** (초기/후속/부분 재실행 판별)
+- [ ] 결정적 검증기를 갖춘 하네스는 자격 게이트(7-6) 판정 — 통과 시 자율 진화 루프 옵트인 여부 기록
 
 ## 참고
 
@@ -455,3 +480,4 @@ Phase마다 다른 모드를 섞어 구성한다. 자주 쓰이는 조합:
 - **스킬 작성 가이드**: `references/skill-writing-guide.md` — 작성 패턴, 예시, 데이터 스키마 표준
 - **스킬 테스트 가이드**: `references/skill-testing-guide.md` — 테스트/평가/반복 개선 방법론
 - **QA 에이전트 가이드**: `references/qa-agent-guide.md` — 빌드 하네스에 QA 에이전트를 포함할 때 참조. 통합 정합성 검증 방법론, 경계면 버그 패턴, QA 에이전트 정의 템플릿 포함. 실제 프로젝트에서 발견된 7개 버그 사례 기반.
+- **자율 진화 루프**: `references/self-evolution-loop.md` — Phase 7-6 옵트인 자율 진화 루프 참조. 자격 분류(A/B/C), 실패 시그니처 스키마, 3단계 루프 절차, 비퇴행 수용 규칙, 주관 하네스 폴백(golden-sample judge) 포함. Self-Harness(arXiv:2606.09498) paradigm 기반.