| type | reference |
|---|---|
| status | done |
| updated_at | 2026-04-30 |
| canonical | true |
trial result ์ failure / success ๋ถ๋ฅ ํ์ค. ๋์ plan:
scorer-failure-label-reference(Stage 2B). Python enum:experiments/schema.py:FailureLabel. Stage 2C ์experiments/exp_h4_recheck/analyze.py:ErrorMode๋ ๋ณธ enum ์ alias.
| enum | value (str) | ์ ์ | ์๋ ๋ถ๋ฅ ๊ฐ๋ฅ? |
|---|---|---|---|
NONE |
"none" |
์ ๋ต (acc_v3 โฅ 0.5 ๋๋ task ๋ณ ๊ธฐ์ค) | โ (acc_v3 ๊ธฐ๋ฐ) |
FORMAT_ERROR |
"format_error" |
JSON parse / schema ์๋ฐ. final_answer ๊ฐ dict ํ์ ์๋๊ฑฐ๋ malformed | โ
(Stage 2A TrialError.PARSE_ERROR ์ ์ผ๋ถ + final_answer null ์ ์ผ๋ถ) |
WRONG_SYNTHESIS |
"wrong_synthesis" |
ํ์์ OK ์ธ๋ฐ ๋ด์ฉ ํ๋ฆผ. acc < 0.5 + final_answer ๊ธธ์ด > 10 | โ
(heuristic, Stage 2C classify_error_mode) |
EVIDENCE_MISS |
"evidence_miss" |
evidence_ref ๋๋ฝ ๋๋ ์๋ชป๋ ์ถ์ฒ. ๋ณธ reference ๋์ ์์ ์๋ ๋ถ๋ฅ ๋ฏธ๊ตฌํ โ ์๋ ๋ผ๋ฒจ๋ง ๊ถ์ฅ | โ (Critic Tool ๋์ ์ ์๋ํ) |
NULL_ANSWER |
"null_answer" |
final_answer ๊ฐ None / ๋น ๋ฌธ์์ด. ABC orchestrator ์ swallow ํจํด (Exp09 5-trial dilute ์ฌ๊ณ ) ์ ํต์ฌ | โ (์ง์ ๋น๊ต) |
CONNECTION_ERROR |
"connection_error" |
๋ชจ๋ธ ์๋ฒ connection refused / WinError 10061 ๋ฑ. Stage 2A TrialError.CONNECTION_ERROR ์ ๋๊ธฐ |
โ
(Stage 2A classify_trial_error) |
PARSE_ERROR |
"parse_error" |
JSON parse fail. Stage 2A TrialError.PARSE_ERROR ์ ๋๊ธฐ |
โ (Stage 2A) |
TIMEOUT |
"timeout" |
ReadTimeout ๋ฑ. Stage 2A TrialError.TIMEOUT ์ ๋๊ธฐ |
โ (Stage 2A) |
OTHER |
"other" |
๋ฏธ๋ถ๋ฅ | (๋ถ๋ฅ ์ด๋ ค์ด ์์ฌ) |
experiments/run_helpers.py:TrialError ๋ trial loop ์ธก์ fatal abort ๊ฒฐ์ ์ฉ enum. ๋ณธ FailureLabel ์ ๋ถ์ ์ธก์ retrospective ๋ถ๋ฅ์ฉ enum. ์๋ฏธ์ ๋๊ธฐ:
| TrialError (Stage 2A) | FailureLabel (Stage 2B) | ์ฌ์ฉ ์์ญ |
|---|---|---|
NONE |
NONE ๋๋ WRONG_SYNTHESIS ๋๋ NULL_ANSWER (acc_v3 ๋ฐ๋ผ ๋ถ๊ธฐ) |
run loop vs analyze |
CONNECTION_ERROR |
CONNECTION_ERROR |
run loop fatal abort vs analyze ๋ผ๋ฒจ |
TIMEOUT |
TIMEOUT |
๋์ผ |
PARSE_ERROR |
PARSE_ERROR |
๋์ผ |
MODEL_ERROR |
OTHER |
๋ชจ๋ธ ์๋ต ์์ฒด error (4xx/5xx) โ ๋ถ์ ์ OTHER |
OTHER |
OTHER |
๋์ผ |
โ run loop ์ TrialError ์ฌ์ฉ, ๋ถ์ ์ FailureLabel ์ฌ์ฉ. ํตํฉ ๊ธ์ง โ ์์ญ ๋ค๋ฆ.
๋ณธ reference ๋์ ์ด์ ์ result.md / handoff ์ ๋ผ๋ฒจ๋ง (retroactive ๋ณ๊ฒฝ 0):
| ๊ธฐ์กด ํํ | ๋งคํ (FailureLabel) |
|---|---|
format_error (24, solo_dump) |
FORMAT_ERROR |
wrong_synthesis (6, rag_baseline / 3, abc_tattoo) |
WRONG_SYNTHESIS |
evidence_miss (2, abc_tattoo) |
EVIDENCE_MISS |
| ๊ธฐ์กด ํํ | ๋งคํ |
|---|---|
fence_unclosed (3) |
PARSE_ERROR (๋๋ FORMAT_ERROR) |
empty (1) |
NULL_ANSWER |
truncate (0) |
โ |
| ๊ธฐ์กด ํํ | ๋งคํ |
|---|---|
JSON parse fail (gemma_8loop 4๊ฑด) |
PARSE_ERROR |
null (gemma_1loop 11๊ฑด) |
NULL_ANSWER |
timeout (gemini_flash 4๊ฑด) |
TIMEOUT |
| ๊ธฐ์กด ํํ | ๋งคํ |
|---|---|
WinError 10061 (rag/solo trial 4-5: 20/20 each) |
CONNECTION_ERROR |
num_assertions=0, final_answer=null (abc trial 4-5: 20/20) |
NULL_ANSWER (ABC orchestrator swallow ์ ๊ฒฐ๊ณผ) |
โ ์ ๋ชจ๋ ๋ถ์ ์์ ๋ผ๋ฒจ๋ง ๊ทธ๋๋ก ๋ณด์กด (retroactive ๋ณ๊ฒฝ 0). ์ ๊ท ๋ถ์ ์ ํ์ค enum ์ฌ์ฉ.
์ ๊ท ๋ถ์ helper ๋๋ result.md ์์ฑ ์:
from experiments.schema import FailureLabelimportFailureLabel.NULL_ANSWER๋ฑ enum ์ฌ์ฉ (string literal"null_answer"์ง์ ์ฌ์ฉ ํํผ)- ํ / ๋ณด๊ณ ์์ column header: enum value (์๋ฌธ์ snake_case) ์ฌ์ฉ
- ์๋ ๋ถ๋ฅ ๋ฏธ๊ตฌํ ํญ๋ชฉ (
EVIDENCE_MISS) ์ ์๋ ๋ผ๋ฒจ๋ง + disclosure ๋ช ์
EVIDENCE_MISS์๋ ๋ถ๋ฅ โ Critic Tool / Evidence Tool ๋์ ์ (conceptFramework ยง5)WRONG_SYNTHESIS์ sub-classification (๊ณ์ฐ ์ค๋ฅ vs ์ถ๋ก ์ค๋ฅ vs ์ถ์ฒ ์ค๋ฅ) โ ๋ณ๋ plan- ๋ค๊ตญ์ด ์๋ต ๋ถ๋ฅ โ ๋ณ๋ plan
โ ๋ชจ๋ ๋ณธ plan (Stage 2B) ์์ญ ์ธ. ์ฌ์ฉ์ ํฉ์ "์์ B" ์ ๋ต.
- 2026-04-30 v1: ์ด์. Stage 2B (
scorer-failure-label-reference) plan ์ task-03 ๊ฒฐ๊ณผ. ๋ถ์ฐ๋ ad-hoc ๋ผ๋ฒจ ํ์คํ.