Task #1560: 한글 페이지 충실도 오라클 정식화 (tools/verify_hangul_pages.py)#1563
Merged
Conversation
IR 게이트(hwpx/hwp5-roundtrip)·rhwp 페이지수가 못 잡는 한글 전용 페이지 붕괴 (예: edwardkim#1557 secCnt, 잔여 2→1)를 검출하는 정식 도구. 원본↔rt 한글 PageCount 배치 비교 → OK/COLLAPSE/EXPAND, COLLAPSE 시 종료 코드 1(게이트). - --batch <원본> <rt> | --inventory <tsv> --orig-root --rt-root (roundtrip 연동) - --status 필터, --sample/--seed(재현), --pdf(PyMuPDF 교차검증) - 출력에 git HEAD 기록(stale-binary 측정오보 봉인), 파일별 예외 격리 - 매뉴얼 mydocs/manual/hangul_page_oracle.md, 임시 t3 스크립트 일원화 검증: 36382669 OK(8→8), 36384160·36387103 COLLAPSE, --sample 45 가 2% 재현. 순수 도구/문서(rhwp 소스 무변경). closes edwardkim#1560 Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
6489cf4 to
a80fdb0
Compare
Collaborator
|
@planet6897 감사합니다. 최신 devel 기준으로 branch update 후 CI를 다시 확인하고 merge 완료했습니다. 검증 결과:
merge commit: 04a7397 |
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.This suggestion is invalid because no changes were made to the code.Suggestions cannot be applied while the pull request is closed.Suggestions cannot be applied while viewing a subset of changes.Only one suggestion per line can be applied in a batch.Add this suggestion to a batch that can be applied as a single commit.Applying suggestions on deleted lines is not supported.You must change the existing code in this line in order to create a valid suggestion.Outdated suggestions cannot be applied.This suggestion has been applied or marked resolved.Suggestions cannot be applied from pending reviews.Suggestions cannot be applied on multi-line comments.Suggestions cannot be applied while the pull request is queued to merge.Suggestion cannot be applied right now. Please check back later.
개요
IR 게이트(
hwpx-roundtrip/hwp5-roundtrip)나 rhwp 자체 페이지수로는 검출되지 않는 한글 전용 페이지 붕괴(예: #1557 secCnt — IR diff=0 PASS 인데 한글 8→1, 잔여 단일구역 2→1)를 검출하는 정식 도구tools/verify_hangul_pages.py를 신설합니다 (closes #1560).동기
무손실 검증 3회(v1~v3)에서, 가장 심각한 결함이 한글 오라클만 검출함이 반복 실증됐습니다. 그 검증이 임시 스크립트로 흩어져 재현·유지가 안 됐습니다. CLAUDE.md 권위 등급상 Windows+한컴에디터 = 1차 정답지이므로 1급 도구로 승격합니다.
도구
--batch <원본> <rt>|--inventory <tsv> --orig-root --rt-root(roundtrip 산출 연동).PageCount비교 →OK/COLLAPSE/EXPAND/ERR.--status필터,--sample N --seed S(재현 표본),--pdf(PyMuPDF 교차검증).tools/verify_hwpx.py컨벤션 합류.검증
--sample 45 --seed 42가 v3 측정(1/45=2% 붕괴)을 정확 재현.한계 / 후속
근거:
output/poc/fidelity3/report.md,mydocs/manual/hangul_page_oracle.md. 관련: #1557, #1556, #1554.🤖 Generated with Claude Code