Task #1564: opengov 고정 실문서 회귀 말뭉치 + 스냅샷 게이트#1566
Merged
Merged
Conversation
22efe73 to
a7a9ca1
Compare
a7a9ca1 to
dc8ac2e
Compare
hwpdocs(수집기로 건수 변동, 비재현) 대신 정보공개 결재문서 대표 8건(1.7MB)을 samples/hwpx/opengov/ 로 동결. 재현 가능·게이트 가능한 충실도 회귀 기준선. - tests/opengov_corpus_snapshot.rs + tests/fixtures/opengov_snapshot.tsv: parse→serialize→reparse status/diff 를 골든과 비교 — 악화→실패(회귀), 개선→실패(스냅샷 승격 강제). Linux CI 가능(diff=0 baseline 과 별개). - hwpx_roundtrip_baseline 은 opengov 하위 제외(자체 스냅샷 게이트). - 한글 verdict 는 tools/verify_hangul_pages.py(edwardkim#1560)로 별도 — 36382669 OK 8→8 로 edwardkim#1557 secCnt 회귀 상시 감시. - PII 방침 A(이미 공개 정보공개 문서). 매뉴얼 mydocs/manual/opengov_corpus.md. closes edwardkim#1564 Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
dc8ac2e to
411765e
Compare
Collaborator
|
@planet6897 감사합니다. 최신 devel 기준으로 branch update 후 CI를 다시 확인하고 merge 완료했습니다. 추가 처리:
remote 검증 결과:
|
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.This suggestion is invalid because no changes were made to the code.Suggestions cannot be applied while the pull request is closed.Suggestions cannot be applied while viewing a subset of changes.Only one suggestion per line can be applied in a batch.Add this suggestion to a batch that can be applied as a single commit.Applying suggestions on deleted lines is not supported.You must change the existing code in this line in order to create a valid suggestion.Outdated suggestions cannot be applied.This suggestion has been applied or marked resolved.Suggestions cannot be applied from pending reviews.Suggestions cannot be applied on multi-line comments.Suggestions cannot be applied while the pull request is queued to merge.Suggestion cannot be applied right now. Please check back later.
개요
무손실 검증 대상이던
hwpdocs(수집기로 건수가 계속 변해 재현 불가)를 대신해, opengov 정보공개 결재문서 **클래스별 대표 8건(1.7MB)**을samples/hwpx/opengov/로 동결하고 재현 가능·게이트 가능한 충실도 회귀 기준선을 신설합니다 (closes #1564).말뭉치 (클래스 커버)
PII 방침: A(그대로 동결) — 이미 공개된 정보공개 문서. (12MB 대형은 제외, repo 비대화 회피)
두 갈래 게이트
tests/opengov_corpus_snapshot.rs+tests/fixtures/opengov_snapshot.tsv): parse→serialize→reparse status/diff 를 골든과 비교. 악화→실패(회귀), 개선→실패(스냅샷 승격 강제). Linux CI 가능.cargo test: 2 passed.hwpx_roundtrip_baseline은 opengov 하위 제외(자체 스냅샷). baseline 4 passed.한계 / 후속
근거:
mydocs/manual/opengov_corpus.md,output/poc/fidelity3/report.md. 관련: #1557, #1560, #1556.🤖 Generated with Claude Code