Skip to content

Task #1564: opengov 고정 실문서 회귀 말뭉치 + 스냅샷 게이트#1566

Merged
jangster77 merged 3 commits into
edwardkim:develfrom
planet6897:pr/task-1564-squash
Jun 26, 2026
Merged

Task #1564: opengov 고정 실문서 회귀 말뭉치 + 스냅샷 게이트#1566
jangster77 merged 3 commits into
edwardkim:develfrom
planet6897:pr/task-1564-squash

Conversation

@planet6897

Copy link
Copy Markdown
Contributor

개요

무손실 검증 대상이던 hwpdocs(수집기로 건수가 계속 변해 재현 불가)를 대신해, opengov 정보공개 결재문서 **클래스별 대표 8건(1.7MB)**을 samples/hwpx/opengov/ 로 동결하고 재현 가능·게이트 가능한 충실도 회귀 기준선을 신설합니다 (closes #1564).

단독 PR: upstream:devel 직상. corpus/테스트만 — source 수정(#1552/#1554/#1557)과 무관(IR 스냅샷은 #1557 secCnt 유무와 동일).

말뭉치 (클래스 커버)

클래스 파일 IR 한글
PASS 클린 36389298, 36384285 PASS OK
다중구역/secCnt 회귀가드(#1557) 36382669 PASS OK 8→8
표셀 pic 드롭(V2-B) 36388571, 36385464 IR_DIFF OK
char_shape 시프트(F3 #1556) 36383351, 36388853 IR_DIFF 36383351 COLLAPSE
잔여 2→1 붕괴 36387103 IR_DIFF COLLAPSE

PII 방침: A(그대로 동결) — 이미 공개된 정보공개 문서. (12MB 대형은 제외, repo 비대화 회피)

두 갈래 게이트

한계 / 후속

근거: mydocs/manual/opengov_corpus.md, output/poc/fidelity3/report.md. 관련: #1557, #1560, #1556.

🤖 Generated with Claude Code

hwpdocs(수집기로 건수 변동, 비재현) 대신 정보공개 결재문서 대표 8건(1.7MB)을
samples/hwpx/opengov/ 로 동결. 재현 가능·게이트 가능한 충실도 회귀 기준선.

- tests/opengov_corpus_snapshot.rs + tests/fixtures/opengov_snapshot.tsv:
  parse→serialize→reparse status/diff 를 골든과 비교 — 악화→실패(회귀),
  개선→실패(스냅샷 승격 강제). Linux CI 가능(diff=0 baseline 과 별개).
- hwpx_roundtrip_baseline 은 opengov 하위 제외(자체 스냅샷 게이트).
- 한글 verdict 는 tools/verify_hangul_pages.py(edwardkim#1560)로 별도 — 36382669 OK 8→8 로
  edwardkim#1557 secCnt 회귀 상시 감시.
- PII 방침 A(이미 공개 정보공개 문서). 매뉴얼 mydocs/manual/opengov_corpus.md.

closes edwardkim#1564

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
@planet6897 planet6897 force-pushed the pr/task-1564-squash branch from dc8ac2e to 411765e Compare June 26, 2026 12:24
@jangster77 jangster77 merged commit a66da26 into edwardkim:devel Jun 26, 2026
8 checks passed
@jangster77

Copy link
Copy Markdown
Collaborator

@planet6897 감사합니다. 최신 devel 기준으로 branch update 후 CI를 다시 확인하고 merge 완료했습니다.

추가 처리:

  • 최신 devel 반영 뒤 opengov 말뭉치 결과가 3건 개선되어 tests/fixtures/opengov_snapshot.tsv 승격 보정 커밋을 PR head에 추가했습니다.
  • 로컬 확인: cargo test --profile release-test --test opengov_corpus_snapshot pass, git diff --check pass

remote 검증 결과:

  • Build & Test: pass
  • CodeQL/Analyze: pass
  • WASM Build: skipped

merge commit: a66da26
관련 이슈 #1564 는 이미 close 상태임을 확인했습니다.

@planet6897 planet6897 deleted the pr/task-1564-squash branch June 27, 2026 02:13
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants