AI Readable Gazette KR

// v8.18

대한민국 관보 · OCR 보정 파생 코퍼스 · 사전 기반 단어 보정

불러오는 중…

관보는 이미 공개되어 있다. 다만 PDF 안에 갇혀 있어 기계가 바로 다루기 어렵다. 이 저장소는 2020–2026 관보 약 13만 건을 Markdown으로 재인덱싱하고, OCR에서 깨진 글자를 사전 기반으로 누적 보정한 파생 코퍼스다. 사람이 읽기 좋은 화면은 그 위에서 얼마든지 다양하게 만들 수 있다. 여기는 그 화면들이 공통으로 딛고 설 수 있는 아래층이다.

범위
문서
발행일 묶음
기관
사전
v1 → v7

바로 가기

추천 진입점 · 한 번 눌러 이동

시계열

월별 밀도 · 진할수록 문서 수 많음 · 막대를 누르면 이동

최신 발행일

최신 발행일 묶음 · 날짜를 누르면 전체 목록 열기

기관

정부 계통별 분류 · 펼치면 개별 기관 보기

둘러보기

날짜, 기관, 제목 검색으로 찾기

날짜나 기관을 고르거나 검색 탭으로 전환하세요.

안내

관보는 이미 공개되어 있다. 이 프로젝트는 "무엇을 더 공개할 것인가"가 아니라 "이미 공개된 것을 어떻게 하면 실제로 활용할 수 있게 만들 것인가"에 답하려는 시도다.

왜 이 작업이 필요한가

정부 데이터는 이미 많이 공개되어 있다. 관보 PDF, 법령 전문, 공직자 인사발령 공고, 각종 고시·공고가 포털에서 내려받을 수 있다. 그런데 막상 쓰려 하면 비용이 다시 발생한다. PDF 안에 텍스트가 뒤엉켜 있고, OCR이 깨지고, 표 구조가 훼손되고, 조문 간 연결이 끊어져 있다. 결과적으로 연구자·기자·개발자·시민단체· 공무원이 같은 관보를 각자 다시 파싱하고 다시 정제하는 전처리 비용을 사회 전체가 반복해서 부담한다.

"공개되어 있다"와 "쓸 수 있다"는 같지 않다. 이 간극이 지금 공공 투명성의 숨은 병목이다. 비밀이 아니라, 기계가 바로 읽지 못하는 상태가 실질적인 한계를 만든다.

이 저장소는 그 반복 비용을 한 번에 줄이려는 작은 시도다. 모든 사람이 곧 자기만의 AI 도구를 쓰게 될 것이고, 그 도구가 관보를 읽고 요약하고 비교할 때, 아래에 안정적인 기반 코퍼스가 깔려 있어야 그 위의 설명·요약·비교가 자연스럽게 만들어질 수 있다고 본다. 사람이 읽기 좋은 화면은 서비스 레이어다. 그 아래 기반 레이어가 먼저 필요하다.

출처와 흐름

대한민국 행정안전부 전자관보 (gwanbo.go.kr)
        │
        │  PDF → opendataloader OCR → readable-final markdown
        ▼
사전 기반 보정 (scripts/build_readable_corrected.py)
        │
        ▼
derived/readable-corrected/ + GitHub Pages 리더
(이 저장소, ai-readable-gazette-kr)

원천 PDF 는 정부 공공데이터, 보정 스크립트는 MIT 공개. 외부 비공개 의존성 없이 누구든 처음부터 동일한 결과를 만들 수 있다.

보정 방법

1,474개 날짜 폴더 × 약 87개 문서 평균 = 128,403개 관보 md 전량을 한 번의 파이프라인으로 통과시킨다. 다섯 개 phrase 사전 → regex 패턴 → 전역 단일 문자 치환 → phrase 재적용의 2-pass 구조다.

전역 단일 문자 치환은 이웃 문자 분포를 샘플 스캔으로 검증한 후에만 추가한다. 충돌하는 phrase 규칙은 선행 사전에 등록해서 2-pass 파이프라인이 순서를 보장한다.

v4 ~ v7 검증된 치환

버전단일 문자근거
v4옄→위, 뮈→번, 픸→호이웃 분포 단일 매핑 수렴
v5왴→이, 앀→외, 솤→스, 큌→테, 롴→르, 퐄→프외래어·조사 일관
v6뵄→비뵄고·설비 계열
v7죁→직직업·직물 계열

regex 패턴

  • (\d{4})끄 → \1년 — 연도 접미어, 약 40,000건
  • (\d+)묀뢬미(퀰|만) → \1개월미만

핵심 원칙

  • 원문 우선
  • 읽기 쉬운 형태는 그다음
  • 과장보다 정확성
  • 대시보드보다 신뢰
  • 캠페인보다 아카이브

중요 정책

한 글자 전역 치환은 이웃 분포 검증 후에만. 과거 벀→모친, 릨→부친 무작정 전역 치환으로 "모친동산", "고지거모친" 같은 과보정 사고가 있었다. 현재는 1000+ 샘플에서 단일 매핑 수렴을 확인하고, phrase 선행 등록으로 충돌을 방지한다.

라이선스

원천 관보는 대한민국 정부 공공데이터다. 보정 스크립트 및 파생 코퍼스는 공익 목적 재배포를 전제로 한다.