PIPC Decision Insights
데이터 품질 Full Report
결측, 장르 품질, 검수 우선순위
원본 XML
3,990
결정문 본문
중복 ID
0
품질 점검
기타 장르
355
라벨 정제 대상
본문 0자
0
파서 기준
핵심 인사이트
- 원본 XML은 모두 수집됐지만 일부 과거 문서는 제목 필드에 본문이 결합되어 있다.
- 배경·주요내용 필드는 API XML에서 대부분 비어 있어 본문 분석은 주문·이유·결정요지·별지를 중심으로 해야 한다.
- 기타 장르와 고액 제재 사건은 다음 라벨 검수의 우선순위다.
전체 필드 결측률
장르별 주요 결측률
| document_category | title | applicant | order_text | reason_text | summary_text |
|---|---|---|---|---|---|
| complaint_or_interpretation | 0 | 0.121 | 0.0172 | 0.0172 | 0 |
| data_provision_request | 0 | 0.00787 | 0 | 0 | 0 |
| enforcement | 0.0789 | 0.206 | 0.023 | 0.00548 | 0.0559 |
| other | 0.355 | 0.454 | 0.0704 | 0.00563 | 0.29 |
| prior_review | 0 | 0.125 | 0 | 0 | 0 |
| privacy_impact_review | 0 | 0.00124 | 0 | 0 | 0 |
| public_system_inspection | 0 | 0.865 | 0 | 0 | 0 |
추가 검수 우선순위
| priority | target | count | reason |
|---|---|---|---|
| 1 | 고액 제재 사건 | 18 | 금액 추출과 병합 사건 검수가 필요 |
| 2 | 기타 장르 | 355 | 정책·해석·제공요청이 섞였을 가능성 |
| 3 | 제목 결측 | 198 | 과거 XML 구조 보정 필요 |
데이터 품질 보고서는 RAG와 회귀분석 전에 반드시 확인해야 한다. 특히 제목 결측·기타 장르·고액 사건은 수작업 검수 가치가 높다.