2.0 KiB
2.0 KiB
사내 plagia_result 데이터셋 평가 리포트
- 데이터셋: 표절 페어 499건 + 비표절 페어 499건 (총 999쌍)
- 엔진 버전: o2o-plagiarism-1.2.0-hybrid-openai
- 하이브리드 결합:
score = α·meta_emb + (1-α)·lemma_overlap
1. 점수 분포 (POS vs NEG 분리도)
| 점수 | POS 평균 | NEG 평균 | 분리도 | std(POS / NEG) |
|---|---|---|---|---|
| 메타 임베딩 코사인 | 0.8632 | 0.6665 | +0.1967 | 0.085 / 0.128 |
| Lemma 교집합 비율 | 0.7807 | 0.2844 | +0.4964 | 0.100 / 0.179 |
→ Lemma의 분리도가 메타보다 약 2.5배 넓음. 표절-비표절을 점수만으로 더 깨끗하게 구분 가능.
→ 그래프: reports/01_score_distributions.png
2. 모델별 최적 성능 (F1 최대화 threshold)
| 모델 | Precision | Recall | F1 | Threshold |
|---|---|---|---|---|
| 기존 result.json (전임자 1단계 산출물) | 0.9520 | 0.9560 | 0.9540 | 0.78 |
| 메타 임베딩 단독 | 0.7842 | 0.8720 | 0.8258 | 0.76 |
| Lemma 단독 (구조 분석) | 0.9391 | 0.9560 | 0.9475 | 0.59 |
| 하이브리드 α=0.30 (Recommended) | 0.9278 | 0.9760 | 0.9513 | 0.63 |
→ 그래프: reports/02_threshold_curves.png, reports/03_model_comparison.png
3. Confusion Matrix (하이브리드 α=0.30, threshold=0.63)
| 예측: 표절 | 예측: 비표절 | |
|---|---|---|
| 실제: 표절 | TP = 488 | FN = 12 |
| 실제: 비표절 | FP = 38 | TN = 461 |
4. 결론
- 전임자 가이드 검증 — "의미 스코어(메타 임베딩) + 구조 스코어(lemma 교집합) → 하이브리드" 구조가 실제 데이터로 입증됨
- Lemma가 핵심 신호 — augmented 케이스가 "어미·조사만 변경" 패턴이 많아 lemma 단독으로도 F1 0.9475 달성
- 하이브리드가 가장 안정 — 하이브리드 α=0.30에서 recall 0.9760 (표절을 거의 다 잡음)
- 권장 운영 임계치 —
SIMILARITY_THRESHOLD=0.63,WEIGHT_TEXT_SIM=0.30,WEIGHT_LEMMA_SIM=0.45