o2o-plagiarism-ai/reports/REPORT.md

42 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 사내 plagia_result 데이터셋 평가 리포트
- **데이터셋**: 표절 페어 499건 + 비표절 페어 499건 (총 999쌍)
- **엔진 버전**: o2o-plagiarism-1.2.0-hybrid-openai
- **하이브리드 결합**: `score = α·meta_emb + (1-α)·lemma_overlap`
## 1. 점수 분포 (POS vs NEG 분리도)
| 점수 | POS 평균 | NEG 평균 | **분리도** | std(POS / NEG) |
|---|---|---|---|---|
| 메타 임베딩 코사인 | 0.8632 | 0.6665 | **+0.1967** | 0.085 / 0.128 |
| **Lemma 교집합 비율** | **0.7807** | **0.2844** | **+0.4964** | 0.100 / 0.179 |
→ Lemma의 분리도가 메타보다 약 2.5배 넓음. 표절-비표절을 점수만으로 더 깨끗하게 구분 가능.
→ 그래프: `reports/01_score_distributions.png`
## 2. 모델별 최적 성능 (F1 최대화 threshold)
| 모델 | Precision | Recall | **F1** | Threshold |
|---|---|---|---|---|
| 기존 result.json (전임자 1단계 산출물) | 0.9520 | 0.9560 | **0.9540** | 0.78 |
| 메타 임베딩 단독 | 0.7842 | 0.8720 | 0.8258 | 0.76 |
| **Lemma 단독** (구조 분석) | **0.9391** | **0.9560** | **0.9475** | 0.59 |
| **하이브리드 α=0.30** (Recommended) | **0.9278** | **0.9760** | **0.9513** | 0.63 |
→ 그래프: `reports/02_threshold_curves.png`, `reports/03_model_comparison.png`
## 3. Confusion Matrix (하이브리드 α=0.30, threshold=0.63)
| | 예측: 표절 | 예측: 비표절 |
|---|---|---|
| **실제: 표절** | TP = 488 | FN = 12 |
| **실제: 비표절** | FP = 38 | TN = 461 |
## 4. 결론
1. **전임자 가이드 검증** — "의미 스코어(메타 임베딩) + 구조 스코어(lemma 교집합) → 하이브리드" 구조가 실제 데이터로 입증됨
2. **Lemma가 핵심 신호** — augmented 케이스가 "어미·조사만 변경" 패턴이 많아 lemma 단독으로도 F1 0.9475 달성
3. **하이브리드가 가장 안정** — 하이브리드 α=0.30에서 recall 0.9760 (표절을 거의 다 잡음)
4. **권장 운영 임계치** — `SIMILARITY_THRESHOLD=0.63`, `WEIGHT_TEXT_SIM=0.30`, `WEIGHT_LEMMA_SIM=0.45`