o2o-plagiarism-ai/reports/REPORT.md

# 사내 plagia_result 데이터셋 평가 리포트

- **데이터셋**: 표절 페어 499건 + 비표절 페어 499건 (총 999쌍)
- **엔진 버전**: o2o-plagiarism-1.2.0-hybrid-openai
- **하이브리드 결합**: `score = α·meta_emb + (1-α)·lemma_overlap`

## 1. 점수 분포 (POS vs NEG 분리도)

| 점수 | POS 평균 | NEG 평균 | **분리도** | std(POS / NEG) |
|---|---|---|---|---|
| 메타 임베딩 코사인 | 0.8632 | 0.6665 | **+0.1967** | 0.085 / 0.128 |
| **Lemma 교집합 비율** | **0.7807** | **0.2844** | **+0.4964** | 0.100 / 0.179 |

→ Lemma의 분리도가 메타보다 약 2.5배 넓음. 표절-비표절을 점수만으로 더 깨끗하게 구분 가능.

→ 그래프: `reports/01_score_distributions.png`

## 2. 모델별 최적 성능 (F1 최대화 threshold)

| 모델 | Precision | Recall | **F1** | Threshold |
|---|---|---|---|---|
| 기존 result.json (전임자 1단계 산출물) | 0.9520 | 0.9560 | **0.9540** | 0.78 |
| 메타 임베딩 단독 | 0.7842 | 0.8720 | 0.8258 | 0.76 |
| **Lemma 단독** (구조 분석) | **0.9391** | **0.9560** | **0.9475** | 0.59 |
| **하이브리드 α=0.30** (Recommended) | **0.9278** | **0.9760** | **0.9513** | 0.63 |

→ 그래프: `reports/02_threshold_curves.png`, `reports/03_model_comparison.png`

## 3. Confusion Matrix (하이브리드 α=0.30, threshold=0.63)

| | 예측: 표절 | 예측: 비표절 |
|---|---|---|
| **실제: 표절** | TP = 488 | FN = 12 |
| **실제: 비표절** | FP = 38 | TN = 461 |

## 4. 결론

1. **전임자 가이드 검증** — "의미 스코어(메타 임베딩) + 구조 스코어(lemma 교집합) → 하이브리드" 구조가 실제 데이터로 입증됨
2. **Lemma가 핵심 신호** — augmented 케이스가 "어미·조사만 변경" 패턴이 많아 lemma 단독으로도 F1 0.9475 달성
3. **하이브리드가 가장 안정** — 하이브리드 α=0.30에서 recall 0.9760 (표절을 거의 다 잡음)
4. **권장 운영 임계치** — `SIMILARITY_THRESHOLD=0.63`, `WEIGHT_TEXT_SIM=0.30`, `WEIGHT_LEMMA_SIM=0.45`