# 사내 plagia_result 데이터셋 평가 리포트 - **데이터셋**: 표절 페어 499건 + 비표절 페어 499건 (총 999쌍) - **엔진 버전**: o2o-plagiarism-1.2.0-hybrid-openai - **하이브리드 결합**: `score = α·meta_emb + (1-α)·lemma_overlap` ## 1. 점수 분포 (POS vs NEG 분리도) | 점수 | POS 평균 | NEG 평균 | **분리도** | std(POS / NEG) | |---|---|---|---|---| | 메타 임베딩 코사인 | 0.8632 | 0.6665 | **+0.1967** | 0.085 / 0.128 | | **Lemma 교집합 비율** | **0.7807** | **0.2844** | **+0.4964** | 0.100 / 0.179 | → Lemma의 분리도가 메타보다 약 2.5배 넓음. 표절-비표절을 점수만으로 더 깨끗하게 구분 가능. → 그래프: `reports/01_score_distributions.png` ## 2. 모델별 최적 성능 (F1 최대화 threshold) | 모델 | Precision | Recall | **F1** | Threshold | |---|---|---|---|---| | 기존 result.json (전임자 1단계 산출물) | 0.9520 | 0.9560 | **0.9540** | 0.78 | | 메타 임베딩 단독 | 0.7842 | 0.8720 | 0.8258 | 0.76 | | **Lemma 단독** (구조 분석) | **0.9391** | **0.9560** | **0.9475** | 0.59 | | **하이브리드 α=0.30** (Recommended) | **0.9278** | **0.9760** | **0.9513** | 0.63 | → 그래프: `reports/02_threshold_curves.png`, `reports/03_model_comparison.png` ## 3. Confusion Matrix (하이브리드 α=0.30, threshold=0.63) | | 예측: 표절 | 예측: 비표절 | |---|---|---| | **실제: 표절** | TP = 488 | FN = 12 | | **실제: 비표절** | FP = 38 | TN = 461 | ## 4. 결론 1. **전임자 가이드 검증** — "의미 스코어(메타 임베딩) + 구조 스코어(lemma 교집합) → 하이브리드" 구조가 실제 데이터로 입증됨 2. **Lemma가 핵심 신호** — augmented 케이스가 "어미·조사만 변경" 패턴이 많아 lemma 단독으로도 F1 0.9475 달성 3. **하이브리드가 가장 안정** — 하이브리드 α=0.30에서 recall 0.9760 (표절을 거의 다 잡음) 4. **권장 운영 임계치** — `SIMILARITY_THRESHOLD=0.63`, `WEIGHT_TEXT_SIM=0.30`, `WEIGHT_LEMMA_SIM=0.45`