o2o-plagiarism-ai/reports/REPORT.md

2.0 KiB
Raw Blame History

사내 plagia_result 데이터셋 평가 리포트

  • 데이터셋: 표절 페어 499건 + 비표절 페어 499건 (총 999쌍)
  • 엔진 버전: o2o-plagiarism-1.2.0-hybrid-openai
  • 하이브리드 결합: score = α·meta_emb + (1-α)·lemma_overlap

1. 점수 분포 (POS vs NEG 분리도)

점수 POS 평균 NEG 평균 분리도 std(POS / NEG)
메타 임베딩 코사인 0.8632 0.6665 +0.1967 0.085 / 0.128
Lemma 교집합 비율 0.7807 0.2844 +0.4964 0.100 / 0.179

→ Lemma의 분리도가 메타보다 약 2.5배 넓음. 표절-비표절을 점수만으로 더 깨끗하게 구분 가능.

→ 그래프: reports/01_score_distributions.png

2. 모델별 최적 성능 (F1 최대화 threshold)

모델 Precision Recall F1 Threshold
기존 result.json (전임자 1단계 산출물) 0.9520 0.9560 0.9540 0.78
메타 임베딩 단독 0.7842 0.8720 0.8258 0.76
Lemma 단독 (구조 분석) 0.9391 0.9560 0.9475 0.59
하이브리드 α=0.30 (Recommended) 0.9278 0.9760 0.9513 0.63

→ 그래프: reports/02_threshold_curves.png, reports/03_model_comparison.png

3. Confusion Matrix (하이브리드 α=0.30, threshold=0.63)

예측: 표절 예측: 비표절
실제: 표절 TP = 488 FN = 12
실제: 비표절 FP = 38 TN = 461

4. 결론

  1. 전임자 가이드 검증 — "의미 스코어(메타 임베딩) + 구조 스코어(lemma 교집합) → 하이브리드" 구조가 실제 데이터로 입증됨
  2. Lemma가 핵심 신호 — augmented 케이스가 "어미·조사만 변경" 패턴이 많아 lemma 단독으로도 F1 0.9475 달성
  3. 하이브리드가 가장 안정 — 하이브리드 α=0.30에서 recall 0.9760 (표절을 거의 다 잡음)
  4. 권장 운영 임계치SIMILARITY_THRESHOLD=0.63, WEIGHT_TEXT_SIM=0.30, WEIGHT_LEMMA_SIM=0.45