2.0 KiB

Raw Blame History

사내 plagia_result 데이터셋 평가 리포트

데이터셋: 표절 페어 499건 + 비표절 페어 499건 (총 999쌍)
엔진 버전: o2o-plagiarism-1.2.0-hybrid-openai
하이브리드 결합: score = α·meta_emb + (1-α)·lemma_overlap

1. 점수 분포 (POS vs NEG 분리도)

점수	POS 평균	NEG 평균	분리도	std(POS / NEG)
메타 임베딩 코사인	0.8632	0.6665	+0.1967	0.085 / 0.128
Lemma 교집합 비율	0.7807	0.2844	+0.4964	0.100 / 0.179

→ Lemma의 분리도가 메타보다 약 2.5배 넓음. 표절-비표절을 점수만으로 더 깨끗하게 구분 가능.

→ 그래프: reports/01_score_distributions.png

2. 모델별 최적 성능 (F1 최대화 threshold)

모델	Precision	Recall	F1	Threshold
기존 result.json (전임자 1단계 산출물)	0.9520	0.9560	0.9540	0.78
메타 임베딩 단독	0.7842	0.8720	0.8258	0.76
Lemma 단독 (구조 분석)	0.9391	0.9560	0.9475	0.59
하이브리드 α=0.30 (Recommended)	0.9278	0.9760	0.9513	0.63

→ 그래프: reports/02_threshold_curves.png, reports/03_model_comparison.png

3. Confusion Matrix (하이브리드 α=0.30, threshold=0.63)

	예측: 표절	예측: 비표절
실제: 표절	TP = 488	FN = 12
실제: 비표절	FP = 38	TN = 461

4. 결론

전임자 가이드 검증 — "의미 스코어(메타 임베딩) + 구조 스코어(lemma 교집합) → 하이브리드" 구조가 실제 데이터로 입증됨
Lemma가 핵심 신호 — augmented 케이스가 "어미·조사만 변경" 패턴이 많아 lemma 단독으로도 F1 0.9475 달성
하이브리드가 가장 안정 — 하이브리드 α=0.30에서 recall 0.9760 (표절을 거의 다 잡음)
권장 운영 임계치 — SIMILARITY_THRESHOLD=0.63, WEIGHT_TEXT_SIM=0.30, WEIGHT_LEMMA_SIM=0.45