2.1 KiB

Raw Blame History

사내 plagia_result 데이터셋 평가 리포트 (v2.1.0-kosimcse)

데이터셋: 표절 페어 500건 + 비표절 페어 499건 (총 999쌍)
엔진 버전: o2o-plagiarism-2.1.0-kosimcse
운영 가중치: text(KoSimCSE) 0.3 / lemma 0.45 / char 0.15 / motif 0.1

1. 점수 컴포넌트 분포

점수	POS 평균	NEG 평균	분리도	std(POS/NEG)
메타 임베딩 (OpenAI, baseline)	0.8632	0.6665	+0.1967	0.085 / 0.128
KoSimCSE 본문 (자체)	0.9661	0.7346	+0.2315	0.023 / 0.138
Lemma 교집합	0.7807	0.2844	+0.4964	0.100 / 0.179

→ 그래프: reports/01_score_distributions.png

2. 모델별 최적 성능 (F1 최대화 threshold)

모델	Precision	Recall	F1	Threshold
기존 result.json (전임자 1단계)	0.9520	0.9560	0.9540	0.78
메타 임베딩 단독 (OpenAI)	0.7842	0.8720	0.8258	0.76
KoSimCSE 단독 (자체)	0.9231	0.9600	0.9412	0.91
Lemma 단독	0.9391	0.9560	0.9475	0.59
하이브리드 (운영 가중치) ⭐	0.9257	0.9720	0.9483	0.57

→ 그래프: reports/02_threshold_curves.png, reports/03_model_comparison.png

3. Confusion Matrix (하이브리드, threshold=0.57)

	예측: 표절	예측: 비표절
실제: 표절	TP = 486	FN = 14
실제: 비표절	FP = 39	TN = 460

4. 결론

KoSimCSE 도입으로 자체 산출물 정합성 확보 — OpenAI 의존 0, 호출 비용 0, 데이터 외부 노출 0
Lemma 컴포넌트가 단독으로도 강력 — F1 0.9475 (자서전 도메인의 어미 변경 표절을 결정적으로 잡음)
하이브리드가 가장 안정 — recall 0.9720 (실제 표절을 거의 다 잡음)
PDF v1.2 권장 임계값 0.85 와의 관계 — 본 평가는 plagia_result 데이터 (출판 콘텐츠) 기준 F1 최적치이며, 실제 자서전 도메인에서는 PDF 권장 0.85 적용을 우선 (정밀도 우선, 재현율 일부 손실 감수)