36 lines
1.1 KiB
Bash
36 lines
1.1 KiB
Bash
API_KEYS=combooks-key-change-me,baikal-key-change-me
|
|
ENGINE_VERSION=o2o-plagiarism-2.1.0-kosimcse
|
|
REFERENCE_CORPUS_DIR=./data/reference
|
|
TAXONOMY_DIR=./data/taxonomy
|
|
AUTOBIOGRAPHY_PATTERNS_PATH=./data/autobiography/common_patterns.txt
|
|
|
|
# PDF VII-4 권장 보수적 임계값 (정밀도 우선)
|
|
SIMILARITY_THRESHOLD=0.85
|
|
|
|
# KoSimCSE / KoSBERT (PDF VII-3 권장 - 한국어 오픈소스 임베딩, 자체 산출물)
|
|
USE_KOSIMCSE=true
|
|
KOSIMCSE_MODEL=BM-K/KoSimCSE-roberta-multitask
|
|
KOSIMCSE_MAX_LENGTH=512
|
|
|
|
# OpenAI 연동 (옵션). KoSimCSE 있으면 임베딩은 비활성 권장.
|
|
OPENAI_API_KEY=
|
|
OPENAI_EXTRACTION_MODEL=gpt-4o-mini
|
|
OPENAI_EMBEDDING_MODEL=text-embedding-3-small
|
|
USE_LLM_EXTRACTOR=false
|
|
USE_EMBEDDING_SIMILARITY=false
|
|
|
|
# 삼중 유사도 가중치 (합이 1.0)
|
|
WEIGHT_TEXT_SIM=0.30
|
|
WEIGHT_LEMMA_SIM=0.45
|
|
WEIGHT_CHAR_SIM=0.15
|
|
WEIGHT_MOTIF_SIM=0.10
|
|
|
|
# PDF VII-3 3단 캐스케이딩 - MinHash + LSH 1차 필터
|
|
USE_LSH_FILTER=true
|
|
LSH_THRESHOLD=0.3
|
|
LSH_TOP_K=50
|
|
|
|
# PDF VII-4 자서전 특화 모드 (공통 표현 제거 + NER 마스킹)
|
|
AUTOBIOGRAPHY_MODE=true
|
|
ENABLE_ENTITY_MASKING=true
|