API_KEYS=combooks-key-change-me,baikal-key-change-me ENGINE_VERSION=o2o-plagiarism-2.1.0-kosimcse REFERENCE_CORPUS_DIR=./data/reference TAXONOMY_DIR=./data/taxonomy AUTOBIOGRAPHY_PATTERNS_PATH=./data/autobiography/common_patterns.txt # PDF VII-4 권장 보수적 임계값 (정밀도 우선) SIMILARITY_THRESHOLD=0.85 # KoSimCSE / KoSBERT (PDF VII-3 권장 - 한국어 오픈소스 임베딩, 자체 산출물) USE_KOSIMCSE=true KOSIMCSE_MODEL=BM-K/KoSimCSE-roberta-multitask KOSIMCSE_MAX_LENGTH=512 # OpenAI 연동 (옵션). KoSimCSE 있으면 임베딩은 비활성 권장. OPENAI_API_KEY= OPENAI_EXTRACTION_MODEL=gpt-4o-mini OPENAI_EMBEDDING_MODEL=text-embedding-3-small USE_LLM_EXTRACTOR=false USE_EMBEDDING_SIMILARITY=false # 삼중 유사도 가중치 (합이 1.0) WEIGHT_TEXT_SIM=0.30 WEIGHT_LEMMA_SIM=0.45 WEIGHT_CHAR_SIM=0.15 WEIGHT_MOTIF_SIM=0.10 # PDF VII-3 3단 캐스케이딩 - MinHash + LSH 1차 필터 USE_LSH_FILTER=true LSH_THRESHOLD=0.3 LSH_TOP_K=50 # PDF VII-4 자서전 특화 모드 (공통 표현 제거 + NER 마스킹) AUTOBIOGRAPHY_MODE=true ENABLE_ENTITY_MASKING=true