o2o-plagiarism-ai/.env.example

41 lines
1.1 KiB
Bash

# 서버 바인딩 (uvicorn) - python -m app.main 실행 시 사용됨
HOST=0.0.0.0
PORT=8000
LOG_LEVEL=info
RELOAD=false
ENGINE_VERSION=o2o-plagiarism-2.1.0-kosimcse
REFERENCE_CORPUS_DIR=./data/reference
TAXONOMY_DIR=./data/taxonomy
AUTOBIOGRAPHY_PATTERNS_PATH=./data/autobiography/common_patterns.txt
# PDF VII-4 권장 보수적 임계값 (정밀도 우선)
SIMILARITY_THRESHOLD=0.85
# KoSimCSE / KoSBERT (PDF VII-3 권장 - 한국어 오픈소스 임베딩, 자체 산출물)
USE_KOSIMCSE=true
KOSIMCSE_MODEL=BM-K/KoSimCSE-roberta-multitask
KOSIMCSE_MAX_LENGTH=512
# OpenAI 연동 (옵션). KoSimCSE 있으면 임베딩은 비활성 권장.
OPENAI_API_KEY=
OPENAI_EXTRACTION_MODEL=gpt-4o-mini
OPENAI_EMBEDDING_MODEL=text-embedding-3-small
USE_LLM_EXTRACTOR=false
USE_EMBEDDING_SIMILARITY=false
# 삼중 유사도 가중치 (합이 1.0)
WEIGHT_TEXT_SIM=0.30
WEIGHT_LEMMA_SIM=0.45
WEIGHT_CHAR_SIM=0.15
WEIGHT_MOTIF_SIM=0.10
# PDF VII-3 3단 캐스케이딩 - MinHash + LSH 1차 필터
USE_LSH_FILTER=true
LSH_THRESHOLD=0.3
LSH_TOP_K=50
# PDF VII-4 자서전 특화 모드 (공통 표현 제거 + NER 마스킹)
AUTOBIOGRAPHY_MODE=true
ENABLE_ENTITY_MASKING=true