Go to file
Mina Choi fa32109658 fix(color_extractor): CSS .logo 패턴 우선순위 + lang/flag noise 필터 강화
문제: JK 성형외과 (jkplastic.com) 처럼 <h1 class="logo"><a>JK PLASTIC</a></h1>
형태로 logo 텍스트만 있고 진짜 이미지는 외부 CSS의 .logo { background-image: url(...) }
로 들어가는 사이트에서, generic <header> 첫 img 패턴이 한국어 깃발(lang-kor.png)을
먼저 잡아 잘못된 로고가 박혔음.

수정:
- find_logo_url_in_html 흐름 재정렬:
  1) class/id/alt/src 명시 + 부모 class="logo" + 중첩 img (specific)
  2) **외부 CSS 의 .logo background-image** ← generic 보다 앞으로 (class-based 라
     더 specific)
  3) <header>/<nav> 첫 img (가장 generic, 잘못 잡힐 위험)
- noise 필터 강화: lang-kor / lang-eng / flag / country / icon- / btn- / arrow /
  prev / next / search 같이 logo 아닌 게 명백한 src 는 모든 단계에서 skip

검증: JK 는 lang-kor.png → logo-color.png 로 정확히 잡힘.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-29 10:45:08 +09:00
SQL file 업로드 엔드포인트 추가 (Azure Blob 연동) 2026-05-19 16:13:31 +09:00
app fix(color_extractor): CSS .logo 패턴 우선순위 + lang/flag noise 필터 강화 2026-05-29 10:45:08 +09:00
docs api 1차 포매팅 2026-04-20 14:41:00 +09:00
.gitignore instagram externalurl 수집 비활성화 (LLM이 혼동을 일으킴) 2026-05-20 18:36:29 +09:00
Dockerfile 1차 인프라 구성 2026-04-20 13:52:31 +09:00
README.md integration 1차 데이터 및 DB 정의, 테스트 2026-04-24 14:19:29 +09:00
docker-compose.yml crawling check 2026-05-11 14:02:17 +09:00
requirements.txt 스크래핑 로직 점검 및 추가 2026-04-30 11:58:52 +09:00

README.md

o2o-infinith-backend

설치

Docker

curl -fsSL https://get.docker.com | sh

실행

docker compose up -d