o2o-infinith-backend/app/integrations
Mina Choi fa32109658 fix(color_extractor): CSS .logo 패턴 우선순위 + lang/flag noise 필터 강화
문제: JK 성형외과 (jkplastic.com) 처럼 <h1 class="logo"><a>JK PLASTIC</a></h1>
형태로 logo 텍스트만 있고 진짜 이미지는 외부 CSS의 .logo { background-image: url(...) }
로 들어가는 사이트에서, generic <header> 첫 img 패턴이 한국어 깃발(lang-kor.png)을
먼저 잡아 잘못된 로고가 박혔음.

수정:
- find_logo_url_in_html 흐름 재정렬:
  1) class/id/alt/src 명시 + 부모 class="logo" + 중첩 img (specific)
  2) **외부 CSS 의 .logo background-image** ← generic 보다 앞으로 (class-based 라
     더 specific)
  3) <header>/<nav> 첫 img (가장 generic, 잘못 잡힐 위험)
- noise 필터 강화: lang-kor / lang-eng / flag / country / icon- / btn- / arrow /
  prev / next / search 같이 logo 아닌 게 명백한 src 는 모든 단계에서 skip

검증: JK 는 lang-kor.png → logo-color.png 로 정확히 잡힘.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-29 10:45:08 +09:00
..
llm fix(report): LLM 환각 잠금 — channel mapping 보호 + URL prefix + registry_data 2026-05-29 10:44:38 +09:00
__init__.py integration 1차 데이터 및 DB 정의, 테스트 2026-04-24 14:19:29 +09:00
apify.py 페북 수집·지표·저장 파이프라인 정리 2026-05-28 13:49:22 +09:00
azure_blob.py file 업로드 엔드포인트 추가 (Azure Blob 연동) 2026-05-19 16:13:31 +09:00
color_extractor.py fix(color_extractor): CSS .logo 패턴 우선순위 + lang/flag noise 필터 강화 2026-05-29 10:45:08 +09:00
firecrawl.py 브랜드 자산(로고/색상)·채널 로고 Vision 분석 추가 2026-05-27 13:27:39 +09:00
google_places.py integration 1차 데이터 및 DB 정의, 테스트 2026-04-24 14:19:29 +09:00
naver.py feat(plan): 네이버 블로그 채널 + brand_guide profile_photo 시스템 박기 2026-05-29 10:44:18 +09:00
vision.py fix(vision): channel logo describe — 3채널씩 청크 호출로 매칭 정확도 향상 2026-05-29 10:44:00 +09:00
youtube.py 브랜드 자산(로고/색상)·채널 로고 Vision 분석 추가 2026-05-27 13:27:39 +09:00