문제: JK 성형외과 (jkplastic.com) 처럼 <h1 class="logo"><a>JK PLASTIC</a></h1>
형태로 logo 텍스트만 있고 진짜 이미지는 외부 CSS의 .logo { background-image: url(...) }
로 들어가는 사이트에서, generic <header> 첫 img 패턴이 한국어 깃발(lang-kor.png)을
먼저 잡아 잘못된 로고가 박혔음.
수정:
- find_logo_url_in_html 흐름 재정렬:
1) class/id/alt/src 명시 + 부모 class="logo" + 중첩 img (specific)
2) **외부 CSS 의 .logo background-image** ← generic 보다 앞으로 (class-based 라
더 specific)
3) <header>/<nav> 첫 img (가장 generic, 잘못 잡힐 위험)
- noise 필터 강화: lang-kor / lang-eng / flag / country / icon- / btn- / arrow /
prev / next / search 같이 logo 아닌 게 명백한 src 는 모든 단계에서 skip
검증: JK 는 lang-kor.png → logo-color.png 로 정확히 잡힘.
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
|
||
|---|---|---|
| .. | ||
| api | ||
| common | ||
| integrations | ||
| models | ||
| services | ||
| main.py | ||
| mock_urls.py | ||