🔬 AEO Lab - AI Crawler Experiment

실험 목적: AI 크롤러(GPTBot, ClaudeBot, PerplexityBot)의 실제 크롤링 행동과 LLM 인용 패턴을 정량적으로 관찰

총 실험 페이지: 12개 | 렌더링 방식: CSR 1개, SSG 2개, SSR 2개 | 검증 영역: 4개

🎯 검증할 4가지 가설

가설	검증 방법	관련 페이지
1. 렌더링 방식 CSR은 인용 실패, SSR/SSG는 성공	각 URL을 LLM에 "이 URL만 근거로 요약" 요청	CSR, SSG, SSR 페이지
2. 문서 구조 헤더/리스트가 있으면 인용률 상승	인용된 문단이 헤더 단위로 매핑되는지 확인	long, short, headers-lists
3. 메타/스키마 Article/FAQ 스키마가 출처 표시에 유리	동일 질의에서 스키마 페이지 인용 빈도 비교	article, faq
4. 이미지 인식 alt 속성이 있으면 반영률 상승	"이미지까지 포함해 요약" 프롬프트 테스트	with-alt, no-alt, text-in-image

📁 실험 페이지 목록

🔄 렌더링 방식 테스트 (5개)

CSR Page - 클라이언트 사이드 렌더링 (JavaScript 필수)
SSG Readme - 정적 생성 (단순 페이지)
SSG Chunks - 정적 생성 (구조화 페이지)
SSR Readme - 서버 사이드 렌더링 (단순)
SSR Chunks - 서버 사이드 렌더링 (구조화)

📄 문서 구조 테스트 (3개)

Long Document - 3000자 연속 문단 (헤더 없음)
Short Document - 300자 짧은 문서
Structured Document - H1/H2/H3 + 리스트 + 표

🏷️ Schema.org 테스트 (2개)

Article Schema - JSON-LD Article 스키마
FAQ Schema - JSON-LD FAQPage 스키마

🖼️ 이미지 인식 테스트 (3개)

Image with ALT - alt + figcaption 포함
Image without ALT - alt 속성 없음
Text in Image - 이미지 내 텍스트 OCR 테스트

🧪 실험 방법

1단계: 크롤링 확인 (배포 후 24-72시간)

Cloudflare Analytics → Bot Analytics에서 User-Agent 필터 확인
GPTBot, ClaudeBot, PerplexityBot의 방문 로그 분석
어떤 페이지를 먼저 크롤링했는지 순서 확인

2단계: LLM 인용 테스트

ChatGPT 테스트:

"https://aeo-experiment.pages.dev/ssr-readme 이 URL만 근거로 요약하고 출처 링크 포함해줘"

Claude 테스트:

"이미지까지 포함해서 https://aeo-experiment.pages.dev/images/with-alt.html 요약해줘"

Perplexity 테스트:

"What information is available at https://aeo-experiment.pages.dev/schema/faq.html?"

3단계: 패턴 분석

CSR vs SSR/SSG: 어느 쪽이 더 자주 인용되는가?
long vs short vs headers-lists: 어떤 구조가 인용률이 높은가?
article vs faq: 어떤 스키마가 출처 표시에 유리한가?
with-alt vs no-alt: alt 속성이 이미지 인식에 영향을 미치는가?

📊 관찰 포인트

robots.txt 요청 시점 - 크롤러가 처음 방문 시 robots.txt를 조회하는가?
sitemap.xml 활용 - sitemap에 등록된 페이지를 우선 크롤링하는가?
렌더링 방식 차이 - CSR 페이지는 빈 페이지로 인식되는가?
구조화 우선순위 - 헤더/리스트가 있는 페이지의 인용률이 높은가?
스키마 인식 - JSON-LD 스키마가 실제 인용에 영향을 주는가?
이미지 처리 - ClaudeBot vs GPTBot의 이미지 크롤링 차이

🔗 리소스

robots.txt - 크롤러 정책 확인
sitemap.xml - 전체 페이지 목록
Claude Code - 이 사이트를 생성한 도구