robots.txt
Definición
Archivo de texto en /robots.txt que da instrucciones a los crawlers (Googlebot, Bingbot, etc.) sobre qué partes del sitio pueden visitar. Sintaxis: User-agent + Allow/Disallow + Sitemap.
Por qué importa
Un Disallow mal puesto es la forma más rápida de desindexar un sitio entero por error. Es el archivo que más cuidado merece en cada deploy.
Cómo aplicarlo
- 01Bloquea solo lo que no debe ser crawled, nunca por defecto. Si no estás seguro, no bloquees.
- 02Incluye Sitemap: <url> al final para que Google lo descubra.
- 03Disallow no es lo mismo que noindex — Disallow bloquea crawl pero la URL puede aparecer en SERP sin descripción.
- 04Verifica con Google Search Console → robots.txt tester antes de cada deploy.