robots.txt

¿Qué es el archivo robots.txt?

El archivo robots.txt es un archivo de texto simple que se coloca en la raíz de un sitio web (por ejemplo: www.tusitio.com/robots.txt). Su objetivo principal es indicar a los motores de búsqueda qué partes de tu web pueden o no pueden ser rastreadas.

¿Para qué sirve el archivo robots.txt?

  • Controlar el acceso de los bots: Permite bloquear o permitir a los rastreadores web acceder a ciertas páginas o directorios.
  • Optimizar el rastreo: Ayuda a los motores de búsqueda a centrarse solo en las páginas importantes.
  • Proteger contenido sensible: Evita que partes duplicadas o irrelevantes de tu web sean indexadas.
  • Especificar la ubicación del sitemap: Facilita el rastreo al indicar dónde está el archivo sitemap.xml.

Ejemplo básico de robots.txt

User-agent: *
Disallow: /admin/
Disallow: /carrito/
Allow: /blog/

Sitemap: https://www.tusitio.com/sitemap.xml

En este ejemplo:

  • User-agent: * indica que las reglas aplican a todos los rastreadores.
  • Disallow: bloquea el acceso a las carpetas /admin/ y /carrito/.
  • Allow: permite el rastreo de la carpeta /blog/.
  • Sitemap: especifica la ubicación del sitemap.xml.

Importancia del robots.txt para el SEO

El archivo robots.txt tiene un impacto directo en tu estrategia SEO, ya que:

  • Evita que contenido duplicado afecte tu clasificación en motores de búsqueda.
  • Optimiza el presupuesto de rastreo, haciendo que Google enfoque sus recursos en las páginas clave.
  • Asegura que solo las páginas relevantes sean indexadas y mostradas a los usuarios.
  • Aprovecha el poder del archivo robots.txt para mejorar tu estrategia SEO!

Por Francisco