Personalizar el archivo Robots.txt con la nueva versión del plugin Yoast para Wordpress

marzo 14, 2018

Robots.txt guia

Los robots también conocidos como arañas, son unos bots que analizan las páginas web tratando de entender y organizar los contenidos según sus formatos y estructura. Los robots buscan entre el contenido de las paginas web, leyendo los textos, las imágenes los vídeos, los enlaces, etc, buscando información nueva y tratando de organizarla junto a la información que tenían. Por ello, existen numerosos tipos de robots con diferentes funciones dependiendo de aquello que analice. Pero sin duda alguna, los robots más famosos son los robots de los motores de búsqueda y en concreto las Arañas de Google, que tratan de entender el contenido de un sitio web para después considerar su indexación.


robot seo



¿Qué es y para qué sirve el archivo robots.txt?


Es un archivo en formato .txt que especifica qué robots sí y cuales no deben rastrear un sitio Web. Habitualmente los robots tienen acceso a todos los lugares de la página web, no obstante, en muchas ocasiones hay que poner especial atención en ciertos lugares en los que no se desea que los robots accedan por diversos motivos:
  • Directorios específicos que no deben ser rastreados como la sección de comentarios
  • Páginas con problemas de velocidad de carga por culpa de los robots
  • Páginas que ya no existen y están siendo indexadas
  • Archivos que no interesa su indexación
  • Etc

Por ello en este archivo se especifican los lugares que se deben "bloquear" para las arañas. 

También se puede especificar qué lugar si se quieren rastrear. En ciertas ocasiones se puede observar a través de las herramientas como el Search Console problemas con los robots ya que no consiguen analizar un sitio, por lo que concrentando que sitio si se quiere permitir, se aumentan las posibilidades de que los bots accedan a leer ese contenido.

allow/disallow
Antes de empezar a personalizar el archivo, es importante conocer aquellas palabras que son necesarias para poder editar los robots.txt. Partiendo del archivo básico que genera el pluggin Yoast en el que se encuentran los siguientes comandos:

ejemplo robots


  • User-agent: Especifica a que tipo de robot se le permite la entrada
  • Disallow: Bloquea el rastreo de los robots al archivo o directorio que se especifique
  • Allow: Permite el rastreo de los robots al archivo o directorio que se especidique
  • *: Significa "ALL" o "todos"
  • /: el Slash especifica los directoriso y archivos que hay dentro de cada dirección. Si se utiliza solo una barra, se está indicando que el archivo es la carpeta raíz
  • $: se coloca al final de cualquier dirección que se especifique para indicar que esta a terminado, su uso más común es para especificar el tipo de archivo que quieres que no o que sí se permita por ejemplo /*.png$ que indicaría todos los archivos que sean png.
  • #: la almohadilla permite crear un comentario en una línea con algún comando
  • Sitemap: indica el enlace o ruta de acceso al archivo Sitemap.XML del sitio Web
  • Crawl-delay:  Especifica el tiempo en segundos de rastreo que debe esperar un bot para rastrear el siguiente archivo.
Una vez que se conoce lo que significa cada palabra, se puede pasar a especificar robots, directorios, archivos a los que se quieren deshabilitar o dar mayor relevancia permitindolos. Por ello para acceder al archivo robots.txt en Wordpress desde el plugin Yoast es necesario entrar en la pestaña seo y seleccionar herramientas, para poder acceder a la segunda opción en azul que es "Editor de archivos" el cual permite editar el txt, que aparecerá como en la imagen que hay en el comienzo de este apartado.

yoast txt


En mi caso tengo varios directorios que no quiero que se rastreen así como problemas en algunas páginas web que google no sigue y otras que están con redirección por lo que mi archivo robots.txt quedaría del siguiente modo:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Allow: /es/
Disallow: /archivos/8930
Disallow: /archivos/tag
Disallow: /post_tag
Disallow: /producto_tag
Disallow: /product_tag
Sitemap: https://leafprotattoobalm.com/sitemap_index.xml

robots.txt


Una vez confirmado el nuevo archivo toca esperar un poco para poder observar el comportamiento y ver si los resultados son los esperados

Para poder indicar a los robots el archivo sitemaps.XML antes he tenido que crearlo y así poder conocer su URL. En esta entrada titulada ¿Cómo generar Sitemaps.XML con la nueva versión del plugin Yoast para Wordpress? cuento todos los pasos para generar el archivo.

Te podría interesar...

0 comentarios