Esta vez vamos a hablar del archivo robots.txt que indica que es lo que los robots de los buscadores deben de indexar y que es lo que no deben de indexar de nuestra web o nuestro blog.
La estructura del archivo robots.txt suele ser la siguiente :
User-Agent: * (El asterisco * indica que las ordenes son para cualquier buscador)
Disallow: /cgi-bin/
Disallow: /temp/
Disallow como ya habreis imaginado es el comando por el cual decimos que directorio queremos que no se indexe.
Un ejemplo para excluir sólo a un robot :
User-Agent: slurp
Disallow: /admin/
Otro ejemplo para permitir solo un robot :
User-Agent: googlebot
Disallow:
User-agent: *
Disallow: /
Un ejemplo para que no se indexaran las imágenes seria:
User-agent: *
Disallow: *.jpg
Podeis encontrar más comandos sobre como manejar el archivo robots.txt en http://www.robotstxt.org/
Aparte del archivo robots.txt tambien podemos incluir una etiqueta dentro de una página de nuestro site para que esta no sea indexada :
<META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”>
Pero como lo que a nosotros nos interesa realmente es que nos indexen y que lo hagan bien vamos a ver que es lo que ocurre a causa de un mal uso del archivo robots.txt .
Como comentaba un mal uso o desuso del archivo robots.txt puede suponer el generar contenido duplicado en los buscadores que nos puede perjudicar, un consumo de ancho de banda innecesario e incluso que aparezcan datos que no se deberían de mostrar en los buscadores.
Para solucionar este tema teneis varios ejemplos de como utilizar correctamente el archivo robots.txt en AskApache Via:Proweblogs
Actualmente en SEO Profesional utilizamos el siguiente archivo robots.txt :
User-agent: *
Disallow: /fotos/
Disallow: /wp-
Disallow: /search
Disallow: /?s=
Disallow: /feed
Disallow: /comments/feed
Allow: /feed/$
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
El cual tiene su base en un artículo publicado por Armonth Google, contenido duplicado y feeds.
P.D. Otros artículos de recomendada lectura son Cómo arreglar el problema del contenido duplicado en WordPress y Sobre los meta tags para los robots.
sabes si al cambiar el robots.txt tarda un tiempo en activarse?
yo lo configuré hace tres días y hace dos en las herramientas para webmaster ya me aparecía el nuevo robots.txt, pero las páginas nuevas que me listó ayer y antes de ayer google siguen conteniendo algunas que deberían estar restringidas
supongo que a google le llevará su tiempo detectar los cambios
venga, un saludo
Si efectivamente tarda bastante en activarse, en el caso de SeoProfesional limité las páginas de administración y me tardó más de 15 días en quitarlas.
Supongo que dependerá también de la popularidad del sitio, quizá si un sitio es muy visitado por el motor de búsqueda tarde menos en desindexar las páginas que le indicas.
Me va a servir de mucho toda esta información. Pienso montar un blog en más o menos un mes y me estoy mirando los post con lupa, gracias.
Hola, me gustaría saber más sobre los robots, porque no soy muy letrado en estos temas…¿Cómo activo un robot en mi web? ¿Via html o es otro lenguaje?
Gracias por el tutorial aver que sale si se pociciona mejor el blog.
Cuidado al tocar el archivo robots.txt porque podéis también bloquear la indexación de páginas cuando pasen los bots.
Acordaros de hacer que el sitemap y el robots.txt estén de acuerdo.
Saludos
Carlos