Crawl Rate Tracker

Crawl Rate Tracker es un plugin de WordPress que te proporciona  estadisticas sobre las veces que los robots googlebot ( Google ), Slurp ( Yahoo ) , msn bot ( Microsoft ), rastrean tu sitio.

Puedes llevarte una sorpresa al ver la cantidad de veces que pasan los robots por tu sitio, así que recuerda que tienes la etiqueta para controlar a los bots en el robots.txt

Crawl-delay: 30

Podeis descargar el plugin desde la web del autor:

http://www.blogstorm.co.uk/wordpress-crawl-rate-tracker/

Utilizar Robots.txt

Bueno esto es la guía para webmasters de google :

Ya se que muchos de vosotros sabeis utilizar perfectamente el archivo Robots.txt pero seguro que existe mucha gente que no tiene ni idea y normalmente no se ponen a buscar en la guia de webmasters de google por eso lo dejo aquí a mano para que sea más fácil encontrarlo y utilizarlo.

Por cierto hace poco tiempo Vseo me comento que le hizo mucha gracia ver que incluian estas líneas en el Robots.txt :

# 1. A robot may not injure a human being or, through inaction, allow a
# human being to come to harm.
#
# 2. A robot must obey orders given it by human beings except where such
# orders would conflict with the First Law.
#
# 3. A robot must protect its own existence as long as such protection
# does not conflict with the First or Second Law.

La verdad es que es muy bueno, me lo apunto para mis Robots.txt; por si alguien no se da cuenta son las leyes de Isaac Asimov.

En Castellano :

# 1. Un robot no debe dañar a un ser humano o, por su inacción, dejar que un ser humano sufra #daño.
#
# 2. Un robot debe obedecer las órdenes que le son dadas por un ser humano, excepto si estas #órdenes entran en conflicto con la Primera Ley.
#
# 3. Un robot debe proteger su propia existencia, hasta donde esta protección no entre en #conflicto con la Primera o la Segunda Ley

Bueno, siguiendo hablando del Robots.txt también me han dicho algunas personas que google se lo pasa por el forro algunas veces pero ya eso son experiencias de cada uno, yo lo suelo utilizar junto con el nofollow para manejar el LinkJuice pero eso ya pa gusto los colores.

También tengo que deciros que algunas veces al utilizar el Robots.txt para capar secciones de una web una vez que google ya las tenia indexadas he sufrido una fuerte bajada de posiciones.

Bueno os dejo con la guia de webmaster.

Uso de un archivo robots.txt para controlar el acceso al sitio

La forma más fácil de crear un archivo robots.txt es usar la herramienta de generación de archivos robots.txt de las Herramientas para webmasters de Google. Una vez que haya creado el archivo, puede usar la herramienta de análisis de archivos robots.txt para asegurarse de que su comportamiento sea el esperado.

Cuando haya creado el archivo robots.txt, guárdelo en el directorio raíz de su dominio con el nombre robots.txt. En esta ubicación es donde los robots buscarán el archivo. Si se guarda en otro lugar, no lo encontrarán.

También puede crear el archivo robots.txt de forma manual, mediante cualquier editor de texto. Debe ser un archivo de texto con codificación ASCII, no un archivo HTML. El nombre del mismo debe estar en minúsculas.
Sintaxis

El archivo robots.txt más simple utiliza dos reglas:

* User-Agent: el robot al que se aplica la siguiente regla
* Disallow: la URL que desea bloquear

Estas líneas se consideran una única entrada en el archivo. Puede incluir todas las entradas que desee, así como varias líneas Disallow y varios user-agents en una misma entrada.
¿Qué debe incluir la línea “User-agent”?

Un user-agent es un robot específico del motor de búsqueda. La base de datos de robots web incluye muchos robots comunes. Puede configurar una entrada para que se aplique a un robot específico (mostrando el nombre) o para que se aplique a todos los robots (mediante un asterisco). El aspecto de una entrada que se aplica a todos los robots es el siguiente:

User-agent: *

Google utiliza varios robots diferentes (user-agents). El robot que utilizamos para nuestra búsqueda web es Googlebot. El resto de nuestros robots, como Googlebot-Mobile y Googlebot-Image, siguen las reglas configuradas para Googlebot, aunque también pueden definirse reglas específicas para ellos.
¿Qué debe incluir la línea Disallow?

La línea Disallow enumera las páginas que desea bloquear. Puede insertar una URL específica o un patrón. La entrada debe comenzar con una barra inclinada (/).

* Para bloquear todo el sitio, utilice una barra inclinada.

Disallow: /

* Para bloquear un directorio y todo lo que contiene, inserte una barra inclinada después del nombre del mismo.

Disallow: /directorio-sintitulo/

* Para bloquear una página, enumérela.

Disallow: /archivo_privado.html

*
* Para eliminar una imagen de la Búsqueda de imágenes de Google, añada lo siguiente:

User-agent: Googlebot-Image
Disallow: /imagenes/perros.jpg

*
* Para eliminar todas las imágenes de su sitio de la Búsqueda de imágenes de Google:

User-agent: Googlebot-Image
Disallow: /

* Para bloquear archivos de un tipo determinado (por ejemplo, .gif), añada lo siguiente:

User-agent: Googlebot
Disallow: /*.gif$

* Para evitar que se rastreen las páginas de su sitio, a pesar de que se muestren anuncios de AdSense en esas páginas, inhabilite el acceso de todos los robots que no sean de Mediapartners-Google. Esta opción impide que las páginas aparezcan en los resultados de búsqueda, pero permite que el robot Googlebot-Mediapartners las analice a fin de determinar los anuncios que se publicarán. El robot Googlebot-MediaPartners no comparte páginas con otros user-agents de Google. Por ejemplo,

User-agent: *
Disallow: /carpeta1/

User-agent: Mediapartners-Google
Disallow: /carpeta1/

*

Concordancia mediante patrones

Googlebot (aunque no todos los motores de búsqueda) respeta algunas concordancias mediante patrones.

* Puede utilizar un asterisco (*) para que la concordancia se establezca con una secuencia de caracteres. Por ejemplo, para bloquear el acceso a todos los subdirectorios que comiencen por privado:

User-agent: Googlebot
Disallow: /privado*/

*
* Para bloquear el acceso a todas las URL que incluyan un signo de interrogación (?) (concretamente, cualquier URL que comience por el nombre de su dominio, seguido de cualquier cadena, signo de interrogación y cualquier cadena):

User-agent: Googlebot
Disallow: /*?

* Para especificar la concordancia con el final de la URL, utilice $. Por ejemplo, para bloquear una URL que termine en .xls:

User-agent: Googlebot
Disallow: /*.xls$

Puede utilizar esta concordancia de patrones en combinación con la directiva Allow. Por ejemplo, si el signo ? indica el ID de una sesión, puede excluir todas las URL que las contienen para asegurarse de que Googlebot no rastree páginas duplicadas. Sin embargo, las URL que finalizan con dicho símbolo podrían ser la versión de la página que desea incluir. En este caso, configure su archivo robots.txt del siguiente modo:

User-agent: *
Allow: /*?$
Disallow: /*?

La directiva Disallow: / *? bloqueará cualquier URL que incluya el símbolo ?. Concretamente, bloqueará todas las URL que comiencen por el nombre de su dominio, seguido de cualquier cadena, un signo de interrogación y cualquier cadena.

La directiva Allow: /*?$ permitirá cualquier URL que acabe con el símbolo ?. Concretamente, admitirá cualquier URL que comience por el nombre de su dominio, seguida de cualquier cadena y el símbolo ?, sin caracteres después de este último.

Las URL distinguen entre mayúsculas y minúsculas. Por ejemplo, Disallow: /archivo_privado.asp bloquearía http://www.example.com/archivo_sintitulo.asp, pero permitiría http://www.example.com/Archivo_sintitulo1.asp.

Robots.txt para WordPress

Esta mañana analizando los logs de mi blog he visto como había varios errores, estos eran provocados cuando el robot (spider) de búsqueda intentaba descargarse el robots.txt, evidentemente era un grave error que debería haber contemplado antes.

Analizando un poco los directorios de WP 2.0 vemos que podemos dehabilitar para los motores a prácticamente todos los que vienen por defecto.

el archivo robots.txt quedaría así

User-agent:*
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /fotos/

evidentemente si quisieramos hacerlo por buscador individualizado usariamos como user agent al spider correspondient de cada buscador. googlebot, scooter, ….

Cuidado con el contenido duplicado, Google muestra sus cartas.

Me ha costado un poco hacer la traducción, resulta complicado a veces sacar tiempo para todo, 🙂 aquí tenéis el enlace Google Webmasters del original y mi pequeño resumen:

– En primer lugar destacamos que la traducción de los textos en idomas diferentes no es considerada contenido duplicado ya que una persona puede buscar información en diferentes idiomas.

– Si escribes contenido duplicado es importante que no dejes que quede visible para las arañas de búsqueda, para ello puedes usar el robots.txt

– Todos y cada uno de los enlaces internos de nuestra Web o Blog debe seguir una estructura que sea lógica y jerárquica. Por ejemplo /directorio, /directorio/ o /directorio/página y en caso de cambiar dicha estructura deberemos hacerlo mediante la redireccion 301

– Tenemos que hacer uso del dominio específico (.es, .cat) si el contenido de aquello que hemos publicado en nuestra web se refiere exclusivamente a un pais o a un territorio. (esto es importante hacerlo así y no mediate un subdominio o una carpeta)

– Hemos de evitar el contenido repetido del sitio (headers, siders y footers) al igual que no enlazar hacia una web sin contenido.

– Por último comentar que a la hora de enlazar no es lo mismo una href con el triple w que sin el, de ese modo también debemos enlazar el contenido original si se utilizan feeds.