Como tener más URLs en Google

El otro día estaba revisando las ponencias de @ghostmou y @lakil sobre indexación de grandes sitios y el futuro del SEO ambos mencionaban en sus respectivas ponencias la forma en que google almacena el contenido.

Espero que miguel no me mate por poneros esta captura de una slide de la presentación de Mou.

Server

Como veis google almacena y asigna rutas de URLs a sus crawlers por lo que cuantas más rutas seamos capaz de pasarle a google para que luego mande a sus crawlers a rastrearnos mucho mejor.

Para que  os hagáis una idea mejor de como rastrea google un sitio, os dejo esta otra slide de seomoz:

Como veis los crawlers entran por los puntos de color rosa más fuerte y van indexando hasta un cierto nivel dependiendo de diversos factores asociados a una web PR, Trust, Crosslinking, Arquitectura del sitio, Enlaces interneos, etc… bueno muchos factores.

La idea es que si nuestro sitio le facilita a google la asignación de estas rutas mediante archivos sitemaps será más facil que nos indexe mayor cantidad de contenidos al pasarle mayor cantidad de rutas sin ser google el que tenga que rastrearlas.

Pero ya no nos vale solo con pasarle un sitemap.xml de nuestro sitio ya que si este sitemap tiene una gran cantidad de páginas nos podrá llegar a pasar lo mismo que en el anterior gráfico; hasta que cantidad de rutas de nuestro sitemap va a seguir google , nuestra sitemap está ordenado primero por las URLs más importantes o simplemente por las URLs más nuevas, tenemos un solo sitemap para nuestro sitio o tenemos varios sitemaps, etc…

Por lo que creo que la mejor propuesta para presentarle a google es un archivo con varios sitemaps comprimidos y por tipos de sitemap haciendo así que su trabajo de indexación sea  mucho más fácil  pudiendo llegar a obtener una mayor cantidad de URLs indexadas al facilitarle mucho el trabajo a google.

Por ejemplo:

Sitemap: http://www.misitio.com/sitemap.xml.gz

Sitemap: http://www.misitio.com/sitemap-image.xml

Sitemap: http://www.misitio.com/sitemap-video.xml

Con estos tipos de sitemaps, estamos enviando y orientando a los crawlers distintos GoogleBot; GoogleBot-Images y GoogleBot-Videos sin tener que ser estos los que tengan que crawlear todo nuestro sitio para obtener resultados de Images, Vídeos y URLs haciendo que así los crawlers puedan trabajar mucho más tiempo en nuestra página e indexen muchas más páginas en sus índices.

Actualización:

Me comenta Mou que se puede hacer un sitemap con colección de subsitemaps, así puedes enviar varios cientos de miles de URLs de golpe, lo podeis ver en http://www.rtve.es/sitemaps/sitemap.xml

Publicado por

Felipe García

Aprendiendo e intentando enseñar SEO

12 comentarios en «Como tener más URLs en Google»

  1. Muy buen artículo DUQUE. La verdad que cuantas más facilidades se le de a los spiders mejor. También es importante el periodo de actualización del site. Un sitio que se actualiza a diario tendrá mayor frecuencia de rastreo por lo cual los spiders pasarán más veces por el site y conseguirá que se le indexen antes las URLs. Otra cosa importante es la profundidad de páginas que tenga el site e ir lanzando las URLs progresivamente y no todas de golpe.

    Un saludo

  2. Una pregunta: usando la colección de sitemaps, luego en el Webmaster Tools puedes ver el desglose de páginas indexadas por cada subsitemap?

    Gracias y un saludo.

  3. Hola a todos.

    Este tema me interesa mucho. Trabajo para una empresa que gestiona para diversos clientes sitios que pueden llegar a tener hasta 500.000 páginas. Y conseguir que Google indexe completamente el sitio es bastante difícil, de momento imposible.

    Os puedo comentar que aunque tengas varios sitemaps (obligatorio para sitios tan grandes) no consigues una mejora en la indexación. Los sitios además se actualizan diariamente con novedades.

    Hemos trabajado en la arquitectura de la información pero sin la mejora esperada y son sitios que llevan tiempo en línea.

    Y con todo, en la mayoría de los casos hemos conseguido que Google llegue a visitar más de 3000 páginas al día, es no quiere decir que las indexe.

    Por desgracia y como cada página es de un cliente distinto hacer campañas de enlaces profundos de forma manual en cada caso está fuera de toda posibilidad.

    Más que nada lo comento porque conozcáis mi experiencia y por escuchar sugerencias.

    Me falta probar sistemas de “lanzaderas de enlaces” automatizados. Como los que se comentan aquí https://www.seoprofesional.com/lanzadera-de-enlaces/ y http://www.vseo.es/redes-sociales/lanzadera/

    ¿Funcionan?

  4. Muy buen artículo Duque! Me ha encantado la explicación técnica detallada de Mou de como se rastrea e indexa URLs en web, explicando el concepto de store server e indexador.
    La colección de sitemaps no es más que un “sitemap index” (índice de sitemaps), y se usa cuando un site:
    -Tiene más de 50.000 URLs (máximo de URLs que acepta un archivo sitemap).
    -Aparte de cumplir el primer requisito, si se generan muchas URLs y nuestro repositorio de URLs es inmenso, conviene hacer varios sitemaps por secciones y/o fechas, y lógicamente, incluirlo en un sitemap index.
    Los diferentes tipos de sitemap no influyen para que exista un sitemap index, sino la cantidad de URLs que el sitemap genere.

    @JosebaU desconozco el límite de sitemaps que acepta WMT, pero todos los sitemaps que subes a WMT tienen su desglose.

    Un saludo!

  5. Muy buen articulo, por eso es importante que obtengamos enlaces hacia la mayor cantidad de paginas internas posibles y no enfocarnos el 100% de nuestro trabajo en 1 o 2 o 3 paginas, si no, dividir el trabajo de linkbuilding en todo nuestro sitio…

    Saludos,

  6. @JosebaU como comenta otra persona, si subes un índice de sitemaps a GWT, te aparecen desglosados allí (únicamente has de subir el índice) y él ya lee cada sitemap.

    Sobre el máximo de sitemaps, de memoria diría que son 50 sitemaps, aunque no estoy 100% seguro.

  7. A mi entender, el contenido del articulo se refiere con grandes diferencias, a Proyectos Web basados en Tecnologías de Servidor.
    Tengo referencias del propio Google, desde sus foros y demás lanzaderas informativas internas qué, para Proyectos Web no basados en Tecnologías de servidor, el rastreo de GoogleBoot se basa desde la primera línea de Código fuente hasta la última, de manera sucesiva.
    Por ello, en cuestiones SEO; se suele remarcar una buena optimización de los proyectos Web en estos parámetros mencionados, principalmente.
    Mucho deberán cambiar las cosas, a mi parecer, para que el rastreo de Googleboot sea como el del articulo y, llegue hasta más o menos el 90% de la WWW, basado en Lenguajes de programación Web estáticos, actualmente.

Deja una respuesta