Como devuelven los resultados los buscadores

Cuando estuve en el SearchCongress de Barcelona me quede con una diapositiva que nos puso Ricardo Baeza de su libro donde explicaba el proceso de como almacenaban y devolvían los resultados de búsqueda los buscadores.

Según este grafo los buscadores tendría directamente cacheadas queries y documents de gran uso para no tener que estar atacando continuamente a sus indices de clusters con búsquedas de los usuarios, cosa que me parece de lo más lógica.

Pero lo que realmente me interesaba era la arquitectura basada ​​en clusters para el módulo de búsqueda mediante racimos donde se contiene un índice de toda la colección, es decir, el índice se reparte entre los servidores m en el clúster. Los racimos n se utilizan para producir réplicas n del índice general.

Pero bueno aunque me interese la arquitectura de como se almacenan y se devuelven los datos, lo que realmente me importa es el algoritmo de ranking y en este caso parece como si fuera realmente un sumatorio de algoritmos pudiendo comenzar por el algoritmo de HITS + Algoritmos vectoriales como el LDA sumando el del Page Rank y así continuando tanto con algoritmos de combinaciones lineales de distintos factores relevantes como el que plantea Ricardo R(p,Q) = & BM25(p,Q) + (1− &)PR(p) como el que ya plantemos hace tiempo R(A,k)=P1*C1(k,F1(A,k))*F1(A,k)+…+Pn*Cn(k,Fn(A,k))*Fn(A,k) Lo que queda claro es que no podemos estar seguros y únicamente con la experimentación e IR podremos ir mejorando.