Cuando estuve en el SearchCongress de Barcelona me quede con una diapositiva que nos puso Ricardo Baeza de su libro donde explicaba el proceso de como almacenaban y devolvían los resultados de búsqueda los buscadores.
Según este grafo los buscadores tendría directamente cacheadas queries y documents de gran uso para no tener que estar atacando continuamente a sus indices de clusters con búsquedas de los usuarios, cosa que me parece de lo más lógica.
Pero lo que realmente me interesaba era la arquitectura basada en clusters para el módulo de búsqueda mediante racimos donde se contiene un índice de toda la colección, es decir, el índice se reparte entre los servidores m en el clúster. Los racimos n se utilizan para producir réplicas n del índice general.
Pero bueno aunque me interese la arquitectura de como se almacenan y se devuelven los datos, lo que realmente me importa es el algoritmo de ranking y en este caso parece como si fuera realmente un sumatorio de algoritmos pudiendo comenzar por el algoritmo de HITS + Algoritmos vectoriales como el LDA sumando el del Page Rank y así continuando tanto con algoritmos de combinaciones lineales de distintos factores relevantes como el que plantea Ricardo R(p,Q) = & BM25(p,Q) + (1− &)PR(p) como el que ya plantemos hace tiempo R(A,k)=P1*C1(k,F1(A,k))*F1(A,k)+…+Pn*Cn(k,Fn(A,k))*Fn(A,k) Lo que queda claro es que no podemos estar seguros y únicamente con la experimentación e IR podremos ir mejorando.
Gracias Felipe.
También me quede con esa diapo y no he podido aun contactar con Ouali para ver si nos pasa el ppt de Ricardo. Tengo pendiente comprar el libro que seguro que sale ahi jeje
Lo que no se es si con caffeine y el cambio de infraestructura esos indices cacheados siguen siendo indices inversos tradicionales usados en cualquier arquitectura de IR/search. Comento Lakil en Zaragoza que esos indices inversos han evolucionado y esta aplicando semántica y que cada vez da mas peso a la relevancia.
Lo difícil como comentas es saber que combinaciones de algoritmos usa, nunca los conoceremos pero si es importante saber cuales puede usar para adaptar nuestra estrategia optimizandola al funcionamiento del buscador
Buen post sobre IR que falta nos hace investigar más sobre esto.
Saludos!
super bacano, ese algoritmo es para enloquecerce, buen articulo
En realidad el pr es como la evaluación de los valores propios de una matriz.
el calculo de esto es temporal y siempre va a cambiar cada vez que se evalue, de acuerdo al contexto (links)