jueves, 30 de mayo de 2013

Modelos de recuperación de la información

  Un modelo es una representación abstracta de un proceso de RI. Desde una necesidad de información y una colección de documentos, el modelo intentará predecir si un documento puede ser considerado relevante o no, y en qué grado.

La principal clasificación para los modelos de RI es la siguiente:

Modelo clásicos: modelos probabilísticos, booleano y vectorial.
Modelos estructurales: entre los que se destacan listas no sobrepuestas y el método de los nodos proximales.

Modelo Booleano: modelo de recuperación simple, basado en la teoría de conjuntos y el álgebra booleana. Su estrategia de recuperación está basada en un criterio de decisión binario (pertinente y no pertinente), sin ninguna noción de escala de medida, sin noción de un emparejamiento parcial en las condiciones de preguntas. Las consultas se expresan mediante:
AND: intersección de conjuntos.
OR: unión de conjuntos.
NOT: complementario de un conjunto.
Es un modelo muy sencillo, fácil de implementar y formalizar, por eso es el más utilizado por los SRI.
Las principales desventajas de este modelo se centra en su excesiva rigidez. No es posible ordenar los resultados obtenidos y tampoco tiene en cuenta el número de cláusulas verificadas en una consulta de tipo OR.

Modelo Vectorial: este modelo propone un marco en el que es posible el emparejamiento parcial, asignando pesos no binarios a los términos índices de las preguntas y de los documentos. Estos pesos de los términos se usan para computar el grado de similitud entre cada documento guardado en el sistema y la pregunta del usuario.
Los documentos recuperados son ordenados en orden decreciente al grado de similitud, tomando en consideración documentos  que sólo se emparejan parcialmente con la pregunta, así el conjunto de respuestas con los documentos alineados es mucho más preciso que el conjunto recuperado por el modelo booleano. La mayoría de los motores de búsqueda lo implementan como estructura de datos.

Modelo Probabilístico: Se basa en la equiparación probabilística, dados un documento y una pregunta, es posible calcular la probabilidad de que ese documento sea relevante para esa pregunta. La base principal de su funcionamiento es el cálculo de probabilidad de un documento de ser relevante a una pregunta dada.  Debemos considerar la posibilidad de que un documento sea relevante o no, dado que ya haya sido seleccionado.
Los resultados no son mejores que los obtenidos por el modelo booleano y vectorial.

Bibliografía
Gracía Broncano, R. (s./f.).  Recuperación  y organización de la información. Modelos de recuperación.
Cacheda, F. (2009). Introducción a los modelos clásicos de Recuperación de Información. Revista General de Información Y Documentación, 18, 365-374.
Recuperado de  http://revistas.ucm.es/index.php/RGID/article/view/RGID0808110365A/9331

No hay comentarios:

Publicar un comentario