La relevancia en un documento está dada en función a cuando éste satisface una necesidad de información, por medio de una consulta. Un documento es relevante cuando la información que este posee es significativa o de importancia para el usuario.
Bibliografía: Martínez Méndez, F. J. (2004). Recuperación de información: modelos, sistemas y evaluación. Murcia: KIOSKO JMC.
viernes, 31 de mayo de 2013
jueves, 30 de mayo de 2013
Modelos de recuperación de la información
Un modelo es una representación abstracta de un proceso de RI. Desde una necesidad de información y una colección de documentos, el modelo intentará predecir si un documento puede ser considerado relevante o no, y en qué grado.
La principal clasificación para los modelos de RI es la siguiente:
Modelo clásicos: modelos probabilísticos, booleano y vectorial.
Modelos estructurales: entre los que se destacan listas no sobrepuestas y el método de los nodos proximales.
Modelo Booleano: modelo de recuperación simple, basado en la teoría de conjuntos y el álgebra booleana. Su estrategia de recuperación está basada en un criterio de decisión binario (pertinente y no pertinente), sin ninguna noción de escala de medida, sin noción de un emparejamiento parcial en las condiciones de preguntas. Las consultas se expresan mediante:
AND: intersección de conjuntos.
OR: unión de conjuntos.
NOT: complementario de un conjunto.
Es un modelo muy sencillo, fácil de implementar y formalizar, por eso es el más utilizado por los SRI.
Las principales desventajas de este modelo se centra en su excesiva rigidez. No es posible ordenar los resultados obtenidos y tampoco tiene en cuenta el número de cláusulas verificadas en una consulta de tipo OR.
Modelo Vectorial: este modelo propone un marco en el que es posible el emparejamiento parcial, asignando pesos no binarios a los términos índices de las preguntas y de los documentos. Estos pesos de los términos se usan para computar el grado de similitud entre cada documento guardado en el sistema y la pregunta del usuario.
Los documentos recuperados son ordenados en orden decreciente al grado de similitud, tomando en consideración documentos que sólo se emparejan parcialmente con la pregunta, así el conjunto de respuestas con los documentos alineados es mucho más preciso que el conjunto recuperado por el modelo booleano. La mayoría de los motores de búsqueda lo implementan como estructura de datos.
Modelo Probabilístico: Se basa en la equiparación probabilística, dados un documento y una pregunta, es posible calcular la probabilidad de que ese documento sea relevante para esa pregunta. La base principal de su funcionamiento es el cálculo de probabilidad de un documento de ser relevante a una pregunta dada. Debemos considerar la posibilidad de que un documento sea relevante o no, dado que ya haya sido seleccionado.
Los resultados no son mejores que los obtenidos por el modelo booleano y vectorial.
Bibliografía
Gracía Broncano, R. (s./f.). Recuperación y organización de la información. Modelos de recuperación.
Cacheda, F. (2009). Introducción a los modelos clásicos de Recuperación de Información. Revista General de Información Y Documentación, 18, 365-374.
Recuperado de http://revistas.ucm.es/index.php/RGID/article/view/RGID0808110365A/9331
La principal clasificación para los modelos de RI es la siguiente:
Modelo clásicos: modelos probabilísticos, booleano y vectorial.
Modelos estructurales: entre los que se destacan listas no sobrepuestas y el método de los nodos proximales.
Modelo Booleano: modelo de recuperación simple, basado en la teoría de conjuntos y el álgebra booleana. Su estrategia de recuperación está basada en un criterio de decisión binario (pertinente y no pertinente), sin ninguna noción de escala de medida, sin noción de un emparejamiento parcial en las condiciones de preguntas. Las consultas se expresan mediante:
AND: intersección de conjuntos.
OR: unión de conjuntos.
NOT: complementario de un conjunto.
Es un modelo muy sencillo, fácil de implementar y formalizar, por eso es el más utilizado por los SRI.
Las principales desventajas de este modelo se centra en su excesiva rigidez. No es posible ordenar los resultados obtenidos y tampoco tiene en cuenta el número de cláusulas verificadas en una consulta de tipo OR.
Modelo Vectorial: este modelo propone un marco en el que es posible el emparejamiento parcial, asignando pesos no binarios a los términos índices de las preguntas y de los documentos. Estos pesos de los términos se usan para computar el grado de similitud entre cada documento guardado en el sistema y la pregunta del usuario.
Los documentos recuperados son ordenados en orden decreciente al grado de similitud, tomando en consideración documentos que sólo se emparejan parcialmente con la pregunta, así el conjunto de respuestas con los documentos alineados es mucho más preciso que el conjunto recuperado por el modelo booleano. La mayoría de los motores de búsqueda lo implementan como estructura de datos.
Modelo Probabilístico: Se basa en la equiparación probabilística, dados un documento y una pregunta, es posible calcular la probabilidad de que ese documento sea relevante para esa pregunta. La base principal de su funcionamiento es el cálculo de probabilidad de un documento de ser relevante a una pregunta dada. Debemos considerar la posibilidad de que un documento sea relevante o no, dado que ya haya sido seleccionado.
Los resultados no son mejores que los obtenidos por el modelo booleano y vectorial.
Bibliografía
Gracía Broncano, R. (s./f.). Recuperación y organización de la información. Modelos de recuperación.
Cacheda, F. (2009). Introducción a los modelos clásicos de Recuperación de Información. Revista General de Información Y Documentación, 18, 365-374.
Recuperado de http://revistas.ucm.es/index.php/RGID/article/view/RGID0808110365A/9331
miércoles, 29 de mayo de 2013
La recuperación de la información en la Era de la WEB
Con el desarrollo de internet, la recuperación de información eficiente ha ganado una nueva importancia. Como un sistema de comunicación entre sistemas de computadoras abierto a la comunidad mundial. Internet, brinda a cientos de miles de organizaciones y personas la posibilidad de alojar información sin ningún tipo de control estructural u organizativo, o medio para su acceso, lo que provoca confusión y frustración al momento de ser localizada y recuperada por los usuarios. Por ello, desde el inicio se han ido desarrollando diversos programas de búsqueda para usos específicos: Archie, Telnet, Very Easy Rodent-Oriented Net-wide Index to Computerized Archives (VERONICA), Judhea y Wide Area Information Server.
La World Wide Web está revolucionando la manera en que la sociedad accede a la información , y creando nuevos desafíos para el campo de la Recuperación de la Información, determinó que los sistemas de búsqueda mencionados fueran sólo el preludio de las actuales herramientas de recuperación de información.
Los usuarios acceden a la información de dos maneras: pueden usar un sistema de búsqueda, o pueden navegar los nodos por medio de sus enlaces hipertextuales.
Textos obtenido en su totalidad de:
Merlino Santesteban, C. (2001). Acceso y recuperación de información en la World Wide Web. (Tesis de Licenciatura). Universidad Nacional de Mar del Plata. Argentina.
Recuperado de http://eprints.rclis.org/11881/1/merlino-santesteban_c.pdf
Se recomienda para una lectura más extensa:
Búsqueda y Recuéración de información en la web: qué ha pasado y qué podemos esperar en el futuro
![]() |
| Somos una nueva Universidad. UNLaR |
Suscribirse a:
Entradas (Atom)

