CONFERENCIA: Desafíos actuales en bases de datos de texto

septiembre 21, 2004

TITULO/CONFERENCIA:
Desafíos actuales en bases de datos de texto.
CONFENCIANTE:
Profesor Gonzalo Navarro (Universidad de Chile)

FECHA: jueves, 30 de septiembre de 2004
HORA: 10:30
LUGAR: Salón de Grados – Edif. Tecnologías de la Información y de las Telecomunicaciones.
Universidad de Valladolid
RESUMEN

TITULO/CONFERENCIA:
Desafíos actuales en bases de datos de texto.
CONFENCIANTE:
Profesor Gonzalo Navarro (Universidad de Chile)

FECHA: jueves, 30 de septiembre de 2004
HORA: 10:30
LUGAR: Salón de Grados – Edif. Tecnologías de la Información y de las Telecomunicaciones.
Universidad de Valladolid
RESUMEN
Esta charla se centrará en el problema de manejar grandes bases de datos textuales donde el texto es general. Esto significa que el texto no puede ser tratado como lenguaje natural (formado por palabras) sino como una secuencia de caracteres: cualquier subcadena del texto puede ser recuperada. Esto abstrae problemas de recuperación de texto en lenguajes orientales o aglutinantes, búsqueda en secuencias musicales, genéticas y proteicas, e incluso puede ser relevante para búsqueda en texto occidental. Por otro lado, el tamaño de estos textos hace que una búsqueda secuencial sea impracticable: es necesario construir un índice para agilizar las búsquedas. Finalmente, es necesario permitir actualizaciones al texto y mantener el índice acordemente.

Si bien existen soluciones al problema de la indexación de texto general desde hace mucho tiempo, estas soluciones finalmente nunca pueden aplicarse a casos serios de la vida real por tres razones: (1) los índices son gigantescos (4 a 30 veces el tamaño del texto); (2) los índices no se pueden modificar para reflejar cambios en el texto, sino que deben reconstruirse completamente; y (3) los índices no se comportan bien en memoria secundaria, lo cual unido a su tamaño los hacen inútiles salvo para textos muy pequeños. El estado del arte puede describirse como bastante primitivo, pero en estos últimos años se han hecho grandes esfuerzos para avanzar en este tema.

En esta charla se revisarán los esfuerzos recientes para resolver los tres problemas anteriores y obtener una solución real para grandes bases de datos textuales generales. Por un lado, se está trabajando en índices comprimidos para texto, los cuales contienen y reemplazan el texto, y permiten buscar rápidamente y reproducir la porción que se desee del texto, y aún así pueden ocupar menos espacio que el texto original. Por otro lado, existen algunas propuestas de estructuras de datos que se pueden modificar cuando el texto cambia. Finalmente, se verán esquemas de memoria secundaria para construir y almacenar índices en un disco, intentando minimizar la cantidad de páginas leídas y hacer un buen uso de los bloques de disco.