Herramientas de recuperación de textos para bibliotecas digitales: lematización
Contenido principal del artículo
Resumen
Uno de los servicios más interesantes de las bibliotecas digitales es lo que permite la búsqueda de documentos por su contenido, es decir, lo que permite buscar aquellos textos que traten un cierto tema. Para que las bibliotecas puedan implementar servicios de este tipo es preciso que existan recursos y herramientas de recuperación de textos (corpora, diccionarios electrónicos, lematizadores, analizadores morfológicos, etc.) desarrolladas para el idioma en el que estean escritos los documentos de la biblioteca. La cantidad y la calidad de los recursos y herramientas que estén desarrollados depende del idioma del que se trate. El inglés está a la cabeza de todos, e aquí en la Península las bibliotecas digitales de textos escritos en gallego son las que tienen más complicado desarrollar servicios de búsqueda por contenido, ya que no existen hasta el momento las herramientas y los recursos de apoyo apropiados. En este artículo presentamos una herramienta de recuperación de textos que fue desarrollada para el gallego, gracias a la colaboración de investigadores en Filología Gallego-Portuguesa e Informática de la Universidad de A Coruña. Se trata de un lematizador que fue presentado por primera vez en 2002, y que en los últimos años fue optimizado, completado y probado con corpora de diferente naturaleza para ser usado en servicios de búsqueda por contenido de bibliotecas digitales.
Palabras clave:
Descargas
Métricas
Detalles del artículo
Citas
Brisaboa, N. R. / Fariña, A. / Navarro, G. / Iglesias, E. L / Paramá, J. R. / Esteller, M. F. (2002): “Compresión de textos en Lenguas Romances”, en Brisaboa, N. R. (ed.): Ingeniería del Software: 169-180 (Colombia: AECI).
Brisaboa, N. R. / Fernández, C. (2001): “Introdución ás Bibliotecas Dixitais”, Revista Galega de Filoloxía, 2: 27-51 (A Coruña: Baía Edicións).
Brisaboa, N. R. / Callón, C. / López, J. R. / Places, A. S. / Sanmartín, G. (2002): “Stemming Galician Texts”, en Laender, A. / Oliveira, A.: Proceedings of the 9th International Symposium, String Precessing and Information Retrieval (SPIRE’02) (Lisboa, 11/13-9-2002): 91-97 (Berlín: Springer-Verlag).
Crystal, D. (2000): Diccionario de Lingüística y Fonética (Barcelona: Octaedro).
Fernández, C. / Places, A. S. (2004): As bibliotecas dixitais (Santiago de Compostela: Laiovento).
Freixeiro, X. R. (1999): Gramática da Lingua Galega. III. Semántica (Vigo: A Nosa Terra).
Freixeiro, X. R. (2000): Gramática da Lingua Galega. II. Morfosintaxe (Vigo: A Nosa Terra).
Moreira, V. / Huyck, C. (2001): “A Stemming Algorithm for the Portuguese Language”, en Navarro, G.: Proceedings of the 8th International Symposium on String Processing and Information Retrieval (SPIRE’01) (Chile, 13/15-11-2001): 186-193 (USA: IEEE Computer Society).
Porter, M. (1980): http://www.tartarus.org/~martin/PorterStemmer.