Ferramentas de recuperación de textos para bibliotecas dixitais: lematización
Contido principal do artigo
Resumo
Un dos servizos máis interesantes das bibliotecas dixitais é o que permite a busca de documentos polo seu contido, quere dicir, o que permite buscar aqueles textos que traten dun certo tema. Para que as bibliotecas poidan implementar servizos deste tipo é preciso que existan recursos e ferramentas de recuperación de textos (corpora, dicionarios electrónicos, lematizadores, analizadores morfolóxicos, etc.) desenvolvidas para o idioma en que estean escritos os documentos da biblioteca. A cantidade e a calidade dos recursos e ferramentas que estean desenvolvidos depende do idioma de que se tratar. O inglés está á cabeceira de todos, e aquí na Península as bibliotecas dixitais de textos escritos en galego son as que teñen máis complicado desenvolveren servizos de busca por contido, xa que non existen até o momento as ferramentas e os recursos de apoio apropiados. Neste artigo presentamos unha ferramenta de recuperación de textos que foi desenvolvida para o galego, grazas á colaboración de investigadores en Filoloxía Galego-Portuguesa e Informática da Universidade da Coruña. Trátase dun lematizador que foi presentado por primeira vez en 2002, e que nos últimos anos foi optimizado, completado e probado con corpora de diferente natureza para ser usado en servizos de busca por contido de bibliotecas dixitais.
Palabras clave:
Descargas
Métricas
Detalles do artigo
Citas
Brisaboa, N. R. / Fariña, A. / Navarro, G. / Iglesias, E. L / Paramá, J. R. / Esteller, M. F. (2002): “Compresión de textos en Lenguas Romances”, en Brisaboa, N. R. (ed.): Ingeniería del Software: 169-180 (Colombia: AECI).
Brisaboa, N. R. / Fernández, C. (2001): “Introdución ás Bibliotecas Dixitais”, Revista Galega de Filoloxía, 2: 27-51 (A Coruña: Baía Edicións).
Brisaboa, N. R. / Callón, C. / López, J. R. / Places, A. S. / Sanmartín, G. (2002): “Stemming Galician Texts”, en Laender, A. / Oliveira, A.: Proceedings of the 9th International Symposium, String Precessing and Information Retrieval (SPIRE’02) (Lisboa, 11/13-9-2002): 91-97 (Berlín: Springer-Verlag).
Crystal, D. (2000): Diccionario de Lingüística y Fonética (Barcelona: Octaedro).
Fernández, C. / Places, A. S. (2004): As bibliotecas dixitais (Santiago de Compostela: Laiovento).
Freixeiro, X. R. (1999): Gramática da Lingua Galega. III. Semántica (Vigo: A Nosa Terra).
Freixeiro, X. R. (2000): Gramática da Lingua Galega. II. Morfosintaxe (Vigo: A Nosa Terra).
Moreira, V. / Huyck, C. (2001): “A Stemming Algorithm for the Portuguese Language”, en Navarro, G.: Proceedings of the 8th International Symposium on String Processing and Information Retrieval (SPIRE’01) (Chile, 13/15-11-2001): 186-193 (USA: IEEE Computer Society).
Porter, M. (1980): http://www.tartarus.org/~martin/PorterStemmer.