#1 Diccionario español en Java
Hola, estoy haciendo una aplicación que procesa textos en español y va indexando los términos para luego consultar sobre estos.
Ahora, necesito que al momento de procesar el texto, se validen los términos (si existen o no en el diccionario). En principio uno dice, "Ok, un hashmap de términos y listo". Esa es la implementación simple pero no me sirve. Bajé el diccionario español de OpenOffice (tiene alrededor de 75000 términos) y lo estoy levantando con el SpellChecker de Lucene (apache). Esto funciona, el SpellChecker armá el diccionario a partir del archivo de texto plano de términos válidos y puedo compararlos pero ahora tengo un problema mayor.
El diccionario de OpenOffice (como todo otro diccionario) no tiene las palabras en plural ni conjugadas. Es decir, tiene "Argentino", pero no "Argentinos". Necesitaría tener una funcionalidad que pueda detectar este tipo de cosas. En Google no pude encontrar nada que haga algo de esto y me suena MUY raro que en Java la implementación mas próxima a esto sea la de Lucene que es un simple Hash de términos.
Si alguien sabe de algo por favor que avise.
Saludos y gracias!
Ahora, necesito que al momento de procesar el texto, se validen los términos (si existen o no en el diccionario). En principio uno dice, "Ok, un hashmap de términos y listo". Esa es la implementación simple pero no me sirve. Bajé el diccionario español de OpenOffice (tiene alrededor de 75000 términos) y lo estoy levantando con el SpellChecker de Lucene (apache). Esto funciona, el SpellChecker armá el diccionario a partir del archivo de texto plano de términos válidos y puedo compararlos pero ahora tengo un problema mayor.
El diccionario de OpenOffice (como todo otro diccionario) no tiene las palabras en plural ni conjugadas. Es decir, tiene "Argentino", pero no "Argentinos". Necesitaría tener una funcionalidad que pueda detectar este tipo de cosas. En Google no pude encontrar nada que haga algo de esto y me suena MUY raro que en Java la implementación mas próxima a esto sea la de Lucene que es un simple Hash de términos.
Si alguien sabe de algo por favor que avise.
Saludos y gracias!
0