Estás en: Inicio >> Foros >> Informática >> Programación
Programación /

Diccionario español en Java

Participa en el tema Diccionario español en Java en el foro Programación.
Hola, estoy haciendo una aplicación que procesa textos en español y va indexando los términos ...

Buscar en este tema:
 
  •  
    #1 Diccionario español en Java
    Hola, estoy haciendo una aplicación que procesa textos en español y va indexando los términos para luego consultar sobre estos.

    Ahora, necesito que al momento de procesar el texto, se validen los términos (si existen o no en el diccionario). En principio uno dice, "Ok, un hashmap de términos y listo". Esa es la implementación simple pero no me sirve. Bajé el diccionario español de OpenOffice (tiene alrededor de 75000 términos) y lo estoy levantando con el SpellChecker de Lucene (apache). Esto funciona, el SpellChecker armá el diccionario a partir del archivo de texto plano de términos válidos y puedo compararlos pero ahora tengo un problema mayor.

    El diccionario de OpenOffice (como todo otro diccionario) no tiene las palabras en plural ni conjugadas. Es decir, tiene "Argentino", pero no "Argentinos". Necesitaría tener una funcionalidad que pueda detectar este tipo de cosas. En Google no pude encontrar nada que haga algo de esto y me suena MUY raro que en Java la implementación mas próxima a esto sea la de Lucene que es un simple Hash de términos.

    Si alguien sabe de algo por favor que avise.

    Saludos y gracias!
    +
     
    0
    Me gusta
     
    | Más
  • #2 Re: Diccionario español en Java

    Esa información la tenés en el archivo *.aff. Fijate que en es_AR.dic la entrada para argentino es
    argentino/SG
    La S y la G son claves que indican variantes de las palabras, y sus definiciones están en es_AR.aff. Por ejemplo,
    SFX G o a o
    significa que hay que cambiar la o por una a, si la palabra termina en o (eso da argentina), y
    SFX S 0 s [aceéfgiíkoóptuúw]
    significa que hay que agregar una s al final si la palabra temina en alguna de estas letras: aceéfgiíkoóptuúw. Con esta regla obtenés argentinos.

    Saludos.
    Editado por pangus - 03.11.2009 09:44 hs. | Motivo: Corrección: hay otra regla para llegar a “argentinas”
    Me gusta este mensaje
  • #3 Re: Diccionario español en Java

    Gracias Pangus. Ví los caracteres especiales en el .dic y ví el .aff. Lo que estoy necesitando es una librería en Java que tomando esos dos archivo me diga si argentinos es una palabra válida o no. Eso es lo que no estoy pudiendo encontrar. Tenés idea si existe alguna librería en Java para hacer eso? Busqué las propias de oppenoffice pero están en C++.

    Saludos y gracias
    Me gusta este mensaje
  • #4 Re: Diccionario español en Java

    Que yo sepa no, pero no lo podés hacer vos mismo; no es difícil.
    Me gusta este mensaje
Estás en: Inicio >> Foros >> Informática >> Programación


Estadísticas del tema
  • 3 RESPUESTAS
  • 113 VISTAS
  • 2 USUARIOS RESPONDIERON
 
Ir arriba
Contacto | Acerca de | Ayuda | Términos Legales | privacidad | Pautas de convivencia | Mapa de los foros | TrabajÁ con nosotros
©2008 Psicofxp.com S.A. - Todos los derechos reservados
Certifica IAB