El proyecto consiste en procesar pdf's (Algunos vienen bien estructurados en texto , otros son escaneados y deben ser pasados por un OCR) , buscar unas palabras claves apartir de logica difusa ([login to view URL]) (Ya que los pdf's cambian su estructura dependiendo de la entidad que publica la dicho pdf) y posterior a eso extraer el bloque de contenido deseado.
Pensamos que es util implementar matching learning para el aprendizaje de donde sacar cada item por cada pdf o almenos la pragmatica que debe tener el sistema.