Universidad Nacional de Córdoba - Facultad de Matemáticas, Astronomía y Física

12 de Enero de 2015 | 6 ′ 34 ′′


Analizan 20 mil documentos de la dictadura con un novedoso software


Con un programa de reconocimiento óptico de caracteres y autocorrección creado a medida, especialistas procesan registros conservados en el Archivo Provincial de la Memoria. La iniciativa, pionera en Argentina, apunta a extraer información de personas, lugares y fechas para facilitar su sistematización y establecer relaciones en la búsqueda de datos que permitan clarificar los delitos de lesa humanidad cometidos en los dictadura militar argentina.">centros clandestinos de detención. Los resultados pueden aportar pruebas en los Juicios por la Verdad.

En Córdoba, el Archivo Provincial de la Memoria tiene en guarda cerca de cuatro millones de documentos vinculados a la actuación de las fuerzas de seguridad y los grupos de tareas del terrorismo de Estado durante el último gobierno de facto en el distrito provincial. De ese total, su área de Informática ya digitalizó -escaneó y guardó como imagen- 1,2 millones de registros.

El desafío es extraer, de todo ese material, información de personas, ubicaciones y fechas, e intentar establecer conexiones entre los datos para conocer la verdad sobre los delitos de lesa humanidad cometidos en los centros clandestinos de detención durante la última dictadura militar. Este tipo de información resulta de vital interés ya que pueden aportar pruebas en los juicios que se desarrollan en distintas provincias de Argentina.

“En ese punto entramos nosotros”, comenta a Argentina Investiga Paula Estrella, integrante del grupo de Procesamiento de Lenguaje Natural, de la Facultad de Matemática, Astronomía y Física - Universidad Nacional de Córdoba. Ella dirige un equipo abocado a delinear una herramienta informática que procese toda esa documentación digitalizada. En esta primera etapa piloto, trabajan con un lote de 20 mil documentos.

La labor consiste en someter cada documento a un programa de reconocimiento óptico de caracteres (OCR) y autocorrección diseñado a medida. Así, se genera una versión del documento con texto seleccionable, requisito excluyente para poder efectuar búsquedas dentro de su contenido. Durante el proceso, el software analiza la diferencia entre las palabras reconstruidas a partir de la imagen y una base de datos personalizada del idioma -generada por el equipo de investigación- para realizar una corrección automática.

Uno de los aspectos fundamentales de la iniciativa es la generación de diccionarios específicos para cada tipo de documentos, de manera que se puedan reconocer en forma adecuada expresiones propias de actas, legajos, inventarios y otros tipos de documentos. El proceso se completa con el reconocimiento de entidades nombradas, es decir, la identificación y clasificación de menciones a personas, organizaciones, lugares y fechas en textos de lenguaje natural.

La tarea no es fácil. “El estado de conservación y el género de los documentos es muy complejo: hay muchos nombres, modismos y alias que no necesariamente podemos diferenciar de cualquier otra palabra. A su vez, la gran variedad de información que se encuentra en los documentos -que pueden abarcar desde inventario de muebles o instrumentos de oficina hasta traslado de prisioneros o legajos de integrantes de fuerzas de seguridad- complejiza el trabajo, ya que requiere de la confección de diccionarios específicos para cada lote de documentos”, explica Estrella.

Cabe destacar que parte del acervo fotográfico del Archivo Provincial de la Memoria consiste en planos de cuerpo entero (frente y perfil) de personas detenidas, cada una de las cuales se encuentra identificada mediante un código numérico particular. En este contexto, el desafío es lograr que el software detecte y reconozca esta tipología de documentos, con el propósito de indexarlos correctamente.

A futuro, una segunda etapa implicará identificar conexiones entre los datos relevados, un paso que permitirá establecer, por ejemplo, los vínculos de distinto tipo entre personas, la pertenencia de un individuo a una organización o su presencia en determinado lugar. De esa forma será posible establecer relaciones y trayectorias: por ejemplo, tomar el número de legajo de un detenido y efectuar una búsqueda en todos los documentos y reconstruir, a partir de los resultados, una línea de tiempo.

Por el tipo de documentos con el que se trabaja, la labor tiene una complicación anexa: la imposibilidad de aplicar un proceso de corrección colaborativo. Esta modalidad consiste en poner el documento a disposición de una comunidad abierta, donde cada miembro puede hacer un aporte. No obstante, la sensibilidad de los datos con los que se trabaja impide que pueda aplicarse en este caso.

El reconocimiento óptico de caracteres (OCR) y el desarrollo del software de corrección automática de documentos es desarrollado por el estudiante Pablo Paliza, en el marco de su tesis de grado de la carrera de licenciatura en Ciencias de la Computación, de la Facultad de Matemática, Astronomía y Física.

Una experiencia novedosa

Para Marcelo Yornet, coordinador del área de Informática del Archivo Provincial de la Memoria, la cooperación con la UNC es novedosa en varios sentidos. “En primer lugar, nos permite cortar con una lógica histórica de que el sector público no tiene la capacidad ni la infraestructura informática para el procesamiento y búsqueda de información que tiene el sector privado. Por dar un ejemplo, un supermercado tiene mejor infraestructura y soporte informático que gran parte de las oficinas estatales. Este trabajo busca revertir eso y acercar las necesidades concretas de búsqueda de información que tenemos en el Archivo a través de herramientas modernas, de última tecnología”, apunta.

Si bien reconoce que las herramientas están en una etapa de prueba, subraya que ya aportan “un conocimiento más fino” de los 20 mil documentos con los que se trabaja. “Si logramos hacerlo funcionar en los grandes volúmenes de archivos que tenemos, estamos hablando de la posibilidad de obtener una gran cantidad de información y eso nos acercará más a la verdad reciente. Hay un galpón lleno de papeles y en uno de esos está la clave para conocer quiénes fueron responsables de delitos, qué pasó con el destino de las víctimas y más preguntas que es necesario conocer. Esta experiencia es pionera en el país, no existe un proyecto de estas características que muestre el nivel de avance que logramos aquí”, completa Yornet.


Leandro Groshaus


Analizan un archivo de negativos fotográficos de la dictadura

Natalia Magrín propone un tratamiento de las imágenes a partir de conceptos académicos y pensadas “como destellos o fragmentos que entregan lo que fue el terrorismo de Estado en Argentina, para hacer un tratamiento de la política de los restos como lógica de pensamiento”.

Finaliza SAVE: investigación sobre análisis y visualización de información extraída de dispositivos móviles

Investigar en informática forense implica orientar los esfuerzos de los investigadores a facilitar la labor de los operadores judiciales, quienes manejan cada vez mayores volúmenes de información digital. Uno de los recursos más extendidos para recuperar información son los dispositivos móviles, objeto de estudio de SAVE, proyecto de investigación y desarrollo de InFo-Lab.

Una herramienta para detectar enfermedades neurodegenerativas

Una herramienta para detectar enfermedades neurodegenerativas

Investigadores rosarinos diseñaron una aplicación informática que permite la normalización y comparación de imágenes del cerebro obtenidas con diferentes equipos y protocolos. Esta herramienta permite comparar estudios de diferentes centros de salud o a lo largo del tiempo, facilitando la producción de datos estadísticos.

Desarrollan un bastón y anteojos inteligentes para personas con discapacidad visual y ceguera

Un equipo conformado por investigadores y alumnos de la Facultad de Informática desarrolla un kit tecnológico para personas ciegas y disminuidas visuales. El prototipo comprende un bastón y anteojos inteligentes conformados por sensores de proximidad infrarrojos para facilitar la movilidad, el tránsito y la autonomía personal del usuario.

Producción de Arroz: utilizan drones para saber dónde aplicar herbicidas y combatir malezas

Un proyecto articulado de la Facultad de Ciencias Agrarias de la UNNE y el Ministerio de la Producción de Corrientes realiza ensayos con tecnología de dron en campos arroceros para identificar sólo los sitios específicos que requieren aplicación de herbicida contra malezas y evitar la aplicación en el total de la superficie del cultivo, como se realiza actualmente.

Desarrollan camas hospitalarias inteligentes

Desarrollan camas hospitalarias inteligentes

Diseñan un software que permite comandarlas por voz y así ayudar a personas con discapacidad motriz. El nuevo desafío es que un paciente pueda mover la cama sólo con los ojos.