Universidad Nacional de Córdoba - Facultad de Matemáticas, Astronomía y Física

12 de Enero de 2015 | 6 ′ 34 ′′


Analizan 20 mil documentos de la dictadura con un novedoso software

Analizan 20 mil documentos de la dictadura con un novedoso software


Con un programa de reconocimiento óptico de caracteres y autocorrección creado a medida, especialistas procesan registros conservados en el Archivo Provincial de la Memoria. La iniciativa, pionera en Argentina, apunta a extraer información de personas, lugares y fechas para facilitar su sistematización y establecer relaciones en la búsqueda de datos que permitan clarificar los delitos de lesa humanidad cometidos en los dictadura militar argentina.">centros clandestinos de detención. Los resultados pueden aportar pruebas en los Juicios por la Verdad.

En Córdoba, el Archivo Provincial de la Memoria tiene en guarda cerca de cuatro millones de documentos vinculados a la actuación de las fuerzas de seguridad y los grupos de tareas del terrorismo de Estado durante el último gobierno de facto en el distrito provincial. De ese total, su área de Informática ya digitalizó -escaneó y guardó como imagen- 1,2 millones de registros.

El desafío es extraer, de todo ese material, información de personas, ubicaciones y fechas, e intentar establecer conexiones entre los datos para conocer la verdad sobre los delitos de lesa humanidad cometidos en los centros clandestinos de detención durante la última dictadura militar. Este tipo de información resulta de vital interés ya que pueden aportar pruebas en los juicios que se desarrollan en distintas provincias de Argentina.

“En ese punto entramos nosotros”, comenta a Argentina Investiga Paula Estrella, integrante del grupo de Procesamiento de Lenguaje Natural, de la Facultad de Matemática, Astronomía y Física - Universidad Nacional de Córdoba. Ella dirige un equipo abocado a delinear una herramienta informática que procese toda esa documentación digitalizada. En esta primera etapa piloto, trabajan con un lote de 20 mil documentos.

La labor consiste en someter cada documento a un programa de reconocimiento óptico de caracteres (OCR) y autocorrección diseñado a medida. Así, se genera una versión del documento con texto seleccionable, requisito excluyente para poder efectuar búsquedas dentro de su contenido. Durante el proceso, el software analiza la diferencia entre las palabras reconstruidas a partir de la imagen y una base de datos personalizada del idioma -generada por el equipo de investigación- para realizar una corrección automática.

Uno de los aspectos fundamentales de la iniciativa es la generación de diccionarios específicos para cada tipo de documentos, de manera que se puedan reconocer en forma adecuada expresiones propias de actas, legajos, inventarios y otros tipos de documentos. El proceso se completa con el reconocimiento de entidades nombradas, es decir, la identificación y clasificación de menciones a personas, organizaciones, lugares y fechas en textos de lenguaje natural.

La tarea no es fácil. “El estado de conservación y el género de los documentos es muy complejo: hay muchos nombres, modismos y alias que no necesariamente podemos diferenciar de cualquier otra palabra. A su vez, la gran variedad de información que se encuentra en los documentos -que pueden abarcar desde inventario de muebles o instrumentos de oficina hasta traslado de prisioneros o legajos de integrantes de fuerzas de seguridad- complejiza el trabajo, ya que requiere de la confección de diccionarios específicos para cada lote de documentos”, explica Estrella.

Cabe destacar que parte del acervo fotográfico del Archivo Provincial de la Memoria consiste en planos de cuerpo entero (frente y perfil) de personas detenidas, cada una de las cuales se encuentra identificada mediante un código numérico particular. En este contexto, el desafío es lograr que el software detecte y reconozca esta tipología de documentos, con el propósito de indexarlos correctamente.

A futuro, una segunda etapa implicará identificar conexiones entre los datos relevados, un paso que permitirá establecer, por ejemplo, los vínculos de distinto tipo entre personas, la pertenencia de un individuo a una organización o su presencia en determinado lugar. De esa forma será posible establecer relaciones y trayectorias: por ejemplo, tomar el número de legajo de un detenido y efectuar una búsqueda en todos los documentos y reconstruir, a partir de los resultados, una línea de tiempo.

Por el tipo de documentos con el que se trabaja, la labor tiene una complicación anexa: la imposibilidad de aplicar un proceso de corrección colaborativo. Esta modalidad consiste en poner el documento a disposición de una comunidad abierta, donde cada miembro puede hacer un aporte. No obstante, la sensibilidad de los datos con los que se trabaja impide que pueda aplicarse en este caso.

El reconocimiento óptico de caracteres (OCR) y el desarrollo del software de corrección automática de documentos es desarrollado por el estudiante Pablo Paliza, en el marco de su tesis de grado de la carrera de licenciatura en Ciencias de la Computación, de la Facultad de Matemática, Astronomía y Física.

Una experiencia novedosa

Para Marcelo Yornet, coordinador del área de Informática del Archivo Provincial de la Memoria, la cooperación con la UNC es novedosa en varios sentidos. “En primer lugar, nos permite cortar con una lógica histórica de que el sector público no tiene la capacidad ni la infraestructura informática para el procesamiento y búsqueda de información que tiene el sector privado. Por dar un ejemplo, un supermercado tiene mejor infraestructura y soporte informático que gran parte de las oficinas estatales. Este trabajo busca revertir eso y acercar las necesidades concretas de búsqueda de información que tenemos en el Archivo a través de herramientas modernas, de última tecnología”, apunta.

Si bien reconoce que las herramientas están en una etapa de prueba, subraya que ya aportan “un conocimiento más fino” de los 20 mil documentos con los que se trabaja. “Si logramos hacerlo funcionar en los grandes volúmenes de archivos que tenemos, estamos hablando de la posibilidad de obtener una gran cantidad de información y eso nos acercará más a la verdad reciente. Hay un galpón lleno de papeles y en uno de esos está la clave para conocer quiénes fueron responsables de delitos, qué pasó con el destino de las víctimas y más preguntas que es necesario conocer. Esta experiencia es pionera en el país, no existe un proyecto de estas características que muestre el nivel de avance que logramos aquí”, completa Yornet.


Leandro Groshaus


Coronavirus: diseñan un software integrado de gestión hospitalaria

Más de 40 centros de salud de tres provincias lo implementaron para conocer y administrar sus recursos de manera integrada, y conocer en tiempo real las posibilidades del sistema hospitalario. Fue hecho en sólo 10 días por físicos, programadores y médicos.

La cuarentena de los adultos mayores

La cuarentena de los adultos mayores

Desde hace varios años los adultos mayores son parte de la comunidad universitaria de la UNLa, en el campus universitario realizan actividades culturales, de recreación, de aprendizaje y de estimulación. Silvia Molina, quien investiga y trabaja desde el Centro del Adulto Mayor y la Especialización en Gerontología, explica cómo atraviesan los adultos mayores el ASPO y cómo los acompaña la Universidad.

Un proyecto para brindar comunicación y gestión dentro de los servicios penitenciarios

Claudia Perlo es investigadora de la UNR y Conicet y dirige un proyecto para el diseño e implementación de un dispositivo de educación móvil para cárceles. La propuesta apunta a poner en funcionamiento un sistema de videoconferencia móvil, para que las personas en contexto de encierro puedan ejercer sus derechos fundamentales a la educación, la cultura y el sostenimiento del vínculo familiar.

El desafío de recargar combustible alrededor de la Luna

Sonia Botta, ingeniera de la UNLP, fue distinguida por la Universidad de Leicester, en el Reino Unido, por su tesis sobre análisis de trayectoria y mecánica orbital. Participará del lanzamiento del satélite SAOCOM 1B.

Ser digital en tiempos de pandemia

Ser digital en tiempos de pandemia

La UNNOBA mantiene sus tareas esenciales en funcionamiento gracias a la infraestructura y los programas que implementa. ¿Hay riesgos de colapso comunicacional?, la creciente demanda ¿hará caer toda la infraestructura de internet? Diálogo con el prosecretario de TIC de la Universidad, Hugo Ramón.

Un robot para el control de cañerías subterráneas

El entramado subterráneo de las tuberías está sujeto a fallas estructurales ocasionadas por fisuras y roturas que ocasionan serios inconvenientes económicos. Es por esto que tres jóvenes ingenieros diseñaron el prototipo de un robot teledirigido para facilitar la inspección en el interior de las tuberías de la ciudad de Resistencia

Canal de videos 104