Nota

Universidad Nacional de Córdoba - Facultad de Matemáticas, Astronomía y Física

12 de Enero de 2015 | 6 ′ 34 ′′

Analizan 20 mil documentos de la dictadura con un novedoso software

Con un programa de reconocimiento óptico de caracteres y autocorrección creado a medida, especialistas procesan registros conservados en el Archivo Provincial de la Memoria. La iniciativa, pionera en Argentina, apunta a extraer información de personas, lugares y fechas para facilitar su sistematización y establecer relaciones en la búsqueda de datos que permitan clarificar los delitos de lesa humanidad cometidos en los centros clandestinos de detención. Los resultados pueden aportar pruebas en los Juicios por la Verdad.
Analizan 20 mil documentos de la dictadura con un novedoso software

En Córdoba, el Archivo Provincial de la Memoria tiene en guarda cerca de cuatro millones de documentos vinculados a la actuación de las fuerzas de seguridad y los grupos de tareas del terrorismo de Estado durante el último gobierno de facto en el distrito provincial. De ese total, su área de informática ya digitalizó -escaneó y guardó como imagen- 1,2 millones de registros.

El desafío es extraer, de todo ese material, información de personas, ubicaciones y fechas, e intentar establecer conexiones entre los datos para conocer la verdad sobre los delitos de lesa humanidad cometidos en los centros clandestinos de detención durante la última dictadura militar. Este tipo de información resulta de vital interés ya que pueden aportar pruebas en los juicios que se desarrollan en distintas provincias de Argentina.

“En ese punto entramos nosotros”, comenta a Argentina Investiga Paula Estrella, integrante del grupo de Procesamiento de Lenguaje Natural, de la Facultad de Matemática, Astronomía y Física - Universidad Nacional de Córdoba. Ella dirige un equipo abocado a delinear una herramienta informática que procese toda esa documentación digitalizada. En esta primera etapa piloto, trabajan con un lote de 20 mil documentos.

La labor consiste en someter cada documento a un programa de reconocimiento óptico de caracteres (OCR) y autocorrección diseñado a medida. Así, se genera una versión del documento con texto seleccionable, requisito excluyente para poder efectuar búsquedas dentro de su contenido. Durante el proceso, el software analiza la diferencia entre las palabras reconstruidas a partir de la imagen y una base de datos personalizada del idioma -generada por el equipo de investigación- para realizar una corrección automática.

Uno de los aspectos fundamentales de la iniciativa es la generación de diccionarios específicos para cada tipo de documentos, de manera que se puedan reconocer en forma adecuada expresiones propias de actas, legajos, inventarios y otros tipos de documentos. El proceso se completa con el reconocimiento de entidades nombradas, es decir, la identificación y clasificación de menciones a personas, organizaciones, lugares y fechas en textos de lenguaje natural.

La tarea no es fácil. “El estado de conservación y el género de los documentos es muy complejo: hay muchos nombres, modismos y alias que no necesariamente podemos diferenciar de cualquier otra palabra. A su vez, la gran variedad de información que se encuentra en los documentos -que pueden abarcar desde inventario de muebles o instrumentos de oficina hasta traslado de prisioneros o legajos de integrantes de fuerzas de seguridad- complejiza el trabajo, ya que requiere de la confección de diccionarios específicos para cada lote de documentos”, explica Estrella.

Cabe destacar que parte del acervo fotográfico del Archivo Provincial de la Memoria consiste en planos de cuerpo entero (frente y perfil) de personas detenidas, cada una de las cuales se encuentra identificada mediante un código numérico particular. En este contexto, el desafío es lograr que el software detecte y reconozca esta tipología de documentos, con el propósito de indexarlos correctamente.

A futuro, una segunda etapa implicará identificar conexiones entre los datos relevados, un paso que permitirá establecer, por ejemplo, los vínculos de distinto tipo entre personas, la pertenencia de un individuo a una organización o su presencia en determinado lugar. De esa forma será posible establecer relaciones y trayectorias: por ejemplo, tomar el número de legajo de un detenido y efectuar una búsqueda en todos los documentos y reconstruir, a partir de los resultados, una línea de tiempo.

Por el tipo de documentos con el que se trabaja, la labor tiene una complicación anexa: la imposibilidad de aplicar un proceso de corrección colaborativo. Esta modalidad consiste en poner el documento a disposición de una comunidad abierta, donde cada miembro puede hacer un aporte. No obstante, la sensibilidad de los datos con los que se trabaja impide que pueda aplicarse en este caso.

El reconocimiento óptico de caracteres (OCR) y el desarrollo del software de corrección automática de documentos es desarrollado por el estudiante Pablo Paliza, en el marco de su tesis de grado de la carrera de licenciatura en Ciencias de la Computación, de la Facultad de Matemática, Astronomía y Física.

Una experiencia novedosa

Para Marcelo Yornet, coordinador del área de Informática del Archivo Provincial de la Memoria, la cooperación con la UNC es novedosa en varios sentidos. “En primer lugar, nos permite cortar con una lógica histórica de que el sector público no tiene la capacidad ni la infraestructura informática para el procesamiento y búsqueda de información que tiene el sector privado. Por dar un ejemplo, un supermercado tiene mejor infraestructura y soporte informático que gran parte de las oficinas estatales. Este trabajo busca revertir eso y acercar las necesidades concretas de búsqueda de información que tenemos en el Archivo a través de herramientas modernas, de última tecnología”, apunta.

Si bien reconoce que las herramientas están en una etapa de prueba, subraya que ya aportan “un conocimiento más fino” de los 20 mil documentos con los que se trabaja. “Si logramos hacerlo funcionar en los grandes volúmenes de archivos que tenemos, estamos hablando de la posibilidad de obtener una gran cantidad de información y eso nos acercará más a la verdad reciente. Hay un galpón lleno de papeles y en uno de esos está la clave para conocer quiénes fueron responsables de delitos, qué pasó con el destino de las víctimas y más preguntas que es necesario conocer. Esta experiencia es pionera en el país, no existe un proyecto de estas características que muestre el nivel de avance que logramos aquí”, completa Yornet.

Producción Periodística:
Leandro Groshaus

Responsable Institucional:
Eliana Piemonte
Mariana Mendoza
Edgardo Litvinoff
Universidad Nacional de Córdoba

Unidad Central de Comunicación Institucional
comunicacion@rectorado.unc.edu.ar
www.unc.edu.ar


NOTAS DESTACADAS
Buscan estrategias de manejo sostenible para el control de carnívoros nativos en Mendoza
Analizan desechos agrícolas como posibles fuentes de compuestos bioactivos
Diseñan un dispositivo para remover el arsénico del agua
Científicos crean una súper bebida y son reconocidos
Vitamina D como agente inmunoestimulante en la glándula mamaria
La ciencia sale al rescate de la selva misionera
NOVEDADES
Investigadoras de la UNRC diseñaron el Atlas de pólenes de la Región Centro de Argentina
Leche de Búfala: una investigación podría impulsar la industria y el comercio de lácteos
Usos medicinales e industriales de los líquenes
Recetario dietoterápico: reformulan recetas tradicionales con menor valor calórico
Nueva herramienta para estimar la compactación de los suelos
Novedosa microválvula para aliviar el glaucoma
AGENDA
NOTAS RELACIONADAS
NOTAS MÁS LEÍDAS
Defensa planetaria: un estudio del Observatorio de Córdoba revela datos esenciales
La agroindustria, aliada en la prevención del cáncer de mama y de próstata
Investigan una droga que disminuiría riesgos de salud en pacientes con obesidad
Un equipo internacional de investigadores analiza el origen y la evolución de los sistemas volcánicos
Cursos de verano cortos y gratuitos en el Campus Virtual de la UNC.
NOTAS ACADÉMICAS
La construcción de memoria en las escrituras del yo
Manejo ambiental y solidaridad

logo SIU logo CIN logo Ministerio de Capital Humano

Argentina Investiga - argentinainvestiga@siu.edu.ar - Todos los derechos reservados - Publicación Digital - ISSN 2953-402X