Un grupo de estudiantes desarrolló un sistema de IA para acceder al archivo de Abuelas

Fueron entregados los premios del “Desafío Inteligencia Artificial por la Identidad”, convocatoria lanzada en marzo pasado por la Fundación Sadosky en conjunto con Abuelas de Plaza de Mayo para digitalizar y hacer accesible el archivo de más de 10 mil recortes periodísticos reunidos durante 45 años. La iniciativa es similar a una que se desarrola en Olavarría.

Este archivo fue confeccionado inicialmente por una de las fundadoras de la Asociación, Raquel Radio de Marizcurrena, quien durante años llevó adelante la tarea de seleccionar y recortar los artículos de los diarios que consideraba importantes en relación a los derechos humanos, lo que produjo una carpeta de cerca 10 mil recortes de noticias  que hace cerca de diez años se digitalizó, pero era muy dificil encontrar la información en los archivos de la computadora.

En ese contexto, un equipo de estudiantes fue premiado por la iniciativa «Inteligencia Artificial por la Identidad», impulsada por Abuelas junto a la Fundación Sadosky. El objetivo del proyecto es desarrollar un software capaz de indexar el archivo de Abuelas compuesto de noticias de diarios y revistas que documentan 45 años de lucha en la búsqueda de sus nietos.

 

Tres equipos de estudiantes universitarios de distintas provincias resultaron ganadores del «desafío», pues prefirieron no llamarlo «concurso», que tuvo como objetivo desarrollar un software capaz de digitalizar el archivo periodístico de Abuelas de Plaza de Mayo, con miles de artículos de diarios y revistas recolectados en casi medio siglo de trabajo, en un acto de premiación realizado en el edificio Cero+Infinito de la Facultad de Ciencia Exactas de la UBA.

«Este reconocimiento es un orgullo; estudiamos en la facultad para esto. Está bueno generar estos canales entre los organismos de derechos humanos y la tecnología, ya que que puede salir algo muy útil como estos desarrollos«, dijo a Télam la estudiante de la UB Julieta Goria, integrante del equipo «Les Cigarres», junto a Sofía Goy y Francisco Sandalinas, que obtuvo el primer premio de este concurso impulsado el Ministerio de Ciencia, Tecnología e Innovación, a través de la Fundación Sadosky. Los ganadores recibieron notebooks de alta gama.

El segundo puesto fue para el equipo «Ana Teresa Diego», compuesto por Agostina Filócomo, Ezequiel Pássaro y Adolfo Simaz Bunzel, mientras que el tercer premio fue obtenido por el equipo «Three Data Scientists», integrado por los estudiantes Oscar Matías Bonfanti, Matías Naranjo Harper y Joel Stanich.

«No se trata de una memoria que vaya para atrás, sino que tiene el sentido de proyectarse hacia adelante porque todavía nos quedan muchas nietas y nietos para recuperar y la ciencia tiene mucho para aportar en ese sentido. Recordamos para tener un país mejor, para que no haya terrorismo de Estado y para que haya plena vigencia de la democracia y los derechos humanos«, aseguró en el acto el ministro de Ciencia, Daniel Filmus, quien además destacó que «entre Abuelas y la ciencia hay una relación virtuosa desde siempre«.

El funcionario remarcó, además, que «el índice de abuelidad significó un aporte no solo para la Argentina, sino para el mundo. Fue reconocido por la Unesco como una contribución central para recuperar el derecho a la identidad en muchos países que sufrieron el terrorismo de Estado», remarcó durante el acto.

Estela de Carlotto, presidenta de Abuelas de Plaza de Mayo, no pudo asistir a la ceremonia y envió desde México un video en el que agradeció a los estudiantes, y resaltó: «Estas actividades nos llenan de alegría y nos brindan la expectativa de acceder a novedades«.

Lo mismo hizo Taty Almeida, integrante de Madres de Plaza de Mayo Línea Fundadora, que envió un mensaje en el que felicitó a los concursantes «por haber participado y colaborado desinteresadamente con el objetivo de utilizar la inteligencia artificial para el trabajo de las Abuelas«.

 

«Estamos tranquilas porque ustedes son el recambio«, manifestó Almeida en su mensaje, que fue reproducido por el director ejecutivo de la Fundación Sadosky, Fernando Schapachnik.

Según explicaron desde la cartera de Ciencia, los participantes tuvieron que afrontar distintos desafíos y pasos, como por ejemplo segmentar y separar las noticias del resto del contenido que no lo era; identificar y clasificar las diferentes partes de la noticia (título, imagen, cuerpo y epígrafe); ordenar el cuerpo de las noticias respetando el orden de lectura; y pasar las imágenes a texto a través de lo que se llama reconocimiento óptico de caracteres.

El archivo de Abuelas fue confeccionado inicialmente por una de las fundadoras de la Asociación, Raquel Radio de Marizcurrena, quien durante 40 años llevó adelante la tarea de seleccionar y recortar los artículos de los diarios que consideraba importantes en relación a los derechos humanos.

«Raquel se tomó el trabajo durante muchos años de sentarse en el escritorio y leer todos los diarios para recortar cada artículo que hablara sobre derechos humanos. Fueron guardados en carpetas y después los escaneamos. Quedó muy lindo, pero no podés encontrar nada, había que darle una utilidad y para eso apareció este desafío que premiamos hoy«, destacó Juan Pablo Moyano, nieto restituido que se desempeña en el archivo de Abuelas.

Hasta casi sus últimos días, nuestra abuela Raquel [Radio de Marizurrena] se tomó el trabajo de sentarse en un escritorio todos los días a leer los diarios y a recortar cada artículo que tenía que ver con los derechos humanos, que luego fueron guardados en carpetas, carpetas y más carpetas –contó Moyano, nieto recuperado–. Entonces, hicimos como siempre, como aprendimos de ellas, que cuando no sabían o no encontraban la forma de hacer algo, pedían ayuda a la sociedad y les aportaban conocimiento, trabajo, tiempo al servicio de su búsqueda, que es colectiva. El fin, aparte de seguir encontrando a nuestros hermanos, es también que la gente pueda continuar conociendo a través de los años la obra magnífica que hicieron”.

Buscarita Roa, vicepresidenta de Abuelas, aseguró que «es muy importante llegar a estos ámbitos para que todos sepan que el trabajo que hacemos las Abuelas tiene que ver con la identidad de todos. Quiero agradecerle a la sociedad argentina por ser como es. Este encuentro significa muchísimo, seguimos buscando nietos, queremos que el pueblo argentino se haga cargo para poder encontrar a los que faltan, por lo menos antes de que nos vayamos las últimas abuelas que quedamos, que somos muy poquitas«, dijo en la sala de la facultad que estaba colmada.

 

La nieta restituida y nieta de Buscarita, Claudia Poblete Hlaczik, quien es ingeniera en sistemas y programadora, subrayó que el trabajo que hicieron los estudiantes «es invaluableAcá veo gente joven y me alegra que puedan entender lo que significa seguir buscando a los nietos que faltan, hay que llegar hacia ellos. Esto es algo muy moderno como es la inteligencia artificial, está en boca de todos«, aseguró y contó que recuperó su identidad hace 23 años gracias a que las Abuelas de Plaza de Mayo la encontraron.

Por su parte, el Decano de la Facultad, Guillermo Durán, sostuvo que la Facultad de Exactas “tiene una historia de compromiso desde siempre con la Memoria, la Verdad y la Justicia. Han participado graduados nuestros en el Banco Nacional de Datos Genéticos y hemos tenido actividades diversas en defensa de los derechos humanos. Por eso digo que esto nos genera alegría y emoción».

Por último, el director ejecutivo de la Fundación Sadosky afirmó que «a veces hay una idea de que los científicos que nos dedicamos a las ciencias duras estamos desconectadas de las problemas sociales y los derechos humanos, esta iniciativa sirvió para mostrar que no es así«.

«Estamos muy orgullosos y agradecidos por la repercusión que tuvo esta iniciativa. Recibimos más de 100 proyectos de 13 provincias del país. En su mayoría eran grupos de estudiantes universitarios con un fuerte compromiso social de aportar herramientas y soluciones para poder digitalizar y extraer, de una nota escaneada, bloques de texto, y generar una transcripción del mismo«, señaló.

 

En un primer momento, cerca de 60 personas tuvieron que “etiquetar” manualmente cada recorte; es decir, indicarle al software qué parte era la nota propiamente dicha, cuál el título, cuál el texto, cuál la bajada. “Fue un trabajo que tomó muchas horas y que nosotros no hubiéramos podido abordar por la cantidad de cuestiones que iban surgiendo de la exploración misma de los datos. Ese constituyó el primer gran desafío y lo encararon ‘de diez’ –explica Victoria Dumas, líder del equipo de IA de la Fundación–. Lo que se pidió que hicieran los algoritmos fue distinguir esas partes en la imagen escaneada y poner esa información en un formato amigable para hacer búsquedas.

 

Victoria Dumas

Los participantes ‘entrenaron’ el programa con un conjunto de noticias que había sido previamente etiquetado y nos dieron el código para poder ejecutarlo. Hubo mucho trabajo conjunto, porque estos algoritmos lo que requieren es que uno tenga un buen cuerpo de ejemplos para poder ‘entrenar’ el sistema. Aparte, armamos un conjunto de imágenes de noticias que el algoritmo no había visto y que iba a tener que «leer» (es decir, identificar sus partes). Sobre la base de ese corpus que no conocían los participantes, nosotros testeamos el código”.

Una de las dificultades que debieron enfrentar consistió en que las notas más antiguas presentaban menor legibilidad, incluso por parte de humanos. “Por eso, tratamos de darles a los distintos equipos una cantidad equilibrada, entre notas más antiguas y más nuevas, más largas y más cortas, y de diferentes orígenes, porque cuantas más imágenes se le den al sistema, más chances hay de que pueda detectar después con mayor fiabilidad cada parte”.

El archivo está accesible ahora en versión “prototipo” armado sobre la base del equipo ganador en este link: http://buscador-ia-por-la-identidad.fundacionsadosky.org.ar. Pero los científicos ahora quieren seguir avanzando y desarrollar un buscador que permita explorarlo con más facilidad.

Es importante acotar que una iniciativa similar se desarrolla en Olavarría, en donde un equipo conformado a partir de diversos proyectos universitarios de Extensión y Voluntariado ha digitalizado, entre otros materiales, 10 años del vespertino Tribuna, la colección casi completa del suplemento «Pulso» de El Popular, gran parte de las ediciones de la revista «Tiempos Tandilenses» de esa ciudad, junto a incontable cantidad de materiales.

La actividad reseñada comenzó con el proyecto «Procesos de memoria y olvido en ciudades intermedias: relatos del periodismo gráfico local durante la última dictadura cívico-militar (1976-1983), realizado en la 22ª Convocatoria de Extensión que consistió en la digitalización completa de los diarios El Popular y Tribuna (vespertino) de Olavarría, correspondientes al período 1974-1984. Es actividad no se realizó completamente, por la dificultad de acceso al archivo del diario El Popular en el lapso del proyecto, sin embargo el proceso realizado hacia la  colección del diario “Tribuna” conservada en el Archivo Histórico de Olavarría permitió poner en valor ese material, al tiempo que disponerlo a diversos investigadores al tiempo que se lo preservaba y disponía para múltiples usos de investigación y producción periodística así como insumo de juicios de lesa humanidad y procesos de minado de datos.

Este trabajo fue util en la causa Moreno en 2012 y Monte Pelloni en 2014, pues en los diarios que refieren la muerte de Moreno aparece la patente del auto que lo secuestro (ademas de otras informaciones) y durante el juicio por Monte Pelloni se hicieron búsquedas por declarantes para consultar las publicaciones del tiempo de su detención o posteriores puesto que el diario local no los habilitaba para consultar su archivo.

Además de ser reconocidos por la Cámara Federal de Casación Penal, fue ganado con otro proyecto la posibilidad de digitalizar los archivos sonoros de LU10 Radio Azul, emisora recuperada por sus trabajadores en la que realizaremos un trabajo similar, pero con respecto a sus registros de sonido.

Correlativamente, en ese tránsito se fue adquiriendo experiencia en el proceso de trabajo, recuperando el conocimiento necesario al tiempo que se desarrollaban procesos de trabajo y protocolos de actividades que fueron oportunamente documentadas. A partir de ese proyecto, fueron convocados para rescatar a través de la digitalización la abundante documentación sonora y gráfica perteneciente a la emisora de AM LU10 Radio Azul, de la localidad homónima que corría riesgo de perderse. Posteriormente a ello llegó la información de la existencia y posible deterioro y pérdida de los archivos personales de un periodista de destacada trayectoria en Azul, Héctor “Cacho” Nebbia, que había fallecido dos años antes. Ante la urgencia de la tarea, se realizó un rescate de emergencia de su acervo, que consintió en la recuperación y catalogación de su documentación personal consistente en notas, dibujos, grabaciones de audio y video que contenían su dilatada trayectoria profesional, así como posesiones personales que expresaban su dilatada trayectoria relacionada con la cultura local.

Al momento se han digitalizado, además del archivo de Tribuna (que corresponde a cerca de 110.000 imagenes) , El Popular (30.000 imágenes) y Tiempos Tandilenses (6500 imágenes), el  archivo de la APDH local (200 imágenes), 6200 recortes periodisticos de temas diversos, diarios y revistas locales y regionales (7000 y 2100 imágenes respectivamente), 9 mil fotos que tiene en su poder el martillero Sergio Vazzano, boletas de elecciones, diversos catálogos, folletos y panfletos históricos, y carpetas de información personal como las de la Fiesta del Cemento, del Folklore y del Tango entre otras.

Del mismo modo, los archivos sonoros ligados al desempeño de LU10 Radio Azul, contenidos en 500 cintas abiertas con grabaciones que datan desde comienzos de los 60s, 200 casetes que registran los 90s y 6000 discos de acetato, pasta y vinilo fueron procesados, digitalizados y catalogados y se incorporaron a Ivoox y paralelamente a archive.org, a partir de lo cual entendemos tienen tienen preservación y exposición global. También se digitalizaron 250 casetes de la colección particular de una conductora que tuvo su programa en esa emisora. Por su parte los videos VHS de Héctor «Cacho» Nebbia digitalizados suman aproximadamente 650 archivos de entre cinco minutos a dos horas.

Respecto de la recuperación de información, si bien no se han desarrollado herramientas propias, se ha hecho un uso de tecnologías existentes para poder acceder a contenidos en los archivos gráficos, con lo que se responde permanentemente a diversas rquisitorias de información.

 

Fuente: Nota de Nora Barr en El Destape, Canal-ar, InfoNews y agencia Telam.