Inteligência Artificial pode desvendar textos antigos

3 de maio de 2024 Daniel Sasson

Em 1947, um pastor beduíno encontrou a primeira parte de um tesouro de 15 mil textos judaicos antigos, numa caverna a poucos passos das margens do Mar Morto.

Os textos de 2.000 anos, que mais tarde ficaram conhecidos mundialmente como Manuscritos do Mar Morto, são uma série de manuscritos escritos principalmente em hebraico e principalmente em pergaminho, que lançam luz sobre a vida judaica contemporânea na Terra Santa.

E embora alguns dos manuscritos sejam textos completos, existem milhares de fragmentos cujo mau estado impedem que sejam decifrados.

Mas um novo sistema de IA desenvolvido na Universidade Ben-Gurion do Negev (BGU) poderia ser uma solução para aqueles insondáveis pergaminhos do Mar Morto e outros textos antigos cujo mau estado nos deixa com mais perguntas do que respostas.

O novo sistema é trabalho de quatro alunos de graduação do Departamento de Engenharia de Software e Sistemas de Informação da BGU, que o produziram como parte de seu projeto final do quarto ano. Ele emprega modelagem de linguagem mascarada (MLM) usando o contexto para prever palavras invisíveis em uma frase ou sentença para decifrar o texto em inscrições corrompidas em hebraico e aramaico.

O processo criado por Itay Asraf, Niv Fono, Eldar Karol e Harel Moshayof é semelhante a grandes modelos de linguagem (plataformas de IA que processam enormes quantidades de texto escrito para compreender e criar a linguagem humana), disse o professor supervisor Mark Last (foto).

LEIA TAMBÉM

17/11/2023 – Museus de Israel usam protocolo de guerra para proteger obras
23/12/2022 – Europa financia estudo de manuscritos medievais
09/09/2022 – Papiro da era do primeiro templo retorna a Israel

A principal diferença entre a modelagem de linguagem mascarada padrão e a plataforma recém-desenvolvida é a forma como o texto faltante é apresentado, explica o professor.

No MLM, o tipo de texto a ser examinado é selecionado antecipadamente, seja uma palavra, uma frase ou uma sentença. Mas não existe esse luxo quando se tenta decifrar manuscritos antigos fragmentados.

“No caso de uma inscrição antiga danificada, as partes que faltam podem ser diferentes”, diz Last. “Às vezes incluem uma palavra, às vezes incluem parte de uma palavra, às vezes incluem várias palavras”.

Last explica que ele próprio teve a iniciativa e a sugeriu aos alunos, embora admita que “não foi um projeto convencional” para os alunos.

“Eles sabiam desde o início que não seria fácil”, lembra ele. “Não é uma tarefa fácil, mas eles fizeram o trabalho. Eles ficaram entusiasmados com isso e valeu a pena”.

O projeto inteiro levou cerca de um ano para ser concluído e rendeu aos quatro alunos uma nota 100.

Last diz que se inspirou para criar o projeto devido à sua familiaridade com grandes modelos de linguagem e pelas lembranças de observar sua mãe, uma doutora em história antiga, tentando decifrar inscrições milenares em latim e grego.

Primeiro, os quatro alunos encontraram grandes modelos linguísticos e modelos linguísticos mascarados que eram compatíveis com o hebraico moderno, que, semelhante ao seu antigo antecessor, mas ao contrário das línguas ocidentais, é lido da direita para a esquerda e não utiliza o alfabeto romano.

“Então eles começaram a empilhar o texto para que o algoritmo pudesse entender o que eles estavam perguntando”, diz Last.

Depois que os dados do hebraico moderno foram inseridos nos modelos, eles os usaram para criar um modelo baseado no hebraico antigo.

Last explica que devido à escassez de textos aramaicos para alimentar os MLMs, a ênfase foi colocada no hebraico. Assim, os quatro estudantes usaram os textos bíblicos do Antigo Testamento, a maioria em hebraico, mas também vários em aramaico, para treinar a plataforma. Ao todo, a equipe utilizou 22.144 frases do Antigo Testamento.

“Trabalhamos com textos bíblicos do Antigo Testamento porque, nesse caso, conhecemos a verdade fundamental”, diz ele.

“Portanto, se mascararmos palavras ou partes de palavras aleatoriamente e tentarmos prever o que está faltando, sempre poderemos verificar o quão precisa foi nossa previsão”.

O modelo, que a equipe chamou de Embible, foi apresentado no último encontro do Capítulo Europeu da Associação de Linguística Computacional, que aconteceu em Malta no mês passado.

Last acredita que Embible será útil para outras pessoas, como sua própria mãe, que passou anos tentando decifrar escritos com milhares de anos.

“Podemos ajudar os historiadores que dedicaram suas vidas a recriar esses textos antigos com a maior precisão possível”, disse ele.

Fonte: Revista Bras.il a partir de NoCamels
Foto: Mark Last (Cortesia)