E quando inteligências artificiais “viajam”?

Durante um voo operado pela Avianca em 2019, que partiu de El Salvador com destino ao Aeroporto Internacional John F. Kennedy, em Nova York, o passageiro Roberto Mata acabou se machucando no joelho em um acidente envolvendo o carrinho de metal operado pelos comissários de bordo. O homem decidiu então processar a companhia aérea alegando negligência dos funcionários e contratou o advogado Steven Schwartz, do escritório Levidow, Levidow & Oberman.

Incidente ocorreu durante uma viagem internacional de avião

Com trinta anos de experiência, Schwartz preparou a representação de Roberto Mata e contou com a ajuda do ChatGPT para redigir o documento, que inclusive relembrava jurisprudências de outros seus casos nas quais a decisão da Justiça foi favorável aos clientes, com citações desses julgamentos: Varghese vs. China South Airlines; Martinez vs. Delta Airlines; Shaboon vs. EgyptAir; Petersen vs. Iran Air; Miller vs. United Airlines; e Estate of Durden vs. KLM Royal Dutch Airlines.

Parecia ser um caso fácil de cliente contra empresa, em busca de reparação por danos, até que no tribunal do juiz Kevin Castel, do Distrito Sul de Nova York, se deparou com o que descreveu como um incidente “sem precedentes”. Nem o magistrado, nem os advogados da companhia aérea conseguiram encontrar as decisões ou citações que embasaram o documento de Schwartz. Todos eram falsos, invenções do chatbot.

Falha no levantamento de informações da Inteligência Artificial levou um advogado americano ao banco dos reús

Em depoimento, Schwartz alegou que não tinha nenhuma intenção de enganar a Justiça, e que foi a primeira vez que utilizou o ChatGPT como fonte de pesquisa legal, e portanto “desconhecia a possibilidade de que seu conteúdo pudesse ser falso”. Após assumir a responsabilidade por não confirmar as fontes do chatbot, o advogado afirmou que “lamenta muito ter utilizado inteligência artificial generativa para complementar a pesquisa jurídica realizada aqui e nunca o fará no futuro sem verificação absoluta de sua autenticidade”. Agora, ele próprio enfrentará um julgamento em junho.

Este caso aconteceu na semana passada, e é mais um que chama a atenção à medida em que ferramentas de inteligência artificial generativa ganham espaço nos mais diferentes segmentos do mercado.

Ninguém duvida da capacidade da tecnologia, que só para ficar no campo do Direito, foi aprovado no equivalente norte-americano ao exame da OAB, com uma pontuação de 298 em 400, de acordo com a OpenAI. O problema acontece quando ao invés de apenas colaborar com humanos para melhorar a forma dos seus trabalhos, os robôs passam a ficar responsáveis pelo seu conteúdo.

“A discussão agora entre os advogados é como evitar exatamente o que este caso descreve. Você não pode simplesmente pegar o resultado e recortá-lo e colá-lo em seus arquivos judiciais”, avalia o professor de ética jurídica da Escola de Direito da Universidade de Nova York, Stephen Gillers, em entrevista ao NYT.

A Microsoft incorporou o ChatGPT ao buscador Bing, e agora muitos usuários estão tomando algumas das suas respostas como verdadeiras e verificadas. Em sua primeira demonstração pública, o Bard do Google inventou um fato sobre o Telescópio Espacial James Webb (o que fez as ações da empresa despencarem no dia). O próprio Bard foi “fechado”, de acordo com uma informação falsa dada pelo Bing.

Desde sempre, as ferramentas de IA generativa foram vendidas como um ponto de início para a produção de conteúdo, um “start” que ajuda redatores, pesquisadores, ilustradores e outros criativos a estudar algumas opções antes de trabalharem de fato. Mas não foi assim que a tecnologia foi comprada pelo público, que viu a chegada dos chatbots com um misto de entusiasmo e medo de ser substituído pelas máquinas.

Em um teste, o próprio New York Times perguntou aos principais chatbots disponíveis quando a publicação tinha falado pela primeira vez sobre inteligência artificial. Todas as respostas tinham pelo menos um erro factual. O ChatGPT “simplesmente inventou”, disse o NYT, “ele apenas erra às vezes, como também pode fabricar informações. Nomes e datas. Explicações médicas. As tramas dos livros. endereços de Internet. Mesmo eventos históricos que nunca aconteceram”, completa a reportagem.

Isso tem muito a ver com a forma com que a tecnologia de IA generativa funciona. Todas são baseadas em modelos de linguagem que aprendem a gerar ou processar texto baseados em exemplos de treinamento. Para isso, eles dependem de um algoritmo complexo que analisa a maneira como os humanos juntam palavras dentro das fontes e bancos de dados que lhe alimentam (que em muitos casos são os bilhões de textos disponíveis na internet).

O algoritmo não é treinado para saber o que é verdade e o que não é, e como a rede está repleta de informações falsas, a tecnologia aprende a repetir as mesmas mentiras.

E quando uma inteligência artificial não só repassa uma informação errada, mas inventa uma totalmente nova, este evento é tratado internamente como uma “alucinação”: um conteúdo inédito gerado a partir da combinação de bilhões de padrões de formas inesperadas.

Quando uma inteligência artificial inventa uma informação, o evento é tratado como uma “alucinação”

E isso pode acontecer mesmo que o sistema tenha sido alimentado apenas com textos precisos, uma vez que é um resultado da maneira com a qual o algortimo trabalha. “Como esses sistemas aprendem com mais dados do que os humanos jamais poderiam analisar, até mesmo as IAs não conseguem entender por que geram uma determinada sequência de texto em um determinado momento. E se você fizer a mesma pergunta duas vezes, eles podem gerar textos diferentes”, explica a reportagem do Times.

Em entrevista ao programa norte-americano ‘60 Minutes’, o CEO do Google, Sundar Pichai, explicou que todos os modelos de linguagem têm esse problema, mas ninguém conseguiu resolvê-lo ou entendê-lo completamente.

O que empresas como a OpenAI, Google e Microsoft vêm fazendo é desenvolver maneiras de melhorar a precisão dos resultados. A OpenAI, por exemplo, (cujo CEO, Sam Altman, é um defensor da maior regulamentação do setor) costuma se valer sempre de feedback de testadores humanos, que avaliam as respostas do ChatGPT. Essa técnica é chamada de aprendizado por reforço.

A Microsoft, que usa o modelo da OpenAI como base para o chatbot Bing, afirma que utiliza a própria tecnologia de IA para comparar respostas com os dados subjacentes comprovadamente verídicos para avaliar o desempenho do modelo. Por isso, cada busca no Bing gera o dobro de resultados, um feito pela IA e outro da maneira tradicional, que são comparados e enviados. É mais ou menos o que o Google faz também com o Bard, que ainda passa pelo feedback humano em alguns casos.

Entretanto, mesmo que essas ferramentas melhorem sua precisão, ter um pé atrás com seus resultados é sempre saudável. Um estudo da própria OpenAI avalia que “contraintuitivamente, as alucinações podem se tornar mais perigosas à medida que os modelos se tornam mais verdadeiros, pois os usuários constroem confiança no modelo quando ele fornece informações verdadeiras em áreas com as quais eles têm alguma familiaridade”.

Renato Mota é jornalista, e cobre o setor de Tecnologia há mais de 15 anos. Já trabalhou nas redações do Jornal do Commercio, CanalTech, Olhar Digital e The BRIEF