Fragilidade da memória na Internet: como preservar documentos na Era Digital

Há mais ou menos um mês, uma parte da internet se mobilizou para salvar os memes do Imgur – um serviço de hospedagem de imagens criado em 2009, que rapidamente se tornou um dos mais populares para compartilhar memes em sites e plataformas que não contavam com ferramentas próprias para isso, como o Reddit, por exemplo.

Acontece que, quando foi adquirido pela MediaLab em 2021, o Imgur anunciou que, este ano, apagaria dos seus servidores conteúdo sexualmente explícito (até aí, ok) e imagens antigas, não utilizadas ou inativas que não estivessem vinculadas a uma conta de usuário. Foi aí que o bicho pegou, já que muitos memes “históricos” da web caem nessa categoria.

Para alguns analistas, isso seria o equivalente digital ao incêndio da Biblioteca de Alexandria, mas se os papiros tivessem fotos de gatos. Aí começou o esforço para salvar essa memória, com destaque para o pessoal do site de humor Something Awful, que baixou três terabytes de fotos e vídeos do servidor, e se dispôs a guardar esses arquivos em seus próprios drives na nuvem, o que lhes custará algo em torno de US$ 80 a US$ 100 por mês.

Que museu, no futuro, guardará o fóssil do Philosoraptor?

Esse caso nos faz pensar na fragilidade da memória em tempos de conteúdo digital. Até não muito tempo atrás, a salvação para eternizar documentos era digitalizá-los: “não precisamos dessa montanha de papel, podemos digitalizar tudo e torná-los mais acessíveis”. Ok, isso é verdade, mas até certo ponto. Mais exatamente, até o ponto em que os servidores que hospedarão aquele conteúdo permanecerão online.

Um exemplo recente é o da plataforma de streaming da Warner, a HBO Max, que em meio ao processo de fusão com o Discovery Plus resolveu retirar do ar vários programas de sua biblioteca. Para além do desgosto dos artistas que criaram essas produções, muitas delas – lançadas já nos últimos 10 anos – nunca chegaram ao home vídeo, seja em CD ou DVD. Ou seja, só existiam na nuvem, até não existir mais.

Em parte, a impermanência da internet produziu um ressurgimento da mídia física, seja os relançamentos de álbuns em formato vinil até a volta do VHS. Nesses casos estamos falando em produtos de entretenimento, mas e o que pode acontecer com documentos oficiais, reportagens de jornais, cartas e outros documentos que, ao longo de séculos, serviram como base para o registro histórico?

Como já disse o Dr. Henry Jones Jr. (Indiana, para os íntimos), “70% de toda a arqueologia é feita na biblioteca. Pesquisando. Leitura”. Registros históricos são fontes essenciais para o estudo do passado e da memória coletiva, permitindo que as gerações futuras tenham acesso a informações sobre os acontecimentos, as pessoas, as instituições e as culturas que moldaram o mundo em que vivemos (desde que sejam o lado vencedor). No entanto, na era digital, manter esses registros se torna cada vez mais difícil e complexo.

Um dos desafios é a preservação dos registros digitais, que são vulneráveis a problemas técnicos, como a obsolescência dos formatos e dos suportes, a degradação dos dados, os ataques cibernéticos e as catástrofes naturais. É só olhar à sua volta: o formato de CD e DVD era, de longe, o mais popular no início do século. Quantos leitores de CD/DVD você teria acesso nesse momento, se precisasse? Posso dizer o meu caso, que é “nenhum”, pelo menos na minha casa. Falando em desastres, um pulso eletromagnético de uma explosão nuclear poderia facilmente destruir redes elétricas inteiras. Computadores, ao contrário dos livros, precisam de energia para funcionar.

Quantos leitores de CD/DVD você teria acesso nesse momento, se precisasse?

E esse problema vai além do hardware para ler esses dados, e pode chegar ao formato do dado em si. Muitos documentos digitais criados nas décadas de 1980 e 1990 já não podem ser acessados por causa da incompatibilidade dos softwares atuais. Quem sabe muito bem desse problema é o pessoal dos jogos retrô, que têm que recorrer a emuladores e outras gambiarras tecnológicas para rodar os games antigos – muitos dos quais suas desenvolvedoras perderam o interesse em renovar ou até mesmo saíram do mercado por falência ou aquisição de companhias maiores.

Além disso, os registros digitais são produzidos em grande volume e velocidade, o que dificulta o seu gerenciamento e a sua seleção. O que vale salvar? O que pode ser descartado? Por exemplo, estima-se que o Google armazene mais de 10 exabytes de dados, o equivalente a bilhões de livros – não há Biblioteca de Alexandria que dê conta.

Esses questionamentos não são, em absoluto, inerentes à Era Digital. No antigo Egito, o papiro era uma planta abundante, e seus rolos semelhantes ao papel foram cobertos de hieróglifos que permitiram que historiadores e estudiosos descobrissem informações sobre a civilização e a cultura egípcia da época. Mas climas frios e úmidos lhe são devastadores, e estudiosos avaliam que 95% da produção acadêmica antiga desapareceu ao longo dos séculos.

Bibliotecários e historiadores já estão lidando com essa questão. Na Universidade de Nova York há um projeto chamado “Preserving the Dynamic Web” que está tentando preservar diferentes tipos de sites dinâmicos, por meio de um arquivamento do back-end das páginas, e não apenas o rastreamento do front-end. “Os sites estão se tornando cada vez mais dinâmicos. Os arquivistas da web digital estão tendo que procurar outras soluções para diferentes casos de uso e não há uma ferramenta de arquivamento da web de tamanho único que possa pegar qualquer coisa. Temos que usar ferramentas diferentes para diferentes tipos de sites”, explica Katy Boss, bibliotecária de jornalismo, mídia, cultura e comunicação da NYU.

Um desses sites dinâmicos são os mapeamentos da pandemia do novo coronavírus que os sites de jornalismo de dados divulgaram ao longo dos últimos três anos. “É um pouco assustador porque este foi um grande momento na história e esses sites não estão sendo capturados em escala em nenhum lugar. Estranhamente, existem livros publicados há 500 anos que são muito mais estáveis e preserváveis do que algumas dessas páginas na web”, afirma Katy.

Felizmente, há quem acredite que a indústria de tecnologia apresentará suas próprias soluções para essa perda de memória. Jeremy Burton, presidente de produto e marketing da EMC, avalia que os padrões de armazenamento de dados em todo o setor se tornarão cada vez mais comuns à medida que a capacidade de armazenamento se tornar cada vez menos um problema. “Dez anos atrás, o armazenamento custaria cerca de US$ 30 por gigabyte; agora custa centavos. Existe uma geração de pessoas crescendo que espera ter acesso a qualquer informação que desejar – não apenas dados que foram criados no último dia ou mês, mas todos os dados”, afirma o executivo.

Esse era o site da UFPE há 20 anos. Boa parte das imagens não abre por falta de compatibilidade de plug-in ou pelo fato do servidor original não estar mais no ar

Fora da academia, o maior projeto de arquivamento de conteúdo da web é o Internet Archive, fundado há 25 anos pelo engenheiro Brewster Kahle. Qualquer internauta, por meio da ferramenta “Wayback Machine”, pode visualizar páginas da web arquivadas desde meados dos anos 1990 até o presente. O projeto é construído de maneira colaborativa com mais de mil bibliotecas em todo o mundo, e contém centenas de bilhões de páginas da web, livros, noticiários, registros governamentais, coleções antigas de som e filmes arquivados (incluindo alguns tweets de pessoas relevantes).

Mas Kahle conta que o projeto vem esbarrando em outros desafios que vão além da questão técnica, e são de ordem legal, ética, política e econômica. “Gravadoras e editoras de livros não sabiam o que fazer com a internet no início, mas agora veem novas oportunidades de ganhos financeiros. As plataformas também tendem a colocar seus interesses comerciais em primeiro lugar”, afirmou, em um artigo publicado na Time.

Esse foi o mesmo problema que teve o projeto Google Books, que pretendia digitalizar milhões de livros sem a autorização dos autores e das editoras, gerando uma disputa judicial que durou mais de uma década.

“Não me interpretem mal: editoras e plataformas continuam a desempenhar um papel importante em levar o trabalho dos criadores ao mercado e, às vezes, auxiliam na tarefa de preservação. Mas as empresas fecham e mudam de mãos, e seus interesses comerciais podem prejudicar a preservação e outros importantes benefícios públicos”, avalia Khale, que não vê o trabalho do Internet Archive muito diferente do que faz uma biblioteca tradicional física.

“Por exemplo, enquanto uma biblioteca sempre pode simplesmente comprar um livro físico no mercado para preservá-lo em suas prateleiras, muitas editoras e plataformas tentam impedir que as bibliotecas preservem informações digitalmente. Eles podem até usar medidas técnicas e legais para impedir que as bibliotecas o façam”, conta o engenheiro. “Sociedades livres precisam de acesso à história, inalterada pela mudança de interesses corporativos ou políticos. Este é o papel que as bibliotecas desempenharam e precisam continuar desempenhando”, completa.

Renato Mota é jornalista, e cobre o setor de Tecnologia há mais de 15 anos. Já trabalhou nas redações do Jornal do Commercio, CanalTech, Olhar Digital e The BRIEF