Brasil, 31 de dezembro de 2025
BroadCast DO POVO. Serviço de notícias para veículos de comunicação com disponibilzação de conteúdo.
Publicidade
Publicidade

Controvérsias sobre o uso de dados do Common Crawl por empresas de IA

A exploração de dados do Common Crawl por empresas de IA levanta questões sobre direitos autorais e práticas éticas.

O Common Crawl Foundation, pouco conhecido fora do Vale do Silício, tem gerado polêmica sobre suas práticas de coleta de dados na era da inteligência artificial. Em uma profunda investigação, ficou evidente que a fundação que há mais de uma década vem coletando bilhões de páginas da web, disponibilizando um vasto arquivo da internet, parece ter criado um acesso indevido aos conteúdos de veículos de comunicação pagos, permitindo que gigantes da tecnologia como OpenAI, Google, Meta e Amazon treinem modelos de linguagem sem a devida autorização.

O que é o Common Crawl?

Fundada com a missão de democratizar o acesso à informação, a Common Crawl é uma organização sem fins lucrativos que disponibiliza enormes volumes de dados para pesquisa. Apesar de sua boa intenção de tornar informações acessíveis, a utilização do seu grande banco de dados por empresas de IA levanta preocupações sérias sobre a forma como esses dados são extraídos e utilizados.

Práticas questionáveis de coleta de dados

O site do Common Crawl afirma que coleta apenas “conteúdo disponível gratuitamente”, sem acessar paywalls. Contudo, investigações revelam que artigos de grandes publicações, normalmente pagos, foram retirados para treinar modelos de IA. O diretor executivo da fundação, Rich Skrenta, defende que os “robôs também são pessoas” e que têm o direito de acessar todo o conteúdo da internet. Essa visão entra em conflito direto com os interesses de editores e jornalistas que veem seu trabalho sendo utilizado sem remuneração ou reconhecimento.

A resistência das publicações

Vários editores têm solicitado a remoção de seus conteúdos dos arquivos da Common Crawl, mas relatos indicam que pedidos não estão sendo totalmente cumpridos. O The New York Times e a Danish Rights Alliance, por exemplo, afirmaram ter problemas em obter a remoção de seus artigos anteriores, mesmo após tentativas de negociação com a fundação.

O papel crítico na IA generativa

A utilização de dados pelo Common Crawl é vista como essencial para o desenvolvimento de modelos de IA generativa, particularmente após a formação do GPT-3 pela OpenAI, que, segundo relatos, teria usado dados do arquivo da fundação. Essa situação gera um paradoxo crescente entre a necessidade de inovação tecnológica e a proteção do trabalho criativo original, como notícias e artigos investigativos.

A ética por trás do uso de dados

Embora o Common Crawl argumente que seu trabalho promove a acessibilidade da informação, críticos afirmam que isso resulta em um desrespeito aos direitos autorais. Se a fundação realmente quisesse mitigar os danos causados, poderia exigir atribuições sempre que seu conteúdo for utilizado. Este tipo de medida, comum em conjuntos de dados abertos, ajudaria a rastrear o uso do trabalho dos jornalistas e protegeria seus direitos.

Olhando para o futuro

Conforme a IA continua a evoluir, a disputa entre tecnologia e direitos autorais tende a se intensificar. A narrativa construída em torno da “liberdade da informação” precisa ser reavaliada, especialmente em um cenário onde os interesses corporativos frequentemente suprimem a voz dos criadores de conteúdo. A busca por um equilíbrio entre inovação e respeito aos direitos autorais é mais crítica do que nunca.

As práticas do Common Crawl precisam ser mais transparentes e respeitar as preocupações dos editores. O futuro da coleta de dados pela IA não pode ignorar a importância do trabalho original, sob pena de prejudicar os jornalistas e afetar a qualidade da informação disponível ao público.

À medida que a tecnologia avança, um debate amplo sobre ética, direitos autorais e o impacto da IA na sociedade torna-se essencial. A responsabilidade não está apenas nas mãos da Common Crawl, mas também nos desenvolvedores de IA que utilizam esses dados e nas plataformas que suportam esse ecossistema, colocando em risco a viabilidade do jornalismo de qualidade.

PUBLICIDADE

Institucional

Anunciantes