A Sociologia Digital e suas interfaces | Entre Opacidade e Oligopólio: a Tecnopolítica da IA generativa, por Jorge Machado

Dando continuidade à série A Sociologia Digital e suas Interfaces, publicamos hoje texto de Jorge Machado (EACH/USP), onde analisa a tecnopolítica da inteligência artificial generativa a partir de dois eixos centrais: a opacidade estrutural desses sistemas e a crescente oligopolização do setor pelas Big Techs.

O texto mostra que os modelos de IA não são apenas ferramentas neutras de eficiência, mas infraestruturas produtoras de conhecimento marcadas por um triplo véu de opacidade técnica, corporativa e epistêmica, dificultando a identificação de distorções informacionais. Com isso, para o autor, fenômenos como o envenenamento de dados e o colapso de modelos deixam de ser problemas exclusivamente técnicos e passam a configurar riscos infraestruturais com implicações diretas sobre a soberania informacional, especialmente nos países do Sul Global.

A Sociologia Digital e suas Interfaces é uma série da BVPS Edições, com curadoria de Richard Miskolci. A série vai ao ar semanalmente, sempre às quartas-feiras. Outros posts da série podem ser conferidos aqui.

Para ficar por dentro de todas as nossas postagens, você pode assinar nossa lista de e-mails, seguir nosso Instagram ou entrar no canal da BVPS no WhatsApp. Boa leitura!


Entre Opacidade e Oligopólio: a Tecnopolítica da IA generativa

Por Jorge Machado (EACH/USP)

Tem sido crescente a preocupação com a forma como a sociedade incorpora sistemas de inteligência artificial generativa ao cotidiano. Há uma transformação silenciosa na infraestrutura que organiza e produz conhecimento, influencia decisões e participa, cada vez mais, da formação de visões de mundo. Esses sistemas cumprem tarefas com grande eficiência, ajudam a esclarecer assuntos e podem emular conversas com profissionais de diferentes áreas – como psicólogos, sociólogos, juristas ou médicos. Vão muito além disso, gerando vídeos, música e conteúdos midiáticos cuja distinção em relação às criações autenticamente humanas tem se tornado progressivamente mais difícil. Aos poucos, esses sistemas passam a ocupar espaços antes desempenhados por humanos, remodelando diferentes aspectos da vida social.

Em 2025, os investimentos em inteligência artificial por parte das Big Techs foram estimados entre US$ 300 e 400 bilhões (Subin, 2025). Para 2026, projeções indicam cerca de US$ 630 bilhões apenas entre as maiores empresas – Microsoft (principal investidora da OpenAI), Meta, Google e Amazon. Quando considerados também grandes provedores de infraestrutura, como Oracle e CoreWeave, na ordem de US$ 273 bilhões, esse montante alcança valores ainda mais elevados (Kwok, 2026). No agregado, diferentes estimativas sugerem que os investimentos acumulados no biênio 2025-2026 se aproximam ou superam a marca de US$ 1 trilhão.

Esse ecossistema também possui uma base material significativa: chips, data centers, cabos submarinos, satélites e cadeias globais de hardware, cuja sustentação industrial depende de commodities cada vez mais disputadas, como silício, estanho, prata e elementos de terras raras. Nesse sentido, a tecnopolítica da IA se projeta diretamente sobre a geopolítica, afetando o Sul Global de diferentes formas – não apenas no plano informacional.

Trata-se de um dos maiores ciclos de investimento tecnológico concentrado em um curto período, comparável – em escala e velocidade – a momentos históricos de reorganização econômica, como o Plano Marshall. Nesse contexto, observa-se uma forte tendência à oligopolização: nas condições atuais, competir com os ecossistemas das Big Techs exige um volume de capital e um nível de infraestrutura que torna a entrada de novos atores extremamente difícil.

Para além da concentração econômica, esses sistemas são marcados por um alto grau de opacidade. Essa opacidade é tripla: técnica, devido à complexidade dos modelos; corporativa, em função do sigilo industrial; e epistêmica, pela dificuldade de rastrear como determinadas saídas são produzidas. Os dados utilizados, as arquiteturas dos modelos, os processos de treinamento e os ajustes finos (fine-tuning) são protegidos por “segredo de negócio”. Como resultado, torna-se difícil compreender como as respostas são geradas, identificar vieses – como racismo ou etnocentrismos – ou avaliar distorções sistemáticas.

É como se a água que consumimos, fornecida por uma grande corporação, viesse contaminada, sem que tivéssemos noção disso. Simplesmente a ingeriríamos, sem conhecer sua composição, sem poder auditar seus testes, sem prever seus efeitos e sem nenhum órgão de controle para fiscalizá-la.

Ainda assim, usamos esses sistemas em funções críticas – da triagem de currículos ao suporte a diagnósticos médicos, da mediação da informação pública à automação de decisões administrativas. Interagimos, portanto, com sistemas cujos efeitos são amplos e, em grande medida, desconhecidos.

Essa condição não é inteiramente nova. As TICs foram nos colocando gradualmente sob a lógica das “caixas-pretas” (Pasquale, 2015): sistemas que operam decisões socialmente relevantes sem transparência e fora do escrutínio público. Com a ascensão da IA generativa, no entanto, essa opacidade atinge um novo patamar: deixa de ser apenas um problema de governança e passa a configurar um risco infraestrutural mais amplo.

Desinformação na dieta das máquinas

Em 2024, a rede de desinformação pró-Rússia conhecida como Pravda, em uma operação coordenada, publicou cerca de 3,6 milhões de artigos falsos, distribuídos em aproximadamente 150 domínios, em dezenas de idiomas e direcionados a 49 países (Sadeghi & Blachez, 2025).

Com produção em massa de conteúdo gerada por IA, esses materiais simulavam portais jornalísticos legítimos. Para leitores humanos atentos, poderia haver sinais de inconsistência. Para sistemas automatizados de coleta de dados, no entanto, essa distinção é muito mais difícil. Foi identificada a reprodução dessas narrativas nas respostas dos principais modelos de IA generativa (entre eles, ChatGPT-4o, Google Gemini, Microsoft Copilot, Meta AI), que passaram a distribuir as “notícias” da rede Pravda como informações fidedignas.

Modelos de IA generativa dependem de grandes volumes de dados extraídos da web. Robôs de coleta percorrem continuamente a rede, incorporando textos, imagens e padrões linguísticos aos conjuntos de treinamento. Nesse processo, distinguir entre informação confiável e desinformação coordenada está longe de ser trivial.

Humanos enganam sistemas, que passam a enganar humanos

O caso Pravda evidencia vulnerabilidades estruturais na cadeia de treinamento desses modelos. A filtragem e validação dos dados permanecem desafios significativos. Esse tipo de manipulação tem sido descrito como “LLM grooming”, uma estratégia na qual grandes volumes de desinformação ou conteúdo enviesado são disseminados com o objetivo de influenciar sistemas de IA. O fenômeno se insere no campo mais amplo do data poisoning (envenenamento de dados).

Pesquisas em segurança de aprendizado de máquina já demonstravam, em ambientes controlados, como sistemas podem ser manipulados por dados adversariais (Biggio et al., 2012; Steinhardt, Koh, & Liang, 2017). Conteúdos enviesados ou enganosos, mesmo que pouco sofisticados, podem ser estatisticamente predominantes e ser recuperados pelos modelos como referência de informação. Mais do que ataques pontuais, a simples presença massiva e indexada de determinados conteúdos pode ser suficiente para influenciar os sistemas.

Para além da contaminação deliberada, há também o viés de origem dos dados. A maior parte das informações utilizadas nesses modelos é produzida em língua inglesa. No caso do GPT-3 – um dos poucos com alguma transparência – cerca de 93% dos dados textuais de treinamento eram em inglês (Brown et al., 2020). Com a língua, transmitem-se visões de mundo, valores culturais e universos simbólicos específicos, o que introduz assimetrias desde a base do sistema.

A cadeia alimentar informacional e a contaminação dos sistemas

Uma forma de compreender esse fenômeno é pensar a IA como parte de uma cadeia alimentar informacional. Nesse ecossistema, dados são ingeridos, processados e transformados em novos conteúdos, que retornam ao ambiente digital como insumo para sistemas futuros. Em cadeias desse tipo, a contaminação em níveis iniciais tende a se propagar. Vieses e desinformação não apenas circulam: são metabolizados e reconfigurados ao longo dos diferentes estágios.

O funcionamento desses sistemas – opacos, alimentados por dados não auditáveis e operando em larga escala – sugere que estamos inseridos em um ecossistema informacional cada vez mais difícil de escrutinar. Como muitos dos modelos mais utilizados são proprietários, esse processo ocorre, em grande medida, no escuro. Não há acesso público aos dados de treinamento, aos critérios de filtragem ou aos mecanismos de correção.

Um desdobramento particularmente preocupante é o fenômeno conhecido como model collapse. Trata-se da degradação progressiva de modelos – especialmente quando não há mecanismos robustos de filtragem – que ocorre quando esses modelos passam a ser treinados com dados gerados por outros sistemas de IA.

Estudos recentes exploram empiricamente essa dinâmica. Shumailov et al. (2023) mostram que o treinamento iterativo com dados sintéticos pode levar à perda de diversidade e precisão, resultando em distribuições degeneradas. O acúmulo de conteúdo gerado por IA no ambiente digital pode comprometer a qualidade de modelos futuros. Em termos simples, os sistemas passam a se alimentar de seus próprios resíduos. Isso pode resultar em redução da diversidade linguística, amplificação de vieses e empobrecimento semântico.

As Big Techs no comando

O debate sobre transparência em IA é frequentemente tratado como uma questão técnica ou regulatória. No entanto, os elementos discutidos apontam para algo mais profundo, relacionado à dinâmica contemporânea do capitalismo e à centralidade crescente da informação como recurso estratégico.

Em um ambiente trilionário, marcado por riscos elevados para os investidores, as disputas de poder se deslocam para o controle de dados, infraestrutura e modelos – e, sobretudo, da própria capacidade de inferir e explicar o mundo. Nesse processo de oligopolização, o sigilo – vital para o negócio – torna-se a regra; a transparência, a exceção.

O resultado é uma dinâmica de concentração que opera em múltiplos níveis: dados, capacidade computacional e poder preditivo. Essa concentração tende a produzir dependência, reforçar assimetrias e ampliar capacidades de vigilância, especialmente quando articulada com plataformas digitais amplamente utilizadas.

As implicações são particularmente relevantes para países do Sul Global, que tendem a ocupar posições mais dependentes – não apenas economicamente, mas também em termos informacionais e culturais. Modelos treinados em contextos linguísticos e sociais distintos podem introduzir formas sutis de assimetria, acentuando o colonialismo informacional.

Diante desse cenário, propostas como a soberania digital – envolvendo transparência, controle social, governança algorítmica e infraestrutura autônoma – ganham centralidade, ainda que sua implementação seja complexa e repleta de desafios.

Se modelos de IA generativa passam a estruturar a produção e circulação de conhecimento, sua opacidade deixa de ser apenas um problema técnico. O envenenamento de dados, a reprodução de vieses e a crescente mediação algorítmica da realidade tornam-se questões centrais para a sociedade. Esses sistemas penetram múltiplas dimensões da vida social, influenciando decisões, moldando percepções e comportamentos.

A web descentralizada de seus primeiros anos, que gradualmente deu lugar à concentração de plataformas das Big Techs, passa agora por uma nova inflexão. Desta vez, a mudança tem como motor os oligopólios gerados na fase anterior, turbinados pela IA generativa. Caracterizada pelo alto grau de opacidade e enorme concentração de dados e capital, essa “nova fase” trouxe desafios muito mais complexos para serem enfrentados.


Referências

BIGGIO, Battista & NELSON, Blaine & LASKOV, Pavel. (2012). Poisoning attacks against support vector machines. Proceedings of the 29th International Conference on Machine Learning (ICML). Disponível em: https://arxiv.org/abs/1206.6389.

BROWN, Tom B. & MANN, Benjamin & RYDER, Nick & SUBBIAH, Melanie & KAPLAN, Jared & DHARIWAL, Prafulla & AMODEI, Dario. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems. Disponível em: https://arxiv.org/abs/2005.14165.

KWOK, Ken. (2026). How Big Tech’s $630 bln AI splurge will fall short. Reuters, 26 mar. Disponível em: https://www.reuters.com/commentary/breakingviews/how-big-techs-630-bln-ai-splurge-will-fall-short-2026-03-26/.

PASQUALE, Frank. (2015). The Black Box Society: the secret algorithms that control money and information. Cambridge, MA: Harvard University Press.

MACHADO, J. A. (2025). Toward a public and secure generative AI: a comparative analysis of open and closed LLMs. arXiv. Disponível em: https://arxiv.org/abs/2505.10603.

SADEGHI, M. & BLACHEZ, I. (2025). The infection of Western AI chatbots by a Russian propaganda network. NewsGuard Report, 6 mar. Disponível em: https://www.newsguardtech.com/wp-content/uploads/2025/03/March2025PravdaAIMisinformationMonitor.pdf.

SHUMAILOV, Ilia & SHUMAYLOV, Zakhar & ZHAO, Yiren & PAPERNOT, Nicolas & ANDERSON, Ross & GAL, Yarin. (2023). The curse of recursion: training on generated data makes models forget. arXiv. Disponível em: https://arxiv.org/pdf/2305.17493.

STEINHARDT, Jacob & KOH, Pang Wei & LIANG, Percy. (2017). Certified defenses for data poisoning attacks. Advances in Neural Information Processing Systems (NeurIPS). Disponível em: https://proceedings.neurips.cc/paper_files/paper/2017/file/9d7311ba459f9e45ed746755a32dcd11-Paper.pdf.

SUBIN, Samantha. (2025). Tech megacaps plan to spend more than $300 billion in 2025 as AI race intensifies. CNBC, 8 fev. Disponível em: https://www.cnbc.com/2025/02/08/tech-megacaps-to-spend-more-than-300-billion-in-2025-to-win-in-ai.html.

Sobre o autor

Jorge Machado é Professor Titular da Escola de Artes, Ciências e Humanidades (EACH) da Universidade de São Paulo (USP).