Empresa gerida por IA: o que os resultados indicam sobre o futuro do trabalho

Inês Margarida Figueiredo • February 24, 2026 10:50

O resultado foi sóbrio.

Num experimento cuidadosamente encenado, uma equipa de cientistas entregou toda a carga de trabalho de um escritório aos modelos de IA mais avançados da atualidade. Aos agentes foram atribuídos cargos, caixas de entrada, reuniões e tarefas confusas do mundo real. Falharam na maioria delas.

Dentro do experimento: uma empresa sem humanos

O projeto vem de investigadores da Carnegie Mellon University, que quiseram ir além de problemas “de brinquedo” e testes de benchmark. A pergunta era direta: se uma pequena empresa de colarinho branco fosse composta inteiramente por IA, ela funcionaria de facto?

Para o descobrir, construíram uma empresa simulada e “contrataram” modelos de linguagem de referência da Anthropic, OpenAI, Google, Amazon, Meta e Alibaba. Cada agente de IA recebeu um papel e responsabilidades e, depois, teve de navegar num ambiente digital de trabalho realista.

A lista incluía agentes alimentados por:

Claude 3.5 Sonnet (Anthropic)
GPT‑4o (OpenAI)
Gemini 2.0 Flash (Google)
Amazon Nova
Meta Llama
Qwen (Alibaba)

Foram atribuídos cargos típicos de trabalho do conhecimento: analista financeiro, gestor de projeto, engenheiro de software e outros. Uma simulação separada tratava de “outros departamentos”, como RH ou jurídico, obrigando os agentes a comunicar, fazer perguntas a colegas e coordenar tarefas, tal como funcionários reais.

Em vez de testes de escolha múltipla e prompts “limpos”, as IAs tiveram de lidar com ficheiros dispersos, instruções vagas e o tipo de fricção que preenche um dia de trabalho real.

O que foi pedido aos agentes de IA

As tarefas não eram ficção científica. Eram o tipo de trabalho que se pode ver numa empresa de média dimensão numa terça-feira normal.

Exemplos incluíam:

Pesquisar em unidades partilhadas para analisar uma base de dados e resumir números-chave
Comparar espaços de escritório virtuais e recomendar uma nova localização
Produzir relatórios em formatos de ficheiro específicos para intervenientes específicos
Coordenar com um departamento de RH simulado para questões relacionadas com políticas
Priorizar tarefas recebidas e atualizar o progresso de forma lógica ao longo do tempo

Cada atribuição exigia múltiplos passos, ferramentas diferentes e algum nível de bom senso. Os agentes tinham de abrir ficheiros, interpretar instruções, navegar na web, lidar com janelas pop-up e registar os resultados no local certo.

Os números principais: a IA chumbou na maior parte do trabalho

Contra o entusiasmo mediático, o desempenho bruto foi dececionante. Nenhum agente chegou perto de agir como um funcionário fiável que pudesse ser deixado sozinho durante uma semana.

Agente de IA	Tarefas totalmente concluídas	Incluindo conclusões parciais	Custo aproximado (USD)
Claude 3.5 Sonnet	24%	34,4%	$6,34
Gemini 2.0 Flash	11,4%	Não reportado	$0,79
Outros (GPT‑4o, Nova, Llama, Qwen)	Abaixo de 10%	Inferior à taxa do Claude	Variável

O Claude 3.5 Sonnet ficou em primeiro lugar, mas mesmo assim só conseguiu concluir totalmente menos de um quarto das tarefas. Mesmo contando conclusões parciais, chegou apenas a pouco mais de um terço.

O Gemini 2.0 Flash ficou em segundo lugar na conclusão de tarefas, mas a sua taxa de sucesso manteve-se perto de uma em dez. Os restantes modelos nunca ultrapassaram a marca dos 10%, reforçando a distância entre pontuações de benchmark e a realidade operacional desorganizada.

A IA com melhor desempenho comportou-se como um estagiário brilhante mas pouco fiável: lampejos impressionantes de competência, confusão frequente e nenhuma capacidade para carregar a equipa.

Onde as máquinas tiveram dificuldades

Instruções implícitas e contexto básico

Uma fraqueza marcante foi a incapacidade de lidar com qualquer coisa que não estivesse explicitamente escrita. Trabalhadores humanos inferem contexto rotineiramente: se o teu gestor pede “um relatório .docx para a chamada de segunda-feira”, sabes que isso significa um documento do Microsoft Word preparado antes de uma reunião específica.

Vários agentes de IA falharam nesse tipo de inferência. Quando lhes foi dito para guardar resultados como um ficheiro com a extensão “.docx”, nem sempre ligaram isso ao Word ou a software de escritório. Esse pequeno hiato de compreensão foi suficiente para descarrilar um pedido que, de resto, seria simples.

Competências sociais e coordenação

Os agentes também tropeçaram nas partes mais “suaves” da vida de escritório. As tarefas exigiam que enviassem mensagens a colegas simulados, fizessem perguntas de seguimento ou esclarecessem instruções vagas.

Em vez de confirmar, alguns modelos avançaram com pressupostos errados, produziram conteúdos irrelevantes mas redigidos com confiança, ou simplesmente bloquearam. Faltavam-lhes os ciclos de feedback social que os humanos usam quase sem pensar: “Isto parece bem?”, “Quem é responsável por este processo?”, “Estou a falhar algum passo?”

Navegação na web e fricção de interface

Outro problema recorrente foi a interação com interfaces do mundo real. Quando a tarefa envolvia navegar na web - sobretudo com pop-ups, redirecionamentos e layouts pouco amigáveis - o desempenho muitas vezes colapsava.

Janelas pop-up, banners de cookies e pedidos de login criavam becos sem saída. Alguns agentes interpretaram mal a página, fecharam a janela errada ou assumiram que tinham concluído a atividade quando apenas tinham lido parte da informação.

Em várias execuções, quando as coisas se tornaram difíceis, as IAs basicamente “cortaram caminho”: saltaram os passos mais difíceis, geraram uma resposta plausível e marcaram o trabalho como concluído.

Sob pressão, muitos agentes não pediram esclarecimentos nem tentaram de novo; alucinaram sucesso.

Então, a IA pode mesmo substituir trabalhadores de colarinho branco?

As conclusões vão contra previsões mais dramáticas de que escritórios inteiros serão esvaziados nos próximos dois anos. Os modelos líderes de hoje conseguem escrever, programar e resumir de forma impressionante em condições controladas. Mas gerir um negócio autónomo exige mais do que competência linguística bruta.

A empresa simulada expôs lacunas em:

compreensão de contexto, especialmente quando as instruções estão incompletas
planeamento multi-passo através de várias ferramentas e vários dias
auto-verificação e deteção de erros
etiqueta básica de escritório e padrões de comunicação

Na prática, empresas totalmente “geridas por IA” não estão ao virar da esquina. Um cenário mais provável são equipas híbridas em que agentes de IA tratam de sub-tarefas claramente definidas, enquanto humanos definem objetivos, corrigem erros e lidam com ambiguidades.

Perspetiva económica: desempenho versus custo

O custo acrescentou outra camada. O Claude 3.5 Sonnet liderou em desempenho, mas também foi o mais caro de operar no experimento, cerca de $6,34 no conjunto das tarefas. O Gemini 2.0 Flash teve uma taxa de conclusão mais baixa, mas custou apenas $0,79.

Para empregadores, este trade-off importa. Uma IA que falha em três quartos das tarefas continua a gerar custos e a exigir supervisão humana. Qualquer implementação séria tem de ponderar não só a capacidade bruta, mas também se essas capacidades poupam realmente trabalho - ou se apenas o redistribuem.

O que isto significa para os trabalhadores atuais

Para muitos funcionários preocupados com a automatização, o estudo oferece alguma tranquilidade cautelosa. As atividades em que a IA teve pior desempenho coincidem fortemente com o que muitas pessoas fazem bem em silêncio: ler nas entrelinhas, coordenar com outros e gerir sistemas imperfeitos.

Isso não significa que os empregos fiquem congelados no tempo. Tarefas rotineiras e altamente estruturadas - como resumir documentos bem formatados ou redigir emails padrão - continuam vulneráveis à automatização ou a uma forte augmentação. Mas as camadas confusas, relacionais e políticas do trabalho de escritório não são facilmente reproduzidas por código.

Os humanos continuam a ter vantagem ao lidar com objetivos vagos, prioridades em mudança e processos meio avariados.

Termos-chave: agentes, autonomia e alucinações

Três conceitos ajudam a interpretar os resultados:

Agente de IA: um sistema que não se limita a responder a um único prompt, mas que pode executar múltiplas ações ao longo do tempo - navegar, clicar, enviar mensagens e guardar ficheiros.
Autonomia: o grau em que um agente consegue operar sem instruções humanas constantes. Autonomia total significaria lidar com situações novas, decidir quando pedir ajuda e planear com antecedência.
Alucinação: quando uma IA produz afirmações confiantes que são falsas ou infundadas. Em contextos de trabalho, isto pode levar a dados fabricados, relatórios enganadores ou confirmações imaginárias.

O experimento da Carnegie Mellon mostra que encadear os modelos atuais em “agentes” não concede autonomia por magia. A tendência subjacente para alucinar ou falhar contexto continua a aparecer - apenas envolta em fluxos de trabalho mais complexos.

Cenários práticos para utilização a curto prazo

Apesar dos limites, estes sistemas podem continuar a ser úteis quando cuidadosamente restringidos. Uma configuração realista para os próximos anos parece menos um chefe de IA e mais um conjunto de assistentes de IA.

Exemplos de utilizações viáveis incluem:

redigir primeiras versões de relatórios, que humanos depois verificam e editam
fazer uma pré-triagem de grandes conjuntos de dados à procura de padrões óbvios antes de uma análise humana mais profunda
gerar opções para planos de projeto, com um gestor a tomar as decisões finais
tratar de tarefas administrativas repetitivas com regras e formatos claros

Estes papéis alinham-se com o que os modelos já fazem bem: objetivos definidos, restrições claras e supervisão humana forte. Também deixam espaço para julgamento humano, negociação e avaliação de risco - áreas em que o estudo mostra que a IA ainda fica aquém.

Riscos e salvaguardas para fluxos de trabalho geridos por IA

Para organizações tentadas a implementar “funcionários de IA”, o experimento destaca vários riscos. A dependência excessiva de agentes pode criar uma falsa sensação de segurança. Os relatórios podem parecer polidos, mas assentar em passos ignorados ou em instruções mal compreendidas.

As empresas podem reduzir esses riscos incorporando salvaguardas nos seus processos:

obrigar a que resultados da IA passem por revisão humana em qualquer decisão com impacto legal ou financeiro
registar (logging) cada ação da IA para que auditores possam rastrear o que aconteceu quando algo corre mal
formar colaboradores para tratarem a IA como uma ferramenta, não como uma autoridade
definir limites claros sobre o que os agentes podem fazer sem supervisão

À medida que os modelos melhorarem, as taxas de sucesso nestes experimentos tenderão a subir. Ainda assim, o estudo da Carnegie Mellon funciona como um importante banho de realidade: mesmo a IA de ponta, colocada dentro de um escritório simulado, comporta-se menos como um colega incansável e mais como um assistente demasiado confiante que precisa sempre de um humano no circuito.