Menos é mais: a nova geração de inteligência artificial aposta na eficiência multimodal
Estudo internacional mostra como modelos de IA mais leves e eficientes estão a redefinir o futuro da inteligência artificial, reduzindo custos, consumo energético e barreiras de acesso sem sacrificar capacidade de raciocínio e perceção.
Durante a última década, o avanço da inteligência artificial – em particular dos modelos multimodais que combinam linguagem e visão – foi guiado por uma regra aparentemente simples: modelos maiores, treinados com mais dados, tendem a apresentar melhores resultados. No entanto, esta corrida à escala tem um preço elevado. O treino e a operação destes sistemas exigem enormes recursos computacionais, elevado consumo de energia e infraestruturas centralizadas na nuvem, criando obstáculos à investigação independente e à aplicação prática em contextos reais.
É neste contexto que surge uma nova linha de investigação que propõe uma mudança de paradigma. Investigadores da Shanghai Jiao Tong University e de instituições parceiras publicaram, em dezembro de 2025, na revista Visual Intelligence, uma revisão abrangente sobre modelos multimodais de linguagem de grande escala eficientes. O estudo analisa de forma sistemática os progressos recentes no desenvolvimento de sistemas de IA mais leves, rápidos e económicos, capazes de integrar texto e imagem mantendo elevados níveis de desempenho.
A investigação identifica um dos principais desafios da multimodalidade: a gestão dos chamados “tokens visuais”. Uma única imagem pode gerar centenas ou milhares de tokens, aumentando drasticamente a complexidade computacional. Para responder a este problema, os autores destacam técnicas de compressão de tokens visuais, que eliminam informação redundante antes de esta ser processada pelo modelo linguístico, reduzindo de forma significativa os custos de inferência.
Outra área crítica é a arquitetura dos modelos. Codificadores visuais mais leves, modelos linguísticos compactos e mecanismos eficientes de ligação entre visão e linguagem revelam-se determinantes para equilibrar desempenho e uso de recursos. O estudo aponta ainda para arquiteturas emergentes, como mixture-of-experts e alternativas ao Transformer tradicional, que ativam apenas partes específicas do modelo conforme a tarefa, aumentando a capacidade sem um crescimento proporcional do consumo computacional.
Para além da arquitetura, as estratégias de treino assumem um papel central. Técnicas como instruction tuning, fine-tuning eficiente em parâmetros e a criação de conjuntos de dados e benchmarks orientados para a eficiência permitem que modelos mais pequenos mantenham uma forte capacidade de generalização. A conclusão é clara: a eficiência não resulta de uma única inovação, mas de uma otimização coordenada de todo o ecossistema multimodal.
Segundo o professor Lizhuang Ma, líder da equipa de investigação, esta mudança vai muito além de uma questão técnica. “A eficiência determina quem pode desenvolver, implementar e beneficiar da inteligência artificial multimodal”, afirma. Ao reduzir as barreiras computacionais, estes modelos tornam a IA mais acessível, enquanto respondem a preocupações crescentes com o consumo energético, a privacidade dos dados e a excessiva centralização tecnológica.
As implicações são vastas. Modelos multimodais eficientes podem ser executados em dispositivos móveis, sistemas autónomos e plataformas de edge computing, onde o acesso à nuvem é limitado ou indesejável. Isto abre novas possibilidades em áreas como a saúde, a deteção remota, a análise documental e os assistentes inteligentes, com maior rapidez de resposta e melhor proteção da informação sensível.
Mais do que uma evolução incremental, o estudo sugere que o futuro da inteligência artificial poderá ser definido não pelo tamanho dos modelos, mas pela sua capacidade de entregar inteligência de forma eficaz em condições reais. Nessa perspetiva, a eficiência multimodal poderá marcar a próxima grande fase da inovação em IA.

