Da esquerda para a direita: Faculdade de Engenharia Elétrica da KAIST: Dr. Jinwoo Park, candidato a mestrado Seunggeun Cho e professor Dongsu Han. Foto: KAIST

KAIST propõe transformar PCs e smartphones em infraestrutura de IA e cortar custos dos modelos de linguagem

Nova tecnologia, desenvolvida na Coreia do Sul, promete reduzir drasticamente os custos de funcionamento de sistemas como o ChatGPT, ao combinar GPUs de centros de dados com placas gráficas comuns presentes em computadores pessoais e dispositivos móveis.

Até agora, os serviços de inteligência artificial baseados em grandes modelos de linguagem (LLMs) têm dependido quase exclusivamente de GPUs potentes e dispendiosas alojadas em centros de dados. Esta dependência traduziu-se em custos operacionais elevados e num acesso limitado à tecnologia. Uma equipa de investigadores do Korea Advanced Institute of Science and Technology (KAIST) apresentou agora uma alternativa que poderá mudar este paradigma.

Batizada de SpecEdge, a nova tecnologia utiliza GPUs comuns – como as existentes em PCs pessoais ou pequenos servidores – em conjunto com GPUs de centros de dados, criando uma infraestrutura híbrida e mais económica para executar modelos de linguagem em larga escala. Segundo o KAIST, a solução permite reduzir em cerca de 67,6% o custo por token gerado, quando comparada com abordagens que recorrem apenas a GPUs de centros de dados.

A tecnologia assenta num método conhecido como speculative decoding. Neste processo, um modelo de linguagem mais pequeno, executado numa GPU de “edge” – fora do centro de dados – gera rapidamente uma sequência de palavras com elevada probabilidade. Em paralelo, um modelo maior, alojado no centro de dados, verifica essas sequências em blocos. Enquanto essa validação decorre, o dispositivo local continua a gerar texto, sem esperar pela resposta do servidor, acelerando o processo e aumentando a eficiência do sistema.

De acordo com os investigadores, esta abordagem permitiu melhorar a eficiência de custos em 1,91 vezes e aumentar a capacidade de resposta dos servidores em 2,22 vezes, face a soluções semelhantes executadas exclusivamente em centros de dados. Um dos aspetos mais relevantes é o facto de o sistema funcionar de forma eficaz com velocidades normais de internet, dispensando infraestruturas de rede especializadas, o que facilita a sua adoção imediata em serviços reais.

O servidor central foi ainda concebido para processar pedidos de verificação provenientes de múltiplas GPUs periféricas em simultâneo, reduzindo tempos mortos e maximizando a utilização dos recursos disponíveis. O resultado é uma arquitetura de serviço para LLMs mais escalável e eficiente, que distribui o esforço computacional entre o centro de dados e os dispositivos dos utilizadores.

Para os autores do estudo, esta abordagem abre caminho à descentralização do processamento de modelos de linguagem, até agora fortemente concentrado em grandes infraestruturas. No futuro, a integração com smartphones, computadores pessoais e unidades de processamento neuronal (NPUs) poderá tornar os serviços de IA avançada mais acessíveis a um público alargado.

O nosso objetivo é aproveitar os recursos de computação existentes junto dos utilizadores, para além dos centros de dados, como parte integrante da infraestrutura de LLMs”, afirma Dongsu Han, professor do Departamento de Engenharia Eletrotécnica do KAIST e líder do projeto. “Desta forma, pretendemos reduzir os custos dos serviços de IA e criar um ambiente onde qualquer pessoa possa aceder a inteligência artificial de elevada qualidade”.

O trabalho contou com a participação do investigador Jinwoo Park e do estudante de mestrado Seunggeun Cho, e foi distinguido como Spotlight – integrando o restrito grupo dos 3,2% melhores artigos – na conferência NeurIPS, uma das mais prestigiadas do mundo na área da inteligência artificial. A investigação foi apoiada pelo Instituto de Planeamento e Avaliação das Tecnologias da Informação e Comunicação (IITP), no âmbito do desenvolvimento de tecnologias 6G para serviços de IA nativos.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

This site uses Akismet to reduce spam. Learn how your comment data is processed.