Inteligência artificial

Investindo em Hardware de IA: De CPUs a XPUs

mm
Securities.io maintains rigorous editorial standards and may receive compensation from reviewed links. We are not a registered investment adviser and this is not investment advice. Please view our affiliate disclosure.

Investindo em Hardware de IA: Abordagem de Pás e Picaretas

AI promete ser a mudança mais importante em nossa economia, sistemas produtivos e sociedade nas últimas décadas, potencialmente tornando até as mudanças radicais trazidas pela Internet triviais em comparação.

Ela pode fazer desaparecer uma categoria inteira de empregos, incluindo motoristas, tradutores, suporte ao cliente, designers de sites, etc. Outros empregos podem sofrer uma redução radical na demanda, como programadores, advogados iniciantes, diagnosticadores, etc.

Ela também deve criar muito valor e produtividade adicionais para muitas outras tarefas, com as empresas de software de IA dominantes provavelmente sendo as primeiras a alcançar capitalizações de mercado antes inimagináveis.

Por todas essas razões, os mercados de capitais e investidores têm sido hipnotizados pela IA e dedicam muita atenção ao progresso dos inúmeros gigantes de tecnologia em IA, bem como à forte concorrência que surge dos gigantes chineses como Alibaba e startups como DeepSeek.

Outra forma de aproveitar o boom da IA é seguir a estratégia conhecida por funcionar em todas as corridas do ouro: não procure ouro, mas venda pás e picaretas. Isso certamente funcionou para as empresas que estavam no melhor lugar para vender hardware otimizado para IA, com Nvidia (NVDA ) tendo transformado suas placas gráficas de jogos em chips de treinamento de IA, tornando-se a empresa mais valiosa do mundo, tendo ultrapassado a impressionante capitalização de mercado de $4T (segue o link para um relatório completo sobre a Nvidia).

Como a IA requer hardware muito específico, principalmente diferente de outras formas anteriores de tarefas computacionais, e representa uma oportunidade de negócios enorme, a indústria de semicondutores está agora em uma corrida para desenvolver novas formas de hardware projetadas especificamente para treinar e executar programas de IA.

Embora a Nvidia provavelmente continue sendo uma das principais empresas do setor, alternativas estão surgindo e podem oferecer oportunidades interessantes para investidores que prestam atenção cedo.

Por que a IA Precisa de Hardware Especializado

Muitos Cálculos Pequenos

Os esforços iniciais em IA usaram a mesma capacidade computacional de outros programas, focando principalmente em processadores (Unidade Central de Processamento – CPUs). As CPUs ainda são importantes, mas rapidamente ficou evidente que não são ideais para a maioria dos métodos atualmente usados para desenvolver IAs.

Redes neurais e outros métodos semelhantes requerem muitas cálculos relativamente simples, em vez de um cálculo muito complexo. Portanto, muitos chips menores trabalhando em paralelo são geralmente melhores do que CPUs massivas e poderosas.

Isso explica em grande parte por que as GPUs rapidamente se tornaram mais populares, já que as placas gráficas são intrinsecamente projetadas para executar milhares de cálculos menores em paralelo.

O treinamento de IA atual baseia-se amplamente em redes neurais, um conceito que ganhou o Prêmio Nobel de Física em 2024, uma recompensa que cobrimos em detalhes em um artigo dedicado na época.

Fonte: Nobel Prize

Uma segunda revolução na tecnologia de IA chegou com os “transformers”. Eles resolvem a incapacidade das redes neurais tradicionais de processar eficientemente sequências longas de dados, uma característica comum de qualquer linguagem natural.

Introduzidos pela primeira vez em 2017 por pesquisadores do Google, eles são a causa raiz da atual explosão na capacidade de IA. Os transformers estão no cerne de produtos de IA como LLMs (Modelos de Linguagem de Grande Escala), incluindo o ChatGPT.

Requisitos Diferentes

Uma distinção importante nos fluxos de trabalho de IA é a diferença entre fine-tuning (e ajuste fino) e inference (inferência), ambos com requisitos de hardware distintos.

  • Fine-tuning envolve treinar um modelo com dados específicos de domínio, exigindo poder computacional e memória significativos. É uma tarefa muito técnica, frequentemente na fronteira da ciência de IA.
  • Inference foca no uso de um modelo já treinado para gerar saídas, exigindo menos poder computacional, mas maior foco em baixa latência e eficiência de custos.
    • Isso é mais rotineiramente feito por especialistas em IA que implantam modelos preexistentes para resolver problemas da vida real.

Portanto, embora os custos sejam obviamente uma preocupação tanto para fine-tuning/treinamento quanto para inferência/uso de IA, o treinamento geralmente exigirá o melhor hardware possível, enquanto as tarefas de uso se concentrarão mais no custo do hardware e no consumo de energia ao escolher a melhor opção de hardware.

CPUs vs GPUs

Unidades Centrais de Processamento (CPUs):

As CPUs são de uso geral e não são especificamente hardware de IA. Elas, no entanto, ainda são essenciais para executar instruções e realizar cálculos básicos em sistemas de IA.

A maior parte do software que lida com a interface dos usuários finais de um sistema de IA também será centrada em CPU, seja em computadores individuais ou em softwares baseados na nuvem.

Fonte: AnandTech

As CPUs também podem ser usadas para IAs muito simples, onde hardware dedicado não é realmente necessário. Isso é especialmente verdadeiro quando a saída não é particularmente urgente, e o processamento de IA relativamente mais lento das CPUs não é um problema.

Assim, modelos pequenos com lotes pequenos de dados e cálculos podem ter bom desempenho em CPUs. A onipresença das CPUs em computadores comuns também as torna uma boa opção para um usuário médio que não deseja investir em hardware específico para IA.

As CPUs também são muito confiáveis e estáveis, tornando-as uma boa escolha para tarefas críticas onde nenhum erro é um critério importante.

Por fim, as CPUs são úteis para algumas tarefas no treinamento de IA, geralmente em colaboração com outros tipos de hardware, como carregamento de dados, formatação, filtragem e visualização.

Unidades de Processamento Gráfico (GPUs):

Originalmente projetadas para renderização gráfica, as GPUs são projetadas para processamento paralelo, tornando-as ideais para treinar modelos de IA que requerem manipulação de grandes conjuntos de dados. A mudança de CPUs para GPUs reduziu o tempo de treinamento de semanas para horas.

Devido à sua ampla disponibilidade e à experiência de especialistas em TI em trabalhar com elas, as GPUs foram o primeiro tipo de hardware computacional a ser instalado em série para ampliar a pesquisa em IA.

Fonte: Aorus

Também instrumental para o sucesso das GPUs foi o desenvolvimento do CUDA pela Nvidia, uma interface de programação de uso geral para GPUs da NVIDIA, abrindo a porta para usos além de jogos. Isso foi feito porque alguns pesquisadores já estavam usando GPUs para realizar cálculos em vez dos supercomputadores habituais.

“Os pesquisadores perceberam que ao comprar esta placa de jogos chamada GeForce, você a adiciona ao seu computador, essencialmente tendo um supercomputador pessoal.

Dinâmica molecular, processamento sísmico, reconstrução de TC, processamento de imagens — uma série de coisas.

Jensen Huang, em entrevista com a Sequoia

Hoje, as GPUs ainda estão entre os tipos de hardware de IA mais procurados, com a Nvidia mal conseguindo produzir o suficiente para atender à demanda dos gigantes de tecnologia que constroem centros de dados de IA em escala de gigawatts.

É também o início da “era das super GPUs”, com o recente lançamento pela Nvidia de o GB200 NVL72.

Este hardware foi projetado para atuar como uma única GPU massiva direto da fábrica, em vez de precisar interconectar muitas pequenas. Isso a torna muito mais poderosa até mesmo que o modelo H100, que quebrou recordes anteriormente.

Fonte: Nvidia

Isso também deve ser muito mais eficiente em termos de energia, um ponto crucial, já que a indústria de IA pode ficar sem energia antes de ficar sem chips, dada a velocidade com que os centros de dados de IA estão sendo construídos. E mais eficiência computacional e energética significa menos calor residual, o que também resolve temporariamente o problema de superaquecimento.

Tipo de Hardware Melhor Caso de Uso Velocidade Eficiência Energética Flexibilidade
CPU Tarefas de uso geral Baixa Alta Muito Alta
GPU Treinamento de IA e tarefas paralelas Alta Média Média
TPU Operações de tensor e transformers Muito Alta Alta Baixa
ASIC Aceleração de tarefa única Muito Alta Muito Alta Muito Baixa
FPGA Cargas de trabalho de IA reconfiguráveis Média Média Alta

A Ascensão dos ASICs e Hardware de IA

Circuitos Integrados de Aplicação Específica (ASICs) são hardware de computação projetado especificamente para uma tarefa computacional determinada, tornando-os ainda mais especializados que as GPUs, ainda relativamente generalistas.

Portanto, eles são menos flexíveis e programáveis que hardware de uso geral.

Como regra, tendem a ser mais complexos. Também são geralmente mais caros, tanto pela falta de economias de escala em sua produção quanto pelo custo de designs personalizados.

Entretanto, são muito mais eficientes na tarefa designada, normalmente produzem resultados mais rapidamente com muito menos energia e poder computacional desperdiçados.

Os ASICs e outros hardwares específicos para IA estão aumentando em utilização, à medida que o campo percebe progressivamente que alguns cálculos não são idealmente realizados em GPUs, mas requerem equipamentos mais especializados.

Unidades de Processamento Tensor (TPUs)

TPUs foram desenvolvidas pelo Google (GOOGL ) especificamente para realizar cálculos tensor (ligados ao cálculo baseado em transformers). Elas são otimizadas para alta taxa de transferência e aritmética de baixa precisão.

Fonte: C#Corner

Isso confere às TPUs alto desempenho, eficiência e escalabilidade para o treinamento de grandes redes neurais.

As TPUs possuem recursos especializados, como a unidade de multiplicação de matriz (MXU) e topologia de interconexão proprietária, que as tornam ideais para acelerar o treinamento e a inferência de IA.

As TPUs alimentam o Gemini e todas as aplicações de IA da Google, como Search, Photos e Maps, atendendo a mais de 1 bilhão de usuários.

Esse tipo de hardware pode acelerar significativamente o desenvolvimento e funcionamento de redes neurais, onde erros ocasionais são menos significativos, já que esses modelos dependem fortemente de estatísticas e de um grande número de cálculos.

Entre as tarefas de usuário final, as mais adequadas para TPUs são aprendizado profundo, reconhecimento de fala e classificação de imagens.

Processadores de Redes Neurais (NNPs):

Também ligados às Unidades de Processamento Neural (NPUs) e chamados de chips neuromórficos, os NPPs são especializados em computação de redes neurais, projetados para imitar as conexões neurais no cérebro humano. Eles também são às vezes chamados de aceleradores de IA, embora esse termo seja menos bem definido.

Uma NPU também integrará armazenamento e computação por meio de pesos sinápticos. Assim, pode ajustar ou “aprender” ao longo do tempo, levando a maior eficiência operacional.

Uma NPU inclui módulos específicos para multiplicação e adição, funções de ativação, operações de dados 2D e descompressão.

O módulo especializado de multiplicação e adição é usado para executar operações relevantes ao processamento de aplicações de redes neurais, como cálculo de multiplicação e adição de matrizes, convolução, produto escalar e outras funções.

A especialização pode ajudar uma NPU a concluir uma operação com apenas um cálculo em vez de vários milhares com um hardware generalista. Por exemplo, a IBM afirma que a NPU pode melhorar radicalmente a eficiência do cálculo de IA em comparação com GPUs.

“Testes mostraram que o desempenho de algumas NPUs pode ser mais de 100 vezes melhor que o de uma GPU comparável, com o mesmo consumo de energia. ”

Devido a essa eficiência energética, as NPUs são populares entre os fabricantes para serem instaladas em dispositivos de usuário, onde podem ajudar a executar localmente tarefas para aplicativos de IA generativa, um exemplo de “computação de borda”. (veja abaixo mais sobre esse tópico).

Muitos métodos estão atualmente sendo explorados em como criar chips neuromórficos:

Auxiliar Processamento Unit (XPUs)

XPU combina CPU (processador), GPU (placa gráfica / processadores paralelos) e memória no mesmo dispositivo eletrônico.

Fonte: Broadcom

XPUs é um termo amplo, abrangendo muitas variações desse conceito de reunir todo o hardware em unidades autônomas, incluindo Unidades de Processamento de Dados (DPUs)Unidades de Processamento de Infraestrutura (IPUs), e Cartões Aceleradores de Função (FACs).

XPUs são vistos como solução para um problema crescente dos centros de dados de IA, que é a necessidade crescente de conectividade entre as subunidades, a ponto de latência de dados se tornar um fator importante que desacelera a computação, mais do que o poder computacional disponível.

Essencialmente, os chips (GPUs, TPUs, NPPs, etc.) estão aguardando os dados tanto quanto estão realmente trabalhando.

Um líder dessa tecnologia é a Broadcom (AVGO ), que discutimos em detalhes em um relatório de investimento dedicado.

Arrays de Portas Programáveis em Campo (FPGAs):

FPGAs são processadores programáveis, tornando-os significativamente mais flexíveis e reconfiguráveis que os ASICs mais rígidos. FPGAs podem ser customizados para algoritmos de IA específicos, potencialmente oferecendo maior desempenho e eficiência energética.

A flexibilidade tem um custo, já que os FPGAs são geralmente mais complexos, caros e consomem mais eletricidade. No entanto, ainda podem ser mais eficientes que hardware generalista.

Isso os torna um produto de nicho, onde sua flexibilidade compensa as desvantagens. Por exemplo, aprendizado de máquina, visão computacional e processamento de linguagem natural podem se beneficiar da versatilidade dos FPGAs.

Memória de Alta Largura de Banda (HBM):

Os desenvolvimentos mais importantes em hardware personalizado centrado em IA têm sido no campo de poder computacional, por muito tempo o gargalo na construção de mais capacidade de computação para treinar novas IAs.

Ainda assim, esses sistemas também precisam de sistemas de suporte de alta eficiência, dos quais a memória é importante. HBM fornece, como o nome indica, maior largura de banda que a DRAM tradicional.

Isso é alcançado empilhando múltiplos chips DRAM verticalmente e conectando-os com vias através de silício (TSVs). A primeira geração de HBM foi desenvolvida em 2013.

O empilhamento vertical economiza espaço e reduz a distância física que os dados precisam percorrer, acelerando a transferência de dados, algo essencial na computação de IA.

HBMs são mais complexos de fabricar e mais caros que DRAM, mas os benefícios de desempenho e eficiência energética frequentemente justificam o custo mais alto para aplicações de IA.

Infraestrutura de Data Centers de IA: Energia, Resfriamento & Conectividade

Além da memória e do poder computacional, os sistemas auxiliares dos data centers de IA também são importantes. Sem eles, os dados não podem circular rápido o suficiente, os chips superaqueceriam ou a energia disponível seria insuficiente.

Isso significa que, por exemplo, o hardware de conectividade da Broadcom também se beneficia enormemente da expansão dos data centers de IA, assim como soluções especializadas como fornecedores de equipamentos de resfriamento, por exemplo, Vertiv (VRT ) ou Schneider Electric (SU.PA).

O fornecimento de energia também pode se tornar um problema, e vários gigantes de tecnologia estão tentando enfrentar a questão apostando em energia nuclear, com a primeira iniciativa da Microsoft em 2024, seguida por muitos outros desde então.

Combinado com o compromisso de reduzir a pegada de carbono da IA por parte das empresas de tecnologia, isso deve beneficiar enormemente as empresas do setor de energia nuclear ou renovável, como Cameco (CCJ ), GE Vernova (GEV ), First Solar (FSLR ), NextEra (NEE ), ou Brookfield Energy Partners (BEP ) (siga os links para um relatório sobre cada empresa).

Tecnologias Emergentes de Computação de IA

Computação Quântica

Como a IA tem um apetite enorme por poder computacional, é possível que o futuro do hardware do campo nem esteja nas soluções de silício atualmente disponíveis.

Uma possibilidade é que a computação quântica possa ser usada para detectar padrões muito mais eficientemente do que a computação clássica jamais poderia, algo já explorado por pesquisadores.

A computação quântica como um todo poderia ser usada para resolver alguns cálculos específicos que são quase impossíveis com a computação binária. Isso provavelmente será aplicado à IA, mas os primeiros computadores quânticos comerciais ainda estão a alguns anos de distância, e uma grande rede quântica ainda mais distante.

Fotônica

Usando luz em vez de elétrons para transportar dados, a fotônica poderia ser muito mais rápida que dispositivos eletrônicos.

Como os computadores quânticos geralmente transportam dados quânticos com fótons emaranhados, há também muita sobreposição entre computação quântica e fotônica, e o primeiro chip quântico-fotônico dual já foi anunciado.

Organoides

Como a maioria das IAs replica em computadores o funcionamento das redes neurais do cérebro, alguns pesquisadores se perguntam se não poderíamos usar… células cerebrais reais.

Esta é uma ideia intrigante, especialmente porque algumas pesquisas podem indicar que o cérebro é na verdade um computador quântico orgânico.

Esse tipo de “computador” é chamado de organoides, e essencialmente consiste em neurônios cultivados em laboratório sobre um chip de computador. Os neurônios então auto-organizam seus dendritos e conexões em resposta ao estímulo do chip.

Essa tecnologia ainda é nova e depende de bioimpressão 3D.

Outros

Exploramos outras alternativas à computação em silício em “Top 10 Empresas de Computação Não-Silício”, como dióxido de vanádio, grafeno, comutação redox ou materiais orgânicos.

Cada uma promete ser muito mais rápida ou muito menos intensiva em energia do que a computação clássica baseada em silício. Elas, porém, ainda são relativamente novas e improváveis de revolucionar o campo da IA em escala comercial, pelo menos nos próximos 5-10 anos.

IA na Nuvem e IA de Borda: Tendências de Acessibilidade

IA na Nuvem

Como os sistemas de IA mais poderosos são criados por grandes empresas de tecnologia, eles são principalmente acessíveis através da nuvem. O mesmo está se tornando verdade para o acesso ao hardware especializado em IA.

O líder dessa tendência é Coreweave (CRCW ), uma empresa que passou de provedora de nuvem a mineração de criptomoedas usando GPUs, e hoje fornece computação de IA sob demanda.

Isso fez da CoreWeave um parceiro chave de startups de IA emergentes que tentam competir com os gigantes de tecnologia, comoInflection AI e seu cluster de GPU de US$ 1,3 bilhão, financiado por uma nova rodada de investimento.

“Dois meses atrás, uma empresa pode não ter existido, e agora pode ter US$ 500 milhões em financiamento de capital de risco.

E a coisa mais importante para eles fazerem é garantir acesso à computação; eles não podem lançar seu produto ou seu negócio até que o tenham,”

Brian Venturo – CTO da CoreWeave

À medida que o player puro em hardware de IA se torna cauteloso com as grandes empresas produzindo suas próprias GPUs, TPUs, XPUs, etc., e evoluindo de clientes para concorrentes, é provável que empresas como a CoreWeave obtenham acesso prioritário ao mais recente lançamento de hardware da Nvidia e de outras.

Esse modelo de negócios provavelmente será especialmente importante para o treinamento de IA, que exige muito mais capacidade computacional do que apenas usar as IAs já treinadas.

Computação de Borda & PCs de IA

Outro caso de computação de IA que está evoluindo rapidamente é a necessidade de ter o processamento dos sistemas de IA realizado no local, o mais próximo possível de situações da vida real.

Isso é essencial para sistemas que podem não tolerar ficar desconectados da IA se a conexão falhar, ou quando a latência de ida e volta com a nuvem é muito lenta.

Um bom exemplo são os carros autônomos, que se espera que compreendam seu ambiente offline.

Esse tipo de cálculo é chamado de computação de borda, e se beneficia muito de hardware mais eficiente e menos consumidor de energia.

Pode aumentar a confiabilidade da IA, e à medida que os modelos se tornam mais eficientes, ilustrado pelo avanço da DeepSeek, pode se tornar um modelo mais prevalente de implantação de IA no futuro.

Pela mesma razão, PCs de IA como o recentemente lançado pela Nvidia, podem a longo prazo ser suficientes para executar muitas aplicações de IA localmente, aumentando a privacidade e a segurança em comparação com IAs sempre conectadas à nuvem.

Conclusão

O hardware de IA tem, por um tempo, sido quase sinônimo de GPUs, já que as placas gráficas eram muito mais eficientes no treinamento de IA do que outros tipos de hardware como CPUs. Isso gerou a fortuna da Nvidia e de muitos de seus primeiros acionistas.

GPUs, especialmente as “super GPUs” focadas em IA, provavelmente permanecerão importantes na construção de data centers de IA. Mas elas evoluirão para ser apenas um dos componentes de sistemas cada vez mais complexos e especializados.

Operações de transformers serão enviadas para TPUs, redes neurais para NPPs, tarefas repetitivas para ASICs dedicados ou FPGAs reconfigurados.

Enquanto isso, a memória de alta largura de banda, conectores de telecomunicações avançados e refrigeração ultraeficiente manterão todas as funções auxiliares ao redor do núcleo computacional em funcionamento.

Para computação de borda e IAs menores que os massivos LLMs, a computação local, talvez alimentada por XPUs tudo-em-um, provavelmente será usada por cientistas, carros autônomos e usuários preocupados com privacidade ou censura, potencialmente com modelos de IA de código aberto.

O que é certo é que os lucros da venda das “pás e picaretas” do hardware de IA na corrida do ouro da IA estão longe de acabar.

Após um período de dominação da Nvidia, os investidores podem querer diversificar riscos espalhando seu portfólio de hardware de IA para outros designs, e talvez até as empresas de energia que fornecerão os preciosos gigawatts para operar os cada vez maiores e numerosos data centers de IA no mundo.

Jonathan é um ex-pesquisador bioquímico que trabalhou em análise genética e ensaios clínicos. Ele agora é um analista de ações e escritor de finanças com foco em inovação, ciclos de mercado e geopolítica em sua publicação The Eurasian Century.