Intelligence artificielle
Investir dans le matériel d’IA : des CPU aux XPUs

Investir dans le matériel d’IA : l’approche des pics et pelles
L’IA promet d’être le changement le plus important dans notre économie, nos systèmes productifs et notre société depuis plusieurs décennies, potentiellement rendant même les changements radicaux apportés par Internet triviaux en comparaison.
Il pourrait faire disparaître toute une catégorie d’emplois, notamment les conducteurs, les traducteurs, le support client, les concepteurs Web, etc. D’autres emplois pourraient subir une réduction radicale de la demande, comme les programmeurs, les avocats de niveau d’entrée, les diagnosticiens, etc.
Il devrait également créer une grande valeur et une productivité supplémentaires pour de nombreuses autres tâches, les principales sociétés de logiciels d’IA étant probablement les premières à atteindre des capitalisations boursières previously inimaginables.
Pour toutes ces raisons, les marchés financiers et les investisseurs ont été fascinés par l’IA et prêtent une grande attention aux progrès des nombreuses géants de la technologie dans l’IA, ainsi qu’à la forte concurrence émergeant des géants de la technologie chinoise comme Alibaba et des startups comme DeepSeek.
Une autre façon de jouer la croissance de l’IA est de suivre la stratégie connue pour fonctionner dans chaque ruée vers l’or : ne pas chercher l’or, mais vendre les pics et les pelles. Cela a certainement fonctionné pour les sociétés qui se trouvaient dans la meilleure position pour vendre du matériel optimisé pour l’IA, Nvidia (NVDA ) ayant transformé ses cartes graphiques de jeu en puces de formation d’IA, ce qui en fait la société la plus valorisée au monde, ayant dépassé la capitalisation boursière de 4 000 milliards de dollars (suivez le lien pour un rapport complet sur Nvidia).
Puisque l’IA nécessite un matériel très spécifique, principalement différent des autres formes de tâches de calcul, et qu’il s’agit d’une opportunité commerciale massive, l’industrie des semi-conducteurs est maintenant en course pour développer de nouvelles formes de matériel conçu spécifiquement pour la formation et l’exécution de programmes d’IA.
Alors que Nvidia est susceptible de rester l’une des principales sociétés du secteur, des alternatives émergent maintenant et pourraient offrir des opportunités intéressantes pour les investisseurs qui y prêtent attention tôt.
Pourquoi l’IA a besoin d’un matériel spécialisé
De nombreux petits calculs
Les premiers efforts dans l’IA utilisaient la même capacité de calcul que les autres programmes, se concentrant principalement sur les processeurs (Unité centrale de traitement – CPU). Les CPU sont toujours importants, mais il est rapidement apparu qu’ils ne sont pas optimaux pour la plupart des méthodes utilisées actuellement pour développer les IA.
Les réseaux de neurones et d’autres méthodes similaires nécessitent de nombreux calculs relativement simples, plutôt qu’un seul calcul complexe. Ainsi, de nombreux petits circuits travaillant en parallèle sont généralement meilleurs que de puissants CPU.
C’est en grande partie pourquoi les GPU sont rapidement devenus plus populaires, car les cartes graphiques sont intrinsèquement conçues pour effectuer des milliers de petits calculs en parallèle.
La formation d’IA d’aujourd’hui repose largement sur les réseaux de neurones, un concept qui a remporté le prix Nobel de physique en 2024, une récompense que nous avons couverte en détail dans un article dédié à ce moment-là.

Source : Prix Nobel
Une deuxième révolution dans la technologie d’IA est venue avec les “transformateurs”. Ils résolvent l’incapacité des réseaux de neurones traditionnels à traiter efficacement les longues séquences de données, une caractéristique commune de tout langage naturel.
Premièrement introduits en 2017 par des chercheurs de Google, c’est la cause profonde de l’explosion actuelle de la capacité d’IA. Les transformateurs sont au cœur des produits d’IA comme les LLM (Large Language Models), y compris ChatGPT.
Exigences différentes
Une distinction importante dans les flux de travail d’IA est la différence entre l’affinement et l’inférence, qui ont tous deux des exigences matérielles distinctes.
- L’affinement implique la formation d’un modèle sur des données spécifiques au domaine, nécessitant une puissance de calcul et une mémoire importantes. Il s’agit d’une tâche très technique, souvent à la pointe de la science de l’IA.
- Inférence se concentre sur l’utilisation d’un modèle déjà formé pour générer des sorties, nécessitant moins de puissance de calcul mais une plus grande attention portée à la faible latence et à l’efficacité énergétique.
- Ceci est plus couramment effectué par des experts en IA qui déployant des modèles préexistants pour résoudre des problèmes du monde réel.
Ainsi, même si les coûts sont évidemment une préoccupation pour l’affinement/la formation et l’inférence/l’utilisation de l’IA, la formation nécessitera souvent le meilleur matériel possible, tandis que les tâches d’utilisation se concentreront davantage sur le coût du matériel et la consommation d’énergie lors du choix de la meilleure option de matériel.
CPUs vs GPUs
Unités centrales de traitement (CPUs) :
Les CPU sont des processeurs polyvalents et ne sont pas spécifiquement conçus pour l’IA. Ils sont cependant toujours essentiels pour exécuter les instructions et effectuer les calculs de base dans les systèmes d’IA.
La plupart des logiciels gérant l’interface avec les utilisateurs finals d’un système d’IA seront également centrés sur le CPU, qu’il s’agisse d’ordinateurs individuels ou de logiciels basés sur le cloud.

Source : AnandTech
Les CPU peuvent également être utilisés pour des IA très simples, où un matériel dédié n’est pas vraiment nécessaire. C’est particulièrement vrai lorsque la sortie n’est pas particulièrement urgente et que le traitement de l’IA relativement lent des CPU n’est pas un problème.
Ainsi, de petits modèles avec de petits lots de données et de calculs peuvent fonctionner bien sur les CPU. L’omniprésence des CPU dans les ordinateurs ordinaires en fait également une bonne option pour un utilisateur moyen qui n’est pas disposé à investir dans un matériel spécifique à l’IA.
Les CPU sont également très fiables et stables, ce qui les rend adaptés aux tâches critiques où aucune erreur n’est un critère important.
Enfin, les CPU sont utiles pour certaines des tâches de formation d’IA, généralement en collaboration avec d’autres types de matériel, comme le chargement de données, la mise en forme, le filtrage et la visualisation.
Unités de traitement graphique (GPUs) :
À l’origine conçues pour le rendu graphique, les GPU sont conçues pour le traitement parallèle, ce qui les rend idéales pour la formation de modèles d’IA qui nécessitent la manipulation de grands ensembles de données. Le passage des CPU aux GPU a réduit les temps de formation de semaines à des heures.
En raison de leur disponibilité généralisée et de l’expérience des spécialistes de l’informatique pour travailler avec eux, les GPU ont été le premier type de matériel informatique à être installé en série pour augmenter la recherche en IA.

Source : Aorus
Le développement de CUDA par Nvidia, une interface de programmation polyvalente pour les GPU Nvidia, a également contribué au succès des GPU, en ouvrant la porte à d’autres utilisations que le jeu.
“Les chercheurs ont réalisé que, en achetant cette carte de jeu appelée GeForce, vous l’ajoutez à votre ordinateur, vous avez essentiellement un supercalculateur personnel.
La dynamique moléculaire, le traitement sismique, la reconstruction de la tomographie par ordinateur, le traitement d’images – un certain nombre de choses différentes.”
Aujourd’hui, les GPU sont toujours parmi les types de matériel d’IA les plus recherchés, Nvidia ayant à peine réussi à produire suffisamment pour satisfaire la demande des géants de la technologie qui construisent des centres de données d’IA à l’échelle du gigawatt.
C’est également le début de l’ère des « super GPU », avec la sortie récente par Nvidia du GB200 NVL72.
Ce matériel est conçu pour agir comme une seule grande GPU directement sorti d’usine, au lieu d’avoir à réseau de nombreuses petites. Cela le rend beaucoup plus puissant que même le modèle H100 qui battait précédemment des records.

Source : Nvidia
Cela devrait également être beaucoup plus économe en énergie, un point crucial dans la mesure où l’industrie de l’IA pourrait manquer d’énergie avant de manquer de puces, au rythme auquel les centres de données d’IA sont construits. Et plus de calcul et d’efficacité énergétique signifient moins de chaleur perdue, ce qui résout temporairement le problème de surchauffe.
| Type de matériel | Meilleur cas d’utilisation | Vitesse | Efficacité énergétique | Flexibilité |
|---|---|---|---|---|
| CPU | Tâches polyvalentes | Faible | Élevée | Très élevée |
| GPU | Formation d’IA et tâches parallèles | Élevée | Moyenne | Moyenne |
| TPU | Opérations tensorielles et transformateurs | Très élevée | Élevée | Faible |
| ASIC | Accélération de tâche unique | Très élevée | Très élevée | Très faible |
| FPGA | Charges de travail d’IA reconfigurables | Moyenne | Moyenne | Élevée |
L’essor des ASIC et du matériel d’IA
Les circuits intégrés à application spécifique (ASIC) sont des matériel informatiques conçus spécifiquement pour une tâche de calcul donnée, ce qui les rend encore plus spécialisés que les GPU relativement polyvalents.
Ils sont donc moins flexibles et programmables que le matériel polyvalent.
En règle générale, ils tendent à être plus complexes. Ils sont également généralement plus coûteux, à la fois en raison d’un manque d’économies d’échelle pour leur production et du coût de conceptions personnalisées.
Ils sont cependant beaucoup plus efficaces pour leur tâche donnée, produisant généralement une sortie plus rapide avec beaucoup moins de puissance de calcul et d’énergie gaspillées.
Les ASIC et d’autres matériel d’IA spécifiques gagnent en utilisation, car le domaine remarque progressivement que certains calculs ne sont pas idéalement effectués sur des GPU mais nécessitent un équipement plus spécialisé.
Unités de traitement de tenseurs (TPU)
Les TPU ont été développés par Google (GOOGL ) spécifiquement pour effectuer des calculs tensoriels (liés au calcul basé sur les transformateurs). Ils sont optimisés pour une arithmétique à haut débit et à faible précision.

Source : C#Corner
Cela donne aux TPU des performances, une efficacité et une évolutivité élevées pour la formation de grands réseaux de neurones.
Les TPU possèdent des fonctionnalités spécialisées, telles que l’unité de multiplication de matrice (MXU) et une topologie d’interconnexion propriétaire, qui les rendent idéales pour accélérer la formation et l’inférence d’IA.
Les TPU alimentent Gemini, et toutes les applications d’IA de Google, telles que Recherche, Photos et Cartes, qui desservent plus d’un milliard d’utilisateurs.
Ce type de matériel peut considérablement accélérer le développement et le fonctionnement des réseaux de neurones, où l’erreur occasionnelle est moins importante, car ces modèles sont fortement tributaires de statistiques et d’un grand nombre de calculs pour commencer.
Parmi les tâches de l’utilisateur final les plus adaptées aux TPU figurent l’apprentissage profond, la reconnaissance vocale et la classification d’images.
Processeurs de réseaux de neurones (NNP) :
Également liés aux unités de traitement de neurones (NPU) et appelés puces neuromorphes, les NPP sont spécialisés dans le calcul de réseaux de neurones, conçus pour imiter les connexions neuronales dans le cerveau humain. Ils sont également parfois appelés accélérateurs d’IA, bien que ce terme soit moins bien défini.
Un NPU intègre également le stockage et le calcul via des poids synaptiques. Il peut donc s’adapter ou « apprendre » avec le temps, conduisant à une efficacité opérationnelle améliorée.
Un NPU comprend des modules spécifiques pour la multiplication et l’addition, les fonctions d’activation, les opérations de données 2D et la décompression.
Le module de multiplication et d’addition spécialisé est utilisé pour effectuer des opérations pertinentes pour le traitement des applications de réseaux de neurones, telles que le calcul de la multiplication de matrice et de l’addition, la convolution, le produit scalaire et d’autres fonctions.
La spécialisation peut aider un NPU à effectuer une opération avec une seule calcul en lieu et place de plusieurs milliers avec un matériel polyvalent.
Par exemple, IBM affirme que l’NPU peut améliorer radicalement l’efficacité du calcul d’IA par rapport aux GPU.
« Les tests ont montré que certaines performances de l’NPU sont plus de 100 fois meilleures qu’un GPU comparable, avec la même consommation d’énergie. »
En raison de cette efficacité énergétique, les NPU sont populaires auprès des fabricants pour les installer dans les appareils des utilisateurs, où ils peuvent aider à effectuer localement des tâches pour les applications d’IA générative, un exemple de « calcul de bord » (voir ci-dessous pour plus d’informations sur ce sujet).
De nombreuses méthodes sont actuellement explorées pour créer des puces neuromorphes :
- Utiliser la ferroélectricité naissante, un phénomène encore mal compris.
- Substrat actif à l’aide de vanadium ou de titane.
- Utiliser des memristors, un nouveau type de composant électronique, qui peut effectuer des tâches d’IA à 1/800e de la consommation d’énergie normale.
Unité de traitement auxiliaire (XPU)
XPU combine processeur (CPU), carte graphique (GPU) et mémoire dans le même dispositif électronique.

Source : Broadcom
XPU est un terme large, englobant de nombreuses variations de ce concept d’intégration de tout le matériel dans des unités auto-contenues, y compris Unités de traitement de données (DPU), Unités de traitement d’infrastructure (IPU) et Carte d’accélérateur de fonction (FAC).
XPU est considéré comme résolvant un problème croissant dans les centres de données d’IA, qui est le besoin croissant de connectivité entre les sous-unités, au point où le retard de données devient un facteur important dans le ralentissement du calcul, plus que la puissance de calcul disponible.
Essentiellement, les puces (GPU, TPU, NPP, etc.) attendent les données autant qu’elles travaillent réellement.
Un leader de cette technologie est Broadcom (AVGO ), que nous avons discuté en détail dans un rapport d’investissement dédié.
Matrices de portes programmables (FPGA) :
Les FPGA sont des processeurs programmables, ce qui les rend considérablement plus flexibles et reconfigurables que les ASIC plus rigides. Les FPGA peuvent être personnalisés pour des algorithmes d’IA spécifiques, offrant potentiellement de meilleures performances et une efficacité énergétique.

Source : Microcontrollers Labs
La flexibilité a un coût, car les FPGA sont généralement plus complexes, plus chers et consomment plus d’électricité. Ils peuvent cependant toujours être plus efficaces que le matériel polyvalent.
Cela les rend un peu un produit de niche, où leur flexibilité compense les inconvénients. Par exemple, l’apprentissage automatique, la vision par ordinateur et le traitement du langage naturel peuvent bénéficier de la polyvalence des FPGA.
Mémoire à bande passante élevée (HBM) :
Les développements les plus importants dans le matériel d’IA personnalisé ont été dans le domaine de la puissance de calcul, qui a longtemps été le goulet d’étranglement dans la construction d’une capacité de calcul plus importante pour former de nouvelles IA.
Cependant, ces systèmes ont également besoin de systèmes de support à haute efficacité, dont la mémoire est un élément important. La HBM offre, comme son nom l’indique, une bande passante plus élevée que la DRAM traditionnelle.
Cela est réalisé en empilant plusieurs puces de mémoire verticalement et en les connectant avec des vias traversant le silicium (TSV). La première génération de HBM a été développée en 2013.
L’empilement vertical économise de l’espace et réduit la distance physique que les données doivent parcourir, accélérant ainsi le transfert de données, une nécessité dans l’informatique d’IA.
Les HBM sont plus complexes à fabriquer et plus chers que la DRAM, mais les avantages en termes de performances et d’efficacité énergétique justifient souvent le coût plus élevé pour les applications d’IA.
Infrastructure des centres de données d’IA : alimentation, refroidissement et connectivité
Outre la mémoire et la puissance de calcul, les systèmes auxiliaires des centres de données d’IA sont également importants. Sans eux, les données ne peuvent circuler suffisamment vite, les puces surchaufferaient ou la puissance disponible serait insuffisante.
Cela signifie que, par exemple, le matériel de connectivité de Broadcom bénéficie également grandement de la construction des centres de données d’IA, tout comme des solutions spécialisées comme les fournisseurs d’équipement de refroidissement, par exemple Vertiv (VRT ) ou Schneider Electric (SU.PA).
L’alimentation électrique peut également devenir un problème, et plusieurs géants de la technologie tentent de résoudre le problème en pariant sur l’énergie nucléaire, avec le premier mouvement de Microsoft en 2024, suivi de nombreux autres depuis.
Combiné avec un engagement à réduire l’empreinte carbone de l’IA des sociétés de technologie, cela devrait grandement bénéficier aux sociétés du secteur nucléaire ou des énergies renouvelables, comme Cameco (CCJ ), GE Vernova (GEV ), First Solar (FSLR ), NextEra (NEE ), ou Brookfield Energy Partners (BEP ) (suivez les liens pour un rapport sur chaque société).
Technologies de calcul émergentes d’IA
Calcul quantique
Puisque l’IA est si avide de puissance de calcul, il est possible que l’avenir du matériel du domaine ne se trouve même pas avec les solutions en silicium actuellement disponibles.
Une possibilité est que l’informatique quantique pourrait être utilisée pour détecter des modèles de manière beaucoup plus efficace que l’informatique classique, quelque chose déjà exploré par les chercheurs.
L’informatique quantique dans son ensemble pourrait être utilisée pour résoudre certains calculs spécifiques qui sont presque impossibles avec l’informatique binaire. Cela sera probablement finalement appliqué à l’IA, mais les premiers ordinateurs quantiques commerciaux sont encore quelques années à venir, et un réseau quantique important encore plus loin.
Photonique
En utilisant la lumière au lieu d’électrons pour transporter les données, la photonique pourrait être beaucoup plus rapide que les appareils électroniques.
Puisque les ordinateurs quantiques utilisent généralement des photons intriqués pour transporter des données quantiques, il existe un grand chevauchement entre l’informatique quantique et la photonique, et le premier circuit photonique quantique hybride a déjà été annoncé.
Organoides
Dans la mesure où la plupart de l’IA reproduit dans les ordinateurs le fonctionnement des réseaux de neurones du cerveau, certains chercheurs se demandent si nous ne pourrions pas plutôt utiliser … des cellules cérébrales réelles.
C’est une idée intrigante, en particulier dans la mesure où certaines recherches pourraient indiquer que le cerveau est en fait un ordinateur quantique organique.
Ce type d’« ordinateur » est appelé organoïde, et consiste essentiellement en des neurones cultivés dans un laboratoire sur une puce électronique. Les neurones s’auto-organisent ensuite leurs dendrites et connexions en réponse au stimulus de la puce.
Cette technologie est nouvelle et repose sur l’impression 3D de bio-matériaux.
Autres
Nous avons exploré d’autres alternatives au calcul en silicium dans “Top 10 des sociétés de calcul non silicium“, comme le dioxyde de vanadium, le graphène, la commutation redox ou les matériaux organiques.
Chacun promet d’être beaucoup plus rapide ou beaucoup moins énergivore que l’informatique classique en silicium. Cependant, ils sont encore relativement nouveaux et ne sont pas susceptibles de révolutionner le domaine de l’IA à grande échelle, au moins dans les 5 à 10 prochaines années.
Cloud AI et Edge AI : tendances d’accessibilité
Cloud AI
Dans la mesure où les systèmes d’IA les plus puissants sont créés par les grandes sociétés de technologie, ils sont principalement accessibles via le cloud. La même chose devient vraie pour l’accès au matériel d’IA spécialisé lui-même.
Le leader de cette tendance est Coreweave (CRCW ), une société qui est passée de fournisseur de cloud à extraction de crypto-monnaies en utilisant des GPU, pour aujourd’hui proposer un calcul d’IA à la demande.
Cela a fait de CoreWeave un partenaire clé des futures startups d’IA qui tentent de concurrencer les géants de la technologie, comme Inflection AI et son cluster de GPU de 1,3 milliard de dollars, financé par un tour de financement frais.
« Il y a deux mois, une société n’existait peut-être pas, et maintenant elle peut avoir 500 millions de dollars de financement par actions.
Et la chose la plus importante pour eux est de sécuriser l’accès au calcul ; ils ne peuvent pas lancer leur produit ou leur entreprise tant qu’ils ne l’ont pas, »
Dans la mesure où les acteurs purs du matériel d’IA deviennent méfiants à l’égard des géants de la technologie qui produisent leurs propres GPU, TPU, XPU, etc. et évoluent de clients à concurrents, il est probable que des sociétés comme CoreWeave aient un accès prioritaire aux dernières sorties de matériel par Nvidia et d’autres.
Ce modèle d’entreprise sera probablement particulièrement important pour la formation d’IA, qui est beaucoup plus exigeante en termes de capacité de calcul que l’utilisation simple des IA déjà formées.
Calcul de bord et PC d’IA
Un autre cas de calcul d’IA qui évolue rapidement est le besoin d’avoir le calcul des systèmes d’IA effectué sur place, aussi près que possible de situations réelles.
C’est une nécessité pour les systèmes qui ne peuvent pas supporter d’être déconnectés de l’IA si la connexion échoue, ou lorsque la latence aller-retour avec le cloud est trop lente.
Un bon exemple est les voitures autonomes, qui sont censées comprendre leur environnement hors ligne.
Ce type de calcul est appelé calcul de bord, et bénéficie grandement d’un matériel plus efficace et moins gourmand en énergie.
Cela peut augmenter la fiabilité de l’IA et, à mesure que les modèles deviennent plus efficaces, illustré par le bond en avant de DeepSeek, il pourrait devenir un modèle de déploiement d’IA plus répandu à l’avenir.
Pour la même raison, les PC d’IA comme celui récemment lancé par Nvidia pourraient à long terme être suffisants pour exécuter de nombreuses applications d’IA localement, augmentant ainsi la confidentialité et la sécurité par rapport aux IA toujours connectées au cloud.
Conclusion
Le matériel d’IA a, pendant un certain temps, été presque synonyme de GPU, car les cartes graphiques étaient beaucoup plus efficaces pour la formation d’IA que d’autres types de matériel comme les CPU. Cela a fait la fortune de Nvidia et de nombreux de ses actionnaires précoces.
Les GPU, en particulier les « super GPU » axés sur l’IA, sont susceptibles de rester importants dans la construction des centres de données d’IA. Mais ils vont évoluer pour ne devenir qu’un des composants de systèmes de plus en plus complexes et spécialisés.
Les opérations de transformateur seront envoyées aux TPU, les réseaux de neurones aux NPP, les tâches répétitives aux ASIC dédiés ou aux FPGA reconfigurés.
Pendant ce temps, la mémoire à bande passante élevée, les connecteurs de télécommunication avancés et le refroidissement ultra-efficace maintiendront toutes les fonctions auxiliaires autour du noyau de calcul en fonctionnement.
Pour le calcul de bord et les IA plus petites que les LLM massifs, le calcul local, peut-être alimenté par des XPU tout-en-un, sera probablement utilisé par les scientifiques, les voitures autonomes et les utilisateurs soucieux de confidentialité ou de censure, potentiellement avec des modèles d’IA open source.
Ce qui est certain, c’est que les bénéfices de la vente des « pics et pelles » de l’IA dans la ruée vers l’or de l’IA sont loin d’être terminés.
Après une période de domination par Nvidia, les investisseurs peuvent souhaiter diversifier les risques en répartissant leur portefeuille de matériel d’IA sur d’autres conceptions, et peut-être même les sociétés de services publics qui fourniront les précieux gigawatts pour faire fonctionner les centres de données d’IA de plus en plus grands et nombreux dans le monde.













