Artificiell intelligens

Investera i AI-hårdvara: Från CPU:er till XPUs

mm
Securities.io maintains rigorous editorial standards and may receive compensation from reviewed links. We are not a registered investment adviser and this is not investment advice. Please view our affiliate disclosure.

Investera i AI-hårdvara: Pik och spadar-metoden

AI lovar att bli den viktigaste förändringen i vår ekonomi, produktiva system och samhälle under de senaste decennierna, och kan göra även de radikala förändringarna som internet medför triviala i jämförelse.

Det kan få en hel yrkeskategori att försvinna, inklusive förare, översättare, kundsupport, webbdesigners osv. Andra jobb kan se en radikal minskning i efterfrågan, såsom programmerare, jurister på nybörjarnivå, diagnostiker osv.

Det bör också skapa mycket extra värde och produktivitet för många andra uppgifter, där de dominerande AI-mjukvaruföretagen sannolikt blir de första att nå marknadsvärderingar som tidigare var otänkbara.

Av alla dessa skäl har kapitalmarknaderna och investerare blivit fascinerade av AI och ägnar stor uppmärksamhet åt framstegen hos de många teknikjättarna inom AI, samt den starka konkurrensen som kommer från kinesiska teknikjättar som Alibaba och startups som DeepSeek.

Ett annat sätt att dra nytta av AI-boomen är att följa den strategi som fungerar i varje guldrusch: leta inte efter guld, utan sälj pickar och spadar. Detta har definitivt fungerat för de företag som befann sig i den bästa positionen att sälja AI-optimerad hårdvara, med Nvidia (NVDA ) som har omvandlat sina spelgrafikkort till AI-träningschips, vilket gjort dem till världens mest värdefulla företag, efter att ha passerat den förbluffande $4T marknadsvärdet (följ länken för en fullständig rapport om Nvidia).

Eftersom AI kräver mycket specifik hårdvara, mestadels annorlunda än tidigare typer av beräkningsuppgifter, och är en så enorm affärsmöjlighet, är halvledarindustrin nu i ett race för att utveckla nya former av hårdvara som är speciellt designade för att träna och köra AI-program.

Även om Nvidia sannolikt kommer att förbli ett av de ledande företagen i sektorn, dyker nu alternativ upp som kan erbjuda intressanta möjligheter för investerare som är uppmärksamma tidigt.

Varför AI behöver specialiserad hårdvara

Många små beräkningar

De första AI-ansträngningarna använde samma beräkningskapacitet som andra program, med fokus mest på processorer (Central Processing Unit – CPU:er). CPU:er är fortfarande viktiga, men det blev snabbt tydligt att de inte är optimala för de flesta metoder som för närvarande används för att utveckla AI.

Neurala nätverk och andra liknande metoder kräver många relativt enkla beräkningar, istället för en mycket komplex beräkning. Så många mindre chip som arbetar parallellt är generellt bättre än massiva och kraftfulla CPU:er.

Det är till stor del därför GPU:er snabbt blev mer populära, eftersom grafikkort är konstruerade för att utföra tusentals mindre beräkningar parallellt.

Dagens AI-träning är till stor del baserad på neurala nätverk, ett koncept som vann Nobelpriset i fysik 2024, en belöning vi täckte i detalj i en dedikerad artikel då.

Källa: Nobel Prize

En andra revolution inom AI-teknik kom med ”transformers”. De löser traditionella neurala nätverks oförmåga att effektivt bearbeta långa dataserier, ett vanligt kännetecken för alla naturliga språk.

Först introducerad 2017 av Googles forskare är den grundorsaken till den nuvarande explosionen i AI-kapacitet. Transformers är kärnan i AI-produkter som LLM:er (Large Language Models), inklusive ChatGPT.

Olika krav

En viktig skillnad i AI-arbetsflöden är skillnaden mellan finjustering och inferens, som båda har olika hårdvarukrav.

  • Finjustering involverar att träna en modell på domänspecifika data, vilket kräver betydande beräkningskraft och minne. Det är en mycket teknisk uppgift, ofta i den allra främsta kanten av AI-vetenskapen.
  • Inferens fokuserar på att använda en redan tränad modell för att generera resultat, vilket kräver mindre beräkningskraft men ett större fokus på låg latens och kostnadseffektivitet.
    • Detta görs oftare av AI-experter som distribuerar befintliga modeller för att lösa verkliga problem.

Så, även om kostnader naturligtvis är en oro för både finjustering/träning och inferens/användning av AI, kräver träning ofta den bästa möjliga hårdvaran, medan användningsuppgifter fokuserar mer på hårdvarukostnad och energiförbrukning när man väljer det bästa hårdvarualternativet.

CPU:er vs GPU:er

Central Processing Units (CPU:er):

CPU:er är generella och inte specifikt AI-hårdvara. De är dock fortfarande avgörande för att exekvera instruktioner och utföra grundläggande beräkningar i AI-system.

Det mesta av mjukvaran som hanterar gränssnittet mot slutanvändarna av ett AI-system kommer också att vara CPU-centrerad, oavsett om det är individuella datorer eller molnbaserad mjukvara.

Källa: AnandTech

CPU:er kan också användas för mycket enkla AI:er, där dedikerad hårdvara inte riktigt behövs. Detta är särskilt sant när resultatet inte är särskilt brådskande, och den relativt långsammare AI-behandlingen av CPU:er inte är ett problem.

Så små modeller med små datamängder och beräkningar kan prestera bra på CPU:er. CPU:ernas allestädes närvaro i vanliga datorer gör dem också till ett bra alternativ för en genomsnittlig användare som inte vill investera i AI-specifik hårdvara.

CPU:er är också mycket pålitliga och stabila, vilket gör dem till ett bra val för kritiska uppgifter där ingen fel är ett viktigt kriterium.

Slutligen är CPU:er användbara för vissa uppgifter i AI-träning, vanligtvis i samarbete med andra typer av hårdvara, såsom dataladdning, formatering, filtrering och visualisering.

Graphics Processing Units (GPU:er):

Ursprungligen designade för grafikrendering, är GPU:er konstruerade för parallell bearbetning, vilket gör dem idealiska för att träna AI-modeller som kräver hantering av stora datamängder. Övergången från CPU:er till GPU:er har minskat träningstider från veckor till timmar.

På grund av deras breda tillgänglighet och IT-specialisternas erfarenhet av att arbeta med dem, var GPU:er den första typen av beräkningshårdvara som installerades i serie för att skala upp AI-forskning.

Källa: Aorus

Även avgörande för GPU:ernas framgång var utvecklingen av CUDA av Nvidia, ett generellt programmeringsgränssnitt för NVIDIAs GPU:er, vilket öppnade dörren för andra användningsområden än spel. Detta gjordes eftersom vissa forskare redan använde GPU:er för att utföra beräkningar istället för de vanliga superdatorerna.

“Forskare insåg att genom att köpa detta spelkort som heter GeForce, lägger du till det i din dator, så har du i princip en personlig superdator.

Molekylär dynamik, seismisk bearbetning, CT-rekonstruktion, bildbehandling – en hel massa olika saker.

Jensen Huang, i en intervju med Sequoia

Idag är GPU:er fortfarande bland de mest eftertraktade typerna av AI-hårdvara, där Nvidia knappt lyckas producera tillräckligt för att tillfredsställa efterfrågan från teknikjättar som bygger AI-datacenter i gigawatt-skala.

Det är också början på ”super GPU-eran”, med den senaste lanseringen av GB200 NVL72 av Nvidia.

Denna hårdvara är designad för att fungera som en enda massiv GPU direkt från fabriken, istället för att behöva nätverka många små. Den gör den mycket kraftfullare än den tidigare rekordbrytande H100-modellen.

Källa: Nvidia

Detta bör också vara mycket mer energieffektivt, en avgörande punkt eftersom AI-industrin kan få brist på energi innan den får brist på chip på den hastighet som AI-datacenter byggs. Mer beräknings- och energieffektivitet innebär mindre spillvärme, vilket tillfälligt löser överhettningsproblemet också.

Hårdvarutyp Bästa användningsfall Hastighet Energieffektivitet Flexibilitet
CPU Allmänna uppgifter Låg Hög Mycket hög
GPU AI-träning & parallella uppgifter Hög Mellan Mellan
TPU Tensoroperationer & transformers Mycket hög Hög Låg
ASIC Enkeluppgiftsacceleration Mycket hög Mycket hög Mycket låg
FPGA Omkonfigurerbara AI-arbetsbelastningar Mellan Mellan Hög

Uppkomsten av ASIC:er och AI-hårdvara

Application-Specific Integrated Circuits (ASIC:er) är beräkningshårdvara som är specifikt designad för en given beräkningsuppgift, vilket gör dem ännu mer specialiserade än fortfarande relativt generella GPU:er.

Så de är mindre flexibla och programmerbara än generisk hårdvara.

Som regel tenderar de att vara mer komplexa. De är också generellt dyrare, både på grund av brist på stordriftsfördelar i deras produktion och kostnaden för specialdesign.

De är dock mycket mer effektiva för sin specifika uppgift, producerar normalt ett resultat snabbare med mycket mindre slösad beräkningskraft och energi.

ASIC:er och annan AI-specifik hårdvara ökar i användning, eftersom området successivt märker att vissa beräkningar inte är optimalt utförda på GPU:er utan kräver mer specialiserad utrustning.

Tensor Processing Units (TPU:er)

TPU:er utvecklades av Google (GOOGL ) specifikt för att utföra tensorberäkningar (kopplade till transformerbaserad kalkyl). De är optimerade för hög genomströmning och lågprecision aritmetik.

Källa: C#Corner

Detta ger TPU:er hög prestanda, effektivitet och skalbarhet för träning av stora neurala nätverk.

TPU:er har specialiserade funktioner, såsom matrixmultiplikationsenheten (MXU) och proprietär interkonnektionstopologi, som gör dem idealiska för att accelerera AI-träning och inferens.

TPU:er driver Gemini och alla Googles AI-drivna applikationer som Sök, Foto och Kartor, och betjänar över 1 miljard användare.

Denna hårdvarutyp kan avsevärt snabba upp utvecklingen och funktionen av neurala nätverk, där ett enstaka fel är mindre betydelsefullt, eftersom dessa modeller är starkt beroende av statistik och ett stort antal beräkningar från början.

Bland slutanvändaruppgifterna som passar bäst för TPU:er är djupinlärning, taligenkänning och bildklassificering.

Neural Network Processors (NNP:er):

Även kopplade till Neural Processing Units (NPU:er) och kallade neuromorfa chip, är NPP:er specialiserade på beräkning av neurala nätverk, designade för att efterlikna de neurala anslutningarna i den mänskliga hjärnan. De kallas ibland även för en AI-accelerator, även om termen är mindre väldefinierad.

En NPU integrerar också lagring och beräkning genom synaptiska vikter. Så den kan justera eller ”lära” sig över tid, vilket leder till förbättrad driftseffektivitet.

En NPU innehåller specifika moduler för multiplikation och addition, aktiveringsfunktioner, 2D-databehandling och dekomprimering.

Den specialiserade multiplikations- och additionsmodulen används för att utföra operationer relevanta för bearbetning av neurala nätverksapplikationer, såsom beräkning av matrixmultiplikation och addition, konvolution, skalärprodukt och andra funktioner.

Specialiseringen kan hjälpa en NPU att slutföra en operation med bara en beräkning istället för flera tusen med generell hårdvara. Till exempel påstår IBM att NPU kan radikalt förbättra effektiviteten i AI-beräkningar jämfört med GPU:er.

”Tester har visat att vissa NPU-prestationer är över 100 gånger bättre än en jämförbar GPU, med samma energiförbrukning.”

På grund av denna energieffektivitet är NPU:er populära hos tillverkare för att installeras i användarenheter, där de kan hjälpa till att utföra lokala uppgifter för generativa AI-appar, ett exempel på ”edge computing”. (se nedan för mer om detta ämne).

Många metoder utforskas för närvarande för hur man skapar neuromorfa chip:

Auxiliary Processing Unit (XPUs)

XPU sammanslår CPU (processor), GPU (grafikkort / parallella processorer) och minne i samma elektroniska enhet.

Källa: Broadcom

XPUs är en bred term som omfattar många varianter av detta koncept att samla all hårdvara i självständiga enheter, inklusive Data Processing Units (DPUs)Infrastructure Processing Units (IPUs), och Function Accelerator Cards (FACs).

XPUs ses som en lösning på ett växande problem i AI-datacenter, nämligen det ökande behovet av anslutning mellan delenheterna, till den grad att datalagg blir en viktig faktor som saktar ner beräkningarna, mer än den tillgängliga beräkningskraften.

I grund och botten väntar chipp (GPU:er, TPU:er, NPP:er etc.) på data lika mycket som de faktiskt arbetar.

En ledare inom denna teknik är Broadcom (AVGO ), som vi diskuterade i detalj i en dedikerad investeringsrapport.

Field-Programmable Gate Arrays (FPGA:er):

FPGA:er är programmerbara processorer, vilket gör dem betydligt mer flexibla och omkonfigurerbara än de mer stela ASIC:erna. FPGA:er kan anpassas för specifika AI-algoritmer, vilket potentiellt ger högre prestanda och energieffektivitet.

Flexibiliteten har en kostnad, eftersom FPGA:er generellt är mer komplexa, dyra och förbrukar mer elektricitet. De kan dock fortfarande vara mer effektiva än generell hårdvara.

Detta gör dem till en nischprodukt, där deras flexibilitet kompenserar för nackdelarna. Till exempel kan maskininlärning, datorseende och naturlig språkbehandling dra nytta av FPGA:ernas mångsidighet.

High Bandwidth Memory (HBM):

De viktigaste utvecklingarna inom skräddarsydd AI-centrerad hårdvara har varit inom beräkningskraft, som under lång tid har varit flaskhalsen för att bygga mer beräkningskapacitet för att träna nya AI:er.

Ändå behöver dessa system också högpresterande stödsystem, där minne är en viktig del. HBM ger, som namnet antyder, högre bandbredd än traditionell DRAM.

Det uppnås genom att stapla flera DRAM-dies vertikalt och ansluta dem med through-silicon vias (TSV). Den första generationen av HBM utvecklades 2013.

Den vertikala staplingen sparar utrymme och minskar det fysiska avståndet som data måste färdas, vilket snabbar upp dataöverföringen, ett måste i AI-beräkning.

HBM är mer komplexa att tillverka och dyrare än DRAM, men prestanda- och energieffektivitetfördelarna motiverar ofta den högre kostnaden för AI-applikationer.

AI-datacenterinfrastruktur: Ström, kylning & anslutning

Förutom minne och beräkningskraft är de hjälpsystem som finns i AI-datacenter också viktiga. Utan dem kan inte data cirkulera tillräckligt snabbt, chipp skulle överhettas eller den tillgängliga strömmen vara otillräcklig.

Detta innebär att exempelvis Broadcoms anslutningshårdvara också drar stor nytta av AI-datacenteruppbyggnaden, liksom specialiserade lösningar som leverantörer av kylutrustning, till exempel Vertiv (VRT ) eller Schneider Electric (SU.PA).

Strömförsörjning kan också bli ett problem, och flera teknikjättar försöker tackla detta genom att satsa på kärnkraft, med det första steget av Microsoft 2024, följt av många andra sedan dess.

Kombinerat med ett engagemang för att minska AI:s koldioxidavtryck från teknikföretag bör detta gynna företag inom kärn- eller förnybar energisektor, som Cameco (CCJ ), GE Vernova (GEV ), First Solar (FSLR ), NextEra (NEE ), eller Brookfield Energy Partners (BEP ) (följ länkarna för en rapport om varje företag).

Framväxande AI-beräkningsteknologier

Kvantberäkning

Eftersom AI är så hungrig på beräkningskraft, är det möjligt att framtiden för fältets hårdvara inte ens ligger i de nuvarande tillgängliga kiselbaserade lösningarna.

En möjlighet är att kvantberäkning kan användas för att upptäcka mönster mycket effektivare än klassisk beräkning någonsin kan, något som redan har utforskats av forskare.

Kvantberäkning i sin helhet kan användas för att lösa vissa specifika beräkningar som är nästan omöjliga med binär beräkning. Detta kommer sannolikt så småningom att tillämpas på AI, men de första kommersiella kvantdatorerna är fortfarande några år bort, och ett stort kvantnätverk ännu längre bort.

Fotonik

Genom att använda ljus istället för elektroner för att transportera data kan fotonik vara mycket snabbare än elektroniska enheter.

Eftersom kvantdatorer vanligtvis bär kvantdata med sammanflätade fotoner finns det också mycket överlappning mellan kvantberäkning och fotonik, och det första dubbla kvant-fotonikchipet har redan annonserats.

Organoider

Eftersom de flesta AI-replikeringar i datorer efterliknar hjärnans neurala nätverk, undrar vissa forskare om vi istället skulle kunna använda … faktiska hjärnceller.

Detta är en fascinerande idé, särskilt eftersom viss forskning kan indikera att hjärnan faktiskt är en organisk kvantdator.

Denna typ av ”dator” kallas organoider, och består i huvudsak av neuroner odlade i ett laboratorium på ett datorkort. Neuronerna organiserar sedan själva sina dendriter och anslutningar som svar på kortets stimulans.

Denna teknik är fortfarande ny och bygger på bio-3D-utskrift.

Andra

Vi utforskade andra alternativ till kiselbaserad beräkning i ”Topp 10 icke-silikonberäkningsföretag”, såsom vanadiumdioxid, grafen, redox-gating eller organiska material.

Var och en lovar att antingen vara mycket snabbare eller mycket mindre energikrävande än klassisk kiselbaserad beräkning. De är dock fortfarande relativt nya och osannolika att revolutionera AI-området i kommersiell skala, åtminstone under de kommande 5–10 åren.

Moln-AI och Edge AI: Tillgänglighetstrender

Moln-AI

Eftersom de mest kraftfulla AI-systemen skapas av stora teknikföretag är de mestadels tillgängliga via molnet. Detsamma blir sant för åtkomst till AI-specialiserad hårdvara i sig.

Ledaren för denna trend är Coreweave (CRCW ), ett företag som gick från molnleverantör till kryptovalutautvinning med GPU:er, och idag erbjuder AI-datorkraft på begäran.

Detta gjorde CoreWeave till en nyckelpartner för kommande AI-startups som försöker konkurrera med teknikjättarna, somInflection AI och dess $1,3 miljarder GPU-kluster, finansierat av en ny finansieringsrunda.

“För två månader sedan kanske ett företag inte existerade, och nu kan de ha 500 miljoner dollar i riskkapital.

Och det viktigaste för dem är att säkra tillgång till beräkningskraft; de kan inte lansera sin produkt eller starta sin verksamhet förrän de har det,”

Brian Venturo – CoreWeave CTO

När den rena aktören inom AI-hårdvara blir misstänksam mot stora teknikföretag som producerar egna GPU:er, TPU:er, XPU:er etc. och utvecklas från kunder till konkurrenter, är det sannolikt att företag som CoreWeave får prioriterad tillgång till de senaste hårdvarusläppen från Nvidia och andra.

Denna affärsmodell kommer sannolikt att vara särskilt viktig för AI-träning, som kräver mycket mer beräkningskapacitet än att bara använda redan tränade AI:er.

Edge Computing & AI-PC:er

Ett annat fall av AI-beräkning som snabbt utvecklas är behovet av att utföra AI-systemens beräkningar på plats, så nära verkliga situationer som möjligt.

Detta är ett måste för system som kanske inte tål att kopplas bort från AI om anslutningen misslyckas, eller när latensen fram och tillbaka till molnet är för långsam.

Ett bra exempel är självkörande bilar, som förväntas förstå sin omgivning offline.

Denna typ av beräkning kallas edge computing, och drar stor nytta av mer effektiv och mindre energikrävande hårdvara.

Det kan öka AI:s tillförlitlighet, och när modeller blir mer effektiva, illustrerat av DeepSeeks framsteg, kan det bli en mer vanlig modell för AI-distribution i framtiden.

Av samma anledning kan AI-PC:er som den som nyligen lanserades av Nvidia, på lång sikt vara tillräckliga för att köra många AI-applikationer lokalt, vilket ökar integritet och säkerhet jämfört med att alltid vara ansluten till moln-AI.

Slutsats

AI-hårdvara har under en tid varit något synonymt med GPU:er, eftersom grafikkort var mycket mer effektiva för AI-träning än andra typer av hårdvara som CPU:er. Detta skapade förmögenheten för Nvidia och många av dess tidiga aktieägare.

GPU:er, särskilt AI-fokuserade ”super GPU:er”, kommer sannolikt att förbli viktiga i byggandet av AI-datacenter. Men de kommer att utvecklas till bara en av komponenterna i allt mer komplexa och specialiserade system.

Transformer-operationer kommer att skickas till TPU:er, neurala nätverk till NPP, återkommande uppgifter till dedikerade ASIC:er eller omkonfigurerade FPGA:er.

Samtidigt kommer högbandbreddsminne, avancerade telekommunikationsanslutningar och ultraeffektiv kylning att hålla alla de hjälpfunktioner kring beräkningskärnan igång.

För edge computing och mindre AI:er än de massiva LLM:erna kommer lokal beräkning, kanske drivna av allt-i-ett XPUs, sannolikt att användas av forskare, självkörande bilar och användare som är bekymrade över integritet eller censur, eventuellt med öppen källkod AI-modeller.

Det som är säkert är att vinsterna från att sälja ”pickar och spadar” av AI-hårdvara i AI-guldruschen långt ifrån är över.

Efter en period av dominans av Nvidia kan investerare vilja diversifiera riskerna genom att sprida sin AI-hårdvaruportfölj till andra designer, och kanske även till energibolag som kommer att leverera de värdefulla gigawatt som behövs för att driva de allt större och fler AI-datacenterna i världen.

Jonathan är en före detta biokemist som arbetade med genetisk analys och kliniska prövningar. Han är nu en aktieanalytiker och finansskribent med fokus på innovation, marknads cykler och geopolitik i sin publikation The Eurasian Century.