Computing
Bahnbrechende gleichzeitige und heterogene Multi-Threading-Technologie für schnellere Datenverarbeitung

Obwohl alle neuen Geräte von Technologieriesen wie Apple und Google inkrementelle Verbesserungen aufweisen – ein einstelliger Anstieg der Akkulaufzeit, ein Nanometer weniger beim Prozessor, das noch keine optimale Ausbeute für die Hersteller liefert, oder ein paar zusätzliche Megapixel – stellt sich die Frage: Sind solche bescheidenen Verbesserungen wirklich ausreichend? Ist das Hinzufügen von mehr Hardware die Lösung?
Nicht laut Associate Professor Hung-Wei Tseng von der Abteilung für Elektrotechnik und Computer Engineering an der University of California, Riverside (UCR). Er sagt:
„Sie müssen keine neuen Prozessoren hinzufügen, weil Sie bereits welche haben.“
Professor Tseng und ein Forscherteam entwickelten ein neues Software‑Framework für Parallelverarbeitung namens Simultaneous and Heterogeneous Multi‑threading (SHMT). Laut ersten Ergebnissen wird SHMT die Verarbeitungsgeschwindigkeit deutlich steigern und den Energieverbrauch senken, indem es die verborgenen Fähigkeiten aktueller Prozessoren in PCs, Handys und anderen Geräten nutzt.
Von der Tech‑Community als „bahnbrechend“ bezeichnet, zielt SHMT darauf ab, Engpässe im Datenfluss zu beseitigen und die nahtlose Zusammenarbeit vieler Verarbeitungseinheiten zu ermöglichen. Dieser Durchbruch könnte nicht nur persönliche Elektronik, sondern auch Rechenzentren und andere Formen massiv paralleler Berechnungen beeinflussen.
Den Engpass aufschlüsseln

Bevor wir die vollen Möglichkeiten von simultanem und heterogenem Multi‑Threading erkunden, sollten wir zunächst die Beschränkungen aktueller Computersysteme verstehen.
In den meisten Geräten verarbeiten verschiedene Komponenten, wie die zentrale Verarbeitungseinheit (CPU), die Grafikverarbeitungseinheit (GPU) und die Tensorverarbeitungseinheit (TPU), Informationen getrennt. Daten werden von einer Verarbeitungseinheit zur anderen übertragen, was häufig zu „Engpässen“ führt, die die Gesamtleistung des Systems beeinträchtigen.
Dies wird durch traditionelle Programmiermodelle weiter verschärft, die Aufgaben typischerweise einem einzigen Prozessortyp zuweisen und dadurch andere Ressourcen untätig und unterausgelastet lassen. In Anlehnung an diese Beobachtungen stellt das Forschungspapier „Simultaneous and Heterogeneous Multi‑threading“ von Kuan‑Chieh Hsu und Hung‑Wei Tseng fest:
„Die verankerten Programmiermodelle konzentrieren sich darauf, nur die effizientesten Verarbeitungseinheiten für jeden Code‑Abschnitt zu nutzen und damit die Rechenleistung in heterogenen Computern zu unterausnutzen.“
SHMT weicht von diesem Ansatz ab, indem es die Vielfalt mehrerer Komponenten innerhalb eines Computersystems ausnutzt. Dieses Konzept ist als Heterogenität bekannt. Durch das Aufschlüsseln von Berechnungsfunktionen und deren Verteilung auf verfügbare Verarbeitungseinheiten ermöglicht SHMT echtes Parallelprocessing.
Dieser Ansatz, Berechnungsfunktionen zu zerlegen und auf mehrere Verarbeitungseinheiten zu verteilen, maximiert die Auslastung verfügbarer Ressourcen, um die Leistung zu verbessern und Energie zu sparen. Das Forschungspapier analysiert die Mängel traditioneller Programmiermodelle weiter und stellt fest, dass sie „einen Code‑Abschnitt ausschließlich einem Prozessor zuweisen können, wodurch andere Rechenressourcen untätig bleiben, ohne zur aktuellen Funktion beizutragen.“
SHMT hingegen zielt darauf ab, diese Beschränkungen zu überwinden, indem es die jeweiligen Stärken jeder Verarbeitungseinheit nutzt und deren Zusammenarbeit an einem gemeinsamen Code‑Abschnitt ermöglicht. Die Autoren weisen zudem darauf hin, dass moderne Computertechnologie unbestreitbar heterogen ist, da alle Plattformen mehrere Arten von Verarbeitungseinheiten und Hardware‑Beschleunigern integrieren. Dies erfordert ein Programmiermodell, das die Leistungsfähigkeit dieser unterschiedlichen Komponenten effektiv nutzt (genau das Ziel von SHMT).
Daher ebnet SHMT den Weg für schnellere und effizientere Berechnungen, indem es die Engpässe in der herkömmlichen Computertechnik adressiert.
Wie funktioniert die Technologie des simultanen und heterogenen Multi‑Threadings?
Wie ersichtlich ist, besteht das Grundprinzip von SHMT darin, Rechenaktivitäten effizient über verschiedene Hardwarekomponenten zu verwalten und zu verteilen.
Das Framework enthält eine Sammlung virtueller Operationen (VOPs), um das Auslagern von Aufgaben einer CPU‑Anwendung zu einem virtuellen Hardware‑Gerät zu erleichtern. Laut Studie „Ermöglicht ein Satz virtueller Operationen (VOPs) einem CPU‑Programm, eine Funktion an ein virtuelles Hardware‑Gerät auszulagern.“ Diese VOPs vermitteln Kommunikation und Aufgabenverteilung, indem sie eine Barriere zwischen Programm und Hardware schaffen.
Ein Laufzeitsystem optimiert die Leistung, indem es die Fähigkeiten jeder Hardware‑Ressource bewertet und während der Ausführung der Anwendung intelligente Planungsentscheidungen trifft. Laut Studie „Während der Programmausführung steuert ein Laufzeitsystem die virtuelle Hardware von simultanem und heterogenem Multi‑Threading und beurteilt die Fähigkeit der Hardware‑Ressource, Planungsentscheidungen zu treffen.“ Um die Ressourceneffizienz zu maximieren und sich an aufgaben‑spezifische Bedürfnisse anzupassen, bewertet SHMT die Hardware‑Fähigkeiten dynamisch.
Das Laufzeitsystem zerlegt VOPs in High‑Level‑Operationen (HLOPs), um sie an verschiedene Hardware‑Aufgabenwarteschlangen zu verteilen. Laut Studie „Das Laufzeitsystem teilt VOPs in eine oder mehrere High‑Level‑Operationen (HLOPs) auf, um mehrere Hardware‑Ressourcen gleichzeitig zu nutzen.“ Das Zerlegen von VOPs in HLOPs ermöglicht eine feinkörnige Kontrolle über die Aufgabenverteilung und die maximale Auslastung jeder Verarbeitungseinheit.
Die SHMT‑Planungsrichtlinie verwendet einen qualitätsbewussten Work‑Stealing‑Ansatz (QAWS), der eine effiziente Ressourcennutzung und unterschiedliche Arbeitslasten sicherstellt. Laut Studie „SHMT nutzt eine qualitätsbewusste Work‑Stealing‑Planungsrichtlinie (QAWS), die Ressourcen nicht monopolisieren, sondern Qualitätskontrolle und Arbeitslast‑Balance unterstützen.“ Zusätzlich zur effektiven Verteilung von Arbeit im System verhindert dieser Ansatz, dass irgendeine Verarbeitungseinheit Ressourcen horten.
Wenn SHMT die Leistung maximieren will, ohne die Qualität zu opfern, benötigt es die QAWS‑Planungsrichtlinie. Die Studie stellt fest, dass „SHMT das Ergebnis sicherstellen muss, ohne erhebliche Overheads zu verursachen.“ Um sicherzustellen, dass die Ausgabe heterogener Verarbeitungseinheiten genau und konsistent ist, integriert SHMT Qualitätskontrolltechniken in die Planung.
Die Fähigkeit von SHMT, die spezifischen Fähigkeiten jeder Hardwarekomponente zu nutzen, ist ein großer Vorteil. Wie die Studie feststellt, „SHMT kann die Berechnung derselben Funktion auf mehrere Arten von Rechenressourcen aufteilen und gleichzeitig heterogene Parallelismus‑Typen ausnutzen.“ SHMT steigert die Leistung erheblich, da es den Parallelismus in heterogenen Systemen nutzt, um Aufgaben gleichzeitig über mehrere Prozessoren auszuführen.
Ein weiterer Aspekt von SHMT, der als flexibel und anpassungsfähig gilt, ist das Laufzeitsystem. Und laut Studie „Da HLOPs hardware‑unabhängig sind, kann das Laufzeitsystem die Aufgabenverteilung nach Bedarf anpassen.“ Durch diese Anpassungsfähigkeit kann SHMT in Echtzeit auf Änderungen der Hardwareverfügbarkeit oder Arbeitslast reagieren und das System mit maximaler Effizienz und Leistung betreiben.
Insgesamt legt die Studie alle notwendigen Schritte dar, um zu verstehen, wie SHMT funktioniert, und hebt die kritischen Komponenten und Prozesse hervor, die es ermöglichen, bemerkenswerte Effizienz und Wirksamkeit in heterogenen Rechenumgebungen zu erreichen. Dank SHMT, das VOPs, HLOPs und die QAWS‑Planungsstrategie nutzt, um das Parallelprocessing zu revolutionieren, steht ein neues Zeitalter effizienter und leistungsstarker Berechnungen bevor.
Positive Ergebnisse aus den ersten Tests des Prototyps
Um zu beweisen, dass SHMT funktioniert, führten die Forscher der UCR strenge Tests an einem Prototypsystem durch, das die Fähigkeiten von Rechenzentren nachahmt, indem es Komponenten verwendet, die in modernen Handys üblich sind. Der Prototyp enthielt ein Google Edge TPU, das über den M.2‑Key‑E‑Slot des Systems eingebunden wurde, ein NVIDIA Jetson Nano‑Modul mit einem Quad‑Core‑ARM‑Cortex‑A57‑Prozessor und 128 GPU‑Kerne der Maxwell‑Architektur.
Um die Leistung des SHMT‑Frameworks unter verschiedenen Arbeitslastbedingungen zu bewerten, führten die Forscher den Prototypen durch eine Reihe von Benchmark‑Programmen. Das Ergebnis war beeindruckend: Die am besten abschneidende QAWS‑Strategie reduzierte nicht nur den Energieverbrauch um 51 %, sondern steigerte die Verarbeitungsgeschwindigkeit um das 1,95‑fache gegenüber der Basistechnik.

Die Ergebnisse unterstreichen das Potenzial von SHMT, die Verarbeitungsgeschwindigkeit und Energieeffizienz über ein breites Spektrum von Geräten und Softwareanwendungen erheblich zu verbessern. SHMT zeigte, dass es möglich ist, das Beste aus der aktuellen Konfiguration herauszuholen, indem alle Ressourcen besser genutzt werden, ohne ein Vermögen für neue Hardware auszugeben.
Mit dem ständig wachsenden Bedarf an schnellerer und effizienterer Berechnung werden Durchbrüche wie simultanes und heterogenes Multi‑Threading immer entscheidender für die zukünftige Entwicklung der Technologie. Die Arbeit des UCR‑Forschungsteams verdeutlicht, dass es noch nie so einfach war, langfristige Hochleistungs‑Computing‑Lösungen zu finden, die sich an die dynamischen Anforderungen unserer digitalen Welt anpassen können.
Implikationen und zukünftige Richtungen des simultanen und heterogenen Multi‑Threadings
Die Entwicklung und Erprobung von SHMT stellt einen tiefgreifenden Wandel in der Zukunft des Rechnens dar. Sie hat das Potenzial, das Design und die Nutzung von Computergeräten in zahlreichen Anwendungen zu revolutionieren, indem sie mit vorhandener Hardware erhebliche Leistungssteigerungen und Energieeinsparungen bietet.
Wenn SHMT breitere Akzeptanz findet, könnten Verbraucher teure Hardware‑Updates vermeiden und schnellere, reaktionsfähigere Mobilgeräte, Tablets, Laptops und Desktops genießen. Dadurch werden in Zukunft mehr Menschen in der Lage sein, Hochleistungs‑Computer zu erwerben und zu nutzen, was zur Verringerung der digitalen Kluft beiträgt.
Rechenzentren und andere großskalige Computersysteme könnten SHMT ebenfalls als unverzichtbares Werkzeug ansehen, um Kosten und Energieverbrauch zu senken, ohne die Leistung zu beeinträchtigen. Darüber hinaus werden Innovationen, die Energieeffizienz und Nachhaltigkeit fördern, wie SHMT, an Bedeutung gewinnen, da Bedenken hinsichtlich der Umweltauswirkungen von Technologie zunehmen.
Trotz ihrer besten Bemühungen erkennt das UCR‑Forschungsteam, dass noch Hindernisse zu überwinden und Chancen für weitere Untersuchungen und Fortschritte in der Zukunft bestehen. Software‑Ingenieure und Hardware‑Hersteller müssen eng zusammenarbeiten, um SHMT großflächig zu implementieren. Dies wird sicherstellen, dass die Technologie auf allen Geräten und Plattformen gut funktioniert. Dennoch ist weitere Forschung nötig, um zu bestimmen, welche Anwendungen und Arbeitslasten am besten für diese revolutionäre Technologie geeignet sind.
Ungeachtet dieser Hindernisse haben sowohl Wissenschaftler als auch Unternehmen die vielversprechenden frühen Ergebnisse von SHMT bemerkt. Die Möglichkeit, dass diese bahnbrechende Technologie die Computerindustrie transformieren könnte, wird immer attraktiver, je weiter die Studien voranschreiten und Kooperationen entstehen.
Wie viele andere brillante Ideen scheint simultanes und heterogenes Multi‑Threading ein Produkt des gesunden Menschenverstandes zu sein, doch das Detail macht den Unterschied. Während die Idee eines gemeinsamen Caches zwischen CPUs und GPUs faszinierend ist, wird sie wahrscheinlich einen kompletten Umbau der Hardware‑Architektur erfordern.
Dies würde einen Wechsel von der aktuellen x86‑64‑Architektur erfordern, und ein solches Design würde die Entwicklung einer neuen Prozessorarchitektur mit gemeinsamem L3‑ oder L4‑Cache nötig machen. Dies würde wiederum die Komplexität der CPU erhöhen und möglicherweise die Vorteile des gemeinsamen Caches zunichtemachen.
Zudem ist der Cache‑Speicher im Vergleich zum Systemspeicher (RAM) typischerweise viel kleiner und für GPU‑Anwendungen, die große Mengen hochbandbreiten Speicher benötigen, wenig geeignet. Entwicklungen wie universal memory könnten diese Bedenken adressieren. Während die Forschung zu SHMT weitergeht, wird es spannend sein zu beobachten, wie sich diese innovative Technologie entwickelt und die Zukunft des Parallelverarbeitungs‑ und heterogenen Rechnens beeinflusst.












