Prof. Dr. G. Hellberg EDV Beratung und Softwareengineering seit 1984

Mailadresse fuer Kontaktaufnahme
NewsNews
 
Die Hellberg EDV Beratung ist SuSE Business Partner
 
Professor Hellberg ist Certified Novell InstructorDie Hellberg EDV Beratung ist Novell Business Partner
 
Die Hellberg EDV Beratung ist Microsoft Partner
 
GDATA Software
 
 
News
 

Der Autohersteller Tesla möchte mit komplett selbst entworfenen KI-Prozessoren in den nächsten Jahren die zugekaufte Hardware - etwa Nvidias GPU-Beschleuniger A100 - ablösen. Ziel ist Hardware, die genau den eigenen Anforderungen entspricht - ohne Ballast. Dabei wird auf 7-Nanometer-Strukturbreiten, ausgeklügelte Packaging-Technik und einen hohen Grad an Integration gesetzt.

Ein 645 mm² großer Chip mit der Bezeichnung D1 mit circa 50 Milliarden Transistoren bildet die Basis. Enthalten sind insgesamt 354 Cluster mit jeweils einem CPU-Kern sowie einer vierfach weiten Skalar- und einer doppelt weiten Vektoreinheit. Weiterhin soll die Auslastung durch vierfaches Simultaneous Multithreading (SMT) maximiert werden. Pro Cluster stehen 1,25 MByte SRAM bereit, sodass pro CPU insgesamt 354 Rechenkerne, 1416 Threads, 442,5 MByte SRAM und 362 TeraFlops Rechenleistung im KI-Datenformat BF16 zur Verfügung stehen. Die Leistungsaufnahme beträgt 400 Watt. Die Cluster übertragen Daten jeweils mit 512 GByte/s an ihre Nacharn.

Der verwendete Befehlssatz ist vollständig auf Machine Learning ausgerichtet. 25 der D1-Prozessoren kommen auf fast einen kompletten Silizium-Wafer, auch Training Tile genannt, welcher die Kommunikation zwischen den Chips realisiert. Im Labor werden die Training Tiles derzeit mit 2,0 GHz betrieben. Das Aufsetzen auf den Wafer behebt Probleme, die etwa die Cerebras' Wafer Scale Engine 2 hat. Die übliche Defektquote beim Belichten führt dort dazu, dass einiges an Redundanz eingebaut werden muss. Des Weiteren stellen sich dort Kühlung, Stabilität und Stromversorgung als Herausforderung dar.

120 Training Tiles mit insgesamt 3000 D1-Prozessoren sollen künftig in einem Rechenzentrum untergebracht werden. Insgesamt erreiche ein solches System eine BF16- beziehungsweise CFP8-Rechenleistung von 1,1 ExaFlops. Anwendung soll es beim Training neuronaler Netze - etwa für Teslas eigenen Fahrassistenten - finden.

(jb, hannover)

(siehe auch: Heise-News-Ticker)

Hannover · EDV-Beratung · Linux · Novell · Microsoft · Seminar · IT-Consult · Netzwerk · LPIC · CLE