Nach dem 540-Milliarden-Parameter-Modell PaLM sowie einer neuen
Visual-Language-Modellfamilie (VLM Flamingo) hat DeepMind,
die KI-Forschungsabteilung von Google, nun den KI-Agenten Gato vorgestellt.
Laut Forschungsteam beherrsche Gato ein Multitasking über Mediengrenzen
hinweg.
Unterstützt wird der KI-Agent dabei von multiplem Embodiment,
das die physische Präsenz mit den dazugehörigen Sinneswahrnehmungen
zu simulieren versucht. Durch eine Vielzahl verschiedener Embodiments
soll Gato so "spüren" (sense) und handeln (act) können.
Der als Generalist bezeichnete KI-Agent soll laut dem von DeepMind
veröffentlichten Forschungsbericht auf einem einzigen Transformermodell
basieren. Neben dem Lösen reiner Textaufgaben beherrsche Gato
auch die Beschriftung von Bildern, das Stapeln physischer Blöcke
mit einem Roboterarm und Atari zu spielen. Im Vergleich zu GPT-3-
oder DALL-E-artigen Modellen soll Gato damit einen größeren
Handlungsspielraum besitzen.
Dem Forschungsbericht
des DeepMind-Teams, welches an Gato gearbeitet hat, sind genaue
Informationen über das Training des KI-Agenten zu entnehmen.
Die Forscher teilten ihre Ergebnisse zunächst auf Twitter und
stießen dort auf reges Interesse der Machine-Learning-Community.
Auf der Storage-Website von Google ist eine vollständige PDF-Version
des Gato-Papers zu finden.
(jb, hannover)
(siehe auch: Heise-News-Ticker)
Hannover
· EDV-Beratung · Linux · Novell · Microsoft ·
Seminar · IT-Consult · Netzwerk · LPIC · CLE
|