Hybrid, Kaiserslautern, Fraunhofer ITWM, Machine und Deep Learning Seminar / 04. April 2023, 17:00 – 18:00 Uhr
ChatGPT: If Scale is the Answer, What is Left to be Asked?
Referent: Prof. Dr. Goran Glavaš (Universität Würzburg, Fakultät für Mathematik und Informatik, Zentrum für Künstliche Intelligenz und Datenwissenschaften (CAIDAS))
Abstract:
Große Sprachmodelle (Large Language Models, LLMs) wie Chat-GPT, GPT-4, Bard und PaLM haben in letzter Zeit ein fast schockierendes Maß an Sprachverständnis und Generierungsfähigkeiten bewiesen, indem sie eine Vielzahl komplexer Tests vom GRE und SAT bis zur Anwaltsprüfung bestanden haben.
Noch beeindruckender ist, dass die neuesten dieser Modelle gezeigt haben, dass sie komplexe Artefakte anderer Modalitäten, wie Bilder und Code, verstehen (und manipulieren können). Da es sich um urheberrechtlich geschützte Modelle handelt, werden zwar keine Einzelheiten über ihre neuronalen Architekturen und Trainingsziele bekannt gegeben, aber alles deutet darauf hin, dass die schiere Größe dieser Modelle (z. B. wird spekuliert, dass GPT-4 mehrere Billionen Parameter hat) und die Daten, auf denen sie trainiert wurden, der Schlüsselfaktor für ihre beispiellosen Fähigkeiten sind. Selbst in kontrollierten Experimenten mit kleineren Sprachmodellen hat sich gezeigt, dass bestimmte Fähigkeiten erst ab einer bestimmten Größenordnung auftauchen (daher die Bezeichnung »Emerging Abilities«).
In diesem Vortrag werde ich zunächst auf die (bekannten) technischen Details von LLMs und deren Trainingsverfahren eingehen. Im zweiten Teil werde ich mich auf entstehende Fähigkeiten (auf verschiedenen Skalen) sowie auf Fälle, in denen LLMs immer noch versagen. Schließlich werde ich mit einer Diskussion der Implikationen schließen, die die Beobachtung, dass »der Maßstab alles ist, was zählt«, für die zukünftige KI-Forschung und insbesondere die NLP-Forschung hat.