Als KI-Engineer ist es mir wichtig, die oft mystifizierte Technologie hinter ChatGPT verständlich zu machen. In diesem Webinar möchte ich aufzeigen, dass hinter der scheinbaren Magie letztlich "nur" Mathematik steckt - wenn auch sehr clevere Mathematik.
Der Kern jedes Machine Learning Systems ist erstaunlich simpel: Es handelt sich um mathematische Funktionen, die einen Input in einen Output umwandeln. Nehmen wir als Beispiel die Vorhersage von Immobilienpreisen: Das System erhält als Input das Jahr und soll als Output den Preis prognostizieren.
Die einfachste Form ist die lineare Regression - eine simple mathematische Funktion der Form y = ax + b, wobei 'a' die Steigung und 'b' die Verschiebung der Geraden bestimmt. Das "Lernen" besteht darin, diese Parameter a und b so anzupassen, dass die Funktion möglichst gut zu den bekannten Datenpunkten passt.
Der Sprung zur Künstlichen Intelligenz erfolgt, wenn wir komplexere Funktionen verwenden. Statt einer einfachen Geraden nutzen wir neuronale Netzwerke, die dem menschlichen Gehirn nachempfunden sind. Diese bestehen aus vielen miteinander verbundenen "Neuronen", die mathematisch gesehen wieder nur Funktionen sind - nur eben viele davon, geschickt miteinander verknüpft.
Der grosse Vorteil neuronaler Netzwerke: Sie können praktisch jede mathematische Funktion approximieren, ohne dass wir die exakte Form dieser Funktion kennen müssen. Das System findet selbst heraus, wie es Input und Output am besten verbindet.
ChatGPT ist im Kern ein grosses Sprachmodell (Large Language Model). Seine Aufgabe ist es, basierend auf einer Sequenz von Wörtern das wahrscheinlichste nächste Wort vorherzusagen. Dafür werden Wörter zunächst in Zahlen (Tokens) umgewandelt - ChatGPT kennt etwa 32.000 solcher Tokens.
Das Besondere an modernen Sprachmodellen ist der "Attention"-Mechanismus. Er ermöglicht dem System zu erkennen, welche Wörter im Input besonders wichtig für die Vorhersage des nächsten Wortes sind. Wenn ich zum Beispiel schreibe "Auf einer Bank kann man...", dann weiss das System durch den Kontext, ob es sich um eine Sitzbank oder ein Finanzinstitut handelt.
ChatGPT wurde mit enormen Mengen an Text trainiert: wissenschaftliche Papers, Bücher, Webseiten und Programmcode. Besonders interessant ist der Übergang vom reinen Sprachmodell zum Chatbot: OpenAI hat dafür zusätzlich grosse Mengen an Konversationsdaten verwendet, teilweise aus Quellen wie Reddit, teilweise von bezahlten Mitarbeitern manuell erstellt.
Diese Datenselektion hat einen enormen Einfluss auf das Verhalten des Systems. Wenn OpenAI beispielsweise entscheidet, bestimmte Reddit-Foren auszuschliessen oder einzuschliessen, beeinflusst das direkt, wie ChatGPT auf bestimmte Fragen reagiert. Dies zeigt sich auch in der politischen Ausrichtung: Analysen zeigen, dass ChatGPT tendenziell liberal-progressive Positionen vertritt, ähnlich der vorherrschenden Meinung im Silicon Valley.
Auch wenn ich die Technologie hier "entzaubert" habe, bleibt sie faszinierend. Niemand - nicht einmal die Entwickler bei OpenAI - versteht vollständig, warum diese Systeme so gut funktionieren. Die KI-Forschung ist oft ein Prozess des Ausprobierens, was funktioniert und was nicht. In diesem Sinne bleibt trotz aller mathematischen Grundlagen auch ein bisschen "Magie" erhalten.
Machine Learning basiert auf mathematischen Funktionen, die Input in Output umwandeln. Die einfachste Form ist die lineare Regression (y = ax + b), bei der Parameter während des Lernens optimiert werden. Komplexere Systeme wie neuronale Netze verwenden viele solcher Funktionen in Verbindung.
ChatGPT ist ein Large Language Model, das Wörter in numerische Tokens (ca. 32.000) umwandelt und das wahrscheinlichste nächste Wort vorhersagt. Es nutzt einen Attention-Mechanismus, um relevante Kontextinformationen zu identifizieren und zu verarbeiten.
ChatGPT wurde mit enormen Mengen an Text trainiert, darunter wissenschaftliche Papers, Bücher, Webseiten und Programmcode. Zusätzlich wurden Konversationsdaten aus Quellen wie Reddit und von bezahlten Mitarbeitern erstellte Dialoge verwendet.
ChatGPT kann nicht 'denken' oder 'fühlen', es ist eine mathematische Funktion. Es kann während der Interaktion nicht lernen, und seine Antworten basieren ausschliesslich auf dem ursprünglichen Training. Seine Kernfunktion ist Text-zu-Text-Transformation.
Die Datenselektion beim Training hat direkten Einfluss auf das Verhalten des Systems. Die Auswahl der Trainingsdaten bestimmt die politische Ausrichtung und Werte in den Antworten. ChatGPT tendiert zu liberal-progressiven Positionen, ähnlich der Silicon Valley Kultur.
Der Attention-Mechanismus ist eine Schlüsselkomponente moderner Sprachmodelle, der es dem System ermöglicht zu erkennen, welche Wörter im Input besonders wichtig für die Vorhersage des nächsten Wortes sind. Er ermöglicht kontextabhängige Interpretation von Wörtern.
ChatGPT verwendet komplexe neuronale Netzwerke statt einfacher linearer Funktionen. Es kann Kontext verstehen und verarbeiten durch seinen Attention-Mechanismus und wurde mit enormen Datenmengen trainiert, was ihm ermöglicht, menschenähnliche Texte zu generieren.
ChatGPT's Antworten basieren auf Trainingsdaten und spiegeln deren inhärente Voreingenommenheit wider. Das System kann nicht zwischen Wahrheit und Fiktion unterscheiden und sollte besonders bei kontroversen Themen kritisch hinterfragt werden.
.
Copyright 2025 - Joel P. Barmettler