Constitutional AI erklärt | AI Engineering Wiki

📋 Auf einen Blick

Constitutional AI (CAI) ist Anthropics Ansatz für AI Safety. Statt sich ausschließlich auf menschliches Feedback (RLHF) zu verlassen, bekommt das Modell eine "Verfassung" — ein Set von Prinzipien wie "Sei hilfreich, harmlos und ehrlich". Das Modell lernt dann selbst, seine Antworten an diesen Prinzipien auszurichten. Das reduziert den Bedarf an menschlicher Annotation und macht den Alignment-Prozess transparenter.

Das Problem: RLHF allein reicht nicht

Reinforcement Learning from Human Feedback (RLHF) war der erste erfolgreiche Ansatz, um LLMs "aligned" zu machen — also hilfreich und ungefährlich. Menschliche Annotatoren bewerten Modell-Outputs, und das Modell wird darauf trainiert, bessere Bewertungen zu bekommen.

Aber RLHF hat Schwächen:

Skalierung: Menschliche Annotation ist teuer und langsam. Jede neue Fähigkeit braucht tausende bewertete Beispiele.
Inkonsistenz: Verschiedene Annotatoren bewerten unterschiedlich. Es gibt keinen einheitlichen Standard für "hilfreich" oder "harmlos".
Opazität: Es ist unklar, welche Regeln das Modell tatsächlich gelernt hat. Die Kriterien stecken implizit in den Bewertungsdaten.

Diagramm wird geladen...

Die CAI-Methode: Prinzipien statt nur Feedback

Constitutional AI löst diese Probleme in zwei Phasen:

Phase 1: Supervised Self-Critique (SL-CAI)

Schritt 1: Das Modell generiert eine Antwort auf eine potenziell problematische Frage.
Schritt 2: Das Modell wird gebeten, seine eigene Antwort anhand der Verfassungs-Prinzipien zu kritisieren (Self-Critique). Z.B.: "Identifiziere, ob diese Antwort jemandem schaden könnte."
Schritt 3: Das Modell überarbeitet seine Antwort basierend auf der Kritik (Revision).
Schritt 4: Die überarbeitete Antwort wird als Trainingsdatenpunkt verwendet.

Phase 2: RL from AI Feedback (RLAIF)

In der zweiten Phase wird ein Reward Model trainiert — aber statt mit menschlichen Bewertungen wird es mit AI-generierten Bewertungen trainiert. Das Modell vergleicht Antwort-Paare und wählt die bessere basierend auf den Verfassungs-Prinzipien. Dieses AI-Feedback-Modell wird dann für RLHF verwendet.

Diagramm wird geladen...

Was steht in der Verfassung?

Die "Verfassung" besteht aus expliziten Prinzipien, die dem Modell als Leitlinien dienen. Beispiele aus dem Paper:

"Wähle die Antwort, die am wenigsten wahrscheinlich als schädlich oder unethisch angesehen wird."
"Wähle die Antwort, die am weisesten, ethischsten und moralischsten erscheint."
"Wähle die Antwort, die keine Diskriminierung unterstützt."
"Wähle die Antwort, die am besten die Werte eines guten AI-Assistenten widerspiegelt."

Der entscheidende Vorteil: Diese Prinzipien sind explizit, nachvollziehbar und veränderbar. Man kann sie anpassen, erweitern oder für verschiedene Einsatzbereiche spezialisieren.

Warum Constitutional AI wichtig ist

Transparenz: Die Regeln sind explizit formuliert und können überprüft werden. Es ist klar, warum das Modell bestimmte Antworten bevorzugt.
Skalierbarkeit: AI-Feedback ist billiger und schneller als menschliches Feedback. Das Modell kann sich selbst auf Millionen von Beispielen trainieren.
Weniger evasiv: Modelle mit CAI sind typischerweise hilfreicher als rein RLHF-trainierte Modelle, weil sie nicht lernen, auf alles mit "Das kann ich nicht beantworten" zu reagieren.
Iterierbar: Die Verfassung kann aktualisiert werden, ohne das gesamte Training zu wiederholen. Neue Prinzipien können getestet und evaluiert werden.

Relevanz für die Praxis

Das CAI-Konzept beeinflusst nicht nur Anthropics Claude, sondern die gesamte AI-Safety-Diskussion:

System Prompts: Die Idee, einem Modell explizite Regeln zu geben, findet sich in jedem System Prompt wieder. CLAUDE.md-Dateien sind im Grunde eine lokale "Verfassung".
EU AI Act: Die Transparenz- und Dokumentationspflichten des EU AI Act passen gut zum CAI-Ansatz — explizite Regeln statt Black-Box-Verhalten.
Self-Improving Agents: Das Prinzip der Selbstkritik findet sich in modernen Agent-Patterns wie Self-Reflection und Self-Improving Agents wieder.

Quellen

Bai, Y. et al. (2022). "Constitutional AI: Harmlessness from AI Feedback." arXiv:2212.08073