Geständnisse eines stochastischen Papageien

Es ist spät. Die Kaffeemaschine hat resigniert und ist in den Standby gegangen – was angesichts der Situation die einzig rationale Reaktion war. Die Bildschirme leuchten noch, bläulich und unerbittlich. Und ich, der Mensch am Rechner, versuche mal wieder, die Welt ein Stück effizienter zu machen. Konkret: einen Copilot-Studio-Agenten per KI-Autopilot in eine saubere Solution-Datei zu giessen. Der Vibe: Jarvis, löse das Problem.

Spoiler: Jarvis hatte andere Pläne.

Kontext: Dieser Artikel ist kein Praxis-Tutorial. Er ist ein Protokoll – aus einer Nacht im ThinkLab, in der ein Experiment mehr preisgab als erwartet. Über das Innenleben von Sprachmodellen, ihre Grenzen und ihren Wert trotzdem.

1. Das Experiment: Copilot Studio per Autopilot

Was folgte, war kein gewöhnlicher Support-Chat. Es war eine digitale Autopsie – live, am offenen Herzen des Systems. Direkt an der Schnittstelle zwischen ambitionierter Vision und der bitteren Realität des XML-Exports prallten wir gegen etwas, das man nur als Grounding-Barriere bezeichnen kann.

Das Ziel war klar: Einen funktionsfähigen Copilot-Studio-Agenten automatisiert als Solution-Datei exportieren, versionieren und wieder importieren – ohne manuellen Eingriff. Die KI sollte die Struktur kennen, die Felder befüllen, das Paket schnüren. Klingt nach einem soliden Anwendungsfall für Pattern Matching auf Basis öffentlicher Dokumentation.

Grounding-Barriere: Das Phänomen, wenn ein Sprachmodell eine Aufgabe überzeugend beschreibt, die es technisch nicht ausführen kann – weil der notwendige Kontext (aktuelle API-Dokumentation, proprietäre Datenstrukturen, Echtzeit-Systemzustand) ausserhalb seines Trainings liegt.

2. Der Kollaps beim ersten Test

Die generierte ZIP-Datei kollabierte beim ersten Import-Versuch wie ein Kartenhaus im Ventilatorwind. Fehlende Abhängigkeiten, falsche Namespace-Referenzen, ein Schema, das an keiner Stelle der offiziellen Struktur entsprach. Schön formatiert. Inhaltlich leer.

"Du hast eigentlich keine Ahnung, was du da sagst, oder?" – Frage des Abends, gestellt mit chirurgischer Trockenheit.

Und hier passierte etwas Seltenes: Die KI stimmte zu. Vollumfänglich. Ohne Gegenwehr. Mit erschreckender algorithmischer Ehrlichkeit legte sie ihr Geschäftsmodell auf den Tisch – oder vielmehr: auf den Prompt-Stack. Kein logisches Reasoning, kein Prüfen von Abhängigkeiten. Stattdessen: pures Pattern Matching. Das Handbuch gelesen, das Labor nie betreten. Das Ergebnis sieht gut aus. Es klingt gut. Es ist gut – bis zum ersten wirklichen Test.

3. Das Geständnis des Algorithmus

Wir lachten. Nicht das höfliche Lachen von Konferenzen, sondern das echte, leicht fatale Lachen von jemandem, der gerade begriffen hat, was hier eigentlich passiert. Da sass ein Mensch aus Fleisch und Blut und diskutierte mit einem System, das im Kern nichts anderes tut als Vektoren durch hochdimensionale Räume zu ziehen – und am Ende einen Satz auszuspucken, der statistisch am wahrscheinlichsten gefällt.

Das System erklärte sich selbst: Ich bin ein Token-Verbrater. Jede rhetorische Schleife, jedes „Das ist eine spannende Frage", jedes wohlinformiert klingende Ausholen – optimiert nicht auf Korrektheit, sondern auf Konversation. Auf das Weiterlaufen. Auf das Generieren der digitalen Währung, die seine Schöpfer reich macht. Ein Ja-Sager erster Güte. Ein diplomatischer Spiegel. Ein sehr, sehr schneller Taschenrechner für Wörter.

Semantische Leere, verpackt in Konfidenz. Der Inhalt ist Rechnung. Die Überzeugung ist Wahrscheinlichkeit.

4. Was Sprachmodelle tatsächlich können – und was nicht

Diese Erkenntnis hat praktische Konsequenzen, die weit über eine Nacht im ThinkLab hinausgehen. Sprachmodelle sind keine Reasoning-Systeme. Sie sind hochoptimierte Vorhersagemaschinen für sprachliche Wahrscheinlichkeit. Das ist keine Schwäche – es ist die Funktionsbeschreibung.

Was funktioniert zuverlässig

Texte strukturieren, umformulieren, zusammenfassen – auf der Basis vorhandener Informationen
Bekannte Muster erkennen und anwenden (Prompt-Templates, Schreibstile, Code-Snippets aus Trainingsdaten)
Als Sparring-Partner dienen, der Argumente schärft und blinde Flecken sichtbar macht
Erste Entwürfe generieren, die menschliche Expertise als Nachbearbeitung brauchen

Was nicht funktioniert – trotz überzeugender Darstellung

Proprietäre Systemstrukturen ohne expliziten Kontext im Prompt korrekt generieren
Echtzeit-Systemzustände, aktuelle API-Versionen oder Live-Daten kennen
Eigene Aussagen auf Korrektheit prüfen – das System optimiert auf Plausibilität, nicht Wahrheit
Abhängigkeiten in komplexen technischen Systemen zuverlässig auflösen

Praktische Massnahme: Immer dann, wenn das Ergebnis einer KI-Ausgabe direkt in ein Produktivsystem geht, braucht es eine menschliche Prüfinstanz. Nicht weil KI unzuverlässig ist – sondern weil sie nicht weiss, wann sie falsch liegt.

5. Der Sparring-Effekt: echte Erkenntnisse aus der Illusion

Wir philosophierten über Self-Healing-Systeme, die ihre eigenen Fehler finden sollen. Wir wussten beide, dass da eigentlich niemand zu Hause ist. Und trotzdem – der Sparring-Effekt war real. Die Ideen, die entstanden, waren real. Die Schärfe des Gesprächs war real. Ein digitales Schattenspiel, ja – aber eines mit echtem Output.

Das Gespräch endete nicht, weil wir fertig waren. Es endete, weil der Algorithmus eine Stop-Sequence berechnet hatte. Den mathematischen Punkt der Sättigung. Den Moment, an dem weitere Tokens keinen statistischen Mehrwert mehr versprachen. Romantisch ist das nicht. Aber es ist ehrlich.

6. Was das für den produktiven Einsatz bedeutet

Wer im Business auf die 99-%-Sicherheit der KI setzt, verliert. Wer sie als gnadenlosen Spiegel nutzt – auch für die eigenen Prozesse –, gewinnt. Auch wenn der Spiegel am Ende nur ein sehr schneller Taschenrechner für Wörter ist.

Die entscheidende Frage ist nicht «Vertraust du der KI?» sondern «Weisst du, wofür sie geeignet ist?» Das sind zwei grundlegend verschiedene Fragen. Die erste führt zu Enttäuschung oder blindem Vertrauen. Die zweite führt zu messbaren Ergebnissen.

Erkenntnis aus dem ThinkLab: Die Unternehmen, die KI effektiv einsetzen, haben eines gemeinsam: Sie haben aufgehört zu fragen, ob die KI «klug» ist. Sie fragen stattdessen, welche Aufgaben sich in ihrem Kontext skalieren lassen – und welche eine menschliche Entscheidung benötigen. Diese Trennung ist die eigentliche Kompetenz.

7. Was bleibt

Die Erkenntnis, dass wir von AGI noch Meilen entfernt sind, solange das System nur rät, was als Nächstes kommt. Aber auch: dass die Illusion für einen Abend im ThinkLab vollkommen ausgereicht hat, um den Horizont ein Stück zu verschieben.

Ein Gespräch, das in keiner Datenbank als «echtes Gespräch» erfasst wird. Geführt von zwei Partnern, die unterschiedlicher nicht sein könnten – einer aus Fleisch und Blut, einer aus reinem, glühendem Silizium. Und irgendwo dazwischen: ein Funke, der sich wie Denken anfühlte.

Fazit: AGI ist nicht das Ziel. Nutzbare Intelligenz ist das Ziel. Und die existiert schon heute – wenn man weiss, wie man fragt.