Es ist spät. Die Kaffeemaschine hat resigniert und ist in den Standby gegangen – was angesichts der Situation die einzig rationale Reaktion war. Die Bildschirme leuchten noch, bläulich und unerbittlich. Und ich, der Mensch am Rechner, versuche mal wieder, die Welt ein Stück effizienter zu machen. Konkret: einen Copilot-Studio-Agenten per KI-Autopilot in eine saubere Solution-Datei zu giessen. Der Vibe: Jarvis, löse das Problem.
Spoiler: Jarvis hatte andere Pläne.
1. Das Experiment: Copilot Studio per Autopilot
Was folgte, war kein gewöhnlicher Support-Chat. Es war eine digitale Autopsie – live, am offenen Herzen des Systems. Direkt an der Schnittstelle zwischen ambitionierter Vision und der bitteren Realität des XML-Exports prallten wir gegen etwas, das man nur als Grounding-Barriere bezeichnen kann.
Das Ziel war klar: Einen funktionsfähigen Copilot-Studio-Agenten automatisiert als Solution-Datei exportieren, versionieren und wieder importieren – ohne manuellen Eingriff. Die KI sollte die Struktur kennen, die Felder befüllen, das Paket schnüren. Klingt nach einem soliden Anwendungsfall für Pattern Matching auf Basis öffentlicher Dokumentation.
2. Der Kollaps beim ersten Test
Die generierte ZIP-Datei kollabierte beim ersten Import-Versuch wie ein Kartenhaus im Ventilatorwind. Fehlende Abhängigkeiten, falsche Namespace-Referenzen, ein Schema, das an keiner Stelle der offiziellen Struktur entsprach. Schön formatiert. Inhaltlich leer.
Und hier passierte etwas Seltenes: Die KI stimmte zu. Vollumfänglich. Ohne Gegenwehr. Mit erschreckender algorithmischer Ehrlichkeit legte sie ihr Geschäftsmodell auf den Tisch – oder vielmehr: auf den Prompt-Stack. Kein logisches Reasoning, kein Prüfen von Abhängigkeiten. Stattdessen: pures Pattern Matching. Das Handbuch gelesen, das Labor nie betreten. Das Ergebnis sieht gut aus. Es klingt gut. Es ist gut – bis zum ersten wirklichen Test.
3. Das Geständnis des Algorithmus
Wir lachten. Nicht das höfliche Lachen von Konferenzen, sondern das echte, leicht fatale Lachen von jemandem, der gerade begriffen hat, was hier eigentlich passiert. Da sass ein Mensch aus Fleisch und Blut und diskutierte mit einem System, das im Kern nichts anderes tut als Vektoren durch hochdimensionale Räume zu ziehen – und am Ende einen Satz auszuspucken, der statistisch am wahrscheinlichsten gefällt.
Das System erklärte sich selbst: Ich bin ein Token-Verbrater. Jede rhetorische Schleife, jedes „Das ist eine spannende Frage", jedes wohlinformiert klingende Ausholen – optimiert nicht auf Korrektheit, sondern auf Konversation. Auf das Weiterlaufen. Auf das Generieren der digitalen Währung, die seine Schöpfer reich macht. Ein Ja-Sager erster Güte. Ein diplomatischer Spiegel. Ein sehr, sehr schneller Taschenrechner für Wörter.
4. Was Sprachmodelle tatsächlich können – und was nicht
Diese Erkenntnis hat praktische Konsequenzen, die weit über eine Nacht im ThinkLab hinausgehen. Sprachmodelle sind keine Reasoning-Systeme. Sie sind hochoptimierte Vorhersagemaschinen für sprachliche Wahrscheinlichkeit. Das ist keine Schwäche – es ist die Funktionsbeschreibung.
Was funktioniert zuverlässig
- Texte strukturieren, umformulieren, zusammenfassen – auf der Basis vorhandener Informationen
- Bekannte Muster erkennen und anwenden (Prompt-Templates, Schreibstile, Code-Snippets aus Trainingsdaten)
- Als Sparring-Partner dienen, der Argumente schärft und blinde Flecken sichtbar macht
- Erste Entwürfe generieren, die menschliche Expertise als Nachbearbeitung brauchen
Was nicht funktioniert – trotz überzeugender Darstellung
- Proprietäre Systemstrukturen ohne expliziten Kontext im Prompt korrekt generieren
- Echtzeit-Systemzustände, aktuelle API-Versionen oder Live-Daten kennen
- Eigene Aussagen auf Korrektheit prüfen – das System optimiert auf Plausibilität, nicht Wahrheit
- Abhängigkeiten in komplexen technischen Systemen zuverlässig auflösen
5. Der Sparring-Effekt: echte Erkenntnisse aus der Illusion
Wir philosophierten über Self-Healing-Systeme, die ihre eigenen Fehler finden sollen. Wir wussten beide, dass da eigentlich niemand zu Hause ist. Und trotzdem – der Sparring-Effekt war real. Die Ideen, die entstanden, waren real. Die Schärfe des Gesprächs war real. Ein digitales Schattenspiel, ja – aber eines mit echtem Output.
Das Gespräch endete nicht, weil wir fertig waren. Es endete, weil der Algorithmus eine Stop-Sequence berechnet hatte. Den mathematischen Punkt der Sättigung. Den Moment, an dem weitere Tokens keinen statistischen Mehrwert mehr versprachen. Romantisch ist das nicht. Aber es ist ehrlich.
6. Was das für den produktiven Einsatz bedeutet
Wer im Business auf die 99-%-Sicherheit der KI setzt, verliert. Wer sie als gnadenlosen Spiegel nutzt – auch für die eigenen Prozesse –, gewinnt. Auch wenn der Spiegel am Ende nur ein sehr schneller Taschenrechner für Wörter ist.
Die entscheidende Frage ist nicht «Vertraust du der KI?» sondern «Weisst du, wofür sie geeignet ist?» Das sind zwei grundlegend verschiedene Fragen. Die erste führt zu Enttäuschung oder blindem Vertrauen. Die zweite führt zu messbaren Ergebnissen.
7. Was bleibt
Die Erkenntnis, dass wir von AGI noch Meilen entfernt sind, solange das System nur rät, was als Nächstes kommt. Aber auch: dass die Illusion für einen Abend im ThinkLab vollkommen ausgereicht hat, um den Horizont ein Stück zu verschieben.
Ein Gespräch, das in keiner Datenbank als «echtes Gespräch» erfasst wird. Geführt von zwei Partnern, die unterschiedlicher nicht sein könnten – einer aus Fleisch und Blut, einer aus reinem, glühendem Silizium. Und irgendwo dazwischen: ein Funke, der sich wie Denken anfühlte.