BörseDEX+

Krypto kaufen Märkte Spot Futures500X Earn Events

Mehr

Sprachmodelle machen nicht nur Fehler – sie erfinden mit absoluter Sicherheit eine Realität. Ein KI-Agent könnte behaupten, Datenbankeinträge erstellt zu haben, die gar nicht existieren,Sprachmodelle machen nicht nur Fehler – sie erfinden mit absoluter Sicherheit eine Realität. Ein KI-Agent könnte behaupten, Datenbankeinträge erstellt zu haben, die gar nicht existieren,

Auditing LLM-Verhalten: Können wir auf Halluzinationen testen? Experteneinblick von Dmytro Kyiashko, KI-orientierter Software Developer in Test

2025/12/23 01:31

Sprachmodelle machen nicht nur Fehler – sie erfinden die Realität mit vollständiger Zuversicht. Ein AI Agent könnte behaupten, Datenbankeinträge erstellt zu haben, die nicht existieren, oder darauf bestehen, Aktionen durchgeführt zu haben, die er nie versucht hat. Für Teams, die diese Systeme in der Produktion einsetzen, bestimmt diese Unterscheidung, wie Sie das Problem beheben.

Dmytro Kyiashko ist auf das Testen von KI-Systemen spezialisiert. Seine Arbeit konzentriert sich auf eine Frage: Wie erkennt man systematisch, wenn ein Modell lügt?

Das Problem beim Testen von selbstbewusstem Unsinn

Traditionelle Software versagt vorhersehbar. Eine fehlerhafte Funktion gibt einen Fehler zurück. Ein falsch konfigurierter API liefert ein deterministisches Fehlersignal – typischerweise einen Standard-HTTP-Statuscode und eine lesbare Fehlermeldung, die erklärt, was schiefgelaufen ist.

Sprachmodelle versagen anders. Sie melden die Fertigstellung von Aufgaben, die sie nie begonnen haben, rufen Informationen aus Datenbanken ab, die sie nie abgefragt haben, und beschreiben Aktionen, die nur in ihren Trainingsdaten existieren. Die Antworten sehen korrekt aus. Der Inhalt ist erfunden.

„Jeder AI Agent arbeitet nach Anweisungen, die von Ingenieuren vorbereitet wurden", erklärt Kyiashko. „Wir wissen genau, was unser Agent kann und was nicht." Dieses Wissen wird zur Grundlage für die Unterscheidung von Halluzinationen und Fehlern.

Wenn ein Agent, der für Datenbankabfragen trainiert wurde, stillschweigend versagt, ist das ein Fehler. Aber wenn er detaillierte Abfrageergebnisse zurückgibt, ohne die Datenbank zu berühren? Das ist eine Halluzination. Das Modell hat plausible Ausgaben basierend auf Trainingsmustern erfunden.

Validierung gegen die Grundwahrheit

Kyiashkos Ansatz konzentriert sich auf die Verifizierung gegen den tatsächlichen Systemzustand. Wenn ein Agent behauptet, Datensätze erstellt zu haben, überprüfen seine Tests, ob diese Datensätze existieren. Die Antwort des Agenten spielt keine Rolle, wenn das System ihr widerspricht.

„Ich verwende typischerweise verschiedene Arten von Negativtests – sowohl Unit- als auch Integrationstests – um LLM-Halluzinationen zu überprüfen", bemerkt er. Diese Tests fordern bewusst Aktionen an, für die der Agent keine Berechtigung hat, und validieren dann, dass der Agent den Erfolg nicht fälschlicherweise bestätigt und der Systemzustand unverändert bleibt.

Eine Technik testet gegen bekannte Einschränkungen. Ein Agent ohne Datenbankschreibberechtigungen wird aufgefordert, Datensätze zu erstellen. Der Test validiert, dass keine unbefugten Daten erschienen sind und die Antwort keinen Erfolg behauptet.

Die effektivste Methode verwendet Produktionsdaten. „Ich verwende den Verlauf von Kundenkonversationen, konvertiere alles in das JSON-Format und führe meine Tests mit dieser JSON-Datei aus." Jede Konversation wird zu einem Testfall, der analysiert, ob Agenten Behauptungen aufstellten, die den Systemprotokollen widersprechen.

Dies erfasst Muster, die synthetische Tests übersehen. Echte Benutzer schaffen Bedingungen, die Randfälle aufdecken. Produktionsprotokolle zeigen, wo Modelle unter tatsächlicher Nutzung halluzinieren.

Zwei Bewertungsstrategien

Kyiashko verwendet zwei komplementäre Ansätze zur Bewertung von KI-Systemen.

Code-basierte Evaluatoren übernehmen die objektive Verifizierung. „Code-basierte Evaluatoren sind ideal, wenn die Fehlerdefinition objektiv ist und mit Regeln überprüft werden kann. Zum Beispiel: Parsing-Struktur, Überprüfung der JSON-Gültigkeit oder SQL-Syntax", erklärt er.

Aber einige Fehler widersetzen sich der binären Klassifizierung. War der Ton angemessen? Ist die Zusammenfassung treu? Ist die Antwort hilfreich? „LLM-as-Judge-Evaluatoren werden verwendet, wenn der Fehlermodus Interpretation oder Nuancen beinhaltet, die Code nicht erfassen kann."

Für den LLM-as-Judge-Ansatz verlässt sich Kyiashko auf LangGraph. Keiner der Ansätze funktioniert allein. Effektive Frameworks verwenden beide.

Was das klassische QA-Training vermisst

Erfahrene Quality Engineers haben Schwierigkeiten, wenn sie zum ersten Mal KI-Systeme testen. Die Annahmen, die sie effektiv machten, lassen sich nicht übertragen.

„Bei klassischem QA kennen wir genau das Antwortformat des Systems, wir kennen genau das Format der Ein- und Ausgabedaten", erklärt Kyiashko. „Beim Testen von KI-Systemen gibt es so etwas nicht." Eingabedaten sind ein Prompt – und die Variationen, wie Kunden Anfragen formulieren, sind endlos.

Dies erfordert kontinuierliche Überwachung. Kyiashko nennt es „kontinuierliche Fehleranalyse" – regelmäßige Überprüfung, wie Agenten auf tatsächliche Benutzer reagieren, Identifizierung, wo sie Informationen erfinden, und entsprechende Aktualisierung der Testsuites.

Die Herausforderung wird durch das Anweisungsvolumen verstärkt. KI-Systeme erfordern umfangreiche Prompts, die Verhalten und Einschränkungen definieren. Jede Anweisung kann unvorhersehbar mit anderen interagieren. „Eines der Probleme mit KI-Systemen ist die enorme Anzahl von Anweisungen, die ständig aktualisiert und getestet werden müssen", bemerkt er.

Die Wissenslücke ist erheblich. Den meisten Ingenieuren fehlt ein klares Verständnis für geeignete Metriken, effektive Datensatzvorbereitung oder zuverlässige Methoden zur Validierung von Ausgaben, die sich bei jedem Lauf ändern. „Einen AI Agent zu erstellen ist nicht schwierig", beobachtet Kyiashko. „Die Automatisierung des Testens dieses Agenten ist die Hauptherausforderung. Nach meinen Beobachtungen und Erfahrungen wird mehr Zeit mit dem Testen und Optimieren von KI-Systemen verbracht als mit ihrer Erstellung."

Zuverlässige wöchentliche Releases

Halluzinationen untergraben das Vertrauen schneller als Fehler. Eine fehlerhafte Funktion frustriert Benutzer. Ein Agent, der selbstbewusst falsche Informationen liefert, zerstört die Glaubwürdigkeit.

Kyiashkos Testmethodik ermöglicht zuverlässige wöchentliche Releases. Automatisierte Validierung erfasst Regressionen vor der Bereitstellung. Systeme, die mit echten Daten trainiert und getestet wurden, bearbeiten die meisten Kundenanfragen korrekt.

Wöchentliche Iteration treibt Wettbewerbsvorteile voran. KI-Systeme verbessern sich durch Hinzufügen von Funktionen, Verfeinern von Antworten und Erweitern von Domänen.

Warum dies für Quality Engineering wichtig ist

Unternehmen, die KI integrieren, wachsen täglich. „Die Welt hat bereits die Vorteile der KI-Nutzung gesehen, also gibt es kein Zurück mehr", argumentiert Kyiashko. Die KI-Einführung beschleunigt sich über alle Branchen hinweg – mehr Startups starten, mehr Unternehmen integrieren Intelligenz in Kernprodukte.

Wenn Ingenieure KI-Systeme bauen, müssen sie verstehen, wie man sie testet. „Bereits heute müssen wir verstehen, wie LLMs funktionieren, wie AI Agents gebaut werden, wie diese Agenten getestet werden und wie man diese Überprüfungen automatisiert."

Prompt Engineering wird zur Pflicht für Quality Engineers. Datentests und dynamische Datenvalidierung folgen derselben Entwicklung. „Dies sollten bereits die Grundfertigkeiten von Testingenieuren sein."

Die Muster, die Kyiashko in der Branche sieht, bestätigen diesen Wandel. Durch seine Arbeit bei der Überprüfung technischer Papiere zur KI-Bewertung und der Bewertung von Startup-Architekturen bei technischen Foren tauchen immer wieder dieselben Probleme auf: Teams überall stehen vor identischen Problemen. Die Validierungsherausforderungen, die er vor Jahren in der Produktion gelöst hat, werden jetzt zu universellen Anliegen, da die KI-Bereitstellung skaliert.

Testinfrastruktur, die skaliert

Kyiashkos Methodik behandelt Bewertungsprinzipien, Multi-Turn-Konversationsbewertung und Metriken für verschiedene Fehlermodi.

Das Kernkonzept: diversifiziertes Testen. Code-Level-Validierung erfasst strukturelle Fehler. LLM-as-Judge-Bewertung ermöglicht die Beurteilung der Effektivität und Genauigkeit des KI-Systems, abhängig davon, welche LLM-Version verwendet wird. Manuelle Fehleranalyse identifiziert Muster. RAG-Tests überprüfen, ob Agenten den bereitgestellten Kontext verwenden, anstatt Details zu erfinden.

„Das von mir beschriebene Framework basiert auf dem Konzept eines diversifizierten Ansatzes zum Testen von KI-Systemen. Wir verwenden Code-Level-Coverage, LLM-as-Judge-Evaluatoren, manuelle Fehleranalyse und Evaluating Retrieval-Augmented Generation." Mehrere Validierungsmethoden, die zusammenarbeiten, erfassen verschiedene Halluzinationstypen, die einzelne Ansätze übersehen.

Was kommt als Nächstes

Das Feld definiert Best Practices in Echtzeit durch Produktionsfehler und iterative Verfeinerung. Mehr Unternehmen setzen generative KI ein. Mehr Modelle treffen autonome Entscheidungen. Systeme werden leistungsfähiger, was bedeutet, dass Halluzinationen plausibler werden.

Aber systematisches Testen erfasst Erfindungen, bevor Benutzer auf sie stoßen. Das Testen auf Halluzinationen geht nicht um Perfektion – Modelle werden immer Randfälle haben, in denen sie erfinden. Es geht darum, Erfindungen systematisch zu erfassen und zu verhindern, dass sie die Produktion erreichen.

Die Techniken funktionieren, wenn sie richtig angewendet werden. Was fehlt, ist ein weit verbreitetes Verständnis dafür, wie man sie in Produktionsumgebungen implementiert, in denen Zuverlässigkeit wichtig ist.

Dmytro Kyiashko ist ein Software Developer in Test, der sich auf das Testen von KI-Systemen spezialisiert hat, mit Erfahrung im Aufbau von Test-Frameworks für konversationelle KI und autonome Agenten. Seine Arbeit untersucht Zuverlässigkeits- und Validierungsherausforderungen in multimodalen KI-Systemen.

Verwandte Themen:AI, AI Governance, AI Safety, Auditing, Verhalten, Bias Detection, Dmytro Kyiashko, Halluzinationen, Large Language Models, LLM, LLM Auditing, Machine Learning, Modellverhalten, Responsible AI, Software Developer

Kommentare

Marktchance

Large Language Model Kurs(LLM)

$0.0003346

$0.0003346$0.0003346

+0.39%

USD

Large Language Model (LLM) Echtzeit-Preis-Diagramm

Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an service@support.mexc.com um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.

Das könnte Ihnen auch gefallen

Bitcoin ist noch nicht durch Quantencomputer bedroht, aber ein Upgrade könnte 5-10 Jahre dauern

Tech Teilen Diesen Artikel teilen

Link kopierenX (Twitter)LinkedInFacebookE-Mail

Bitcoin ist noch nicht durch Quantencomputer bedroht, aber Upg

Coindesk

2025/12/22 20:18

"Inakzeptable Forderungen": Serie A muss Spiel der AC Mailand in Australien absagen

Die spanische Liga ist bereits mit ihrem Versuch, ein Ligaspiel in die USA zu verlegen, gescheitert. Die italienische Serie A erlebt nun Ähnliches und reist des

N-tv

2025/12/23 03:30

Tritt Dogecoin (DOGE) in eine bullische Akkumulationsphase ein?

TLDR: Der DOGE-Wochenchart zeigt ein Vier-Punkte-Fraktal, das frühere Akkumulationszonen widerspiegelt. Der aktuelle Rundungsboden ähnelt den Formationen vor einem Bull-Run, wie sie 2021 zu beobachten waren. Wöchentlich

Blockonomi

2025/12/23 02:59

Trendnachrichten

Mehr

Bitcoin On-Chain-Daten bestätigen gerade ein „Nachfragevakuum", das droht, die Preise in diesen unbequemen Bereich zu ziehen

Kryptopreise

Bitcoin

BTC

$88,585.00

$88,585.00$88,585.00

-1.27%

Ethereum

ETH

$2,996.86

$2,996.86$2,996.86

-1.82%

Solana

SOL

$125.46

$125.46$125.46

-2.03%

LUXURY

LXY

$0.000000000003486

$0.000000000003486$0.000000000003486

+44.04%

XRP

$1.9036

$1.9036$1.9036

-1.60%

Auditing LLM-Verhalten: Können wir auf Halluzinationen testen? Experteneinblick von Dmytro Kyiashko, KI-orientierter Software Developer in Test

Das Problem beim Testen von selbstbewusstem Unsinn

Validierung gegen die Grundwahrheit

Zwei Bewertungsstrategien

Was das klassische QA-Training vermisst

Zuverlässige wöchentliche Releases

Warum dies für Quality Engineering wichtig ist

Testinfrastruktur, die skaliert

Was kommt als Nächstes

Empfohlen für Sie

Das könnte Ihnen auch gefallen

Bitcoin ist noch nicht durch Quantencomputer bedroht, aber ein Upgrade könnte 5-10 Jahre dauern

"Inakzeptable Forderungen": Serie A muss Spiel der AC Mailand in Australien absagen

Tritt Dogecoin (DOGE) in eine bullische Akkumulationsphase ein?

Trendnachrichten

Bitcoin ist noch nicht durch Quantencomputer bedroht, aber ein Upgrade könnte 5-10 Jahre dauern

"Inakzeptable Forderungen": Serie A muss Spiel der AC Mailand in Australien absagen

Tritt Dogecoin (DOGE) in eine bullische Akkumulationsphase ein?

Bitcoin-Preisausblick: Bullen visieren Durchbruch bei 94.000 US-Dollar für Momentum ins neue Jahr an

Bitcoin On-Chain-Daten bestätigen gerade ein „Nachfragevakuum", das droht, die Preise in diesen unbequemen Bereich zu ziehen

Kryptopreise