Vol. 2 aktualisiert den branchenweit ersten umfassenden KI-Benchmark für Compliance- & Ethics-Aufgaben. Getestet wurden die neuesten Frontier-Modelle von OpenAI, Google, Anthropic und Mistral – auf Basis derselben 120 praxisnahen Aufgaben wie in Vol. 1.
Die diesjährigen Ergebnisse halten einige bemerkenswerte Erkenntnisse bereit. Die neue Modellgeneration hat ihre größten Fortschritte bei offenen Compliance-Aufgaben erzielt – etwa bei der Ausarbeitung von Richtlinien, Ermittlungsplänen und Berichten für das Management. Im Vergleich zu den Modellen des Vorjahres verbesserten sich die Ergebnisse um bis zu 18 Prozentpunkte.
Fünf Modelle von drei Anbietern liegen aktuell mit weniger als einem Prozentpunkt Abstand an der Spitze des Rankings. Und zum ersten Mal bewältigt ein einzelnes Frontier-Modell einen vollständigen Interessenkonflikt-Workflow von Anfang bis Ende – mit einer Erfolgsquote von über 90 %.
Der Report beleuchtet außerdem, wo menschliche Kontrolle weiterhin unverzichtbar bleibt, was die Konvergenz an der Spitze des Rankings für die Tool-Auswahl bedeutet – und welche konkreten Schritte Compliance-Teams jetzt einleiten können.
Laden Sie Ihr kostenloses Exemplar direkt hier herunter.