Montag, 15. Januar 2024

Dunning, Kruger & KI

Dass die allgemeine Verfügbarkeit von KI-Anwendungen (KI = künstliche Intelligenz) die Arbeitswelt in kurzer Zeit stark verändert hat, ist ein Allgemeinplatz, welche Veränderungen das sind, ist im Einzelfall aber doch immer wieder überraschend. So gehört anscheinend zu ihnen, dass die Nutzung von KI zu einem verstärkten Auftreten des Dunning-Kruger Effektes führen kann, also zu einer unrealistisch guten Selbsteinschätzung, gerade dann wenn eigentlich das Gegenteil der Fall ist.


Nachlesen kann man das aktuell in einer Studie des IT-Sicherheits-Providers Snyk, die auf Interviews mit 500 Entwicklern beruht, schon etwas älter (von 2022) ist eine Meta-Studie der Stanford University, die die Forschungsergebnisse mehrerer amerikanischer und kanadischer Wissenschaftler zusammenfasst. Ohne David Dunning, Justin Kruger oder ihr Paper Unskilled and unaware of it beim Namen zu nennen, beschreiben sie genau das, was den nach ihnen benannten Effekt ausmacht.


Zum Hintergrund: es gibt systemische Gründe, wegen denen der von KI-Tools generierte Code oft schlecht ist. Anders als von Laien angenommen lernen diese Programme nicht selbst, sondern werden von Menschen trainiert, und zwar aus Kostengründen von Billigkräften aus Afrika oder Asien. Bei einfachen Wissensfragen oder Bildgenerierungen funktioniert das auch gut, beim Überprüfen von Quellcode kommen Menschen dieses Gehalts- (und damit Bildungs-)Niveaus aber schnell an Grenzen.


Die Grundlage dieser Trainings ist (vereinfacht gesagt) aller im Internet stehender Code, der natürlich in weiten Teilen schon älter ist. Der auf dieser Basis generierte neue Code ist daher nicht in dem Sinn schlecht, dass er nicht funktioniert (das würde dann doch auffallen), er ist es in dem Sinn, dass er an veralteten Architektur- und Sicherheitsstandards ausgerichtet ist und die so erzeugten Programme aus diesem Grund schwerer verständlich, aufwändiger in der Wartung oder einfacher zu hacken sind.


Statt sich dessen bewusst zu sein, herrschte bei den an den Untersuchungen teilnehmenden Entwicklern aber mehrheitlich die genau gegenteilige Meinung vor: sie waren davon überzeugt, dass der Code, den sie sich von ihrer KI (z.B. von Github Copilot oder Facebook InCoder) hatten generieren lassen, modern, gut lesbar und sicher wäre. Und genau das, die unrealistisch hohe Meinung über die Qualität eher dürftiger eigener  Arbeitsergebnisse, ist der Dunning Kruger Effekt.


Die genauen Gründe, aus denen dieser Effekt in genau diesem Kontext auftritt, sind in den genannten Studien nicht erforscht (und es ist auch fraglich, ob ihre Identifizierung so einfach möglich wäre), einen vermutlich nicht unwichtigen Faktor hat aber Rebecca Parsons, der CTO von Thoughtworks, beschrieben: die Antworten der Chatbots sind immer so formuliert, dass sie den Eindruck zweifelloser Richtigkeit erwecken. Das kann dazu führen, dass diese dann auch vom Anwender angenommen wird.


Die Lehre die man daraus ziehen kann ist, dass gerade KI-generierter Code mit grosser Vorsicht behandelt und möglichst sorgfältig reviewt werden sollte, bevor er irgendwo integriert und deployed wird. Das führt zwar dazu, dass die Menge der Arbeit, die man an eine künstliche Intelligenz delegieren kann gefühlt weniger wird, dafür ist das Ergebnis aber auch besser und sicherer. Und auch das gehört zu Dunning Kruger dazu - wenn man gemerkt hat, dass man betroffen ist, geht der Effekt zurück.

Related Articles