Gibt man in der Suchmaschine seiner Wahl den Suchbegriff „KI fails“ ein, erahnt man die Dimension des Problems: Von lustigen Fehlerchen wie „Hunden in der NBA“ bis hin zu rassistischen Chatbots und Geschichten über Bilderkennungssoftware, die Menschen mit Tieren verwechselt, ist alles dabei. Klar wird schnell: KI macht Fehler. Und manchmal auch sehr gravierende.
Dabei trifft Künstliche Intelligenz heute bereits weitreichende Entscheidungen, die das Leben von Menschen ganz massiv beeinflussen können. KI-Systeme werden zum Beispiel bei der Kreditvergabe, in Bewerbungsverfahren und in der Medizin eingesetzt, um nur einige Beispiele zu nennen. Je nachdem erhält der Kreditsuchende entweder gar kein Angebot, einen teuren oder einen günstigen Kredit. Beim Bewerbungsverfahren filtert die KI die unpassenden Bewerber heraus. Und KI-gestützte Bildverarbeitungssoftware unterstützt zum Beispiel Mediziner dabei, einen Tumor im Körper zu finden.
Damit die Entscheidungen solcher KI-Systeme möglichst gerecht sind, hat die Europäische Kommission kürzlich den „AI Act“, das Gesetz über Künstliche Intelligenz, erlassen. Darin ist geregelt, dass solche „Hochrisiko-KI-Systeme“, die einen großen Einfluss auf das Leben von Menschen haben können, auch von Menschen „wirksam beaufsichtigt“ werden können. Was das genau bedeutet, was also wirksame von unwirksamer menschliche Aufsicht unterscheidet, hat der Gesetzgeber allerdings nicht genau bestimmt. Eine Gruppe aus Wissenschaftlerinnen und Wissenschaftlern der Informatik, Philosophie, Psychologie und Rechtswissenschaft verteilt über ganz Deutschland (Saarbrücken, Dresden und Freiburg) hat sich diese komplexe Frage vorgenommen und nun ein Regelwerk von Kriterien vorgelegt, die den Entwicklern und Anwendern von KI-Systemen genauso wie Gesetzgebern und Gerichten einen Rahmen geben soll, um wirksame Aufsicht zu gewährleisten.
„Im Grunde genommen haben wir vier Kriterien definiert, die ein Mensch erfüllen muss, um diese ‚wirksame Aufsicht‘ eines KI-Systems zu gewährleisten“, erläutert Erstautorin Sarah Sterz den Kern des vielbeachteten Aufsatzes. Dieser wurde Anfang Juni auf der ACM-Konferenz über Fairness, Rechenschaftspflicht (Accountability) und Transparenz (ACM FAccT) veröffentlicht. „Das ist die Konferenz für solche Themen weltweit“, fügt Kevin Baum an. Der Leiter des Center for European Research in Trusted Artificial Intelligence (CERTAIN) am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Saarbrücken ist Co-Autor des Papers.
„Zum einen muss eine menschliche Aufsichtsperson kausale Wirksamkeit über das System haben“, beginnt Sarah Sterz die Aufzählung mit der ersten der vier definierten Rahmenbedingungen. „Konkret heißt das, der Mensch muss in das System eingreifen und dessen Entscheidung überstimmen können.“ In der Praxis kann das ein Not-Aus-Schalter am Roboter sein, der in der Industriehalle hilft, oder die Möglichkeit, eine KI zu überstimmen, die im Bewerbungsverfahren entscheidet, wer eingeladen wird und wer nicht.
„Zweitens muss die eine menschliche Aufsicht wissen, wie das System funktioniert und welche Konsequenzen die eigenen Interventionen haben würden. Sie muss epistemisches Verständnis hinsichtlich des KI-Systems und der eigenen Handlungsoptionen haben“, so Sarah Sterz weiter.
„Außerdem muss die Person drittens genügend Selbstkontrolle besitzen, um eine KI wirksam zu beaufsichtigen“, führt Sarah Sterz aus. Derjenige muss geistig und körperlich in der Lage sein, diese Aufgabe zu erfüllen. „Man sollte zum Beispiel nicht betrunken, übermüdet oder gelangweilt sein“, nennt die Informatikerin drei Beispiele. „Wer an einem Tag schon 200 Bewerbungen gesichtet hat, macht bei der 201. Bewerbung möglicherweise Fehler. Nach diesem Kriterium wäre er also zu einer wirksamen Aufsicht über ein KI-System nicht mehr in der Lage“, nennt die Wissenschaftlerin, die bei Informatik-Professor Holger Hermanns an der Universität des Saarlandes promoviert, ein praxisnahes Beispiel für dieses Kriterium.
Nicht zuletzt sollte er die passenden Absichten hegen, so das vierte Kriterium, das Sarah Sterz und ihre Co-Autorinnen und -Autoren definiert haben. „Superschurken etwa wären demnach per se ungeeignet, KI-Systeme zu beaufsichtigen, selbst wenn sie verstehen, wie sie funktionieren, konkrete kausale Macht über sie besitzen und ausreichend Selbstkontrolle mitbringen“, nennt Sarah Sterz ein plakatives Beispiel. Ein Filmbösewicht à la Dr. Evil aus „Austin Powers“ wäre demnach also ungeeignet, um eine KI zu beaufsichtigen, da es nicht in seinem Wesen läge, die Risiken der KI zugunsten der Menschen, über die sie entscheidet, zu eliminieren. Das wäre selbst dann der Fall, wenn er ausgeschlafen, nüchtern und technikaffin genug wäre, um zu wissen, wie die KI funktioniert, er also die anderen Kriterien erfüllte. Aber nicht nur Superschurken, sondern auch unmotiviertes Personal könnte zum Problem werden, denn wer nicht gewillt ist, Risiken abzuwenden, der wird auch keine wirksame Aufsicht über ein System führen.
Der Informatiker und Philosoph Kevin Baum erklärt, weshalb solche Regeln wichtig sind: „KI-Systeme werden schlichtweg immer Fehler machen, egal, wie weit die Technik voranschreitet. Schlimmer noch: Es ist mathematisch im Allgemeinen unmöglich, ein KI-System zu entwerfen, das dieselben Fehler mit derselben Wahrscheinlichkeit für alle macht. Daher ist ein Rahmen, wie wir ihn nun geschaffen haben, so wichtig, um es menschlichen Aufsichtspersonen zu ermöglichen, Fehler möglichst früh zu entdecken und schadhafte Ausgaben unwirksam zu machen. Wir wollen mit unseren Kriterien eine Struktur, einen Rahmen anbieten, um dies zu ermöglichen“, führt er aus.
Die Komplexität dieser Fragestellung ist an der Vielzahl der beteiligten wissenschaftlichen Disziplinen erkennbar. „Die Frage nach der menschlichen Aufsicht über KI ist keine rein juristische Frage, sie ist keine rein philosophische Frage, sie ist keine rein psychologische Frage und sie ist keine rein informationstechnische Frage. Vielmehr ist es eine Frage, deren Antwort die Perspektiven all dieser Fachrichtungen darauf miteinander verknüpfen muss“, erläutert Kevin Baum.
Wie wichtig die EU-Kommission die Frage findet, hat sie inzwischen selbst beantwortet: Sarah Sterz, Kevin Baum und ihre Kolleginnen und Kollegen sind vom „Europäischen Amt für Künstliche Intelligenz“ im September zu einer Konferenz nach Schweden eingeladen, um den dortigen Teilnehmern ihr Grundsatzpapier zu erläutern.
Original-Publikation:
Sarah Sterz, Kevin Baum, Sebastian Biewer, Holger Hermanns, Anne Lauber-Rönsberg, Philip Meinel, and Markus Langer. 2024. On the Quest for Effectiveness in Human Oversight: Interdisciplinary Perspectives. In Proceedings of the 2024 ACM Conference on Fairness, Accountability, and Transparency (FAccT '24). Association for Computing Machinery, New York, NY, USA, 2495–2507. https://doi.org/10.1145/3630106.3659051
Die Arbeit ist im Rahmen des Transregio-Sonderforschungsbereichs „TRR 248: Grundlagen verständlicher Software-Systeme - für eine nachvollziehbare cyber-physische Welt“ entstanden, der von der Deutschen Forschungsgemeinschaft gefördert wird.
Weitere Informationen:
Sarah Sterz
Tel.: (0681) 3025589
E-Mail: sterz(at)depend.uni-saarland.de
Kevin Baum
Tel.: (0681) 857755251
Mobil: (0151) 530513 84
E-Mail: kevin.baum(at)dfki.de