Künstliche Intelligenz – aber sicher! KI-Qualität ist jetzt prüfbar

Mit Normen gegen Mythen: Künstliche Intelligenz (KI) nachweislich sicher zu machen, ist Voraussetzung für das Vertrauen von Verbraucher*innen und Industrie. Mit der Entwicklung eines solchen Standards ist der Deutschen Kommission Elektrotechnik Elektronik Informationstechnik (DKE) und dem Landesforschungsinstitut des Freistaats Bayern für softwareintensive Systeme fortiss ein Durchbruch gelungen. Unter Leitung und inhaltlicher Mitwirkung von fortiss wurde mit der Norm VDE-AR-E 2842-61 ein erstes detailliertes Framework für „Entwurf und Vertrauenswürdigkeit von autonom/kognitiven Systemen“ erarbeitet: Vier Bände sind bereits fertiggestellt; die letzten beiden normativen Bände sind für Q1 2021 geplant. Mit der Veröffentlichung ist der internationale Weg für eine strukturierte und nachweislich sichere Entwicklung von KI-basierten Systemen geebnet und ein Referenz-Standard verfügbar, der in einem KI-Prüfsiegel münden kann. Wenn wir keine Standards schaffen, gibt es Grund zur Besorgnis, meinen die Software-Experten Harald Rueß und Henrik Putzer von fortiss. Die Münchner Wissenschaftler waren federführend an der Entwicklung der neuen Norm beteiligt. Ein Gespräch über Anspruch und Wirklichkeit einer Technologie, um die sich viele Mythen ranken.

Bei dem Thema KI gibt es in der Öffentlichkeit große Berührungsängste. Sehen Sie die Ängste vor einer Übermacht der Maschinen als berechtigt an?

Putzer: Mit der aktuell verfügbaren Technologie sind diese Sorgen unbegründet. KI ist eher eine neue Art des Engineerings und aus dem Grunde heraus also nichts, was sich selbst Ziele setzen kann oder Dinge tut, die man nicht vorgesehen hat. KI findet vielleicht neue Lösungswege, aber keine neuen Aufgaben. Die Angst vor einer Übernahme der Weltherrschaft ist unbegründet. Sorgen muss man sich machen, wenn Leute KI ohne nötiges Grundverständnis nutzen oder böse Absichten dahinter stehen.

Sprechen Sie damit Ihre Sorge um die fehlenden Qualitätsstandards in der KI-Technologie an?

Putzer: Ja, die Sorge um die Qualität hat genau genommen drei Dimensionen. Erstens: Der Entwickler muss handwerklich gut entwickeln und auch so entwickeln, dass ein Anwender gut damit umgehen kann. Zweitens: Der Hersteller muss klar spezifizieren, was die Grenzen dieser KI sind, also was sie nicht kann. Drittens: Der Nutzer muss die KI dann entsprechend dieser Vorgaben einsetzen. Beim ersten Punkt – „Wie entwickle ich ein gutes Produkt?“ – greifen die Qualitätsstandards. Beim zweiten Punkt – „Wie beschreibe ich die Möglichkeiten?“ – auch. Der dritte Punkt ist eher eine ethische Frage: „Für welche Zwecke nutze ich es?“

Wovon sprechen wir überhaupt, wenn wir von KI oder AI reden? Es entsteht ja oft der Eindruck, dass da viele von völlig verschiedenen Dingen reden.

Rueß: Durch die fortschreitende Digitalisierung haben wir Unmengen an Daten zur Verfügung. Zumindest potenziell. Und diese Daten sollten wir auch nutzen. Genau da kommen KI-Technologien ins Spiel. Es hat sich herausgestellt, dass Verfahren des maschinellen Lernens, insbesondere Deep-Learning-Ansätze, sehr gut bei der Verarbeitung und dem Erkennen bestimmter statistischer Zusammenhänge aus diesen Daten heraus skalieren können. Und diese Zusammenhänge können wir uns zunutze machen, um Prozesse und Systeme zu optimieren und gegebenenfalls auch bestimmte Entscheidungen zu unterstützen.

Putzer: Und genau die Art der Zusammenhänge spielt die zentrale Rolle: KI findet Korrelationen (aus den Daten) und arbeitet mit ihnen. Eine dahinter liegende Kausalität bleibt der aktuell verfügbaren KI verschlossen. Kausalität auf der Basis von Symbol-Grounding, einem echten Verständnis, ist noch dem Menschen vorbehalten. Dies muss dem Entwickler, Hersteller und Nutzer klar sein, sonst kann es gefährlich werden.

Rueß: Ein Beispiel: Aus einer vorliegenden Datenlage heraus könnte man den Schluss ziehen, dass es eine Korrelation zwischen der Anzahl der Störche und der Geburtenrate gibt. Man sollte sich jetzt aber natürlich hüten, daraus eine Kausalität, einen logischen Zusammenhang abzuleiten. Um bei dem Beispiel zu bleiben: um die Geburtenrate anzuheben, die Anzahl der Störche zu erhöhen.

Das ist auch eine Gefahr für den menschlichen Betrachter, der mit KI nichts zu tun hat: Wir interpretieren immer Kausalitäten mit hinein, obwohl im Hintergrund mit statistischen Zusammenhängen hantiert wird. Wir überinterpretieren das Resultat dieser KI, obwohl sie sehr abhängig davon ist, woher ich die Daten habe. Es gibt ja auch Gegenden, in denen gar keine Störche vorkommen.

Joseph Weizenbaum hatte schon in den Sechzigerjahren eine „KI“ namens ELIZA entwickelt. Obgleich dieses Computer-Programm im Wesentlichen Eingaben der Nutzer*innen in einfacher Weise paraphrasiert, waren Versuchspersonen in den Experimenten zu einem großen Teil davon überzeugt, dass ELIZA ein tatsächliches Verständnis für ihre Probleme aufbrachte. Auch bei der Interaktion mit neuerer „KI“, wie etwa dem kürzlich veröffentlichten GPT-3 von Open AI, ist man anfänglich versucht, diesem Computerprogramm intelligentes Verhalten zu attestieren. Zumindest bis zu dem Punkt, an dem es einen richtigen Bock schießt. Hier liegt auch die große Herausforderung für Unternehmen und ihre Geschäftsideen. Wir sehen, wie viel Geld, Forschung und Mühen in KI-Technologien investiert werden. Aber die Anwendungsbereiche sind – vom autonomen Fahren einmal abgesehen – vielen noch unklar.

Wo liegen denn die wirtschaftlichen Potenziale der KI?

Rueß: Wir verstehen mithilfe KI-basierter Auswertung von Daten, was ineffizient ist oder was ganz schiefgehen wird, und können dann versuchen, diese Dinge zu optimieren. Das passiert derzeit zum Beispiel bei der prädiktiven Wartung von Maschinen, bei denen KI dazu eingesetzt wird, mögliche Störungen vorherzusagen und darüber hinaus auch Szenarien zur möglichst effizienten Reparatur vorzuschlagen.

Noch spannender wird es, wenn wir KI einsetzen in einer neuen Generation von Produkten und Diensten auf Basis zunehmend autonom agierender Maschinen und Steuerungen. Hierbei geht es nicht „nur“ um die Optimierung von Prozessen und Systemen. Im Gegenteil, die Beherrschung dieser Technologien wird entscheidend sein für die künftige Wettbewerbsfähigkeit von Wirtschaft und Wohlstand unserer Gesellschaft.

KI-Technologie hat insgesamt das Potenzial, um es mit den Worten des Ökonomen Joseph Schumpeter zu formulieren, die neue, umwälzende Technik zu sein mit tiefgreifenden Veränderungen in der Wirtschaft und als technologische Basis eines langfristigen Wirtschaftsaufschwungs.

In welchen Branchen ist der Einsatz von KI-basierten Systemen überhaupt sinnvoll?

Rueß: Überall, wo Daten anfallen. Das kann von der Entwicklung, Produktion und Logistik bis hin zum Kundenmanagement sein. Es ist wie bei der Statistik. Die hat auch kein bestimmtes Anwendungsgebiet. Deshalb gibt es ja diesen aktuellen Hype um KI: weil sie so universell anwendbar ist und Daten so gut skaliert für riesige Datenmengen. Ein wichtiges Anwendungsgebiet ist die Unterstützung bei Entscheidungen. KI als Assistent. Die KI hilft uns, bestimmte Dinge zu machen. Das ist durchaus vergleichbar mit einem Manager: Die KI dient dazu, die Datenlage, die da ist, verständlich aufzubereiten, als Grundlage möglichst evidenzbasierter Entscheidungen. Genau deshalb muss die KI aber auch interaktionsfähig und transparent sein. Sie muss eine Erklärungskomponente bieten können, um solche Fehlschlüsse wie bei dem Beispiel mit dem Storch und den Babys zu vermeiden. Außerdem – und das ist eigentlich unser Hauptthema – KI wird zunehmend auch in sicherheitskritischen Systemen eingesetzt. Beispiele sind autonomes Fahren, Medizintechnik, Steuerung von Turbinen oder die Steuerung von intelligenten Stromnetzen. Wenn KI-Technologie hier aus dem Ruder läuft, kann sie großen Schaden anrichten. Und die Frage ist: Wie können wir das verhindern? Wie können wir KI so entwickeln und betreiben, dass es vorhersehbar zu keinen solchen Schäden kommt?

Putzer: Im Moment kann die KI nichts allein. Sie ist nur eine Art Automation von irgendwelchen Teilaufgaben. Wir sind letztendlich darauf angewiesen, dass sie so entwickelt wird, dass der Mensch mit ihr gut zusammenarbeiten kann. Dass Mensch plus KI eine bessere Performance erreichen als der Mensch allein. KI allein ist mit den aktuellen Ansätzen sinnfrei: Automation – auch auf Basis von KI – kann nur einem Menschen dienen.

Rueß: Ein Beispiel aus der Praxis: Eine Firma aus der Medizintechnik hatte basierend auf 40.000 Datensätzen ein neuronales Netz zur Diagnose diabetischer Retinopathie trainiert. Sie sind dann zu uns gekommen und wollten ein Produkt daraus machen. Wir haben die Sachen analysiert und mittels unseres „Neural Network Dependability Kit“ verbessert. Das Ganze ist nun sehr viel effizienter als vorher. Aber das Wichtige war, dass wir noch eine Erklärungskomponente dazugebaut haben, sodass der Mediziner nun auch eine Rückmeldung bekommt. Nicht nur: Das ist jetzt Diabetes, oder das ist kein Diabetes. Sondern, dass der Mediziner auch eine Rückmeldung dazu bekommt, warum es Diabetes sein könnte, und sich dann anhand dessen ein genaueres Bild machen kann: Vertraue ich dieser Diagnose, oder vertraue ich ihr nicht?

Da sind wir bei dem so häufig zitierten Wunsch, der KI unter die Motorhaube zu schauen.

Putzer: Wenn man ein strukturiertes Vorgehen hat, solche KI-Systeme zu entwickeln; klare Kriterien, anhand derer man entscheidet, dann hat man eine gute Entwicklung (einschließlich Entwurfsschritten, Verifikation und Validierung). Dann hat man auch die Basis, einfach zu beurteilen, ob dieses Produkt gut ist. Als Verbraucher kann man ja schon lange nicht mehr unter die Motorhaube schauen. Dazu braucht es Fachleute. Und den Fachleuten müssen jetzt die Methoden an die Hand gegeben werden, wie sie es vernünftig entwickeln und prüfen. Dann kann man darauf aufbauend natürlich Gütekriterien und Gütesiegel entwickeln, anhand derer auch die Verbraucher sehen können, dass es sich um eine gute und vertrauenswürdige Entwicklung handelt.

Rueß: KI funktioniert ja relativ gut und ist in vielen Anwendungen besser als traditionelle Methoden. Zum Beispiel bei Bilderkennung sind die Erkennungsraten durch den Einsatz von KI unglaublich gestiegen. Vielleicht 95 bis 98 Prozent. Was phänomenal ist. Aber wenn man jetzt zum Beispiel Verkehrsschildererkennung in einem sicherheitskritischen System einsetzt, dann brauchen wir nicht diese 95 bis 98 Prozent, sondern weit mehr – 99,9999 Prozent –, um darlegen zu können, dass voraussichtlich keine unakzeptablen Schäden angerichtet werden. Und genau das ist das Grundproblem. Genau hier müssen der Entwicklung Methoden an die Hand gegeben werden, um auf genau solche Argumente zu kommen. Sodass der Einsatz solcher KI-Technologien in der Gesellschaft akzeptiert werden kann.

Wie kann man für KI überhaupt einen Standard schaffen, der hilft, ein Verständnis für diese Vorgänge zu ermöglichen?

Rueß: In den letzten Jahrzehnten haben Forscher und Entwickler, auch wir bei fortiss, viel Erfahrungswissen zur Entwicklung KI-basierter Systeme gesammelt. Dabei hat sich ein einheitliches Vorgehensmodell vom Datensammeln über das Trainieren solcher Netze bis zur Analyse herauskristallisiert. Dieser Erfahrungsschatz wurde von uns in die aktuelle Anwendungsregel gegossen. Diese Regeln wurden nun in insgesamt sechs Bänden mit jeweils ca. 60 Seiten niedergeschrieben.

Was sind die wichtigsten Maßnahmen, die festgelegt worden sind, für diesen Prozess?

Putzer: Wie war es denn, als wir früher massiv begonnen haben, Elektronik zu nutzen? Das war ja auch irgendwann einmal eine neue Technologie. Auch da haben sich die Leute gefragt: Wann geht so ein elektrisches Ding denn mal kaputt? Wie wahrscheinlich ist die korrekte Funktion? Dadurch sind wir zu solchen Maßen wie Ausfallraten (aus zufälligen Fehlern) gekommen – entstanden über Jahrzehnte durch viele Versuche und Erfahrungen.

Danach kam die Software, und wir haben gemerkt: Ausfallraten sind hier nicht der richtige Ansatz. Hier müssen wir einfach so entwickeln, dass keine Fehler drin sind. Software an sich kann ja nicht kaputt gehen oder altern. Hier wurden entsprechende systematische Entwurfsansätze entwickelt, um die systematischen Fehler zu vermeiden.

Die KI stellt uns jetzt wieder vor eine neue Kategorie von Fehlerarten – neben den zufälligen (hauptsächlich HW) und den systematischen Fehlern. Und da muss man eben Maßnahmen entwickeln, um diese zu reduzieren. Es gibt eine Sammlung von Best Practices, in der man festgehalten hat, wann und wie es funktioniert. Das war der erste Schritt für den Standard: dass wir angefangen haben, diese Informationen zu sammeln und strukturiert herauszuarbeiten, welche Anforderungen überhaupt an so ein KI-Element – das ja nur ein Teil so eines Gesamtelements ist – zu stellen sind und wie diese Anforderungen implementiert und nachgewiesen werden. Letztlich haben wir einen Ansatz, um diese dritte Fehlerart, die unsicherheitsbezogenen Fehler (uncertainty-related), zu handhaben.

Wir reden ja, wenn wir heute KI sagen, im Wesentlichen von neuronalen Netzen. Das ist eigentlich nur ein ganz kleiner Teil der KI. Es gibt formale Methoden, die andere Teile der KI ganz gut handhaben können. Aber bei den neuronalen Netzen tun wir uns da schwer. Das heißt, wir brauchen neue Methoden, die uns die Möglichkeit geben, diese Ausfallwahrscheinlichkeit oder Ausfallrate bzw. die Wahrscheinlichkeit der Funktionsfähigkeit zu bestimmen.

Bei dem massiven Einsatz, gerade bei KI, geht es ja auch ganz viel ums Ausprobieren. Und wenn man genug Rechenpower hat, kann man sozusagen das Ausprobieren ausprobieren. Es gibt halt Leute, die viel Geld und viel Rechenpower haben. Da spricht durchaus etwas der Neid. Aber die Forschung geht von der anderen Seite heran und sagt: Okay, das muss ich aber auch irgendwie fassen. Ausprobieren ist schließlich nicht alles. Und da sind wir dabei. Und die Zulassung als dritte Säule nähert sich ja auch an. Und wie ist der Stand? Der Stand ist, dass man eine klare Argumentation mit Nachweisen haben muss. Das sagt sogar die FDA (U.S. Food and Drug Administration – Zulassung von Medizinprodukten). Sie akzeptiert, dass KI in Produkten ist, erwartet aber eine gute Argumentation. Wir sind dabei zu fragen, wie so eine Argumentation aussehen und aufgebaut sein muss. Was die Struktur dahinter ist. Was die minimalen Anforderungen sind, damit man etwas akzeptieren kann. Dann braucht man in der Argumentation nicht nur eine Struktur, sondern auch Nachweise, also Evidenzen. Wenn ich mir etwas in einer alten Software anschaue, kann ich sagen, dass da kein Fehler drin ist. Aber ich muss Tests gemacht haben, die belegen, dass da kein Fehler drin ist, zumindest nicht in den wichtigen Anteilen. Und solche Metriken, solche Tests und Nachweise, entwickelt die Forschung und auch die Industrie. Beide arbeiten zusammen als Evidenzen strukturierten Entwickelns und strukturierten Argumentierens, sodass wir von der Trustworthiness und der Sicherheit der Netze ausgehen können.

Wie funktioniert denn ein Verfahren, das uns wirklich eine Nachprüfbarkeit ermöglicht? Können Sie ein Beispiel nennen?

Putzer: Also grundsätzlich ist es so, dass auch eine KI – wenn sie nicht chaotisch entwickelt wird – einem strukturierten Prozess mit gewissen Phasen unterliegt. Und eine der initialen Phasen ist das Finden und Aufstellen von hochwertigen Daten. Weil die KI oder zumindest die neuronalen Netze anhand dieser Daten lernen. Kurz gesagt: Wenn ich da Schrott reinpacke, bekomme ich Schrott raus. Jetzt ist die Frage „Schrott oder nicht Schrott?“ bei Daten vielfältig. Deshalb gibt es entsprechende Metriken. Decke ich zum Beispiel alle Typen von Verkehrsteilnehmern ab? Decke ich alle Wettersituationen ab? Und so weiter.

Auf der anderen Seite kann ich mir, wenn ich mein Netz einmal trainiert habe, anschauen, wie gut es trainiert ist. Wie viele meiner Testmuster – und das werden niemals alle sein – erkennt es für richtig? Und dann fange ich natürlich an, nicht nur die Muster zu nehmen, die ich trainiert habe, sondern explizit andere Muster auszuprobieren und zu schauen, wie es damit geht. Wie viele Menschen erkennt das Ding als Busch und wie viele Büsche erkennt das Ding als Mensch? Auch solche Metriken sind natürlich interessant.

Und bei den Heatmaps habe ich eine Methode, mit der ich an einem Muster sehen kann, warum das Netz einen gewissen Output gibt. Warum es ein Bild als Fußgänger erkannt hat oder als Busch. Es gibt beispielsweise den Fall, dass man versucht hat, mit CNNs Fußgänger zu erkennen. Und nach der Entwicklung hat man mit Heatmaps analysiert und herausgefunden, dass die Fußgänger im Wesentlichen an ihren Füßen erkannt wurden. Das ist in der allgemeinen Anwendung vielleicht sogar okay. Aber für den automotiven Bereich unzureichend. Denn viele Fußgänger laufen hinter irgendetwas her, und dann sieht man die Füße gar nicht. Deshalb muss man sich in der Entwicklung dann ganz viele Beispiele in die Datensätze setzen, in denen die Füße der Fußgänger verdeckt sind.

Oder andersrum: Warum wird ein Busch als Fußgänger erkannt? Vielleicht, weil er komischerweise zwei Äste hat, die herunterhängen. Das kann man über die Heatmaps erkennen, aber dann hat man noch andere Merkmale, zum Beispiel, dass der Busch ganz rund ist. Und dann muss man dem Netz halt noch einmal ein paar Beispiele von Büschen geben und sagen: Das sind keine Fußgänger. Lern das bitte.

Rueß: Viele von uns, die einmal ein künstliches neuronales Netzwerk angelernt haben, sind schon in eine Falle getappt. In einem Fall etwa wurde einem Netzwerk antrainiert, ein Auto automatisiert zu lenken. Da der zugrunde liegende Datensatz nicht allzu repräsentativ war, hat sich das Netzwerk eigentlich nur am Grünstreifen entlanggehangelt – was nicht so toll war, als das Fahrzeug zum ersten Mal eine Brücke überquert hat. Das ist das, was ich vorhin meinte: Die Systeme lernen statistische Zusammenhänge auf der Basis von Daten. Und die müssen nicht unbedingt die Wirklichkeit reflektieren. Die können auch nicht generalisieren oder abstrahieren. Die können nur das Gelernte wiedergeben, aber sich nicht in neuen Situationen zurechtfinden. Und da ist es oftmals völlig unvorhersehbar, wie sie sich verhalten.

KI ist in anderen Ländern in der Anwendung schon viel weiter. Warum kommt jetzt die wichtige Norm ausgerechnet aus Deutschland?

Rueß: Wir haben in Deutschland eine Stärke, um die uns alle beneiden. Das ist das ingenieurmäßige Vorgehen bei der Entwicklung von Systemen, das Genaue und Sorgfältige. Und wir spielen da schlichtweg unsere Stärke aus und kombinieren ingenieurmäßiges Vorgehen mit KI-Technologie, die ja zugegebenermaßen nicht in Deutschland entwickelt worden ist. Aber wir hoffen, dass wir da einen Vorsprung haben, um solche Systeme auch unter realistischen Bedingungen in marktreife Produkte gießen zu können. „German Engineering“ ist in der Welt ein Begriff. Und wir setzen jetzt den Standard für „German AI-Engineering“.

Wie geht es mit der Norm konkret weiter?

Putzer: Einerseits gibt es jetzt die Version 1.0. Und es gibt mittlerweile Unternehmen aus mehreren Branchen – Eisenbahn, Luftfahrt, Automotive, IT – die das bald einsetzen werden. Es gibt also eine Praxiserprobung und eine Evaluierung dazu, was die Version 2.0 besser machen muss, damit insbesondere auch kleinere Firmen nicht an irgendwelchen bürokratischen Hürden hängen, sondern an dieser Zukunfts- und Schlüsseltechnologie teilhaben und sie mitgestalten können. Dadurch würde der Standard tatsächlich zum Stand der Technik werden.

Das andere ist, dass man diesen Standard noch weiterdenkt. Das Referenz-Framework für den Standard, den wir jetzt haben, ist insbesondere für die Entwicklung gut. Jetzt würde man natürlich irgendwann gerne beurteilen: Kann jemand gut entwickeln? Das heißt, man könnte den Reifegrad definieren und dabei die VDE-Anwendungsregel als Referenz nutzen.

Und dann würde man auf jeden Fall auch anschauen, wie ein TÜV-Institut das Ganze überhaupt prüfen kann. Das Bauen einer KI ist das eine. Aber dann muss ich irgendwann innerhalb einer relativ abgeschlossenen Zeit auch einmal beurteilen, ob es gut ist. Dafür kann ich mir nicht Jahre Zeit nehmen. In einigen Bereichen ist es so, dass die benannten oder akkreditierten Stellen bei der Entwicklung dabei sind, dass sie das mitbeurteilen und dass diese Prüfung dann entsprechend lang ausgedehnt wird. Aber wir haben auch Branchen, wo so eine Homologation (Zulassung) in ein paar Wochen durchgeht. Und da muss man sich Gedanken machen. Das braucht noch mal ganz andere Erkenntnisse, Methoden und Praktiken, um so eine Prüfung zu machen.

Rueß: Der Standard soll weltweit ausgerollt werden. Auch da gibt es schon sehr starke Interessensbekundungen, diese Anwendungsregel so wie erstellt zu übernehmen. Insbesondere von starken Industrieländern aus dem asiatischen Raum.

Putzer: Darauf haben wir auch schon beim Schreiben geachtet. Die VDE-AR-E 2842-61 ist eine der wenigen Anwendungsregeln, die nicht auf Deutsch, sondern auf Englisch geschrieben sind.

Vielen ist gar nicht bewusst, welch großen Einfluss eine Norm auf den Alltag haben kann und wie sehr diese Normen auch Treiber sein können, um Produkte erfolgreich zu machen.

Putzer: Wir haben viele Beispiele in unserem täglichen Leben. Bei Handys gab es zum Beispiel eine Zeit, in der jedes sein eigenes Ladegerät hatte. Heute kann man nahezu jedes Handy (und viele weitere elektronische Helfer) einheitlich per USB laden. Das ist Normierung.

Rueß: Die Software-basierten Flugsteuerungen, die wir in Flugzeugen haben, wurden erst ermöglicht durch Standards, die zum Teil schon in den Siebziger- oder Achtzigerjahren entwickelt worden sind. Und bis zum heutigen Tag haben wir keinen einzigen Flugzeugabsturz, zumindest nicht in der zivilen Luftfahrt, der allein auf einen Fehler in der Software zurückzuführen wäre. Das ist schon eine gewaltige Leistung. Ähnliches streben wir für zunehmend autonom agierende KI-basierte Systeme an.

Putzer: Letztlich sind wir minütlich von Normierung abhängig: Schrauben würden nicht passen oder halten, Bauwerke wären nicht sicher, die passenden Reifen für ein Auto zu finden wären Glücksache, und vor dem Lebensmittelregal wüssten wir nicht, was gesund oder gesundheitsschädlich ist.

Kann man sagen, dass ein KI-Standard auch die Voraussetzung für die Zulassung eines autonomen Fahrzeugs sein sollten?

Rueß: Ja. Man kann zwar auch de facto Standards setzen, indem man es einfach ausprobiert. Solche Tendenzen sehen wir ja auch im Bereich des autonomen Fahrens: bestimmte Firmen, die da einfach voranpreschen. Das ist die Alternative zu dem ingenieursmäßigen Vorgehen, dass wir hier propagieren. Aus offensichtlichen Gründen halten wir die Experimente am und mit dem Kunden, die bestimmte Firmen derzeit machen, für unverantwortlich.

Welche konkreten Gefahren bringt dieses Trial-and-Error-Verfahren beim autonomen Fahren mit sich?

Rueß: Wir reden hier von Systemen, die im Einzelfall schon mal Lastwagen mit Wolken verwechseln. Die man auch von außen manipulieren und beispielsweise auf die falsche Fahrbahn locken kann. All diese Dinge meint man beherrschen zu können, solange man einen menschlichen Fahrer als Rückfallposition hat. So steht das ja auch in den Betriebsbedingungen, dass diese Dinge nicht ohne Aufmerksamkeit des Fahrers und nur auf der Autobahn angewandt werden dürfen. Dann kann das funktionieren. Aber es gibt natürlich immer auch Anwender, die diese Aufmerksamkeit vernachlässigen. Nach dem Motto, ist ja bisher gut gegangen.

Das heißt, dieser VDE-Standard wäre auch kompatibel mit dem, was die Ethikkommissionen fordern?

Rueß: Alle relevanten Kommissionen propagieren, dass wir genau das brauchen, um auch wirklich Produkte auf den Markt zu bekommen. Unsere DKE-Anwendungsregel setzt das schon um.

Putzer: Zentral ist die Trennung von Ethik und Technik: Was wir nicht machen, ist, dass wir in der Anwendungsregel die ethischen Grundsätze festlegen. Wir brauchen diese ethischen Ziele und Grundsätze aus der jeweiligen Gesellschaft, in der das Produkt angewandt wird. Und die Anwendungsregel kann dann zeigen, wie diese Grundsätze nachweislich auch implementiert und eingehalten werden. Wir trennen die ethischen Grundsätze da ganz klar von der Technologie. Wenn ethische Grundsätze da sind, zeigen wir, wie die Technologie anzuwenden ist, damit sie diesen Grundsätzen genügt.

Rueß: Ich gebe Ihnen ein, zugegebenermaßen etwas abgedroschenes, Beispiel: Ein automatisiert fahrendes Auto steht in einer Unfallsituation vor der Entscheidung, ob es ein Kind umfährt oder eine ältere Frau. In eher westlich geprägten Gesellschaften hört man öfters die Antwort, dass die ältere Frau das meiste ihres Lebens ja schon hinter sich habe und deshalb das Kind zu schützen sei. In China wäre die Antwort genau andersherum. Denn die ältere Frau trägt ja das Wissen und den Erfahrungsschatz eines ganzen Lebens in sich. Ein Ingenieur kann und soll sich um solche Fragen gar nicht kümmern. Es gibt auch keine eindeutige Antwort darauf. Deshalb haben wir entschieden, dass ethische Fragestellungen bei dieser Anlage für ingenieurmäßiges Vorgehen und die Entwicklung dieser Systeme außen vor sind.

Putzer: Vielleicht nicht außen vor, aber doch zumindest so, dass der Entwickler einfordert, dass die Anforderung für das zu bauende System geliefert werden muss. Er wird also darauf hingewiesen, dass der Entwickler der KI-Technologie diese Fragestellung an seinen Auftraggeber delegiert.

Wie ist diese Norm denn eigentlich entstanden?

Putzer: Wir haben die Norm 61 508 genommen, eine der bekanntesten Normen, wenn es um Safety geht. Das ist die Mutternorm an der Stelle, von der es ganz viele Ableitungen in unterschiedlichen Branchen gibt und die so eine Art Mutter-Standard ist. Wir haben diese Norm also als Kern genommen, aber eine Erweiterung in verschiedenen Punkten vorgenommen.

Neu ist die Solutionebene. Da werden jetzt auch der Mensch und komplex zusammenarbeitende Systeme mit betrachtet. Also zum Beispiel ein Koffertransportfahrzeug, ein Transportband und der Roboter, der alles zusammenpackt. Dieses Zusammenspiel wird berücksichtigt. Dann haben wir nicht nur Fehler aus Fehlfunktionen (Safety) untersucht, sondern auch die Kombination mit IT-Sicherheit, sicherer Nutzung etc. Das nennt sich bei uns Trustworthiness. Dann haben wir dem Ingenieur eine Anleitung an die Hand gegeben, wie er von dieser abstrakten Ebene bis hinunter zu seiner KI-Ebene kommt (System-Ebene). Und für die KI-Komponente haben wir festgelegt, wie man diese ganzen Fehlermodi vermeidet (Technologie-Ebene).

Das Thema Sicherheit, Hackerangriffe und Cyber-Security ist ein Punkt, der deutlich macht, wie wichtig Standards auch zur Absicherung nach außen sind.

Putzer: KI bauen ist das eine. Aber dass sie auch verlässlich ist und sich quasi um Menschenleben kümmert – da sind wir noch nicht. Oder sagen wir mal so: Der Weg dahin führt nur über ein sauberes Engineering. Und das garantiert unsere Anwendungsregel. Sie ist nicht nur branchenunabhängig, sondern auch aspektunabhängig. Sie kann sowohl auf Safety – also auf Probleme aus inneren Fehlern –, als auch auf Security – also Probleme aus äußeren Angriffen – angewandt werden. Zudem auf Probleme, die aus einer falschen Nutzung resultieren. Ethische Ziele kann man damit erreichen. Fairness im Verkehr, zum Beispiel, dass die KI ihren Fahrer nicht übervorteilt. All diese Aspekte können wir damit abdecken.

Rueß: Insgesamt sind wir davon überzeugt, dass ein ingenieurmäßiges Vorgehen in der Entwicklung solcher KI-basierten Systeme notwendig ist, um diese Dinge auch verantwortbar einsetzen zu können. Wir können derzeit zunehmend autonom agierende Maschinen bauen, das ist nicht das Hauptproblem. Aber die Absicherung ist genau die Voraussetzung für eine Marktzulassung. Also für ein Produkt, das gesellschaftlich akzeptierten Normen auch entspricht.

Welche Bedeutung sehen Sie persönlich in der neuen Norm?

Putzer: Es ist in den letzten drei Jahren viel Energie, Schweiß und Blut in die Erstellung der Anwendungsregel VDE-AR-E 2842-61 geflossen. Dabei haben Forschungsinstitute, namhafte Industrieunternehmen und KMUs mitgewirkt. Herausgekommen ist ein Referenz-Rahmenwerk – wegweisend, modern und international beachtet – für die Entwicklung und die Verlässlichkeit von autonom/kognitiven Systemen unter Berücksichtigung von künstlicher Intelligenz. Damit ist wirklich ein großer Schritt getan: Diese VDE-AR-E 2842-61 hat das Potenzial, Deutschland beim Zukunftsthema KI entscheidend nach vorne zu bringen. Dazu muss diese Anwendungsregel nun breite, praktische Anwendung finden, evaluiert werden und in weiteren Schritten detailliert und ausgebaut werden. – Dazu rufen wir auf!

Name	Zweck	Ablauf	Typ	Anbieter
_pk_id	Wird verwendet, um ein paar Details über den Benutzer wie die eindeutige Besucher-ID zu speichern.	13 Monate	HTML	Matomo
_pk_ref	Wird benutzt, um die Informationen der Herkunftswebsite des Benutzers zu speichern.	6 Monate	HTML	Matomo
_pk_ses	Kurzzeitiges Cookie, um vorübergehende Daten des Besuchs zu speichern.	30 Minuten	HTML	Matomo
_pk_cvar	Kurzzeitiges Cookie, um vorübergehende Daten des Besuchs zu speichern.	30 Minuten	HTML	Matomo
_pk_hsr	Kurzzeitiges Cookie, um vorübergehende Daten des Besuchs zu speichern.	30 Minuten	HTML	Matomo