Zur Funktionsweise von KI-Systemen und Algorithmen von Aaron Sayko 22.11.2022

Vom Perceptron bis zum PageRank

Aus der heutigen Welt der computertechnischen Systeme sind Algorithmen und KI-Systeme (Künstliche Intelligenz) nicht mehr wegzudenken. So allumfassend ist mittlerweile ihr Einsatz, dass unsere vernetzte technische Welt vermutlich eine andere wäre, nähme man diese Technologien heraus. Diese stellen die zentralen softwarebasierten Elemente dar, die die Funktionsweise von Internetportalen wie Facebook und Amazon besorgen. Daher ist es wichtig, zu verstehen, was genau gemeint ist, wenn von Algorithmen und KI-Systemen die Rede ist.

Der erste Teil dieses Textes, der sich den verschiedenen Paradigmen der KI-Forschung widmet, erläutert die Ansätze der Symbolverarbeitung, des Konnektionismus und der Embodied AI (Artificial Intelligence). Es ist wichtig zu verstehen, welche Bedeutung diese einzelnen Paradigmen für die im Zentrum dieser Arbeit stehenden Algorithmen und KI-Systeme der Internetdienstleistungen haben.

Der zweite Teil beleuchtet die Diskussion um Starke und Schwache KI, ob maschinelles Denken möglich ist oder nicht. Hier soll verdeutlicht werden, in welchem Sinne in diesem Beitrag von KI-Systemen die Rede ist. Der dritte und vierte Teil dieses Kapitels wird dem grundsätzlichen Verständnis von digitalen Algorithmen und KI-Systemen dienen. Zuletzt wird ein Überblick gegeben über die verschiedenen Aufgaben, für die KI-Systeme auf Portalen von Internetkonzernen eingesetzt werden.

1. Paradigmen der KI-Forschung

Der KI-Forschung ging es immer darum, menschliche Intelligenz nicht nur verstehen, sondern diese auf technischer Basis zu reproduzieren (vgl. Russell/Norvig 2010: 1). Unterschiedliche Paradigmen setzen dabei jeweils einen anderen Fokus auf die menschliche Intelligenz in Hinsicht darauf, wie sie computertechnisch umgesetzt werden muss. Die KI-Forschung hat in ihrer Geschichte mehrere Kursänderungen erfahren. Auf diese wird im Folgenden ein kurzer Blick geworfen, bevor die einzelnen Paradigmen besprochen werden.

Als erste Arbeit, die dem Thema der Künstlichen Intelligenz zugeordnet wird, gilt eine aus dem Jahr 1943, doch die ‚Geburtsstunde‘ der KI-Forschung und des Begriffs ‚Künstliche Intelligenz‘ wird auf das Jahr 1956 datiert, als in den USA die Dartmouth Conference stattfand (vgl. ebd.: 16ff.). Die Geschichte der KI-Forschung war seitdem eine wechselvolle. Die Anfangsphase bis 1969 war geprägt von Entwicklungen, die zu dieser Zeit als große Erfolge galten, wie der ‚Logic Theorist‘ und der ‚General Problem Solver‘, von deren Leistungskraft die Entwickler in weitaus stärkerem Maße überzeugt waren, als, wie sich Jahre später herausstellte, tatsächlich angemessen gewesen wäre (vgl. ebd.: 17ff.).

In dieser Phase stellten Allen Newell und Herbert Simon die „Physical Symbol System Hypothesis“ auf, der zufolge ein physisches Symbolsystem „the necessary and sufficient means for general intelligent action“ besitzt (Newell/Simon 1976: 116). Gemeint ist damit, dass jede Entität, die Intelligenz zeigt, egal, ob es sich um einen Menschen oder ein technisches Gerät handelt, arbeitet „by manipulating data structures composed of symbols“ (Russell/Norvig 2010: 18).

Mit dem ‚Perceptron‘, das Frank Rosenblatt 1962 präsentierte, wurde schon in der frühen Phase der KI-Forschung ein Algorithmus entwickelt, der lernfähig ist. Bis in diese Zeit lassen sich die Grundlagen konnektionistischer KI, dem Paradigma heutiger lernfähiger KI-Systeme, nämlich zurückverfolgen (vgl. ebd.: 20 ff.). In dieser frühen Phase waren die Forscher davon überzeugt, dass sie Maschinen entwickeln würden, die denken könnten und die überdies, bei fortschreitender Entwicklung, in naher Zukunft, wie der Mensch zu genereller Intelligenz fähig seien.

Bereits ab Mitte der 1960er Jahre begann sich jedoch zum ersten Mal zu zeigen, dass man die Schwierigkeit des Unterfangens, intelligente Maschinen zu konstruieren, unterschätzt hatte. Bei dem bislang gefeierten Fortschritt in der Entwicklung von KI handelte es sich nämlich nicht um Systeme, die es zu einem Einsatz im Alltag gebracht haben. Es wurde deutlich, wie schwierig es in Wirklichkeit war, prinzipielle Erfolge in den praktischen Einsatz zu übersetzen. Auch stellte sich heraus, dass nicht alle KI-Systeme so leistungsfähig waren, wie man zuerst geglaubt hatte (vgl. ebd.).

Infolge dieser Erkenntnisse widmete sich die KI-Forschung nicht mehr dem anfänglichen Projekt, eine KI mit genereller Intelligenz zu erschaffen, sondern durch die Implementierung von speziellem Expertenwissen sollten KI-Systeme geschaffen werden, die in kleinen Anwendungsbereichen Lösungen anbieten können sollten. Als erstes solcher Systeme, die ‚Expertensysteme‘ genannt werden, gilt das Massenspektrometer-System ‚DENDRAL‘. Kommerziellen Erfolg feierten Expertensysteme dann in den 1980er Jahren (vgl. ebd.: 22ff.).

Mitte der 1980er Jahre sorgte die Wiederentdeckung des bereits wenige Jahrzehnte zuvor entwickelten Algorithmus ‚Backpropagation‘ dafür, dass sich die KI-Forschung wieder dem konnektionistischen Modell von KI-Systemen widmeten. Dies setzte eine Entwicklung in Gang, die in der aktuell vorzufindenden Dominanz lernfähiger KI-Systeme in Form von Künstlichen Neuronalen Netzen mündete (vgl. ebd.: 24ff.).

Obwohl gemeinhin die beiden großen Paradigmen der KI-Forschung, die Symbolverarbeitung und der Konnektionismus, als widerstreitende Konkurrenten verstanden werden (vgl. Bringsjord/Govindarajulu 2020), sprechen Forscher nun davon, diese miteinander zu verbinden. Da beide Paradigmen ihre Stärken und Schwächen besitzen, ist es ihre Ansicht, dass ein beide Ansätze verbindender Einsatz Synergiepotenzial besitzt: „Significantly, the shortcomings of deep learning align with the strengths of symbolic AI, which suggests the time is right for a reconciliation.“ (Garnelo/Shanahan 2019: 17).

1.1 Symbolverarbeitung

Der Ansatz der Symbolverarbeitung war in der KI-Forschung bis in die 1980er Jahre hinein das herrschende Paradigma und ist auch als Klassische KI oder „good-old- fashioned-AI“, kurz GOFAI, bekannt (Nilsson 1998: 6). Für diesen Ansatz grundlegend ist die oben bereits erwähnte von Newell und Simon aufgestellte Physical Symbol System Hypothesis. Die grundlegende Aussage der Vertreter der Symbolverarbeitung lautet daher ebenfalls, dass „Symbolverarbeitung eine notwendige und hinreichende Bedingung für intelligentes Verhalten ist“ (Misselhorn 2018: 21). Informationen, so die Überzeugung der Anhänger dieses Ansatzes, werden von Zeichenketten repräsentiert (vgl. Garson 2019).

Zentrale Bestandteile symbolverarbeitender KI-Systeme sind das menschliche Wissen und Verhaltensregeln, die vom menschlichen Entwickler einprogrammiert werden. Alles, was das System wissen und können soll, muss per Hand explizit eingetragen werden. Die verschiedenen Bestandteile, die ein solches System benötigt, identifiziert Nils Nilsson in drei verschiedene Ebenen, die zusammen die symbolische KI ausmachen: Die Wissensebene, die notwendig ist, wenn das System seine Anwendung auf die reale Welt finden soll, beinhaltet auf der einen Seite all das Wissen, das dem Nutzer der Möglichkeit nach herausgegeben werden soll, auf der anderen Seite die Regeln, die dem System explizit vorgeben, unter welchen Bedingungen es welche Aktion zu tätigen hat. In diesem Sinne wird die Symbolverarbeitung auch als Top-Down-Ansatz bezeichnet. Die zweite Ebene, die Symbolebene, stellt den Teil des KI-Systems dar, der das Wissen in Zeichen und Zeichenketten darstellt. In den „lower levels“ wiederum, die die technischen Kapazitäten beherbergen, werden die Prozesse umgesetzt (Nilsson 1998: 6).

Die Stärken, die diesem Ansatz von KI-Systemen zugesprochen werden, umfassen zum einen die semantische Interpretierbarkeit ihrer internen Prozesse. Zum anderen ist symbolverarbeitende KI für Programmumgebungen, in denen klare Gesetze gelten, gut geeignet. Daher ist sie für logikbasierte Anwendungen gut anwendbar. Des Weiteren ist auch kein Prozess des Anlernens notwendig: Da vonseiten der Entwickler zuvor alles für die Praxis Benötigte programmiert wird, ist das KI-System sofort einsatzbereit. Eine Schwäche dieser KI-Systeme ist jedoch, dass sie dem „symbol grounding problem“ unterliegen (Harnad 1990: 335). In Anlehnung an das „Chinese Room Argument“ von John Searle besagt das „symbol grounding problem“ nach Stevan Harnad, dass symbolische KI-Systeme, die mit symbolischen Repräsentationen arbeiten, durch diese keine Verbindung zur realen Welt entwickeln können:

„The symbols and the symbol manipulation, being all based on shape rather than meaning, are systematically interpretable as having meaning […]. But the interpretation will not be intrinsic to the symbol system itself: It will be parasitic on the fact that the symbols have meaning for us, in exactly the same way that the meanings of the symbols in a book are not intrinsic, but derive from the meanings in our heads.“ (ebd.: 338f.)

Zu der kognitiven Leistung, Symbole eines Symbolsystems sinnvoll zu manipulieren, gehört ihre Anreicherung mit Bedeutung, die sich nicht aus der bloßen Manipulation der Symbole speist, sondern aus den Erfahrungen aus und dem Wissen über die reale Welt (vgl. ebd.). Des Weiteren ist es ein Charakteristikum von symbolverarbeitender KI, dass sie nicht mit Unsicherheit umgehen kann. Viele Fragen, die im Alltag anfallen und unsichere Faktoren beinhalten, können von diesen KI-Systemen nicht beantwortet werden (vgl. Rescorla 2020).

Nichtsdestotrotz hat sich aus diesem Ansatz eine erfolgreiche und weit verbreitete Art von KI-Systemen entwickelt, und das sind die Experten- oder Wissensbasierten Systeme. Mehr noch, auf dieser Funktionsweise von Programmen basieren auch all die Programme, die Nutzer eines Computers auf diesem installieren und nutzen. Diese sind nämlich komplett durchprogrammiert und streng regelbasiert, nur unter den Begriff ‚KI- System‘ werden diese nicht gefasst.

1.2 Konnektionismus

Der konnektionistische oder subsymbolische Ansatz folgt im Gegensatz zu dem der Symbolverarbeitung der Auffassung, dass, um die menschliche Intelligenz zu verstehen und, in der Folge, in computertechnischen Systemen zu reproduzieren, es wichtig ist, zu verstehen, in welcher Form sie im menschlichen Gehirn zustande kommt. Die Art und Weise, wie nach diesem Paradigma KI-Systeme entworfen werden, orientiert sich also am menschlichen Vorbild.

Das eine prominente, mit diesem Ansatz eng verbundene Modell von KI-Systemen, das Künstliche neuronalen Netz (KNN), hat seinen Ursprung also in Erkenntnissen der Neurowissenschaft. Allerdings ist es nicht das Ansinnen der Vertreter des Konnektionismus, in KI-Systemen das menschliche Gehirn als Ganzes nachzubilden: „Vielmehr handelt es sich um mathematische Modelle für Computerprogramme, die bestimmten Organisationsprinzipien biologischer neuronaler Netze nacheifern.“ (Misselhorn 2018: 22).

Während, wie oben gesehen, der Ansatz der Symbolverarbeitung die Ansicht vertritt, dass Informationen von Symbolen repräsentiert werden, sind Konnektionisten der Überzeugung, dass „information is stored non-symbolically in the weights, or connection strengths, between the units of a neural net“ (Garson 2019). Als Bottom-Up-Ansatz ist dem KI-System vonseiten des menschlichen Entwicklers nur seine Form, sein ‚Gerüst‘, vorgegeben, es generiert sein Wissen aus den von außen kommenden Daten. Somit weisen diese Systeme eine Eigenschaft auf, die KI-Systeme der Symbolverarbeitung nie aufgewiesen haben: Sie sind in der Lage zu lernen. Indem sie in der Lage sind, in Daten Muster zu erkennen und durch intensives Anlernen auf Basis des Erkennens dieser Muster Aktionen zu initiieren, ist es als Stärke des Konnektionismus zu bezeichnen, dass KI-Systeme, die diesem Ansatz folgend konstruiert werden, mittels einer kleinen Zahl an Algorithmen auf eine große Zahl verschiedener Probleme angewendet werden können (Harnad 1990: 341).

1.3 Embodied AI

Nachdem sich in den 1980er Jahren die KI-Forschung von dem Ansatz der symbolverarbeitenden KI abgewandt hatte, gab es neben dem Konnektionismus noch einen weiteren Ansatz der KI-Forschung, der an Bedeutung gewann: Embodied AI. Als Antwort auf die symbolverarbeitende KI stellt sich, initiiert von Rodney Brooks, die Embodied AI gegen die von Newell und Simon aufgestellte Physical Symbol System Hypothesis. Die Überzeugung der Anhänger dieses Ansatzes lautet, dass es, um ein intelligentes System zu konstruieren, notwendig ist „to have its representations grounded in the physical world“ (Brooks 1990: 5). So lautet Brooksʼ „Physical Grounding Hypothesis“. Und um ein KI-System physisch in der Welt zu verankern, ist es notwendig, so lautet die zentrale Aussage der Embodied AI, es als robotisches System zu entwerfen. Genau das ist es auch, was KI-Forscher wie Rodney Brooks tun (vgl. ebd.: 7)

Weil die Welt „its own best model“, sie „always exactly up to date“ ist, muss das KI-System mit seinen Sensoren und Aktuatoren mit ihr verbunden werden. Die Embodied AI, die komplett auf „[t]yped input and output“ verzichtet, weil sie „not physically grounded“ sind, ist das komplette Gegenmodell zum Ansatz der symbolverarbeitenden KI (Brooks 1990: 5). Embodied AI, so wie Brooks sie versteht, denkt stark modular. Das heißt, der Fokus bei der Verbesserung des Systems richtet sich auf die einzelnen Module, die die Performance des robotischen Systems durch ihre Hinzufügung erhöhen können (vgl. ebd.: 4)

Brooks gründet seinen Ansatz auf der Überzeugung, dass der Blick auf ihre evolutionäre Entstehung und Entwicklung notwendig ist, um Intelligenz zu verstehen und in Maschinen reproduzierbar zu machen. Seiner Ansicht nach lassen sich alle komplexeren intelligenten Handlungen auf zwei Kernfähigkeiten zurückführen und aufbauen: Die Fähigkeit der Bewegung in einer sich verändernden Umgebung sowie die Wahrnehmung dieser „to a degree sufficient to achieve the necessary maintenance of life and reproduction“ (ebd.). Doch nicht nur hinsichtlich der Entwicklung von Intelligenz lassen sich KI-Forscher der Embodied AI von der Natur inspirieren: Unter Anwendung der Bionik suchen sie die Eigenschaften aller bekannten Tier- und Pflanzenarten nach integrierbaren Elementen für robotische Systeme ab (Pfeifer et al. 2007: 1088). Es sind nämlich neue Module, die ein System verbessern.

2. Schwache und Starke KI

Für die Begriffe ‚Schwache KI‘ und ‚Starke KI‘ und ihre Entsprechungen in der englischen Sprache, die von John Searle geprägt wurden, gibt es weitere, die allgemein im Gebrauch sind (vgl. Searle 1980: 417). Während die von Ray Kurzweil benutzte Formulierung „narrow AI“ nicht mehr aussagt als ‚Schwache KI‘ auch, erfasst sein alternativer Gegenbegriff „Artificial General Intelligence“ (AGI) bereits gut, um was es bei der Diskussion rund um die genannten Begriffe geht (Goertzel 2014: 1).

Das erklärte Ziel der KI-Forschung ist es, intelligente, künstliche Systeme zu bauen, doch über die Frage, wo die Grenzen des Leistbaren von Künstlicher Intelligenz liegen bzw. ob es solche Grenzen überhaupt gibt, werden bis heute Diskussionen geführt. Die zentrale Frage lautet: Können Maschinen denken? In einem weiter gefassten Rahmen geht es darum, ob Künstliche Intelligenz in der Weise prinzipiell möglich ist, dass ein auf Computertechnik basierendes System das „full mental repertoire of human persons“ besitzen kann (Bringsjord/Govindarajulu 2020). Verfechter der Schwachen KI zu sein, bedeutet dabei, der Überzeugung zu sein, dass KI diese mentalen Fähigkeiten des Menschen lediglich simulieren kann. Dagegen sind Befürworter der Hypothese der Starken KI der Ansicht, dass es Maschinen prinzipiell möglich ist zu denken (vgl. Russell/Norvig 2010: 1020).

Stimmen, die bezweifeln, dass KI-Systeme überhaupt intelligent handeln können, also, dass Schwache KI überhaupt möglich ist, gibt es zwar, doch wenn man wie Stuart Russell und Peter Norvig von der Prämisse ausgeht, dass intelligente Systeme zu rationalen Handlungen fähig sein müssen, dann muss diesen Stimmen kein Gewicht beigemessen werden (vgl. ebd.). Es sind nämlich KI-Systeme mit klar definiertem, eng umfasstem Aufgabenumfeld, die bereits seit Jahren automatisiert Leistungen vollbringen, die unter den Begriff ‚Schwache KI‘ gefasst werden können. Allein das klassische Beispiel des Navigationsgeräts, das automatisiert die schnellste Route von A nach B anzeigt, belegt hinreichend, dass KI-Systeme nicht bloß sinnlose Ergebnisse erzielen. Grundsätzliche Kritik äußerte auch Hubert Dreyfus u.a. in seinen Werken „What Computers Can’t Do“ von 1972 und „What Computers Still Can’t Do“ von 1992. Seine Aussage lautet, dass das menschliche Verhalten zu komplex ist, als dass Computer bzw. KI-Systeme, die lediglich logischen Regeln folgen können, solches generieren könnten. Allerdings zielt diese Kritik nicht auf KI insgesamt ab, sondern auf das KI-Modell der Symbolverarbeitung (vgl. ebd.: 1024).

Größer ist dagegen die Diskussion um die grundsätzliche Möglichkeit Starker KI. Alan Turing wich der Frage, ob Maschinen denken können, aus, indem er das Kriterium hochhielt, dass ein KI-System menschlich handeln können muss. Entsprechendes soll der nach Alan Turing benannte ‚Turing-Test‘ herausfinden: Der Test ist darauf angelegt, dass Menschen nicht unterscheiden können sollen, ob es sich bei dem Konversationspartner um einen Menschen oder eine Maschine handelt, wobei das Gespräch in schriftlicher Form geführt wird.

Zwar gab es Erfolge, etwa durch den Konzern Google, der mit ‚Duplex‘ ein KI-System präsentierte (s. hier), das per Telefon einen Termin beim Friseur machte und die (unwissende) Mitarbeiterin des Friseursalons nicht daran zweifeln ließ, dass sie das Gespräch gerade mit einem Menschen führte, doch da die Versuchsanordnung nicht der des ‚Turing-Tests‘ entsprach, kann nicht davon die Rede sein, dass Googles ‚Duplex‘ diesen Test bestanden hätte. Zudem ruft das enge und auf eine kurze Konversation ausgerichtete Themenfeld Zweifel darüber hervor, dass dieses KI-System tatsächlich den ‚Turing-Test‘ bestehen würde: Hätte die Konversationspartnerin das vorhergesehene enge Gesprächskonzept verlassen und die Konversation zeitlich und thematisch erweitert, liegt die Vermutung nahe, dass die Gesprächspartnerin gemerkt hätte, dass ein KI-System mit ihr sprach (vgl. Oppermann 2018). Letztlich bleibt es daher dabei, dass es bislang keinem KI-System zweifelsfrei gelungen ist, den ‚Turing-Test‘ zu bestehen (vgl. Oppy/Dowe 2021).

Besonders die Frage, ob es Maschinen möglich ist, ein Bewusstsein zu entwickeln, hat in den vergangenen Jahrzehnten zu Diskussionen geführt. Der bekannteste Beitrag in dieser Debatte ist John Searles „Minds, brains and programs“, in dem er mittels des Gedankenexperiments des „Chinesischen Zimmers“ zu belegen versuchte, dass KI-Systeme durch mathematische Berechnungen, mit denen sie zu Handlungsentscheidungen gelangen, nicht in der Lage sind, ein Bewusstsein zu entwickeln (vgl. Searle [1980] 2004). Searles Punkt ist, dass KI-Systeme, die Symbole manipulieren, dies bloß auf syntaktischer Ebene tun, ohne Zugriff auf die semantische Ebene dessen, was verarbeitet wird (vgl. ebd.: 422). Später präzisierte Searle in einem Interview, dass er mit seiner Ablehnung Starker KI gar nicht meinte, dass es prinzipiell unmöglich sei, KI-Systeme mit Bewusstsein zu erschaffen. Davon sei er im Gegenteil durchaus überzeugt, doch „[t]he question is whether computation as standardly defined is sufficient for having consciousness. It’s not” (Snell 2008).

Damit trifft Searle nicht nur die symbolverarbeitende KI, sondern auch die konnektionistischen Künstlichen Neuronalen Netze. Das Erkennen wiederkehrender Muster, mittels der KNN arbeiten, läuft demzufolge ebenfalls lediglich auf syntaktischer Ebene ab. Den KI-Systemen bleibt, da die Muster aus Daten, einer Abfolge aus Nullen und Einsen, gewonnen werden, das Semantische, das dahintersteckt, verborgen.

Darüber, ob Searle mit seinem Urteil recht hat, dass Computerprogramme, so wie sie heute angewendet werden, der Zugriff auf die semantische Ebene der Daten, die sie verarbeiten, verborgen bleibt, herrscht Uneinigkeit (vgl. Cole 2020). Und im Rahmen dieses Textes kann diese Frage auch nicht beantwortet werden. Die verschiedenen Begriffe von Künstlicher Intelligenz wurden hier voneinander abgegrenzt, um zu verdeutlichen, um welche Form von KI es in diesem Aufsatz geht: Bei den aktuell in der Praxis eingesetzten Formen von KI-Systemen handelt es sich in sämtlichen Fällen um Schwache KI. Zwar gibt es weitere Bemühungen, etwa durch Firmen wie Google und IBM, ein System Starker KI zu entwickeln, doch bislang ist noch kein KI-System bekannt, das Intelligenz auf annähernd dem Level von Menschen aufweist. Von einem KI-System mit Bewusstsein ganz zu schweigen. Dieser Text behandelt die Art von KI-Systemen, die aktuell breiten Einsatz erfahren und die dadurch großen Einfluss auf das Leben der Menschen haben: Es sind durch den Einsatz von KNN lernfähige KI-Systeme.

3. Digitale Algorithmen

In einer groben Definition ist ein Algorithmus „eine wohldefinierte Rechenvorschrift, die eine Größe oder eine Menge von Größen als Eingabe verwendet und eine Größe oder eine Menge von Größen als Ausgabe erzeugt“ (Cormen/Leiserson/Rivest/Stein 2009: 5). Als ursprünglich mathematisches Konstrukt, das durch schrittweises Vorgehen die Lösung von fest vorgegeben (nicht nur) mathematischen Problemen ermöglicht, lässt sich dieses Konstrukt auch in der Computertechnik einsetzen, um fest definierte Aufgaben mittels fest definierter Rechenschritte zu lösen (vgl. ebd.). Als klassisches Beispiel aus der Mathematik gilt der Algorithmus von Euklid, ebenso lässt sich eine Bauanleitung als Algorithmus betrachten (vgl. Misselhorn 2018: 19).

Wenn aktuell von Algorithmen die Rede ist, dann sind in der Regel jedoch die digitalen Algorithmen gemeint, die in Computersystemen eingesetzt werden, um sie bestimmte Aufgaben lösen zu lassen. Der Einsatz von Algorithmen greift dabei viel weiter um sich, als es den Anschein haben mag. Sie begegnen dem Menschen nämlich nicht nur in der direkten Interaktion mit dem Computer oder Smartphone. Algorithmen regeln den Alltag überall dort, wo Computertechnik zum Einsatz kommt, wie etwa bei der Ampelschaltung.

4. Die Funktionsweise von KI-Systemen

Im Folgenden geht es darum zu verstehen, wie KI-Systeme grundsätzlich funktionieren. Dieser Text folgt dabei dem Konzept von KI-Systemen, das Stuart Russell und Peter Norvig in „Artificial Intelligence. A Modern Approach“ erstellen. Um sich diesem zu nähern, wird der Blick zunächst auf das Konzept von KI-Systemen gerichtet. Auf die computertechnischen Details der Funktionsweise des gesamten KI-Systems und ihrer Bestandteile einzugehen, würde den Rahmen dieses Textes sprengen und ihm auch nichts Erhellendes hinzufügen. Das konzeptuelle Verständnis von Aufbau und Funktionsweise von KI-Systemen ist daher ausreichend.

Ein tieferer Blick gilt dennoch lernfähigen KI-Systemen, da sie die zentrale Fähigkeit von KI-Systemen der großen Internetkonzerne darstellen und den eigentlichen Grund dafür, dass das Thema ‚Künstliche Intelligenz‘ aktuell weit verbreitet ist. Um sich im zweiten Schritt lernenden KI-System zu nähern, werden Aufbau und Funktionsweise von Künstlichen Neuronalen Netzen erläutert. Beim KNN handelt es sich um die Konstruktion von Algorithmen, die im Zusammenhang des Maschinellen Lernens aktuell in der Regel benutzt wird, um einem KI-System Lernfähigkeit zu verleihen. Nachdem klar ist, wie KNN aufgebaut sind und sie funktionieren, ist es wichtig, zu verstehen, wie der Prozess des Maschinellen Lernens funktioniert. Dazu wird der Prozess des Trainierens eines KI-Systems bis zum Einsatz in der Praxis beleuchte

4.1 Das Konzept von KI-Systemen

Um zu bestimmen, was KI-Forschung genau ist, präsentieren Russell und Norvig vier unterschiedliche Ansätze und Ziele, die die Forschung verfolgt: Dem Ansatz, KI-Systeme wie Menschen handeln zu lassen, lässt sich ein bekannter Name zuordnen. Alan Turing konzipierte, wie bereits erwähnt, seinen Test, intelligente Systeme zu identifizieren, danach, ob es ihnen gelingt, Testpersonen davon zu überzeugen, dass sie Menschen sind. Fähigkeiten, die es nach Russell und Norvig braucht, um menschliches Verhalten zu erschaffen, umfassen: das Erzeugen menschlicher Sprache, Wissensrepräsentation, logisches Schließen und maschinelles Lernen (vgl. Russell/Norvig 2010: 2f.).

Der Ansatz, KI-Systeme wie Menschen denken zu lassen, möchte verstehen, wie Menschen denken, um mittels dieses Verständnisses von Denken die menschliche Form von Intelligenz in ein Programm zu übertragen. Ziel dieses Ansatzes ist es in Abgrenzung zum vorangegangenen Konzept, für Menschen nachverfolgbares Schließen in dem System zu etablieren (vgl. ebd.: 3).

Wenn der Ansatz lautet, rationales Denken in KI-Systemen zu erstellen, dann ist damit gemeint, dass „laws of thought“ im Sinne des Syllogismus integriert werden, die Muster für Argumentationsstrukturen und bei korrektem Input korrekten Output liefern (Russell/Norvig 2010: 4).

Der Ansatz des rationalen Handelns legt seinen Fokus demgegenüber nicht darauf, wie das KI-System zum richtigen Ergebnis kommt, sondern dass das richtige Ergebnis zustande kommt. Die Autoren betonen, dass es dieses letzte Konzept ist, dem sie folgen (vgl. ebd.: 4f.).

Im Zentrum des Konzepts von KI-Systemen steht der Agent, der von einer Umwelt umgeben ist, die er wahrnehmen kann. Das geschieht mittels Sensoren, die, je nach Agenten, unterschiedlicher Gestalt sein können. Robotische Systeme mögen in der Regel visuelle und akustische Sensoren haben, ein Agent in Softwareumgebung reagiert dagegen auf Eingaben durch Maus und Tastatur. Um in der Umwelt zu agieren, besitzen Agenten Aktuatoren, die bei Robotern etwa in motorisch angetriebenen Rollen zur Fortbewegung und mechanischen Armen zur Manipulation von Objekten in der Umwelt bestehen können. In Softwareumgebung bestehen Aktuatoren etwa in der Herausgabe von angeforderten Informationen. Das ist die einfachste und grundlegendste Konstellation: Ein Agent bekommt von Sensoren empfangenen Input und initiiert eine bestimmte Handlung, abhängig von der Wahrnehmungsfolge, also der gesamten Wahrnehmungsgeschichte (vgl. ebd.: 34ff.).

Das einfachste Modell eines Systems ist eines, das auf den aktuell wahrgenommenen Input reagiert. Smartphones besitzen die (durch den Nutzer veränderbare) Konfiguration, nach einem festgelegten Zeitraum der ausbleibenden Berührung des Bildschirms diesen auszuschalten. Sobald das Smartphone eine Berührung erfährt, schaltet es den Zeitzähler zurück und fängt wieder an, herunter zu zählen, wenn der Sensor keine Berührung mehr wahrnimmt. Das Smartphone besitzt also eine implementierte Wenn-Dann-Regel, die besagt, dass, sobald in aktivem Modus und mit angeschaltetem Bildschirm dessen Sensoren keinen Finger mehr wahrnehmen, der Aktuator aktiviert wird, der nach Ablauf eines Zeitraums den Bildschirm deaktiviert. Eine solche Wenn-Dann-Regel oder „condition-action-rule“ ist also ein weiterer wichtiger Bestandteil von KI-Systemen, die diesen die Möglichkeit gibt, in dem wahrgenommenen Input einen Schwellenwert zu erkennen, und erlaubt, durch den Aktuator eine festgelegte Aktion umzusetzen (Russell/Norvig 2010: 48 ff.).

Nicht jede Aufgabe lässt sich jedoch durch eine solche Ein-Aktion-Konstruktion lösen. Eine Navigations-App etwa muss zur Erfüllung der Aufgabe, die ‚beste‘ Route zu finden, aus einer Vielzahl theoretisch möglicher Routen z.B. die schnellste suchen. Durch die Funktionen des Suchens und Planens soll das System also eine Route finden, doch da es oftmals eine riesige Menge an möglichen umsetzbaren Aktionen gibt, und der Nutzer keine beliebige, zufällige Route sucht, sondern z.B. die schnellste, berechnet die Navigations-App die Route, die bei den gegebenen Eingaben diesem Kriterium am meisten entspricht. Das System vermag diese Leistung zu vollbringen, weil es den Zustand der Umwelt sowie sich selbst und seine Aktionen in ihr beobachtet und diese Daten zur modellhaften, internen Berechnung nutzt, um eine spezifische Folge von Aktionen identifizieren zu können, die das Erreichen der Ziele ermöglicht (vgl. ebd.: 50 ff.).

Ein weiteres Element, das ein Agent beinhalten kann, ist das Lernelement. Die Vorteile, die diese Fähigkeit mit sich bringt, sind gewichtig: Neue Aspekte der bekannten Umwelt können erkannt und in die Berechnung eingebunden werden, wodurch sich die Leistungsfähigkeit verbessert. Es wäre von Menschen nicht leistbar, solch viele neue Aspekte in ein KI-System zu programmieren. Die Bedeutung, die das Lernelement für die Weiterentwicklung und den Einsatz von KI-Systemen aktuell hat, kann daher nicht überschätzt werden.

Was KI-Systeme zu lernenden Systemen macht, ist, dass zu den Elementen, die oben beschrieben wurden und als Leistungselement zusammengefasst werden können, ein Lernelement tritt. Entlang der vier Elemente, die Russell und Norvig in ihrem Konzept eines lernenden KI-Systems identifizieren, lässt sich erklären, wie ein solcher Agent funktioniert. Die Daten der Umgebung und der Aktionen und Auswirkungen des Agenten auf erstere werden von einem Bewertungselement („critic“), dem ersten Element, nach gesetzten Standards beurteilt und geeignete Verbesserungen in der Ausführung bestimmt (Russel/Norvig 2010: 55). Dies wird als Rückmeldung an das Lernelement, dem zweiten Element, zur Kenntnisnahme weitergeleitet. Notwendig ist dieses Element, um aus den Daten der Umgebung und der Performance lesen zu können, wie erfolgreich das System bei der Erfüllung der Ziele ist. Das Lernelement ist auf Basis dieser Rückmeldung in der Lage, die Konstruktion des Leistungselements, des dritten Elements, so zu verändern, dass sie der Erfüllung der Ziele zukünftig besser entgegenkommt. Ein viertes Element ist notwendig, damit das System überhaupt neue Aktionen ausführt, denn von selbst würde das Leistungselement bei dem bekannten Fundus an Aktionen bleiben: Der Problemgenerator. Dieses Element vergleichen Russell und Norvig mit einem Wissenschaftler, der Experimente durchführt, denn es schlägt neuartige Aktionen vor, die kurzfristig nicht die optimalen sein mögen, langfristig aber vielleicht wertvolle neue Erkenntnisse über das Arbeitsumfeld generieren, die in einer Verbesserung der Performance münden (vgl. ebd.: 54ff.). Eine übersichtliche Zusammenfassung des Konzepts lernender KI-Systeme geben Russell und Norvig anhand des Beispiels eines selbstfahrenden Taxis:

„The performance element consists of whatever collection of knowledge and procedures the taxi has for selecting its driving actions. The taxi goes out on the road and drives, using this performance element. The critic observes the world and passes information along to the learning element. For example, after the taxi makes a quick left turn across three lanes of traffic, the critic observes the shocking language used by other drivers. From this experience, the learning element is able to formulate a rule saying this was a bad action, and the performance element is modified by installation of the new rule. The problem generator might identify certain areas of behavior in need of improvement and suggest experiments, such as trying out the brakes on different road surfaces under different conditions.“ (Russell/Norvig 2010: 56)

4.2 Künstliche Neuronale Netze

Um zu verstehen, wie Künstliche Neuronale Netze funktionieren, wird zunächst erläutert, wie ein solcher Algorithmus aufgebaut ist und was die Funktionen der einzelnen Bestandteile sind. Mit diesem Wissen ist es anschließend möglich, zu betrachten, wie mit einem KNN in der Praxis gearbeitet wird, um es einsatzfähig zu bekommen.

Der Name, der dieser Form von Algorithmen gegeben wurde, ist nicht zufällig gewählt worden. Der Aufbau ist in der Tat der Struktur neuronaler Netze entlehnt und eine grundsätzliche Funktionsweise, die für KNN wichtig ist, entstammt ebenfalls dem biologischen Vorbild: Der Input, der das Neuron erreicht, muss einen Schwellenwert erreichen, damit er weitergeleitet wird.

4.3 Struktur und Arbeitsweise Künstlicher Neuronaler Netze

Grundeinheiten des KNN sind die Knoten oder (künstlichen) Neuronen. Diese besitzen gerichtete Verbindungen zu anderen Knoten, mittels derer Input weitergeleitet werden kann. Verbindungen von einem Knoten zum anderen besitzen ein numerisches Gewicht. Diese Gewichte bestimmen, wie viel Einfluss ein einzelnes Neuron auf ein einzelnes anderes hat. Durch Gewichtung wird die Wichtigkeit bestimmt (vgl. Beckstein/Kirsch 2021: 93). Einem Neuron wird von mehreren bzw. in der Realität einer ganzen Vielzahl von Neuronen jeweils gewichteter Input gesendet, der von dem empfangenden Neuron zu einer Summe zusammengerechnet wird, um in einer Aktivierungsfunktion auszurechnen, ob der Wert einen bestimmten Schwellenwert überschreitet oder nicht. Im ersteren Fall wird Output an die nächsten Neuronen weitergeleitet, im letzteren nicht (vgl. Russell/Norvig 2010: 727ff.). Genau genommen werden in aktuellen KNN keine Schwellenwertfunktionen, sondern Sigmoid-Funktionen benutzt. Jene erlauben nur die Entscheidung zwischen 1 und 0, dagegen kann eine auf den Zahlenraum zwischen 0 und 1 begrenzte Sigmoid-Funktion jeden Wert zwischen diesen beiden Zahlen abbilden. So lassen sich präzisere Einstellungen im KNN vornehmen (vgl. Nielsen 2015: 8).

Die Struktur des KNN ist, wie der Name bereits verrät, die eines Netzes. Die Neuronen sind dabei in Schichten unterteilt, deren Neuronen jeweils mit allen Neuronen der vorherigen und der nächsten Schicht verbunden sind. KNN sind in der Regel gerichtet, was als „feed-forward network“ bezeichnet wird, daneben gibt es auch ein Modell für KNN, das zirkuläre Verläufe erlaubt (Russell/Norvig 2010: 729). Das KNN weist drei verschiedene Bereiche auf: Ein Input-Layer, der den Input aufnimmt und in numerische Werte übersetzt, einen Bereich von Hidden Layer, deren Anzahl variieren kann, und ein Output-Layer, der auf Basis der Berechnungen der vorangegangenen Hidden Layer ein Ergebnis herausgibt (vgl. ebd.). Was in einem KNN, speziell in den Hidden Layer, passiert, das sind mathematische Berechnungen. Input wird zuerst in Zahlenwerte übersetzt, der in mehreren Rechenschritten in einem der möglichen Outputs mündet. Genauer gesagt, zeigt das KNN den Wahrscheinlichkeitswert aller möglichen Outputs an, und das Ziel von Entwicklern ist es, das System dazu zu bekommen, aus dem Input, den es bekommt, präzise Vorhersagen zu treffen.

Wie ein KNN funktioniert, welche Rolle seine einzelnen Teile spielen, muss noch verdeutlicht werden. Ein bereits funktionsfähiges KNN identifiziert beispielsweise auf Bildern handgeschriebener Zahlen ebendiese: Die Eingabeschicht empfängt ein Foto, dessen einzelnen Informationen, Pixel, einzeln in Daten von Grau- und Farbwert übersetzt werden und in die Hidden Layer weitergeleitet werden. Die Gewichtungen der Verbindungen erfüllen den Zweck, dass ein KNN präziser auf die Aufgabe eingestellt werden kann. Wie oben bereits erwähnt, können einzelnen Informationen so eine generell größere oder niedrigere Wichtigkeit zugeordnet werden. In den Hidden Layer läuft die eigentliche Arbeit des KNN, in der die Mustererkennung umgesetzt wird, die KI gemeinhin als Fähigkeit zugeschrieben wird. Jedes Neuron in den Hidden Layer sucht bestimmte Muster in den Daten, die die einzelnen zu unterscheidenden Kategorien identifizierbar machen. Ist es also Aufgabe eines KNN, auf Fotos aus Handgeschriebenem die Zahlen von 0 bis 9 zu identifizieren, werden die einzelnen Neuronen in den Hidden Layer z.B. einen horizontalen Strich am oberen Rand, oder einen an der linken Seite offenen Halbkreis im unteren Bereich als einzelne Muster identifizieren, deren Vorkommen und Anordnung im Foto das System zu der Vorhersage bringen, dass es sich mit hoher Wahrscheinlichkeit um die Zahl 5 handelt (vgl. Nielsen 2015: 14).

Betont werden muss, dass nicht in allen Fällen eine so simple Struktur eines KNN ausreicht, um die Aufgaben zu erfüllen, für die sie aktuell eingesetzt werden. Gesetzt den (vergleichsweise) einfachen Fall, dass ein KI-System auf Fotos Hunde und Katzen identifizieren soll, wären zur Erkennung von Augen, Ohren, Haaren etc. wiederum eigens Subnetzwerke notwendig, die das Foto nach kleineren Mustern absucht, die z.B. für Augen charakteristisch sind (vgl. ebd.: 35f.). Welches Ausmaß ein KI-System haben muss, damit es auf Fotos Objekte als Flugzeuge, Häuser, Bäume, Blumen, Fische oder Insekten identifizieren kann, lässt sich an dieser Stelle nur erahnen. Solche KNN sind es, bei denen man von „deep neural networks“ und ‚Deep Learning‘ spricht – Systeme mit mindestens zwei Hidden Layer (Nielsen 2015: 37).

4.4 Der Weg vom Training zum einsatzbereiten KNN

Soll ein KNN in ein System integriert werden, ist es ein langer Prozess, bis dieses einsatzbereit ist. Um diesen zu verstehen, wird hier wieder das Beispiel der Identifizierung handgeschriebener Zahlen aufgegriffen. Dies ist ein Vorhaben, für das es mit der ‚MNIST‘-Datenbank bereits eine vorgefertigte Arbeitsgrundlage gibt, nämlich eine Sammlung von insgesamt 70.000 Bildern (hier). Vorgefertigt ist diese Grundlage, weil zu verarbeitende Daten für eine optimale Verarbeitung durch das System vorbereitet werden müssen. Und in den Bildern der ‚MNIST‘-Datenbank wurden die einzelnen Bilder handgeschriebener Zahlen u.a. auf 28×28 Pixel und als Binärbilder normalisiert (vgl. LeCun et al 1989: 398, 400).

Die erste Maßnahme gilt dem Aufbau des KNN. Dieser Schritt ist wichtig, da jedes KNN, je nach Aufgabenstellung, einen individuellen Aufbau aufweist. Die Konstruktion des Systems muss daraufhin ausgerichtet sein, alle Ergebnisse, die das System der Möglichkeit nach korrekt herausgeben soll, berechnen zu können. Aus diesem Grund wird das KNN im Beispiel zehn Ausgabeneuronen beinhalten. Das System wird bei den Bildern jedes Pixel einzeln überprüfen und den Grauwert in einen Zahlenwert übersetzen, weshalb 28 mal 28, also 784 Eingabeneuronen in den Output-Layer implementiert werden (vgl. ebd.: 401; vgl. Nielsen 2015: 16).

Die Komplexität der Aufgabe, die das System bewältigen können soll, bestimmt, wie viele Hidden Layer eingesetzt werden, wie auch die Zahl der Neuronen, die in jedem Hidden Layer enthalten sein sollen. Da die Zahl der Hidden Layer für die meisten, gängigen Anwendungen (vorwiegend eines, seltener auch zwei) festgelegt ist, ist die Bestimmung der Zahl der Neuronen eine umso entscheidendere: Die Zahl der Neuronen bestimmt die Rechenkapazität, die auf die Komplexität des Inputs abgestimmt werden muss. Die Zahl der Neuronen eines KNN kann, in Hinblick auf den zu verarbeitenden Input, zu gering sein, was dazu führt, dass das System nicht in der Lage ist, alle relevanten Muster zu erkennen und, im Falle der Bilder der ‚MNIST‘-Datenbank, alle Zahlen zu identifizieren. Besitzt das KNN zu viele Neuronen, kann es entweder sein, dass das System zu viel Zeit benötigt, um trainiert werden zu können oder die unterkomplexen Daten vermögen nicht alle Neuronen in allen Schichten zu trainieren und einzubinden (vgl. Panchal et al. 2011: 333).

Hat das KNN seine Struktur einmal bekommen, folgt die Trainingsphase. Formen des Trainings gibt es einige: Die am meisten angewandte Form ist das ‚Überwachte Lernen‘ oder ‚supervised learning‘ (vgl. LeCun et al. 2015: 436). Bei dieser Form des Lernens werden die Daten mit dem korrekten Output verknüpft. Nachdem das System mehrere Male mit dem gesamten Datensatz trainiert hat und nach einer bestimmten Zahl an Trainingsdurchgängen einen maximalen Wert der Genauigkeit erreicht hat, lassen sich die veränderbaren Parameter des KNN, die Gewichtungen anpassen, was aktuell mittels des Algorithmus ‚Backpropagation‘ getan wird (vgl. Nielsen 2015: 27).

Beim ‚unüberwachten Lernen‘ (‚unsupervised learning‘) wird auf das Labeling der Daten verzichtet. Dem System werden also nicht die gewünschten Ergebnisse übermittelt, anhand derer Verbesserungen vorgenommen werden könnten. Stattdessen lernt das System, in den Trainingsdaten Muster zu erkennen, ohne dass es Rückmeldung für seine Leistung bekommt (vgl. Russel/Norvig 2010: 694f.). Ein Einsatzgebiet des Unüberwachten Lernens ist das ‚Data Mining‘, eine Praxis, in der große Mengen an Daten nach interessanten Mustern durchsucht werden. Der Grund, warum das unüberwachte Lernen in diesem Fall die richtige Form des Lernens ist, ist, dass das System in den Daten Muster finden soll, die die Entwickler vorher nicht antizipiert haben (vgl. Bringsjord/Govindarajulu 2020).

Eine dritte Form des Lernens ist das ‚Verstärkungslernen‘ (‚reinforcement learning‘). Diese Form des Lernens findet ihren Einsatz während der Interaktion des Systems mit der Umwelt. Gelegentlich bekommt das KNN für seine Aktionen Rückmeldung in Form von Belohnungen und Bestrafungen, durch die das System hinzulernt. Ein KNN, das in einer Videospiel-Umgebung eingesetzt wird, bekommt Belohnungen, die auf ein bestimmtes Ziel hin ausgerichtet sind. So werden z.B. Aktionen belohnt, die dem System den Sieg in dem Spiel näherbringen oder solche, die die Spielfreude menschlicher Spieler maximiert (vgl. ebd.).

Im Folgenden wird der Prozess des Überwachten Lernens weiter betrachtet, das im obigen Beispiel der Erkennung handgeschriebener Zahlen zum Einsatz kommt. Für den Prozess des Trainings ist die große Menge an Daten vorgesehen, denn zu diesem Zweck wird der größte Teil verwendet, ein kleinerer Teil wird für spätere Testzwecke zunächst zurückgehalten. Wird das anzulernende System zum ersten Mal auf die Trainingsdaten angewendet, kommen nicht viele sinnvolle Ergebnisse heraus – vielmehr sind es zufällige Ergebnisse. Das KNN trainiert an dem großen Satz der Trainingsdaten mehrere Male und verbessert mit jedem Durchgang (‚Epoche‘) die Treffsicherheit seiner Ergebnisse (vgl. Nielsen 2015: 23).

Allerdings reicht es nicht aus, das System immer mehr Trainingsdurchgänge absolvieren zu lassen, denn an einem bestimmten Punkt kommt es an seine Grenzen. Vielmehr ist es sogar so, dass ab einer bestimmten Zahl an Epochen die Qualität der Vorhersagen wieder sinkt und sich unterhalb des zuvor erreichten Maximums weiterentwickelt. Das Problem des „overfitting“ besteht darin, dass sich das Erlernte nicht mehr auf alle Daten verallgemeinert (vgl. ebd.: 75; Hervorh. im Original). Das bedeutet, anders formuliert, dass das System ab einem bestimmten Grad des Anlernens zu genau auf die handgeschriebenen Zahlen schaut und weniger Varianzen zulässt. Um möglichst viele Formen handgeschriebener Zahlen erkennen zu können, hilft es nämlich nicht, ein scharf gezeichnetes Muster anzulegen.

Ist das Maximum der Treffsicherheit erreicht, ist es notwendig, das KNN zu verändern. Möglich ist, dass Entwickler während des Trainingsprozesses zu dem Entschluss kommen, dass zunächst die Struktur des Systems selbst noch einmal angepasst werden muss. In diesem Fall könnte z.B. die Zahl der Neuronen im Hidden Layer vergrößert werden für den Fall, dass das System sonst zu schwach wäre, um alle in den Daten enthaltenen Muster zu erkennen und zu verarbeiten. Ist dies nicht der Fall, sieht der Prozess des Überwachten Lernens vor, dass berechnet wird, wie weit das System vom gewünschten Optimum abweicht. Anhand des bekannten Optimums, dem sich das KNN annähern soll, werden die Parameter, also die Gewichtungen, verändert, die an den Fehlern beteiligt waren. ‚Backpropagation‘ ist der bereits erwähnte Algorithmus, der zum Einsatz kommt, um diesen Arbeitsschritt zu übernehmen. Dieser ist es letztlich, der den Entwickler zur Änderung von Gewichtungen veranlassen kann: Angefangen am Ausgabepunkt, verfolgt der Algorithmus die Fehler zurück bis zum ersten Hidden Layer (vgl. LeCun et al. 2015: 438).

Sind die Veränderungen vorgenommen, bedeutet das noch nicht, dass der Trainingsprozess abgeschlossen ist. Vielmehr wird durch eine erneute Serie von Trainingsdurchläufen überprüft, bis zu welchem Prozentsatz das System nun in der Lage ist, zum Input den korrekten Output herauszugeben. Der oben beschriebene Arbeitsablauf wird also so lange wiederholt, bis das KNN als ausreichend zuverlässig erachtet wird. Ist dieser Punkt erreicht, kommen die zurückgehaltenen Testdaten zum Einsatz, bei denen es sich um Bilder von geschriebenen Zahlen handelt, die sich von denen im Trainingssatz unterscheiden. An diesen neuen, ihm unbekannten Daten muss das KNN nun beweisen, wie gut es tatsächlich funktioniert (vgl. Nielsen 2015: 16, 74).

5. Die Algorithmen und KI-Systeme der Internetbranche

Nun, mit dem grundsätzlichen Verständnis von Algorithmen und KI-Systemen, geht der Blick auf den Teil gesellschaftlicher Institutionen, in denen jene breit eingesetzt werden: in der Internetbranche.

Die erste und wichtigste Funktion, die diese digitalen Technologien erfüllen, ist, die Funktionalität der Infrastruktur des Internets selbst zu gewährleisten. Damit die Infrastruktur, bestehend u.a. aus einem globalen Netz an Verbindungen aus Kabeln und Rechenzentren, funktioniert, müssen diese mittels Algorithmen und KI-Systeme so aufeinander eingestimmt werden, dass sie den Fluss und die Speicherung von Daten für eine funktionierende digitale Infrastruktur organisieren.

Neben dieser grundsätzlichen Rolle von Algorithmen und KI-Systemen werden diese von Internetkonzernen zu vielerlei Zwecken eingesetzt. Um zu verstehen, welche Funktion Algorithmen auf der einen und KI-Systeme auf der anderen Seite für die Dienstleistungsprodukte der Internetkonzerne spielen, sei hier ein kurzes Beispiel angeführt: ‚PageRank‘ ist der nach Larry Page, dem Gründer von Google, benannte Algorithmus, den dieser Konzern in seiner Suchmaschine einsetzt, um Nutzern, wenn sie etwas in die Suchleiste eingegeben haben, die Internetseiten anzeigen zu können, die sie am wahrscheinlichsten suchen (Page et al. 1999: 1f.). Dieser Algorithmus ist bzw. war nicht lernfähig, diese Fähigkeit wurde dem Suchalgorithmus der Suchmaschine 2015 hinzugefügt. Das KI-Element übernimmt in Googles Suchmaschine die Aufgabe, anhand der von den Nutzern eingegebenen Suchen Verbesserungen für den Suchalgorithmus auszuarbeiten und umzusetzen (vgl. Clark 2015). So ist es möglich, dass die Suchmaschine aus vergangenen Suchanfragen ihre Performance für zukünftige verbessert.

Aus diesem Beispiel wird ersichtlich, dass ein KI-System oder Algorithmus nicht den einen großen Bestandteil einer Internetdienstleistung darstellt. Einzelne funktionelle Bestandteile einer digitalen Dienstleistung werden durch einzelne KI-Systeme oder Algorithmen besorgt. In der Übersicht, für welche Leistungen Algorithmen und KI- Systeme von Internetkonzernen eingesetzt werden, war somit die Suchmaschine bereits der erste Punkt der Liste. Suchmaschinen wie Google, Yahoo, Bing, DuckDuckGo etc. geben den sonst unübersichtlichen ‚Weiten‘ des Internets hinsichtlich aufrufbarer Internetseiten einen erfahrbaren Radius. Die Leistung von Suchmaschinen, zu gesuchten Themen die Seiten anzuzeigen, die für viele andere Nutzer bislang von Bedeutung waren, ist eine, die für die Entwicklung des Internets eine wichtige Rolle spielte und spielt.

Im weiteren Sinne lässt sich hier auch der lernfähige Algorithmus von Facebook nennen, der bestimmt, was ein Nutzer beim Scrollen durch seinen Newsfeed angezeigt bekommt (vgl. Rixecker 2018). Dieser Algorithmus sortiert den Inhalt des Portals an die höchsten Plätze, der die meisten Interaktionen und die höchste Verweildauer des Nutzers verspricht. Die Rolle solcher Kriterien, die bei der Produktion den KI-Systemen ‚antrainiert‘ werden, muss an dieser Stelle betont werden: An ihnen entscheidet sich nämlich, was Nutzer zu sehen bekommen, wenn sie Internetseiten und Portale ansteuern, die die angezeigten Inhalte vom Nutzer abhängig machen.

Daran lehnt sich der zweite Zweck an, für den insbesondere KI-Systeme eine wichtige Rolle spielen: Die Erkennung gesprochener Sprache zum Zwecke der Sprachsteuerung hat sich in den vergangenen Jahren durch Produkte wie Siri und Cortana etabliert. Die Aufgabe des KI-Systems in diesem Fall ist analog zur oben angesprochenen Erkennung handgeschriebener Zahlen. Aufgabe des KI-Systems ist es, in dem digitalisierten Audio-Input sinnhafte Muster auszumachen und mit bestimmten Lautäußerungen zu identifizieren. Mit der Kombinierung einzelner Lautäußerungen zu Wörtern und Sätzen, die durch das intensive Training des Systems möglich ist, lässt sich die Ansteuerung und Auswahl einzelner Optionen eines Produkts mit integrierter Spracherkennung realisieren.

Eine weitere Funktion, für die Internetkonzerne KI-Systeme einsetzen, ist das Taggen von Bildern und Fotos sowie, daran anschließend, die Gesichtserkennung. Google etwa setzt ein System zur Erkennung von Objekten und Personen auf Fotos ein, um den Umfang der Ergebnisse seiner Bildersuche zu erweitern. Google greift auf allen Internetseiten, die es zur Listung in seiner Suchmaschine einbindet, also ebenso auf ihre Bilddateien zu und verwendet sie für seine Ergebnisanzeige. Facebook kann mithilfe der Profilfotos eines Nutzers die Fotos nach seinem Gesicht durchsuchen, um ihn darüber zu informieren und ihm die Entscheidung zu ermöglichen, ob er auf diesen Fotos markiert werden möchte (vgl. Vincent 2017). Dies ist ein weiteres Beispiel dafür, dass die eigentlichen, lernfähigen KI-Systeme in den Systemen von Internetportalen wie Google und Facebook im gesamten Konstrukt der Produkte in lediglich einzelnen Funktionen kleine Bausteine darstellen, doch sind es eben die entscheidenden, die durch die anhaltende Optimierung zum Erfolg der Konzerne jener Internetportale beitragen.

Die Individualisierung der Anzeige, zu der sich auch der Newsfeed-Algorithmus von Facebook zählen lässt, geschieht durch die Auswertung des Verhaltens der Nutzer auf der Internetseite, um diesem in Zukunft Inhalte anzeigen zu können, die ihn der Wahrscheinlichkeit nach am ehesten interessieren und zur Interaktion damit bewegen. Ein Beispiel ist der Streaminganbieter Netflix, der anhand der vom Nutzer konsumierten Inhalte mit diesem Wissen eine Auswahl des Angebots in der Art von ‚Das könnte Sie auch interessieren‘ anzeigen kann. Dazu katalogisiert Netflix sein Angebot nach Genres und, nachdem ein Nutzer einen Film oder eine (Folge einer) Serie konsumiert hat, aktualisiert das KI-System das Profil, das es über ihn angelegt hat.

Auf gleiche Weise funktioniert das Portal des Internetshops Amazon. Das Verhalten von Nutzern wird umfassend analysiert, um die Anzeige einer Auswahl des gesamten Angebots auf ihn zuzuschneiden. Bei der Anzeige eines Produkts etwa werden in einer Leiste Produkte angezeigt, die andere Kunden darüber hinaus auch gekauft haben. Und mit jedem Klick auf ein Produkt und jedem getätigten Kauf lernt das KI-System von Amazon mehr über die Interessen und das Kaufverhalten der Nutzer. Auch hier werden alle Nutzungsdaten in einem Profil zusammengeführt und individuelle Inhalte angezeigt. Diese Profilbildung dient auch dem gezielten Ausspielen von Werbeanzeigen. Dies geschieht entweder durch Konzerne wie Google und Facebook oder Drittfirmen, die von Betreibern von Internetseiten engagiert werden, um aus den anfallenden Nutzungsdaten Profile zu erstellen.

Zudem gibt es im Internet für Algorithmen eine soziale, kommunikative Aufgabe: als Chatbots. Diese übernehmen bei größeren Firmen die Aufgabe, zum Beispiel auf Facebook, Anfragen von Kunden automatisiert zu beantworten. Bei einer eingehenden Anfrage sucht das System hinter einem einfachen Chatbot, der mittels eines Algorithmus arbeitet, in dem Text des Kunden nach Schlüsselwörtern und Satzelementen, die zum Verständnis der Anfrage beitragen. Die Antworten des Chatbots werden allesamt von Menschen händisch eingegeben, die Performance des Chatbots hängt also komplett von den durch einen menschlichen Mitarbeiter eingetragenen Erkennungsmustern und Antworten ab und wird von diesen laufend optimiert. Möglich ist auch der Einsatz von lernenden KI-Systemen, der es den Chatbots so ermöglicht, auf Basis des Trainings und der Interaktion mit Kunden, zu lernen und so ein komplexeres Verhalten zu entwickeln (vgl. Luber/Litzel 2018).

Mit der Erstellung von Medieninhalten zeichnet sich bereits ein weiterer Verwendungszweck ab. Zum einen sind KI-Systeme wie ‚GPT-3‘ in der Lage, eigens Texte zu erstellen. Es handelt sich in dem konkreten Beispiel um ein KNN, das auf Grundlage von Texten aus dem Internet trainiert worden ist. Aus dem Input weniger Daten (Titel, Autorenname und dem ersten Wort des zu erstellenden Textes) errechnet ‚GPT-3‘ einen wahrscheinlichen Inhalt des Textes (Floridi/Chiaritti 2020). Das Ergebnis können Kurzgeschichten, Liedtexte, Pressemitteilungen oder technische Handbücher sein – oder auch Gitarrentabulatoren oder HTML-Code.

Jüngst werden auch immer mehr Bild- und Videogeneratoren wie ‚DALL E 2‘, ‚Stable Diffusion‘ oder ‚Imagen‘ veröffentlicht. Ihre Funktionsweisen sind analog zu denen der Textgeneratoren. Diese errechnen aus der Eingabe einer kurzen Beschreibung in Textform ein Bild oder Video, das dieser Eingabe mit (nach einem System eigenem Maßstab) hoher Wahrscheinlichkeit entspricht. Der Einsatz von Textgeneratoren ist bislang nur vereinzelt zu beobachten bzw. nur in engen Themensegmenten, so zum Beispiel bei der Börsen- oder Sportberichterstattung einzelner Medien. Bild- und Videogeneratoren sind bislang das Werkzeug interessierter Menschen, die die Leistungsfähigkeit der Algorithmen testen und ausreizen. Ob solche KI-Systeme im Internet oder den Medien allgemein von Bedeutung sein werden, darauf gibt zumindest das Unternehmen Shutterstock einen Hinweis (hier): Im Oktober 2022 kündigte es an, dass es in Zusammenarbeit mit dem Unternehmen OpenAI Stockfotos KI-unterstützt generieren möchte.

Literatur

Beckstein, Clemens/Kirsch, Alexandra: Suche, in: Görz, Günther/Schmid, Ute/Braun, Tanya (Hg.): Handbuch der Künstlichen Intelligenz, 6. Aufl. Berlin 2021, S. 57 ff.

Brooks, Rodney A. (1990): Elephants Don’t Play Chess, in: Robotics and Autonomous Systems 6, 1990, S. 3-15.

Bringsjord, Selmer/Govindarajulu, Naveen Sundar (2020): Artificial Intelligence, in: The Stanford Encyclopedia of Philosophy, https://plato.stanford.edu/archives/sum2020/entries/artificial-intelligence/ (letzter Abruf: 12.11.2022).

Clark, Jack (2015): Google Turning Its Lucrative Web Search Over to AI Machines, https://www.bloomberg.com/news/articles/2015-10-26/google-turning-its-lucrative-web-search-over-to-ai-machines (12.11.2022).

Cole, David (2020): The Chinese Room Argument, in: The Stanford Encyclopedia of Philosophy, https://plato.stanford.edu/archives/win2020/entries/chinese-room/ (letzer Abruf: 12.11.2022).

Cormen, Thomas/Leiserson, Charles/Rivest, Ronald/Stein, Clifford (2009): Algorithmen. Eine Einführung, 2. Aufl., München u.a.

Floridi, Luciano/Chiriatti, Massimo (2020): GPT-3: Its Nature, Scope, Limits, and consequences, in: Minds and Machines, Jg. 30, Band 4, S. 681-694, Berlin.

Garnelo, Marta/Shanahan, Murray (2019): Reconciling Deep Learning with Symbolic Artificial Intelligence: Representing Objects and Relations, in: Behavioral Sciences, 2019, 29. Jg., S. 17-23.

Garson, James (2019): Connectionism, in: The Stanford Encyclopedia of Philosophy, https://plato.stanford.edu/entries/connectionism/ (letzter Abruf: 12.11.2022).

Goertzel, Ben (2014): Artificial General Intelligence: Concept, State of the Art, and Future Prospects, in: Journal of Artificial General Intelligence 5(1), 2014, S. 1-46.

Harnad, Steven (1990): The Symbol Grounding Problem, in: Physica D, Jg. 42, S. 335-346.

LeCun, Yann et al. (1989): Handwritten Digit Recognition with a Back-Propagation Network, in: Advances in Neural Information Processing Systems, Jg. 2, S. 396-404.

LeCun, Yann/Bengio, Yoshua/Hinton, Geoffrey (2015): Deep learning, in: Nature, 521. Jg., Nr. 7553, S. 436-444.

Luber, Stefan/Litzel, Nico (2018): Was ist ein Chatbot?, in: BigData-Insider, https://www.bigdata-insider.de/was-%20ist-ein-chatbot-a-690591/ (letzter Abruf: 12.11.2022).

Misselhorn, Catrin (2018): Grundfragen der Maschinenethik, Stuttgart.

Newell, Allen/Simon, Herbert A. (1976): Computer science as empirical inquiry: Symbols and search, in: Communications of the ACM, Jg. 19, Band 3, S. 113–126.

Nielsen, Michael A. (2015): Neural networks and deep learning, San Francisco.

Nilsson, Nils J. (1998): Artificial Intelligence. A New Synthesis, San Francisco.

Oppy, Graham/Dowe, David: The Turing Test (2021), in: The Stanford Encyclopedia of Philosophy, https://plato.stanford.edu/entries/turing-test/ (letzter Abruf: 12.11.2022).

Page, Lawrence et al. (1999). The PageRank Citation Ranking: Bringing Order to the Web. http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf (letzter Abruf: 12.11.2022).

Panchal, Gaurang (2011): Bevaviour Analysis Of Multilayer Perceptrons With Multiple Hidden Neurons And Hidden Layers, in: International Journal of Computer Theory and Engineering, Jg. 3, Band 2, S. 332-337.

Pfeifer, Rolf/Max Lungarella/Iida, Fumiya (2007): Self-Organization, Embodiment, and Biologically Inspired Robotics, Science 318 (5853), S. 1088-1093, https://doi.org/10.1126/science.1145803.

Rescorla, Michael (2020): The Computational Theory of Mind, in: The Stanford Encyclopedia of Philosophy, https://plato.stanford.edu/archives/fall2020/entries/computational-mind/ (letzter Abruf: 12.11.2022).

Rixecker, Kim (2018): So entsteht unser Newsfeed: Der Facebook-Algorithmus im Detail, in: t3n, https://t3n.de/news/facebook-newsfeed-algorithmus-2-577027/ (letzter Abruf: 12.11.2022).

Russell, Stuart/Norvig, Peter (2010): Artificial Intelligence. A Modern Approach. 3. Aufl. Upper Saddle River.

Searle, John R. (2004): Minds, Brains, and Programs [1980], in: Shieber, Stuart M. (Hg.): The Turing Test: Verbal Behavior as the Hallmark of Intelligence. Cambridge (Mass.)/London, S. 201-224.

Snell, Marilyn Berlin (2008). Do You Have Free Will? John Searle Reflects on Various Philosophical Questions in Light of New Research on the Brain, in: California Alumni Magazine, March/April, https://alumni.berkeley.edu/california-magazine/march-april-2008-mind-matters/do-you-have-free-will/ (letzter Abruf: 12.11.2022)

Vincent, James (2017): Facebook’s Facial Recognition Now Looks For You in Photos You’re not Tagged in, in: The Verge, https://www.theverge.com/2017/12/19/16794660/facebook-facial-recognition-tagging-photos (letzter Abruf: 12.11.2022).

POP-ZEITSCHRIFT

Zur Funktionsweise von KI-Systemen und Algorithmen
von Aaron Sayko
22.11.2022

Schreibe einen Kommentar Antworten abbrechen