KI-Bullshit

Immer wieder werde ich mit diesem Thema konfrontiert. Zuletzt weil ein Update meiner bevorzugte IDE phpStorm plötzlich eine neue „1 Zeile KI“ eingeführt hat, die mir bei jedem Tastendruck irgendwas in meinem Quelltext angezeigt hat, von der sie meinte, dass ich das ja eigentlich tippen wollte. Stimmte aber gar nicht und hat nur genervt. Keine Ahnung, warum man so etwas als Opt-Out implementiert.

Ein paar Tage davor gab es bei uns in der Agentur wieder einmal eine Diskussion zu ChatGPT, weil wieder einmal darum gebettelt wurde, dass die Agentur doch bitte einen Team-Zugang zu ChatGPT bereitstellen sollte. Es scheint also so zu sein, dass man ChatGPT super findet, aber nicht so toll, als dass man dafür zahlen würde. Es gibt allerdings auch Kollegen, die für den Dienst privat zahlen. Und die „erfreuen“ uns immer mal wieder mit unheimlich langweiligen, generierten Texten.

Im Unterton kann man wahrscheinlich schon erkennen, dass ich kein Fan von ChatGPT bin. Ich würde sogar soweit gehen, dass ich das ganze Thema total überflüssig finde – deshalb auch der Titel dieses Beitrags.

Ganz grundsätzlich finde ich es schon mal blöd, dass der Begriff KI dadurch total entwertet wird. Diese Large-Language-Models und andere Technologien, die eher unter „Machine Learning“ einzuordnen sind, haben rein gar nichts mit Künstlicher Intelligenz zu tun. Da sie aber als KI bezeichnet werden, verwechseln die Nutzer auch die Ergebnisse von ChatGPT & Co. auch mit etwas, wo eine Absicht, also eine Art Bewusstsein dahinter steckt. Das ist natürlich Quatsch.

Ich habe LLM in verschiedenen Szenarien benutzt und bin dabei immer sehr schnell an die Grenzen der Technologie gestoßen. Der fehlende Determinismus und die systembedingten fehlenden Quellen sind für mich das größte Problem. Das geht ja schon bei einem einfachen Zusammenfassen von Texten los – eine Aufgabe, die gerne beispielhaft als sinnvolles Einsatzgebiet für LLM genannt wird. Der Vorteil sei, dass man Zeit sparen kann, wenn man sich Zusammenfassungen von E-Mails, Meetings, Berichten, etc. durchlesen kann, statt sich mit dem Original zu beschäftigen. Im Gegensatz zu einem fachkundigen Menschen, kann ich bei der maschinellen Lösung nicht davon ausgehen, dass der zusammengesetzte Text keine wichtigen Informationen weg gelassen hat. Ja, ein Mensch kann theoretisch auch Fehler machen, aber wenn jemand diesen Job grundsätzlich gut macht, ist die Fehlerquote zu vernachlässigen.

Die LLM haben kein Textverständnis und auch kein Verständnis von dem Thema, um das es geht. Entsprechend kann die Fehlerquote überhaupt nicht abgeschätzt werden. Wie immer beim Einsatz von LLM muss auch hier das Ergebnis von einem Menschen überprüft werden. Der Mensch muss also den originalen und den zusammengefassten Text lesen, um dann entscheiden zu können, ob die Zusammenfassung korrekt ist. Da geht schnell viel von der Zeitersparnis weg.

Im Internet wird die selbe Technologie ja auch gerne genutzt, um Texte zu generieren, weil man selbst entweder keine Ahnung vom Thema hat, oder keine Lust hat, die Texte selbst zu verfassen. Diese Zeitersparnis führt dann ebenso zu fehlerhaften Texten, die zusätzlich auch noch furchtbar langweilig zu lesen sind. Ich habe das selbst probiert, weil ich für die einzelnen LEGO-Themengebiete Texte auf noppenstein.io ausgeben wollte. Klassisches SEO. Die Texte beinhalteten aber jede Menge Behauptungen, ohne, dass diese irgendwie belegt wurden. Ich habe einiges an Zeit damit verbracht, die Informationen, die sich ChatGPT ausgedacht hat, irgendwo im Internet zu finden. Erfolglos.

Und es gibt ja genügend Beispiele dafür, wie LLMs komplett falsche, weil erdachte Texte erstellt. Wie oben schon angedeutet, handelt es sich eben um keine Künstliche Intelligenz. Es ist keine Frage-/Antwort-Maschine, da sie die Fragen nicht „versteht“ und eben nur plausible Texte ausgibt. Ja, das ergibt verblüffende Ergebnisse, die oftmals sogar zur Frage passen. Aber eben nicht zuverlässig. Und genau das ist das große Problem.

Mir wurde vorgehalten, dass meine Abneigung gegenüber ChatGPT damit zu vergleichen wäre, Taschenrechner, oder in der Programmierung IDEs zu benutzen. Bzw. dürfte ich diese Dinge nicht benutzen, weil es ja auch nur Werkzeuge sind und ChatGPT ebenso nur ein Werkzeug ist. Hier kommen wir dann aber zum Determinismus. Der Taschenrechner liefert nachvollziehbare Ergebnisse und wenn ich in phpStorm auf ein Symbol klicke, um z.B. zur Deklaration einer Klasse zu springen, so passiert das genauso zuverlässig und vorhersehbar. Die IDE springt nicht einmal dahin und ein anderes mal dorthin. Genau das macht aber z.B. ChatGPT. Die Ergebnisse werden zufällig aus einer Reihe von möglichen ausgewählt. Das ist absichtlich so und gehört dazu, wie diese Modelle funktionieren. Alleine deshalb sollte man sich schon Gedanken machen, wie gut so ein Ergebnis sein kann, wenn es doch gar kein Kriterium für „Bestes“ gibt. Denn sonst würde doch sicherlich das beste Ergebnis ausgegeben, oder?

Man hört außerdem immer mal wieder das Argument, dass ChatGPT einem ermöglicht, komplexe Ergebnisse durch reine Spracheingabe zu erreichen. In dem Zusammenhang wird einem dann auch schon einmal vorgeworfen, dass man sich einfach nur schwer damit täte, seine Anfragen mit natürlicher Sprache zu formulieren und man deshalb gegen ChatGPT sei.

Traurig finde ich, dass dies selbst von Softwareentwicklern als Argument angebracht wird. Gerade diese Personengruppe sollte doch eigentlich wissen, dass dies das Hauptproblem in unserer Industrie ist: die Kundenanforderungen exakt in Code umzusetzen ist etwas, was bei der Softwareentwicklung die meiste Zeit in Anspruch nimmt. Auch andere Wissensgebiete haben eine spezialisierte Sprache (wie die Programmiersprachen in der Softwareentwicklung), wie etwa Noten in der Musik, die Mathematik, Physik und Chemie natürlich, aber selbst Abfragesprachen wie SQL existieren aus dem Grund, ganz präzise Werkzeuge zur Verfügung zu stellen, um einen Sachverhalt darzustellen, bzw. Ergebnisse zu ermitteln.

Das Einführen der natürlichen Sprache in diese Domänen erschließt diese zwar auch für unqualifizierte Personen, die Ergebnisse können aber aufgrund der Wahl des Werkzeugs ChatGPT nicht an die von Experten heranreichen. Und das Erlernen einer Sprache (mathematische Symbole, Programmiersprachen) führt noch lange nicht dazu, dass man damit auch das Wissen erlernt hat, mit diesen umzugehen.

Bei einer Diskussion dazu mit einem Kollegen machte dieser die interessante Beobachtung, dass es vielleicht einfach diese fehlende Qualitätsansprüche sind, die die ChatGPT-Fans dazu verführt, die Ergebnisse ihres Werkzeugs als viel zu gut einzuschätzen. Früher war eh alles besser, aber ich erinnere mich sehr lebhaft an eine Zeit im Internet, in dem Links noch wichtig waren und wo man keine Aussage tätigen konnte, ohne einen Link als Quellenangabe mit anzugeben. Das war ein sehr wissenschaftlicher Ansatz, den aber auch „Normalos“ nachvollziehen konnten. Irgendwann wurde das mit dem Verlinken schwieriger, weil Instagram, YouTube, Twitch und Tik-Tok durch ihre audiovisuelle Art ein Zitieren sehr schwierig machen, oder aber Bezahlschranken und Facebook es den Benutzern sehr schwer machen, Quellangaben überhaupt überprüfen zu können.

In der Folge wird heute gefakenewst, dass sich die Balken biegen und nur eine Minderheit scheint sich daran zu stoßen. In diesem Umfeld ist es dann vielleicht sogar zu erklären, dass ein Text, Bild oder Video aus ChatGPT genauso „gut“ ist, wie der ganze andere Müll, der im Internet schwimmt. Eine automatische Übersetzung ist ja trotz ihrer vielen Fehler immer noch besser, als etwas nicht zu verstehen. Trotzdem würde ich keine so übersetzten Verträge unterschreiben. Und genauso mag ich keine generierten Texte lesen, oder keinen generierten Code einsetzen. Ich habe da einfach einen anderen Qualitätsanspruch.

Jedes Mal, wenn ich an ein Softwareprojekt heran gehe, möchte ich es besser machen, als beim vorherigen Mal und ich kann zu so gut wie jeder Zeile in meinem Code sagen, warum diese genau so aussieht und nicht anders. Und was ich plane daran zu ändern, wenn sich zwei, drei Dinge in dem Projekt in eine andere Richtung entwickeln.

Als ich in meinem Studium in einem Lektorat gearbeitet habe und später dann ein Redakteur meine Texte mit Bemerkungen versehen hat, wurden Sätze und ganze Paragraphen mehrfach umgeschrieben um verständlicher zu sein, aber auch im Gesamtkontext des Textes einen besseren Fluss zu haben. Und in den Bachelorarbeiten, die ich bislang betreuen durfte, war es mir ebenso wichtig im Auge zu behalten, wo im Text dem Leser etwas evtl. nicht mit an die Hand gegeben wurde, obwohl das an dieser Stelle für das Verständnis wichtig gewesen wäre.

ChatGPT kann zwar gute Texte hervorbringen, aber eben nicht so gute, wie welche, bei der sich jemand wirklich Mühe gegeben hat. Und warum sollte ich meine Zeit damit verschwenden, einen Text zu lesen, den jemand selbst gar nicht schreiben wollte und es deshalb einer Maschine überlassen hat?

Ein Gedanke zu „KI-Bullshit

  1. Pingback: KI-Unfug. | ats20.de

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert