"Künstliche Intelligenz - ein Produkt der Überbewertung"
Die Fähigkeiten von Künstlicher Intelligenz (KI) werden in den Medien oft übertrieben dargestellt. Die neuesten Large Language Models (LLMs) gelten als die intelligentesten KI-Systeme aller Zeiten. Doch was sagen die Forscher? Eine Studie des Oxford Internet Institute zeigt, dass die Benchmarks, die diese Fähigkeiten bewerten, unwissenschaftlich sind und die Fähigkeiten von LLMs überbewerten.
Die Autoren der Studie betrachten insgesamt 445 führende KI-Benchmarks. Dabei stellen sie fest, dass viele dieser Tests nicht mal klar definieren, was sie eigentlich testen wollen. Die meisten Benchmarks nutzen Daten und Testmethoden aus älteren Bewertungen weiter, ohne diese kritisch zu überprüfen. Zudem werden nur etwa 16% aller getesteten Benchmarks die Vorschriften für den Vergleich zwischen unterschiedlichen Modellen erfüllen.
Ein klarer Fall ist der "Grade School Math 8K" (GSM8K)-Benchmark, der belegt soll, wie gut ein LLM fundamentale mathematische Denkfähigkeiten beherrscht. Doch die Autoren stellen fest, dass das nicht der Fall ist. Ein solches System kann nur richtig antworten, wenn es eine Frage versteht und nicht darüber nachdenken muss. Es gibt also nicht unbedingt die richtigen Schlussfolgerungen.
Ein Beispiel für dies ist die Frage "2 + 2 = ?". Ein Erstklässler könnte diese Frage richtig beantworten, aber daraus kann man nicht schließen, dass ein Fünftklässler mathematisches Denken oder arithmetisches Denken beherrscht. Die Autoren der Studie argumentieren daher, dass viele LLMs nur gewisse Muster erkennen und nicht das Problem wirklich verstehen.
Der Forscher Adam Mahdi vom Oxford Internet Institute sagt: "Wenn jemand behauptet, dass seine KI 'Intelligenz auf Doktoratsniveau erreicht', sollte man das mit sehr viel Vorsicht genießen." Ein Beispiel für dies ist Sam Altman, der Chef von OpenAI und derjenige, der behauptet hat, dass die aktuelle Modellgeneration GPT-5 "Intelligenz auf Doktoratsniveau" erreicht.
Die Autoren der Studie geben daher Ratschläge ab, wie bessere Benchmarks aussehen könnten. Dazu gehören das klare Definieren von dem Konzept, das überhaupt gemessen werden soll. Parallel dazu sollte sichergestellt werden, dass keine irrelevanten Faktoren unter Kontrolle sind, und die Qualität der Tests für die einzelnen Bereiche gesteigert werden.
Trotzdem ist es wichtig zu beachten, dass diese Erkenntnisse nicht neu sind. Selbst innerhalb der Branche gibt es immer wieder Kritik an der Qualität von aktuell verfügbaren Benchmarks und der Art, wie die Ergebnisse präsentiert werden. Das Problem dabei ist, dass die Forscherinnen und Forscher argumentieren gegen das, was ihre eigenen Manager und die Marketingabteilung erst recht wieder tun.
Die Studie des Oxford Internet Institute bietet einen umfassenden Einblick in das Problem der unwissenschaftlichen Bewertung von KI-Fähigkeiten. Doch die Frage bleibt: Wie können wir sicherstellen, dass die Fähigkeiten von LLMs wirklich bewertet werden und nicht nur übertrieben dargestellt?
Die Fähigkeiten von Künstlicher Intelligenz (KI) werden in den Medien oft übertrieben dargestellt. Die neuesten Large Language Models (LLMs) gelten als die intelligentesten KI-Systeme aller Zeiten. Doch was sagen die Forscher? Eine Studie des Oxford Internet Institute zeigt, dass die Benchmarks, die diese Fähigkeiten bewerten, unwissenschaftlich sind und die Fähigkeiten von LLMs überbewerten.
Die Autoren der Studie betrachten insgesamt 445 führende KI-Benchmarks. Dabei stellen sie fest, dass viele dieser Tests nicht mal klar definieren, was sie eigentlich testen wollen. Die meisten Benchmarks nutzen Daten und Testmethoden aus älteren Bewertungen weiter, ohne diese kritisch zu überprüfen. Zudem werden nur etwa 16% aller getesteten Benchmarks die Vorschriften für den Vergleich zwischen unterschiedlichen Modellen erfüllen.
Ein klarer Fall ist der "Grade School Math 8K" (GSM8K)-Benchmark, der belegt soll, wie gut ein LLM fundamentale mathematische Denkfähigkeiten beherrscht. Doch die Autoren stellen fest, dass das nicht der Fall ist. Ein solches System kann nur richtig antworten, wenn es eine Frage versteht und nicht darüber nachdenken muss. Es gibt also nicht unbedingt die richtigen Schlussfolgerungen.
Ein Beispiel für dies ist die Frage "2 + 2 = ?". Ein Erstklässler könnte diese Frage richtig beantworten, aber daraus kann man nicht schließen, dass ein Fünftklässler mathematisches Denken oder arithmetisches Denken beherrscht. Die Autoren der Studie argumentieren daher, dass viele LLMs nur gewisse Muster erkennen und nicht das Problem wirklich verstehen.
Der Forscher Adam Mahdi vom Oxford Internet Institute sagt: "Wenn jemand behauptet, dass seine KI 'Intelligenz auf Doktoratsniveau erreicht', sollte man das mit sehr viel Vorsicht genießen." Ein Beispiel für dies ist Sam Altman, der Chef von OpenAI und derjenige, der behauptet hat, dass die aktuelle Modellgeneration GPT-5 "Intelligenz auf Doktoratsniveau" erreicht.
Die Autoren der Studie geben daher Ratschläge ab, wie bessere Benchmarks aussehen könnten. Dazu gehören das klare Definieren von dem Konzept, das überhaupt gemessen werden soll. Parallel dazu sollte sichergestellt werden, dass keine irrelevanten Faktoren unter Kontrolle sind, und die Qualität der Tests für die einzelnen Bereiche gesteigert werden.
Trotzdem ist es wichtig zu beachten, dass diese Erkenntnisse nicht neu sind. Selbst innerhalb der Branche gibt es immer wieder Kritik an der Qualität von aktuell verfügbaren Benchmarks und der Art, wie die Ergebnisse präsentiert werden. Das Problem dabei ist, dass die Forscherinnen und Forscher argumentieren gegen das, was ihre eigenen Manager und die Marketingabteilung erst recht wieder tun.
Die Studie des Oxford Internet Institute bietet einen umfassenden Einblick in das Problem der unwissenschaftlichen Bewertung von KI-Fähigkeiten. Doch die Frage bleibt: Wie können wir sicherstellen, dass die Fähigkeiten von LLMs wirklich bewertet werden und nicht nur übertrieben dargestellt?