World Models: Wenn KI anfängt, die Welt zu verstehen (mit Elisabeth L'Orange)

Shownotes

World Models – plötzlich reden alle darüber. Aber was steckt wirklich dahinter? In dieser Folge erkunden Sascha Lobo und Co-Host Elisabeth den nächsten großen Sprung der Künstlichen Intelligenz: Systeme, die nicht mehr nur Sprache verarbeiten, sondern eine digitale Mini-Version der Welt in sich tragen. Das eröffnet neue Möglichkeiten – von Robotern, die ihre Umgebung wirklich verstehen, über bessere medizinische Simulationen bis hin zu neuen Formen der Forschung.

Die beiden sprechen darüber, warum Forschende World Models als möglichen nächsten Schritt nach den großen Sprachmodellen sehen, woher der aktuelle Hype kommt und welche Rolle Tech-Unternehmen und Start-ups dabei spielen. Gleichzeitig geht es um Risiken: Manipulation, militärische Anwendungen, Energieverbrauch – und die Frage, wer die Kontrolle über solche Systeme hat.

Trotz aller Herausforderungen: World Models könnten die Art verändern, wie wir arbeiten, lernen und Politik machen. Ein tiefes, aber verständlich erklärtes Gespräch über die Zukunft der KI – und was passiert, wenn Maschinen anfangen, unsere Welt wirklich zu modellieren.

Schwarz Digits Digitale Souveränität ist die Basis für Unabhängigkeit, Wachstum und Wohlstand. Dafür wollen wir Bewusstsein schaffen.

Whitepaper Digitale Souveränität

Cyber Security Report 2025

Schwarz Digits auf LinkedIn

Digitale Souveränität für Europa

STACKIT

Transkript anzeigen

00:00:02: Tech, KI und Schmetterlinge, ein Podcast von Sascha Lobo in Zusammenarbeit mit Schwarz-Digits.

00:00:07: Guten Tag und herzlich willkommen zu einer neuen Ausgabe von Tech, KI und Schmetterlinge, dem Podcast von mir, Sascha Lobo in Zusammenarbeit mit Schwarz-Digits, dem Digitalarm der Schwarzgruppe.

00:00:20: Das Thema heute aus dem Feld der künstlichen Intelligenz ist eins, das ich als Hype beschreiben würde.

00:00:27: So ein richtiger, schöner, echter Hype, weil es einem so vorkommt, als würden plötzlich alle davon reden.

00:00:33: Und zwar Worldmodels.

00:00:36: Mit mir hier im Podcast ist Elisabeth Lorange als Co-Host von TechKI und Schmetterlinge.

00:00:41: Und gleich die erste Frage, Elisabeth, du bist auch mit deinen Augenohren und den Fingerspitzen-Taktil dran an dieser KI-Szene.

00:00:49: Wann ist dir denn aufgefallen, dass plötzlich vergleichsweise häufig von Worldmodels gesprochen wird?

00:00:56: Das erste Mal fiel mir das auf, als ich über Jürgen Schmidhuber las.

00:01:01: Jürgen Schmidhuber ist einer der führenden Wissenschaftler in der künstlichen Intelligenz und er ist vor einigen Jahren an die KAUST-Universität in der Saudi-Arabien gegangen.

00:01:12: Die KAUST-Universität ist die King Abdullah University of Science & Technology und Schmidhuber hat großen paper sozusagen über world models geschrieben und hat damit den begriff so ein bisschen geprägt.

00:01:26: Also er hat das übrigens zusammengeschrieben mit David Haar, das Paper-Serberhees-Worldmodels.

00:01:30: Jürgen Schmidhuber hat nämlich eine ganz interessante Haltung zur KI grundsätzlich, aber eben auch zur Wissenschaft.

00:01:36: Zum Beispiel hat er auf die Frage nach den Menschenrechtsverletzungen in Saudi-Arabien gesagt, dass Wissenschaft keine Grenzen kenne.

00:01:43: Was so ganz interessant ist, daher habe ich mich damit beschäftigt und er sprach halt von Worldmodels.

00:01:48: Das waren für mich also die ersten Berührungspunkte damit, so zwei, acht, zehn, zwei, neunzehn.

00:01:53: Und tatsächlich ist dieser Begriff mir auch häufiger schon aufgefallen, aber in den letzten würde ich sagen zwei, drei Monaten intensiver.

00:02:01: Vielleicht sollte man dieser Stelle überhaupt erst mal sagen, was World Models sind.

00:02:05: Denn es stimmt, das ist schon vor sechs, sieben Jahren definiert worden, aber den richtigen Schwung hat das aus meiner Sicht jetzt erst im Sommer bekommen.

00:02:15: Und zwar ein wenig im Gleichklang mit diesem großen Hallo rund um Robotik, also künstliche Intelligenz und Robotik.

00:02:23: Und daher weht der Wind auch ein wenig.

00:02:26: Man kann sich jetzt vorstellen, wenn KI eben nicht nur reden kann, sondern eigentlich auch denken und vorhersagen und planen.

00:02:34: Und zwar mit Kausalitäten.

00:02:36: Wenn das passiert, dann passiert das.

00:02:39: Also in der dinglichen, in der physischen Welt.

00:02:41: Dann kann man anfangen, von einem World Model zu sprechen.

00:02:45: weil nämlich das voraussetzt, dass die KI eine Art inneres, mehrdimensionales Modell der Welt hat.

00:02:53: Große Sprachmodelle verarbeiten mit, wie der Name schon sagt, Sprache und versuchen einfach die sinnhaftesten Worte zu erforschen und auszugeben.

00:03:03: Aber Worldmodels sollen eine Art Miniversion der Realität darstellen.

00:03:09: Und dann kann eine künstliche Intelligenz in dieser kleinen Version der Welt testen und durchgehen, was passiert, wenn ich das tue.

00:03:19: Es können Abläufe simuliert werden, Physik kann abgeschätzt werden, man kann Strategien ausprobieren, weil man natürlich innerhalb einer solchen Welt nicht nur Dinge, sondern zum Beispiel auch Personen simulieren könnte oder Mächte simulieren könnte.

00:03:31: Und dass diese Form von Wirklichkeitssimulation ist die Basis von Worldmodels.

00:03:38: Und nun ist für twenty-fünfundzwanzig, das geht ja jetzt gerade zu Ende, aber spätestens zweitausendsechsundzwanzig, am Horizont eine Art Durchbruch erkennbar.

00:03:47: Es kommen neue Modelle von OpenAI, DeepMinds, also Google steht dahinter, Genie oder auch einige neue Roboteragenten von jungen aufstrebenden Firmen, die ihre Roboter in die Welt schicken wollen mit Worldmodels.

00:04:00: Die arbeiten daran und die sorgen dafür, dass dieser Begriff nicht nur häufiger genannt wird.

00:04:05: Sondern, dass plötzlich ein neues Verständnis entsteht, so wie bei ChatGBT die Sprache.

00:04:11: Erobert worden ist von der Maschine, kann durch Worldmodels die Welt erobert werden durch Maschinen.

00:04:18: Welt erobern hört sich jetzt vielleicht ein bisschen steil an, aber eigentlich geht es darum, dass Roboter oder das künstliche Intelligenzen oder irgendwelche Apparate, die gesteuert werden, sich in der Welt zurechtfinden.

00:04:30: Bewegungsdaten aller Art werden plötzlich handhabbar.

00:04:33: Humanoide Roboter können einen enormen Qualitätssprung erreichen.

00:04:38: Einfach, weil plötzlich eine Welt digitalisierbar ist mit allen möglichen Daten.

00:04:43: Das ist ganz interessant, auf welcher Basis zum Beispiel dieser gigantische Fortschritt von humaniden Robotern und deren Bewegung stattgefunden hat.

00:04:51: Das war nämlich eine Koppelung aus Worldmodels, also solchen dreidimensionalen oder sogar vierdimensionalen Weltmodellen und Motion Capturing-Anzügen.

00:04:59: Das ist deswegen ganz spannend.

00:05:01: Weil wir alle die humanoiden Roboter von vor drei, vier Jahren gesehen haben, wie die da so lang tappsen über die Bühne und manchmal einfach umfallen.

00:05:07: und das war es dann.

00:05:08: Und inzwischen mit Worldmodels kann man Motion Capturing Anzüge benutzen, also Menschen, die solche Sensorenanzüge anziehen.

00:05:15: Die tun dann da durch die Gegend und lassen mit diesen Sensoren auf den Anzügen ihre Bewegungsdaten komplett auslesen.

00:05:21: Das wiederum kommt in ein Worldmodel und dadurch kann ein Roboter Bewegungen besser simulieren.

00:05:27: Das ist also der kurze Parforce-Ritt durch die Worldmodels, die versprechen könnten.

00:05:34: Wahnsinnig viele technologische Prozesse vom autonomen Agenten über Roboter bis zur Medizin, Forschung und natürlich so was wie autonomes Fahren dramatisch zu verändern.

00:05:45: Was ist denn dein erster Gedanke, wenn du von Worldmodels und diesen neuen Hype hörst?

00:05:52: Also der erste Gedanke ist, dass LLMs ein semantischer Ozean der Wahrscheinlichkeit sind.

00:05:57: Und dieser Riesen-Ozean an Worten und wenn du so willst Tokens und Wahrscheinlichkeiten ist natürlich hochgradig ineffizient.

00:06:07: Das heißt, auch selbst mit dem Paper von Google Deep Mind Attention is All You Need, das waren ja die Anfänge der Transformer-Architektur, also diese ganzen Modelle so ein bisschen effizienter zu gestalten.

00:06:19: Das heißt, dass man die Wahrscheinlichkeit der Wörter untereinander gewichtet.

00:06:23: Das heißt, dass Baum höchstwahrscheinlich neben Apfel steht und nicht neben Schuh.

00:06:27: Das heißt, die semantische Gewichtung zu organisieren, das hat dem Ganzen ja extrem viel Auftrieb gegeben.

00:06:35: Darüber hinaus aber sind sie trotzdem hochgradig ineffizient.

00:06:39: Das sieht man alleine daran, wie lange ein Sprachmodell beziehungsweise auch ein Bildmodell braucht, um etwas zu lernen.

00:06:46: Wenn wir sehen, wie lange auch dieses Training ist, der Modell, es dauert Wochen.

00:06:50: Also es dauert drei, vier Wochen auf maximale Auslastung der Chips, um so ein Modell zu trainieren.

00:06:56: Und wenn man dann im Vergleich sieht, wie lange ein zweieriges Kind braucht, um zu verstehen, was eine Katze ist, dann finden diese neuronalen Verbindungen im Gehirn halt in Lichtgeschwindigkeit statt.

00:07:08: Das Kind begreift diese Katze als Tier, weil es es hört, sieht, anfässt, vielleicht riecht.

00:07:15: Dadurch findet das Lernen viel schneller statt.

00:07:18: Ein Modell musst du hunderte Bilder einer Katze füttern, damit es versteht, was es eine Katze ist.

00:07:23: Und es gibt ja tausend Beispiele, gerade in diesen Bildgebungsmodellen, dass die lange lange nicht zwischen einem Shihuahua und einem Muffin unterscheiden konnten, weil die eben sehr ähnlich aus sind.

00:07:32: Und deswegen brauchen wir am Ende eine andere Architektur, eine andere Mathematik und eben auch eine andere Struktur in der künstlichen Intelligenz, um unsere wirkliche Welt, unsere dreidimensionale Welt, effizienter abbilden zu können.

00:07:47: Und der große Verfechter dieser Worldmodels, oder wer das natürlich immer wieder diskutiert, ist Jan LeCun von Meta, der Head of AI.

00:07:57: Der hat ja gerade announced, dass er Meter verlassen würde, um selber eine Firma zu gründen und Worldmodels zu bauen.

00:08:05: Das heißt, ich glaube tatsächlich, dass das die nächste Evolution-Stufe in der künstlichen Intelligenz wird.

00:08:10: Man muss jetzt dazu sagen, dass sehen nicht ganz alle so, also natürlich wissen alle, dass Worldmodels früher oder später essentiell sind, zum Beispiel für Robotik, aber... Es gab wohl größere Differenzen zwischen Mark Zuckerberg und Jan Lecker für diese Relevanz der Worldmodels.

00:08:27: Genau deswegen geht er jetzt von Meter weg und gründet sein eigenes Worldmodel Start-up.

00:08:32: Aber diese Differenzen hatten schon auch damit zu tun, dass man sich immer wieder zwischendurch wundern könnte, dass Jan immerhin Turing-Preisträger, der zwar auch ein paar Mal Colossal daneben gelegen mit seinen Voraussagen, aber wem passiert sowas nicht, nur der hat schon häufiger Sachen gesagt, wo man dachte, hoch, ob das jetzt Meter so richtig reinpasst.

00:08:51: Er hat zum Beispiel LLMs, große Sprachmodelle regelmäßig abgesprochen, dass sie die nächsten Entwicklungsschritte überhaupt hinbekommen.

00:08:59: Er war jetzt nicht ein erbitterter Gegner, aber er hat schon gesagt, die stoßen an Grenzen.

00:09:04: Wir sind an Grenzen gestoßen, die werden wir nicht überspringen können.

00:09:07: Das hat man mittelernst zu nehmen, aber nicht weil Forscher in diesem Bereich häufig auch einfach auf den Schlamm hauen, aber umso interessanter, dass er jetzt seine eigene Zukunft in die Hände von dem Volagin von World Models legt.

00:09:24: Ich sehe eine ganze Reihe von Punkten, wie dieser Hype zustande gekommen sein könnte.

00:09:29: Das erste ist wahrscheinlich, dass wir im Juli eine ganze Reihe von Forschungsergebnissen bekommen haben, zum Beispiel Forschende von Harvard und MIT.

00:09:40: die vorschlagen mit einem Papier World Model Induction, dass eigentlich echte AGI nur mit einem World Model funktionieren kann, weil es in Durchinteraktion lernen können muss.

00:09:54: Denn AGI, so ist das definiert, allgemeine künstliche Intelligenz, die soll auf neue Herausforderungen genauso reagieren können wie ein Mensch.

00:10:04: Das ist also nicht nur ein ganz eingeengtes spezifisches Problem irgendwie hinbekommt.

00:10:09: Er schreibt einen Quartalsplan dafür oder dafür und du hast vorher so und so viele Daten, die genau das beinaheitet haben, sondern das ist der große nächste oder vielleicht auch erst übernächste Sprung, an dem man hier arbeitet, eben jetzt mit dem Hype World Models.

00:10:23: Das eine KI.

00:10:25: Probleme lösen kann, für die sie eigentlich nicht im aller entferntesten irgendwas vorher gelernt hat.

00:10:31: Allein durch logische Deduktion oder Induktion von verschiedenen Herangehensweisen.

00:10:37: Was ist hier los?

00:10:39: Wie kann ich darauf reagieren?

00:10:40: Wie kommt etwas Sinnvolles raus?

00:10:42: Das ist so die Baselande.

00:10:44: Ich glaube, das ist einer der Gründe, warum dieser Hype gerade da ist.

00:10:47: Auch ein bisschen, weil LLMs leichte Sackgassen Geschmack mitgebracht haben jetzt über den Sommer.

00:10:52: Ja, weil die Fortschritte natürlich... Inkrementell zwar besser wurden, aber eben nicht mehr in diesen großen Quantenspringen vorkamen, die wir gewohnt waren.

00:11:02: Wir waren ja eine Kadenz an Fortschritt gewohnt, die mit einer Schlagkraft kam, die keiner vorher gesehen hat.

00:11:08: Und plötzlich sind die Modelle dann so ein paar Mühe besser als die vorherigen und haben aber ein paar Milliarden mehr im Training gekostet.

00:11:16: Also, dass sich die Leute oder dass sich die Wissenschaftler umschauen, nach neuen Technologien war, zu erwarten.

00:11:22: Und dass irgendetwas passieren muss, um eben diese.

00:11:25: Das Problem momentan ist das Begreifen der Dreidimensionalität der Welt.

00:11:29: Und das Gleiche sehen wir auch bei den ganzen Bildmodellen.

00:11:33: Da sind ja faktisch ganz viele kleine Iterationen hintereinander.

00:11:38: Und in jeder Iteration wird wieder ein Pixel vorhergesagt.

00:11:42: Das heißt und vorhergesagt auch wieder über die Wahrscheinlichkeit.

00:11:46: Also wie wahrscheinlich ist, dass der nächste Pixel dann meinetwegen an der Stelle rosa ist.

00:11:51: Also sehr simplifiziert finden so diese Vorhersagen statt und das gleiche gilt natürlich nicht nur für statische Bilder, sondern eben auch für Videos und die stoßen ja ebenfalls.

00:12:02: irgendwann auch an ihre Grenzen, weil eben Pixel vorher sagen, letztlich nicht ausreichen.

00:12:07: Und das Gleiche gilt für die LLMs eben auch.

00:12:10: Also irgendwann wird es an die Grenzen stoßen, weil sie eben etwas, was nicht bekannt ist, was nicht jetzt unbedingt gerade aus dem Internet ausgelesen wurde oder den Trainingsdaten war, dass sie es nicht begreifen.

00:12:20: Das ist ja auch die nächste Frage, ist ob man alles wissen oder Trainings, ob man alle Trainingsdaten und wissen notwendigerweise verschriftlichen kann.

00:12:29: Ja, das heißt, man muss halt eigentlich der künstlichen Intelligenz eine Fähigkeit geben oder sie befähigen, Sachen zu lernen, die nicht unbedingt im Internet stehen oder in Büchern stehen oder eben in Niedergeschrieben sind, sondern eben in der realen Welt existieren.

00:12:44: Ja, das finde ich immer wieder wahnsinnig spannend, dass man denkt, das Internet ist voller Daten und da sind eigentlich alle Daten drin oder am Ende schnurrt es aber zusammen auf Film und Schrift und natürlich Sound.

00:12:57: Cool.

00:12:57: Dankeschön.

00:12:59: Aber eine Vielzahl von verschiedenen Daten, auch Datenqualitäten und Datenkategorien sind im Internet nicht oder gar nicht so einfach zu finden.

00:13:07: Ja, die schon angesprochenen Bewegungsdaten, da gibt es inzwischen so Hilfsmittel.

00:13:11: Eine der Fortschritte, was Worldmodels angeht, ist zum Beispiel, dass es Startups gibt.

00:13:16: In China ist das schon eine ganze Weile, ein ziemlich hippes Ding, dass man aus einem Foto gewissermaßen eine spielbare Welt herstellen kann.

00:13:25: Das, was ein Mensch relativ leicht machen kann.

00:13:27: Dass die Leute vielleicht gar nicht so wissen, was das für eine Superpower ist.

00:13:31: Du siehst ein Foto und kannst sagen, ah ja, das ist ein Marktplatz, da hinten steht ein Baum und da könnte ich einmal so drum rumlaufen.

00:13:35: Ich komme dann bis zu dem Auto, aber nicht ganz bis zu diesem anderen Stuhl.

00:13:38: Und dass du sofort durch ein einziges Foto ein sehr gutes Gefühl dafür hast, wie sieht denn die Welt an der Stelle, die fotografiert worden ist, aus?

00:13:46: Natürlich kann man sich da täuschen, aber wir haben als Menschen ein sehr gutes Gefühl dafür.

00:13:50: Das war bei Computern, bei KI bisher eher nicht so.

00:13:54: Das ist einer der Punkte, wo diese Start-ups anfangen, Worldmodels auf die nächste Ebene zu hiefen.

00:14:01: Du machst einen ganz kurzen Videoclip, ein kurzes Foto, nicht einen großen Ausschnitt und trotzdem erkennt die KI, was ist das für eine Szenerie und wandelt das dann zum Beispiel in ein spielbare, virtuelle Welt um.

00:14:15: von den Start-ups.

00:14:16: Da gibt es ganz viele Ansätze, was man wie machen kann.

00:14:18: Oder man macht eine Reihe von Fotos und dann kann dann ein Roboter durchnavigieren, solche Mechanik.

00:14:24: Was zwar aber klar ist, wir reden hier davon, dass wir aus dieser Schriftebene rauskommen, dass wir Schrift und dieses klassische Verbale versuchen, nicht hinter uns zu lassen, aber nur noch als ein Aspekt zu sehen und dass wir uns so ein mentales Modell, so heißt es beim Menschen, ein mentales Modell der Welt zusammenbauen.

00:14:44: Das mentale Modell beim Menschen ist das, wie man die Welt wahrnimmt und einsortiert in seinem Gehirn.

00:14:51: Das ist zwischen Wahrnehmung und Organisation des eigenen Lebens irgendwo.

00:14:57: Vor allen Dingen, vielleicht hat es auch so ein bisschen einen egalisierenden Effekt, weil momentan ist es ja so, dass die Hälfte des Internets in amerikanischem Englisch ist.

00:15:05: Ich glaube, wir haben das in all vor einigen Podcast schon mal diskutiert.

00:15:10: Das Grundwissen im Internet hat ja die amerikanische Haltung, die amerikanische Gesinnung und so weiter.

00:15:18: Und in der realen Welt sind aber nur fünfzehn oder sind es nur ein Drittel oder ein Viertel am Ende, eben amerikanisch.

00:15:26: Das heißt, das Internet ist natürlich in dem Kontext wahnsinnig bei ist.

00:15:31: Das heißt, dass die gesamten anderen Sprachen, Kulturen und so weiter gar nicht abgebildet werden, wenn wir darüber nur, wenn wir oder wenn die Kreatoren der einzelnen LLMs oder Modelle nur definieren können, was da drin ist quasi.

00:15:45: Das heißt, wenn wir Worldmodels haben, die möglicherweise auch selbst lernen sind, dann können die noch viel mehr Informationen gewinnen und bekommen, ohne dass sie unbedingt korrertiert werden.

00:15:56: Ich weiß jetzt nicht, ob das unbedingt besser ist oder schlechter ist, aber es ist auf jeden Fall ein anderer Ansatz.

00:16:01: Das heißt, dass dann wahrscheinlich werden wir nicht nur die Hälfte mit amerikanischem Content sehen in den Modellen, sondern die werden dann wahrscheinlich oder hoffentlich die gesamte Welt abwellen und eben auch die gesamte Diversität in der Welt herrscht und eben nicht dieses komplett monocentrierte Weltbild.

00:16:18: Ja, ich sehe auch, dass ganz viele von den Eindrücken, die man als Mensch für wahnsinnig wichtig hält, eben dann am Ende nicht verschriftlicht und manchmal halt noch nicht mal verbietlich sein können, sondern eher so erlebbar sind.

00:16:30: Es

00:16:30: gibt eine Begrifflichkeit genau dafür, natürlich, es gibt für alles eine Begrifflichkeit, in einem sehr einflussreichen Essay.

00:16:37: Ich glaube, der hat sehr stark dazu beigetragen, dieser kleine Essay vom zehnten November, dass der Hype auf die Spitze getrieben worden ist, rund um Worldmodels.

00:16:50: Den Aufsatz geschrieben hat Phi Phi Li, das ist eine der wichtigsten KI-Forscherinnen weltweit und der heißt, wie ich, ein sehr, sehr schöner Titel, from words to worlds.

00:17:02: Spatial intelligence is

00:17:04: A.I.'s

00:17:04: next frontier.

00:17:06: Wir sagen von Worten zu Welten, auf englisch ein fantastisches Wortspiel, habe ich so auch noch gar nicht gesehen.

00:17:12: Ich glaube aber, es gab es schon ein paar Mal.

00:17:14: Räumliche Intelligenz ist die große nächste Grenze der künstlichen Intelligenz.

00:17:19: Und das, was sie dort sagt, ist, dass unsere Vorstellung von Räumlicher Intelligenz viel zu klein gedacht ist, weil wir denken, es geht halt hier nur um drei mal vier Meter und dann gehe ich drei Schritte nach vorne oder nicht.

00:17:32: Aber sie sagt, dass diese Form von räumlicher Intelligenz dramatisch verändern wird, wie wir mit der dinglichen und der virtuellen Welt interagieren.

00:17:42: Und dass sich genau deswegen vom Storytelling über Kreativität insgesamt, Robotik, aber auch sowas wie wissenschaftliche Erkenntnisse und noch weit darüber hinaus Wirtschaft sowieso verändern wird.

00:17:54: Das ist deswegen aus meiner Sicht so interessant, weil wir Jetzt eine ganze, nee, nicht nur eine, zwei, zweieinhalb Dekaden hatten, wo eigentlich der Raum eine geringe Rolle gespielt hat.

00:18:08: Wir hatten eigentlich immer nur das Interface.

00:18:10: Das Interface war alles.

00:18:12: Wir haben dann irgendwie so mit Gestensteuerungen und irgendwelchen leicht tumpen Brillen immer noch und mit dem Smartphone kann man auch mal durch die Welt laufen.

00:18:19: Ich habe lange Pokémon GO gespielt.

00:18:21: Da gibt es auch so eine Art Augmented Reality-Gefühl, aber es ist halt immer noch irgendwie Interface und plötzlich... wird die Welt zur Oberfläche.

00:18:30: So kann man das vielleicht versuchen zusammenzufassen.

00:18:34: Also ich bin hoffnungsvoll, dass das in dem Kontext, dass das Weltverständnis auch innerhalb der Modelle uns weiterbringt.

00:18:40: Ich glaube tatsächlich, dass die Zukunft so aussehen wird, dass die... LLMs, so ein nettes kleines Spielzeug sein werden, um E-Mails zu schreiben, um Texte zu generieren und um das Leben so ein bisschen effizienter zu machen.

00:18:53: Aber ich denke zum Beispiel auch, dass die ganzen Agenten, die wir gerade dabei sind zu bauen oder die wir versuchen zu bauen, dass die... irgendwann mit auf World-Models laufen werden und eben nicht mehr auf LLMs.

00:19:05: Weil das nächste Problem an den LLMs sind natürlich die Halluzinationen, die wir in den World-Models in gewisser Weise wahrscheinlich auch sehen werden.

00:19:13: Aber am Ende brauchen wir eine Architektur oder eine KI, die wesentlich stabiler ist.

00:19:18: Also wenn man sich die aktuellen Zahlen zu den Halluzinationen angesieht, dann sind zum Teil Halluzinierende bis zu zu forty-fünfzig Prozent in ihren Ausgaben.

00:19:28: Das heißt, Auch im Unkehrschluss, dass in Unternehmen die Agenten wirklich einbauen, die komplexere Aufgaben erledigen sollen, dass man immer eine Art Aufseher braucht, also eine menschlichen Aufsatzaufseher, der aufpasst, dass das Output der Agenten korrekt ist.

00:19:44: Und ich glaube, das ist alles eigentlich nicht Sinnersache.

00:19:46: Also Sinnersache ist in der gewisse, dass man der KI eine gewisse Autonomie gibt und dass die von alleine funktionieren.

00:19:52: Und nicht, dass wir die, um Dinge zu automatisieren, einfach aneinanderschalten und ausbeste hoffen sozusagen.

00:20:00: Also, das heißt, ich bin hoffnungsvoll, dass das das Problem lösen wird bzw.

00:20:06: dass wir dann damit Richtung AGI kommen.

00:20:08: Auch, ehrlich gesagt, wirtschaftlich.

00:20:09: Ich meine, die gesamte, die Milliarden und Milliarden, die jetzt in den letzten drei Jahren investiert wurden, also in den USA sollen es in den letzten drei Jahren sein, die müssen sich ja irgendwann in irgendeiner Form amortisieren, weil wir alle super viel Exposure haben.

00:20:24: Also an alle Tech-Unternehmen.

00:20:26: Das heißt, ich denke, oder ich hoffe auch, dass die LLMs als Basis für die Worldmodels in der Breite dienen können.

00:20:33: Irgendwie müssen sich diese Investments ja gelohnt haben.

00:20:37: Ja, die werden sich schon deshalb gelohnt haben, weil Worldmodels so wie es im Moment aussieht.

00:20:44: noch mehr Rechenkapazitäten brauchen als large language models.

00:20:48: Allein aufgrund der Komplexität und auch allein aufgrund davon, dass ein worldmodel halt auch Abwerk multimodal ist.

00:20:55: Multimodal bedeutet, dass man auf ganz viele verschiedene Weisen Daten eingeben kann, Bildertöne, Sprache und eben Bewegungsdaten, alle möglichen anderen Daten auch noch dazu.

00:21:05: Das heißt, diese neuen Berechnungs Höhepunkt, diese Intensität von Bedarf an Berechnungen, der wird in den nächsten Jahren mit Worldmodels wahrscheinlich noch zunehmen.

00:21:16: Was ich sehr spannend fand, war, dass ich gesehen habe, dass Worldmodel bis jetzt in keiner Sprache einen eigenen Wikipedia-Eintrag hat.

00:21:25: Und ja, das fand ich mindestens interessant.

00:21:27: Auch auf Englisch ist das nur ein Unterpunkt von Foundation Models.

00:21:33: Allerdings, und das ist dann auch schon wieder interessant, dass Die Worldmodels, wenn man da drauf klickt, steht da sehr auch Digital Twin.

00:21:43: Genau.

00:21:43: Das finde ich deswegen interessant, weil Digital Twin und Worldmodels eigentlich überhaupt nicht das Gleiche ist.

00:21:49: Im Gegenteil, Digital Twin und World Models haben sphärisch miteinander zu tun, sind aber strukturell schon sehr deutlich unterschiedlich.

00:21:55: Also, man könnte ein Digital Twin als so Autovervollständigen betrachten, irgendwie so eine Software, die halt das nächste Wort auf dem Smartphone einem vorschlägt.

00:22:04: Und das, was beim World Model denn die Alternative dazu, wir werden halt so ein großes Sprachmodell.

00:22:09: Das ist nicht nur einfach ein Autovervollständigen, das ist wahnsinnig viel mehr, auch wenn es vielleicht ein bisschen so aussieht und ähnlich funktioniert.

00:22:15: Insofern ist Digital Twins etwas, was wir vielleicht auch noch kurz erklären können, das sind digitale Abbilder von Objekten, von zum Beispiel Gebäuden, auch von Arbeitsprozessen, von Maschinen, von Strukturen, von ganzen Unternehmen, wo man mit sehr vielen Daten versucht eine Simulation hinzubekommen, sodass man rausfinden kann, was passiert eigentlich, wenn.

00:22:39: Und dieses was passiert, wenn diese Simulation ist einer der wahnsinnig großen Vorteile der digitalen Welt.

00:22:45: Das ist auch etwas, was von Anfang an bei LLMs aus meiner Sicht ein bisschen unterbesprochen worden ist, dass man eben so viel ausprobieren kann.

00:22:56: Ich probiere jetzt mal aus, was passieren würde, wenn.

00:22:59: Das ist halt im sprachlichen, ganz normaler Rangehensweise.

00:23:02: Ich habe gelesen, dass die meisten Aufgaben, die so professionell bearbeitet werden, bei ChatGPT, dreißig bis vierzigmal neu bearbeitet werden.

00:23:13: Das bedeutet, dreißig bis vierzigmal probierst du aus, ich mache erst einen neuen Prom, dann mache ich das.

00:23:19: Das ist halt eine Arbeitsweise, die sich eingeschlichen hat, die viele Leute gar nicht so realisiert haben.

00:23:23: Aber im Prinzip sind das Minisimulationen.

00:23:26: Und diese Minisimulation, die kann ich jetzt eben auch in der Dinglichen, in der Physischen, in der Robotik interaktiven Welt machen.

00:23:34: Und da sind Digital Twins halt wirklich so eine absolute Vorstufe von.

00:23:38: Ja, aber es gibt Digital Twins auch in anderen Bereichen.

00:23:41: Also, ich finde, das ist tatsächlich die Zukunft der Inferenz.

00:23:45: Also, wenn man sich fragt, wer diese ganzen Datencenter eigentlich quasi mit KI vollkriegen soll, dann wird das die Antwort sein, weil die... Digital Twins vor allen Dingen für Menschen sehr interessant sind.

00:23:56: Wenn du einen kompletten Digital Twin von dir selber bauen würdest, dann könntest du alles, was du zum Beispiel an Medikamenten, an anderen Experimenten ausprobieren möchtest, kannst du erst an deinem Digital Twin ausprobieren.

00:24:09: Alle anderen Dinge auch.

00:24:10: Ich meine irgendwann würde es so weit sein, dass wir unsere Digital Twins zu Meetings schicken und so weiter, je nachdem wie ausgeprägte sind.

00:24:17: Aber ich denke, Also auch zum Beispiel im Versicherungsbereich sind Digital Twins ein riesen Anwendungsfeld und auch Use Case, weil wenn du Digital Twins von ganzen Städten zum Beispiel bauen könntest, dann könntest du mit Wetter vorher sagen, könntest du Schäden an Gebäuden zum Beispiel sehr sehr sehr präzise vorher sagen.

00:24:37: Das heißt und dann eben darauf auch reagieren und vorher reagieren und so weiter.

00:24:41: Also ich glaube, Digital Twins sind einer der größten Anwendungsfälle und ich glaube, dass die halt quasi eine Art Vorstufe sind.

00:24:49: zu den World Models, weil wenn du das, wenn man Digital Turns richtig machen möchte, dann braucht man eben auch nicht nur diese, also braucht man nicht nur LLMs dazu, sondern eben die gesamten Daten der Sensorik, der zum Beispiel für die für die Städte Digital Turns, der der autonomenfahrenden Autos, die ganzen Liederdaten.

00:25:08: Man braucht, wenn man Menschen kopieren möchte, dann braucht man die ganzen medizinischen Daten, dann braucht man die ganzen dreidimensionalen Daten.

00:25:15: Also das heißt, Es hängt dann so ein bisschen von den Daten ab, aber die Art und Weise sozusagen, wie man die Modelle dann füttert, das geht schon weit über ein klassisches LLM hinaus, ne?

00:25:25: Ja, die Worldmodels, die stellen so ein bisschen den Übergang da von der Statistik zur Simulation.

00:25:33: und genau dieses simulierende Element, was du gesagt hast, auch mit zum Beispiel Körperdaten, das ist bei den Worldmodels deswegen so aufwendig, weil das eigentlich ja keine natürliche Grenze kennt.

00:25:45: Du kannst eigentlich immer mehr, immer mehr Daten versuchen zu bekommen, um die Welt zu modellieren.

00:25:53: Und genau diese Weltmodellierung gibt es Leute, die sagen, wann immer wir davon ausgehenden, funktionierenden Agenten zu haben, dann hat er zumindest ein implizites Worldmodel.

00:26:05: Das bedeutet, irgendwann muss die KI auf irgendeine Modellierung der Welt zurückgreifen, sonst kann sie gar nicht funktionieren.

00:26:17: Selbstbestimmtheit ist wohl eines der großen Themen unserer Zeit.

00:26:21: Selbstbestimmtleben und sein Leben frei zu gestalten sind ein Antrieb eines jeden Individuums.

00:26:26: Da ist es selbstverständlich, dass Gesellschaften, Gemeinschaften und Unternehmen diesen Antrieb ebenfalls spüren.

00:26:32: Kercher, der Hersteller von Reinigungsgeräten und Systemen, gestaltet, getrieben durch den Wunsch nach Unabhängigkeit, seine digitale Architektur selbst.

00:26:42: Das ist eine Herausforderung und eine große Chance gleichermaßen.

00:26:46: Erste IOT-Produkte brachte Kercher bereits aus dem Markt.

00:26:51: Heute ist IOT ein integraler Bestandteil und das internationale Unternehmen mit Sitz in Winnenden hat seine Strategie nach dem Cloud First-Prinzip ausgerichtet.

00:27:00: Kercher nutzt auch KI-intensiv.

00:27:03: Als Vorreiter mit hohem Anspruch haben sie Google Gemini weltweit ausgerollt und in nur neun Monaten dreizehntausend Arbeitsplätze ausgestattet.

00:27:12: Den Risiken ist sich Hartmut Jenner, Vorsitzender des Vorstands von Kärcher, bewusst.

00:27:17: Mit jedem zusätzlichen digitalen Tool entstehen neue Schwachstellen, die es angreifern ermöglichen, Einfallstore zu finden.

00:27:24: Und genau deshalb ist Cyber-Sicherheit ein Thema, das uns alle sehr beschäftigt und auch in Zukunft beschäftigen wird.

00:27:31: So ist Cyber Security bei Kärcher nicht nur Chefsache, sondern Teil der Unternehmenskultur.

00:27:36: Als stärker in die Sicherheit der Systeme investiert werden sollte, gab es intern noch nicht einmal eine Diskussion über den Invest.

00:27:43: Alle waren sich einig.

00:27:45: Genauso wie bei der Vorgehensweise.

00:27:47: Kercher wollte von einer reaktiven Lösung zu einer präventiven, die im Voraus potenzielle Einfallstore für Hacker und Schadsoftware aufdeckt.

00:27:55: Die Entscheidung fiel auf Ex-Im-Cyber.

00:27:58: Jana betont, Schwarz-Sidjitz ist für uns mit der speziellen Kompetenz von Ex-Im-Cyber

00:28:03: ein strategischer

00:28:04: Partner auf Augenhöhe.

00:28:06: Die Werte in der Partnerschaft spielen für uns eine große Rolle.

00:28:10: Tatsächlich war Kerche einer der allerersten Kunden von XM Cyber unter Schwarz-Digits.

00:28:15: Wenn ihr mehr darüber erfahren möchtet, wie Kerche XM Cyber einsetzt und wie die Zusammenarbeit läuft, schaut gern auf der Website von XM Cyber vorbei.

00:28:26: Wie zu Bestätigung, dass es tatsächlich ein Hype-Thema ist, hat natürlich of all people Sam Altman am sechzehnten November, zwei tausendfünfundzwanzig gepostet und zwar ein sehr nach seiner Aussage sehr aufregendes neues Ding Cosmos und zwar das Cosmos World Model.

00:28:44: Das Cosmos World Model muss man sich vorstellen, als eine Art KI-Wissenschaftler, NAI Scientist for Autonomous Discovery.

00:28:53: Und die haben aus dem Hause Edison, so nennt sich dieses Start-up, die haben gerade veröffentlicht ein World Model eben mit diesem Namen Cosmos, was das Ziel hat, einen KI-Wissenschaftler, eine KI-Wissenschaftlerin zu werden, die selbst tätig erforscht, was sind denn die Grenzen des Wissens und wie kann... ich sie ergänzen und erweitern.

00:29:15: Dass man dafür ein Worldmodel braucht, mag vielleicht den ein oder die andere überraschen.

00:29:19: Aber tatsächlich ist es so, dass wenn man einfach nur Paper ausliest, wenn man einfach eine riesige Zahl von wissenschaftlichen Daten ausliest, dass man dann in ganz vielen Zusammenhängen eben nicht genau versteht, aber wo sind denn die Grenzen davon?

00:29:32: Was wenn der der logische nächste Step?

00:29:34: Weil dazu bräuchte ich eine bestimmte Form von Verständnis von Kausalität.

00:29:39: Und Kausalität hat früher oder später ziemlich häufig eine veranker- in der physischen Welt oder zumindest in Prozessen, die der physischen Welt nahe kommen.

00:29:47: Genau deswegen hat Edison dieses Start-up, das Cosmos World Model, gebaut, um Wissenschaft voranzutreiben, das ist das große Ziel auf dem Weg zu AGI, dass irgendwann künstliche Intelligenz Dinge rausfinden kann, die Menschen bisher nicht rausfinden konnten.

00:30:02: Die Gefahr von den Modellen wie das Cosmos Models ist die Ähnlichkeit, die es dann zum menschlichen Verhaltenungen gibt.

00:30:10: Und wir sehen ja momentan auch, dass zum Beispiel KI extrem gut ist, andere Menschen von gewissen Umständen zu überzeugen.

00:30:18: Aber momentan erkennen die meisten Menschen immerhin noch, wenn sich KI einschaltet.

00:30:24: So ist es tatsächlich noch, was sich sicherlich über kurz oder lang auch ändern wird.

00:30:29: Aber die Manipulation und die persuasive AI, die wird dann immer stärker.

00:30:34: Und das heißt natürlich, dass gerade in der Politik, in der Werbung und in der Wirtschaft entstehen da super große Risiken.

00:30:42: irgendwann wirklich nicht mehr unterscheiden kann, was die Worldmodels quasi sind oder was Modelle sind und Ke sind und was Menschen sind.

00:30:52: Und dann entstehen natürlich noch viel stärker oder größere ethische Fragen und deswegen ist sich die Wissenschaft auch so uneinig, ob das wirklich eine gute Idee quasi für die Zukunft ist.

00:31:03: Und das viel größere Risiko ist natürlich in den militärischen Anwendungen, weil Auch gerade dieses Wettrüsten rund um die KI und jetzt auch zukünftig rund um die Weltmodels ist natürlich ein Wettrüsten um die militärische Vorherrschaft.

00:31:15: Es ist eine sicherheitspolitische Frage.

00:31:18: Und die Anwendung, diese militärischen Anwendung, die werden dann natürlich viel holistischer.

00:31:25: Momentan sind wir dabei irgendwie sehr strategisch zu sein.

00:31:28: Wir haben vorher spuckende Hunde, die an der Front entlang laufen.

00:31:32: Wir haben Drohnen, die mit großer Präzision Menschen jagen an der Front.

00:31:36: Aber wenn Worldmodels irgendwann die militärischen Strategien sich ausdenken, dann sind die in allen Dimensionen unterwegs.

00:31:43: Und ich glaube, dass diese, sobald die Modelle wirklich anfangen können, alle Informationen zu korrelieren.

00:31:50: Und das wird dann die große Gefahr.

00:31:52: Wenn die genau verstehen, wie der geografische Kontext ist, in Kombination mit, wie die Wetterlage ist, in Kombination mit... Wer da noch an der Front sitzt, in Kombination mit welchen Waffen zur Verfügung stehen, dann wird es, glaube ich, sehr gefährlich einfach.

00:32:07: Und deswegen brauchen diese Worldmodels dann noch eine viel krassere Regulatorik eigentlich als jetzigen.

00:32:12: Also ich meine, es ist halt am Ende immer, je mächtiger die Systeme werden, je potenter die Systeme werden, desto stärker muss man sich überlegen, wie man sie reguliert, damit sie nicht zum Problem für die Gesellschaft werden am Ende.

00:32:24: Ja, was?

00:32:25: Dahinter steht, das kann man, glaube ich, in der Gegenüberstellung von zwei Zitaten ganz gut ermessen.

00:32:31: Es ist schon eine Form von Kampf, der da passiert, so zwischen verschiedenen Denkschulen.

00:32:37: Und die einen meinen, ohne Worldmodels kann man im Prinzip den nächsten Schritt nicht gehen und die anderen sagen, Achtung, Worldmodels sind so machtvoll, wir müssen wirklich aufpassen.

00:32:46: Interessanterweise, wie so oft bei der KI arbeiten beide Denkschulen im Wesentlichen selbst auch weiter an KI und auch spezifisch an Worldmodels.

00:32:54: Die eine Ebene ist zum Beispiel die von Jan LeCun schon angesprochen, adressierte, der gesagt hat, a real intelligent system must predict the world.

00:33:04: If you can't model the world, you can't understand it.

00:33:08: Das ist so der Kern seiner Absage an große Sprachmodelle.

00:33:11: Wenn du kein vernünftiges Weltmodell hast, wenn du keine Vorstellung, keine Software, digitale Vorstellung davon hast im Computer, wie eine Welt aussieht und wie sie funktioniert, dann kann diese Maschine nicht intelligent werden und auch nicht autonom arbeiten.

00:33:25: Das ist so was dahinter steht.

00:33:27: Gleichzeitig gibt es auf der anderen Seite OpenAI, die sagen, zukünftige Systeme brauchen Worldmodels, um überhaupt sicher arbeiten zu können.

00:33:37: Ohne ein inneres Verständnis der Realität ist das sogenannte Alignment, also dass man die KI dazu bringt, den Regeln zu folgen, die man aufstellt, unmöglich.

00:33:47: Kurz und zusammengefasst sagen die einen, Achtung, Worldmodels sind so machtvoll, dass wir wirklich aufpassen müssen und die anderen sagen, hey, aber Leute ohne Worldmodels kriegen wir den Enzenkram gar nicht in den Griff.

00:33:58: Welcher Denkschule gehörst du denn eher an?

00:34:00: Ja, ich denke, dass Progression oder Weiterentwicklung der einzige Weg nach vorne ist.

00:34:04: Weil das das andere Problem ist und das sieht man analog in der Cyber Security, dass das sobald auch nur am Horizont dieses Systeme in irgendeiner Form auftauchen, gibt es genug Leute, die die auch missbrauchen.

00:34:17: Und man sieht zum Beispiel, dass mit diesem exponentiellen Anstieg der Chips und auch der Modelle an sich, also mit der Steigerung der Performance der Modelle, steigt auch Cyberkriminalität.

00:34:29: Und zwar in der Maße, dass das kaum verständlich mehr ist.

00:34:32: Wenn man sich die Zahlen dazu anguckt, ist es wirklich erschreckend, wie breit die Cyberkriminalität aufgestellt ist und wie die auch ganze Landstriche zum Beispiel in Südostasien regiert.

00:34:44: Da sitzen in riesigen Art Click-Farm-Centern, sitzen Leute, die andere Menschen erpressen und die nutzen, überwiegend dazu AI und die allerneuesten Technologien.

00:34:53: Wenn man dann analog überlegt, was Worldmodels tun werden, also wenn irgendwer schon anfängt, sie zu entwickeln, dann werden die zu hundert Prozent genutzt von anderen.

00:35:02: Das heißt, dieser Anspruch immer, dass man die Entwicklung stoppen könnte, glaube ich, der ist verfehlt.

00:35:08: und wird auch nie passieren.

00:35:09: Weil, wie gesagt, es ist ein sicherheitspolitisches Problem und die Entwicklung findet dann zwischen China und Amerika statt.

00:35:17: Und dann ist irgendwann die Frage, also keiner von beiden Ländern wird freiwillig ins Hintertreffen gehen.

00:35:22: Es ist eben ein Wertrüsten momentan.

00:35:24: Und im Übrigen glaube ich, dass China, dass die bald führen sein werden in der künstlichen Intelligenz.

00:35:29: Und ich glaube auch, dass die die ersten Worldmodels auf den Markt bringen werden.

00:35:33: Und wir werden genauso überrascht sein wie mit Diepsik.

00:35:36: wenn irgendwie im nächsten Sommer ein komplett unbekanntes Unternehmen, ein Wordmodel auf den Markt wird vielleicht sogar noch Open Source und sagt, hier you go, daran haben wir das letzte Jahr gearbeitet.

00:35:47: Weil, so heißt es wirklich alle für, also die Hälfte der führenden Wissenschaftler sitzt in China.

00:35:53: Der Großteil der führenden Forschungseinrichtungen im Hinblick auf künstliche Intelligenz sitzt in China.

00:35:59: Das heißt, die Fortschritte werden sicherlich auch aus China kommen, glaube ich.

00:36:03: Ja, das ist jetzt auch schon erkennbar.

00:36:06: im Oktober, zweitausendfünfundzwanzig hat Alibaba, eine der ganz großen digital Konzerne in China, bekannterweise, sein World VLA vorgestellt, ein autoregressives Action World Model, so wird es genannt, und es vereint VLA Vision Language Action.

00:36:24: mit Worldmodels und einem Transformer.

00:36:27: Was bedeutet das?

00:36:27: jetzt?

00:36:28: sehr nördig.

00:36:28: daher, gesagt, dieses Vision Language Action ist eine Art von Robotik Ansatz, mit dem man versucht mit einer KI zuerst über eben die Vision des Sehen, dann die Sprache und dann die Handlung einen Dreischritt beizubringen.

00:36:43: Und wenn dann einen auch noch Worldmodels dabei sind und ein Transformer, dann haben wir eigentlich alle KI ebenen, die im Moment relevant sind, um mit so einem World Model nicht nur Simulation zu machen, sondern auch Roboter zu steuern.

00:36:57: Das heißt, die konkrete Steuerung von Robotern, dass der nicht nur reagieren kann auf das, was man ihm sagt, sondern reagieren kann auf Einflüsse direkt aus der Welt, dass er die übersetzen kann, dass man ihm etwas sagen kann und dass man ihm aber gleichzeitig auch schubsen kann oder dass er irgendwas sieht und darauf reagiert.

00:37:14: Das ist der Fortschritt von Worldmodels.

00:37:17: Und genau da haben wir eine ganze Reihe von chinesischen Unternehmen jetzt ziemlich krasse Fortschritte gemacht in den letzten Wochen und Monaten.

00:37:23: Ja, und das ist wie ebenfalls ein Sicherheitspolitisches Risiko.

00:37:28: Man sollte sich dann überlegen, ob die USA sich überlegen, ob sie nicht vielleicht eher gemeinsame Sachen mit China machen sollte, als weiter zu entwickeln.

00:37:36: Aber das liegt natürlich auch wieder am Ende an den Chips, ob China es schafft, eine Architektur zu schaffen in den Worldmodels, die auf anderen Chips als auf den NVIDIA Chips trainieren kann, weil perspektivisch würde es so sein, dass die USA nicht mehr den Export der sehr high-performance Chips wie die A to hundreds und die B to hundreds erlauben wird.

00:37:57: Es bleibt spannend, ehrlich gesagt.

00:37:58: Also ich finde es auch spannend, zu dieser Zeit leben zu dürfen, um diese ganzen Entwicklungen zu sehen.

00:38:03: Ich glaube, wir befinden uns momentan in der disruptivsten Phase, die die Menschheit in den letzten tausend Jahren gesehen hat.

00:38:10: Also noch viel stärker ist die industrielle Revolution und eben viel schneller.

00:38:15: Also was die industrielle Revolution hat, haben die hundertvierzig, hundfünfzig Jahre gedauert und was wir momentan an Fortschritten sehen.

00:38:24: was quasi in fünf, sechs, sieben, vielleicht zehn Jahren passieren wird, wird nie wieder oder hat noch nie in dieser Schnelligkeit stattgefunden.

00:38:31: Das heißt, ich finde es auch eigentlich, also ernste Predictions oder Vorhersagen zu machen im Hinblick auf künstliche Intelligenz ist gar nicht möglich, weil wir alle gar nicht wissen.

00:38:42: Es fehlt halt so ein bisschen der Durchbruch.

00:38:46: Ich warte momentan auf irgendwas Disruptives, ich warte auf was Neues, weil Ich will nicht sagen, mich langweiligen diese LLMs, aber die, wie wir schon einen Gang sagten, sind die Fortschritte halt eher klein und dann kommt ein neues Modell raus, was dann in der LLM-Marina irgendwie ein kleines bisschen mehr performant ist.

00:39:02: Aber am Ende ist der, also der heilige Graal ist auf jeden Fall noch ein bisschen weit weg.

00:39:07: Ja, und gleichzeitig, wenn man von Gefahren spricht, helfen sich die Ansagen, dass die Gefahr größer wird durch solche Entwicklungen.

00:39:17: Zum Beispiel der Enthropic Chef Dario Amode, der ist sowieso jemand, der sagen wir mal PR ziemlich gut verstanden hat.

00:39:23: Der Dario Amode ist immer so dramatisch, finde ich.

00:39:26: Ja,

00:39:27: Dario Amode ist super dramatisch und genau darauf wollte ich hinaus.

00:39:30: Er hat im September, ist irgendwie zwei Monate her.

00:39:33: Man hat ja auf einer Veranstaltung gesagt, es gibt eine fünfundzwanzigprozentige Chance, dass die KI-Sache wirklich, wirklich schlimm ändert und er meint natürlich damit so den Untergang der Menschheit.

00:39:43: Das ist so ein Kernpunkt von dem Worldmodel oder den Worldmodels insgesamt.

00:39:50: Wir geben damit ein tiefes Weltverständnis an die Maschine.

00:39:54: Im Moment können wir uns noch zurückziehen auf das Verständnis der Welt, was wir als Menschen relativ singulär haben.

00:40:02: Ein Computer kann in bestimmten Bereichen einfach noch nicht wirklich verstehen, was passiert und das erkennen wir und sehen wir jeden Tag trotz aller Macht der KI.

00:40:09: Wenn wir die nächste Stufe zünden würden, der Durchbruch, auf den du wartest, wie du gerade gesagt hast, dann geben wir den Computer, dann geben wir den Maschinen auch schon eine bestimmte Form von Macht.

00:40:20: Man kann das vielleicht auf einer runtergebrochenen Ebene sagen.

00:40:23: Viele Menschen glauben, dass der Anfang von Worldmodels oder quasi die Vorstufe von Worldmodels die Generierung von Videoclips ist.

00:40:31: Also, dass du einen Videoclip generieren kannst, einen Film generieren kannst.

00:40:35: Dazu braucht die KI ein gewisses Verständnis von Raum, von Zusammenhängen, von Physik, von der Art und Weise, wie zum Beispiel Gegenstände oder Personen miteinander interagieren.

00:40:47: Nur dann kannst du einen sinnvollen Film aus einer KI machen.

00:40:51: Nur dann kommt aus einem Prompt irgendwas, was so einigermaßen richtig aussieht.

00:40:54: Aber genau wie beim Film ist es beim World Model am Ende dann auch so, je mehr der Computer weiß, desto machtvoller kann er am Ende Menschen beeinflussen.

00:41:05: Du hast vorher von Manipulation gesprochen und ein World Model... Eine Simulation, die macht nicht stopp vor einer physikalischen Simulation, die simuliert halt auch, was passiert, wenn ich X sage oder Y sage.

00:41:16: Und genauso wie Videos fantastisch manipulieren können, können World-Models fantastisch manipulieren.

00:41:22: Und vielleicht ist das genau der Ansatzpunkt, vor dem man dann früher oder später ein bisschen sich gruseln sollte.

00:41:27: Also allgemein sollte man sich ein bisschen vor den ganzen Entwicklungen nicht gruseln, aber sehr viel Respekt haben.

00:41:33: Ich glaube nur, dass der... Point-of-No-Return erreicht ist.

00:41:38: Das heißt, wir haben gar keine Chance, dass irgendeine Entwicklung in irgendeiner Form zu stoppen, eben aus diesen sicherheitspolitischen Gründen.

00:41:46: Ich bin der Meinung, dass wir unsere Hände in die Welt der Wahrscheinlichkeiten legen, weil wir wissen, keiner kann genau sagen, was passiert.

00:41:53: Und ich stimme dieser, übrigens dieser Hypothese, dass Worldmodels eine Progression der videogenerierenden Modelle ist, nicht ganz zu, weil das ist am Ende auch sehr viel Pixel vorhersagen.

00:42:04: Und Worldmodels sollen ja genau das nicht machen, sondern sie sollen ein Verständnis von der Welt entwickeln, eben nicht nur basierend auf Wahrscheinlichkeiten.

00:42:11: Und bei den Bildmodellen ist halt... fast alles Wahrscheinlichkeit.

00:42:15: Also das heißt, die lernen natürlich, die sind trainiert auf existierenden Videos und wissen wie sich typischerweise mal wegen die Hunde in Videos verhalten oder wie auch immer.

00:42:25: Am Anfang, ich meine, du rinnerst dich an die ersten Videos.

00:42:28: Das war Wurstmas beim Nudelessen und innerhalb von wenigen Jahren wurde das perfektioniert so.

00:42:33: Aber da sah man auch natürlich ein exponentielles Wachstum in der Tech und in der Weiterentwicklung.

00:42:39: Aber ich fand, es hat durchaus lange gedauert.

00:42:42: Also ich hätte da zum Beispiel ebenfalls erwartet, auch als Zora und so weiter rauskommen, dass jetzt schon, ich hätte wirklich erwartet vor... vier Jahre.

00:42:50: Ich habe mit meiner Firma ja tausende Millionen Videos generiert.

00:42:54: Und ich hätte wirklich erwartet, dass jetzt in zweizig, fünfundzwanzig, es schon möglich ist, ganze Filme per Prom, per Knopfdruck zu generieren über eine Stunde, dass die stabil bleiben, dass die Charaktere stabil bleiben und niemand anfängt zu hallucinieren und so weiter.

00:43:08: Und ich finde ehrlich gesagt, dass wir immer noch nicht so weit sind.

00:43:12: Also das heißt auch, weißt du auch, als so ganz normale Anwender haben die wenigsten eine App auf dem Handy, die mit denen sie einfach so Videos machen.

00:43:20: Natürlich kann man das machen.

00:43:20: Ich mache es auch mit Runway und so weiter.

00:43:22: Aber es ist noch nicht auf dem Level, das ich erwartet hätte.

00:43:25: Das heißt, ich glaube, dass wir, wie gesagt vor, wir stehen, wir werden bald sehr, also Weiterentwicklung sehen, glaube ich, sehr descriptive Weiterentwicklung.

00:43:35: Aber meines Erachtens wird es noch ein bisschen dauern.

00:43:38: Wenn wir So oft der Zielgeraden davon ausgehen, dass Worldmodels im Prinzip so der entscheidende Schritt sind von der sprechenden KI zur handelnden KI.

00:43:49: Wenn eine ganze Reihe von Leuten sagen, echte autonome Agenten, also eine KI, die irgendwas macht, was ich hier auftrage, die kann überhaupt nur funktionieren, wenn sie ein implizites Worldmodel hat.

00:44:00: Ob sie das jetzt sagt oder nicht, ob man das eingestanden hat oder nicht.

00:44:03: Das sind so Ebenen, wo ich sagen würde, okay.

00:44:06: Wenn wir ein Worldmodel haben und früher oder später wird ein großes Sprachmodell, ein Teil von einem Worldmodel, weil Sprache zur Welt gehört und weil Sprache natürlich auch immer ein wahnsinnig gutes Interface ist, um innerhalb der Welt zu kommunizieren, zu interagieren, bestimmte Vorgänge besser zu verstehen.

00:44:24: Wenn wir also irgendwann so ein Worldmodel haben, Digital Twins dazu, wenn wir das Ganze auch noch aufsetzen auf einer Ebene, die dann mit Robotik funktioniert, mit Humanoidorobotik.

00:44:35: Wo siehst du denn die Grenzen von dem, was KI in der Welt schaffen kann?

00:44:42: Wo siehst du die Grenzen von dem, was wir wollen oder was wir bekommen können?

00:44:47: Ja, das ist eine sehr philosophische Frage.

00:44:50: Ich glaube, es gibt so einige Kernanwendungsbereiche, in denen, finde ich, KI no Brainer ist.

00:44:59: Und das erste ist natürlich Medizin.

00:45:01: Wenn du es schaffst, in Kombinationen von Worldmodels, LLMs, Bildgebendenmodellen und so weiter.

00:45:07: Wenn du es schaffst, Menschen eine medizinische Versorgung zu liefern, die normalerweise keinen Zugang zu gehabt hätten und einfach nur, indem sie mit ihrem kleinen Chatboard auf dem Telefon kommunizieren, dann haben wir wahnsinnig viel erreicht, so Haken dran.

00:45:21: Dann, ich finde, das Zweite ist natürlich, Bildung zu bringen und Bildung zu demokratisieren oder auch den Zugang zu wissen, zu demokratisieren.

00:45:29: Das ist auch Haken dran.

00:45:32: Das, womit ich Probleme bekomme, sind diese und das gilt sowohl für Worldmodels als auch für LLMs.

00:45:38: Gleichermaßen ist dieses Informationsvakuum, was irgendwann entstehen wird, weil wir durch die LLMs und durch die auch Worldmodels oder künstliche Intelligenz grundsätzlich weniger Zugang zu.

00:45:49: anderen Informationen bekommen werden.

00:45:51: Das heißt, wenn die die komplette Informationshoheit haben werden, weil unsere Medienkonzerne absterben werden, weil unsere, weil Journalismus, eins der Dienste staatlich, subventionierte Journalismus als Geschäftsmodell eben nicht mehr funktionieren wird.

00:46:05: Wenn das alles passiert, dann werden die LLMs, wenn die Chatbots.

00:46:10: unser unsere einzige informationsquelle werden und social media wird garantiert auf whatsapp stattfinden.

00:46:15: irgendwie so ja.

00:46:16: und wenn das in die zukunft ist und die world models eben die ganze zeit information mein wegen einer realen welt sammeln und so dann also die nächste frage ist dann wer hat dann die hoheit über diese ganzen daten und auch bei den world models wer kuratiert das dann?

00:46:29: wer hat dann.

00:46:31: Wer organisiert ist?

00:46:32: und das werden dann, wenn es so weitergeht, wie jetzt, werden das die wenigen Technokraten sein, die momentan an quasi an oberster Spitze dieser Modelle stehen.

00:46:42: Und dann müssen wir uns wieder fragen, auch als Gesellschaft, ob wir das so in dem Kontext wollen, dass die Outments in Zuckerbergs und so weiter dieser Welt uns... Regieren und eben auch die Informationen, die wir sehen, korrigieren und eben auch die Worldmodels.

00:46:54: Also das heißt, die werden dann letztlich diejenigen sein, die entscheiden, ob diese Modelle für den Krieg eingesetzt werden können, für Energie eingesetzt werden können, kritische Infrastruktur damit orchestriert wird.

00:47:06: Werden die dann diktieren, ob die Datencenter in den USA zum Beispiel, ja, die haben Verbrauchermut an sehr, sehr, sehr viel Energie und es gibt schon die ersten Proteste dagegen.

00:47:15: Aber werden die dann einfach sich durchsetzen und sagen, hey, es ist wichtiger, neues Worldmodel zu trainieren.

00:47:19: Und deswegen habt ihr jeden Tag eine Stunde am Tag Strom.

00:47:23: Das sind alles so Fragen, die sich vielleicht irgendwann ergeben werden.

00:47:27: Und deswegen, glaube ich, grundsätzlich, dass wir in Deutschland uns auch da schnell weiterentwickeln müssen und wir das diskutieren müssen, damit es transparent wird, was passiert.

00:47:36: Und ich glaube, gerade diese Worldmodels werden sehr potent sein.

00:47:39: Und auch das, da fehlt irgendwie in der Breite, glaube ich, momentan noch das Verständnis dafür.

00:47:44: Mir kommen immer wieder in diesem World Model Hype, den wir gerade erleben und der wahrscheinlich noch größer werden wird.

00:47:50: Und die vielen Kritikpunkte, die du angerissen hast, die noch dazukommen, kommen mir so Gedanken, dass ja eigentlich Philosophisch schon häufiger darüber nachgedacht worden ist, wie so World Models funktionieren.

00:48:02: Ich erinnere mich zum Beispiel an eine Geschichte von Jorge Luis Borges.

00:48:08: der argentinische Schriftsteller von der Strenge der Wissenschaft, so heißt diese Kurzgeschichte, und er beschreibt einen Reich mit derart vollkommenen Landkarten, dass die Karte einer einzigen Provinz den Raum einer Stadt einnahm.

00:48:22: Irgendwann wurden, sollten die Landkarten, die dieses Reich macht, so präzise werden, dass sie eine Karte in der Größe von eins zu eins herstellen wollten.

00:48:30: Und diese Landkarte in der Maßstab, eins zu eins, also genauso groß ist wie das zu beschreibende Objekt.

00:48:37: ist ganz häufig geschrieben worden, nicht zuletzt von jemanden, der die digitale Welt in vielen verschiedenen Facetten schon beschrieben hat, obwohl er sie gar nicht vollumfänglich mitbekommen hat, Umberto Eco, nämlich.

00:48:48: Umberto Eco hat von der Jahr dreiundsechzig eine Geschichte geschrieben, der einen Aufsatz namens die Karte des Reiches im Maßstab eins zu eins.

00:48:58: Und auch da, es ist sehr lustig, beschreibt er, was es eigentlich mit einem Land macht, wenn du eine Karte im gleichen Maßstab baust, wie das Land selbst.

00:49:08: Will sagen, ein Art World Model, was genauso groß und genauso umfassend und genauso komplex und genauso tief ist, wie die Welt selbst.

00:49:17: Und das Interessante daran ist, dass Umberto Echo dann schließlich damit schließt, dass er Ein dreizehnseitiger Aufsatz ist.

00:49:25: wirklich lustig zu lesen.

00:49:26: Drei Korollare erklärt.

00:49:28: Also drei Punkte, die auf jeden Fall eintreffen.

00:49:32: Und diese drei Punkte sind eine Karte im Marschab eins zu eins.

00:49:35: Gibt das Territorium immer nur ungenau wieder.

00:49:38: Was mega lustig ist, weil man ja versucht es so genau wie möglich darzustellen.

00:49:42: Wenn man das auf Worldmodels übertragen würde, ist egal wie gut das Worldmodel, es wird halt nie so gut sein wie die Welt, weil es sonst zur Welt werden könnte.

00:49:50: Wie der zweite Korolla, den Umberto Eco beschreibt ist, das Reich wird im selben Moment, in dem man seine Karte erstellt, unterstellbar.

00:49:58: Das bedeutet, weil ja die Karte zum Reich gehört, kannst du in der Karte die Karte selbst nicht verzeichnen.

00:50:03: Und der dritte Punkt ist es vielleicht ein bisschen der Darkste, aber eben Umberto Eco hatte seine daken Seiten vorsichtig gesagt.

00:50:10: Jede Karte im Maßstab eins zu eins besiegelt das Ende des Reiches als solches und wäre mitten die Karte eines Territoriums, das kein Reich mehr ist.

00:50:19: will sagen, am Ende ist das perfekte Worldmodel der Untergang der Welt, den dieses Modell beschreibt.

00:50:26: Ich möchte auf gar keinen Fall, dass wir jetzt so dark schließen.

00:50:30: Ich glaube nämlich, dass Worldmodels am Ende ein sehr, sehr gutes Instrument sein können, um besser zu verstehen.

00:50:37: was, wie künstliche Intelligenz kann und um diesen nächsten Entwicklungsschritt zu gehen.

00:50:41: Aber Elisabeth, ich möchte dir gerne das Schlusswort geben und dich fragen, was versprichst du dir von dem Durchbruch, den du vorher gesprochen hast?

00:50:50: Was ist das, deiner Meinung nach ist, das kommt das nächstes Jahr, kommt das übernächstes Jahr.

00:50:53: Was wird dann mit einem Worldmodel so auf die Gegenwart breit möglich sein?

00:50:59: Ich glaube tatsächlich, dass das World Models jetzt ohne ohne die Apokalypse kommen zu sehen.

00:51:05: Ich glaube tatsächlich, dass sie gerade im Unternehmenskontext sehr viel bringen werden.

00:51:10: Weil wir montanen eben diese die die LMS, die sind alle schön und gut.

00:51:14: Aber wie gesagt, Halocinie noch viel.

00:51:17: Da gibt es noch einige kleine Problemchen hier und da.

00:51:21: Aber wenn irgendwann Modelle.

00:51:22: kommen, die wirklich kontextuelles Verständnis haben und die wirklich Prozesse simulieren können, die ganze Dinge, die Prozessschritte simulieren können und so weiter und das ohne Probleme und ohne, dass man ihnen jemanden an die Seite stellen muss und die von alleine funktionieren.

00:51:39: Darauf freue ich mich schon, ehrlich gesagt.

00:51:41: Also das sind Fortschritte, die ich sehr begrüßen würde, weil dann eben diese Diese Fragmentierung in der künstlichen Intelligenz nicht mehr ist.

00:51:48: Ich finde auch dieses, jetzt nennen wir es multimodal, so als sei es etwas Besonderes quasi, dass das Modell, wie wenn du willst, verschiedene Modalitäten spricht.

00:51:57: Also kein Bilder, kein Sound, kein Videos, kein Text.

00:52:01: Am Ende wollen wir auch eine analoge künstliche Intelligenz zum Menschen haben, der das ohnehin alles kann und der von alleine lernen kann und dass sie auch von alleine lernt quasi.

00:52:12: Es muss halt nur irgendwie kontrolliert werden und kontrolliert stattfinden.

00:52:15: Aber ich glaube, dass der wirkliche Mehrwert der künstlichen Intelligenz mit den Worldmodels kommt und die werden dann irgendwann die Wirtschaft beflügeln.

00:52:24: Also, darauf freue ich mich.

00:52:25: Ich denke mal, es wird einige Jahre noch dauern, ein, zwei, drei Jahre.

00:52:29: Aber irgendwann wird dieser Durchbruch kommen.

00:52:31: Dann werden wir uns sicherlich darüber freuen und vor allem werden wir zurückblicken zu den LMS und das Gefühl haben, dass wir da noch sehr in den Kinderschuhen waren und dass wir sehr in BRO-ing-Painz waren sozusagen am Anfang und dass wir mit den neuen Modellen natürlich in ganz anderen Liegen unterwegs sind.

00:52:49: Vielen Dank, Elisabeth.

00:52:50: Vielen Dank fürs Zuhören ans Publikum.

00:52:52: Wenn euch die Folge gefallen hat, empfehlt sie gerne weiter oder diskutiert mit uns oder beides auf den verschiedenen Social Media Plattformen, auf denen wir unterwegs sind mit unserem Account TechKI und Schmetterlinge, zum Beispiel auf LinkedIn, zum Beispiel aber auch auf Instagram und auf TikTok.

00:53:10: Und wer unbedingt möchte, kann auch YouTube Shorts sehen.

00:53:14: Vielen Dank fürs Zuhören und bis zum nächsten Mal.

00:53:16: Bis bald, bye bye.

00:53:17: Untertitel im Auftrag des ZDF für funk im Auftrag des ZDF.

Neuer Kommentar

Dein Name oder Pseudonym (wird öffentlich angezeigt)
Mindestens 10 Zeichen
Durch das Abschicken des Formulars stimmst du zu, dass der Wert unter "Name oder Pseudonym" gespeichert wird und öffentlich angezeigt werden kann. Wir speichern keine IP-Adressen oder andere personenbezogene Daten. Die Nutzung deines echten Namens ist freiwillig.