LLMs Rolle für personalisierte digitale Interaktionen

Mit Insights von

Christian Moser
Ehemaliger Chief of Digital Experience & Partner

Seit über 40 Jahren lernen wir, die Sprache der Computer zu verstehen. Doch mit den neuesten Entwicklungen in der KI lernen Computer, unsere Sprache zu verstehen. Das verändert unsere Interaktion mit digitalen Produkten und Diensten von Grund auf. Durch Eingabe strukturierter Daten und Einhaltung strikter Prozesse, sind wir auf dem Weg zu einer natürlicheren, dialogbasierten Interaktion, die den individuellen Bedürfnissen und dem Kontext folgt.

Chatbots gibt es schon lange, aber ihr Erfolg war begrenzt

Den Wunsch, digitale Interaktion einer menschlichen Konversation anzunähern, gibt es nicht erst seit gestern. Allerdings war der Erfolg von Chatbots überschaubar, da ihre Antworten oft ungenau und inhaltlich begrenzt sind. Dafür gibt es verschiedene Gründe:

Das Verstehen natürlicher Sprache ist sehr komplex
Die Bedeutung einer Frage richtig zu verstehen, ist noch komplexer
Die Antworten basieren häufig auf einem Entscheidungsbaum und sind inhaltlich meist sehr begrenzt

Wird der programmierte Gesprächsablauf verlassen, weicht der Chatbot auf allgemeine Antworten aus, und der Nutzer wird frustriert. Dies ist einer der wesentlichen Gründe, warum Chatbots bisher nur mäßiger Erfolg beschieden war.

Quantensprung durch große Sprachmodelle

Als im November 2022 ChatGPT herauskam, folgten erst Sprachlosigkeit und dann ein unglaublicher Hype. Das Textverständnis der aufwändig trainierten großen Sprachmodelle (Large Language Models, LLM) stellte alles bisher Dagewesene in den Schatten. Ein LLM verarbeitet jedes Wort als einen Token und sagt voraus, welches Wort mit der größten Wahrscheinlichkeit als nächstes folgen wird. So entsteht ein sehr natürlicher Dialog, der mit Hilfe von Milliarden, durch Menschen verfasster Texte trainiert wurde.

So verändert ChatGPT die Geschäftswelt

Erfahren Sie mehr

LLMs lassen sich leicht um Spezialwissen erweitern

Das Faszinierende an großen Sprachmodellen ist, dass das grundlegende Verständnis von Sprache und Kontext bereits in die Modelle hineintrainiert wurde. Dieser Vorgang dauert Wochen und kostet Millionen CHF an Cloud-Rechenleistung.

Ein solches allgemeines, vortrainiertes Modell kann nun sehr einfach um konkretes Spezialwissen erweitert werden. So lassen sich mit überschaubarem Aufwand Chatbots für spezialisierte Aufgaben entwickeln, die auch in lokalen Rechenzentren betrieben werden können.

Die nächste Stufe: Multimodale Interaktion

Bislang erfolgte die Interaktion vor allem über Sprache oder Text. Neuere Modelle (wie Google Gemini oder GPT-4-o) können jedoch auch multimodale Eingaben verarbeiten, wie zum Beispiel Bild, Ton oder Video. So erhält der Chatbot mehr Kontext, auf den er seinen Dialog aufbauen kann. Zum Beispiel kann man den Chatbot fragen, ob eine Kleidung für einen bestimmten Anlass geeignet ist oder ob man das Essen auf seinem Teller auch als Allergiker essen kann.

Chatbots entwickeln sich zu persönlichen digitalen Assistenten

Am 13. Mai 2024 kündigte OpenAI sein neustes Modell GPT-4o (omni) an. Nur einen Tag später verkündete Google sein Project Astra, das im Wesentlichen der gleichen Idee folgt: ein multimodaler digitaler Assistent, der menschlichen Kontext sehen, hören und verstehen und Fragen beantworten kann.

Durch die Fähigkeit, selbstständig Aktionen auszuführen, wird ein multimodaler Chatbot zu einem digitalen Assistenten, der – in begrenztem Rahmen – menschliche Aufgaben übernehmen und ausführen kann.

Eine Echtzeit-Demo von GPT-4o, der mit einem anderen KI-Chatbot kommuniziert.

Fast-Food-Ketten wie Burger King (Deutschland) oder Wendy's (UK) pilotieren aktuell AI für ihre Drive Through Schalter (Bild: Wendy's FreshAI)

Digitale Interaktion wird zum natürlichen Dialog

Der Innovationsschritt von KI-Bots, Menschen zu hören, zu sehen und zu verstehen, eröffnet eine Bandbreite neuer Anwendungsmöglichkeiten und wird die digitale Interaktion grundlegend zu verändern.

Heute müssen Menschen die Sprache der Computer lernen. Interaktionen müssen einem strikten Prozess und einer klaren Form folgen. Gerade lernen Computer uns Menschen zu verstehen, was zu natürlicheren, toleranteren und personalisierteren Interaktionen führt, die besser an unsere Bedürfnisse angepasst und von höherer Qualität sind. Das wird nicht nur die Effizienz und Effektivität erhöhen, sondern auch das Nutzererlebnis verbessern.

Meine Empfehlung: Beginnen Sie schon heute, im Dialog zu denken

Auch wenn es noch eine Weile dauern wird, bis sich Conversational Interfaces im breiten Stil durchsetzen, empfehle ich, neue Produkte und Funktionen schon heute als multimodale, personalisierte Dialoge zu gestalten. Denn wenn die Digitalisierung erst einmal so weit ist, wollen wir nicht noch mehr Benachrichtigungen, Pop-ups, Formulare und Listen in unserem Alltag, sondern weniger, bedürfnisorientierte und hochwertigere Konversationen.

Stefan Grasmann

Group Head of Thought Leadership & Chief of Blockchain

Stefan Grasmann ist Partner und Group Head of Thought Leadership & Chief of Blockchain bei Zühlke. Er ist verantwortlich für das Thought Leadership Programm von Zühlke und beschäftigt sich leidenschaftlich mit Blockchain-Technologie und Decentralized Finance (DeFi).

LinkedIn Profil von Stefan Grasmann ansehen