Seit über 40 Jahren lernen wir, die Sprache der Computer zu verstehen. Doch mit den neuesten Entwicklungen in der KI lernen Computer, unsere Sprache zu verstehen. Das verändert unsere Interaktion mit digitalen Produkten und Diensten von Grund auf. Durch Eingabe strukturierter Daten und Einhaltung strikter Prozesse, sind wir auf dem Weg zu einer natürlicheren, dialogbasierten Interaktion, die den individuellen Bedürfnissen und dem Kontext folgt.
Chatbots gibt es schon lange, aber ihr Erfolg war begrenzt
Den Wunsch, digitale Interaktion einer menschlichen Konversation anzunähern, gibt es nicht erst seit gestern. Allerdings war der Erfolg von Chatbots überschaubar, da ihre Antworten oft ungenau und inhaltlich begrenzt sind. Dafür gibt es verschiedene Gründe:
- Das Verstehen natürlicher Sprache ist sehr komplex
- Die Bedeutung einer Frage richtig zu verstehen, ist noch komplexer
- Die Antworten basieren häufig auf einem Entscheidungsbaum und sind inhaltlich meist sehr begrenzt
Wird der programmierte Gesprächsablauf verlassen, weicht der Chatbot auf allgemeine Antworten aus, und der Nutzer wird frustriert. Dies ist einer der wesentlichen Gründe, warum Chatbots bisher nur mäßiger Erfolg beschieden war.
Quantensprung durch große Sprachmodelle
Als im November 2022 ChatGPT herauskam, folgten erst Sprachlosigkeit und dann ein unglaublicher Hype. Das Textverständnis der aufwändig trainierten großen Sprachmodelle (Large Language Models, LLM) stellte alles bisher Dagewesene in den Schatten. Ein LLM verarbeitet jedes Wort als einen Token und sagt voraus, welches Wort mit der größten Wahrscheinlichkeit als nächstes folgen wird. So entsteht ein sehr natürlicher Dialog, der mit Hilfe von Milliarden, durch Menschen verfasster Texte trainiert wurde.
So verändert ChatGPT die Geschäftswelt
LLMs lassen sich leicht um Spezialwissen erweitern
Das Faszinierende an großen Sprachmodellen ist, dass das grundlegende Verständnis von Sprache und Kontext bereits in die Modelle hineintrainiert wurde. Dieser Vorgang dauert Wochen und kostet Millionen CHF an Cloud-Rechenleistung.
Ein solches allgemeines, vortrainiertes Modell kann nun sehr einfach um konkretes Spezialwissen erweitert werden. So lassen sich mit überschaubarem Aufwand Chatbots für spezialisierte Aufgaben entwickeln, die auch in lokalen Rechenzentren betrieben werden können.
Die nächste Stufe: Multimodale Interaktion
Bislang erfolgte die Interaktion vor allem über Sprache oder Text. Neuere Modelle (wie Google Gemini oder GPT-4-o) können jedoch auch multimodale Eingaben verarbeiten, wie zum Beispiel Bild, Ton oder Video. So erhält der Chatbot mehr Kontext, auf den er seinen Dialog aufbauen kann. Zum Beispiel kann man den Chatbot fragen, ob eine Kleidung für einen bestimmten Anlass geeignet ist oder ob man das Essen auf seinem Teller auch als Allergiker essen kann.
Chatbots entwickeln sich zu persönlichen digitalen Assistenten
Am 13. Mai 2024 kündigte OpenAI sein neustes Modell GPT-4o (omni) an. Nur einen Tag später verkündete Google sein Project Astra, das im Wesentlichen der gleichen Idee folgt: ein multimodaler digitaler Assistent, der menschlichen Kontext sehen, hören und verstehen und Fragen beantworten kann.
Durch die Fähigkeit, selbstständig Aktionen auszuführen, wird ein multimodaler Chatbot zu einem digitalen Assistenten, der – in begrenztem Rahmen – menschliche Aufgaben übernehmen und ausführen kann.
Digitale Interaktion wird zum natürlichen Dialog
Der Innovationsschritt von KI-Bots, Menschen zu hören, zu sehen und zu verstehen, eröffnet eine Bandbreite neuer Anwendungsmöglichkeiten und wird die digitale Interaktion grundlegend zu verändern.
Heute müssen Menschen die Sprache der Computer lernen. Interaktionen müssen einem strikten Prozess und einer klaren Form folgen. Gerade lernen Computer uns Menschen zu verstehen, was zu natürlicheren, toleranteren und personalisierteren Interaktionen führt, die besser an unsere Bedürfnisse angepasst und von höherer Qualität sind. Das wird nicht nur die Effizienz und Effektivität erhöhen, sondern auch das Nutzererlebnis verbessern.
Meine Empfehlung: Beginnen Sie schon heute, im Dialog zu denken
Auch wenn es noch eine Weile dauern wird, bis sich Conversational Interfaces im breiten Stil durchsetzen, empfehle ich, neue Produkte und Funktionen schon heute als multimodale, personalisierte Dialoge zu gestalten. Denn wenn die Digitalisierung erst einmal so weit ist, wollen wir nicht noch mehr Benachrichtigungen, Pop-ups, Formulare und Listen in unserem Alltag, sondern weniger, bedürfnisorientierte und hochwertigere Konversationen.

Christian Moser
Chief of Digital Experience & Partner
Christian Moser ist seit 2005 bei Zühlke und ist tätig als Chief of Digital Experience & Partner. Er ist technikbegeistert und ein leidenschaftlicher Designer. Technologietrends faszinieren ihn. Sie haben die Kraft, unser Leben und unsere Gesellschaft zu verändern.
