en
de

Data Analytics und Machine Learning: Modellieren vs. Präsentieren

26 Oktober 2016
| |
Lesezeit: 4 Minutes

«Eine Lösung, die begeistert» – Das ist einer der Arbeitsgrundsätze, die ich in Zühlke Projekten beobachte. Dieser Grundsatz gilt auch für meine Disziplin: Data Analytics und Machine Learning. Denn was hilft mir mein toller, intelligenter Algorithmus und mein komplexes, mathematisches Modell, wenn der Funke nicht auf den Kunden überspringt? Wenn er den Vorteil nicht auf Anhieb erkennt?

Herausfordernd ist dies vor allem dann, wenn schnell und zeitnah das Potential für einen Anwendungsfall evaluiert werden muss: Vor den grossen Investitionen in eine neue Infrastruktur, vor einer grossen Umstrukturierung der Daten oder vor einer aufwendigen erweiterten Datenerhebung. Die Mathematikerin in mir will möglichst viel Zeit für die Modellierung, die Daten und die Erarbeitung des Algorithmus zur Verfügung haben; die Realistin hingegen denkt an Themen wie Kundennutzen, -feedback und einem wichtigen Aspekt in diesem Zusammenhang: Präsentation. Von letzterem ist es schliesslich abhängig, ob der Kunde vom Produkt überzeugt ist und es auch gerne nutzt. Nicht das der Algorithmus nicht wichtig wäre – doch in diesem Blogartikel will ich auf den zweiten Punkt eingehen.

Kein Graben, der nicht zu überwinden wäre

Plakativ spreche ich in diesem Zusammenhang oft von der «Excel-Gap» und meine damit den Unterschied zwischen jenen Tools mit schöner Nutzeroberfläche, die die Welt benutzt, und spezifischen Entwicklungsumgebung, für die eine eigene Programmiersprache zu lernen ist. Die Bezeichnung lockt bei vielen ein Schmunzeln hervor, doch das Phänomen ist in vielen Firmen alltäglich. Für die Wahl der Präsentationsmittel ist es jedoch zentral zu verstehen, an welchem Punkt man zwischen diesen zwei Extremen unterwegs ist. Je (software-) technischer die Ansprechpartner unterwegs sind, desto eher kann man auch direkt eine Entwicklungsumgebung zeigen, je business-naher, desto weniger. Schliesslich soll das Präsentationsmittel auch nicht vom Inhalt ablenken, sondern die zentralen Aspekte der angestrebten Lösung diskutiert werden.

Wie sieht das nun bei mir aus, in einer technischen Domäne wie Data Science? – In meinem Alltag arbeite ich üblicherweise mit Python oder R, den weitest verbreiteten Programmiersprachen im Bereich Data Science. Diese bieten mir Flexibilität, Performance und stabile Algorithmen-Bausteine. Also alles, was mein Mathematikerherz begehrt. Die Entwicklungsoberflächen (sei es Jupyter Notebook, PyCharm oder R-Studio) zeige ich Kunden jedoch äusserst selten, sondern entwickle einen interaktiven Prototypen. So kann ich schnell die grundlegende Mechanik der Algorithmen anhand eines repräsentativen Daten-Snapshots sicht- und greifbar machen. Es ist wirklich gut investierte Zeit, um bereits in einer frühen Phase die Kunden abzuholen und die Produktvision greifbar zu machen.

Ein tolles Framework dazu bietet R shiny. Shiny erlaubt es direkt aus dem unansehnlichen R-Code interaktive kleine Webapplikationen zu bauen – ohne HTML-, CSS- oder JavaScript-Kenntnisse. Das Framework ist open-source und mit diversen ausführlichen Tutorials ist die Lernkurve sehr steil. Highlights sind beispielsweise die interaktive Einbindung von Openstreetmap (Zoomen inklusive), direkte Integration von Datatable-Features und natürlich die Möglichkeiten, responsive, mit den grossen Grafik-Libraries von R zu arbeiten. Wie sich so ein Prototyp anfühlen könnte und was man mit dem R shiny Framework alles möglich ist, habe ich an der September-Ausgabe des Zurich R User Meetups vorgestellt. Wer sich für die technischen Details interessiert, kann gerne einen Blick auf meine Folien werfen, oder direkt den Democode ausprobieren. Ihr findet alles auf meinem GitHub Account, oder auf der offiziellen Homepage der Meetup Gruppe.

Eine kurze Vorschau, wie der Inhalt eines solchen Dashboards ausschauen könnte, seht ihr hier:

Das Eine nicht ohne das Andere

Es zeichnet sich ab: technische Modellierung hilft keinem, wenn es niemand versteht. Lösungen, die nur technisch spannend sind, will keiner. Es lohnt sich deshalb sehr, die Zeit für die Erarbeitung einer geeigneten Präsentationsform aufzuwenden. Ich persönlich favorisiere stark die vorgestellten Shiny-Web-Prototypen. So kann ich interaktiv mit dem Kunden testen, was ihm am meisten Nutzen bereitet. Gerade die direkte Nutzung und Interaktion bringt stets neue Erkenntnisse hervor.

In der Praxis haben sich für mich folgende zwei Erkenntnisse herausgeschält:

  • Erlebbare, testbare Prototypen sind besonders in der Disziplin Data Analytics ein starkes Hilfsmittel, um für Stakeholder mit den unterschiedlichsten Hintergründen die komplexen Grundmechanismen fassbar zu machen. Interaktive Applikationen eröffnen zudem eine völlig neue Kommunikationsebene mit Kunden. Es lädt zum direkten Austausch ein und baut Hemmungen gegenüber neuen und komplexen Technologien und Methoden ab.
  • Der «Excel-Gap» ist Realität, aber kein unüberwindbares Hindernis. Die Herausforderung muss einfach aktiv wahrgenommen und angegangen werden. Es benötigt Anpassungswillen und Flexibilität, sich von altvertrauten Programmen zu lösen. Gleichzeitig darf man die Augen nicht davor verschliessen, dass gewisse Tools weit über ihre Grundfunktion hinaus «verbogen» werden.*

*Anmerkung: Teilweise passiert das übrigens auch mit R. So ist R shiny ist nicht in jedem Setting die ideale Wahl. Es geht mir hier explizit um die Verwendung als Prototyping-Spielwiese, falls wenig oder keine Infrastruktur für Data Analytics & Machine Learning vorhanden sind. Die Detaildiskussion dazu und zum Deployment, füllen wohl einen weiteren Blogartikel.. mindestens 🙂

Mein persönliches Fazit

In manchen Punkten sind alle Projekte gleich. Erfolgreiche Projekte leben von einer guten Abstimmung und Kommunikation mit den Kunden. Gerade die Einbindung des Kunden und der interaktive Austausch mit einem (prototypischen) Endprodukt bieten da einen immensen Mehrwert. Einerseits, weil beides Kommunikation auf Augenhöhe ermöglicht und andererseits, weil dadurch gemeinsam die finale Produkt-Vision mit dem grössten Nutzen geschärft wird. Das gilt besonders für komplexe, innovative Projekte bei denen das Endergebnis nicht von vorherein klar definiert ist, sondern bei denen es auch darum geht, (Business-)Möglichkeiten auszuloten. Modellierung und Abklärung der Machbarkeit sind natürlich wichtig, doch als genauso wichtig hat sich die Präsentation der Ergebnisse erwiesen um den Kunden von Beginn an aktiv in das Projekt zu integrieren und viel Nutzen zu generieren. Darum stets Modellieren UND Präsentieren als Auftragspaket für jedes Projekt!

Was sind eure Erfahrungen und Best Practices in dem Zusammenhang? Und für die Techniker unter euch, was sind eure Lieblingsframeworks für Prototyping im Data Science Umfeld? Ich bin gespannt und freue mich auf den Austausch hier in den Kommentaren oder per Mail.

Kommentare (0)

×

Updates

Schreiben Sie sich jetzt ein für unsere zwei-wöchentlichen Updates per E-Mail.

This field is required
This field is required
This field is required

Mich interessiert

Select at least one category
You were signed up successfully.