en
de
Big Data in der Industrie

Lagern und veredeln von Daten

2 April 2014
| |
Lesezeit: 3 Minutes

Im Beitrag Daten als Rohstoff: Big Data in der Industrie (1) habe ich über die Erfassung und Speicherung roher Daten geschrieben. Nun müssen die nützlichen Daten auch herausgefiltert werden. Wie nun veredelt man die gewonnen Daten und welche Rolle spielt dabei die Lagerung?

Zwischen jedem Veredelungs-Schritt muss ein Transport der Daten und eine Lagerung erfolgen. Diese Lagerung ist gegebenenfalls nur temporär.

Die effiziente Speicherung von Daten hat schon Tausende von Forschern beschäftigt. Bei Daten denkt man heute an Datenbanken. Und für Big Data logischerweise an sehr große Datenbanken?

Zum Verständnis  müssen wir kurz in die Technik abtauchen. Typische Datenbanken der letzten Jahre sind SQL-Datenbanken. Diese haben im Wesentlichen die Eigenschaft, über eine strukturierte Abfragesprache (Englisch: Structured Query Language) Daten aus dem Speicher miteinander in Verbindung (Relation) zu bringen und die Ergebnisse zu präsentieren. Natürlich sind viele weitere nützliche Eigenschaften wie Transaktionssicherheit etc. dazugekommen. Diese Datenbanksysteme sind extrem auf die effiziente Speicherung und Verarbeitung großer Informationsmengen hin optimiert.

Aber bleiben wir beim Abfragen. Immer wenn Sie etwas über Big Data lesen, werden Themen wie Datenanalyse interessant. Wenn ich so viele Daten gespeichert habe, wie bekomme ich dann die Information heraus, die drin steckt?  Oder anders formuliert: Wie finde ich die für mich relevanten Informationen?

Das Geheimnis liegt in der Kombination aus Art der Speicherung und den damit machbaren Analysetechniken. In tabellenartig strukturierten  Datenbanken mit starren Verbindungen untereinander können semantisch fest miteinander verwobene Informationen schnell und absolut sicher extrahiert werden.

Das ist auch der originäre Zweck dieser SQL-Datenbanken.

Eine Rechnung an den Kunden Meier referenziert Rechnungspositionen auf gelieferte  oder bestellte Ware. Ein Rechnungslauf muß also nur an diesen festgelegten Relationen entlang die Daten aggregieren.

Möchte man aber analysieren, warum ein Produkt nicht mehr so oft bestellt wird, hat man keine festen Wege mehr, die man befahren kann. Denn der Auslöser könnte eine Preiserhöhung, eine Verlängerung der Lieferzeit oder aber auch die Qualität des Produktes sein.

Diese Daten könnten nun durch Korrelation innerhalb der im Unternehmen vorhanden Daten aus Buchhaltung, Service und Produktionsdatenbanken erzeugt werden.

Sie müssen also Dinge in Verbindung zueinander bringen, die in der Struktur der Daten in der Datenbank nicht vorgesehen waren.

Man könnte natürlich auf die Idee kommen, diese Verbindungen nachträglich einzubauen. Was aber, wenn der Grund für den Verkaufsrückgang außerhalb des Unternehmens liegt, beispielsweise an gesunkener Kaufkraft oder Prioritätsverschiebungen in der Gesellschaft?

Die Daten, die solche Informationen beherbergen, liegen typischerweise außerhalb des Unternehmens. Und bitte denken Sie an dieser Stelle nicht nur an Marktforscher.

Das größte Potenzial an Markt-Informationen bieten Social-Media-Plattformen. Diese versuchen typischerweise sofort die Fremdverwertung der Daten als ihr primäres Geschäftsmodell zu etablieren. Unternehmen können schon heute Merhwertdienste basierend auf crowd-sourced Data anbieten. Mit diesen Unternehmen lassen sich Zusammenarbeitsmodelle erarbeiten, um die wichtigen externen Daten von außerhalb ins eigene Data Warehouse einzuspeisen.  Dies könnte die Kaufkraft des anvisierten Marktsegementes sein, aber viel besser auch rohe Daten, die man mit selbst gewonnen Informationen korrelieren kann.

Interessant in der Just-in-time-Produktion sind Informationen über Einflüsse auf die Logistik-Kette oder zu den Qualitätsdaten des zugelieferten Materials. Stellen Sie sich vor, Sie sind ein Lieferant von Bauteilen, deren Toleranzen technologisch bedingt schwanken. Ihr Abnehmer könnte diese Toleranzen in seinem Verarbeitungsschritt möglicherweise ausgleichen, wenn er Ihre Produktionsdaten zusammen mit den gelieferten Bauteilen verarbeiten könnte.

Und genau damit können Sie als Unternehmen auch Ihren Partnern Mehrwerte liefern!

Wer die Welle nicht reiten will, muß sie eindämmen!

All die Potenziale und Chancen sind gut und schön. Aber worauf muss ich achten, wenn ich mich aktiv gegen Big Data entscheiden möchte?

Technische Gründe wie Übertragungsengpässe,  betriebswirtschaftliche Gründe wie Herstellkosten oder Betriebskosten, aber auch  gesetzlichen Regluarien zur Erhebung und Nutzung von Daten können dazu führen, eine  Strategie der aktiven Vermeidung zu verfolgen. Was ist dafür zu tun?

„Nichts“ drängt sich als einfache Antwort auf. Doch auch wenn man keine hochauflösenden Roh-Daten Sensoren einsetzt, keine Daten bewusst ablagert und mit festen Relationen in der Analyse arbeitet, so gibt es doch einige Punkte die man zusätzlich in Betracht ziehen muss. Wie so oft, liegen diese nicht immer innerhalb der eigenen Kontrolle.

Rechnen Sie von jetzt ab stets damit, dass andere Personen oder Unternehmen Daten sammeln, die den Zustand oder das Verhalten des eigenen Unternehmens wiedergeben können.

Das betrifft zum Beispiel Informationen über die Nutzung von Transportwegen, das Verhalten von Mitarbeitern im Außeneinsatz, die Bewertung des Unternehmens durch die eigenen Mitarbeiter, Lage und Zustand von Gebäuden des Unternehmens und vieles mehr.

Der wohl größte Hebel zur Vermeidung von Übertragungsengpässen ist die Reduktion an der Datenquelle. Betrachtet man Datenquellen in Bezug auf die Erzeugung von Daten, darf man sich eine solche Einteilung vorstellen:

  1. Quelle liefert beständig Rohdaten
  2. Quelle liefert kontrollierbar Rohdaten
  3. Quelle liefert konfigurierbar Rohdaten und oder qualifizierte Daten
  4. Quelle liefert situationsabhängig Rohdaten oder qualifizierte Daten

Reduktion von Daten funktioniert also nur mit Sensoren, die sich steuern lassen. Ein SmartSensor hat das größte Potential zu einer Quelle der Stufe 4 aufgebaut zu werden.

Im Zusammenhang mit der Datengewinnung ist auch der Zugang zur Datenquelle extrem wichtig geworden. Es geht einerseits um den Zugang zu den Daten selbst als auch um die Kontrollierbarkeit der Datenquelle. Darunter kann man sich die gesamte Palette von der mechanischen Positionierung über Steuerbarkeit bis hin zu Themen der Autorisierung vorstellen.

Gerade wenn die vorgenannten Beispiele der Fremderhebung sollten Sie also auf die Zugänglichkeit Ihrer Datenquellen achtgeben. Das Aufgabenprofil des Chief Security Information Officers (CISO) sollte dieses Thema voll mit abdecken.

Und hier meine abschließende Bitte: Werfen Sie nach dieser Lektüre wieder einen Blick auf die im ersten Beitrag  zitierten 6 Weckrufe.

Haben Sie meine Beiträge „aufgeweckt“?

Kommentare (1)

[…] Die effiziente Speicherung von Daten hat schon Tausende von Forschern beschäftigt. Bei Daten denkt man heute an Datenbanken. Und für Big Data logischerweise an sehr große Datenbanken? Ob das so ist, betrachte ich im anschließenden Beitrag “Lagern und veredeln – Big Data in der Industrie (2)“. […]

×

Updates

Schreiben Sie sich jetzt ein für unsere zwei-wöchentlichen Updates per E-Mail.

This field is required
This field is required
This field is required

Mich interessiert

Select at least one category
You were signed up successfully.

Erhalten Sie regelmäßige Updates zu neuen Blogartikeln

Jetzt anmelden

Oder möchten Sie eine Projektanfrage mit uns besprechen? Kontakt aufnehmen »