Was ist Big Data?
Eine große sich laufend aktualisierte und unstrukturierte Datenmenge könnte beinahe als Big Data verstanden werden. Jedoch beschreibt das Modewort aus dem Jahrzehnt ein wenig mehr als die Sammlung von Daten. Doch die gespeicherten Daten sind de facto unwichtig, oftmals sogar belastend für die System (Wartung, Update, etc.). Viel wichtiger ist die Analyse der Daten um daraus Erkenntnisse zu gewissen und auf Basis deren bessere Entscheidungen zu treffen. Big Data wird zwar oftmals als strategische Ausrichtung für das Unternehmen verstanden, sollte allerdings in der Endausbaustufe auf operativer Ebene (im Tagesgeschäft) erfolgen. Zudem sollte Big Data auch nicht überbewertet werden – immerhin ist es nur ein Hype wie vormals IoT (Internet of Things), Green IT (grüne Systemlandschaft), Dotcom Blase (Absturz), EIA (Enterprise Application Integration) oder SOA (serviceorientierte strukturierte Architektur).
Big Data beschreibt den Datenbestand, welcher den herkömmlichen normalen langfristigen Datenstrom übersteigt. Dadurch kommt es zu einer Überforderung der IT Infrastruktur und IT Prozessen, welche nicht mehr ganz trivial lösbar sind. Big Data steht also auch für die Erfassung großer Datenmenge, die Speicherung, die Suche in diesen Daten, die Verteilung, die Analyse und die Visualisierung der Daten. Traditionelle BI (Business Intelligence) in Verbindung mit Datenbanken sind zu starr und derzeit nicht in der Lage die massenhaften unstrukturierten Daten zu verarbeiten.
Big Data auf strategischer Ebene
Die Strategische Ebene bezeichnet langfristige Unternehmensziele: Der Pfad des Unternehmens beziehungsweise die langjährige Weiterentwicklung. Dies kann die Einführung neuer Produkte, neuer Märkte oder neuer Kunden sein. Meist allerdings wird hier ein Mix von mehreren Zielen verwendet. Doch wie können solche Ziele definiert werden? Hier kommt meist Big Data ins Spiel. In einem Projekt werden die bestehenden Daten ausgewertet, in eine gewünschte Richtung transformiert und anschließend der Geschäftsführung, den Aktionären, Banken und/oder Kapitalgeber präsentiert. Langfristige Ziele aus Big Data herauszulesen ist meiner Meinung in der heutigen Zeit nur mehr als Trend möglich.
Big Data auf operativer Ebene
Mit der operativen Ebene wird in diesem Artikel das aktuelle Tagesgeschäft verstanden. Es kann sich allerdings auch um ein kurzfristiges (wenige Tage) Ziel handeln. Nehmen wir an, ein bereits bekannter Kunde kommt auf die Webseite eines Reiseanbieters. Durch den vorhergehenden Verlauf (Reisen, Länder, Buchungsverhalten, Budget, etc.) können somit gleich die relevanten Reisen auf der Startseite angeboten werden. Bei Bedarf kann auch ein Chatbot eine besondere Reise hervorheben. Dieses angepasste Verhalten (Preise und Produkte) erleben wir derzeit bei allen größeren Online Händlern. Alle Unternehmen, welche weniger mit „online“ am Hut haben, lassen Big Data auf operativer Ebene derzeit komplett außer Acht.
Welche Daten gehören zu Big Data?
Gelogged, protokolliert und in eine Datenbank gespeichert – dies ist die normale standardmäßige Vorgehensweise. Diese Daten bestehen aus einer Vielzahl von Quellen. Die größten Quelle liefern geschäftlichen Transaktionen (Einkauf, Verkauf, Verbuchung, Zahlungsverkehr). Diese Quelle muss teilweise auch rechtlich (steuerliche Voraussetzungen) abgespeichert werden. Zudem gibt es rechtliche Quellen, wie Server Logs, Webseitendaten, E-Mail Verkehr, etc., welcher abgespeichert werden muss. Schlussendlich gibt es noch den großen Part von Werbung und sozialen Medien, welche Daten in das System übermitteln. Durch neue Sensoren (RFID) und Smart Metering werden die Datenmengen in Echtzeit (oder beinahe) Echtzeit verarbeitet. Dies bedeutet allerdings auch, dass diese immer größer werdende Datenmenge verwaltet, analysiert und in Echtzeit ausgewertet werden muss. Zudem müsste auf einen Einbruch oder einen „Vorfall“ sofort reagiert werden. Dazu fehlt es aber in vielen Firmen an Verständnis als auch an Kapazitäten. Diese Einbrüche oder Trends (periodische Spitzen) können in etwa durch Social Media entstehen.
Formatchaos Big Data
Bisher war nur die Rede von Datenbanken, welche Werte abgespeichert haben. Datenbanken bieten einen enormen Vorteil, können allerdings nicht alle Anforderungen erfüllen. Klar kann ein Geschäftsdokument, ein Audiodokument oder Videoelement in der Datenbank gespeichert werden, die Auswertung gestaltet sich allerdings mehr als schwierig. Dies bedeutet, dass Big Data nicht ein zentraler Ort ist, sondern jedes Datenelement und jede Information. Dies können E-Mails, Textdokumente, Tabellenkalkulationsprogramme, Meta Daten, strukturierte Daten als auch numerische Daten sein. Dadurch erleidet jedes Unternehmen früher oder später ein Komplexitätsproblem. Wie sollen die Daten miteinander verknüpft werden? In welchem System sollen die Daten ausgewertet werden? Wie erfolgt die Bereinigung? Die Übertragung? Oder wie bereits erwähnt: Welche Daten werden überhaupt benötigt?
Vorteile in Bezug des Sammelns von Daten
- Daten bereits vorhanden (teilweise durch rechtliche Natur)
- Kostensenkung durch strategische und operative Entscheidungen auf Grundlage von Big Data Analysen
- Zeitersparnis durch automatisierte Vorgänge und Auswertungen
- Optimierung von Preisen und Produkten auf die Bedürfnisse der Kunden
- Entscheidungsgrundlage für eine strategische Ausrichtung des Unternehmens sowie des operativen Tagesgeschäfts
- Erkennen von Problemen und Fehlfunktionen in Echtzeit
Big Data Beispiel – Der Eisverkäufer auf der Straße
Er kann die Wetterdaten mit den Verkäufen korrelieren. In Echtzeit weiß er in der früh, welche Eissorten er am Vormittag verkaufen wird. Am Nachmittag wird es heißer als erwartet, auch hier kann sofort nachgebessert werden. In Echtzeit. Und dann hatte er noch eine besondere Kundin, welche mit einem Eis den absoluten Hype in sozialen Netzwerken ausgelöst hat. Nun heißt es aber schnell Schokoladeneis in Hülle und Fülle zu produzieren.
Dies ist nur ein einfaches Beispiel, wie Big Data selbst bei einem kleinen und einfachen Unternehmen angewendet werden kann. Die Daten für Wetter und Verkaufsdaten sind bereits vorhanden. Es fehlte also noch die Verknüpfung und die Analyse dieser Daten. Durch ein beschränktes Sortiment sowie eine angepasste Produktionsmenge entsteht eine enorme Kostensenkung. Zudem muss für die richtige Menge an Sorten und Mengen weniger Zeit aufgewendet werden. Die Produkte werden aufgrund von Big Data auf die Kundenbedürfnisse (Wetter, Temperatur, Jahreszeit) angepasst und die Preise können gegebenenfalls an schwachen oder Umsatzstarken Tagen optimiert werden. Durch Kundenkarten kann nicht nur ein Rabatt gewährt werden, sondern diese Daten auch mit sozialen Medien verknüpft werden. Influencern könnten so neue Eissorten kostenlos angeboten werden. Diese Entscheidungsgrundlagen des operativen Tagesgeschäfts passieren lediglich mit Big Data. Eine strategische Ausrichtung auf neue Sorten oder Märkte kann die Trendentwicklung bieten. Doch mehr als diese beiden Trends wird aus Big Data für strategische Zwecke nicht herauslesbar sein.
Merksatz: Big Data ist für das operative Tagesgeschäft und nicht für die strategische Positionierung.
Data Warehouse, Data Lake and Big Data – Unterschied zwischen Begriffen von Big Data
In den letzten Jahren hat sich nicht nur der Begriff Big Data etabliert, sondern auch die beiden Begriffe Data Warehouse und Data Lake. Ein Data Warehouse ist ein klassischer Ort der Speicherung – etwa eine simple Datenbank. Für die Speicherung der Daten in einem Data Warehouse benötigt es strukturierte Daten (ein definiertes Schema). Ein Data Warehouse ist einfach gesagt somit die klassische Speicherung einer großen Datenmenge. Durch die Strukturierung von Daten bieten Data Warehouse eine einfache Möglichkeit Business Intelligence zu integrieren. Ein Data Lake speichert ebenso Daten, allerdings in Form von Rohdaten. Dies bedeutet, ein Data Lake besitzt kein Schema auf welchen es aufbaut. Eine einfache externe Festplatte zur Speicherung von Daten entspricht also eher einem Data Lake als einem Data Warehouse. Die Struktur des Data Lakes wird zum Lesezeitpunkt bestimmt.
Wo lohnt sich eigentlich Datensammlung besonders?
Alle Unternehmen mit einem hohen Online Umsatzanteil sollten auf das Sammeln von Daten setzen. Doch nicht immer ist der Umsatz ausschlaggebend, oftmals ist es auch die Notwendigkeit. So kann der Banksektor Big Data für Analysen der sich ständig veränderten Preise heranziehen. Aber auch der Bildungssektor, der Staat mit den Behörden sowie das Gesundheitswesen ist auf Big Data angewiesen.
Probleme durch Big Data
Big Data umfasst derzeit ein paar Themenfelder, welche zu bewältigen sind. Einerseits müssen große Datenvolumen strukturiert werden, andererseits muss die Strukturierung unterschiedliche Datensätze und Datentypen berücksichtigen. Durch die enorme Datenmenge muss auch die Geschwindigkeit und die Prozessleistung enorm hoch sein: Daten müssen schneller aufgerufen als auch selektiert werden. Bei der analytischen Nutzbarkeit spielen nicht nur Modelle (z.B. in Form von Business Itelligence), sondern auch Data Mininig eine zentrale Rolle.
Themenfelder im Bereich von Daten
- Datenvolumen
- Datenformate
- Datenstruktur
- Datenquellen
- Nutzerzahlen
- Nutzerquellen
- Komplexität
- Beziehungen
- Performance
Big Data Analytics (gesamter Prozess) VS Big Data Analysis (Teilprozess)
Big Data Analytics beschreibt dem gesamten Prozess der Sammlung, Verarbeitung und Auswertung von Big Data. Dazu gehört neben Data Analysis, wobei dies lediglich einen Teilprozess beschreibt, auch Data Mining.
Mehr Informationen findest du auf der Bildungseite diesen Blogs.