Propaedeutikum Webwi Big-Data-System? Data Warehouse? Was ist eigentlich was und wo liegt der Unterschied?
christoph.koch.uni-linz, 3. November 2013, 14:09
In diesem Beitrag möchte ich den Unterschied dieser doch ähnlich erscheinenden Begriffe näher erläutern und versuche darzustellen, wann sich welches System besser eignet.
Aufgrund der wachsenden Datenmengen, mit denen Unternehmen bei ihrem Webauftritt konfrontiert werden, stellt sich vermehrt die Frage, wie denn diese Daten am besten verarbeitet werden können und der beste Nutzen für das Unternehmen herausgeholt werden kann. Vorab sei erwähnt, dass ein Data Warehouse einfacher umsetzbar ist als ein Big-Data-System. Aber bringt es denn auch einen Nutzen für Unternehmen, jene Größe nicht der von Amazon oder Facebook entspricht?
Data Warehouse
Bei diesem System werden in periodischen Abständen Daten aus Transaktionssystemen entnommen und entsprechend für die Analyse aufbereitet. Die Aktualität der Daten beläuft sich in etwa auf einen Tag. Die Pivottabelle ist dabei das am häufigsten verwendete Analyseinstrument. Durch die tabellarische Darstellung quantitativer Größen kann beispielsweise der nach Regionen und Produkten gegliederte Umsatz dargestellt werden. Obwohl es andere statistische Analysen geben würde, lohnt sich dieser Vorgang aufgrund der doch etwas grobkörnigen Daten nicht.
Big Data und Big Data Analytics
Hier handelt es sich um so große Datenmengen, dass sie mit herkömmlichen Verfahren nicht mehr effizient zu verwalten wären. Unter „Analytics“ versteht man die analytischen Verfahren, womit Erkenntnisse aus den großen Datenmengen gewonnen werden. Hier verschmelzen die Verfahren der Statistik, des Marketing und der Informationstechnik miteinander. Es gibt einige Punkte, anhand man entscheiden kann, welches System vorzuziehen ist:
- Durch die bei Big-Data-Systeme eingesetzte Mustererkennung können Trends und Muster identifiziert und Beziehungen zwischen einzelnen Parametern erkannt werden. Dies ist nur mit einem „Real Time“-Data Warehouse ebenfalls erreichbar, jedoch sehr anspruchsvoll und daher eher die Ausnahme. Durch die einfachen statistischen Analysen in Data Warehouses bekommt man in Bezug auf Trends und Zusammenhängen ein nur grobes Resultat gepaart mit langen Latenzzeiten.
- Hier kann Big Data mit feineren Daten und kürzeren Latenzzeiten punkten – die Voraussetzung zur Segmentierung in Echtzeit wie beispielsweise bei Onlineeinkäufen.
- Des Weiteren können durch das Real Time Monitoring bei Big Data Probleme in komplexen Anlagen frühzeitig erkannt und Gegenmaßnahmen eingeleitet werden.
- Durch Empfehlungssysteme beim Onlineshopping soll gezielt der Umsatz beeinflusst werden. Die dafür benötigten Daten werden in Echtzeit abgeleitet. Was bei Amazon Buchempfehlung die Buchempfehlung ist, ist bei Facebook die Freundesempfehlung.
Anhand dieser Beispiele ist zu erkennen, dass große, in kurzer Zeit weiterverarbeitete und feinkörnige Datenmengen für das Big-Data-Verfahren sprechen. Wer allerdings mit den Nachteilen des Data Warehousing leben kann und statistische Analysen unkompliziert via Drag and Drop vornehmen möchte, ist auch mit dem einfacheren System gut bedient. Eine umfassende Kosten-Nutzen-Analyse schafft hier Abhilfe.
Hier gehts zurück zur Aufgabenstellung.
Quellen:
Ortega, Ilias in: Computerwoche am 9.4.2013. URL: http://www.cowo.de/a/2516320, Zugriff: 29.10.2013.
Wikibon - Real-Time IO Centric Processing Data for Big Data, URL: http://wikibon.org/wiki/v/Real-time_IO_Centric_Processing_for_Big_Data
0 comments :: Kommentieren