Big Data – Eine Definition

Das Konzept Big-Data nimmt in den letzten Jahren stark an Popularität zu, weil Firmen und auch Staaten immer neue Nutzungsmöglichkeiten versprechen. Diese rangieren von der Analyse, für welche Gegenstände wir uns in einem Onlinehandel interessieren, bis hin zu vorhersagen, wann eine neue Grippewelle bevorsteht oder wo wahrscheinlich das nächste Verbrechen geschieht. Aber bei diesen utopisch klingenden Möglichkeiten bleibt die Frage, wie diese Techniken überhaupt realisiert werden und mit welchen Risiken wir konfrontiert werden. Aber damit wir uns mit diesen befassen können, müssen wir erst einmal betrachten, wofür Big Data steht. Allgemein bezeichnet es die Arbeit mit großen Datenbeständen, die nicht nur umfangreich, sondern auch vielfältig und im stetigen Wandel sind. Im Folgenden werden wir die Entwicklung, die Charakterisierung und die verschiedenen technischen Herausforderungen kennenlernen.

Im Jahr 2002 wurden ungefähr fünf Milliarden Terrabyte (5 Exabyte) neue Informationen erzeugt
„How much Information?“, Studie der Berkeley Universität, 2003

Historie

Der Begriff „Big Data“ hat keinen klaren Ursprung, allerdings gilt der amerikanische Informatiker John Mashey mit seiner Präsentation „Big Data …. And the next wave of InfraStress“ als Begründer. Er war der leitende Wissenschaftler von Silicon Graphics, einer damals aufstrebenden Firma für graphikintensive Hardware- und Softwaresysteme, die sowohl für Animationen in Hollywood als auch für die Videoüberwachung durch Geheimdienste genutzt wurden. [SL13]

Auch wenn Big Data erst in der letzten Zeit große Fortschritte macht, geht sie doch zurück auf die kontinuierliche Entwicklung, dass immer mehr Daten erzeugt werden. Bereits in 1941 entstand der Begriff „Information Explosion“, der dieses rasante Wachstum bezeichnet und 1944 versuchte Fremont Rider, Bibliotheksdirektor an der Weseyan Universität, dieses zu quantifizieren. Laut Rider verdoppele sich der Bestand jeder amerikanischen Bibliothek alle sechzehn Jahre und die Yale Bibliothek verfüge 2040 über circa 200 Millionen Bücher. 1967 weisen B.A. Marron und P. A. D. de Maine in ihrer Arbeit „Automatic data compression“ darauf hin, dass die Information Explosion es notwendig macht, die Daten zur langfristigen Speicherung möglichst stark zu komprimieren. Aber es regten sich auch früh Bedenken zur massenhaften Speicherung und der Reduktion eines Menschen auf seine Informationen. So schrieb Arthur Miller bereits 1971 in „The Aussault of Privacy“, dass zu viele Informationsverwerter einen Menschen nach den Bits zu bewerten scheinen, die zur Speicherung seines Dossiers notwendig sind. Trotzdem dauerte es noch eine lange Zeit, bis überhaupt die Speicherung und Auswertung solcher Datenmengen möglich wurden und noch 1990 erkannte Peter J. Denning in seinem Artikel „Saving all the Bits“ im American Scientist, dass die Menge der erzeugten Informationen zu umfangreich für klassische Auswertung sei. Man benötige Maschinen die in der Lage wären, selbstständig Muster in der Datenflut zu erkennen oder vorhersagen können, aber es sei zweifelhaft, ob sie realisierbar wären. Eine Grundlage zur Realisierung lieferte Usama Fayyad mit Begründung des Data-Minings und der gewidmeten Konferenz (First International Conference on Knowledge Discovery in Data (KDD-95)). Dieses Gebiet der Informatik widmet sich der Mustererkennung in großen Datensätzen mithilfe von maschinellem Lernen und künstlicher Intelligenz. Und im Jahr 2000 erfolgt die erste große Studie der Universität Berkeley, die die Menge der weltweit erzeugten Daten bestimmen sollte. „How much Information“ kam zu dem Ergebnis, dass im Jahr 1999 alleine ungefähr 1,5 Exabyte an neuen Informationen erzeugt wurden, damit circa 250 Megabyte für jedem Menschen auf der Welt.

Charakterisierung

Da wir nun wissen, dass sich die verfügbare Datenmenge exponentiell wächst, müssen wir nun betrachten wie eine konkrete Big Data Anwendung charakterisiert wird. Die geschieht vornehmlich durch die tatsächlich betrachteten Daten und eine Grundlage dazu prägte der Analyst Doug Laney. 2001 lieferte er in seiner Arbeit „3D Data Management: Controlling Data Volume, Velocity and Variety“ die bis heute gültigen Schlagworte Volume, Variety und Velocity. Dazu werden oft noch die Variability, Veracity und Value.
Volume bezeichnet hierbei den Umfang der gesammelten Daten, also wie viele Daten kontinuierlich erzeugt und gespeichert werden. Es existiert keine definiertes Minimum für Big Data, aber im Allgemeinen mindestens viele Terrabyte. Variety bezeichnet die Art der verwendeten Daten. Diese können naturwissenschaftliche Sensordaten wie Temperaturstationen und Satellitenbilder sein, aber auch menschliche Informationen sein (siehe Digital Footprint). Velocity bezeichnet zum einen die Geschwindigkeit, mit der die Daten erzeugt werden. Zum anderen meint es die Anforderung, wie schnell diese ausgewertet werden müssen, um die gewonnenen Informationen nutzen zu können. Dies kann Echtzeit bedeuten, wenn eine Anwendung Empfehlungen für Kunden eines Online-Shops ermitteln soll, aber auch periodisch geschehen. Ferner bezeichnet Variablity die Konsistenz bzw. Vollständigkeit der gesammelten Daten, denn nicht immer sind alle relevanten Daten in einem Datensatz vorhanden. Dies wird mithilfe von Data Fusion kompensiert. Veracity bezeichnet die Qualität der gesammelten Daten, also genau die Daten mit der Realität übereinstimmen und welche Fehlerrate vorliegt. Und abschließend bezeichnet Value den Wert der aus den Daten generierten Daten.

Digital Footprint

Der digitale Fußabdruck bezeichnet alle Daten, die ein Nutzer aktiv oder passiv im Internet hinterlässt wie einen echten Fußabdruck im Sand. Unter dem aktiven Teil werden alle Daten verstanden, die ein Mensch freiwillig und im vollen Bewusstsein über sich preisgibt. Dies geschieht zum Beispiel, indem er ein Bild bei Facebook postet, einen Tweet erstellt oder ein privates Video bei Youtube veröffentlicht.
Unter dem passiven Fußabdruck werden alle Daten verstanden, die der Mensch nicht explizit freigibt, sondern bei seinen Aktivitäten im Internet im Hintergrund gesammelt werden. Dies umfasst sowohl sein Kaufverhalten bei Amazon oder seiner besuchten Webseiten zu seinem Hobby, als auch reine Verbindungsdaten mit Zeitstempel.

Technische Herausforderungen

Bei der Realisierung von Big Data Anwendung gibt es drei Herausforderungen. Die Datenhaltung, der Algorithmus zur Verwertung und zur Berechnung verfügbare Zeit. Bei der Datenhaltung müssen große Mengen von vielfältigen Daten gespeichert werden, was klassische Datenbanksysteme kaum leisten können. Deswegen haben sich zwei neue Trends bei Datenbankmanagementsystemen (DBMS) entwickelt, um mit diesen Problemen umzugehen. In-Memory-Datenbanken verwalten ihre gesamte Datenbasis innerhalb des Arbeitsspeicher halten und speichern zumeist nur Backups persistent auf einem Laufwerk. Dadurch wird die Zeit für Lese- und Schreibzugriffe in der Datenbank drastisch verringert. Diese Technologie wurde durch sinkende Kosten für Hauptspeicher und die Durchsetzung von 64-Bit-Systemen ermöglicht und wird zum Beispiel bei dem Datenbankmanagementsystem Terracotta der Software AG genutzt. NoSQL bezeichnet dagegen jeden Ansatz, der nicht mit einem festen Schema wie eine relationale Datenbank arbeitet. Diese können besser die vielfältigen Datensätze verwalten, auf denen Big Data besonders gut arbeiten kann. Solche Datenbanken dieses werden vorwiegend im Bereich der sozialen Medien verwendet. Ein großes Beispiel bildet das von Facebook verwendete Framework Hadoop, dass eine objektoriente Datenbank realisiert. Die Verwertung der Daten geschieht mithilfe von Data Fusion, Data Mining und maschinellem Lernen. Mit diesen Algorithmen können sehr genaue Analysen vorgenommen werden, aber diese sind sehr rechenintensiv und müssen je nach Anwendungsfall in Echtzeit geschehen. Denn wenn ein Kunde auf Amazon einen bestimmten Artikel sucht, müssen die anderen interessanten Artikel innerhalb von kürzester Zeit bestimmt werden. Ansonsten hat der Kunde die Seite bereits verlassen und die gesamte Analyse ist nicht mehr von nutzen. Deswegen muss eine entsprechend große Rechenleistung geliefert werden und dies geschieht vorwiegend durch horizontale Skalierung, das heißt das Hinzufügen weiterer Rechner anstelle der vertikalen Skalierung, bei der die Leistung eines einzelnen Rechners gesteigert wird. Dabei wird die Berechnung aufgeteilt in kleinere Teilberechnungen zerlegt, die parallel ausgeführt werden. Anschließend werden diese Teilergebnisse zu einer Gesamtlösung vereint. Diesen Ansatz nutzt das von Google 2004 eingeführte MapReduce-Framework, bei dem der Anwender nur die Funktionen zur Lösung der Teilaufgaben und zur Zusammenführung definieren muss.

Data Fusion

Die Daten, auf denen Big Data arbeitet, sind vielfältig aber unvollständig und ungenau. Dies kann die die Qualität der Analyse stark beeinträchtigen und anfällig für einzelne Abweichungen machen. Deswegen werden die verschiedenartigen Daten aufbereitet zusammen auf einer höheren Abstraktionsebene vereinigt. Dies bedeutet, dass die einzelnen feinen Daten zu komprimierteren Daten vereinigt werden, die sowohl eine geringere Fehlerrate als auch einen höheren Informationsgehalt aufweisen. Durch diese Reduktion können nicht nur präzisere und robustere Vorhersagen getroffen werden, es wird auch die Menge der zu betrachteten Daten reduziert, sodass eine bessere Skalierung mit vielen verschiedenen Quellen möglich ist. Dieses Prinzip ist nicht neu, es existiert auch in der Natur, wo sowohl Tiere als auch Menschen ihre Sinne kombinieren, um ihre Umwelt wahrzunehmen. Sie sehen die Topographie des Geländes und die vorhandene Vegetation. Sie hören andere lebendige Tiere und können dadurch ihre Position und Art abschätzen. Und sie riechen die Fährten der verschiedenen Tiere. Durch die Zusammenführung dieser Eindrücke erhalten sie einen guten Überblick, welche möglichen Bedrohung in ihrer Umwelt existieren und wo sich ihre Beute aufhält. [HM12]

Maschine Learning

Maschinelles Lernen bezeichnet das Verfahren, einen Algorithmus diverse Eingaben und eventuell auch den erwarteten Ausgaben zu versorgen. Dann soll dieser anhand dieser Vorgaben erlernen, wie die gegebenen Daten zu verarbeiten sind, um das gewünschte Ergebnis oder eine vertretbare Näherung zu erreichen. Diese Algorithmen werden zum Beispiel durch künstliche neuronale Netze realisiert, in denen ein menschliches Gehirn durch den Computer simuliert und die Vernetzung der einzelnen Neuronen modifiziert wird. Das maschinelle Lernen dient allgemein dazu, Zusammenhänge innerhalb von Daten herauszuarbeiten, entweder durch Klassifikation, Gruppierung, Mustererkennung oder dem Erlenen von bestehenden Regeln. Beliebte Beispiele sind die automatische Spracherkennung, die die verschiedenen Akzente der Sprecher erlenen muss.

Fazit

Big Data bietet dem Menschen ein großes Potential um unser Leben zu verbessern. Durch die Analyse von Jahrzehnten von Wetterdaten können Unwetter genauer vorhergesagt werden. Auch Firmen profitieren, denn durch Auswertung des Kaufverhaltens ihrer Kunden können sie personalisierte Werbung bieten und dementsprechend ihren Umsatz steigern. Den Möglichkeiten sind keine Grenzen gesetzt und die Forschung im Bereich Big Data ist im starken Wachstum. Trotzdem betrachten wir es skeptisch, dass alle Daten gespeichert werden, die ein Mensch in seinem Leben hinterlässt. Denn auch wenn er sich entscheiden kann, mit seinen persönlichen Informationen sparsam umzugehen, so hat er keinen Einfluss auf seinen passiven digitalen Fußabdruck. Und dieser ermöglicht eventuell eine genaue Überwachung wie zum Beispiel Bewegungsprofile basierend auf den Verbindungsdaten seines Handy.

Informationen sind das Öl des 21ten Jahrhunderts und ihre Analyse ist der Verbrennungsmotor
Peter Sondergaard, Senior Vice President, Gartner


Florian Brandt


Literaturverzeichnis