Startseite  >>   Internet  >>  Big Data

Big Data

Was ist Big Data und warum betrifft es auch dich? 

Mit Big Data bezeichnet man die Zusammenführung und Auswertung großer Datenmengen aus vielen, ganz unterschiedlichen Quellen. Die Digitalisierung von immer mehr Lebensbereichen führt zu einem nie da gewesenen Datenaufkommen. Telekommunikation, Finanzwesen, Energie, Verkehr, Gesundheitswesen, Surfen, Chatten, Gamen oder Fernsehen, erzeugen immer mehr Datenspuren. Jede Datenspur ist wie ein einzelner Tropfen, der ins große Datenmeer fällt.

Internetkonzerne wie Google, Amazon oder Facebook analysieren die Daten ihrer Kunden, erstellen daraus Nutzerprofile und vermarkten sie, indem sie Konsumenten gezielte Werbungen oder Kaufempfehlungen anbieten. Mithilfe moderner Programme (Algorithmen) werden die Daten analysiert, gefiltert, nach bestimmten Kriterien geordnet

Für das „Internet der Dinge", das über kurz oder lang Sensoren, Energiezähler und Alltagsgeräte bis hin zu Kühlschränken, Kaffeemaschinen, Rollladensteuerungen oder Rasensprengern umfassen soll, werden bis 2020 fünfzig Milliarden teilnehmende Geräte prognostiziert. Viele davon werden Daten produzieren, die personenbeziehbar Nutzungsgewohnheiten erkennen lassen. Ergänzend liefern GPS-fähige Geräte wie Smartphones, Digitalkameras oder Navigationslösungen Standortdaten und ermöglichen Bewegungsprofile oder, in Verbindung mit sog. Location-based-Services, auch Konsum- und Verhaltensprofile. Aktuellen Berechnungen zufolge verdoppelt sich das weltweite Datenvolumen alle zwei Jahre.

Big Data
Quelle: LfM-NRW

IBM bezeichnet die kommenden zehn Jahre als "Decade of Smart", in der Verkehr, Energienutzung, Gesundheitswesen oder Wohnen und Leben von smarten, sprich mit Informationstechnik versehenen kommunikationsfähigen Lösungen, gekennzeichnet sein werden. Der Umfang der daraus resultierenden Datenbestände wird immens sein. Gegenwärtig werden laut Eric Schmidt, dem ehemaligen Google-Chef, in zwei Tagen so viele Daten erzeugt, wie zuvor vom Beginn der menschlichen Zivilisation bis zum Jahr 2003.

Aber die Speicherung alleine ist nicht das Problem. Die technischen Möglichkeiten erlauben es mittlerweile, diese immensen Datenmengen zusammenzuführen, auszuwerten, zu analysieren und visualisieren und verborgene Zusammenhänge aufzuzeigen. Seit kurzem ist es z.B. möglich, ein Petabyte an Daten - das entspricht der Datenmenge von 13 Jahren HD-Video-Filmen - innerhalb von einer halben Stunde zu sortieren; hierfür wurde die Aufgabe auf ein System von 8.000 Servern verteilt.

Diese technischen Möglichkeiten sind die Grundlage für spezielle Vorhersagemodelle. Nutzungs- und Standortdaten werden zu Kommunikations-, Konsum-, Verhaltens- und Bewegungsprofilen verdichtet und mit anderen Daten gemischt und erlauben einen Blick in die Zukunft. Zum Beispiel Voraussagen, wo sich eine Person zu einem bestimmten Zeitpunkt aufhalten und was sie dann tun wird. Vor einiger Zeit konnte Google allein aufgrund der Suchanfragen in seiner Suchmaschine eine Grippewelle voraussagen. In den USA nutzt die Polizei in einigen Städten sogenannte Predictive Software, d.h. ein Programm, das abschätzt, in welchen Stadtteilen zu welcher Tageszeit die größte Wahrscheinlichkeit für Einbrüche oder Diebstähle besteht. Ein Computer-Algorithmus analysiert dafür Daten aus Pendlerströmen, Daten über die Wohngebiete, die dortige Bevölkerungsstruktur und statistische Daten.

Aus Sicht der Datenschützer ist eines der Probleme bei diesem "Data Mining", dass es nicht unbedingt darauf ankommt, dass die Daten personenbezogen sind. Durch die Datenmenge, die unterschiedlichen Datenquellen, die Zusammenführung und den Datenabgleich kann ein "scharfes Bild" entstehen, das leicht einer konkreten Person zugeordnet werden kann, auch, wenn man zunächst keinen Namen oder Wohnort hatte.

So wie der Schufa-Wert darüber entscheidet, ob man einen Kredit bekommt oder einen Handyvertrag, könnte der Wert eines "Social Scorings" eines Tages beeinflussen, ob man eine Einladung zu einem Vorstellungsgespräch erhält oder nicht.