Startseite  >>   Internet  >>  Big Data

Big Data

Was ist Big Data und warum betrifft es auch dich? 

Mit Big Data bezeichnet man die Zusammenführung und Auswertung großer Datenmengen aus vielen, ganz unterschiedlichen Quellen. Die Digitalisierung von immer mehr Lebensbereichen führt zu einem nie da gewesenen Datenaufkommen. Telekommunikation, Finanzwesen, Energie, Verkehr, Gesundheitswesen, Surfen, Chatten, Gamen oder Fernsehen, erzeugen immer mehr Datenspuren. Jede Datenspur ist wie ein einzelner Tropfen, der ins große Datenmeer fällt.

Internetkonzerne wie Google, Amazon oder Facebook analysieren die Daten ihrer Kunden, erstellen daraus Nutzerprofile und vermarkten sie, indem sie Konsumenten gezielte Werbungen oder Kaufempfehlungen anbieten. Mithilfe moderner Programme (Algorithmen) werden die Daten analysiert, gefiltert, nach bestimmten Kriterien geordnet

Für das „Internet der Dinge", das über kurz oder lang Sensoren, Energiezähler und Alltagsgeräte bis hin zu Kühlschränken, Kaffeemaschinen, Rollladensteuerungen oder Rasensprengern umfassen soll, werden bis 2020 fünfzig Milliarden teilnehmende Geräte prognostiziert. Viele davon werden Daten produzieren, die personenbeziehbar Nutzungsgewohnheiten erkennen lassen. Ergänzend liefern GPS-fähige Geräte wie Smartphones, Digitalkameras oder Navigationslösungen Standortdaten und ermöglichen Bewegungsprofile oder, in Verbindung mit sog. Location-based-Services, auch Konsum- und Verhaltensprofile. Aktuellen Berechnungen zufolge verdoppelt sich das weltweite Datenvolumen alle zwei Jahre.

Big Data
Quelle: LfM-NRW

IBM bezeichnet die kommenden zehn Jahre als "Decade of Smart", in der Verkehr, Energienutzung, Gesundheitswesen oder Wohnen und Leben von smarten, sprich mit Informationstechnik versehenen kommunikationsfähigen Lösungen, gekennzeichnet sein werden. Der Umfang der daraus resultierenden Datenbestände wird immens sein. Gegenwärtig werden laut Eric Schmidt, dem ehemaligen Google-Chef, in zwei Tagen so viele Daten erzeugt, wie zuvor vom Beginn der menschlichen Zivilisation bis zum Jahr 2003.

Aber die Speicherung alleine ist nicht das Problem. Die technischen Möglichkeiten erlauben es mittlerweile, diese immensen Datenmengen zusammenzuführen, auszuwerten, zu analysieren und visualisieren und verborgene Zusammenhänge aufzuzeigen. Seit kurzem ist es z.B. möglich, ein Petabyte an Daten - das entspricht der Datenmenge von 13 Jahren HD-Video-Filmen - innerhalb von einer halben Stunde zu sortieren; hierfür wurde die Aufgabe auf ein System von 8.000 Servern verteilt.

Diese technischen Möglichkeiten sind die Grundlage für spezielle Vorhersagemodelle. Nutzungs- und Standortdaten werden zu Kommunikations-, Konsum-, Verhaltens- und Bewegungsprofilen verdichtet und mit anderen Daten gemischt und erlauben einen Blick in die Zukunft. Zum Beispiel Voraussagen, wo sich eine Person zu einem bestimmten Zeitpunkt aufhalten und was sie dann tun wird. Vor einiger Zeit konnte Google allein aufgrund der Suchanfragen in seiner Suchmaschine eine Grippewelle voraussagen. In den USA nutzt die Polizei in einigen Städten sogenannte Predictive Software, d.h. ein Programm, das abschätzt, in welchen Stadtteilen zu welcher Tageszeit die größte Wahrscheinlichkeit für Einbrüche oder Diebstähle besteht. Ein Computer-Algorithmus analysiert dafür Daten aus Pendlerströmen, Daten über die Wohngebiete, die dortige Bevölkerungsstruktur und statistische Daten.

Aus Sicht der Datenschützer ist eines der Probleme bei diesem "Data Mining", dass es nicht unbedingt darauf ankommt, dass die Daten personenbezogen sind. Durch die Datenmenge, die unterschiedlichen Datenquellen, die Zusammenführung und den Datenabgleich kann ein "scharfes Bild" entstehen, das leicht einer konkreten Person zugeordnet werden kann, auch, wenn man zunächst keinen Namen oder Wohnort hatte.

So wie der Schufa-Wert darüber entscheidet, ob man einen Kredit bekommt oder einen Handyvertrag, könnte der Wert eines "Social Scorings" eines Tages beeinflussen, ob man eine Einladung zu einem Vorstellungsgespräch erhält oder nicht.


Donald Trump: Wahlsieg dank Big Data?

Joe, ein 52 Jahre alter Farmer aus Texas, scrollt am Abend durch seinen Facebook-Newsfeed und entdeckt einen neuen Post Donald Trumps. Das Bild zeigt einen Mann und einen Jungen mit Gewehren vor einem idyllischen Sonnenuntergang im Feld; darüber steht, dass Trump sich gegen eine Verschärfung des Waffengesetzes ausspricht. Die Demokraten hingegen würden immer wieder drohen, den Bürgern ihre Waffen zu nehmen und sollte Hillary Clinton erst einmal an die Macht kommen, werde das auch passieren.
Derselbe Post wird Melanie aus Kalifornien, 35 Jahre alt, niedriger Bildungsstand, alleinerziehend, angezeigt – obwohl sie Donald Trumps Seite gar kein Like gegeben hat. Allerdings ist kein idyllisches Sonnenuntergangs-Panorama zu sehen, sondern ein Einbrecher, der gerade eine Fensterscheibe einschlägt. Melanie hat wenig Geld und sorgt sich außerdem um ihren Sohn – wie soll sie sich ohne ihre Waffe verteidigen?
Beide, Joe und Melanie, geben dem Beitrag ein „Like“ – und damit einer bis dahin kaum bekannten britischen Firma die Bestätigung, sie richtig eingeschätzt zu haben.

So hat es Alexander Nix, CEO der Firma „Cambridge Analytica“, welche an Donald Trumps Wahlkampfmanagement beteiligt war, dargestellt: Anhand ihrer Facebook-Likes könnten über Menschen überraschend zutreffende Aussagen gemacht werden. 68 Likes würden reichen, um die Hautfarbe einer Person zu bestimmen; bei 150 Likes könne man sie besser einschätzen als ihre eigenen Eltern.Die Anzahl der hochgeladenen Bilder gebe Auskunft darüber, wie extrovertiert und offen für Neues sie ist. Ob sie modern oder eher konservativ ist, sei ebenfalls schnell bestimmt. Und so kann Cambridge Analytica sehr effektive Arbeit leisten: Je genauer ein Mensch eingeschätzt werden kann, desto genauer können die Beiträge, die ihm angezeigt werden sollen, auf ihn angepasst werden.

So komme es, dass eine einzige Aussage Donald Trumps auf 175.000 verschiedene Arten dargestellt werde, je nachdem, welche Person angesprochen werden soll. Die Beiträge würden sich dabei oft nur in kaum merklichen Details unterscheiden – einer minimal veränderten Formulierung oder etwa einer anderen Schriftfarbe.
Die Grundlage zur psychologischen Einschätzung einer Person seien dabei nicht bloß die Gefällt mir-Angaben, die sie verteilt hat; sie müsse zuvor eine Art Persönlichkeitstest gemacht haben. Facebook ist voll davon: Die Tests sehen harmlos aus, versprechen, mehr über sich selbst herauszufinden. Etwa, ob man ein weltoffener oder mutiger Mensch ist und wie hoch der eigene IQ ist. Das Ergebnis wird geteilt und durch Posts wie „Mein IQ liegt bei 125, wie hoch ist deiner?“ werden Freunde zum Mitmachen animiert. Der erste solcher Tests, „MyPersonality“, wurde 2008 von dem Doktoranden Michal Kosinski auf Facebook veröffentlicht mit der Erwartung, dass sich ein paar Freunde und Studienkollegen beteiligen würden. Doch bald hatten Millionen Menschen den extrem persönlichen Fragebogen ausgefüllt – und Kosinski verfügte unverhofft über den größten jemals erhobenen psychologischen Datensatz.
Auch Cambridge Analytica hat zahlreiche solcher Tests erfunden. Sie sind kostenlos – augenscheinlich: Tatsächlich zahlt man mit äußerst wertvollen und sehr persönlichen Informationen und erweitert so die Datenbanken des Konzerns.

Sind ausreichende Informationen vorhanden, wird der Nutzer so genau wie möglich eingeschätzt – je mehr Informationen über ihn zur Verfügung stehen, desto exakter fällt die Beurteilung aus. Ist er offen für Neues? Ist er mutig oder eher ängstlich? Ist er extrovertiert und mag Selbstdarstellung oder ist er unsicher und introvertiert?
Das zu Beginn genannte Beispiel zeigt, wie unterschiedlich die Beiträge aussehen können: Konservativen, selbstsicheren Typen, so Alexander Nix, werde das Sonnenuntergangs-Bild angezeigt. Unsichere, ängstliche Typen bekämen das Bild der eingeschlagenen Scheibe zu sehen. Die Beiträge seien so spezifisch abstimmbar, dass sogar Dörfer, Häuserblocks und einzelne Personen direkt angesprochen werden könnten. Für die Bewohner des Stadtteils „Little Haiti“ in Miami seien beispielsweise Facebook-Anzeigen gekauft worden, die die Nutzer dort immer wieder über das angebliche Scheitern der Clinton-Stiftung nach den Erdbeben in Haiti informierten. Dies sei ein weiterer Schwerpunkt der Arbeit von Cambridge Analytica gewesen: Es sollte nicht nur Werbung für Donald Trump gemacht werden, sondern vorallem auch demokratische Wähler davon abgehalten werden, Hillary Clinton ihre Stimme zu geben.

All diese Möglichkeiten der Einflussnahme auf potenzielle Wähler wurden von dem eigentlichen Erfinder der Methode, Michal Kosinski, als hochgefährlich angesehen: Noch während er daran forschte, wie Menschen anhand ihrer Online-Aktivitäten möglichst genau eingeschätzt werden können, versah er alle seine wissenschaftlichen Arbeiten mit Warnungen. Durch seine Methoden könne „das Wohlergehen, die Freiheit oder sogar das Leben von Menschen bedroht werden“.
Cambridge Analytica war 2014 mit ihm in Kontakt getreten und hatte eine Zusammenarbeit angeboten. Als Kosinski herausfand, um welche Art Firma es sich tatsächlich handelte und was mit den Erkenntnissen angestellt werden sollte, war es bereits zu spät: Seine Methoden wurden kopiert und zwecks wissenschaftlicher Interessen, hauptsächlich Wahlbeeinflussung im großen Stil, genutzt. Und Donald Trump ist nicht der erste Auftrag der Firma: Auch am Brexit war sie beteiligt. Auch Marion Maréchal-Le Pen, Front-National-Aktivistin und Nichte von Marine Le Pen, habe bereits getwittert, dass sie mit Cambridge Analytica zusammenarbeiten werde. Anfragen aus Deutschland gebe es laut Alexander Nix ebenfalls.

Aber hat Donald Trump seinen unvorhergesehenen Wahlsieg tatsächlich Big Data zu verdanken? Michal Kosinski hat gemeinsam mit Sandra Matz, einer Forscherkollegin, wissenschaftliche Analysen bezüglich der Wirksamkeit seiner Methode durchgeführt. Die ersten Ergebnisse sind erschreckend: Klickraten einer Facebook-Werbeanzeige steigerten sich durch Psychologisches Targeting, wie Cambridge Analytica es verwendet, um 60%; die Chance, dass tatsächlich ein Kauf getätigt wird, steigere sich sogar um 1400%.
Zeit-Redakteur Patrick Beuth hingegen bezweifelt derart große Auswirkungen der Methode in seinem Kommentar „Big Data allein entscheidet keine Wahl“. Es gebe keinerlei unabhängige wissenschaftliche Belege für die Funktionalität der Methode – alle Informationen darüber stammten vom Erfinder der Methode selbst und demjenigen, der damit Geld verdiene.

Dennoch: Allein die Tatsache, dass unsere Facebook-Daten gekauft, ausgewertet und nicht mehr nur für „harmlose“ Dinge wie Werbung, sondern zur Beeinflussung weltweit höchst relevanter Wahlen verwendet werden, sollte jedem von uns zu denken geben.