Big Data und Migrationsforschung

In diesem Beitrag möchte ich zwei Themen in Zusammenhang bringen, die üblicherweise selten in einem Atemzug genannt werden: Big Data und Migrationsforschung.

Hierzu muss zuerst einmal definiert werden, was unter dem Begriff „Big Data“ zu verstehen ist. Mit Sicherheit denken die meisten Leser intuitiv an Google und Facebook und liegen damit nicht ganz falsch – aber eben auch nicht vollkommen richtig. Das, was heute unter dem Begriff „Big Data“ subsumiert wird, war ursprünglich als „Organic Data“ bekannt geworden und verstand jegliche digitale Daten, die automatisch von Systemen erstellt werden (Couper 2013: 146). Einen lesenswerten Einstieg in das Thema Big Data liefert folgender Beitrag in der SZ:

http://www.sueddeutsche.de/digital/big-data-wenn-daten-sprechen-1.1562758

Üblicherweise werden drei Arten von Big Data unterschieden: administrative Daten, transaktionale Daten und Daten aus sozialen Netzwerken (Couper 2013: 146). Administrative Daten bezeichnen alle Daten, die von Personen oder Organisationen für staatliche Aufgaben gesammelt werden. Hierunter fallen z.B. Daten von statistischen Ämtern oder Einwohnermeldeämtern. Transaktionale Daten bezeichnen Informationen, die als Beiprodukt bestimmter Aktivitäten generiert werden. Hierzu zählen unter anderem Kreditkarten-Transaktionen, Telefonaufzeichnungen oder der (vermutlich) prominenteste Fall des individuellen Internet-Verhaltens, z.B. Suchverläufe oder Browser-Historien. Daten aus sozialen Netzwerken beziehen sich hingegen auf Informationen, die von Nutzern (freiwillig) auf entsprechenden Internetseiten geteilt werden, z.B. Facebook oder Twitter.

Big Data – vor allem administrative Daten von statistischen Ämtern oder Einwohnermeldeämtern – werden bereits umfassend in der Migrationsforschung eingesetzt. In der Regel erhalten die Forscher dabei jedoch einen von den staatlichen Stellen aufbereiteten Datensatz, der dann in gewohnter Form für Analysen verwendet wird. Zum Beispiel lässt sich die Arbeitsmarktintegration oder die residentielle Segregation von Migranten mit Daten des Mikrozensus (Granato 2009; Janßen & Schroedter 2007) oder anderen amtlichen Quellen bearbeiten (Friedrichs 2014). Im Folgenden soll daher der Fokus auf den letzteren beiden Arten von Big Data liegen: transaktionale Daten und Daten aus sozialen Netzwerken. Die verschiedenen Formen von Big Data teilen bestimmte Merkmale, die sich an zwei zentralen Kategorien erläutern lassen: Volumen und Geschwindigkeit.

Volumen: Die Datenmengen, die für Big Data anfallen, übersteigen regelmäßig die Leistung üblicher Computerprozesse hinsichtlich Lagerung, Verarbeitung und Analyse der Daten. Die Nutzung von Big Data erfordert daher i.d.R. größere Speicher- und Verarbeitungskapazitäten als z.B. Befragungsdaten. Das große Volumen ist dabei u.a. durch das zweite charakterisierende Merkmal von Big Data verursacht.

Geschwindigkeit: Big Data werden häufig in engen zeitlichen Intervallen erzeugt. Insbesondere Daten, die als Nebenprodukt von elektronischen Systemen anfallen, werden vielfach im Minuten oder Sekundentakt generiert und gespeichert. Beispiele hierfür sind u.a. Zugriffszahlen auf Homepages oder Kreditkarten-Transaktionen. Da solche Aktivitäten in Echtzeit gespeichert und verarbeitet werden, erzeugen sie sehr umfangreiche Datenmengen.

Ein zentrales Problem der beschriebenen Daten ist, dass sie reich an Fällen aber arm an Variablen sind. Da die Daten i.d.R. nicht primär zu Analyse- oder Forschungszwecken erhoben werden, enthalten sie häufig nur eine begrenzte Anzahl an Informationen – diese dafür aber für eine sehr große Anzahl an Beobachtungsobjekten, z.B. Personen.

Wie lassen sich nun solche Daten für die empirische Migrationsforschung nutzbar machen?

Eine öffentlichkeitswirksame Studie von Kosinski und Kollegen (2013) konnte zeigen, dass sich aus dem Nutzerverhalten von Facebook-Mitgliedern eine Reihe persönlicher Merkmale ableiten lassen. Insbesondere die Vorhersage, ob ein Nutzer schwarz oder weiß ist, lässt sich mit 95% nahezu perfekt aus seinen Likes vorhersagen. Die hierfür genutzten Daten enthielten zwischen einem und 700 Likes mit einem Medianwert von 68 Likes. Es erfordert also keine allzu großen Datenmengen, um Afroamerikaner oder weiße Amerikaner ausschließlich anhand ihres Nutzungsverhaltens bei Facebook zu identifizieren. Berücksichtigt man nun, dass sozialen Netzwerken i.d.R. noch weit vorhersagekräftigere Daten zur Verfügung stehen – z.B. Informationen über Freundschaftsbeziehungen oder den Wohnort – kann man davon ausgehen, dass sich Personen mit Migrationshintergrund – auch in Deutschland – relativ zweifelsfrei identifizieren lassen. Stünden diese Informationen der empirischen Migrationsforschung zur Verfügung, wären die Analysemöglichkeiten nahezu unbegrenzt. Insbesondere ließen sich mit diesen Daten Fragen beantworten, die sich mit der amtlichen Statistik oder mit Befragungsdaten bislang nur unzureichend bearbeiten lassen.

Um das Potential von Big Data zu verdeutlichen, möchte ich im Folgenden zwei mögliche Fragestellungen der Migrationsforschung nennen, die sich mit diesen Daten bearbeiten ließen:

  •  Mit Hilfe georeferenzierter Daten aus sozialen Netzwerken ließen sich Studien zu transnationaler Mobilität anfertigen. Studien zu diesem Thema erweisen sich bislang als problematisch, weil das Phänomen relativ selten ist und daher sehr umfangreiche oder sehr spezifische Datensätze benötigt werden. Zudem werden Längsschnittdaten benötigt, welche dieselben Personen über einen längeren Zeitraum beobachten. Daten aus sozialen Netzwerken würden diese Anforderungen erfüllen, da Reisen – häufig unter exakter Angabe des Aufenthaltsortes –einen zentralen Inhalt in sozialen Netzwerken darstellen. Laut einer unternehmensinternen Facebook-Studie beziehen sich 42% der Posts auf Facebook auf Reiseerfahrungen. Reisen stellen damit den am häufigsten geteilten Inhalt auf Facebook dar. Informationen wie Ziel, Dauer oder Häufigkeit individueller Reisen ließen sich in vielen Fällen aus den Posts der Nutzer generieren. Daher ließe sich unter Zugriff auf geteilte Inhalte bei sozialen Netzwerken die Frage beantworten, welche Personen wie häufig und aus welchen Gründen zwischen mehreren Nationalstaaten pendeln. Vergleichbare Studien sind in der deutschen Migrationsforschung bislang noch Mangelware (Constant & Zimmermann 2012).
  •  Daten aus dem Kurznachrichtendienst Twitter sind sehr gut geeignet, um die Ausbreitung und Nutzung von zweit- oder muttersprachlichen Fremdsprachen zu untersuchen. Der große Vorteil dieses Vorgehens wäre, dass man sich – anders als in den meisten Befragungen – nicht auf subjektive Selbsteinschätzungen verlassen muss, sondern die aktive Nutzung der Sprache direkt untersuchen kann. Mit Hilfe georeferenzierter oder nutzungsspezifischer Daten ließen sich zudem regionale Dialekte oder subkulturelle Umgangssprachen untersuchen. Auch hierzu gibt es noch umfangreichen Forschungsbedarf in der deutschen Migrationsforschung.

Die präsentierten Ideen zeigen nur zwei Möglichkeiten auf, wo Big Data die empirische Migrationsforschung befruchten könnte. Das größte Problem für die wissenschaftliche Forschung stellt dabei die Nutzbarmachung der Daten dar. Da die Daten zu großen Teilen von privatwirtschaftlichen Organisationen gesammelt werden, sind diese nicht – wie öffentlich finanzierte Daten – frei zugänglich. Angesichts des großen Potenzials erscheinen jedoch größere Bemühungen diese Quellen nutzbar zu machen durchaus lohnenswert.

 

Literatur:

Constant, Amelie F. & Zimmermann, Klaus F. 2012. The Dynamics of Repeat Migration: A Markov Chain Analysis. International Migration Review 46(2), 362–388.

Couper, Mick P. 2013. Is the Sky Falling? New Technology, Changing Media, and the Future of Surveys. Survey Research Methods 7(3), 145-156.

Friedrichs, Jürgen 2014. Kontexteffekte von Wohngebieten. Kölner Zeitschrift für Soziologie und Sozialpsychologie 66, 287-316.

Granato, Nadia 2009. Effekte der Gruppengröße auf die Arbeitsmarktintegration von Migranten. Kölner Zeitschrift für Soziologie und Sozialpsychologie 61, 387-409.

Janßen, Andrea & Schroedter, Julia H. 2007. Kleinräumliche Segregation der ausländischen Bevölkerung in Deutschland: Eine Analyse auf der Basis des Mikrozensus. Zeitschrift für Soziologie 36(6), 453-472.

Kosinski, Michal; Stillwell, David & Graepel, Thore 2013. Private traits and attributes are predictable from digital records of human behavior. Proceedings of the National Academy of Sciences of the United States of America (PNAS) 110(15), 5802-5805. Download-Link: http://www.pnas.org/content/110/15/5802.full.pdf

 

Weitere Links zum Thema Big Data:

http://www.wired.com/2008/06/pb-theory/

http://www.zeit.de/2013/02/Big-Data

Advertisements

Ein Gedanke zu “Big Data und Migrationsforschung

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s