#Datenauswertung zur #ZDFzoom Sendung

Alles Lüge? Wie im Netz getäuscht wird

Bei ZDFzoom geht es heute sehr viel um eine Analyse, die wir (Morteza Shahrezaye und Simon Hegelich) im Auftrag des ZDF erstellt haben. Hier der Link zur Mediathek.

Wurde die "Flüchtlingsdebatte" auf Facebook manipuliert?

Simon Hegelich/Morteza Shahrezaye

Abstract

Im Auftrag des ZDF hat das Team von Prof. Dr. Simon Hegelich an der Professur Political Data Science (Hochschule für Politik an der Technischen Universität München) die Diskussionen auf Facebook zu Geflüchteten analysiert.

Es konnte gezeigt werden, dass im Umfeld von AfD und PEGIDA hyperaktive Nutzer auf Facebook aktiv sind. Während der durchschnittliche Nutzer auf Facebook relativ passiv ist, d. h. wenig Kommentare schreibt und wenige Beiträge „liked“, sind diese hyperaktiven Nutzer mehrere Stunden täglich damit beschäftigt, bestimmte Beiträge zu kommentieren und zu liken. Dadurch wird die Netzwerkstruktur auf Facebook nachweislich verzerrt: Es entsteht der Eindruck, Posts, die sich gegen Geflüchtete wenden, wären wesentlich populärer und würden häufiger kommentiert. Es ist zu vermuten, dass dieser „Bias“ sich auch auf die Algorithmen auswirkt, mit denen Facebook anderen Nutzern Seiten empfiehlt.

Methodisches Vorgehen

Datenerhebung

Von allen öffentlichen Facebookseiten der Parteien in Deutschland (AfD, CDU, CSU, SPD, NPD, Bündnis 90/Die Grünen, die Linke), ausgewählten Medienseiten (CNN, ZDF, Reuters, RT Deutschland, Spiegel Online, Deutsche Welle, Tagesschau), alle Seiten mit „Pegida“ im Titel und alle Seiten mit „Flüchtlinge“ im Titel wurden nahezu alle Posts, Comments und Likes untersucht. Aufgrund von Beschränkungen der Facebook API ist ein geringer Teil dieser Daten (weniger als 10%) nicht vollständig. Insgesamt wurden 906 Pages, 1.039.090 Kommentare und 6.235.094 Likes analysiert. Die Sammlung der Daten wurde für weitere Analysen wiederholt und die Anzahl der Facebookseiten deutlich ausgeweitet (alle Seiten, die den Namen einer Partei im Titel haben, wurden ergänzt, so dass die Anzahl auf 2.486 steigt und sich Comments und Likes entsprechend ebenfalls mehr als verdoppeln). Die hier präsentierten Ergebnisse beziehen sich auf die erste Version des Datensatzes. Eine Liste der Facebookseiten findet sich hier.

Datenauswertung

Die Daten wurden unter zwei Gesichtspunkten analysiert: Gibt es Hinweise auf Aktivitäten von Hyperaktiven Nutzern? Wie ist die Netzwerkstruktur beschaffen und welchen Einfluss haben Hyperaktive Nutzer.

Die Anzahl der Kommentare pro Nutzer weicht stark von einer Normalverteilung ab, wie das folgende Histogramm zeigt.

Histogramm Kommentare pro Nutzer

Für die Darstellung wurde die Anzahl der Kommentare pro Nutzer auf der Basis 10 logarithmiert. Es ist deutlich zu sehen, dass einige hyperaktive Nutzer extrem stark von den „normalen“ Nutzern abweichen. Der Nutzer aktivste Nutzer hat 3.006 Kommentaren geschrieben. Inhaltlich nahmen die Kommentare meist Nachrichten aus dem Teletext auf, die im Zusammenhang zur Flüchtlingsdebatte standen. Diese Nachrichten wurden durch Kommentare ergänzt, die sich in der Regel gegen die Politik der Regierung und gegen Geflüchtete richteten.

Der Nutzer war dabei über einen längeren Zeitraum nahezu täglich aktiv, wie das folgende Diagramm zeigt.

Timeline Egon

Im Bereich Likes wurden mehrere Nutzer identifiziert, die systematisch Beiträge auf Seiten der so genannten neuen Rechten (also u. a. Pegida und AfD) likten. Auch hier gibt das Histogramm Aufschluss über die extrem ungleiche Verteilung der Likes pro Nuter.

Histogramm Likes pro Nutzer

Ebenso zeigt sich, dass der Nutzer über einen längeren Zeitraum täglich aktiv war.

Timeline Mirco

Netzwerkstruktur

Likes

Die folgenden Plots zeigen die Netzwerkstruktur der Likes, d. h. die Knoten sind die Facebookseiten und die Kanten entstehen dann, wenn mindestens 1 % der Nutzer, die auf der Seiten einen Post oder Comment gelikt haben, auch auf einer anderen Seite einen Like gesetzt haben.

Plot Likes alle Nutzer

Im ersten Plot (oben links) sind die Seiten, die „Pegida“ im Titel haben, rot dargestellt. Man sieht, dass die Pegida-Seiten ein eigenes Cluster ergeben. Es ist zu bedenken, dass auch Pegida-kritische Seiten häufig das Wort „Pegida“ im Titel führen, was die Streuung größtenteils erklärt. Der zweite Plot berechnet Cluster auf Basis der Edge-Betweeness. Dieser Algorithmus findet eine Vielzahl von Clustern, die durch ebenfalls viele Kanten verbunden sind (rote Kanten verbinden Cluster). Beim fast&greedy-Clustering (dritter Plott, unten links) sehen wir, dass die Pegida-Seiten tatsächlich in ein eigenständiges Cluster fallen. Der letzte Plot (unten rechts) zeigt schließlich die k-corness. Das Pegida-Cluster weist einen wesentlich höheren Anteil an geteilten Likes auf, als der Rest des Graph.

Dieses Bild verändert sich allerdings fundamental, wenn die hyperaktiven Nutzer aus der Betrachtung heraus genommen werden. Hyperaktive Nutzer wurden hier definiert als die 1% der aktivsten Nutzer.

Plot Likes ohne Hyperaktive

Interessant ist hier das fast&greedy-Clustering und die k-corness. Im ersten Plot sehen wir, dass sich die Zahl der Cluster erhöht. Das heißt, die hyperaktiven Nutzer tragen zu einer Polarisierung des Gesamtnetzwerks bei. Der zweite Plot zeigt, dass die k-corness deutlich abnimmt (von 149 auf 65). Damit ist das Pegida-Cluster plötzlich nicht mehr viel dichter, als der Rest des Graphen.

Comments

Bei den Kommentaren ist besonders hervorzuheben, dass sich die These einer Filterbubble NICHT bestätigt. Die k-corness zeigt deutlich, dass wir es hier nicht mit einem abgeschlossenen Pegida-Cluster zu tun haben. D. h., Nutzer, die Pegida-Seiten kommentieren, hinterlassen auch Kommentare auf den anderen Seiten und umgekehrt. Andere ideologische Inhalte werden also durchaus zur Kenntnis genommen, aber nicht unbedingt wohlwollend. Gerade die hyperaktiven Nutzer tragen zu diesem „Gedankenaustausch“ bei.

Diskussion

Da die hyperaktiven Nutzer die statistischen Kennzahlen des Netzwerks deutlich verändern, gehen wir davon aus, dass sich dies auch auf die Facebook-Algorithmen auswirken wird. Wir vermuten – da wir keine umfassende Kenntnis der Algorithmen haben –, dass Nutzern, die einmal im Pegida-Cluster landen, automatisch mehr Inhalte aus diesem Cluster vorgeschlagen werden als es ohne die hyperaktiven Nutzer der Fall wäre.

Political Data Science

Dieses Blog durchsuchen