Transparenz Virtuelle Identität - Anonymität bei Twitter
patrick.demel.uni-linz, 24. Juni 2015, 17:23
Der Artikel „On the Internet, Nobody Knows You’re a Dog“: A Twitter Case Study of Anonymity in Social Networks von Sai Teja Peddinti, Keith W. Ross und Justin Cappos (Okt. 2014), den ich in folgendem Beitrag behandle, ist eine quantitative Studie über die Häufigkeit und das Verhalten von anonymen und identifizierbaren Twitter-Usern.
„In this work we use Twitter to study the prevalence and behavior of Identifiable users (those disclosing their full name) and Anonymous users (those disclosing neither their first nor last name).“
Einführung:
In sozialen Netzwerken wie Facebook und Google+ wird eine Real-Name policy verfolgt, sprich die User werden dazu gedrängt (neben anderen Daten) ihren richtigen und vollständigen Namen anzugeben, wenn sie einen Account erstellen. Angeblich werden diese Daten verlangt, um eine bessere Usererfahrung gewährleisten zu können. Die Qualität des Contents könne verbessert, Spam-Nachrichten, Mobbing und Hacking eingeschränkt werden. Dass der Hauptgrund für eine Real-Name policy das erleichterte Sammeln und zuordnen von Daten ist, wird von den Social Network Sites selten erwähnt. Viele Verfechter der Privatsphäre im Internet sind der Ansicht, dass die Real-Name Policy die Freiheit im Netz aushöhlt.
Die Autoren der Studie haben sich nun mit der Frage beschäftigt, wie sich die mögliche Anonymität in sozialen Netzwerken wie Twitter auf das Verhalten der Nutzer auswirkt beziehungsweise wie stark das Angebot anonym zu bleiben wahrgenommen wird.
Kurz zu Twitter:
Ist ein soziales Micro-Blogging Netzwerk.
Ein Account besteht aus vier Teilen:
- dem Account-Profil bestehend aus einem Screen-Name, einem Namen (ob dies der echte Name ist oder nicht ist dem Nutzer überlassen), einer kleinen Textbeschreibung, einem Foto und einem URL (der entweder auf ein anderes soziales Netzwerk führt oder zu etwas das der User unterstützt.
- einer Liste von Tweets die von dem User gepostet wurde (max. 140 Zeichen + Links)
- einer Liste von „Freunden“ (wenn ein Twitter User einem anderen folgt wird der andere für ihn zum „Freund“)
- einer Liste von Followern (alle User die diesem User folgen)
Sammlung des Datensets und Charakteristiken:
Die Autoren sammeln zwei verschiedene Datensets. Diese sehen wie folgt aus.
Accounts:
Für die Analyse wurde ein zufälliges Sample von 100.000 Twitter Usern herangezogen. Dies wurde zufällig aus einem Datenset von 41,7 Millionen Twitter Accounts von 2010 ausgewählt. Nachdem Spam-User und kurzzeitige User, inaktive User und nicht Englisch-sprachige Accounts entfernt wurden, blieb ein Sample von 50.137 Twitter Accounts übrig. Diese Accounts wurden mithilfe der Plattform Amazon Mechanical Turk in fünf Kategorien eingeteilt:
- Anonymous: Beinhaltet weder den Vor- noch Nachnamen und keinen Url im Profil, der zu einer anderen Seite verlinkt, die eine Identifikation zulässt.
- Identifiable: ein Twitter Acoount der sowohl Vor- als auch Nachnamen beinhaltet
- Highly Identifiable: ein Twitter Account der einer Person zuordenbar ist und zusätzlich einen Link auf ein anderes soziales Netzwek-Profil, in dem der vollständige Name angegeben wird, enthält.
- Partially Anonymous: ein Twitter Account der Vor- oder Nachnamen beinhaltet, aber nicht beides.
- Unclassifiable: zum Beispiel Twitter Accounts von Organisationen oder Unternehmen
Followers von sensiblen und nicht sensiblen Accounts:
Die Autoren wollen evaluieren, ob die Sensibilität des Inhalts eine direkte Korrelation mit dem Bedürfnis nach Anonymität aufweist. Zu diesem Zweck wird ein zweites Datenset erstellt, das aus 50 Accounts über verschiedene sensible Themen und 20 Accounts über verschiedene nicht sensible Themen besteht. (Es sind mehr sensible Accounts, da diese meist eine geringere Anzahl an Followern haben.) Zu den sensiblen Themen zählen die Autoren: Pornografie, Escort-Services, sexuelle Orientierung, religiöser und völker-bezogener Hass, online-Medikamente und Waffen. Als Beispiele für nicht sensible Themen nehmen die Autoren: Nachrichtenseiten, Familienerholung (family recreation), Filme/Theater, Kinder/Babys und Firmen und Organisationen.
Von jedem dieser Accounts werden nun 1000 Follower analysiert und wieder in die 4 Kategorien Anonymous, Identifiable, Partially Identifiable, Highly Identifiable unterteilt.
Reslutate:
Bei der Quantifizierung der Anonymität kamen die Autoren zu dem Ergebnis, dass 5,9% der analysierten Accounts unter die Kategorie Anonymous fallen und 20% der Accounts unter die Kategorie Partially Anonymous. Die Autoren schließen daraus, dass die Anonymität ein wichtiges Feature für eine große Zahl an Nutzern ist.
„This signifies that online anonymity is important in Twitter, and not having a Real-Name policy could be a strong selling point for a social network.“
In einem Artikel über die Nutzung von Facebook den Robert Gmeiner in seinem Blog vorstellt kommen die Autoren zu dem Ergebnis, dass Menschen die Facebook verlassen, dies oft aus Angst vor Überwachung und/oder Eingriffen in ihre Privatsphäre tun. Dies sind Nutzer die potentiell auf anonyme soziale Netzwerke ausweichen möchten. Die Aussage der Autoren, dass Anonymität als selling point verwendet werden könnte ist also durchaus nachvollziehbar.
Die identifizierbaren User machen 67.9 % aus allerdings muss gesagt werden, dass die angegeben Namen nicht den tatsächlichen Namen der User entsprechen müssen. Die Bearbeiter von Mechanical Turk wurden nur angewiesen nach plausiblen Vor- und Nachnamen zu suchen, somit ist eine unbekannte Anzahl der Identifiable User-Kategorie in Wirklichkeit anonym (z.B. Nutzer die sich Adam Smith nennen obwohl dies nicht ihr richtiger Name ist).
Labelled Data for Quantifying Anonymity
Anonymität bei sensiblen Accounts:
Wie erwartet haben die Accounts, die sensible Inhalte postulieren, einen sehr hohen Prozentsatz an anonymen Followern. Bis auf die Kategorie Online Drugs haben alle sensiblen Kategorien mehr als 10 % anonyme Follower. Pornografie, Marijuana, Islamophobie, und Schwule/Lesben, haben alle mehr als 21,6% angeführt von der Pornografie mit 37,3%.
Das Interesse der Autoren konzentriert sich bei der Analyse der Daten offensichtlich auf die Identifiable und die Anonymous User. In folgender Grafik sind die Kategorien absteigend nach anonymen Followern geordnet. Man kann sehr gut erkennen, dass die Pornografie ein Thema zu sein scheint, mit dem viele Personen nicht persönlich in Verbindung gebracht werden können wollen, wohingegen White Supremacy und Antisemitismus vergleichsweise wenig anonyme Follower hat. Dies liegt wahrscheinlich an der unterschiedlichen Natur der Themen. Das eine wird mit der Befriedigung von persönlichen Bedürfnissen, das andere mit einer persönlichen Überzeugung in Verbindung gebracht.
Sensitive and Non-Sensitive Twitter Account Categories: Follower Distribution
Man kann in der oben stehenden Grafik erkennen, dass es mehr anonyme Follower bei sensiblen Themen gibt und mehr identifizierbare bei nicht-sensiblen. In der nächsten Grafik illustrieren die Autoren durch die Gerade y = 0,905*x-0,305 den Schnitt zwischen sensiblen und nicht sensiblen Themen anhand der Relation von anonymen Nutzern zu identifizierbaren Nutzern.
Sensitive and Non-Sensitive Twitter Accounts
Die Autoren hoffen aufgrund dieser Ergebnisse einen „sensitive account detector“ entwickeln zu können. Dieser soll die automatische Unterscheidung von sensiblen Accounts durch die Analyse der Prozentsätze der identifizierbaren und nicht identifizierbaren Followern ermöglichen.
So eine automatische Unterscheidung könnte auch dabei helfen die Suche nach Accounts mit illegalen Inhalten zu erleichtern, da eine Einschränkung des Suchraums vorgenommen werden kann. Ein Problem von sozialen Netzwerken, die Anonymität zulassen, ist die erhöhte Gefahr von Missbrauch durch Individuen mit unlauteren Motiven und Accounts mit illegalen Inhalten. Ein solcher Detektor könnte eine Verbesserung der Kontrollmöglichkeiten für solche Accounts ermöglichen.
Verhaltensanalyse:
Highly Identifiable User haben mehr Freunde, mehr Follower und posten mehr Tweets, was darauf schließen lässt, dass diese sozial aktiver sind.
Die Identifiable User sind das andere Extrem. Sie haben weniger Freunde, Follower und Tweets. Die Anonymous User tendieren dazu, mehr Freunde zu haben als die Identifiable User. Dies wird daran liegen, dass die anonymen Nutzer jeglichen Accounts, auch denen mit sensiblen Inhalten, ohne Bedenken folgen können. Sie müssen sich für ihre „Freunde“ vor niemandem rechtfertigen. Außerdem zeigen anonyme Nutzer weniger Zurückhaltung beim Kundgeben ihrer Meinung, was ihnen anscheinend ermöglicht eine bessere „online brand“ für sich zu schaffen und zu einer höheren Anzahl an Followern führt.
Der Median für die Anzahl an Freunden von „Highly Identifiable und Anonymous groups“ liegt bei 432 und 456,6 wohingegen die „Identifiable groups“ nur bei 151 liegt.
Der Median für die Anzahl an Tweets liegt für Identifiable, Anonymous und Highly Identifiable bei 145, 423 und 790. Die anonymen Nutzer posten also auch mehr Tweets als die identifizierbaren.
Die wichtigste Erkenntnis aus dieser Sektion ist, dass die anonymen Nutzer von Twitter im Vergleich zu den identifizierbaren Nutzern (ausgenommen Highly Identifiable) die aktiveren und die weniger gehemmten Nutzer sind.
„… Anonymous users are generally more active participants than Identifiable users, as they tweet more, lurk less, follow more accounts, and are more willing to expose their activity to the general public.“
Diskussion des Artikels:
Ich finde Anonymität in sozialen Netzwerken ist ein sehr zweischneidiges Schwert. Einerseits ist sie bedenklich, weil ich glaube, dass die „Aufsicht“ von Freunden, Bekannten, Verwandten viele Menschen dazu bringt, zu versuchen sich von ihrer besten Seite zu zeigen. Wenn diese „Aufsicht“ nicht mehr vorhanden ist, passiert es manchen Menschen wahrscheinlich leichter sich auf die „dunkle Seite“ des Internets ziehen zu lassen. Ebenso öffnet es illegalen und verwerflichen Aktivitäten Tür und Tor. Wenn es keine Konsequenzen für die reale Person gibt, kann die virtuelle Person auch dementsprechend handeln und schwerer für ihr Handeln belangt werden. Andererseits finde ich, dass jeder Mensch das Recht haben sollte selbst darüber zu entscheiden, ob er/sie sich anonym im Internet bewegen möchte oder nicht. Zusätzlich ist die Anonymität in Zeiten des Big Data die einzige Möglichkeit, nicht vollständig zum „gläsernen Mensch“ zu werden und die Aufzeichnung sämtlicher online-Aktivitäten zu verhindern, sofern man nicht auf soziale Netzwerke verzichten möchte und deswegen sehr wichtig. Außerdem kann Anonymität einen neutralen Raum schaffen, indem Menschen unerkannt über Probleme oder Vorlieben sprechen können, wie zum Beispiel sexuelle Orientierung oder Suchtverhalten. Meine Kollegin Marion Katharina Kitzberger beschreibt dies ebenfalls in ihrem Artikel über virtuelle Identität.
Aus dem Artikel geht nicht klar hervor wie die teilweise identifizierbaren Accounts ausgewertet werden, da von diesen eigentlich kaum mehr die Rede ist. Da teilweise identifizierbare Accounts (also Accounts die entweder Vor- oder Nachnamen beinhalten) durchaus auch einen relevanten Teil an anonymen Personen ausmachen, hätten die Autoren zumindest rechtfertigen sollen, warum diese bei der Analyse kaum oder gar nicht mehr erwähnt werden.
Quelle:
Sai Teja Peddinti, Keith W. Ross, Justin Cappos (2014). „On the Internet, Nobody Knows You’re a Dog“: A Twitter Case Study of Anonymity in Social Networks.
Welcome to Twitter...
balazs.szaradics.uni-linz, 10. Dezember 2014, 22:00
Da hat man schon kein Glück ohne Anmeldung zu Twittern und dann kommt noch Pech - wegen nur "theoretisch anonyme Daten" - dazu...
LINK zur Studie von Arvind Narayanan and Vitaly Shmatikov