Webwissenschaften: Wenige Cookies genügen und der Tracker weiss, wer du bist

November 2014
Mo	Di	Mi	Do	Fr	Sa	So
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
Oktober

Transparenz & Virtuelle Identitaet Wenige Cookies genügen und der Tracker weiss, wer du bist

carolin barbara andrea.angermayr.uni-linz, 26. November 2014, 11:46

Artikel: Cookies that give you away: Evaluating the surveillance implications of web tracking von Reisman D., Englehardt S., Eubank C., Zimmermann P., Narayanan A., 2014, Department of Computer Science, Princeton University, USA

Die Autoren untersuchen die Möglichkeiten, unabhängig von IP-Adress-Daten, allein durch Sammlung und Auswertung von Cookies, Benutzer im Web eindeutig zu identifizieren. Dazu wurde reales Browsing- bzw. Klickverhalten simuliert, die gewonnenen Cookie-Datensätze in einer Datenbank gesammelt und anschließend ausgewertet. Die Untersuchung zeigt, dass es mit relativ einfachen Mitteln möglich ist, Cookies zum Zwecke der Massenüberwachung zu missbrauchen und mit echten Personendaten in Verbindung zu bringen.

Wissenschaftler des "Department of Computer Science" an der amerikanischen Princeton Universität wurden durch zwei öffentlich gewordene NSA-Dokumente mit knappen Inhalt über Ausspähmethoden im Internet auf die Thematik aufmerksam. Darin wird unter anderem erwähnt, dass die Agency "[...], Cookies, GooglePREFIDs" zur Verfügung stellt, "to enable remote exploitation" [S. 4]. Nähere Ausführungen über Methoden der NSA hat Kollege Szaradics auf seinem Blog beschrieben.

Screenshot GooglePREF-Cookie

Abbildung: Screenshot von Cookie-Aufzeichnung vom 22.11.14: GooglePREF

Motiviert durch diese Information, setzen sie sich folgendes Ziel: "Our goal is to quantify what an adversary with purely passive access to network traffic (say, on the Internet backbone) can learn about users based on their web browsing activity." [S. 1]

Ihre Annahmen basieren auf zwei Erkenntnissen:

Die Präsenz von Cookies Dritter auf den meisten Webseiten kann einen großen Teil der Browser-Bewegungen auf ein eindeutiges Browser-Nutzerprofil reduzieren, ohne dass man die IP-Adresse kennen muss.
Obwohl die meisten beliebten Webseiten mit Nutzerkonten https-Verschlüsselungen für die Log-In-Authentifizierung einsetzen, zeigen doch viele dieser Webseiten eine Form von Identitätsmerkmal des eingeloggten Benutzers in unverschlüsseltem Klartext an.

Daraus schließen sie, dass es nicht nur möglich ist, Informationen über besuchte Webseiten abzugreifen, sondern diese auch mit den echten Identitäten von Benutzern in Verbindung zu bringen. Nachfolgende Grafik soll die angewandte Technik visualisieren:

Reisman et al
Abbildung: Illustration wie durch den Besuch von zwei Webseiten eine Verbindung zu einem eindeutigen Benutzer hergestellt werden kann [S. 2]

Der Überwacher verfolgt den Besuch eines Nutzers auf drei unterschiedlichen Webseiten, in die jeweils bestimmte Tracker eingebettet sind (X, Y oder beide). Es wird angenommen, dass die IP-Adresse des Benutzers bei jedem Besuch variiert. Solange nur der Besuch von Seite A mit dem Tracker X und der Besuch von Seite B mit dem Tracker Y erfasst wird, kann keine Beziehung hergestellt werden. Sobald aber Seite C besucht wird, in der beide Tracker eingebettet sind, können alle 3 Besuche verbunden werden. Der eindeutige Cookie X verbindet Seite A und C, der eindeutige Cookie Y verbindet Seite B und C miteinander.

Vorgehensweise bei der Untersuchung

Bedrohungsmodell

Die Autoren identifizieren und formalisieren zunächst ein neues Bedrohungsmodell auf die Privatshpäre von Internetnutzern durch Abgreifen von übertragenen Datenpaketen. Ungeachtet der Möglichkeiten von Geheimdiensten, beschränken sich die Autoren auf ihnen bekannte technische Möglichkeiten zum Abgreifen von Datenpaketen.

Annahmen

Zur Überwachung des Datenverkehrs nehmen sie an, dass der Zugriff über einen Internet Service Provider oder ein Internet Backbone erfolgt und
keine https-Seiten Informationen zugänglich sind.
IP Adressen stehen bei der Überwachung nicht zur Verfügung, weil sie dynamisch sind und sich sehr häufig ändern bzw. weil die Zielpersonen die Tor-Technologie einsetzen.
Es stehen lediglich Cookies von besuchten Seiten (first-party cookies) und eingebettete Cookies von Dritten (third-party cookies) und übertragene Nutzer-Informationen in Klartext zur Verfügung

Zielsetzung der Überwachung

Die Überwachung erfolgt in Form einer Massenüberwachung, um so viel Web-Verkehr und assoziierte Echtidentitäten wie möglich abzugreifen.
Test der Möglichkeit der Überwachung eines bestimmten Individuums, wozu entweder die echte Identität der Person oder eine eindeutige Cookie-ID bekannt ist, die einer Zielperson eindeutig zuordenbar ist.

Methodik

Infrastruktur

Als Voraussetzung für die Untersuchung wird die Auswahl der technischen Werkzeuge für die Untersuchung beschrieben, die die Anforderungen erfüllen können: Auswahl des geeigneten Browsers (Firefox), Webcrawler (Selenium WebDriver), Datenbank (SQLite) sowie Monitoring-Programm (FourthParty).

Browsing-Profile

Um die erstellte Infrastruktur mit Daten "zu füttern" werden möglichst realistische Modelle von Browsing-Verhalten entwickelt. Als Grundlage für die Auswahl der Stichproben wählen die Autoren 2 Modelle: "Alexa top 500 sites", bei dem der Benutzer eine zufällige Auswahl von Seiten besucht und das "AOL Search Query", das aus einem Datensatz von 650.000 anonymen Nutzerdaten besteht, der 2006 über einen Zeitraum von 3 Monaten von AOL gesammelt wurde.

Identifizierung und Klassifizierung von Cookies als eindeutige Bezeichner

Die Autoren definieren für ihre Untersuchung eindeutige Cookies, die folgende Merkmale aufweisen:

langlebig (mind. 3 Monate = Untersuchungsperiode)
zeitlich und über mehrere Browser-Sessions stabil
Nutzer-spezifisch, eindeutige Strings über mehrere Browser-Instanzen
ausreichend Informationsgehalt, um als globaler eindeutiger Identifizierer zu fungieren und
konstante Länge des Strings

Zur Identifizierung der Cookies wurde jeder Datensatz in zwei simultanen Durchgängen durchlaufen.

Browser-Durchläufe durch Browser-Automatisierung und Messung der Ergebnisse

Die Crawls wurden über eine Periode von 4 Tagen Anfang 2014 durchgeführt (45 Crawls auf Basis der AOL Nutzerprofile und 20 Crawls auf Basis der Alexa Top 500 Sites). Zudem wurden 50 der Alexa Top 68 US Seiten mit Nutzerkonten untersucht, indem Test-Accounts angelegt wurden.

Ergebnisse

Aus den 15.225 besuchten Seiten registrierten die Autoren auf 10.138 Seiten Cookies, die dem o.g. Kriterium eines eindeutigen Cookies entsprachen.

Clustering

Nachfolgende Grafik zeigt die Vernetzungskomponente von Webseiten-Besuchen eines einzelnen Benutzers aus der AOL-Modellgruppe. Auf der x-Achse ist die Anzahl der besuchten http-Webseiten eines Nutzers eingezeichnet. Die y-Achse gibt die y% an, mit welcher Wahrscheinlichkeit die Besuche einem bestimmten Nutzer zugeordnet werden kann. D.h. mit jeder zusätzlich überwachten Seite x kann zu etwa y% der Besuch einem einzelnen Benutzer zugeordnet werden.

Der Anteil einer sicheren Zuordnung zu einen bestimmten Cluster liegt bereits bei einer sehr kleinen Anzahl erfasster Seiten bei 80% und übersteigt rasch 90% wenn die Anzahl der besuchten Seiten steigt.

Reisman et al 2014

Abbildung: schon eine geringe Anzahl registrierter Seitenaufrufe können einen Benutzer bereits zu 80% eindeutig eingrenzen. [S. 12]

Daraus folgt, dass die meisten besuchten Seiten miteinander in Beziehung gebracht werden können, auch dann, wenn nur eine geringe Zahl von Seitenbesuchen registriert werden. Die Ergebnisse aus der Alexa-Modell-Stichprobe decken sich mit den hier dargestellten Ergebnissen aus der AOL-Stichprobe.

Identitäts-Leakage

Die Untersuchung von Seiten mit Nutzerprofilen und Log-In-Prozeduren wurden manuell durchgeführt. Dafür wurden 50 der meistbesuchten Webseiten untersucht, die Benutzer-Accounts anlegen lassen. 34 der 50 Webseiten lassen ihre Benutzer über https einloggen und nur 15 dieser Seiten bleiben nach dem Login auf https, die anderen Seiten übertragen in weiterer Folge die ein oder andere Nutzer-Information in Klartext. Die nachstehenden Tabellen fassen die Ergebnisse der manuellen Untersuchung der Autoren zusammen.

Reisman et al 2014

Abbildung: Leckage von Benutzerdaten auf Alexa Top 50 Seiten mit Nutzerkonten [S. 14]

Leakage of Personal Identifiers by the Alexa Top 50 Sites with Login Support

Abbildung: Datenverlust bei der Übertragung von unverschlüsselten Nutzerdaten [S. 22]

Schlussfolgerung

Die Untersuchung der Autoren zeigt, dass ein Angriff auf einzelne Benutzer sehr einfach möglich ist. Nach Identifizierung einer Zielperson aus Klartext-Informationen und Zuordnung eindeutiger Cookie-IDs können diese Erkenntnisse für einen "Schnüffler" in mehrere Richtungen interessant sein:

Es können Browser-Verläufe ausgeforscht werden und ggf. sensible oder kompromittierende Erkenntnisse gewonnen werden.
Weitere sensible Informationen können ausfindig gemacht werden, z.B.: über persönliche Präferenzen, Einkaufsgeschichte, Adressen, etc.
Diese Daten können als Zugang für aktive Angriffe dienen, etwa der Installation von Schadsoftware, etc.

Fazit

Die Untersuchung zeigt, dass selbst auf Grundlage relativ beschränkter Parameter eine umfassende Überwachung von Identitäten möglich ist. Anstoß für die Untersuchung der Autoren gab die bekannt gewordene Information, dass Geheimdienste Cookies wie z.B. GooglePREFID für ihre Überwachungsmaßnahmen verwenden. Beim Blick in meine eigene Cookie-Liste musste ich nicht lange nach dem genannten Cookie suchen (siehe 1. Abbildung). Das heisst jeder kann zur Zielscheibe derartiger Überwachung werden. Ein Gefühl dafür zu bekommen, welche Informationen Cookies über eine Person transportieren, wer was und wann mitliest, wie ich mich vor unbefugter virtueller Verfolgung schützen kann, ist ein spannendes Thema, das der Artikel leider nicht mehr weiter verfolgt [Der Beitrag von Kollegin Claudia Scheba verspricht spannende ergänzende Informationen]. Interessant wäre es noch gewesen, wie die Ergebnisse bei Einsatz von einfachen Maßnahmen, wie z.B. regelmäßige Löschung von Browser-Verlauf und Cookies, ausgesehen hätten. Dennoch bietet die Untersuchung erstaunliche Einblicke, die mit relativ wenig technischen Aufwand erzielt werden können.

1 comment :: Kommentieren

Gefahren von Cookies

hannes werner.steininger.uni-linz, 26. November 2014, 14:56

Ich finde die dargestellten Untersuchungen in deinem Beitrag sehr interessant. Da wir bereits im vorletzten Termin kurz über Cookies gesprochen haben, sind diese zusätzlichen Ausführungen sehr spannend. Vielen Internetusern sind Cookies ein Begriff, aber die meisten unterschätzen die Gefahren dabei. Cookies werden auch von sozialen Netzwerken eingesetzt und werden dabei Teil der digitalen Identität. Wenn der Betreiber nun die Cookies vertauscht oder verwechselt, kann es auch zu einer Vertauschung der Online-Profilen kommen. Dabei hätte dann ein Unbefugter Zugang zu personenbezogenen Daten eines anderen Users. Es gibt noch viele andere Gefahren die von Cookies ausgehen.

Verlinken :: Kommentieren