Semantische Suche: Wenn intelligente Maschinen die digitale Gesellschaft steuern

jaqueline.kreilhuber.uni-linz, 20. Mai 2017, 13:57


Semantic Web

Das Web 3.0 versucht die individuellen Bedürfnisse des Nutzers bei der Informationssuche in den Mittelpunkt zu stellen. Demnach legt die semantische Ebene im World Wide Web die Informationen mit Hilfe von Metadaten so an, dass der Nutzer nicht mehr aus einer Stichwortsuche die relevanten Ergebnisse selbstständig herausfiltern muss, sondern diese Aufgabe automatisch entweder von den jeweiligen Plattformen, auf denen gesucht wird, oder von sog. Software-Agenten übernommen wird. (Q14)

Dabei sprechen wir aktuell von 966 Mio. Websites und mehr als 1 Tria. Bilder weltweit, die von Suchmaschinen mit Hilfe von automatisierten Webcrawlern durchforstet werden. Nur so können relevante Dokumente erfasst und ausgewertet und uns der Zugriff auf die benötigten Informationen ermöglicht werden. Wären wir also alleine auf handrecherchierte Webportale und Hyperlinkverknüpfungen angewiesen, keiner fände sich mehr im WWW zurecht. (Q2, Q15)

 

 
(Q1)

  

Semantische Suche

1. Entitäten - Das-zwischen-den-Zeilen-Lesen

Bei der semantischen Suche durchsucht die Suchmaschine den Index nicht einfach nach dem gewünschten Keyword, sondern setzt die Wörter der Anfrage zueinander in Beziehung und versucht die eigentliche Frage, die hinter der Suchanfrage steckt, zu verstehen und folglich zu beantworten. Dazu ein Beispiel: Wer bei Google in die Suchmaske die Frage „Wie alt ist Van der Bellen“ eingibt, bekommt an erster Stelle nicht etwa ein Ergebnis angezeigt, das einen zu einem Inhalt führt, in dem das Alter von Alexander Van der Bellen angegeben ist. Stattdessen gibt Google direkt die Antwort aus: das Alter und das Geburtsdatum von Alexander Van der Bellen. 

Auch die Frage „Wie hoch ist der Eiffelturm“ kann Google richtig interpretieren und liefert direkt die korrekte Antwort aus (303m). Der Klick auf eines der Ergebnisse entfällt damit, die Frage wurde direkt durch Google beantwortet. Der Vorteil liegt auf der Hand: bessere Nutzerfreundlichkeit durch Zeitersparnis. (Q5)

 

Google Hummingbird Algorithmus

Zu diesem Zweck verbindet Google Entitäten (=Dinge) miteinander, wodurch unendlich viele Zusammenhänge hergestellt werden. Diese Verbindungen und das Verständnis dazu sind essentiell für das Lesen zwischen den Zeilen. Natürlich bedient sich Google noch vieler anderer Quellen zur Darstellung von Entitäten als Antwort in den Suchergebnissen: Wikipedia und Freebase sind nur zwei davon. Die Suchmaschine nutzt die Daten und Informationen dieser Quellen, um den Google Knowledge Graph mit relevanten Ergebnissen zur Suchanfrage zu füllen. Zudem werden diese Quellen angezapft, um weitere neue Features in der Google-Suche zu veröffentlichen.

Der Google Knowledge Graph kann in Sekundenbruchteilen knapp ein Drittel der Suchanfragen beantworten. Und das auf allen Endgeräten! Auch in der mobilen Suche nimmt er bereits viel an Aufmerksamkeit in Anspruch, die früher den klassischen Suchergebnissen zuteilwurde.

Aber wie kann Google diese Informationen so gezielt anzeigen? Ganz einfach: Entitäten und Beziehungen! Zu sehen sind die Beziehungen in jedem Knowledge Graph unter “Wird auch oft gesucht”. Die Ergebnisse dieser Rubrik stehen in direkter Beziehungen zueinander, also auch zur Suchanfrage.

Nehmen wir zum Beispiel eine Suche nach Mila Kunis: Ausgangspunkt ist hier “Mila Kunis ist Schauspielerin”. Als weitere, ähnliche Ergebnisse finden wir also eine Reihe von Schauspieler, allen voran Ashton Kutcher, bei dem noch eine engere Beziehung hinzukommt: “Mila Kunis ist liiert mit Ashton Kutcher.”

Ein weiteres Beispiel dafür sind die Karussell-Suchergebnisse. Zur Suche nach Sehenswürdigkeiten in Wien werden oberhalb der ursprünglichen Linklisten die wichtigsten Ergebnisse dieser Kategorie in einem Karussell dargestellt. Denn die Gemeinsamkeit aller dieser Ergebnisse ist, dass sie eben Sehenswürdigkeiten in Wien sind. (Q9, Q16)

 


(Q19)

 

RankBrain Algorithmus

Seit 2015 wird ein Großteil der Millionen Suchanfragen, die jede Sekunde bei Google eingehen, zusätzlich von einem AI-System interpretiert. RankBrain, so der Name, soll vor allem dabei helfen, Suchanfragen zu bearbeiten, die noch nie zuvor eingegeben wurden oder die aus Kombinationen mehrerer Begriffe bestehen - Longtail-Keywords, Fragesätze und konversationale Suchen zum Beispiel.

In einem Interview 2015 kommentierte Google, dass RankBrain der drittwichtigste Faktor im Ranking-Algorithmus nach den Rückverweisen und dem Inhalt ist. Um zu testen wie gut RankBrain funktioniert, hatten die mit dem AI-System betrauten Entwickler die Aufgabe die Suchergebnisse nach ihrer Relevanz einzuordnen. Während sie 70 Prozent der Ergebnisse richtig bewerteten, konnte RankBrain 80 Prozent erreichen.

RankBrain basiert auf einem Konversations-Modell, das in ein sogenanntes „sequence-to-sequence-framework“ eingebettet ist. Demnach nutzt das Modell einen Kontext von vorangegangenen Suchanfragen (sequence), um die nächste Sequenz zu erraten. Wenn das System richtig liegt, werden die geratenen Sequenzen wiederum in den Kontext übertragen. RankBrain hilft so der Suche, diese einzuordnen, um passende Ergebnisse zu liefern. (Q6, Q7, Q8)

 

2. Personalisierung

Wer Google im eingeloggten Zustand benutzt, bekommt zudem personalisierte Suchergebnisse. Das bisherige Suchverhalten wird ebenso in eine Suchanfrage mit einbezogen, wie Daten in Google Drive, Profile bei Google Plus, der Standort, etc. 

Aufgrund der Benutzung der Suchmaschine Google, aber vor allem auch der anderen Dienste gelingt es Google, über unglaublich viele Menschen ein genaues ,"Profil" zu erstellen: jede E-Mail, die über Gmail läuft kann von Google analysiert werden; jeder File in Google Text & Tabellen, jeder Clip in YouTube, jedes Foto in Picasa gibt Google mehr Informationen. Google Desktop wurde von vielen mit Begeisterung installiert, und schnell wieder deinstalliert, weil klar wurde, dass die Software sehr viele Daten an Google sendet. (Q5)

Weltweit abgestimmter und abgesicherter Datenschutz ist nicht gegeben, und es ist unrealistisch zu hoffen, dass sich das bald ändern wird. Dies verwendet Google, um sehr viel über viele von uns, auch über Organisationen und was sich in der Welt so tut, in Erfahrung zu bringen. Es ist ja das erklärte Ziel von Google, das gesamte Wissen der und über die Welt zur Verfügung zu stellen. Dazu benötigt man sehr komplexe Werkzeuge, die aus den vielen kleinen Informationsstückchen, die Google aus seinen verschiedenen Quellen sammelt, durch sorgfältige Analyse ein Gesamtbild ergeben. (Q17)

 
 (Q20)

Die offizielle Begründung, warum Google ,"alles" über uns wissen will, ist folgende: Man kann nur dann Menschen optimal bedienen, wenn man alles über sie weiß. Das stimmt wohl auch bis zu einem gewissen Grad. Hat ein Nutzer aber per Suchbegriff seine Absicht offenbart, präsentiert die Suchmaschine so nicht die beste Antwort, sondern Links, die das weitere Nutzerverhalten auf eine Weise »steuern« sollen, die dem Internetgiganten mehr Umsatz beschert. (Q18)

 

Semantische Suchmaschinenoptimierung

Das Gemeinschaftsprojekt der größten Suchmaschinen Schema.org ist schon seit einigen Jahren immer wieder im Gespräch. Stetig werden neue Möglichkeiten veröffentlicht, um Informationen einer Webseite hervorzuheben und zu markieren. Auch in Bezug auf Semantic Search ist Schema.org für die Optimierung von Webinhalten wichtig.

Dafür ist es wichtig Informationen und Content mit den passenden und relevanten schematischen Markierungen (=Metadaten) auszuzeichnen. So zeigt man den Suchmaschinen einerseits welche Informationen wirklich wichtig sind und worum es sich hier konkret handelt. Andererseits wird dieser Website auch mehr Aufmerksamkeit durch die Rich Snippet Auszeichnung zuteil. Bei dieser handelt es sich um Informationselemente, die das eigentliche Suchergebnis erweitern und so für deutlich mehr Aufmerksamkeit sorgen.

In jedem Fall sollten immer zumindest der Publisher bzw. Autor eines Inhalts hervorgehoben und korrekt markiert werden, damit das Unternehmen als Marke und Entität wahrgenommen wird. Auch die Google+ Local und Business-Informationen können als eine Infobox in der rechten Spalte, die einem Knowledge Graph optisch sehr ähnlich ist, dargestellt werden. (Q3, Q10, Q11)

 

Blick in die Zukunft

Die möglichen Auswirkungen der Suchmaschinenoptimierung werden unter Experten heiß diskutiert. Während die einen schon das Ende der Suchmaschinenoptimierung ausrufen, wie man sie bisher kannte, winken andere ab und verlassen sich darauf, dass durch die langsame Entwicklung der Semantic Search ausreichend Zeit bleiben wird, um die Optimierungsstrategien daran auszurichten. Sollte die personalisierte Suche vollständig umgesetzt werden, können die bisherigen Rankings von Webseiten zu einem bestimmten Keyword entfallen, da die SERPs bei jedem User anders ausfallen können.

Dennoch gibt es weiterhin viele schon jetzt gültige Optimierungskriterien, die weiterhin gültig bleiben. Hierzu gehören beispielsweise:

  • Aktivitäten in Social Media-Kanälen
  • Ladezeiten
  • Seitenarchitektur und Navigation
  • Qualität des Contents
  • Backlinkstruktur (Q12, Q13)

 

Präsentation

 

Kommentare

1. Zu Folie 4: Stimmen Sie bitte ab: Benutzen Sie Google als Startseite?

2. Zu Folie 4: Stimmen Sie bitte ab: Verwenden Sie Google für den Großteil Ihrer Suchanfragen?

3. Zu Folie 6: Stellen Sie Google eine Frage, welche die Suchmaschine wissen könnte und posten Sie - bei Ausgabe einer Antwort - das Ergebnis als Kommentar.

4. Zu Folie 22: Googeln Sie bitte "essen gehen" und posten Sie einen Screenshot Ihres Ergebnisses als Kommentar.

 

Quellen

1. URL: https://www.youtube.com/watch?v=F_nbUizGeEY [29.4.2017]

2. URL: http://blog.wiwo.de/look-at-it/2016/04/27/die-internet-fakten-2016-33-milliarden-nutzer-966-millionen-websites/ [29.4.2017]

3. URL: https://de.slideshare.net/danielherndler/semantic-conversational-search-daniel-herndler-content-day-2014 [29.4.2017]

5. URL: https://www.xovi.de/wiki/Semantic_Search [29.4.2017]

6. URL: https://de.wikipedia.org/wiki/RankBrain [29.4.2017]

7. URL: http://t3n.de/news/rankbrain-google-suche-kuenstliche-intelligenz-651060/ [29.4.2017]

8. URL: https://de.onpage.org/wiki/RankBrain [29.4.2017]

9. URL: https://de.onpage.org/wiki/Hummingbird_Update [29.4.2017]

10. URL: https://www.slideshare.net/avenit/140220-schemaorg-richsnippets [29.4.2017]

11. URL: https://www.1und1.at/digitalguide/websites/webseiten-erstellen/tutorial-microdata-markup-nach-schemaorg/ [29.4.2017]

12. URL: https://www.texterseo.at/onpage-seo.html [29.4.2017]

13. URL: https://de.onpage.org/wiki/Semantic_Search [29.4.2017]

14. Vgl. Ultes-Nitsche, Ulrich: Web 3.0 – wohin geht es mit dem World Wide Web?, in: HMD Praxis der Wirtschaftsinformatik, 2010, Vol. 47, No. 1, S. 6-12

15. Vgl. Sack, Harald: Semantische Suche, in: HMD Praxis der Wirtschaftsinformatik, 2010, Vol. 47, No.1, S. 13-25

16. URL: http://www.webmarketingblog.at/2014/06/03/google-suche-wissen-semantik-konversationen [29.4.2017]

17. Vgl. Maurer, H., in: Informatik-Spektrum, 2007, Vol. 30, No. 4, S. 273-278

18. URL: http://www.spektrum.de/kolumne/wenn-intelligente-maschinen-die-digitale-gesellschaft-steuern/1375921 [29.4.2017]

19. URL: https://www.youtube.com/embed/mmQl6VGvX-c [29.4.2017]

20. URL: https://player.vimeo.com/video/3367125 [29.4.2017]

4 comments :: Kommentieren

Google Anfrage - Fläche von Chile

thomas.sacher.uni-linz, 17. Mai 2017, 20:00

Verlinken :: Kommentieren

Foto Google

christina.pillmair.uni-linz, 17. Mai 2017, 20:01

Verlinken :: Kommentieren

#Folie 6 Wer ist Donald Trump?

phillip.burmester.uni-linz, 17. Mai 2017, 20:04

Bei mir fügt es nur den text ein und nicht den Screenshoot. 

Bildschirmfoto 2017-05-17 um 19.59.15

 

Verlinken :: Kommentieren

#zu folie 6

verena.haider.uni-linz, 17. Mai 2017, 20:05

Frage: Wie alt ist die JKU?

Lösung: Gründungsjahr 1966

 

Verlinken :: Kommentieren


To prevent spam abuse referrers and backlinks are displayed using client-side JavaScript code. Thus, you should enable the option to execute JavaScript code in your browser. Otherwise you will only see this information.