微信客服
Telegram:guangsuan
电话联系:18928809533
发送邮件:[email protected]

Was ist NLP im SEO丨Wie Google SEO NLP verwendet

本文作者:Don jiang

NLP (Natural Language Processing) in der SEO hilft der Suche, Inhalte präzise zuzuordnen, indem es Semantik und Nutzerintention analysiert. Laut einer Moz-Studie aus dem Jahr 2024 nutzen 78 % der hoch platzierten Seiten diese Technik;

Im Google-Kernalgorithmus BERT macht die NLP-Verarbeitung mehr als 70 % aus, verbessert die Fachlichkeit und Glaubwürdigkeit von Inhalten und entspricht den EEAT-Richtlinien.

Ich werde aufschlüsseln, wie Google mit NLP Suchergebnisse erstellt, die dich besser „verstehen“.

Was ist NLP in SEO

Was ist NLP

NLP (Natural Language Processing, Natural Language Processing) ist eine Technologie, die Computern ermöglicht, menschliche Sprache zu verstehen, zu analysieren und zu erzeugen.

Weltweit gibt es täglich mehr als 8,5 Milliarden Suchanfragen (öffentliche Google-Daten 2024), davon enthalten etwa 60 % implizite Semantik oder mehrdeutige Ausdrücke (zum Beispiel kann „Apple“ Obst, ein Smartphone oder ein Musikalbum bedeuten).

Traditionelle Suchmaschinen können nur „Schlüsselwörter abgleichen“, NLP kann jedoch ungeordnete Texte in semantische Einheiten zerlegen. So wird etwa „Wasserdichtigkeitstest des iPhone 15 Modell 2025“ in die drei Entitäten „Modell 2025“, „iPhone 15“ und „Wasserdichtigkeitstest“ aufgespalten. Anschließend wird durch Kontextbeziehungen (zum Beispiel die Beziehung zwischen „wasserdicht“ und „Handyfunktion“) ein semantisches Netzwerk aufgebaut, sodass Maschinen letztlich die tatsächliche Absicht hinter einem Text „verstehen“ können.

Von „Keyword-Matching“ zu „semantischem Verständnis“

Um zu verstehen, wie NLP Google dazu bringt, Texte „zu verstehen“, muss man zunächst in die „Kindheit“ der Suchmaschinen zurückkehren — in die 1990er-Jahre bis frühen 2000er-Jahre.

Damals war die Suchtechnologie so ursprünglich wie ein „Wörterbuch“: Gab ein Nutzer „Kaffee“ ein, zog die Suchmaschine einfach alle Webseiten heraus, die das Wort „Kaffee“ enthielten.

Manche wiederholten absichtlich „Abnehmen“, „Abnehmen“, „Abnehmen“ auf einer Seite, nur damit Nutzer, die nach „Abnehmen“ suchten, diese Seite sahen.

Der mechanische „Wortzähler“ (1990er bis frühe 2000er)

Der Kernalgorithmus früher Suchmaschinen (wie AltaVista 1995 oder Yahoo 1998) war TF-IDF (Termfrequenz–inverse Dokumentfrequenz). Vereinfacht gesagt bedeutet das: „Man zählt, wie oft ein bestimmtes Wort auf einer Webseite vorkommt — je häufiger, desto relevanter.“

Wenn ein Nutzer zum Beispiel nach „Java“ suchte, zeigte das System bevorzugt Seiten mit hoher Wortfrequenz wie „Java-Programmierung“ oder „Java-Tutorial“. Traf es jedoch auf eine Seite über „Java-Kaffee“ (eine Kaffeesorte), konnte diese ebenfalls fälschlich als relevant eingestuft werden, nur weil „Java“ oft vorkam.

2003 analysierte eine Studie der University of California, Berkeley die Ergebnisse damaliger führender Suchmaschinen: Suchte ein Nutzer nach „Apple“, waren unter den Top-20-Ergebnissen 45 % obstbezogene Inhalte, 30 % Produkte von Apple Inc. und die restlichen 25 % irrelevante Inhalte wie „Apfelkuchen-Rezept“ oder „Apfelbaumpflanzung“. Nutzer mussten also manuell filtern und im Durchschnitt 3,2 Links anklicken, um ihr Ziel zu finden (Forrester-Daten von 2003).

Einige Websites begannen, „Schlupflöcher“ auszunutzen: Suchte ein Nutzer etwa nach „beste Laptops“, wiederholten unseriöse Seiten Wörter wie „beste“, „Laptop“, „Empfehlung“ im Seiteninhalt oder nutzten sogar versteckten Text (weiße Schrift auf weißem Hintergrund), um Keywords zu stopfen.

2005 musste Google öffentlich einräumen: „Rund 30 % minderwertiger Seiten gelangten durch Keyword-Stuffing in die Top 10.“ (interner Bericht des Google-Search-Quality-Teams)

Die „unscharfe Schlussfolgerung“ statistischer Modelle (mittlere 2000er bis frühe 2010er)

Mitte der 2000er-Jahre, als die Inhalte im Internet explosionsartig zunahmen (von etwa 1 Milliarde Webseiten im Jahr 2000 auf 50 Milliarden im Jahr 2010), versagte die reine Keyword-Zählung vollständig.

Suchmaschinen begannen, statistische Sprachmodelle einzusetzen, um Wortbeziehungen mithilfe von „Kontextwahrscheinlichkeiten“ zu verstehen.

Ein Beispiel dafür ist Googles 2008 eingeführte „Phrase-Matching“-Technologie: Das System betrachtete nicht mehr nur einzelne Wörter, sondern analysierte die Häufigkeit von „Wortgruppen“.

Wenn ein Nutzer beispielsweise nach „Wie kocht man Kaffee?“ suchte, priorisierte das System Seiten, die gleichzeitig Wörter wie „kochen“, „Kaffee“, „Wasser“ und „Temperatur“ enthielten, statt nur Seiten mit dem Wort „Kaffee“. Diese Technik steigerte die Relevanz der Suchergebnisse um etwa 12 % (laut Google-Tech-Blog 2009).

2012 brachte Google zusätzlich den Knowledge Graph auf den Markt und wandelte isolierte Wörter in ein Netzwerk aus „Entitäten + Beziehungen“ um.

So war „Einstein“ nicht länger nur ein Wort, sondern wurde mit Entitätseigenschaften wie „Physiker“, „Geburtsort Ulm in Deutschland“ oder „entwickelte die Relativitätstheorie“ versehen.

Wenn Nutzer nach „Einstein“ suchten, konnte das System nicht nur Biografieseiten zurückgeben, sondern direkt auch seine Lebensdaten, Zitate und sogar verknüpfte Seiten zur Erklärung der „Relativitätstheorie“ anzeigen.

Nach Einführung des Knowledge Graph zeigten offizielle Google-Daten: 40 % der Suchbedürfnisse der Nutzer wurden direkt erfüllt, ohne dass ein Link angeklickt werden musste (Google-Produktvorstellung 2013).

Doch das reichte noch nicht aus — der Knowledge Graph stützte sich auf manuell ausgezeichnete „strukturierte Daten“, während 90 % der Inhalte im Internet „unstrukturierte Texte“ ohne Kennzeichnung sind (zum Beispiel Blogs oder Forenbeiträge). Um Maschinen diese „ungeordneten Texte“ verstehen zu lassen, waren leistungsstärkere Technologien nötig.

Von „statistischen Regeln“ zu „semantischem Verständnis“ (mittlere 2010er bis heute)

In den 2010er-Jahren veränderten Durchbrüche im Bereich Deep Learning — insbesondere die Entwicklung neuronaler Netze — NLP grundlegend. 2013 stellte der Google-Forscher Tomas Mikolov das Word2Vec-Modell vor, das Wörter erstmals in einen „Vektorraum“ überführte. So ist zum Beispiel die Vektordifferenz zwischen „König“ und „Königin“ der Differenz zwischen „Mann“ und „Frau“ sehr ähnlich — ein Hinweis darauf, dass das Modell semantische Beziehungen zwischen Wörtern „verstehen“ kann.

2016 führte Google RankBrain in die Suche ein, einen auf Deep Learning basierenden Ranking-Algorithmus, der die Relevanz zwischen Suchverhalten und Inhalten automatisch „lernen“ kann.

Wenn ein Nutzer zum Beispiel nach „günstige kabellose Kopfhörer“ sucht, analysiert RankBrain, auf welchen Seiten Nutzer länger bleiben und wo die Absprungrate niedrig ist, um daraus die tatsächliche Beziehung zwischen „günstig“, „kabellos“ und „Kopfhörer“ zu erkennen.

Google veröffentlichte 2017 Daten, nach denen RankBrain die Relevanz von Long-Tail-Anfragen (ungewöhnlichen Suchanfragen) um 25 % erhöhte — etwa bei Suchanfragen wie „Empfehlung für Bone-Conduction-Kopfhörer zum Joggen“.

2018 brachte Google das BERT-Modell (bidirektionale Transformer-Architektur) heraus und löste damit das Problem der „Kontextmehrdeutigkeit“ grundlegend. Frühere Modelle konnten Sätze nur „einseitig“ verstehen (zum Beispiel von links nach rechts), BERT analysiert dagegen gleichzeitig „Vorgeschichte und Folge“.

Zum Beispiel kann BERT bei den Sätzen „Xiaomings Apfel ist reif“ und „Xiaoming biss in einen Apfel“ anhand des Kontexts erkennen, dass „Apfel“ in beiden Fällen eine Frucht ist — aber wenn der Satz lautet „Xiaomings Apple hat ein neues System veröffentlicht“, erkennt BERT sofort, dass „Apple“ das Unternehmen meint.

Die Wirkung von BERT war sofort sichtbar:

Interne Google-Tests von 2019 zeigten, dass die CTR (Klickrate) bei komplexen Suchanfragen von 18 % auf 25 % stieg;

2023 veröffentlichte das Team Google Search Liaison Daten, nach denen BERT die Genauigkeit mehrdeutiger Suchanfragen von 58 % auf 82 % steigerte. Wenn Nutzer etwa nach „Python“ suchten, konnte das Modell anhand des Kontexts entscheiden, ob die Programmiersprache oder eine Schlange gemeint war — ein Plus von 24 Prozentpunkten.

Vom „Wortabgleich“ zum „Menschenverstehen“

Rückblickend ist die Entwicklung von NLP im Kern der Sprung von Suchmaschinen von „mechanischer Befehlsausführung“ zu „Verständnis menschlicher Bedürfnisse“:

  • Ära 1.0 (Keyword-Matching): Die Maschine war wie ein „Wortzähler“ und konnte nur wörtlich abgleichen;
  • Ära 2.0 (statistische Modelle): Die Maschine war wie ein „Wahrscheinlichkeitsanalyst“ und schloss über Kontextwahrscheinlichkeiten auf Absichten;
  • Ära 3.0 (Deep Learning): Die Maschine war wie ein „Sprachlernender“, der durch große Datenmengen semantische Logik „lernen“ kann.

2024 zeigte eine Umfrage des Pew Research Center: 78 % der Nutzer empfinden heutige Suchergebnisse als „näher an ihren tatsächlichen Bedürfnissen“, während dieser Anteil 2010 nur 41 % betrug.

Googles Chefwissenschaftler Jeff Dean sagte: „Das Ziel von NLP ist nicht, Maschinen ‚Text lesen‘ zu lassen, sondern Maschinen ‚Menschen verstehen‘ zu lassen.“

Die „Kernarbeit“ von NLP

Damit eine Maschine einen Text „verstehen“ kann, muss NLP sprachliche „Informationsfragmente“ Schritt für Schritt verarbeiten — ähnlich wie Menschen Sätze zerlegen.

Wenn Googles NLP-Systeme (zum Beispiel verbesserte Versionen von BERT) Webseiteninhalte verarbeiten, erfolgt die „Textdekodierung“ strikt in vier Schritten: Tokenisierung → Entitätserkennung → semantische Verknüpfung → Kontextkorrektur.

Schritt 1: Tokenisierung

Die Tokenisierung ist der erste Schritt von NLP. Vereinfacht gesagt wird dabei eine zusammenhängende Zeichenfolge in unabhängige „semantische Einheiten“ zerlegt (sogenannte „Token“).

Chinesisch besitzt keine natürlichen Leerzeichen zur Worttrennung (anders als Englisch, wo es bei „apple pie“ Leerzeichen gibt), daher ist die Tokenisierung eine zentrale Schwierigkeit der chinesischen NLP.

Technisches Prinzip:

Googles Tokenisierungssystem verwendet ein hybrides Modell aus „Regeln + Deep Learning“:

  • Regelbasis: Enthält Millionen gängiger chinesischer Wortverbindungen (wie „Kaffee kochen“, „Handfilterkanne“, „Wasserdichtigkeitstest“) und gleicht bekannte Kombinationen bevorzugt ab;
  • Deep-Learning-Modell: Eine feinabgestimmte BERT-Version sagt unbekannte Wörter dynamisch voraus (zum Beispiel neue Begriffe wie „Dopamin-Outfit“).

Praxisbeispiel:

Nehmen wir den Webseiteninhalt „Wie kocht man eine Tasse aromatischen Handfilterkaffee?“ Als Beispiel: Das Tokenisierungssystem muss entscheiden, welche Segmentierung korrekt ist. Mögliche Kandidaten wären:

  • Falsche Segmentierung: „Wie/kocht eine/Tasse aro/matischen Hand/Filterkaffee“ (zerstört sinnvolle Kombinationen wie „eine Tasse“, „aromatisch“, „Handfilterkaffee“);
  • Richtige Segmentierung: „Wie/kochen/eine Tasse/aromatischen/Handfilterkaffee“ (entspricht dem chinesischen Ausdrucksgebrauch).

Datenbasis:

Interne Google-Tests von 2023 zeigten, dass das Tokenisierungssystem bei gängigen chinesischen Webseiten eine Genauigkeit von 97,3 % erreicht. Bei seltenen Begriffen aus YMYL-Fachbereichen (wie Recht oder Medizin) lag die Genauigkeit jedoch nur bei 89 %, da es weniger Regeln für Fachterminologie gibt.

Um dieses Problem zu lösen, trainiert Google zusätzlich „domänenspezifische Tokenisierungsmodelle“ für vertikale Fachbereiche. So merkt sich ein medizinisches Tokenisierungsmodell beispielsweise die korrekte Segmentierung von Begriffen wie „Herzinfarkt“ oder „Koronararterie“.

Schritt 2: Entitätserkennung

Nach der Tokenisierung muss NLP die „Entitäten“ im Text erkennen — also konkrete Personen, Dinge, Zeiten, Orte, Ereignisse und andere Schlüsselinformationen.

Entitäten sind das „Skelett“ von Inhalten und helfen Maschinen, das Thema einer Seite schnell zu lokalisieren.

Technisches Prinzip:

Google verwendet ein Multi-Task-Learning-Modell, das gleichzeitig Entitätserkennung, Wortarten-Tagging (zum Beispiel Nomen, Verben) und Relationsextraktion trainiert.

Das Modell sagt für jedes Token voraus, ob es zu einer Entität gehört, und markiert den Entitätstyp (zum Beispiel „TIME“, „PRODUCT“, „PERSON“).

Beispiele für Entitätstypen:

Typ Definition Beispiel (von der Seite „Wasserdichtigkeitstest des iPhone 15 im Jahr 2025“)
TIME Zeitpunkt / Zeitraum „September 2025“
PRODUCT Konkretes Produkt „iPhone 15“, „IP68-Wasserschutzklasse“
EVENT Ereignis / Handlung „Wasserdichtigkeitstest“, „Veröffentlichung“
ATTRIBUTE Eigenschaft / Merkmal einer Entität „Tiefe 6 Meter“, „30 Minuten“ (konkrete Wasserschutzparameter)

Praxisbeispiel:

Beim Satz „Der IP68-Wasserdichtigkeitstest des iPhone 15 im September 2025 zeigte, dass es in 6 Metern Wassertiefe 30 Minuten durchhielt“ würde das Entitätserkennungssystem ausgeben:

  • TIME: „September 2025“
  • PRODUCT: „iPhone 15“
  • ATTRIBUTE: „IP68-Wasserschutzklasse“, „6 Meter Wassertiefe“, „30 Minuten“
  • EVENT: „Wasserdichtigkeitstest“

Datenbasis:

Laut Googles Technikblog von 2024 erreicht das Entitätserkennungsmodell bei allgemeinen Texten eine Entitäten-Rückrufrate von 92 % (also den Anteil korrekt erkannter Entitäten an allen tatsächlich vorhandenen Entitäten). Bei langen Texten mit mehr als 5000 Zeichen sinkt diese Quote jedoch auf 85 %, da die Entitätendichte in langen Texten geringer ist und das Modell leichter etwas übersieht.

Deshalb führte Google eine „Abschnittsverarbeitung“ ein: Längere Texte werden in Abschnitte von etwa 500 Zeichen zerlegt, abschnittsweise erkannt und anschließend zusammengeführt. Dadurch stieg die Rückrufrate bei langen Texten auf 90 %.

Schritt 3: Semantische Verknüpfung

Nach der Tokenisierung und Entitätserkennung muss NLP die logischen Beziehungen zwischen Wörtern klären (zum Beispiel „gehört zu“, „führt zu“, „Eigenschaft von“) und die verstreuten Token in ein strukturiertes semantisches Netzwerk überführen.

Dieser Schritt entscheidet darüber, ob eine Maschine die tatsächliche Bedeutung eines Satzes „verstehen“ kann.

Technisches Prinzip:

Google verwendet einen Hybridansatz aus vortrainiertem Sprachmodell + Wissensgraph:

  • Vortrainierte Modelle (wie BERT) lernen aus riesigen Textmengen „implizite Beziehungen“ zwischen Wörtern (zum Beispiel, dass „Laufschuh“ und „Sportausrüstung“ in einer Ober-/Unterordnungsbeziehung stehen);
  • Der Wissensgraph (Google Knowledge Graph) liefert strukturiertes Wissen (zum Beispiel, dass die Marke des „iPhone 15“ „Apple“ ist und das Veröffentlichungsdatum „September 2023“), um die vom Modell gelernten Beziehungen zu überprüfen und zu ergänzen.

Beispiele für Beziehungstypen:

Beziehungstyp Definition Beispiel (von der Seite „Wie wählt man Laufschuhe aus?“)
Ober-/Unterordnungsbeziehung A ist eine Unterklasse von B (oder umgekehrt) „Laufschuh“ → „Sportausrüstung“ (Laufschuhe gehören zur Sportausrüstung)
Eigenschaftsbeziehung A ist ein Merkmal / Parameter von B „stoßdämpfende Zwischensohle“ → „Laufschuh“ (die Zwischensohle ist eine Eigenschaft des Laufschuhs)
Kausalbeziehung A verursacht B „Übergewicht“ → „Knieverletzung“ (Übergewicht kann Knieverletzungen verursachen)

Praxisbeispiel:

Beim Satz „Bei der Auswahl von Laufschuhen ist die stoßdämpfende Zwischensohle entscheidend, weil sie den Druck auf die Knie verringern kann“ stellt das System zur semantischen Verknüpfung fest:

  • eine Eigenschaftsbeziehung zwischen „Laufschuh“ und „stoßdämpfende Zwischensohle“;
  • eine Kausalbeziehung zwischen „stoßdämpfende Zwischensohle“ und „Knieentlastung“.

Datenbasis:

Googles interne Tests von 2023 zeigen, dass das Modell zur semantischen Verknüpfung bei häufigen Beziehungstypen eine Genauigkeit von 88 % erreicht, bei komplexen Beziehungen (wie „indirekter Kausalität“) jedoch nur 72 %. Im Satz „Das langfristige Tragen schlecht sitzender Schuhe kann zu einer Verformung des Fußgewölbes führen und dadurch Rückenschmerzen auslösen“ besteht zwischen „schlecht sitzende Schuhe“ und „Rückenschmerzen“ eine indirekte Kausalbeziehung, die das Modell leicht fälschlich als nicht direkt verknüpft einstufen kann. Um dieses Problem zu lösen, führte Google „Kettenlogik“ ein: Zwei entfernte Entitäten werden über einen Zwischenschritt (zum Beispiel „Fußgewölbeverformung“) verbunden, wodurch die Genauigkeit bei komplexen Beziehungen auf 85 % stieg.

Schritt 4: Kontextkorrektur

Manche Wörter sind isoliert betrachtet mehrdeutig (zum Beispiel kann „Apple“ eine Frucht oder eine Marke sein). Deshalb muss ihre Bedeutung mithilfe des ganzen Absatzes oder sogar der gesamten Seite korrigiert werden.

Dieser Schritt ist der Schlüssel dazu, dass NLP Texte „versteht“, und zugleich der Teil, der am stärksten vom Kontext abhängt.

Technisches Prinzip:

Google verwendet bidirektionale Aufmerksamkeitsmechanismen (wie im Kern von BERT), sodass das Modell gleichzeitig den vorderen und hinteren Teil eines Satzes „sehen“ und die Bedeutung jedes Tokens dynamisch anpassen kann.

Wenn das Modell zum Beispiel „Xiaomings Apple ist reif“ verarbeitet, könnte die anfängliche Bedeutung von „Apple“ „Frucht“ sein;

wenn anschließend der Satz „Er will mit Apple ein neues System veröffentlichen“ kommt, blickt das Modell auf den vorangehenden Kontext zurück, erkennt, dass „ein neues System veröffentlichen“ nichts mit Obst zu tun hat, und korrigiert „Apple“ zu „Technologieunternehmen“.

Praxisbeispiel:

Nehmen wir den Webseiteninhalt „Das neu veröffentlichte iPhone 15 von Apple unterstützt Satellitenkommunikation — eine gute Nachricht für Outdoor-Fans“ als Beispiel:

  • Betrachtet man nur „Apple“, könnte das Modell es fälschlich als „Frucht“ interpretieren;
  • in Verbindung mit „veröffentlichtes iPhone 15“ korrigiert das Modell „Apple“ zu „Technologieunternehmen“;
  • in Verbindung mit „Outdoor-Fans“ bestätigt das Modell zusätzlich, dass die „Satellitenkommunikation“ des iPhone 15 mit Outdoor-Szenarien zusammenhängt.

Datenbasis:

Googles Nutzerverhaltensstudie von 2024 zeigte, dass die Relevanz der Suchergebnisse bei mehrdeutigen Anfragen (zum Beispiel „Python“) nach Kontextkorrektur um 37 % höher war als ohne Korrektur.

Auf Seitenebene erhöht Kontextkorrektur die Erkennungsrate der richtigen Bedeutung mehrdeutiger Wörter konkret von 62 % auf 89 % (basierend auf internen Google-Testdaten).

NLP spart Nutzern täglich 30 % Suchzeit

Für Nutzer ist die direkteste Erfahrung bei der Suche: „Kann ich schneller finden, was ich brauche?“

Laut Microsofts Studie zum Nutzerverhalten 2024 verkürzte sich mit NLP-optimierten Suchmaschinen die durchschnittliche Zeit bis zur Zielinformation von 87 Sekunden auf 59 Sekunden (etwa 30 % weniger).

Mehrdeutige Suchanfragen

Etwa 40 % aller Suchanfragen enthalten mehrdeutige Wörter (wie „Apple“, „Python“, „Java“). Traditionelle Suchmaschinen behandeln diese als ein einziges Keyword und liefern dadurch viele irrelevante Ergebnisse.

NLP kann mithilfe von semantischer Disambiguierung (Word Sense Disambiguation, WSD) anhand des Kontexts die tatsächliche Bedeutung eines Wortes bestimmen und irrelevante Inhalte direkt herausfiltern.

Konkrete Auswirkungen:

  • Fall 1: Suche nach „Python“: Nutzer könnten ein Tutorial zur Programmiersprache suchen (62 %), Informationen über Schlangen (18 %) oder andere Inhalte zu Python (20 %). Traditionelle Suchmaschinen liefern alle Seiten mit „Python“, sodass Nutzer auf den ersten 3 Ergebnisseiten 10 bis 15 irrelevante Links manuell aussortieren müssen. Mit NLP kann das System anhand des Seitenkontexts (zum Beispiel „print()-Funktion“, „Crawler-Tutorial“) die Absicht erkennen und programmierbezogene Ergebnisse bevorzugen. Interne Google-Tests von 2023 zeigten, dass der Anteil wirksamer Erstseiten-Ergebnisse bei mehrdeutigen Anfragen von 38 % auf 72 % stieg und die durchschnittliche Zahl der Klicks von 2,3 auf 1,1 sank.
  • Fall 2: Suche nach „Java“: Nutzer könnten nach der Programmiersprache (55 %), einem Reiseführer zur indonesischen Insel Java (25 %) oder einer Kaffeesorte (20 %) suchen. Durch Analyse der auf der Seite vorkommenden Begriffe (zum Beispiel „JVM“, „Spring-Framework“ für Programmierung; „Tempel“, „Vulkane“ für Reisen) kann NLP den Nutzerbedarf schnell eingrenzen. Eine Pew-Research-Umfrage von 2024 zeigte, dass sich die Suchabschlusszeit bei mehrdeutigen Anfragen von 112 Sekunden auf 68 Sekunden verkürzte (40 Sekunden weniger).

Technische Grundlage:

Die Fähigkeit von NLP zur Bedeutungsauflösung beruht auf einer doppelten Verifikation durch „Kontextvektoren“ und „Wissensgraphen“.

Wenn ein Nutzer etwa nach „Java“ sucht, extrahiert das Modell weitere Schlüsselwörter auf der Seite (wie „Kaffee“, „Programmierung“, „Insel“) und ordnet sie Entitäten im Wissensgraphen zu („Java (Programmiersprache)“, „Java (Insel)“). Durch Berechnung der Vektorähnlichkeit (zum Beispiel Kosinus-Ähnlichkeit) wird die passendste Entität bestimmt und das entsprechende Ergebnis zurückgegeben.

Implizite Bedürfnisse

Suchbegriffe von Nutzern drücken meist nur 10 % bis 20 % des Kernbedarfs aus, die übrigen 80 % bis 90 % bleiben implizit (zum Beispiel „Preis“, „Schwierigkeit“, „geeignete Anwendungsszene“).

Durch semantische Erweiterung (Semantic Expansion) kann NLP ausgehend vom Kernbegriff verwandte Bedürfnisse ableiten und die vom Nutzer nicht ausdrücklich genannten Absichten aktiv mit abdecken.

Konkrete Auswirkungen:

  • Fall 1: Suche nach „Abnehm-Rezepten“: Nutzer meinen womöglich implizit „kalorienarm“, „einfach zuzubereiten“, „für Berufstätige geeignet“, „zuckerfrei“. Eine traditionelle Suchmaschine gleicht nur Seiten mit „Abnehmen“ und „Rezepte“ ab, wodurch Ergebnisse wie „extreme Fastenpläne“ oder „komplizierte Backrezepte“ auftauchen können. Mit NLP analysiert das System häufige Zusammenhangswörter zu „Abnehmen“ (wie „Kalorien“, „schnell“, „alltagstauglich“) und zeigt bevorzugt Seiten wie „15-Minuten-kalorienarmes Frühstück“ oder „Meal-Prep-Rezepte für Berufstätige“. Googles A/B-Tests von 2022 zeigten, dass Suchergebnisse, die implizite Bedürfnisse abdecken, die Verweildauer von 45 auf 78 Sekunden erhöhten (plus 73 %), weil keine zweite Suche wie „Abnehm-Rezepte kalorienarm“ mehr nötig war.
  • Fall 2: Suche nach „Was an Regentagen tragen?“: Nutzer denken womöglich an „wasserdicht“, „rutschfest“, „leicht“, „warm“. Traditionelle Suchmaschinen liefern eher allgemeine Ergebnisse wie „Regenmantel“ oder „Regenschirm“. NLP erkennt die Szeneneigenschaften von „Regenwetter“ (feucht, rutschig), verknüpft sie mit Merkmalen wie „wasserdichtes Material“, „rutschfeste Sohle“, „faltbar und tragbar“ und empfiehlt konkrete Produkte wie „wasserdichte Outdoorjacke“ oder „rutschfeste Martin-Boots“. Laut eMarketer 2024 stieg bei E-Commerce-Suchen, die implizite Bedürfnisse abdeckten, die Conversion-Rate von 3,2 % auf 5,8 %.

Technische Grundlage:

Semantische Erweiterung beruht auf dem Training von „Wortvektorräumen“ und „Nutzerverhaltensdaten“.

So bildet Googles BERT-Modell „Abnehm-Rezepte“ auf einen hochdimensionalen Vektorraum ab, in dem Begriffe wie „kalorienarm“ oder „einfach“ diesem Ausdruck sehr nahe liegen;

gleichzeitig analysiert das System historische Suchdaten (zum Beispiel, dass Nutzer nach „Abnehm-Rezepten“ häufig auf „kalorienarmes Frühstück“ klicken), validiert so die Relevanz impliziter Bedürfnisse und erstellt schließlich ein erweitertes Begriffswörterbuch.

Szenenübergreifende Anpassung

Die Suchsituation der Nutzer (Zeit, Ort, Gerät) beeinflusst den Bedarf direkt. Mit Context Awareness kann NLP das Verständnis einer Anfrage dynamisch anpassen und Ergebnisse liefern, die besser zur aktuellen Situation passen.

Konkrete Auswirkungen:

  • Zeitszene: Im Winter wird bei der Suche nach „Jacke“ NLP eher Begriffe wie „gefüttert“, „warm“, „Daunenjacke“ priorisieren; im Sommer eher „UV-Schutz“, „leicht“, „atmungsaktiv“. Laut Googles saisonalen Suchdaten von 2023 stieg nach Szenenanpassung die Zufriedenheit der Nutzer mit den Ergebnissen von 68 % auf 85 %.
  • Ortsszene: Wer in Shanghai nach „Hotpot“ sucht, bekommt eher lokale Top-Lokale empfohlen; in Chengdu eher authentische Sichuan-Hotpots. Ein kombinierter Test von Google Maps und Search aus 2024 zeigte, dass nach lokaler Anpassung die Wahrscheinlichkeit, auf „Geschäfte in der Nähe“ zu klicken, von 22 % auf 47 % stieg.
  • Geräteszene: Wer auf dem Handy nach „Tankstelle in der Nähe“ sucht, erhält bevorzugt Ergebnisse wie „Kartennavigation“, „Live-Benzinpreise“, „nächste Entfernung“ — passend zur schnellen Entscheidungsfindung mobil. Auf dem Desktop könnten dagegen „Tankstellenliste“, „Nutzerbewertungen“ oder „Sonderangebote“ stärker betont werden. Laut Microsofts Multi-Device-Studie von 2024 verkürzte sich die Zeit bis zur Aufgabenerledigung nach Geräteanpassung um 42 % (mobil von 90 auf 52 Sekunden, Desktop von 120 auf 69 Sekunden).

Technische Grundlage:

Context Awareness stützt sich auf „Metadatenextraktion“ und „Echtzeit-Datenintegration“.

Das System extrahiert zum Beispiel Zeit (über die Uhrzeit auf dem Gerät), Ort (über IP oder GPS) und Gerätetyp (Handy / Computer) aus der Anfrage und kombiniert diese mit Echtzeitdaten wie Wetter, Verkehr oder Ladenöffnungszeiten, um semantische Gewichtungen anzupassen.

Wenn etwa an einem Regentag nach „Jacke“ gesucht wird, holt das System die lokale Regenwahrscheinlichkeit in Echtzeit ab und erhöht das Gewicht des Attributs „wasserdicht“.

Wie NLP Zeit spart

Szenario-Typ Traditionelle Suche (ohne NLP) NLP-optimierte Suche Zeitersparnis Datenquelle
Mehrdeutige Anfrage (Python) 10 Ergebnisse auf der ersten Seite, 5 davon irrelevant 8 Ergebnisse auf der ersten Seite, 7 davon relevant 40 Sekunden Google-interner Test 2023
Implizites Bedürfnis (Abnehm-Rezepte) Zweite Suche nach „kalorienarm“ nötig Kalorienarme Rezepte direkt auf der ersten Seite 25 Sekunden Pew Research 2024
Szenenübergreifend (im Sommer nach Jacken suchen) Ergebnisse enthalten Wintermodelle, manuelles Filtern nötig Erste Seite nur mit sommerlichen UV-Schutz-Modellen 30 Sekunden Microsoft-Multi-Szenario-Studie 2024

Wie NLP in der Google-Suche Seitentexte „versteht“

Googles NLP-Technologie wandelt Seitentexte durch die vier Schritte „Tokenisierung → Entitätserkennung → semantische Verknüpfung → Kontextkorrektur“ in ein für Maschinen verständliches „semantisches Netz“ um.

Täglich werden mehr als 50 Milliarden Wörter verarbeitet (Google-Daten 2024), mit 97,3 % Tokenisierungsgenauigkeit und 92 % Rückrufrate bei der Entitätserkennung. Dadurch kann „Apple“ automatisch als Frucht oder Handy unterschieden und „Python“ einem Programmier-Tutorial statt einer Schlange zugeordnet werden. Bei entsprechenden Suchanfragen stieg der Anteil effektiver Erstseiten-Ergebnisse von 38 % auf 72 % (interner Test 2023).

Tokenisierung: Text in „die kleinsten für Maschinen verständlichen Einheiten“ schneiden

Einfach gesagt bedeutet das, fortlaufende Textsequenzen in sinnvolle „kleinste sprachliche Einheiten“ (Token) zu zerlegen.

Bei Sprachen wie Englisch mit natürlichen Leerzeichen reicht eine Trennung anhand von Leerzeichen (zum Beispiel „coffee mug“ zu „coffee“ + „mug“);

bei Chinesisch, Japanisch und anderen „sprachen ohne Leerzeichen“ führt jedoch eine falsche Segmentierung direkt dazu, dass die nachfolgende Entitätserkennung und das semantische Verständnis vollständig fehlschlagen.

Regelbasis + Deep Learning

Googles Tokenisierungssystem nutzt ein Hybridmodell nach dem Prinzip „Regelbasis zuerst, Deep Learning ergänzt“. Das Kernziel besteht darin, Text „sowohl schnell als auch präzise“ zu segmentieren.

Regelbasis

Die Regelbasis ist das „Fundament“ des Google-Tokenisierungssystems. Sie enthält gängige Kombinationsmuster wichtiger Weltsprachen (zum Beispiel im Chinesischen „Kaffee kochen“, „Handfilterkanne“, „Wasserdichtigkeitstest“, im Englischen „espresso machine“, „drip coffee“). Diese Kombinationen stammen aus statistischen Analysen von Internettexten — Google crawlt Webseiten im gesamten Netz und ermittelt die gemeinsame Auftretenshäufigkeit benachbarter Wörter (zum Beispiel beträgt die Wahrscheinlichkeit, dass auf „kochen“ „Kaffee“ folgt, 92 %, dass auf „kochen“ „Reis“ folgt, 85 %). Daraus entsteht schließlich ein „Kombinationslexikon“ im Millionenbereich.

Wenn der chinesische Satz „如何煮一杯香浓的手冲咖啡“ verarbeitet wird, gleicht die Regelbasis hochfrequente Kombinationen wie „煮/咖啡“ und „手冲/咖啡“ zuerst ab. Daher wird korrekt zu „如何/煮/一杯/香浓的/手冲咖啡“ segmentiert;

Trifft das System auf „Java编程“, erkennt die Regelbasis „Java“ als Programmiersprache und „编程“ als Handlung und segmentiert zu „Java/编程“ statt fälschlich zu „Jav/a编/程“.

Deep Learning

So effizient die Regelbasis auch ist, sie kann nicht alle Fälle abdecken — täglich entstehen im Internet neue Begriffe (wie „Dopamin-Outfit“, „Metaversum“) und Fachtermini (wie „culpa in contrahendo“ im Recht oder „Herzinfarkt“ in der Medizin), die noch nicht in der Regelbasis enthalten sind. In solchen Fällen greift Google auf ein feinabgestimmtes BERT-Modell zurück, um dynamische Vorhersagen zu treffen.

BERT (bidirektionaler Transformer) ist ein vortrainiertes Sprachmodell, das Bedeutungen anhand des Kontexts verstehen kann.

Wenn zum Beispiel „dopamine dressing“ auftaucht und der Begriff in der Regelbasis fehlt, kann BERT anhand des Kontexts (wie „leuchtende Farben“, „gute Stimmung“, „Mode“) vorhersagen, dass es sich um einen neuen Begriff zur Beschreibung eines Kleidungsstils handelt. Daher sollte die Einheit als „dopamine dressing“ im Ganzen segmentiert werden und nicht fehlerhaft als „dopa/min/e dress/ing“.

Technischer Vergleich:

Technologie-Typ Vorteile Einschränkungen Einsatzszenarien
Regelbasis Schnell (Reaktion im Millisekundenbereich) Kann neue / fachliche Begriffe nicht vollständig abdecken Normale allgemeine Texte
Feinabgestimmtes BERT-Modell Dynamische Erkennung neuer Begriffe und Fachtermini Hoher Rechenaufwand (GPU erforderlich) Neue Fachgebiete, Long-Tail-Texte
Mehrsprachige Anpassung

Google unterstützt die Tokenisierung von über 100 Sprachen, doch die Eigenschaften dieser Sprachen unterscheiden sich stark, weshalb Regeln und Modelle gezielt angepasst werden müssen.

Chinesisch: keine Leerzeichen + hohe Mehrdeutigkeit

Die Schwierigkeit im Chinesischen liegt in den fehlenden Leerzeichen und der Mehrdeutigkeit von Wörtern. Der Satz „乒乓球拍卖完了“ kann beispielsweise auf zwei Arten segmentiert werden:

  • Richtig: „乒乓球拍/卖完了“ („Tischtennisschläger“ ist das Produkt);
  • Falsch: „乒乓球/拍卖/完了“ („versteigern“ wäre die Handlung).

Google löst diese Mehrdeutigkeit mithilfe eines Kontext-Wahrscheinlichkeitsmodells: Es vergleicht die gemeinsame Auftretenshäufigkeit von „乒乓球拍“ als Ganzes (zum Beispiel 90 % auf E-Commerce-Seiten) mit der Kombination „乒乓球 + 拍卖“ (nur etwa 5 % in Sportnachrichten) und wählt daher bevorzugt „乒乓球拍/卖完了“.

Arabisch: Rechts-nach-links-Schrift + verbundene Schrift

Arabisch wird von rechts nach links geschrieben, und Wörter können direkt verbunden erscheinen. Googles Tokenisierungssystem kehrt zunächst die Schreibrichtung in eine links-nach-rechts-Darstellung um und verwendet anschließend die Regelbasis, um die Grenzen von „كتاب“ (Buch) und „قلم“ (Stift) zu bestimmen. Das Ergebnis ist die Segmentierung „كتاب/قلم“.

Swahili: agglutinierende Spracheigenschaften

Swahili ist eine agglutinierende Sprache, in der durch Anhängen von Affixen an Wortstämme Bedeutungen ausgedrückt werden (zum Beispiel „mtoto“ = „Kind“, „watoto“ = „Kinder“). Googles Tokenisierungsmodell erkennt die Grenzen solcher Affixe (zum Beispiel „-o“ als Singularsuffix, „-wa“ als Pluralsuffix) und segmentiert „watoto“ korrekt zu „wa/toto“ (Plural + Kind).

Googles mehrsprachiger Tokenisierungstest von 2023 zeigte, dass die Genauigkeit für dominante Sprachen wie Englisch oder Spanisch 98 % erreicht, für komplexe Sprachen wie Arabisch oder Swahili jedoch nur 92 %.

Zur Leistungssteigerung hat Google für jede Sprache „Sprachteams“ aufgebaut, die mehr als 100.000 typische Sätze manuell annotieren, um spezialisierte Tokenisierungsmodelle zu trainieren.

Wie Tokenisierungsfehler Suchergebnisse beeinflussen

Die Tokenisierung ist die Grundlage aller folgenden NLP-Schritte. Sobald hier ein Fehler entsteht, kann dies die Entitätserkennung scheitern lassen, semantische Verknüpfungen verfälschen und letztlich die Relevanz von Suchergebnissen beeinträchtigen. Zwei reale Beispiele:

Fall 1: E-Commerce-Seite „Java-Kaffee“

Ein Seitentitel lautet „Java-Kaffee: pour-over-weiches Geschmackserlebnis“. Die korrekte Segmentierung wäre „Java/咖啡/:/手冲级/顺滑/口感“. Würde fälschlich zu „Jav/a咖/啡/:/手冲级/顺滑/口感“ segmentiert, würde das Entitätserkennungssystem „Jav“ (eine bedeutungslose Zeichenfolge) sowie „咖“ und „啡“ als eigenständige Entitäten erkennen, wodurch Google das korrekte Produkt „Java-Kaffee“ nicht mehr zuordnen könnte. Wenn Nutzer dann nach „Java-Kaffee“ suchen, könnte diese Seite fälschlich herausgefiltert werden.

Fall 2: Rechtsseite „culpa in contrahendo“

Ein Rechtsblog enthält den Satz „culpa in contrahendo bedeutet, dass eine Partei durch Verstoß gegen Treu und Glauben der anderen Partei Schaden zufügt“. Die korrekte Segmentierung müsste „缔约过失责任/是/指/一方/因/违背/诚实信用原则/导致/对方/损失“ lauten. Würde jedoch fälschlich in „缔/约/过失/责任/是/指/一方/因/违背/诚实信用/原则/导致/对方/损失“ zerlegt, würde das Entitätserkennungssystem „缔约“, „过失“ und „责任“ als getrennte Entitäten behandeln, ohne sie mit dem juristischen Fachbegriff „缔约过失责任“ zu verknüpfen. Dadurch würde die Seite bei Suchanfragen nach diesem Begriff niedriger ranken.

Datenbasis:

Interne Google-Tests zeigten, dass Tokenisierungsfehler das Ranking einer Zielseite in den Suchergebnissen um 3 bis 5 Positionen verschlechtern können (A/B-Testdaten 2023) und die Klickwahrscheinlichkeit um 42 % sinkt, weil die Ergebnisrelevanz abnimmt.

Wichtige Informationen „aus dem Text herausgreifen“

Wenn ein Nutzer nach „Wasserdichtigkeitstest iPhone 15 Modell 2025“ sucht, muss Google schnell wissen, dass sich die Seite im Kern um „iPhone 15“ (Produkt), „September 2025“ (Zeit) und „Wasserdichtigkeitstest“ (Ereignis) dreht.

Diese Schlüsselinformationen nennt man „Entitäten“ (Entity).

Multi-Task-Learning-Modell (Multi-Task Learning)

Googles Entitätserkennungssystem basiert auf einem Multi-Task-Learning-Modell, das gleichzeitig die drei Aufgaben „Entitätserkennung“, „Wortarten-Tagging“ und „Relationsextraktion“ trainiert und durch gemeinsame Nutzung unterer Modellparameter effizienter arbeitet.

Einfach gesagt lernt das Modell gleichzeitig:

  • welche Wörter Entitäten sind (zum Beispiel „iPhone 15“ als Produkt);
  • welche syntaktische Rolle diese Wörter im Satz spielen (zum Beispiel „iPhone 15“ als Substantiv);
  • welche Beziehungen zwischen den Entitäten bestehen (zum Beispiel, dass „iPhone 15“ von „Apple“ produziert wird).

Kerntechnische Details:

  • BERT-Feinabstimmung: Auf Basis von Googles vortrainiertem BERT-Modell wird mit großen Mengen annotierter Daten (wie Wikipedia, Nachrichten, E-Commerce-Seiten) feinjustiert, um kontextuelle Merkmale von Entitäten zu lernen. Im Satz „Im September 2025 wurde das iPhone 15 veröffentlicht“ sind „September 2025“ und „iPhone 15“ über BERT-Kontextvektoren miteinander verknüpft, sodass das Modell das erste als Zeit und das zweite als Produkt identifizieren kann.
  • Entitätstyp-Klassifikator: Auf der Ausgabeschicht von BERT wird ein „Typklassifikationskopf“ ergänzt, der den konkreten Typ jeder Entität vorhersagt (wie TIME, PRODUCT, PERSON). Dieser Klassifikator basiert auf mehr als 50 vordefinierten Entitätstypen (für allgemeine und vertikale Domänen), zum Beispiel:
Entitätstyp Definition Beispiel
TIME Zeitpunkt / Zeitraum „September 2025“, „30 Minuten“
PRODUCT Konkretes Produkt „iPhone 15“, „Handfilterkanne“
PERSON Person (real oder fiktiv) „Tim Cook“, „Zhang Xiaolong“
LOCATION Ort (konkret oder abstrakt) „Shanghai“, „GitHub“
EVENT Ereignis / Handlung „Wasserdichtigkeitstest“, „Pressekonferenz“
ATTRIBUTE Eigenschaft / Merkmal einer Entität „IP68-Wasserschutzklasse“, „6 Meter Wassertiefe“
Von allgemeinen zu vertikalen Domänen: „Erkennungsgenauigkeit“

Googles Entitätstypsystem unterteilt sich in allgemeine Domänen (für Alltagstexte) und vertikale Domänen (für Fachinhalte).

Entitätstypen in allgemeinen Domänen (50+ Typen):

Sie decken 90 % der Suchszenarien der Nutzer ab, zum Beispiel:

  • Zeit (TIME): konkrete Daten („September 2025“), Zeitdauer („30 Minuten“), Zeiträume („2020–2025“);
  • Produkt (PRODUCT): Elektronik („iPhone 15“), Haushaltsgeräte („Handfilterkanne“), Alltagsgegenstände („Kaffeebohnen“);
  • Ort (LOCATION): Städte („Shanghai“), Länder („USA“), Organisationen („Google“).

Vertikale Entitätstypen (branchenspezifisch):

Für Fachinhalte wie Recht, Medizin oder Technologie trainiert Google zusätzliche, domänenspezifische Entitätstypen, zum Beispiel:

  • Recht: „Gesetzesvorschrift“ (zum Beispiel „§ 10 des Zivilgesetzbuchs“), „Rechtshandlung“ (zum Beispiel „culpa in contrahendo“);
  • Medizin: „Krankheit“ (zum Beispiel „Herzinfarkt“), „Arzneimittel“ (zum Beispiel „Aspirin“), „Operationsmethode“ (zum Beispiel „PCI-Eingriff“);
  • Technologie: „Algorithmus“ (zum Beispiel „BERT“), „Programmiersprache“ (zum Beispiel „Python“), „Hardware-Architektur“ (zum Beispiel „ARM“).

Datenbasis:

Interne Google-Tests von 2023 zeigen, dass die Entitätserkennung in allgemeinen Domänen eine Genauigkeit von 92 % erreicht, in vertikalen Domänen wie dem Rechtsbereich jedoch zunächst nur 78 % (aufgrund weniger Fachbegriffe und unzureichender Annotierungsdaten).

Durch das separate Training eines „juristischen Entitätserkennungsmodells“ (auf Basis von über 100.000 annotierten Rechtstexten) stieg die Genauigkeit auf 90 %; im medizinischen Bereich erreichte ein Modell mit mehr als 50.000 annotierten Krankenakten 88 %.

Vier Schritte von Kandidatenerkennung bis Grenzbestimmung

Im Folgenden wird der Verarbeitungsablauf am Beispiel des Satzes „Der IP68-Wasserdichtigkeitstest des iPhone 15 im September 2025 zeigte, dass es in 6 Metern Wassertiefe 30 Minuten durchhielt“ aufgeschlüsselt:

Schritt 1: Kandidatenerkennung — mögliche „Samen“ von Entitäten finden

Das Modell scannt zunächst den Text und markiert anhand einer Regelbasis (zum Beispiel „Jahr + Monat“ als Zeitkandidat, „Zahl + Produktname“ als Produktkandidat) und statistischer Wahrscheinlichkeiten (zum Beispiel 90 % Wahrscheinlichkeit, dass auf „iPhone“ eine Zahl folgt) mögliche Entitätskandidaten.

  • Kandidat 1: „September 2025“ (entspricht der Regel „Jahr + Monat“);
  • Kandidat 2: „iPhone 15“ (entspricht der Regel „Produktname + Modell“);
  • Kandidat 3: „IP68-Wasserdichtigkeitstest“ (entspricht der Regel „technischer Parameter + Aktion“);
  • Kandidat 4: „6 Meter Wassertiefe“ (entspricht der Regel „Zahl + Einheit + Attribut“);
  • Kandidat 5: „30 Minuten“ (entspricht der Regel „Zahl + Zeiteinheit“).

Schritt 2: Typklassifikation — Kandidaten „etikettieren“

Über den „Typklassifikationskopf“ des Multi-Task-Learning-Modells wird für jeden Kandidaten ein Typ vorhergesagt:

  • „September 2025“ → TIME (Zeit);
  • „iPhone 15“ → PRODUCT (Produkt);
  • „IP68-Wasserdichtigkeitstest“ → EVENT (Ereignis);
  • „6 Meter Wassertiefe“ → ATTRIBUTE (Attribut, beschreibt die Wassertiefe);
  • „30 Minuten“ → ATTRIBUTE (Attribut, beschreibt die Dauer der Wasserdichtigkeit).

Schritt 3: Grenzbestimmung — die „Anfangs- und Endposition“ von Entitäten korrigieren

Einige Kandidaten können fehlerhafte Grenzen haben (zum Beispiel könnte „IP68-Wasserdichtigkeitstest“ irrtümlich als „IP68“ + „Wasserdichtigkeitstest“ interpretiert werden). Das Modell nutzt daher Kontextvektoren zur Grenzprüfung:

  • „IP68“ ist ein Wasserschutzstandard (gehört zu ATTRIBUTE), aber „IP68-Wasserdichtigkeitstest“ ist insgesamt ein Ereignis (EVENT). Deshalb wird die Grenze auf „IP68-Wasserdichtigkeitstest“ korrigiert;
  • In „6 Meter Wassertiefe“ ist „6 Meter“ ein numerischer Wert und „Wassertiefe“ ein Attribut, daher ist es sinnvoller, die gesamte Phrase als ATTRIBUTE zu behandeln.

Schritt 4: Globale Validierung — Fehler anhand des gesamten Textes korrigieren

Das Modell erzeugt einen „globalen semantischen Vektor“ für den gesamten Absatz (der das Gesamtthema repräsentiert, etwa „Wasserdichtigkeitstest von Smartphones“) und überprüft, ob lokale Entitäten mit dem globalen Thema in Konflikt stehen. Zum Beispiel:

  • Wenn das Thema des Textes „Smartphone-Testbericht“ ist, passt „iPhone 15“ als PRODUCT (Produkt) zum Thema;
  • Wenn „IP68-Wasserdichtigkeitstest“ als EVENT (Ereignis) markiert ist, ist das mit dem Thema „Smartphone-Testbericht“ konsistent und muss nicht korrigiert werden.
Wie Google die Genauigkeit der Entitätserkennung sicherstellt
Testdimension Ursprüngliche Genauigkeit (2020) Optimierte Genauigkeit (2024) Verbesserungsmethode
Allgemeine Domäne 85 % 92 % 1 Million zusätzliche annotierte Daten, Optimierung der BERT-Feinabstimmungsparameter
Lange Texte (>5000 Zeichen) 78 % 90 % Einführung der „Abschnittsverarbeitung“ (Unterteilung in 500-Zeichen-Absätze)
Vertikale Domäne (Recht) 78 % 90 % Training domänenspezifischer Modelle (100.000+ annotierte Rechtstexte)
Neue Entitäten (wie „dopamine dressing“) 62 % 85 % Kombination mit BERTs kontextueller Vorhersagefähigkeit zur dynamischen Erkennung neuer Begriffe

Nutzerfeedback:

Google sammelt Daten zum Suchverhalten der Nutzer (zum Beispiel ob die angeklickte Seite die Zielentität enthält), um das Modell rückwirkend zu optimieren.

Wenn Nutzer zum Beispiel nach „Wasserschutzklasse iPhone 15“ suchen, aber die angeklickte Seite „IP68“ nicht als ATTRIBUTE markiert, passt das Modell seine Parameter an und verstärkt die Erkennung von Entitäten rund um „Wasserschutzklasse“.

Wörter „in Beziehung setzen“ und Logik aufbauen

Wenn Nutzer nach „fürs Laufen geeigneten Schuhen“ suchen, muss Google wissen, wie „Laufen“ und „Schuhe“ zusammenhängen (Funktionszweck) und wie „stoßdämpfende Zwischensohle“ und „Laufschuh“ zusammenhängen (Eigenschaft), um wirklich relevante Ergebnisse zurückgeben zu können.

Diese Fähigkeit, Wörter „in Beziehung zu setzen“, wird semantische Relationsextraktion (Semantic Relation Extraction) genannt.

Vortrainierte Modelle und Wissensgraph

1. Vortrainierte Modelle: Beziehungen aus riesigen Textmengen „selbst lernen“

Vortrainierte Modelle (wie BERT, PaLM) sind der zentrale „Lerner“ der semantischen Verknüpfung. Durch Analyse von Internettexten im Billionenmaßstab (Webseiten, Bücher, Foren) erfassen sie automatisch implizite Beziehungen zwischen Wörtern. Zum Beispiel:

  • In Sätzen wie „Laufschuhe eignen sich für Langstreckenlauf“ oder „Basketballschuhe eignen sich für Sprünge“ lernt das Modell die Zweckbeziehung zwischen „Laufschuh“ und „Langstreckenlauf“ sowie zwischen „Basketballschuh“ und „Sprung“;
  • In Sätzen wie „Das iPhone 15 ist mit dem A17-Chip ausgestattet“ und „Das MacBook Pro verwendet den M3-Chip“ lernt das Modell die Beziehung „ausgestattet mit“ zwischen „iPhone 15“ und „A17-Chip“ sowie zwischen „MacBook Pro“ und „M3-Chip“.

Technische Details:

Vortrainierte Modelle repräsentieren die Semantik jedes Wortes mithilfe „kontextualisierter Einbettungen“ (Contextualized Embedding).

Zum Beispiel verändert sich der Vektor von „Laufschuh“ je nach Kontext des Satzes (wie „Laufschuhe haben gute Dämpfung“ vs. „Laufschuhe sehen modisch aus“). So kann das Modell feine Unterschiede erfassen und die konkrete Beziehung zwischen Wörtern bestimmen.

2. Wissensgraph: Beziehungen mit strukturiertem Wissen „prüfen + ergänzen“

Vortrainierte Modelle können implizite Beziehungen lernen, machen dabei aber auch Fehler (zum Beispiel könnte die Beziehung zwischen „Apple“ und „Frucht“ fälschlich als „Marke“ interpretiert werden).

Dann liefert Googles Wissensgraph (mit über 500 Millionen Entitäten und 20 Milliarden Beziehungen) strukturiertes Wissen, um die vom Modell gelernten Beziehungen zu validieren und zu ergänzen.

Wenn das Modell beispielsweise den Satz „Samsung ist der Display-Zulieferer des iPhone 15“ analysiert:

  • lernt das vortrainierte Modell aus dem Kontext die Beziehung „Zulieferer“ zwischen „iPhone 15“ und „Samsung“;
  • im Wissensgraphen existiert bereits die strukturierte Beziehung „iPhone 15 → Display-Zulieferer → Samsung“, wodurch die Beziehung überprüft und die Verknüpfung bestätigt wird.
Vom einfachen zum komplexen „Beziehungsnetz“

Google definiert über 20 differenzierte Beziehungstypen, die 90 % der Suchszenarien der Nutzer abdecken. Diese Beziehungen lassen sich in drei Hauptkategorien einteilen:

1. Grundbeziehungen (allgemeine Domäne)

Beziehungstyp Definition Beispiel (von der Seite „Wie wählt man Laufschuhe aus?“)
Ober-/Unterordnungsbeziehung A ist eine Unterklasse von B (oder umgekehrt) „Laufschuh“ → „Sportausrüstung“ (Laufschuhe gehören zur Sportausrüstung)
Eigenschaftsbeziehung A ist ein Merkmal / Parameter von B „stoßdämpfende Zwischensohle“ → „Laufschuh“ (die Zwischensohle ist eine Eigenschaft des Laufschuhs)
Funktionszweck A wird für B verwendet „Handfilterkanne“ → „Kaffee kochen“ (eine Handfilterkanne dient zum Kaffeekochen)
Zeitliche Reihenfolge A geschieht vor / nach B „Veröffentlichung“ → „Markteinführung“ (ein Produkt wird zuerst vorgestellt und dann verkauft)

2. Komplexe Beziehungen (vertikale Domänen)

Für Fachbereiche wie Recht, Medizin und Technologie führt Google feinere Beziehungstypen ein:

  • Rechtsbereich: „culpa in contrahendo“ → „Verstoß gegen Treu und Glauben“ (Kausalbeziehung); „§ 10 Zivilgesetzbuch“ → „Ehewirksamkeit“ (Anwendungsbereichsbeziehung).
  • Medizinischer Bereich: „Herzinfarkt“ → „Koronararterienverschluss“ (Ursachenbeziehung); „Aspirin“ → „Hemmung der Thrombozytenaggregation“ (pharmakologische Wirkung).
  • Technologiebereich: „Python“ → „Crawler-Tutorial“ (Anwendungsbereichsbeziehung); „ARM-Architektur“ → „niedriger Stromverbrauch“ (technische Eigenschaftsbeziehung).

Fünf Schritte von der Kandidatenbeziehungs-Suche zur globalen Validierung

Im Folgenden wird der Ablauf am Satz „Bei der Auswahl von Laufschuhen ist die stoßdämpfende Zwischensohle entscheidend, weil sie den Druck auf die Knie verringern kann“ erläutert:

Schritt 1: Kandidatenbeziehungen finden — mögliche „Beziehungssamen“ ermitteln

Das Modell scannt zuerst den Text und markiert anhand von Regelbasis (zum Beispiel „X ist der Schlüssel von Y“ deutet möglicherweise auf eine Zweckbeziehung hin) und statistischer Wahrscheinlichkeit (zum Beispiel 90 % gemeinsame Auftretenswahrscheinlichkeit von „stoßdämpfende Zwischensohle“ und „Laufschuh“) mögliche Kandidatenbeziehungen.

  • Kandidat 1: „Laufschuh“ und „stoßdämpfende Zwischensohle“ (mögliche Eigenschaftsbeziehung);
  • Kandidat 2: „stoßdämpfende Zwischensohle“ und „Knieentlastung“ (mögliche Zweckbeziehung).

Schritt 2: Beziehungstyp klassifizieren — Kandidaten „etikettieren“

Über den „Beziehungsklassifikationskopf“ des vortrainierten Modells wird für jeden Kandidaten ein Beziehungstyp vorhergesagt:

  • „Laufschuh“ und „stoßdämpfende Zwischensohle“ → Eigenschaftsbeziehung (die Zwischensohle ist eine Eigenschaft des Laufschuhs);
  • „stoßdämpfende Zwischensohle“ und „Knieentlastung“ → Zweckbeziehung (die Zwischensohle dient dazu, den Kniedruck zu reduzieren).

Schritt 3: Grenzbestimmung — den „Wirkungsbereich“ der Beziehung korrigieren

Einige Kandidaten können Grenzfehler aufweisen (zum Beispiel könnte „stoßdämpfende Zwischensohle“ fälschlich als Bestandteil statt als Eigenschaft des Laufschuhs interpretiert werden). Das Modell validiert diese Grenzen mit Kontextvektoren:

  • „Stoßdämpfende Zwischensohle“ beschreibt ein „Material-/Strukturmerkmal“ des Laufschuhs und gehört daher zu den Eigenschaften und nicht zu den Bestandteilen (Bestandteile wären etwa „Außensohle“ oder „Obermaterial“). Daher wird dies als Eigenschaftsbeziehung korrigiert.

Schritt 4: Globale Validierung — Fehler anhand des gesamten Textes korrigieren

Das Modell erstellt einen „globalen semantischen Vektor“ für den gesamten Textabschnitt (repräsentiert das Gesamtthema, zum Beispiel „Ratgeber zum Laufschuhkauf“) und überprüft, ob lokale Beziehungen mit dem globalen Thema kollidieren. Zum Beispiel:

  • Wenn das Thema „Laufschuhe auswählen“ ist, passt die Zweckbeziehung zwischen „stoßdämpfende Zwischensohle“ und „Knieentlastung“ zum Thema;
  • wenn das Thema „Prävention von Sportverletzungen“ ist, muss neu bewertet werden, ob die Beziehung mit der Verletzungsprävention zusammenhängt.

Schritt 5: Validierung durch den Wissensgraphen — strukturiertes Wissen als „Sicherheitsnetz“

Das Modell greift auf den Wissensgraphen zurück, um die Plausibilität der Beziehung zu validieren:

  • Im Wissensgraphen gehören zu den Eigenschaften von „Laufschuh“ unter anderem „stoßdämpfende Zwischensohle“, „Gewicht“ und „Sohlenmaterial“, womit bestätigt wird, dass die Zwischensohle eine legitime Eigenschaft von Laufschuhen ist;
  • zu den Funktionen der „stoßdämpfenden Zwischensohle“ gehören dort „Knieentlastung“ und „Komfortsteigerung“, womit „Knieentlastung“ als legitime Funktion bestätigt wird.
Wie Google die Genauigkeit semantischer Verknüpfung sicherstellt
Testdimension Ursprüngliche Genauigkeit (2020) Optimierte Genauigkeit (2024) Verbesserungsmethode
Häufige Beziehungen (Ober-/Unterordnung, Eigenschaften) 78 % 88 % 2 Millionen zusätzliche annotierte Daten, Optimierung der BERT-Feinabstimmung
Komplexe Beziehungen (Kausalität, Zweck) 65 % 82 % Einführung von „Kettenlogik“ (Verbindung entfernter Entitäten über Zwischenschritte)
Vertikale Domäne (Medizin) 60 % 79 % Training domänenspezifischer Modelle (50.000+ annotierte medizinische Texte)
Neue Beziehungen (wie „großes KI-Modell → multimodal“) 52 % 75 % Kombination mit kontextueller Vorhersagefähigkeit vortrainierter Modelle zur dynamischen Erkennung neuer Beziehungen
Wortbedeutungen mithilfe des Gesamttexts korrigieren

Wenn Nutzer nach „Python-Tutorial“ suchen, muss Google entscheiden, ob „Python“ auf der Seite die Programmiersprache (62 %) oder eine Schlange (18 %) meint;

wenn Nutzer nach „Apple-Keynote“ suchen, muss bestätigt werden, dass „Apple“ das Technologieunternehmen (95 %) und nicht die Frucht (5 %) bezeichnet.

Diese Fähigkeit, „Wortbedeutungen mithilfe des Gesamttexts zu korrigieren“, wird Kontextdisambiguierung (Contextual Disambiguation) genannt.

Bidirektionale Aufmerksamkeit und globale Semantik

1. Bedeutungswahrnehmung durch gleichzeitiges „Vor- und Zurücksehen“

Der bidirektionale Aufmerksamkeitsmechanismus (wie im Kern von BERT) erlaubt es dem Modell, gleichzeitig die vordere und hintere Hälfte eines Satzes zu analysieren und dabei die Beziehung von „Ursache und Wirkung“ zwischen Wörtern zu erfassen.

Wenn zum Beispiel der Satz „Xiaomings Apfel ist reif“ verarbeitet wird, konzentriert sich das Modell zunächst auf „Xiaoming“ und „reif“ und nimmt vorläufig an, dass „Apfel“ eine Frucht ist;

wenn dann im nächsten Satz „Er will mit Apple ein neues System veröffentlichen“ steht, blickt das Modell auf den vorherigen Kontext zurück, erkennt, dass „ein neues System veröffentlichen“ nichts mit Obst zu tun hat, und korrigiert „Apple“ zu „Technologieunternehmen“.

Technische Details:

Bidirektionale Aufmerksamkeit wird durch eine „Query-Key-Value“-Matrix realisiert:

  • Query: der semantische Vektor des aktuellen Wortes;
  • Key: die semantischen Vektoren anderer Wörter;
  • Value: die semantischen Vektoren anderer Wörter (gewichtet nach Aufmerksamkeitswerten).

Das Modell berechnet die Ähnlichkeit zwischen „Query“ und „Key“ und weist jedem Wort einen „Aufmerksamkeitswert“ zu. Je höher der Wert, desto stärker beeinflusst dieses Wort die Bedeutung des aktuellen Wortes.

Zum Beispiel hat „neues System veröffentlichen“ gegenüber „Apple“ ein Aufmerksamkeitsgewicht von bis zu 0,8 (bei maximal 1) und liegt damit deutlich über „reif“ mit 0,2. Deshalb orientiert sich das Modell bevorzugt an „neues System veröffentlichen“, um die Bedeutung von „Apple“ zu korrigieren.

2. Der „Themenanker“ einer ganzen Seite

Neben dem lokalen Satzkontext erstellt Google für die gesamte Seite auch einen „globalen semantischen Vektor“ (Global Semantic Vector), der das übergreifende Thema repräsentiert (zum Beispiel „Technologie-Produktbewertung“ oder „Abnehm-Rezepte“).

Wenn lokale Wortbedeutungen mit dem globalen Thema kollidieren, korrigiert das Modell sie bevorzugt in eine themenkonforme Richtung.

Bei einer Seite mit dem Titel „Wasserdichtigkeitstest des iPhone 15 Modell 2025“ zum Beispiel:

  • könnte im lokalen Satz „Das neu veröffentlichte iPhone 15 von Apple unterstützt Satellitenkommunikation“ die anfängliche Bedeutung von „Apple“ „Frucht“ sein;
  • der globale semantische Vektor zeigt jedoch, dass das Seitenthema „Smartphone-Testbericht“ ist — daher korrigiert das Modell „Apple“ zu „Technologieunternehmen“.
Vier Schritte von lokaler Mehrdeutigkeit zu globaler Konsistenz

Im Folgenden wird der Ablauf am Beispiel des Seiteninhalts „Das neu veröffentlichte iPhone 15 von Apple unterstützt Satellitenkommunikation, was für Outdoor-Fans eine gute Nachricht ist“ erklärt:

Schritt 1: Lokale Mehrdeutigkeit erkennen — „verdächtige“ Wörter markieren

Das Modell scannt zunächst den gesamten Text und identifiziert Wörter, die mehrdeutig sein könnten (mehrdeutige Wörter, Pronomen usw.). In diesem Beispiel ist „Apple“ ein typisches mehrdeutiges Wort (Frucht / Technologieunternehmen), und „es“ ist ein Pronomen (dessen Bezugsobjekt bestimmt werden muss).

Schritt 2: Lokalen Kontext analysieren — „mögliche Bedeutungen“ extrahieren

Für jedes „verdächtige“ Wort analysiert das Modell den lokalen Kontext (1–3 Sätze davor und danach) und extrahiert mögliche Bedeutungen:

  • Mögliche Bedeutungen von „Apple“:
    • Kandidat 1: Frucht (basierend auf häufigen Kombinationen wie „reif“, „essen“);
    • Kandidat 2: Technologieunternehmen (basierend auf häufigen Kombinationen wie „iPhone 15 veröffentlichen“, „Satellitenkommunikation“).
  • Mögliche Bedeutungen von „es“:
    • Kandidat 1: iPhone 15 (bezieht sich auf „iPhone 15“ im vorherigen Satz);
    • Kandidat 2: Satellitenkommunikation (bezieht sich auf „Funktion der Satellitenkommunikation“ im vorherigen Satz).

Schritt 3: Globale Semantikprüfung — mit dem Seitenthema abgleichen

Das Modell erzeugt einen „globalen semantischen Vektor“ für die gesamte Seite (durch Kodierung des gesamten Textes mit BERT) und vergleicht diesen mit den Vektoren der Bedeutungskandidaten, um die Bedeutung auszuwählen, die am besten zum globalen Thema passt:

  • Titel und Haupttext enthalten mehrfach Wörter wie „iPhone 15“, „Satellitenkommunikation“ und „Outdoor-Fans“, sodass der globale semantische Vektor auf „Technologie-Produktbewertung“ weist;
  • unter den Bedeutungskandidaten von „Apple“ hat „Technologieunternehmen“ eine deutlich höhere Ähnlichkeit mit dem globalen Thema (Kosinus-Ähnlichkeit 0,85) als „Frucht“ (0,12), daher wird „Technologieunternehmen“ bevorzugt;
  • unter den Kandidaten von „es“ hat „iPhone 15“ eine höhere Ähnlichkeit mit dem globalen Thema (0,9) als „Satellitenkommunikation“ (0,6), daher wird es zu „iPhone 15“ korrigiert.

Schritt 4: Konfliktlösung — Widersprüche zwischen mehreren Informationsquellen behandeln

Falls lokaler Kontext und globales Thema in Konflikt stehen (zum Beispiel wenn „Apple“ in einem Satz eine Frucht bezeichnet, die Seite insgesamt aber Technologie behandelt), analysiert das Modell die Ursache des Konflikts weiter:

  • Liegt ein „Schreibfehler“ vor (zum Beispiel sollte statt „Apple“ eigentlich „Erdbeere“ stehen), behält das Modell die globale Semantik bei;
  • bei „gleichzeitiger Mehrdeutigkeit“ (wenn eine Seite sowohl Äpfel als Obst als auch Apple als Unternehmen behandelt) erstellt das Modell eine „semantische Schichtung“ und zeigt bevorzugt die Bedeutung an, die zur Nutzeranfrage passt.
Wie Google die Genauigkeit der Kontextkorrektur sicherstellt
Testdimension Ursprüngliche Genauigkeit (2020) Optimierte Genauigkeit (2024) Verbesserungsmethode
Mehrdeutige Anfragen (Python) 58 % 82 % Einführung des bidirektionalen BERT-Aufmerksamkeitsmechanismus, plus 1 Million annotierte Texte mit Mehrdeutigkeit
Pronomen-Korrektur („es“) 65 % 89 % Training eines „Koreferenzauflösungsmodells“ (auf Basis von 100.000+ annotierten Koreferenzsätzen)
Lange Texte (>5000 Zeichen) 52 % 78 % Einführung „segmentierter globaler Vektoren“ (alle 500 Zeichen ein lokaler globaler Vektor)
Sprachübergreifende Korrektur (Englisch → Chinesisch) 48 % 75 % Kombination mit mehrsprachigem BERT, plus 500.000 annotierte Alignments zwischen Sprachen

Wie NLP erkennt, was Nutzer wollen

Googles NLP-Technologie analysiert den „Intent-Typ“ von Suchbegriffen (Information / Navigation / Transaktion), die „semantische Erweiterung“ (implizite Bedürfnisse) und die „Szenenanpassung“ (Zeit / Ort / Gerät), um die tatsächlichen Nutzerbedürfnisse zu bestimmen.

Google verarbeitet täglich über 8,5 Milliarden Suchanfragen (Daten 2024). Die CTR (Klickrate) informationeller Anfragen stieg nach Einführung von NLP von 12 % auf 28 %, und die Genauigkeit mehrdeutiger Anfragen verbesserte sich durch das BERT-Modell von 58 % auf 82 %.

Intent-Typen

1. Informationsbedarf: Nutzer wollen „Wissen lernen“

Typische Signalwörter: „wie macht man“, „Prinzip“, „Grund“, „Tutorial“ usw.

Beispiel: Suchen Nutzer nach „Wie brüht man Handfilterkaffee?“ oder „Ursache eines Herzinfarkts“, gleicht NLP diese Anfragen mit Tutorial- oder Aufklärungsseiten ab.

Datenbasis: Interne Google-Tests von 2023 zeigten, dass der Anteil wirksamer Erstseiten-Ergebnisse bei informationellen Suchanfragen von 38 % auf 72 % stieg (durch Erkennung von Schlüsselwörtern wie „wie macht man“).

2. Navigationsbedarf: Nutzer wollen „eine bestimmte Website finden“

Typische Signalwörter: „offizielle Website“, „offiziell“, „Login“, „Registrieren“ usw.

Beispiel: Wenn Nutzer nach „Taobao offizielle Website“ oder „Apple-ID-Login“ suchen, verweist NLP direkt auf die offizielle Website statt auf Drittanbieter-Seiten.

Datenbasis: Laut Microsofts Studie von 2024 stieg bei Navigationsanfragen die Wahrscheinlichkeit, dass Nutzer auf die Zielwebsite klicken, von 45 % auf 89 % (dank präziser Erkennung von Wörtern wie „offiziell“).

3. Transaktionsbedarf: Nutzer wollen „etwas kaufen / eine Dienstleistung nutzen“

Typische Signalwörter: „Empfehlung“, „preiswert“, „Rabatt“, „kaufen“ usw.

Beispiel: Wenn Nutzer nach „preiswerte mechanische Tastatur Empfehlung“ oder „Tankstelle in der Nähe“ suchen, priorisiert NLP E-Commerce-Seiten oder lokale Geschäfte.

Datenbasis: Laut eMarketer 2024 stieg die Conversion-Rate transaktionsbezogener Anfragen von 3,2 % auf 5,8 % (weil NLP implizite Bedürfnisse wie „Empfehlung“ und „Rabatt“ miterfasst).

Vergleichstabelle der Intent-Typen:

Typ Beispiele für Signalwörter Nutzerziel NLP-Matching-Strategie
Informationell Wie macht man, Prinzip, Tutorial Wissen erhalten Abgleich mit Tutorial- / Aufklärungsseiten
Navigational Offizielle Website, offiziell, Login Besuch einer bestimmten Website Direkte Weiterleitung auf die offizielle Website
Transaktional Empfehlung, preiswert, Rabatt, kaufen Produkt / Dienstleistung kaufen Bevorzugte Anzeige von E-Commerce- / lokalen Händlerseiten

Semantische Erweiterung

Suchbegriffe drücken meist nur 10 % bis 20 % des Kernbedarfs aus, die restlichen 80 % bis 90 % bleiben implizit (wie „Preis“, „Schwierigkeit“, „geeigneter Nutzungskontext“).

Durch semantische Erweiterung (Semantic Expansion) erweitert NLP Kernbegriffe um verwandte Bedürfnisse und deckt aktiv Absichten ab, die Nutzer nicht ausdrücklich formuliert haben.

Erweiterungsmethode 1: Erweiterung durch verwandte Begriffe

NLP nutzt „Wortvektorräume“ (Word Embedding), um Kernbegriffe mit semantisch ähnlichen Wörtern zu verknüpfen. Zum Beispiel:

  • Kernbegriff „Abnehm-Rezepte“ → verwandte Begriffe „kalorienarm“, „einfach“, „für Berufstätige geeignet“, „zuckerfrei“;
  • Kernbegriff „Was an Regentagen tragen?“ → verwandte Begriffe „wasserdicht“, „rutschfest“, „leicht“, „warm“.

Datenbasis: Googles A/B-Tests von 2022 zeigten, dass Suchergebnisse mit abgedeckten impliziten Bedürfnissen die Verweildauer der Nutzer von 45 auf 78 Sekunden erhöhten (plus 73 %).

Erweiterungsmethode 2: Szenenbezogene Erweiterung

NLP kombiniert Suchzeit, Ort und Gerät, um Bedürfnisse weiter zu verfeinern. Zum Beispiel:

  • Zeitszene: Im Winter nach „Jacke“ suchen → Erweiterung zu „gefüttert“, „warm“; im Sommer nach „Jacke“ suchen → Erweiterung zu „UV-Schutz“, „leicht“;
  • Ortsszene: In Shanghai nach „Hotpot“ suchen → Erweiterung zu „lokal beliebt“; in Chengdu nach „Hotpot“ suchen → Erweiterung zu „authentischer Sichuan-Stil“;
  • Geräteszene: Auf dem Handy nach „Tankstelle in der Nähe“ suchen → Erweiterung zu „Live-Benzinpreis“, „nächste Entfernung“; auf dem Computer → Erweiterung zu „Nutzerbewertungen“, „Rabattaktionen“.

Datenbasis: Microsofts Multi-Szenario-Studie von 2024 zeigte, dass sich nach szenenbezogener Erweiterung die Zeit bis zur Aufgabenerledigung um 42 % verkürzte (mobil von 90 auf 52 Sekunden).

Wie NLP Nutzerbedürfnisse „versteht“

1. Natural Language Understanding (NLU)

NLU ist die Grundlage von NLP und „zerlegt“ Suchanfragen durch das Zusammenspiel von Tokenisierung, Entitätserkennung und semantischer Verknüpfung. Zum Beispiel:

  • Nutzer suchen nach „Wasserdichtigkeitstest iPhone 15 Modell 2025“ → segmentiert zu „Modell 2025 / iPhone 15 / Wasserdichtigkeitstest“;
  • Entitäten werden erkannt als „TIME (2025)“, „PRODUCT (iPhone 15)“, „EVENT (Wasserdichtigkeitstest)“;
  • semantisch zusammengeführt zu „Wasserdichtigkeitstest des iPhone 15 im Jahr 2025“.

Datenbasis: Laut Google-Tech-Blog 2023 erreicht NLU bei der Zerlegung komplexer Anfragen in allgemeinen Domänen eine Genauigkeit von 92 %.

2. Deep-Learning-Modelle (wie BERT)

Vortrainierte Modelle wie BERT lernen „Kontextsemantik“ aus Billionen von Texten und lösen dadurch Mehrdeutigkeiten. Zum Beispiel:

  • Nutzer suchen nach „Python“ → BERT analysiert den Kontext (wie „print()-Funktion“, „Crawler-Tutorial“) → Interpretation als Programmiersprache;
  • Nutzer suchen nach „Java“ → BERT kombiniert Zusammenhangswörter wie „Kaffee“, „Programmierung“ → Interpretation als Programmiersprache (62 %) oder Insel (18 %).

Datenbasis: Interne Google-Tests von 2024 zeigten, dass BERT die Genauigkeit mehrdeutiger Suchanfragen von 58 % auf 82 % erhöhte.

3. Integration von Echtzeit-Kontextdaten

NLP integriert Echtzeitdaten wie Gerätezeit, geografische Position und Suchverlauf, um die Bedürfnisbewertung dynamisch anzupassen. Zum Beispiel:

  • Ein Nutzer sucht auf dem Handy nach „Tankstelle in der Nähe“ → NLP greift auf GPS-Daten zu → bevorzugte Anzeige von Tankstellen im Umkreis von 3 Kilometern;
  • Ein Nutzer sucht am Wochenende nach „Kinokarten“ → NLP berücksichtigt die Zeit (Wochenende) → Empfehlung von Vorstellungen beliebter Kinos.

Datenbasis: Laut einer Pew-Research-Umfrage von 2024 stieg nach Integration von Echtzeit-Kontextdaten die Zufriedenheit der Nutzer mit Suchergebnissen von 68 % auf 85 %.

Tatsächliche Wirkung

Im Folgenden drei typische Szenarien mit Nutzerdaten:

Szenario-Typ Traditionelle Suche (ohne NLP) NLP-optimierte Suche Verbesserung Datenquelle
Informationsanfrage (Wie macht man Kuchen?) Erste Seite gemischt mit Werbung und irrelevanten Anleitungen Erste Seite zeigt direkt eine klar strukturierte Anleitung Verweildauer von 45 Sekunden → 78 Sekunden (+73 %) Google A/B-Test 2022
Navigationsanfrage (Taobao offizielle Website) Erste Seite enthält Drittanbieter-Shoppingplattformen Erste Seite zeigt nur die offizielle Taobao-Website Wahrscheinlichkeit des Klicks auf die Zielseite von 45 % → 89 % Microsoft-Studie 2024
Transaktionsanfrage (preiswerte mechanische Tastatur) Erste Seite enthält viele hochpreisige Produkte Erste Seite priorisiert Modelle mit gutem Preis-Leistungs-Verhältnis Conversion-Rate von 3,2 % → 5,8 % (+81 %) eMarketer-Umfrage 2024

Zum Schluss möchte ich sagen: Der Kern davon, wie NLP Nutzerbedürfnisse erkennt, besteht darin, „die vom Nutzer eingegebenen Wörter“ in „die tatsächliche Absicht des Nutzers“ zu verwandeln.

滚动至顶部