微信客服
Telegram:guangsuan
电话联系:18928809533
发送邮件:[email protected]

Что такое NLP в SEO丨Как Google SEO использует NLP

本文作者:Don jiang

NLP (обработка естественного языка) в SEO помогает поиску точнее сопоставлять контент за счёт анализа семантики и пользовательского намерения; согласно исследованию Moz 2024 года, 78% страниц с высоким рейтингом используют эту технологию.

В ключевом алгоритме Google BERT доля обработки NLP превышает 70%, что повышает профессиональность и достоверность контента и соответствует требованиям EEAT.

Я разберу, как Google с помощью NLP делает результаты поиска более «понимающими вас».

Что такое NLP в SEO

Что такое NLP

NLP (обработка естественного языка, Natural Language Processing) — это технология, позволяющая компьютерам понимать, анализировать и генерировать человеческий язык.

Ежедневно в мире выполняется более 8,5 млрд поисковых запросов (публичные данные Google за 2024 год), и около 60% из них содержат скрытую семантику или многозначные формулировки (например, «苹果/Apple» может означать фрукт, телефон или музыкальный альбом).

Традиционные поисковые системы способны только «сопоставлять ключевые слова», тогда как NLP может разбирать неупорядоченный текст на семантические единицы (например, разбивать «тест влагозащиты iPhone 15 версии 2025 года» на три сущности: «версия 2025 года», «iPhone 15», «тест влагозащиты»), а затем строить семантическую сеть через контекстные связи (например, связь между «влагозащитой» и «функциями телефона»), чтобы в итоге машина «понимала» реальное намерение, стоящее за текстом.

Эволюция от «сопоставления ключевых слов» к «семантическому пониманию»

Чтобы понять, как NLP помогает Google «понимать» текст, нужно сначала вернуться в «детство» поисковых систем — с 1990-х до начала 2000-х.

В то время поисковые технологии были примитивны, как «словарь слов»: пользователь вводил «кофе», а движок просто выдавал все страницы, где встречалось это слово.

Некоторые специально повторяли на странице «похудение», «похудение», «похудение», только чтобы пользователи, ищущие «похудение», увидели именно их страницу.

Механический «счётчик слов» (1990-е — начало 2000-х)

Ключевым алгоритмом ранних поисковых систем (например, AltaVista 1995 года и Yahoo 1998 года) был TF-IDF (частота термина — обратная частота документа); проще говоря, это означало «подсчитывать, сколько раз слово встречается на странице: чем чаще, тем релевантнее».

Например, если пользователь искал «Java», система в первую очередь показывала страницы с высокой частотой слов вроде «программирование на Java» или «урок Java», но если встречалась страница о «кофе Java» (один из сортов кофе), она тоже могла быть ошибочно признана релевантной просто потому, что слово «Java» встречалось часто.

В 2003 году исследование Калифорнийского университета в Беркли проанализировало результаты основных поисковых систем того времени: при поиске «Apple» среди первых 20 результатов 45% были связаны с фруктом, 30% — с продуктами Apple Inc., а оставшиеся 25% — с нерелевантным контентом вроде «рецепта яблочного пирога» или «выращивания яблонь». Пользователю приходилось фильтровать результаты вручную, и в среднем он переходил по 3,2 ссылкам, прежде чем находил нужное (данные исследования Forrester за 2003 год).

Некоторые сайты начали «ловчить»: например, когда пользователь искал «лучший ноутбук», недобросовестные сайты многократно повторяли слова «лучший», «ноутбук», «рекомендация» и даже использовали скрытый текст (белый шрифт на белом фоне), чтобы перенасыщать страницу ключевыми словами.

В 2005 году Google был вынужден публично признать: «Около 30% низкокачественных страниц попадали в топ-10 за счёт перенасыщения ключевыми словами». (Внутренний отчёт команды Google Search Quality)

«Размытый вывод» статистических моделей (середина 2000-х — начало 2010-х)

К середине 2000-х, на фоне взрывного роста интернет-контента (около 1 млрд веб-страниц в 2000 году и уже 50 млрд в 2010-м), одной только опоры на подсчёт ключевых слов стало совершенно недостаточно.

Поисковые системы начали внедрять статистические языковые модели, пытаясь понимать связи между словами через «вероятности контекста».

Например, в 2008 году Google представил технологию «сопоставления фраз»: система перестала смотреть только на отдельные слова и начала анализировать частоту появления «словосочетаний».

Например, если пользователь искал «как сварить кофе», система отдавала приоритет страницам, где одновременно встречались слова «варить», «кофе», «вода», «температура», а не просто страницам со словом «кофе». Эта технология повысила релевантность поисковых результатов примерно на 12% (по данным технического блога Google за 2009 год).

В 2012 году Google пошёл дальше и представил «граф знаний» (Knowledge Graph), превратив разрозненные слова в сеть «сущностей + отношений».

Например, «Эйнштейн» перестал быть просто словом и стал помечаться набором атрибутов сущности: «физик», «родился в Ульме, Германия», «сформулировал теорию относительности» и т.д.

Когда пользователь искал «Эйнштейн», система уже не только возвращала биографические страницы, но и напрямую показывала даты его жизни, цитаты и даже связывала результат со страницей объяснения «теории относительности».

После запуска графа знаний, по официальным данным Google, 40% поисковых потребностей пользователей стали удовлетворяться напрямую (без перехода по ссылкам) (официальная презентация Google 2013 года).

Но и этого было недостаточно — граф знаний опирается на вручную размеченные «структурированные данные», тогда как 90% контента в интернете — это неразмеченный «неструктурированный текст» (например, блоги и форумные посты). Чтобы машина могла понимать такой «хаотичный текст», потребовались более мощные технологии.

От «статистических закономерностей» к «семантическому пониманию» (с середины 2010-х по настоящее время)

В 2010-х прорывы в области deep learning (особенно развитие нейронных сетей) полностью изменили NLP. В 2013 году исследователь Google Томаш Миколов предложил модель Word2Vec, которая впервые отобразила слова в «векторное пространство» — например, разница между векторами «король» и «королева» оказывается очень похожей на разницу между «мужчина» и «женщина», что означает, что модель может «понимать» семантические отношения между словами.

В 2016 году Google внедрил в поиск RankBrain (алгоритм ранжирования на основе deep learning), который способен автоматически «обучаться» связи между поисковым поведением пользователей и релевантностью контента.

Например, если пользователь ищет «дешёвые беспроводные наушники», RankBrain анализирует, на каких страницах пользователи задерживаются дольше и с каких реже уходят сразу, чтобы понять реальную связь между словами «дешёвые», «беспроводные» и «наушники».

По данным Google, опубликованным в 2017 году, RankBrain повысил релевантность long-tail запросов (редких поисковых формулировок) на 25% (например, «рекомендация костнопроводящих наушников для бега»).

В 2018 году Google представил модель BERT (двунаправленная архитектура Transformer), которая кардинально решила проблему «контекстной неоднозначности». Традиционные модели могли понимать предложение только «в одном направлении» (например, слева направо), тогда как BERT анализирует одновременно и предыдущий, и последующий контекст.

Например, в предложениях «Яблоко Сяомина созрело» и «Сяомин откусил яблоко» BERT по контексту определяет, что в обоих случаях «яблоко» — это фрукт; но если предложение выглядит как «Apple Сяомина выпустила новую систему», BERT сразу распознаёт, что речь идёт о компании.

Эффект BERT оказался мгновенным:

Внутренние тесты Google 2019 года показали, что CTR (кликабельность) сложных запросов вырос с 18% до 25%;

В 2023 году команда Google Search Liaison опубликовала данные: BERT повысил точность многозначных запросов с 58% до 82% (например, когда пользователь ищет «Python», модель по контексту определяет, идёт ли речь о языке программирования или змее; рост составил 24 процентных пункта).

От «сопоставления слов» к «пониманию человека»

Если оглянуться на историю развития NLP, её суть — это переход поисковых систем от «механического выполнения инструкций» к «пониманию человеческих потребностей»:

  • Эпоха 1.0 (сопоставление ключевых слов): машина была как «счётчик слов» и могла работать только по буквальному совпадению;
  • Эпоха 2.0 (статистические модели): машина стала похожа на «аналитика вероятностей», который угадывает намерение по контекстным вероятностям;
  • Эпоха 3.0 (deep learning): машина превратилась в «изучающего язык», который способен «осваивать» семантическую логику на больших массивах данных.

В 2024 году опрос Pew Research Center показал, что 78% пользователей считают, что современные поисковые результаты «лучше соответствуют реальным потребностям», тогда как в 2010 году этот показатель составлял лишь 41%.

Главный научный сотрудник Google Джефф Дин сказал: «Цель NLP — не заставить машину ‘читать текст’, а научить её ‘понимать человека’».

«Ключевая работа» NLP

Чтобы машина могла «понимать» текст, NLP, подобно человеку, разбирающему предложение, должен поэтапно обрабатывать «фрагменты информации» внутри языка.

Когда система NLP Google (например, улучшенные версии BERT) обрабатывает содержимое веб-страницы, она строго проходит четыре шага «декодирования текста»: токенизация → распознавание сущностей → семантические связи → контекстная коррекция.

Шаг 1: токенизация

Токенизация — это первый шаг NLP. Проще говоря, она заключается в разбиении непрерывной последовательности текста на отдельные «семантические единицы» (tokens).

В китайском языке нет естественных пробелов между словами (в отличие от английского, где, например, в «apple pie» есть пробел), поэтому токенизация — одна из ключевых сложностей китайского NLP.

Технический принцип:

Система токенизации Google использует гибридную модель «правила + deep learning»:

  • База правил: содержит миллионы распространённых китайских сочетаний (например, «варить кофе», «чайник для пуровера», «тест на влагозащиту») и в первую очередь сопоставляет уже известные сочетания;
  • Модель deep learning: версия BERT с дообучением, которая динамически предсказывает неизвестные ранее слова (например, новые термины вроде «dopamine dressing» / «дофаминовый стиль одежды»).

Практический пример:

Возьмём содержимое страницы: «Как приготовить чашку насыщенного ароматного фильтр-кофе вручную?». Система токенизации должна определить правильный способ разбиения. Возможные варианты:

  • Неправильное разбиение: «как/приготовить чаш/ку аромат/ного руч/ного кофе» (разрушает естественные сочетания, аналогичные «одна чашка», «ароматный», «ручной фильтр-кофе»);
  • Правильное разбиение: «как/приготовить/одну чашку/ароматного/ручного фильтр-кофе» (соответствует нормальному языковому употреблению).

Данные:

Внутренние тесты Google 2023 года показали, что система токенизации достигает точности 97,3% на обычных китайских веб-страницах, но на редких терминах из специализированных YMYL-областей (например, права и медицины) точность падает до 89%, потому что для профессиональной терминологии меньше правил сочетаний.

Чтобы решить эту проблему, Google дополнительно обучает «отраслевые модели токенизации» для вертикальных областей. Например, медицинская модель запоминает правильное разбиение терминов вроде «инфаркт миокарда» и «коронарная артерия».

Шаг 2: распознавание сущностей

После токенизации NLP должен распознать в тексте «сущности» (Entity) — то есть ключевую информацию о людях, предметах, времени, местах, событиях и т.д.

Сущности — это «каркас» контента, который помогает машине быстро определить тему страницы.

Технический принцип:

Google использует модель многозадачного обучения (Multi-Task Learning), которая одновременно обучает распознавание сущностей, морфосинтаксическую разметку (например, существительные и глаголы) и извлечение отношений.

Модель предсказывает для каждого token, является ли он частью сущности, и маркирует тип сущности (например, «TIME», «PRODUCT», «PERSON»).

Примеры типов сущностей:

Тип Определение Пример (со страницы «тест влагозащиты iPhone 15 в 2025 году»)
TIME Момент времени / период «сентябрь 2025 года»
PRODUCT Конкретный продукт «iPhone 15», «степень влагозащиты IP68»
EVENT Событие / действие «тест влагозащиты», «релиз»
ATTRIBUTE Атрибут / характеристика сущности «глубина 6 метров», «30 минут» (конкретные параметры влагозащиты)

Практический пример:

При обработке предложения «Тест влагозащиты IP68 для iPhone 15 в сентябре 2025 года показал, что он выдержал 30 минут на глубине 6 метров» система распознавания сущностей выдаст:

  • TIME: «сентябрь 2025 года»
  • PRODUCT: «iPhone 15»
  • ATTRIBUTE: «степень влагозащиты IP68», «глубина 6 метров», «30 минут»
  • EVENT: «тест влагозащиты»

Данные:

Согласно техническому блогу Google 2024 года, модель распознавания сущностей достигает recall 92% на текстах общего профиля (то есть доля правильно распознанных сущностей среди всех реальных сущностей), но на длинных текстах (более 5000 знаков) показатель снижается до 85%, поскольку плотность сущностей ниже и модель чаще пропускает важные элементы.

Поэтому Google внедрил стратегию «сегментной обработки»: длинный текст разбивается на абзацы примерно по 500 слов, каждый фрагмент распознаётся отдельно, а затем результаты объединяются, что повышает recall в длинных текстах до 90%.

Шаг 3: семантические связи

После токенизации и распознавания сущностей NLP должен определить логические отношения между словами (например, «принадлежит», «приводит к», «является атрибутом»), чтобы превратить разрозненные tokens в структурированную семантическую сеть.

Именно этот шаг определяет, может ли машина действительно «понять» реальный смысл предложения.

Технический принцип:

Google использует гибридный подход предобученная языковая модель + граф знаний:

  • Предобученная модель (например, BERT) изучает «скрытые отношения» между словами на огромных корпусах текста (например, что «кроссовки для бега» и «спортивное снаряжение» состоят в иерархической связи);
  • Граф знаний Google (Google Knowledge Graph) предоставляет структурированные знания (например, что брендом «iPhone 15» является «Apple», а дата выпуска — «сентябрь 2023 года»), которые используются для проверки и дополнения отношений, изученных моделью.

Примеры типов отношений:

Тип отношения Определение Пример (со страницы «как выбрать кроссовки для бега»)
Иерархическое отношение A является подклассом B (или наоборот) «кроссовки для бега» → «спортивное снаряжение» (кроссовки для бега относятся к спортивному снаряжению)
Отношение атрибута A — характеристика / параметр B «амортизирующая межподошва» → «кроссовки для бега» (межподошва является атрибутом кроссовок)
Причинно-следственное отношение A приводит к B «избыточный вес» → «травма колена» (избыточный вес может привести к травме колена)

Практический пример:

При обработке предложения «При выборе кроссовок для бега амортизирующая межподошва — ключевой фактор, потому что она снижает нагрузку на колени» система семантических связей построит:

  • отношение атрибута между «кроссовками для бега» и «амортизирующей межподошвой»;
  • причинно-следственное отношение между «амортизирующей межподошвой» и «снижением нагрузки на колени».

Данные:

Внутренние тесты Google 2023 года показали, что модель семантических связей достигает 88% точности на распространённых отношениях, но только 72% — на сложных отношениях (например, «косвенной причинности»). Например, в предложении «Долгое ношение неудобной обуви может привести к деформации свода стопы, а затем вызвать боль в пояснице» связь между «неудобной обувью» и «болью в пояснице» является косвенной, и модель может ошибочно решить, что прямой связи нет. Чтобы решить эту проблему, Google внедрил «цепочечное рассуждение»: две удалённые сущности связываются через промежуточные узлы (например, «деформация свода стопы»), что повышает точность распознавания сложных связей до 85%.

Шаг 4: контекстная коррекция

Некоторые слова, если рассматривать их отдельно, неоднозначны (например, «Apple» может означать фрукт или бренд), поэтому их смысл нужно уточнять с учётом всего абзаца или даже всей страницы.

Этот шаг — ключевой для того, чтобы NLP «понимал» текст, и именно он сильнее всего зависит от контекста.

Технический принцип:

Google использует двунаправленный механизм внимания (ядро BERT), позволяющий модели одновременно «смотреть» на первую и вторую половину предложения и динамически корректировать значение каждого token.

Например, когда модель обрабатывает фразу «Яблоко Сяомина созрело», первоначальный смысл слова «яблоко» может быть «фрукт»;

но когда она обрабатывает следующее предложение «он собирается с помощью Apple выпустить новую систему», модель возвращается к предыдущему контексту, понимает, что «выпустить новую систему» никак не связано с фруктом, и корректирует значение «Apple» на «технологическая компания».

Практический пример:

Возьмём содержимое страницы: «Последний выпущенный Apple iPhone 15 поддерживает спутниковую связь, и это хорошая новость для любителей активного отдыха»:

  • если смотреть на «Apple» изолированно, модель может ошибочно интерпретировать его как «фрукт»;
  • но в сочетании со следующим фрагментом «выпущенный iPhone 15» модель корректирует смысл до «технологическая компания»;
  • а добавление «любителей активного отдыха» ещё сильнее подтверждает, что функция «спутниковой связи» iPhone 15 относится к outdoor-сценарию.

Данные:

Исследования поведения пользователей Google в 2024 году показали, что в сценариях многозначных запросов (например, когда пользователь ищет «Python») релевантность результатов после контекстной коррекции на 37% выше, чем без неё.

На уровне обработки страниц контекстная коррекция повышает точность правильного определения смысла неоднозначных слов с 62% до 89% (по данным внутренних тестов Google).

NLP ежедневно экономит пользователям 30% времени на поиск

Самое прямое впечатление пользователя от поиска — это вопрос: «можно ли быстрее найти то, что мне нужно?».

Согласно отчёту Microsoft о пользовательском поведении за 2024 год, поисковые системы, оптимизированные с помощью NLP, сокращают среднее время нахождения нужной информации с 87 до 59 секунд (примерно на 30%).

Многозначные запросы

Около 40% пользовательских запросов содержат многозначные слова (например, «Apple», «Python», «Java»). Традиционные поисковые системы рассматривают такие запросы как одно ключевое слово и возвращают множество нерелевантных результатов.

С помощью семантической дизамбигуации (Word Sense Disambiguation, WSD) NLP может определять реальный смысл слова по контексту и напрямую отфильтровывать нерелевантный контент.

Конкретные проявления:

  • Кейс 1: поиск «Python»: пользователь может искать учебник по языку программирования (62%), информацию о змеях (18%) или сведения о языке Python (20%). Традиционный поиск покажет все страницы, содержащие «Python», и пользователю придётся вручную отсматривать 10–15 нерелевантных ссылок на первых трёх страницах; после подключения NLP система по контексту страницы (например, «функция print()», «урок по парсингу») определяет намерение пользователя и отдаёт приоритет результатам о программировании. Внутренние тесты Google 2023 года показали, что доля полезных результатов на первом экране выросла с 38% до 72%, а среднее число кликов сократилось с 2,3 до 1,1.
  • Кейс 2: поиск «Java»: пользователь может искать язык программирования (55%), туристический гид по индонезийскому острову Ява (25%) или сорт кофе (20%). NLP анализирует связанные слова на странице (например, «JVM» и «Spring Framework» указывают на программирование, «храм» и «вулкан» — на туризм) и быстро определяет реальную потребность пользователя. Опрос Pew Research 2024 года показал, что время выполнения многозначного поиска сократилось со 112 до 68 секунд (на 40 секунд).

Техническая поддержка:

Способность NLP к дизамбигуации основана на двойной проверке через «контекстные векторы» и «граф знаний».

Например, когда пользователь ищет «Java», модель извлекает другие ключевые слова со страницы (например, «кофе», «программирование», «остров») и сопоставляет их с сущностями в графе знаний («Java (язык программирования)», «Java (остров)»). Затем через расчёт векторного сходства (например, косинусного) она определяет наиболее подходящую сущность и возвращает соответствующий результат.

Скрытые потребности

Поисковые слова пользователя обычно выражают лишь 10–20% ключевой потребности, тогда как остальные 80–90% остаются скрытыми (например, «цена», «сложность», «сценарий использования»).

С помощью семантического расширения (Semantic Expansion) NLP может разворачивать ключевое понятие в связанные потребности, активно покрывая те намерения, которые пользователь явно не сформулировал.

Конкретные проявления:

  • Кейс 1: поиск «рецепты для похудения»: пользователь может скрыто иметь в виду «низкокалорийные», «простые в приготовлении», «подходящие для офисных работников», «без сахара». Традиционный поиск сопоставит только страницы со словами «похудение» и «рецепт», из-за чего могут попасться «экстремальные диеты» или «сложные блюда для выпечки»; после подключения NLP система анализирует типичные связанные слова для «похудения» (например, «калории», «быстро», «домашний») и выводит в приоритет страницы вроде «низкокалорийный завтрак за 15 минут» или «рецепты ланчбоксов для работающих», которые лучше соответствуют скрытой потребности. A/B-тест Google 2022 года показал, что результаты поиска, покрывающие скрытые потребности, увеличивают время пребывания пользователя с 45 до 78 секунд (+73%), потому что ему уже не нужно выполнять повторный поиск вроде «рецепты для похудения низкокалорийные».
  • Кейс 2: поиск «что надеть в дождливый день»: пользователь может подразумевать «водонепроницаемость», «антискольжение», «лёгкость», «тепло». Традиционный поиск покажет общие результаты вроде «дождевик» или «зонт»; NLP распознаёт характеристики сценария «дождливый день» (влажно, скользко), связывает их с признаками вроде «водоотталкивающий материал», «нескользящая подошва», «складная компактность» и рекомендует конкретные товары — например, «водонепроницаемую куртку» или «нескользящие ботинки». Исследование eMarketer 2024 года показало, что в e-commerce поиске покрытие скрытых потребностей повышает конверсию с 3,2% до 5,8%.

Техническая поддержка:

Семантическое расширение зависит от обучения на «векторном пространстве слов» и «данных о поведении пользователей».

Например, модель BERT Google проецирует «рецепты для похудения» в многомерное векторное пространство, где слова вроде «низкокалорийный» и «лёгкий в приготовлении» оказываются очень близки к этому термину;

одновременно система анализирует исторические поисковые данные (например, что пользователи, ищущие «рецепты для похудения», часто кликают на «низкокалорийный завтрак»), дополнительно подтверждает связь этих скрытых потребностей и в итоге формирует словарь расширения.

Адаптация к разным сценариям

Сценарий поиска пользователя (время, место и устройство) напрямую влияет на потребности. С помощью контекстной осведомлённости (Context Awareness) NLP может динамически корректировать понимание запроса и выдавать результаты, лучше подходящие текущей ситуации.

Конкретные проявления:

  • Временной сценарий: если зимой ищут «пальто/куртку», NLP отдаёт приоритет словам вроде «утеплённый», «тёплый», «пуховик»; если летом — приоритет получают «защита от солнца», «лёгкий», «дышащий». Сезонные поисковые данные Google за 2023 год показывают, что после сценарной адаптации удовлетворённость пользователей результатами выросла с 68% до 85%.
  • Географический сценарий: если в Шанхае ищут «хого», NLP может рекомендовать популярные локальные заведения; если в Чэнду — в приоритете окажутся аутентичные сычуаньские рестораны. Совместные тесты Google Maps и Search в 2024 году показали, что после локальной адаптации вероятность клика по «ближайшим компаниям» выросла с 22% до 47%.
  • Сценарий устройства: если с телефона ищут «ближайшая заправка», NLP в первую очередь показывает «навигацию на карте», «цену топлива в реальном времени», «самую близкую», что подходит для быстрых решений на мобильном; с компьютера могут показываться «список заправок», «отзывы пользователей», «акции», что лучше соответствует более глубокому просмотру. Исследование Microsoft 2024 года по разным устройствам показало, что после адаптации к устройству время выполнения задачи сократилось на 42% (на телефоне с 90 до 52 секунд, на ПК — со 120 до 69 секунд).

Техническая поддержка:

Контекстная осведомлённость зависит от «извлечения метаданных» и «интеграции данных в реальном времени».

Например, система извлекает из запроса время (через устройство пользователя), местоположение (по IP или GPS) и тип устройства (телефон / компьютер), а затем сочетает их с данными реального времени (погода, трафик, статус работы магазинов), чтобы перенастроить семантические веса.

Так, если пользователь ищет «куртку» в дождливый день, система в реальном времени получает местную вероятность осадков и усиливает вес атрибута «водонепроницаемость».

Как NLP экономит время

Тип сценария Традиционный поиск (без NLP) Поиск, оптимизированный NLP Экономия времени Источник данных
Многозначный запрос (Python) 10 результатов на первом экране, 5 нерелевантны 8 результатов на первом экране, 7 релевантны 40 секунд Внутренние тесты Google 2023
Скрытая потребность (рецепты для похудения) Нужен повторный поиск по «низкокалорийный» Низкокалорийные рецепты показываются сразу на первом экране 25 секунд Опрос Pew Research 2024
Контекстный сценарий (искать «куртку» летом) Результаты включают зимние модели, требуется ручная фильтрация На первом экране — только летние модели для защиты от солнца 30 секунд Многосценарное исследование Microsoft 2024

Как NLP в поиске Google «понимает» текст страницы

Технология NLP Google превращает текст страницы в «семантическую сеть», понятную машине, проходя четыре шага: «токенизация → распознавание сущностей → семантические связи → контекстная коррекция».

Каждый день она обрабатывает более 50 млрд слов (данные Google 2024), достигает 97,3% точности токенизации и 92% recall по сущностям, в результате автоматически различает, означает ли «Apple» фрукт или телефон, а «Python» — учебник по программированию, а не змею. При поиске тематического контента доля полезных результатов на первом экране увеличивается с 38% до 72% (внутренние тесты 2023 года).

Токенизация: разрезать текст на «минимальные блоки, понятные машине»

Проще говоря, это разбиение непрерывной последовательности текста на осмысленные «минимальные языковые единицы» (tokens).

Для языков вроде английского, где есть естественные пробелы, достаточно делить по пробелам (например, «coffee mug» разбивается на «coffee» + «mug»);

но для «языков без пробелов», таких как китайский или японский, ошибка токенизации может полностью разрушить последующее распознавание сущностей и семантическое понимание.

База правил + deep learning

Система токенизации Google использует гибридную модель «сначала база правил, затем дополнение через deep learning». Её ключевая цель — делить текст «быстро и точно».

База правил

База правил — это «фундамент» системы токенизации Google. Она содержит распространённые шаблоны словосочетаний основных языков мира (например, в китайском — «варить кофе», «чайник для пуровера», «тест влагозащиты», а в английском — «espresso machine», «drip coffee»). Эти сочетания получены путём статистического анализа интернет-текстов: Google сканирует веб-страницы и подсчитывает частоту совместного появления соседних слов (например, вероятность того, что за «варить» следует «кофе», составляет 92%, а за «варить» следует «рис» — 85%), в результате формируя «словарь сочетаний» на миллионы записей.

Например, при обработке китайского предложения, эквивалентного «как приготовить чашку насыщенного ароматного фильтр-кофе вручную», база правил сначала сопоставляет высокочастотные сочетания типа «варить/кофе» и «ручной фильтр/кофе», поэтому правильное разбиение соответствует смыслу «как / приготовить / одну чашку / ароматного / ручного фильтр-кофе»;

если встречается «программирование Java», база правил распознаёт «Java» как язык программирования, а «программирование» как действие и сегментирует это как «Java/программирование», а не ошибочно на фрагменты вроде «Jav/a/про/граммирование».

Deep learning

Хотя база правил эффективна, она не может покрыть все случаи: интернет ежедневно порождает множество новых слов (например, «dopamine dressing» или «метавселенная») и профессиональных терминов (например, юридическое понятие culpa in contrahendo или медицинский термин «инфаркт миокарда»), которых ещё нет в базе правил. В таких случаях Google обращается к дообученной модели BERT для динамического предсказания.

BERT (двунаправленный Transformer) — это предобученная языковая модель, способная понимать значение слов через контекст.

Например, если встречается «dopamine dressing», этого выражения может не быть в базе правил, но BERT по контексту (например, «яркие цвета», «хорошее настроение», «мода») предсказывает, что это новое словосочетание, описывающее стиль одежды, и должно сегментироваться целиком как «dopamine dressing», а не ошибочно как «dopa/min/e dress/ing».

Техническое сравнение:

Тип технологии Преимущества Ограничения Сценарии применения
База правил Высокая скорость (отклик на уровне миллисекунд) Не покрывает новые / профессиональные термины Обычные тексты общего назначения
Дообученная модель BERT Динамически распознаёт новые слова и профессиональные термины Высокая вычислительная стоимость (требуется GPU) Новые области и long-tail тексты
Многоязычная адаптация

Google поддерживает токенизацию более чем для 100 языков, однако особенности разных языков сильно различаются, поэтому требуется отдельная настройка правил и моделей.

Китайский: без пробелов + высокая неоднозначность

Сложность китайского состоит в «отсутствии пробелов» и «многозначности слова». Например, китайская фраза, эквивалентная «ракетка для настольного тенниса распродана», допускает два варианта сегментации:

  • Правильно: «ракетка для настольного тенниса / распродана» (здесь «ракетка для настольного тенниса» — товар);
  • Неправильно: «настольный теннис / аукцион / закончился» (где «аукцион» интерпретируется как действие).

Google решает такую неоднозначность с помощью модели контекстной вероятности: сравнивает частоту совместного появления целого выражения «ракетка для настольного тенниса» (например, 90% на страницах e-commerce) с комбинацией, аналогичной «настольный теннис + аукцион» (лишь 5% в спортивных новостях), и поэтому выбирает первую сегментацию.

Арабский: письмо справа налево + графическое соединение

Арабский пишется справа налево, а слова визуально соединяются. Система токенизации Google сначала преобразует порядок текста для внутренней обработки слева направо, а затем, используя базу правил, корректно определяет границы слов.

Суахили: агглютинативные особенности

Суахили — агглютинативный язык, где значение выражается добавлением аффиксов к корню (например, «mtoto» означает «ребёнок», а «watoto» — «дети»). Модель токенизации Google распознаёт границы морфем (например, множественный префикс) и выполняет корректное разбиение.

Многоязычные тесты Google 2023 года показали, что точность токенизации для основных языков вроде английского и испанского достигает 98%, но для более сложных языков вроде арабского и суахили снижается до 92%.

Чтобы повысить качество, Google сформировал «команды языковых экспертов» по каждому языку и вручную разметил более 100 000 типичных предложений для обучения специализированных моделей.

Как ошибки токенизации влияют на поисковую выдачу

Токенизация — основа всех последующих этапов NLP. Если разбиение выполнено неправильно, это может привести к сбою в распознавании сущностей, искажению семантических связей и, в конечном итоге, снижению релевантности поисковых результатов. Ниже приведены два реальных примера:

Кейс 1: страница e-commerce о «кофе Java»

Заголовок страницы: «Java咖啡:ручной уровень, гладкий вкус». Правильная токенизация должна соответствовать схеме «Java / кофе / : / уровень pour-over / гладкий / вкус». Если же разбиение выполнено ошибочно и создаёт бессмысленные фрагменты, система распознавания сущностей может принять эти бессмысленные части за отдельные сущности, из-за чего Google не сможет корректно связать страницу с товаром «кофе Java». В результате при поиске «кофе Java» такая страница будет ошибочно отфильтрована.

Кейс 2: юридическая страница о culpa in contrahendo

Юридический блог содержит текст, эквивалентный «ответственность за culpa in contrahendo означает убытки, причинённые одной стороне нарушением другой стороной принципа добросовестности». Правильная токенизация должна сохранять весь юридический термин как единое целое. Если же он ошибочно разбивается на несколько частей, система распознавания сущностей определяет их как независимые сущности и не связывает с полным правовым термином, из-за чего страница теряет позиции при поиске по этому понятию.

Данные:

Внутренние тесты Google показывают, что ошибки токенизации могут снижать позицию целевой страницы в поисковой выдаче на 3–5 мест (данные A/B-тестов 2023 года), а вероятность клика по ней падает на 42% из-за уменьшения релевантности.

«Вытаскивать» главное из текста

Когда пользователь ищет «тест влагозащиты iPhone 15 версии 2025 года», Google нужно быстро понять, что ядро страницы — это «iPhone 15» (продукт), «сентябрь 2025 года» (время) и «тест влагозащиты» (событие).

Такая ключевая информация называется «сущностями» (Entity).

Модель многозадачного обучения (Multi-Task Learning)

Система распознавания сущностей Google основана на модели многозадачного обучения, которая одновременно обучает три задачи: «распознавание сущностей», «морфосинтаксическую разметку» и «извлечение отношений», повышая эффективность за счёт общих базовых параметров.

Проще говоря, модель одновременно учится:

  • какие слова являются сущностями (например, «iPhone 15» как продукт);
  • какую грамматическую роль они играют в предложении (например, «iPhone 15» как существительное);
  • какие отношения существуют между сущностями (например, что «iPhone 15» произведён компанией «Apple»).

Ключевые технические детали:

  • Дообучение BERT: на базе предобученной модели BERT от Google выполняется fine-tuning на больших объёмах размеченных данных (Wikipedia, новости, страницы e-commerce), чтобы модель изучила контекстные признаки сущностей. Например, в предложении «iPhone 15 был выпущен в сентябре 2025 года» контекстные векторы BERT связывают «сентябрь 2025 года» с «iPhone 15», что позволяет модели определить первое как время, а второе как продукт.
  • Классификатор типа сущности: на выход BERT добавляется «голова классификации типа», которая предсказывает конкретный тип каждой сущности (например, TIME, PRODUCT, PERSON). Этот классификатор опирается на более чем 50 предопределённых типов сущностей (общего и отраслевого уровня), например:
Тип сущности Определение Пример
TIME Момент времени / период «сентябрь 2025 года», «30 минут»
PRODUCT Конкретный продукт «iPhone 15», «чайник для пуровера»
PERSON Персона (реальная или вымышленная) «Tim Cook», «张小龙»
LOCATION Место (конкретное или абстрактное) «Шанхай», «GitHub»
EVENT Событие / действие «тест влагозащиты», «презентация»
ATTRIBUTE Атрибут / характеристика сущности «степень защиты IP68», «глубина 6 метров»
От общей точности к отраслевой точности

Система типов сущностей Google делится на общую область (покрывает повседневные тексты) и вертикальные области (ориентированные на профессиональный контент).

Типы сущностей общей области (50+):

Они покрывают 90% поисковых сценариев пользователей, например:

  • Время (TIME): конкретные даты («сентябрь 2025 года»), длительности («30 минут»), временные периоды («2020–2025»);
  • Продукт (PRODUCT): электронные устройства («iPhone 15»), бытовая техника («чайник для пуровера»), повседневные товары («кофейные зёрна»);
  • Место (LOCATION): города («Шанхай»), страны («США»), организации («Google»).

Отраслевые типы сущностей (специализированные):

Для профессионального контента в области права, медицины, технологий и т.д. Google дополнительно обучает специальные типы сущностей, например:

  • Юридическая область: «правовая норма» (например, «статья 10 Гражданского кодекса»), «юридическое действие» (например, culpa in contrahendo);
  • Медицинская область: «заболевание» (например, «инфаркт миокарда»), «лекарство» (например, «аспирин»), «вид операции» (например, «операция PCI»);
  • Технологическая область: «алгоритм» (например, «BERT»), «язык программирования» (например, «Python»), «архитектура аппаратного обеспечения» (например, «ARM»).

Данные:

Внутренние тесты Google 2023 года показали, что точность распознавания сущностей в общей области составила 92%, но в вертикальных областях, например в праве, исходная точность была лишь 78% (из-за нехватки специализированной терминологии и размеченных данных).

После отдельного обучения «модели распознавания юридических сущностей» (на основе более 100 000 размеченных юридических текстов) точность выросла до 90%; медицинская модель, обученная на более чем 50 000 размеченных клинических записей, достигла 88%.

Четыре шага: от обнаружения кандидатов до уточнения границ

Возьмём в качестве примера предложение «Тест влагозащиты IP68 для iPhone 15 в сентябре 2025 года показал, что он выдержал 30 минут на глубине 6 метров» и разберём процесс:

Шаг 1: обнаружение кандидатов — найти возможные «семена сущностей»

Сначала модель сканирует текст и, опираясь на базу правил (например, что «год + месяц» — кандидат на время, а «число + название продукта» — кандидат на продукт) и статистические вероятности (например, что после «iPhone» с вероятностью 90% следует число), помечает возможные сущности-кандидаты.

  • Кандидат 1: «сентябрь 2025 года» (соответствует правилу «год + месяц»);
  • Кандидат 2: «iPhone 15» (соответствует правилу «название продукта + модель»);
  • Кандидат 3: «тест влагозащиты IP68» (соответствует правилу «технический параметр + действие»);
  • Кандидат 4: «глубина 6 метров» (соответствует правилу «число + единица + атрибут»);
  • Кандидат 5: «30 минут» (соответствует правилу «число + единица времени»).

Шаг 2: классификация типа — «наклеить ярлык» на каждого кандидата

С помощью «головы классификации типа» в модели многозадачного обучения система предсказывает тип для каждого кандидата:

  • «сентябрь 2025 года» → TIME (время);
  • «iPhone 15» → PRODUCT (продукт);
  • «тест влагозащиты IP68» → EVENT (событие);
  • «глубина 6 метров» → ATTRIBUTE (атрибут, описывающий глубину влагозащиты);
  • «30 минут» → ATTRIBUTE (атрибут, описывающий длительность влагозащиты).

Шаг 3: уточнение границ — исправить «начало и конец» сущности

У некоторых кандидатов границы могут быть определены неверно (например, «тест влагозащиты IP68» может ошибочно распасться на «IP68» + «тест влагозащиты»). Модель проверяет границы через контекстные векторы:

  • «IP68» — это стандарт влагозащиты (ATTRIBUTE), но «тест влагозащиты IP68» в целом является событием (EVENT), поэтому граница корректируется в пользу всей фразы;
  • в выражении «глубина 6 метров» «6 метров» — числовое значение, а «глубина» — атрибут, поэтому логичнее считать всю конструкцию единым ATTRIBUTE.

Шаг 4: глобальная проверка — исправить ошибки на основе всего текста

Модель генерирует «глобальный семантический вектор» для всего фрагмента текста (представляющий общую тему, например «тест влагозащиты смартфона») и проверяет, не конфликтуют ли локальные сущности с этой темой. Например:

  • если тема текста — «обзор смартфона», то «iPhone 15» как PRODUCT ей соответствует;
  • если «тест влагозащиты IP68» классифицирован как EVENT, то это тоже согласуется с темой «обзор смартфона» и не требует коррекции.
Как Google обеспечивает точность распознавания сущностей
Измерение теста Исходная точность (2020) Точность после оптимизации (2024) Метод улучшения
Общая область 85% 92% Добавление 1 млн размеченных данных и оптимизация fine-tuning параметров BERT
Длинные тексты (>5000 знаков) 78% 90% Внедрение стратегии «сегментной обработки» (разбиение на абзацы по 500 символов/слов)
Вертикальная область (право) 78% 90% Обучение специализированных моделей по отрасли (100 000+ размеченных юридических текстов)
Новые сущности (например, «dopamine dressing») 62% 85% Использование контекстного предсказания BERT для динамического распознавания новых терминов

Обратная связь от пользователей:

Google собирает данные о поисковом поведении пользователей (например, содержит ли страница, по которой они кликнули, целевую сущность) и использует их для обратной оптимизации модели.

Например, если пользователь ищет «степень влагозащиты iPhone 15», но страница, на которую он перешёл, не размечает «IP68» как ATTRIBUTE, модель корректирует параметры, чтобы усилить распознавание сущностей, связанных с «уровнем влагозащиты».

«Связывать» слова и строить логику

Когда пользователь ищет «обувь для бега», Google нужно понимать связь между «бегом» и «обувью» (функциональное назначение), а также между «амортизирующей межподошвой» и «кроссовками для бега» (атрибут), чтобы вернуть по-настоящему релевантные результаты.

Эта способность «связывать слова» называется извлечением семантических отношений (Semantic Relation Extraction).

Предобученные модели и граф знаний

1. Предобученные модели: «самостоятельно учиться» отношениям на огромных массивах текста

Предобученные модели (такие как BERT, PaLM) — это центральный «обучающий механизм» семантических связей. Они анализируют триллионы текстов из интернета (веб-страницы, книги, форумы) и автоматически улавливают скрытые отношения между словами. Например:

  • в предложениях типа «кроссовки для бега подходят для длинных дистанций» и «баскетбольные кроссовки подходят для прыжков» модель усваивает функциональную связь между «кроссовками для бега» и «длинными дистанциями», а также между «баскетбольными кроссовками» и «прыжками»;
  • в предложениях типа «iPhone 15 оснащён чипом A17» и «MacBook Pro использует чип M3» модель усваивает отношение «оснащён» между «iPhone 15» и «A17», а также между «MacBook Pro» и «M3».

Технические детали:

Предобученные модели представляют значение каждого слова с помощью контекстуализированных эмбеддингов (Contextualized Embedding).

Например, вектор «кроссовки для бега» меняется в зависимости от контекста («кроссовки для бега хорошо амортизируют» против «у кроссовок для бега стильный внешний вид»), что позволяет модели улавливать тонкие различия и определять конкретный тип связи между словами.

2. Граф знаний: использовать структурированные знания для «проверки + дополнения» отношений

Хотя предобученные модели способны изучать скрытые отношения, они также могут ошибаться (например, ошибочно считать, что связь между «Apple» и «фруктом» — это «бренд»).

В таких случаях граф знаний Google (более 500 млн сущностей и 20 млрд отношений) предоставляет структурированные знания, которые используются для проверки и дополнения связей, изученных моделью.

Например, когда модель анализирует предложение «Поставщиком экранов для iPhone 15 является Samsung»:

  • предобученная модель по контексту изучает отношение «поставщик» между «iPhone 15» и «Samsung»;
  • а в графе знаний уже существует структурированная связь «iPhone 15 → поставщик экрана → Samsung», которая подтверждает корректность этой связи.
От базовой сети отношений к сложной сети отношений

Google определяет более 20 детализированных типов отношений, покрывающих 90% пользовательских поисковых сценариев. Эти отношения можно разделить на три основные категории:

1. Базовые отношения (общая область)

Тип отношения Определение Пример (со страницы «как выбрать кроссовки для бега»)
Иерархическое отношение A является подклассом B (или наоборот) «кроссовки для бега» → «спортивное снаряжение» (кроссовки для бега относятся к спортивному снаряжению)
Отношение атрибута A — характеристика / параметр B «амортизирующая межподошва» → «кроссовки для бега» (межподошва — атрибут кроссовок)
Функциональное назначение A используется для B «чайник для пуровера» → «приготовление кофе» (чайник используется для приготовления кофе)
Временная последовательность A происходит до / после B «релиз» → «поступление в продажу» (продукт сначала анонсируется, потом выходит на рынок)

2. Сложные отношения (вертикальные области)

Для профессионального контента в праве, медицине, технологиях и других сферах Google добавляет более тонкие типы отношений:

  • Юридическая область: culpa in contrahendo → нарушение принципа добросовестности (причинно-следственная связь); статья 10 Гражданского кодекса → действительность брака (отношение области применения).
  • Медицинская область: инфаркт миокарда → закупорка коронарной артерии (этиологическая связь); аспирин → подавление агрегации тромбоцитов (фармакологическая связь).
  • Технологическая область: Python → урок по парсингу (отношение области применения); архитектура ARM → низкое энергопотребление (отношение технической характеристики).

Пять шагов: от извлечения кандидатов отношений до глобальной проверки

Возьмём в качестве примера предложение «При выборе кроссовок для бега амортизирующая межподошва — ключевой фактор, потому что она снижает нагрузку на колени» и разберём процесс:

Шаг 1: извлечение кандидатов отношений — найти возможные «семена отношений»

Сначала модель сканирует текст и, опираясь на базу правил (например, что шаблон «X является ключевым для Y» может намекать на функциональное назначение) и статистические вероятности (например, 90% совместной встречаемости «амортизирующей межподошвы» и «кроссовок для бега»), помечает возможные отношения-кандидаты.

  • Кандидат 1: «кроссовки для бега» и «амортизирующая межподошва» (возможное отношение атрибута);
  • Кандидат 2: «амортизирующая межподошва» и «снижение нагрузки на колени» (возможное отношение функционального назначения).

Шаг 2: классификация типа отношения — «наклеить ярлык» на кандидата

С помощью «головы классификации отношений» в предобученной модели система предсказывает тип каждого отношения:

  • «кроссовки для бега» и «амортизирующая межподошва» → отношение атрибута (межподошва — атрибут кроссовок);
  • «амортизирующая межподошва» и «снижение нагрузки на колени» → отношение функционального назначения (межподошва используется для снижения нагрузки на колени).

Шаг 3: уточнение границ — исправить «область действия» отношения

У некоторых кандидатов границы могут быть определены неверно (например, «амортизирующая межподошва» может ошибочно интерпретироваться как составная часть обуви, а не как атрибут). Модель проверяет это через контекстные векторы:

  • «амортизирующая межподошва» описывает «материальную / конструктивную характеристику» кроссовок для бега и потому является атрибутом, а не частью конструкции (как, например, подошва или верх), поэтому отношение корректируется в пользу атрибута.

Шаг 4: глобальная проверка — исправить ошибки, опираясь на весь текст

Модель генерирует «глобальный семантический вектор» для всего фрагмента (представляющий общую тему, например «руководство по выбору кроссовок для бега») и проверяет, не конфликтуют ли локальные отношения с этой темой. Например:

  • если тема текста — «выбор кроссовок для бега», то функциональная связь между «амортизирующей межподошвой» и «снижением нагрузки на колени» ей соответствует;
  • если тема текста — «профилактика спортивных травм», то потребуется заново оценить, насколько эта связь относится к предотвращению травм.

Шаг 5: проверка через граф знаний — использовать структурированные знания как «страховку»

Модель обращается к графу знаний, чтобы проверить разумность отношения:

  • в графе знаний к атрибутам «кроссовок для бега» относятся «амортизирующая межподошва», «вес» и «материал подошвы», что подтверждает легитимность межподошвы как атрибута;
  • в графе знаний к функциям «амортизирующей межподошвы» относятся «снижение нагрузки на колени» и «повышение комфорта», что подтверждает корректность этой функции.
Как Google обеспечивает точность семантических связей
Измерение теста Исходная точность (2020) Точность после оптимизации (2024) Метод улучшения
Распространённые отношения (иерархия, атрибуты) 78% 88% Добавление 2 млн размеченных данных и оптимизация fine-tuning параметров BERT
Сложные отношения (причинность, функциональное назначение) 65% 82% Внедрение «цепочечного рассуждения» (связывание удалённых сущностей через промежуточные узлы)
Вертикальная область (медицина) 60% 79% Обучение специализированных отраслевых моделей (50 000+ размеченных медицинских текстов)
Новые отношения (например, «большая ИИ-модель → мультимодальность») 52% 75% Использование контекстного предсказания предобученных моделей для динамического распознавания новых отношений
Исправление семантического смещения слов с опорой на весь текст

Когда пользователь ищет «учебник по Python», Google должен определить, означает ли «Python» на странице язык программирования (62%) или змею (18%);

когда пользователь ищет «презентация Apple», нужно убедиться, что «Apple» означает технологическую компанию (95%), а не фрукт (5%).

Эта способность «исправлять семантическое смещение слов на основе всего текста» называется контекстной дизамбигуацией (Contextual Disambiguation).

Двунаправленное внимание и глобальная семантика

1. Семантическое улавливание за счёт одновременного «взгляда назад и вперёд»

Механизм двунаправленного внимания (ядро BERT) позволяет модели одновременно анализировать первую и вторую половину предложения, улавливая отношения «причины и следствия» между словами.

Например, обрабатывая предложение «Яблоко Сяомина созрело», модель сначала обращает внимание на «Сяомина» и «созрело» и предварительно делает вывод, что «яблоко» — это фрукт;

но при обработке следующего предложения «он собирается с помощью Apple выпустить новую систему» модель возвращается к предыдущему контексту, понимает, что «выпустить новую систему» не связано с фруктом, и корректирует смысл «Apple» на «технологическая компания».

Технические детали:

Двунаправленное внимание реализуется через матрицу Query-Key-Value:

  • Query: семантический вектор текущего слова;
  • Key: семантические векторы остальных слов;
  • Value: семантические векторы остальных слов (взвешенные с помощью коэффициентов внимания).

Модель вычисляет сходство между «Query» и «Key» и назначает каждому слову «вес внимания». Чем выше вес, тем сильнее это слово влияет на значение текущего слова.

Например, фраза «выпустить новую систему» может иметь вес внимания 0,8 по отношению к «Apple» (из 1), тогда как «созрело» — лишь 0,2, поэтому модель в первую очередь опирается именно на «выпустить новую систему», чтобы скорректировать смысл «Apple».

2. «Тематический якорь» содержимого всей страницы

Помимо локального контекста предложений, Google генерирует для всей страницы глобальный семантический вектор (Global Semantic Vector), представляющий её общую тему (например, «обзор технологического продукта» или «рецепты для похудения»).

Если локальное значение слова конфликтует с глобальной темой, модель исправляет его в пользу смысла, соответствующего этой теме.

Например, при обработке страницы с заголовком «тест влагозащиты iPhone 15 версии 2025 года»:

  • в локальном предложении «последний выпущенный Apple iPhone 15 поддерживает спутниковую связь» начальный смысл «Apple» может быть «фрукт»;
  • но глобальный семантический вектор показывает, что тема страницы — «обзор смартфона», поэтому модель корректирует «Apple» до значения «технологическая компания».
Четыре шага: от локальной неоднозначности к глобальной согласованности

Возьмём в качестве примера содержимое страницы «Последний выпущенный Apple iPhone 15 поддерживает спутниковую связь, и это хорошая новость для любителей активного отдыха» и разберём процесс:

Шаг 1: обнаружение локальной неоднозначности — пометить «подозрительные» слова

Сначала модель сканирует весь текст и выявляет слова, которые могут быть неоднозначными (многозначные слова, местоимения и т.д.). В этом примере «Apple» —典型ичное многозначное слово (фрукт / технологическая компания), а «он/она/это» — местоимение, которому нужно определить референт.

Шаг 2: анализ локального контекста — извлечь «кандидатные значения»

Для каждого «подозрительного» слова модель анализирует локальный контекст (1–3 предложения до и после) и извлекает возможные значения-кандидаты:

  • Кандидатные значения для «Apple»:
    • Кандидат 1: фрукт (на основе типичных сочетаний вроде «созрело», «есть»);
    • Кандидат 2: технологическая компания (на основе типичных сочетаний вроде «выпустить iPhone 15», «спутниковая связь»).
  • Кандидатные значения для местоимения:
    • Кандидат 1: iPhone 15 (отсылка к «iPhone 15» из предыдущего предложения);
    • Кандидат 2: спутниковая связь (отсылка к ранее упомянутой функции спутниковой связи).

Шаг 3: глобальная семантическая проверка — сопоставить с темой страницы

Модель генерирует глобальный семантический вектор для всей страницы (кодируя весь текст через BERT) и сравнивает его с векторами кандидатных значений, выбирая то, которое лучше всего соответствует глобальной теме:

  • в заголовке и тексте многократно встречаются слова «iPhone 15», «спутниковая связь», «любители активного отдыха», поэтому глобальный вектор указывает на тему «обзор технологического продукта»;
  • среди значений «Apple» вариант «технологическая компания» имеет гораздо более высокое сходство с глобальной темой (косинусное сходство 0,85), чем «фрукт» (0,12), поэтому выбирается именно он;
  • для местоимения значение «iPhone 15» имеет большее сходство с темой страницы (0,9), чем «спутниковая связь» (0,6), поэтому местоимение корректируется в пользу «iPhone 15».

Шаг 4: разрешение конфликтов — обработка противоречий между несколькими источниками информации

Если локальный контекст противоречит глобальной теме (например, в одном предложении «Apple» означает фрукт, а тема всей страницы — технологии), модель дополнительно анализирует причину конфликта:

  • если это «опечатка» (например, вместо «Apple» должно быть «клубника»), модель сохраняет глобальное значение;
  • если это «сосуществование нескольких значений» (например, страница одновременно говорит и о фрукте Apple, и о компании Apple), модель строит «семантические слои» и отдаёт приоритет тому значению, которое релевантнее пользовательскому запросу.
Как Google обеспечивает точность контекстной коррекции
Измерение теста Исходная точность (2020) Точность после оптимизации (2024) Метод улучшения
Многозначные запросы (Python) 58% 82% Внедрение двунаправленного внимания BERT и добавление 1 млн размеченных многозначных текстов
Коррекция местоимений («оно / он / она») 65% 89% Обучение «модели разрешения кореференции» (на основе 100 000+ размеченных предложений)
Длинные тексты (>5000 знаков) 52% 78% Внедрение «сегментных глобальных векторов» (локальный глобальный вектор каждые 500 символов/слов)
Межъязыковая коррекция (английский → китайский) 48% 75% Использование мультиязычного BERT и добавление 500 000 примеров межъязыкового выравнивания

Как NLP определяет, чего хочет пользователь

Технология NLP в Google определяет реальные потребности пользователя, анализируя «тип намерения» поисковых запросов (информационный / навигационный / транзакционный), «семантическое расширение» (скрытые потребности) и «сценарную адаптацию» (время / место / устройство).

Google обрабатывает более 8,5 млрд поисков в день (данные за 2024 год). CTR информационных запросов вырос с 12% до 28% после внедрения NLP, а точность многозначных запросов повысилась с 58% до 82% благодаря оптимизации BERT.

Типы намерений

1. Информационное намерение: пользователь хочет «получить знания»

Характерные слова: «как сделать», «принцип», «причина», «урок / tutorial» и т.д.

Пример: когда пользователь ищет «как приготовить кофе методом ручного пролива» или «причины инфаркта миокарда», NLP сопоставляет запрос с обучающими и популярно-научными страницами.

Данные: внутренние тесты Google 2023 года показали, что доля полезных результатов на первом экране для информационных запросов выросла с 38% до 72% (за счёт распознавания слов типа «как сделать»).

2. Навигационное намерение: пользователь хочет «найти конкретный сайт»

Характерные слова: «официальный сайт», «официальный», «войти», «регистрация» и т.д.

Пример: если пользователь ищет «официальный сайт Taobao» или «вход в Apple ID», NLP ведёт напрямую на официальный сайт, а не на сторонние страницы.

Данные: исследование Microsoft 2024 года показало, что вероятность перехода пользователя на целевой сайт при навигационных запросах выросла с 45% до 89% (благодаря точному распознаванию слов вроде «официальный»).

3. Транзакционное намерение: пользователь хочет «купить товар / услугу»

Характерные слова: «рекомендация», «недорогой», «скидка», «купить» и т.д.

Пример: если пользователь ищет «рекомендация недорогой механической клавиатуры» или «ближайшая заправка», NLP отдаёт приоритет страницам e-commerce или локальным компаниям.

Данные: опрос eMarketer 2024 года показал, что конверсия транзакционных запросов выросла с 3,2% до 5,8% (потому что NLP также покрывает скрытые намерения типа «рекомендация» и «скидка»).

Сравнительная таблица типов намерений:

Тип Примеры характерных слов Цель пользователя Стратегия сопоставления NLP
Информационный как сделать, принцип, урок Получить знания Сопоставление с обучающими / научно-популярными страницами
Навигационный официальный сайт, официальный, вход Перейти на конкретный сайт Прямое направление на официальный сайт
Транзакционный рекомендация, недорогой, скидка, купить Купить товар / услугу Приоритет e-commerce / локальным компаниям

Семантическое расширение

Поисковые запросы пользователя обычно выражают лишь 10–20% ключевой потребности, тогда как остальные 80–90% остаются скрытыми (например, «цена», «сложность», «сценарий использования»).

С помощью семантического расширения (Semantic Expansion) NLP разворачивает ключевое понятие в связанные потребности и активно покрывает намерения, которые пользователь явно не озвучил.

Форма расширения 1: расширение через связанные слова

NLP опирается на векторное пространство слов (Word Embedding), связывая ключевое слово с семантически близкими словами. Например:

  • ключевое слово «рецепты для похудения» → связанные слова «низкокалорийный», «лёгкий в приготовлении», «подходит для офисных работников», «без сахара»;
  • ключевое слово «что надеть в дождливый день» → связанные слова «водонепроницаемый», «нескользящий», «лёгкий», «тёплый».

Данные: A/B-тесты Google 2022 года показали, что результаты поиска, покрывающие скрытые потребности, увеличивают время пребывания пользователя с 45 до 78 секунд (+73%).

Форма расширения 2: сценарное расширение

NLP сочетает время, место и устройство поиска, чтобы ещё точнее определить потребность. Например:

  • Временной сценарий: поиск «куртка» зимой → расширение до «утеплённая», «тёплая»; поиск «куртка» летом → расширение до «защита от солнца», «лёгкая»;
  • Географический сценарий: поиск «хого» в Шанхае → расширение к «локально популярным» вариантам; поиск «хого» в Чэнду → расширение к «аутентичному сычуаньскому стилю»;
  • Сценарий устройства: поиск «ближайшая заправка» с телефона → расширение к «цена топлива в реальном времени», «самая близкая»; с компьютера → расширение к «отзывы пользователей», «акции».

Данные: многосценарное исследование Microsoft 2024 года показало, что после сценарного расширения время выполнения задачи сократилось на 42% (на телефоне — с 90 до 52 секунд).

Как NLP «понимает» потребности пользователя

1. Понимание естественного языка (NLU)

NLU — основа NLP: оно «разбирает» запрос пользователя с помощью токенизации, распознавания сущностей и семантических связей. Например:

  • пользователь ищет «тест влагозащиты iPhone 15 версии 2025 года» → запрос разбивается на «версия 2025 года / iPhone 15 / тест влагозащиты»;
  • сущности распознаются как «TIME (2025)», «PRODUCT (iPhone 15)», «EVENT (тест влагозащиты)»;
  • после чего они объединяются семантически в «тест водозащитных характеристик iPhone 15 в 2025 году».

Данные: технический блог Google 2023 года показал, что NLU достигает 92% точности при разборе сложных запросов (в общей области).

2. Модели deep learning (например, BERT)

Предобученные модели вроде BERT изучают «контекстную семантику» на триллионах текстов и тем самым решают проблему неоднозначности. Например:

  • если пользователь ищет «Python» → BERT анализирует контекст (например, «функция print()», «урок по парсингу») → и определяет, что речь идёт о языке программирования;
  • если пользователь ищет «Java» → BERT комбинирует связанные слова вроде «кофе» и «программирование» → и определяет, что речь идёт о языке программирования (62%) или об острове (18%).

Данные: внутренние тесты Google 2024 года показали, что BERT повысил точность многозначных запросов с 58% до 82%.

3. Интеграция данных реального времени о сценарии

NLP объединяет такие данные реального времени, как время на устройстве пользователя, геопозиция и история поиска, динамически корректируя интерпретацию потребности. Например:

  • если пользователь ищет с телефона «ближайшая заправка» → NLP получает GPS-координаты → и в приоритет выводит заправки в радиусе 3 км;
  • если пользователь в выходные ищет «билеты в кино» → NLP учитывает фактор времени (выходные) → и рекомендует сеансы в популярных кинотеатрах.

Данные: опрос Pew Research 2024 года показал, что после интеграции сценарных данных реального времени удовлетворённость пользователей поисковыми результатами выросла с 68% до 85%.

Реальный эффект

Ниже приведены данные о поведении пользователей в трёх типичных сценариях:

Тип сценария Традиционный поиск (без NLP) Поиск, оптимизированный NLP Улучшение эффекта Источник данных
Информационный запрос (как сделать торт) На первом экране вперемешку реклама и нерелевантные уроки На первом экране сразу показывается чёткий пошаговый урок Время пребывания: с 45 с → 78 с (+73%) A/B-тест Google 2022
Навигационный запрос (официальный сайт Taobao) На первом экране присутствуют сторонние торговые платформы На первом экране показан только официальный сайт Taobao Вероятность клика по целевому сайту: с 45% → 89% Исследование Microsoft 2024
Транзакционный запрос (недорогая механическая клавиатура) На первом экране много дорогих товаров вперемешку На первом экране в приоритете модели с лучшим соотношением цены и качества Конверсия: с 3,2% → 5,8% (+81%) Опрос eMarketer 2024

И в завершение хочу сказать: суть того, как NLP определяет потребности пользователя, состоит в том, чтобы преобразовать «слова, которые вводит пользователь» в «реальное намерение пользователя».

Don Jiang
Don Jiang

SEO本质是资源竞争,为搜索引擎用户提供实用性价值,关注我,带您上顶楼看透谷歌排名的底层算法。

最新解读
滚动至顶部