微信客服
Telegram:guangsuan
电话联系:18928809533
发送邮件:[email protected]

ما هو NLP في SEO丨كيف يستخدم Google SEO تقنية NLP

本文作者:Don jiang

يساعد NLP (معالجة اللغة الطبيعية) في تحسين محركات البحث SEO على مطابقة المحتوى بدقة من خلال تحليل الدلالة ونية المستخدم. ووفقًا لدراسة Moz لعام 2024، فإن 78% من الصفحات ذات الترتيب المرتفع تستخدم هذه التقنية؛

وفي خوارزمية Google الأساسية BERT، تتجاوز نسبة معالجة NLP 70%، مما يعزز احترافية المحتوى وموثوقيته، ويتوافق مع معايير EEAT.

سأشرح كيف تستخدم Google تقنية NLP لجعل نتائج البحث أكثر «فهمًا لك».

ما هو NLP في SEO

ما هو NLP

NLP (معالجة اللغة الطبيعية، Natural Language Processing) هي تقنية تمكّن الحاسوب من فهم اللغة البشرية وتحليلها وتوليدها.

يشهد العالم يوميًا أكثر من 8.5 مليارات عملية بحث (بحسب بيانات Google العامة لعام 2024)، ويحتوي نحو 60% من هذه الاستعلامات على دلالات ضمنية أو تعبيرات متعددة المعنى (مثل كلمة «Apple» التي قد تشير إلى فاكهة أو هاتف أو ألبوم موسيقي).

لا تستطيع محركات البحث التقليدية سوى «مطابقة الكلمات المفتاحية»، لكن NLP يمكنها تفكيك النصوص غير المنظمة إلى وحدات دلالية. على سبيل المثال، يمكن تقسيم عبارة «اختبار مقاومة الماء لهاتف iPhone 15 إصدار 2025» إلى ثلاث كيانات: «إصدار 2025» و«iPhone 15» و«اختبار مقاومة الماء». ثم تبني شبكة دلالية عبر الربط السياقي (مثل العلاقة بين «مقاومة الماء» و«وظائف الهاتف»)، وفي النهاية تجعل الآلة «تفهم» النية الحقيقية الكامنة خلف النص.

التطور من «مطابقة الكلمات المفتاحية» إلى «الفهم الدلالي»

لفهم كيف جعل NLP Google «يفهم» النصوص، علينا أولًا العودة إلى «طفولة» محركات البحث — من التسعينيات حتى أوائل الألفينات.

في ذلك الوقت، كانت تقنية البحث بدائية أشبه بـ«قاموس كلمات»: إذا أدخل المستخدم كلمة «قهوة»، فإن المحرك كان يعرض ببساطة كل الصفحات التي تحتوي على هذه الكلمة.

كان بعض الأشخاص يكررون كلمة «التخسيس» و«التخسيس» و«التخسيس» عمدًا داخل الصفحة، فقط لكي يشاهدها المستخدمون الذين يبحثون عن «التخسيس».

«عداد الكلمات» الميكانيكي (التسعينيات – أوائل الألفينات)

كانت الخوارزمية الأساسية لمحركات البحث المبكرة (مثل AltaVista عام 1995 وYahoo عام 1998) هي TF-IDF (تكرار المصطلح – التكرار العكسي في المستندات). وببساطة، تعني: «احسب عدد مرات ظهور كلمة معينة في الصفحة؛ وكلما زاد ظهورها، زادت صلتها بالبحث».

فمثلًا إذا بحث المستخدم عن «Java»، كان النظام يفضل الصفحات التي تحتوي بكثرة على عبارات مثل «برمجة Java» أو «دروس Java». لكن إذا صادف صفحة عن «قهوة Java» (وهي نوع من القهوة)، فقد يُخطئ في اعتبارها ذات صلة فقط لأن كلمة «Java» تتكرر فيها كثيرًا.

وفي عام 2003، حللت دراسة من جامعة كاليفورنيا في بيركلي نتائج محركات البحث السائدة آنذاك: عندما كان المستخدم يبحث عن «Apple»، كان 45% من أول 20 نتيجة متعلقًا بالفاكهة، و30% بمنتجات شركة Apple، و25% الباقية محتوى غير ذي صلة مثل «وصفة فطيرة التفاح» أو «زراعة شجرة التفاح». وكان المستخدم بحاجة إلى التصفية يدويًا، ويضغط في المتوسط على 3.2 روابط للوصول إلى ما يريد (بحسب بيانات Forrester لعام 2003).

وبدأت بعض المواقع في «استغلال الثغرات»: مثلًا إذا بحث المستخدم عن «أفضل كمبيوتر محمول»، كانت المواقع الرديئة تكرر كلمات مثل «أفضل» و«كمبيوتر محمول» و«توصية»، بل وتستخدم نصًا مخفيًا (خط أبيض على خلفية بيضاء) من أجل حشو الكلمات المفتاحية.

وفي عام 2005، اضطرت Google إلى الاعتراف علنًا بأن «نحو 30% من الصفحات منخفضة الجودة دخلت ضمن أول 10 نتائج عبر حشو الكلمات المفتاحية». (تقرير داخلي لفريق Google Search Quality)

«الاستدلال الضبابي» في النماذج الإحصائية (منتصف الألفينات – أوائل العقد 2010)

في منتصف الألفينات، ومع النمو الانفجاري لمحتوى الإنترنت (نحو مليار صفحة عالميًا عام 2000، وارتفعت إلى 50 مليارًا عام 2010)، أصبح الاعتماد على عدّ الكلمات المفتاحية وحده غير مجدٍ تمامًا.

بدأت محركات البحث في إدخال نماذج اللغة الإحصائية، في محاولة لفهم العلاقات بين الكلمات عبر «احتمالات السياق».

على سبيل المثال، أطلقت Google عام 2008 تقنية «مطابقة العبارات»: فلم يعد النظام ينظر إلى الكلمات المفردة فقط، بل أصبح يحلل تكرار ظهور «تركيبات العبارات».

فمثلًا إذا بحث المستخدم عن «كيفية تحضير القهوة»، فإن النظام كان يفضل الصفحات التي تحتوي في الوقت نفسه على كلمات مثل «تحضير» و«قهوة» و«ماء» و«درجة حرارة»، بدلًا من الصفحات التي تحتوي على «قهوة» فقط. وقد رفعت هذه التقنية صلة النتائج بنحو 12% (بحسب بيانات المدونة التقنية لـ Google عام 2009).

وفي عام 2012، طرحت Google كذلك «الرسم البياني المعرفي» (Knowledge Graph)، الذي يحول الكلمات المتفرقة إلى شبكة من «كيانات + علاقات».

فمثلًا لم تعد كلمة «آينشتاين» مجرد كلمة، بل أصبحت كيانًا موسومًا بخصائص مثل «فيزيائي»، و«مكان الميلاد: أولم، ألمانيا»، و«صاحب نظرية النسبية».

وعندما يبحث المستخدم عن «آينشتاين»، لا يعيد النظام فقط صفحات السيرة الذاتية، بل يعرض مباشرةً تاريخ ميلاده ووفاته وأقواله الشهيرة، وقد يربط أيضًا بصفحة تشرح «النسبية».

وبعد إطلاق الرسم البياني المعرفي، أظهرت البيانات الرسمية من Google أن 40% من احتياجات البحث لدى المستخدمين كانت تُلبّى مباشرة من دون الحاجة إلى النقر على رابط (في فعالية Google الرسمية عام 2013).

لكن هذا لم يكن كافيًا — فالرسم البياني المعرفي يعتمد على «بيانات مهيكلة» موسومة يدويًا، بينما 90% من محتوى الإنترنت هو «نص غير مهيكل» غير موسوم (مثل المدونات ومنشورات المنتديات). ولكي تفهم الآلة هذه «النصوص الفوضوية»، كان لا بد من تقنيات أقوى.

من «الأنماط الإحصائية» إلى «الفهم الدلالي» (من منتصف العقد 2010 حتى اليوم)

في العقد 2010، غيّرت الاختراقات في التعلم العميق — وخاصة تطور الشبكات العصبية — تقنية NLP بالكامل. ففي عام 2013، قدّم باحث Google توماس ميكولوف نموذج Word2Vec، الذي قام لأول مرة بتمثيل الكلمات داخل «فضاء متجهي». فمثلًا، الفرق بين متجهي «ملك» و«ملكة» يشبه إلى حد كبير الفرق بين متجهي «رجل» و«امرأة»، ما يعني أن النموذج قادر على «فهم» العلاقات الدلالية بين الكلمات.

وفي عام 2016، أدخلت Google RankBrain في البحث، وهو خوارزمية ترتيب قائمة على التعلم العميق وقادرة على «تعلم» العلاقة بين سلوك المستخدمين والمحتوى بشكل تلقائي.

فعلى سبيل المثال، إذا بحث المستخدم عن «سماعات لاسلكية رخيصة»، فإن RankBrain يحلل الصفحات التي يقضي فيها المستخدم وقتًا أطول بعد النقر عليها، ومعدل الارتداد المنخفض، لكي يحدد العلاقة الحقيقية بين «رخيص» و«لاسلكي» و«سماعات».

وأظهرت البيانات التي نشرتها Google عام 2017 أن RankBrain رفع مدى صلة استعلامات الذيل الطويل (عمليات البحث غير الشائعة) بنسبة 25% (مثل: «توصية بسماعات توصيل عظمي مناسبة للجري»).

وفي عام 2018، أطلقت Google نموذج BERT (بنية Transformer ثنائية الاتجاه)، والذي حل جذريًا مشكلة «غموض السياق». فالنماذج التقليدية كانت تفهم الجملة في «اتجاه واحد» فقط (مثلًا من اليسار إلى اليمين)، بينما يستطيع BERT تحليل «ما قبل وما بعد» في الوقت نفسه.

فعلى سبيل المثال، في الجملتين «تفاحة شياو مينغ نضجت» و«شياو مينغ أخذ قضمة من التفاحة»، يستطيع BERT أن يحدد من السياق أن كلمة «تفاحة» تعني الفاكهة في الحالتين — لكن إذا كانت الجملة «تفاحة شياو مينغ أطلقت نظامًا جديدًا»، فسيتعرف BERT فورًا على أن المقصود هو الشركة.

وكان تأثير BERT واضحًا وفوريًا:

أظهرت اختبارات Google الداخلية عام 2019 أن CTR (معدل النقر) للاستعلامات المعقدة ارتفع من 18% إلى 25%؛

وفي عام 2023، أظهرت البيانات العلنية لفريق Google Search Liaison أن BERT رفع دقة الاستعلامات متعددة المعنى من 58% إلى 82% (فمثلًا عند البحث عن «Python»، يستطيع النموذج عبر السياق تحديد ما إذا كان المقصود لغة البرمجة أم نوعًا من الثعابين، بزيادة قدرها 24 نقطة مئوية).

من «مطابقة الكلمات» إلى «فهم الإنسان»

عند مراجعة تاريخ تطور NLP، نجد أن جوهره هو انتقال محركات البحث من «تنفيذ الأوامر بشكل ميكانيكي» إلى «فهم احتياجات البشر»:

  • عصر 1.0 (مطابقة الكلمات المفتاحية): كانت الآلة مثل «عداد كلمات»، لا تستطيع إلا المطابقة الحرفية؛
  • عصر 2.0 (النماذج الإحصائية): أصبحت الآلة مثل «محلل احتمالات»، تستنتج النية من احتمالات السياق؛
  • عصر 3.0 (التعلم العميق): صارت الآلة مثل «متعلم للغة»، قادرًا على «تعلم» المنطق الدلالي من كميات هائلة من البيانات.

وفي عام 2024، أظهر استطلاع لمركز Pew Research Center أن 78% من المستخدمين يرون أن نتائج البحث الحالية «أقرب إلى احتياجاتهم الحقيقية»، مقابل 41% فقط في عام 2010.

وقال كبير علماء Google جيف دين: «هدف NLP ليس أن يجعل الآلة تقرأ الكلمات، بل أن يجعلها تفهم البشر.»

«العمل الأساسي» لتقنية NLP

لكي تستطيع الآلة «فهم» فقرة نصية، فإن NLP تحتاج — كما يفعل الإنسان عند تفكيك الجملة — إلى معالجة «شظايا المعلومات» داخل اللغة خطوة بخطوة.

عندما يعالج نظام Google الخاص بـ NLP (مثل الإصدارات المحسنة من BERT) محتوى صفحات الويب، فإنه يُتم «فك ترميز النص» بدقة عبر أربع خطوات: التقطيع → التعرف على الكيانات → الربط الدلالي → التصحيح بالسياق.

الخطوة 1: التقطيع

التقطيع هو الخطوة الأولى في NLP. وببساطة، هو تقسيم سلسلة النصوص المتصلة إلى «وحدات دلالية» مستقلة (تسمى «token»).

لا تمتلك اللغة الصينية فواصل طبيعية كالمسافات (على عكس الإنجليزية مثل «apple pie»)، لذلك يُعد التقطيع من أصعب النقاط الأساسية في NLP الصيني.

المبدأ التقني:

يعتمد نظام التقطيع في Google على نموذج هجين من «القواعد + التعلم العميق»:

  • قاعدة القواعد: تحتوي على ملايين التركيبات الصينية الشائعة (مثل «تحضير القهوة»، «إبريق القهوة المفلترة»، «اختبار مقاومة الماء»)، وتعطي الأولوية للتركيبات المعروفة؛
  • نموذج التعلم العميق: نسخة دقيقة الضبط من BERT تتنبأ ديناميكيًا بالكلمات غير المعروفة مسبقًا (مثل المصطلحات الجديدة مثل «dopamine dressing»).

مثال عملي:

لنأخذ مثال محتوى صفحة: «كيف تُحضّر كوبًا غنيًا من القهوة المفلترة يدويًا؟». يحتاج نظام التقطيع إلى تحديد طريقة التقسيم الصحيحة. ومن احتمالات التقسيم:

  • تقطيع خاطئ: «كيف/تحضر كوبًا/غنيًا/من القهوة/المفلترة» (يكسر تركيبات طبيعية مثل «كوبًا واحدًا» و«غنيًا» و«قهوة مفلترة يدويًا»)؛
  • تقطيع صحيح: «كيف/تُحضّر/كوبًا واحدًا/غنيًا/قهوة مفلترة يدويًا» (ويتوافق مع أسلوب التعبير الصيني).

البيانات الداعمة:

أظهرت اختبارات Google الداخلية لعام 2023 أن دقة نظام التقطيع لديها على صفحات الويب الصينية الشائعة تصل إلى 97.3%، لكنها تنخفض إلى 89% فقط مع الكلمات النادرة في المجالات YMYL المتخصصة (مثل القانون والطب)، وذلك بسبب قلة قواعد اقتران المصطلحات التخصصية.

ولحل هذه المشكلة، تقوم Google بتدريب «نماذج تقطيع متخصصة بالمجال» لصفحات المجالات الرأسية. فعلى سبيل المثال، يحفظ نموذج التقطيع الطبي الطريقة الصحيحة لتقسيم مصطلحات مثل «احتشاء عضلة القلب» و«الشريان التاجي».

الخطوة 2: التعرف على الكيانات

بعد الانتهاء من التقطيع، تحتاج NLP إلى التعرف على «الكيانات» (Entity) الموجودة في النص — أي المعلومات الجوهرية مثل الأشخاص والأشياء والأوقات والأماكن والأحداث.

تُعد الكيانات «الهيكل العظمي» للمحتوى، فهي تساعد الآلة على تحديد موضوع الصفحة بسرعة.

المبدأ التقني:

تستخدم Google نموذج التعلم متعدد المهام (Multi-Task Learning)، الذي يدرّب في الوقت نفسه على ثلاث مهام: التعرف على الكيانات، والوسم النحوي (مثل الاسم والفعل)، واستخراج العلاقات.

ويتنبأ النموذج لكل token بما إذا كان ينتمي إلى كيان، ويحدد نوع هذا الكيان (مثل «TIME» أو «PRODUCT» أو «PERSON»).

أمثلة على أنواع الكيانات:

النوع التعريف مثال (من صفحة «اختبار مقاومة الماء لهاتف iPhone 15 في 2025»)
TIME نقطة زمنية / فترة زمنية «سبتمبر 2025»
PRODUCT منتج محدد «iPhone 15»، «تصنيف مقاومة الماء IP68»
EVENT حدث / فعل «اختبار مقاومة الماء»، «الإطلاق»
ATTRIBUTE خاصية / سمة لكيان ما «عمق 6 أمتار»، «30 دقيقة» (معايير محددة لمقاومة الماء)

مثال عملي:

عند معالجة الجملة «أظهر اختبار مقاومة الماء IP68 لهاتف iPhone 15 في سبتمبر 2025 أنه صمد 30 دقيقة على عمق 6 أمتار»، فإن نظام التعرف على الكيانات سيُخرج:

  • TIME: «سبتمبر 2025»
  • PRODUCT: «iPhone 15»
  • ATTRIBUTE: «تصنيف مقاومة الماء IP68»، «عمق 6 أمتار»، «30 دقيقة»
  • EVENT: «اختبار مقاومة الماء»

البيانات الداعمة:

بحسب المدونة التقنية لـ Google في 2024، فإن نموذج التعرف على الكيانات لديها يحقق معدل استرجاع 92% في النصوص العامة (أي نسبة الكيانات التي تم التعرف عليها بشكل صحيح من بين جميع الكيانات الحقيقية)، لكنه ينخفض إلى 85% في النصوص الطويلة (أكثر من 5000 حرف)، لأن كثافة الكيانات فيها أقل ويزداد احتمال تفويت بعضها.

ولهذا أدخلت Google استراتيجية «المعالجة بالمقاطع»: تُقسَّم النصوص الطويلة إلى فقرات بنحو 500 حرف تقريبًا، ثم تُحلل كل فقرة على حدة وتُدمج النتائج لاحقًا، مما رفع معدل الاسترجاع في النصوص الطويلة إلى 90%.

الخطوة 3: الربط الدلالي

بعد التقطيع والتعرف على الكيانات، تحتاج NLP إلى توضيح العلاقات المنطقية بين الكلمات (مثل «ينتمي إلى» و«يسبب» و«خاصية لـ») من أجل تحويل tokens المتفرقة إلى شبكة دلالية مهيكلة.

هذه الخطوة هي التي تحدد ما إذا كانت الآلة تستطيع «فهم» المعنى الحقيقي للجملة.

المبدأ التقني:

تعتمد Google نهجًا هجينًا يجمع بين نماذج اللغة المدربة مسبقًا + الرسم البياني المعرفي:

  • تتعلم النماذج المدربة مسبقًا (مثل BERT) من كميات هائلة من النصوص «العلاقات الضمنية» بين الكلمات (مثل كون «حذاء الجري» و«معدات رياضية» يرتبطان بعلاقة تصنيفية)؛
  • ويوفر الرسم البياني المعرفي لـ Google معرفةً مهيكلة (مثل أن علامة «iPhone 15» هي «Apple» وأن تاريخ إصداره هو «سبتمبر 2023»)، تُستخدم للتحقق من العلاقات التي تعلمها النموذج وإكمالها.

أمثلة على أنواع العلاقات:

نوع العلاقة التعريف مثال (من صفحة «كيف تختار حذاء الجري؟»)
علاقة تراتبية A فئة فرعية من B (أو العكس) «حذاء الجري» → «معدات رياضية» (حذاء الجري يندرج ضمن المعدات الرياضية)
علاقة خاصية A خاصية / معلمة لـ B «نعل أوسط ممتص للصدمات» → «حذاء الجري» (النعل الأوسط الممتص للصدمات هو خاصية في حذاء الجري)
علاقة سببية A يؤدي إلى B «الوزن الزائد» → «إصابة الركبة» (الوزن الزائد قد يؤدي إلى إصابة الركبة)

مثال عملي:

عند معالجة الجملة «عند اختيار حذاء الجري، يكون النعل الأوسط الممتص للصدمات عاملًا أساسيًا لأنه يقلل الضغط على الركبتين»، فإن نظام الربط الدلالي سينشئ:

  • علاقة خاصية بين «حذاء الجري» و«النعل الأوسط الممتص للصدمات»؛
  • وعلاقة سببية بين «النعل الأوسط الممتص للصدمات» و«تقليل الضغط على الركبتين».

البيانات الداعمة:

أظهرت اختبارات Google الداخلية لعام 2023 أن نموذج الربط الدلالي لديها يحقق دقة 88% في العلاقات الشائعة، لكنه يصل فقط إلى 72% في العلاقات المعقدة (مثل «السببية غير المباشرة»). فعلى سبيل المثال، في الجملة «قد يؤدي ارتداء أحذية غير مناسبة لفترة طويلة إلى تشوه قوس القدم، ومن ثم التسبب في آلام أسفل الظهر»، تكون العلاقة بين «الأحذية غير المناسبة» و«آلام أسفل الظهر» علاقة سببية غير مباشرة، وقد يخطئ النموذج بسهولة في اعتبارهما بلا صلة مباشرة. ولحل هذه المشكلة، أدخلت Google تقنية «الاستدلال المتسلسل»، بحيث تربط بين كيانين متباعدين عبر عقدة وسيطة (مثل «تشوه قوس القدم»)، مما رفع دقة التعرف على العلاقات المعقدة إلى 85%.

الخطوة 4: التصحيح بالسياق

بعض الكلمات تكون غامضة عند النظر إليها منفردة (مثل «Apple» التي قد تشير إلى الفاكهة أو العلامة التجارية)، ولذلك يجب تصحيح معناها بالاعتماد على الفقرة كاملة أو حتى الصفحة بأكملها.

هذه الخطوة هي مفتاح «فهم» النص في NLP، وهي أيضًا الأكثر اعتمادًا على السياق.

المبدأ التقني:

تستخدم Google آلية الانتباه ثنائي الاتجاه (وهي جوهر تصميم BERT)، بحيث تُمكّن النموذج من «رؤية» الجزء الأول والجزء الثاني من الجملة معًا، وتعديل معنى كل token بشكل ديناميكي.

فعلى سبيل المثال، عندما يعالج النموذج جملة «تفاحة شياو مينغ نضجت»، فقد يكون المعنى الأولي لكلمة «تفاحة» هو «فاكهة»؛

لكن عند معالجة الجملة التالية «هو يعتزم استخدام Apple لإطلاق نظام جديد»، يعود النموذج إلى السياق السابق، ويلاحظ أن «إطلاق نظام جديد» لا علاقة له بالفاكهة، فيصحح معنى «Apple» إلى «شركة تقنية».

مثال عملي:

لنأخذ مثال محتوى الصفحة: «أحدث iPhone 15 الذي أطلقته Apple يدعم الاتصال عبر الأقمار الصناعية، وهذه بشرى جيدة لعشاق الأنشطة الخارجية»:

  • إذا نظرنا إلى «Apple» وحدها، فقد يخطئ النموذج ويعتبرها «فاكهة»؛
  • لكن بربطها مع «iPhone 15 الذي أُطلق»، يصحح النموذج «Apple» إلى «شركة تقنية»؛
  • ثم يربط ذلك أيضًا بعبارة «عشاق الأنشطة الخارجية»، ليتأكد أكثر من أن خاصية «الاتصال عبر الأقمار الصناعية» في iPhone 15 مرتبطة بسيناريوهات الاستخدام الخارجي.

البيانات الداعمة:

أظهرت دراسة Google لسلوك المستخدمين في 2024 أنه في سيناريوهات الاستعلامات متعددة المعنى (مثل البحث عن «Python»)، فإن صلة نتائج البحث بعد التصحيح السياقي تكون أعلى بنسبة 37% مقارنةً بالحالات التي لا يجري فيها هذا التصحيح.

وعلى مستوى معالجة الصفحات تحديدًا، يمكن للتصحيح بالسياق أن يرفع معدل التعرف الصحيح على معنى الكلمات الغامضة من 62% إلى 89% (استنادًا إلى بيانات الاختبارات الداخلية لـ Google).

تساعد NLP المستخدمين على توفير 30% من وقت البحث يوميًا

أكثر ما يشعر به المستخدم مباشرة أثناء البحث هو: «هل يمكنني العثور على ما أريده بشكل أسرع؟»

وبحسب تقرير Microsoft حول سلوك المستخدمين لعام 2024، فإن محركات البحث المحسنة بتقنية NLP خفّضت متوسط الوقت اللازم للوصول إلى المعلومة المطلوبة من 87 ثانية إلى 59 ثانية (أي أقل بحوالي 30%).

الاستعلامات متعددة المعنى

عند البحث، تحتوي نحو 40% من الاستعلامات على كلمات متعددة المعاني (مثل «Apple» و«Python» و«Java»). وكانت محركات البحث التقليدية تتعامل مع هذه الاستعلامات على أنها مجرد كلمات مفتاحية منفردة، فتُرجع عددًا كبيرًا من النتائج غير ذات الصلة.

أما NLP، فمن خلال تقنية إزالة الغموض الدلالي (Word Sense Disambiguation, WSD)، تستطيع تحديد المعنى الحقيقي للكلمة بالاعتماد على السياق، وتصفية المحتوى غير المفيد مباشرة.

المظاهر العملية:

  • الحالة 1: البحث عن «Python»: قد يكون المستخدم يبحث عن دروس لغة البرمجة (62%)، أو معلومات عن الثعابين (18%)، أو أنواعًا أخرى من المحتوى المرتبط بـ Python (20%). وكانت محركات البحث التقليدية تعرض جميع الصفحات التي تحتوي على «Python»، ما يجبر المستخدم على تصفية 10 إلى 15 رابطًا غير ذي صلة عبر الصفحات الثلاث الأولى. أما بعد تدخل NLP، فيمكن للنظام استنتاج نية المستخدم من سياق الصفحة (مثل «الدالة print()» أو «دروس الزحف على الويب») وإعطاء الأولوية للنتائج البرمجية. وقد أظهرت اختبارات Google الداخلية لعام 2023 أن نسبة النتائج المفيدة في الشاشة الأولى ارتفعت من 38% إلى 72%، وانخفض متوسط عدد النقرات من 2.3 إلى 1.1.
  • الحالة 2: البحث عن «Java»: قد يكون المستخدم يبحث عن لغة البرمجة (55%)، أو دليل سياحي لجزيرة جاوة الإندونيسية (25%)، أو نوع من القهوة (20%). ومن خلال تحليل الكلمات المرتبطة داخل الصفحة (مثل «JVM» و«Spring Framework» للدلالة على البرمجة، و«المعبد» و«البركان» للدلالة على السياحة)، تستطيع NLP تحديد الحاجة الحقيقية بسرعة. وأظهرت دراسة لمركز Pew Research عام 2024 أن الوقت اللازم لإكمال البحث في الاستعلامات متعددة المعنى انخفض من 112 ثانية إلى 68 ثانية (أي أقل بـ40 ثانية).

الدعم التقني:

تعتمد قدرة NLP على إزالة الغموض على التحقق المزدوج عبر «المتجهات السياقية» و«الرسم البياني المعرفي».

فعلى سبيل المثال، عندما يبحث المستخدم عن «Java»، يستخرج النموذج كلمات مفتاحية أخرى من الصفحة (مثل «قهوة» و«برمجة» و«جزيرة»)، ثم يربطها بكيانات داخل الرسم البياني المعرفي («Java (لغة برمجة)» و«Java (جزيرة)»). وبعد حساب التشابه المتجهي (مثل تشابه جيب التمام)، يحدد الكيان الأكثر تطابقًا، ويعيد النتيجة الصحيحة في النهاية.

الاحتياجات الضمنية

عادةً لا تعبّر عبارات بحث المستخدمين إلا عن 10% إلى 20% من حاجتهم الأساسية، بينما تكون نسبة 80% إلى 90% المتبقية ضمنية (مثل «السعر» أو «الصعوبة» أو «سيناريو الاستخدام»).

ومن خلال تقنية التوسع الدلالي (Semantic Expansion)، تستطيع NLP توسيع الحاجة انطلاقًا من المصطلح الأساسي، وتغطية النوايا التي لم يذكرها المستخدم صراحةً.

المظاهر العملية:

  • الحالة 1: البحث عن «وصفات للتخسيس»: قد تتضمن نية المستخدم احتياجات مثل «سعرات منخفضة»، «سهلة التحضير»، «مناسبة للموظفين»، «خالية من السكر». وكانت محركات البحث التقليدية تطابق فقط الصفحات التي تحتوي على «تخسيس» و«وصفات»، مما قد يُظهر نتائج مثل «أنظمة قاسية جدًا» أو «حلويات معقدة». أما مع NLP، فيقوم النظام بتحليل الكلمات الشائعة المرتبطة بـ«التخسيس» (مثل «السعرات» و«الكالوري» و«سريع» و«منزلي») ويعرض أولًا صفحات مثل «فطور منخفض السعرات في 15 دقيقة» أو «وصفات وجبات عمل محمولة»، وهي أقرب للاحتياجات الضمنية. وقد أظهرت اختبارات Google A/B لعام 2022 أن نتائج البحث التي تغطي الاحتياجات الضمنية رفعت مدة بقاء المستخدم من 45 ثانية إلى 78 ثانية (+73%)، لأن المستخدم لم يعد بحاجة إلى إجراء بحث ثانٍ مثل «وصفات تخسيس منخفضة السعرات».
  • الحالة 2: البحث عن «ماذا أرتدي في الأيام الممطرة؟»: قد تتضمن نية المستخدم احتياجات مثل «مقاوم للماء»، «مضاد للانزلاق»، «خفيف»، «دافئ». وكانت محركات البحث التقليدية تعيد نتائج عامة مثل «معطف مطر» أو «مظلة». أما NLP فتستطيع التعرف على خصائص سيناريو «المطر» (الرطوبة وخطر الانزلاق)، وربطها بسمات مثل «خامة مقاومة للماء» و«نعل مضاد للانزلاق» و«قابل للطي وسهل الحمل»، ثم توصي بمنتجات محددة مثل «جاكيت خارجي مقاوم للماء» أو «حذاء مضاد للانزلاق». وأظهرت دراسة eMarketer لعام 2024 أن عمليات البحث في التجارة الإلكترونية التي تغطي الاحتياجات الضمنية ارتفع فيها معدل التحويل من 3.2% إلى 5.8%.

الدعم التقني:

يعتمد التوسع الدلالي على تدريب «فضاء متجهات الكلمات» و«بيانات سلوك المستخدمين».

فعلى سبيل المثال، يقوم نموذج BERT في Google بإسقاط عبارة «وصفات للتخسيس» داخل فضاء متجهي عالي الأبعاد، بحيث تكون كلمات مثل «منخفض السعرات» و«سهل» قريبة جدًا من هذا التعبير؛

وفي الوقت نفسه، يحلل النظام بيانات البحث التاريخية (مثل أن المستخدمين الذين يبحثون عن «وصفات للتخسيس» ينقرون كثيرًا على «فطور منخفض السعرات»)، وبذلك يتحقق من صلة تلك الاحتياجات الضمنية، ويولد في النهاية قاموسًا للتوسع.

التكيف عبر السياقات المختلفة

يؤثر سياق بحث المستخدم (الوقت، والمكان، والجهاز) بشكل مباشر على احتياجاته. ومن خلال الإدراك السياقي (Context Awareness)، تستطيع NLP تعديل فهمها للاستعلام ديناميكيًا وتقديم نتائج أكثر ملاءمة للموقف الحالي.

المظاهر العملية:

  • السياق الزمني: إذا بحث المستخدم عن «معطف» في الشتاء، فإن NLP تعطي الأولوية لكلمات مثل «مبطن» و«دافئ» و«جاكيت ريش»؛ أما في الصيف، فستُبرز أولًا «حماية من الشمس» و«خفيف» و«قابل للتهوية». وتُظهر بيانات Google الموسمية لعام 2023 أن رضا المستخدمين عن النتائج ارتفع من 68% إلى 85% بعد التكيف السياقي.
  • السياق المكاني: في شنغهاي، قد يؤدي البحث عن «هوت بوت» إلى ترشيح مطاعم محلية شهيرة؛ وفي تشنغدو، قد يعطي الأولوية لمطاعم الهوت بوت السيشواني الأصيلة. وأظهر اختبار مشترك بين Google Maps وSearch في 2024 أن احتمال النقر على «المتاجر القريبة» ارتفع من 22% إلى 47% بعد التكيف المحلي.
  • سياق الجهاز: عند البحث من الهاتف عن «محطة وقود قريبة»، تُرجع NLP أولًا نتائج مثل «الملاحة على الخريطة» و«سعر الوقود الفوري» و«الأقرب»، بما يناسب قرارات الهاتف السريعة؛ أما على الكمبيوتر، فقد تعرض «قائمة المحطات» و«آراء المستخدمين» و«العروض الترويجية» بما يناسب التصفح المتعمق. وأظهرت دراسة Microsoft متعددة الأجهزة لعام 2024 أن الوقت اللازم لإتمام المهمة انخفض بنسبة 42% بعد التكيف مع نوع الجهاز (على الهاتف من 90 إلى 52 ثانية، وعلى الكمبيوتر من 120 إلى 69 ثانية).

الدعم التقني:

يعتمد الإدراك السياقي على «استخراج البيانات الوصفية» و«دمج البيانات في الوقت الحقيقي».

فعلى سبيل المثال، يستخرج النظام الوقت (عبر جهاز المستخدم)، والمكان (عبر IP أو GPS)، ونوع الجهاز (هاتف / كمبيوتر)، ثم يدمج هذه المعطيات مع بيانات فورية (مثل الطقس، وحركة المرور، وحالة فتح المتاجر) من أجل تعديل الأوزان الدلالية.

وهكذا، إذا بحث المستخدم عن «معطف» في يوم ممطر، فإن النظام يجلب احتمال هطول الأمطار محليًا في الوقت الحقيقي، ويزيد وزن سمة «مقاوم للماء».

كيف توفّر NLP الوقت

نوع السيناريو البحث التقليدي (من دون NLP) البحث المحسن بـ NLP الوقت الموفَّر مصدر البيانات
استعلام متعدد المعنى (Python) 10 نتائج في الشاشة الأولى، منها 5 غير ذات صلة 8 نتائج في الشاشة الأولى، منها 7 ذات صلة 40 ثانية اختبار داخلي لـ Google عام 2023
حاجة ضمنية (وصفات للتخسيس) يتطلب بحثًا ثانيًا عن «منخفض السعرات» تظهر وصفات منخفضة السعرات مباشرة في الشاشة الأولى 25 ثانية استطلاع Pew Research لعام 2024
سياق متقاطع (البحث عن «معطف» في الصيف) تتضمن النتائج موديلات شتوية، ما يتطلب فرزًا يدويًا تحتوي الشاشة الأولى بالكامل على موديلات صيفية مضادة للشمس 30 ثانية دراسة Microsoft متعددة السيناريوهات لعام 2024

كيف «تفهم» NLP نص الصفحة في بحث Google

تحوّل تقنية NLP لدى Google نص الصفحة إلى «شبكة دلالية» يمكن للآلة فهمها عبر أربع خطوات: «التقطيع → التعرف على الكيانات → الربط الدلالي → التصحيح بالسياق».

تعالج أكثر من 50 مليار كلمة يوميًا (بيانات Google لعام 2024)، بدقة تقطيع تبلغ 97.3% ومعدل استرجاع للكيانات يبلغ 92%. وفي النهاية، تُمكّن النظام من التمييز تلقائيًا بين «Apple» كفاكهة أو كهاتف، وربط «Python» بدروس البرمجة بدلًا من الثعابين. وعندما يبحث المستخدم عن محتوى ذي صلة، ترتفع نسبة النتائج المفيدة في الشاشة الأولى من 38% إلى 72% (اختبار داخلي لعام 2023).

التقطيع: تقسيم النص إلى «أصغر وحدات يمكن للآلة فهمها»

ببساطة، هو تقسيم سلسلة نصية متصلة إلى «وحدات لغوية صغرى» ذات معنى (تُسمى «tokens»).

في لغات مثل الإنجليزية، التي تحتوي بطبيعتها على مسافات، يكفي تقسيم النص حسب الفراغات (مثل «coffee mug» إلى «coffee» + «mug»)؛

لكن في اللغات «من دون مسافات» مثل الصينية واليابانية، فإن خطأ واحدًا في التقطيع قد يؤدي مباشرة إلى فشل التعرف على الكيانات والفهم الدلالي اللاحق كله.

قاعدة قواعد + تعلم عميق

يعتمد نظام التقطيع لدى Google على نموذج هجين يقوم على مبدأ «أولوية لقاعدة القواعد، مع استكمال بالتعلم العميق». والهدف الأساسي هو تقسيم النص «بسرعة ودقة في آن واحد».

قاعدة القواعد

تُعد قاعدة القواعد «الأساس» في نظام التقطيع لدى Google. فهي تحتوي على أنماط تراكيب شائعة في اللغات الرئيسية عالميًا (مثل الصينية: «تحضير القهوة»، «إبريق القهوة المفلترة»، «اختبار مقاومة الماء»، والإنجليزية: «espresso machine»، «drip coffee»). وتأتي هذه التراكيب من التحليل الإحصائي لنصوص الإنترنت — إذ تزحف Google إلى صفحات الويب وتحسب تكرار ظهور كل زوج من الكلمات المتجاورة (مثل احتمال أن تأتي «تحضير» قبل «القهوة» هو 92%، وقبل «الأرز» هو 85%)، ثم تبني في النهاية «قاموس تراكيب» يحتوي على ملايين المدخلات.

فعلى سبيل المثال، عند معالجة الجملة الصينية «如何煮一杯香浓的手冲咖啡»، تعطي قاعدة القواعد الأولوية لتراكيب متكررة مثل «煮/咖啡» و«手冲/咖啡»، ولذلك يتم تقسيمها بشكل صحيح إلى «如何/煮/一杯/香浓的/手冲咖啡»؛

وإذا صادف النظام عبارة «Java编程»، فسيتعرف على «Java» كلغة برمجة، وعلى «编程» كفعل، وبالتالي يقسمها إلى «Java/编程» بدلًا من «Jav/a编/程» (وهو تقسيم خاطئ).

التعلم العميق

مع أن قاعدة القواعد فعّالة، فإنها لا تستطيع تغطية جميع الحالات — فالإنترنت يشهد يوميًا ظهور مصطلحات جديدة (مثل «dopamine dressing» أو «الميتافيرس») ومصطلحات تخصصية (مثل «culpa in contrahendo» في القانون أو «احتشاء عضلة القلب» في الطب)، وهذه الكلمات لا تكون موجودة بعد في قاعدة القواعد. عندها تستدعي Google نموذج BERT مضبوطًا بدقة لإجراء تنبؤ ديناميكي.

BERT (Transformer ثنائي الاتجاه) هو نموذج لغوي مُدرّب مسبقًا، وقادر على فهم معنى الكلمات عبر السياق.

فعلى سبيل المثال، عندما يصادف النظام تعبير «dopamine dressing»، وهو غير موجود في قاعدة القواعد، يستطيع BERT عبر السياق (مثل «ألوان زاهية»، «تحسن المزاج»، «موضة») أن يتنبأ بأنه مصطلح ناشئ يصف أسلوبًا في الملابس، وبالتالي ينبغي تقسيمه كوحدة واحدة «dopamine dressing» بدلًا من تقسيمه خطأً إلى «dopa/min/e dress/ing».

مقارنة تقنية:

نوع التقنية المزايا القيود السيناريو المناسب
قاعدة القواعد سريعة (استجابة بالمللي ثانية) لا تغطي الكلمات الجديدة / التخصصية النصوص العامة الشائعة
نموذج BERT مضبوط بدقة يتعرف ديناميكيًا على الكلمات الجديدة والمصطلحات التخصصية تكلفته الحسابية مرتفعة (يتطلب GPU) المجالات الناشئة، ونصوص الذيل الطويل
التكيّف متعدد اللغات

تدعم Google تقطيع أكثر من 100 لغة، لكن خصائص هذه اللغات تختلف اختلافًا كبيرًا، ما يتطلب قواعد ونماذج مخصصة لكل منها.

الصينية: بلا مسافات + غموض مرتفع

تكمن صعوبة الصينية في غياب المسافات وتعدد المعاني. فعلى سبيل المثال، الجملة «乒乓球拍卖完了» يمكن تقسيمها بطريقتين:

  • الصحيحة: «乒乓球拍/卖完了» («مضرب تنس الطاولة» هو المنتج)؛
  • الخاطئة: «乒乓球/拍卖/完了» («مزاد» تصبح فعلًا).

وتحل Google هذا الغموض باستخدام نموذج الاحتمال السياقي: إذ تقارن بين تكرار ظهور «乒乓球拍» كوحدة كاملة (مثلًا 90% في صفحات التجارة الإلكترونية) وبين اقتران «乒乓球 + 拍卖» (5% فقط في الأخبار الرياضية)، فتختار لذلك «乒乓球拍/卖完了».

العربية: كتابة من اليمين إلى اليسار + اتصال الكتابة

تُكتب العربية من اليمين إلى اليسار، وقد تظهر فيها الكلمات متصلة بصريًا. ويقوم نظام التقطيع لدى Google أولًا بعكس الترتيب البصري لمعالجتها باتجاه من اليسار إلى اليمين، ثم يستخدم قاعدة القواعد لاكتشاف حدود «كتاب» و«قلم»، ليصل في النهاية إلى التقسيم «كتاب/قلم».

السواحيلية: طبيعة إلصاقية

السواحيلية لغة إلصاقية، تعبّر عن المعنى بإضافة لواحق وسوابق إلى الجذر (فمثلًا «mtoto» تعني «طفل»، و«watoto» تعني «أطفال»). ويحدد نموذج التقطيع لدى Google حدود هذه اللواحق (مثل «-o» علامة مفرد، و«-wa» علامة جمع)، ويقسم «watoto» بشكل صحيح إلى «wa/toto» (جمع + طفل).

وأظهرت اختبارات Google متعددة اللغات لعام 2023 أن دقة التقطيع تصل إلى 98% في اللغات الرئيسية مثل الإنجليزية والإسبانية، لكنها تنخفض إلى 92% فقط في اللغات الأكثر تعقيدًا مثل العربية والسواحيلية.

ولتحسين ذلك، شكّلت Google «فرق خبراء لغويين» لكل لغة، وقامت بوسم أكثر من 100 ألف جملة نموذجية يدويًا لتدريب نماذج مخصصة.

كيف تؤثر أخطاء التقطيع على نتائج البحث

يُعد التقطيع الأساس الذي تُبنى عليه كل خطوات NLP اللاحقة. وأي خطأ فيه قد يؤدي إلى فشل في التعرف على الكيانات، وانحراف في العلاقات الدلالية، وفي النهاية تراجع صلة نتائج البحث. وفيما يلي حالتان حقيقيتان:

الحالة 1: صفحة تجارة إلكترونية بعنوان «قهوة Java»

عنوان إحدى الصفحات هو «Java咖啡:手冲级顺滑口感». والتقطيع الصحيح يجب أن يكون «Java/咖啡/:/手冲级/顺滑/口感». لكن إذا تم تقسيمه خطأ إلى «Jav/a咖/啡/:/手冲级/顺滑/口感»، فسيتعرف نظام الكيانات على «Jav» (سلسلة بلا معنى) و«咖» و«啡» ككيانات منفصلة، مما يمنع Google من ربط المنتج الصحيح «قهوة Java» بهذه الصفحة. وبالتالي، عندما يبحث المستخدم عن «قهوة Java»، قد تُستبعد الصفحة خطأ.

الحالة 2: صفحة قانونية حول «culpa in contrahendo»

يتضمن أحد المدونات القانونية العبارة: «缔约过失责任是指一方因违背诚实信用原则导致对方损失». والتقطيع الصحيح يجب أن يكون «缔约过失责任/是/指/一方/因/违背/诚实信用原则/导致/对方/损失». أما إذا تم تقسيمها خطأ إلى «缔/约/过失/责任/是/指/一方/因/违背/诚实信用/原则/导致/对方/损失»، فسيتعامل نظام التعرف على الكيانات مع «缔约» و«过失» و«责任» ككيانات مستقلة، ولن يستطيع ربطها بالمصطلح القانوني الكامل «缔约过失责任». ونتيجة لذلك، ستتراجع الصفحة في الترتيب عندما يبحث المستخدم عن هذا المفهوم.

البيانات الداعمة:

تُظهر اختبارات Google الداخلية أن أخطاء التقطيع قد تؤدي إلى انخفاض ترتيب الصفحة المستهدفة بمقدار 3 إلى 5 مراتب في نتائج البحث (بيانات اختبارات A/B لعام 2023)، وتقلل احتمال نقر المستخدم عليها بنسبة 42%، بسبب تراجع مدى الصلة.

«التقاط» النقاط الأساسية من النص

عندما يبحث المستخدم عن «اختبار مقاومة الماء لـ iPhone 15 إصدار 2025»، يجب على Google أن يفهم سريعًا أن العناصر الأساسية في الصفحة هي «iPhone 15» (منتج)، و«سبتمبر 2025» (وقت)، و«اختبار مقاومة الماء» (حدث).

تُسمّى هذه المعلومات الجوهرية «كيانات» (Entity).

نموذج التعلم متعدد المهام (Multi-Task Learning)

يعتمد نظام التعرف على الكيانات لدى Google على نموذج التعلم متعدد المهام، الذي يدرّب في الوقت نفسه على ثلاث مهام: «التعرف على الكيانات»، و«الوسم النحوي»، و«استخراج العلاقات»، مما يرفع الكفاءة عبر مشاركة المعلمات الأساسية.

وببساطة، يتعلم النموذج في الوقت نفسه:

  • أي الكلمات تُعد كيانات (مثل «iPhone 15» كمنتج)؛
  • وما الدور النحوي الذي تؤديه هذه الكلمات داخل الجملة (مثل «iPhone 15» كاسم)؛
  • وما العلاقات القائمة بين الكيانات (مثل أن «iPhone 15» تُنتجه «Apple»).

التفاصيل التقنية الأساسية:

  • الضبط الدقيق لـ BERT: انطلاقًا من نموذج BERT المُدرَّب مسبقًا من Google، يتم إجراء fine-tuning باستخدام كميات ضخمة من البيانات الموسومة (مثل ويكيبيديا، والأخبار، وصفحات التجارة الإلكترونية) لتعلّم الخصائص السياقية للكيانات. فعلى سبيل المثال، في الجملة «تم إطلاق iPhone 15 في سبتمبر 2025»، ترتبط «سبتمبر 2025» و«iPhone 15» عبر المتجهات السياقية لـ BERT، مما يمكّن النموذج من تحديد الأولى كزمن والثانية كمنتج.
  • مصنّف نوع الكيان: يُضاف «رأس تصنيف النوع» إلى طبقة الإخراج في BERT للتنبؤ بالنوع المحدد لكل كيان (مثل TIME أو PRODUCT أو PERSON). ويعتمد هذا المصنّف على أكثر من 50 نوعًا من أنواع الكيانات المحددة مسبقًا (تغطي المجالات العامة والمتخصصة)، مثل:
نوع الكيان التعريف مثال
TIME لحظة / فترة زمنية «سبتمبر 2025»، «30 دقيقة»
PRODUCT منتج محدد «iPhone 15»، «إبريق ترشيح القهوة»
PERSON شخص (حقيقي أو خيالي) «Tim Cook»، «张小龙»
LOCATION مكان (ملموس أو مجرد) «شنغهاي»، «GitHub»
EVENT حدث / فعل «اختبار مقاومة الماء»، «مؤتمر الإطلاق»
ATTRIBUTE خاصية / سمة لكيان «تصنيف مقاومة الماء IP68»، «عمق 6 أمتار»
من الدقة العامة إلى الدقة الرأسية

ينقسم نظام أنواع الكيانات في Google إلى مجال عام (يغطي النصوص اليومية) ومجال رأسي (مخصص للمحتوى الاحترافي المتخصص).

أنواع الكيانات في المجال العام (أكثر من 50 نوعًا):

تغطي 90% من سيناريوهات بحث المستخدمين، مثل:

  • الوقت (TIME): تواريخ محددة («سبتمبر 2025»)، ومدد زمنية («30 دقيقة»)، وفترات («2020–2025»)؛
  • المنتج (PRODUCT): أجهزة إلكترونية («iPhone 15»)، وأجهزة منزلية («إبريق ترشيح القهوة»)، ومنتجات يومية («حبوب القهوة»)؛
  • المكان (LOCATION): مدن («شنغهاي»)، دول («الولايات المتحدة»)، مؤسسات («Google»).

أنواع الكيانات الرأسية (خاصة بالصناعة):

بالنسبة للمحتوى التخصصي مثل القانون والطب والتكنولوجيا، تقوم Google بتدريب أنواع كيانات إضافية متخصصة، مثل:

  • المجال القانوني: «نص قانوني» (مثل «المادة 10 من القانون المدني»)، و«فعل قانوني» (مثل «culpa in contrahendo»)؛
  • المجال الطبي: «مرض» (مثل «احتشاء عضلة القلب»)، و«دواء» (مثل «الأسبرين»)، و«نوع إجراء» (مثل «عملية PCI»)؛
  • المجال التقني: «خوارزمية» (مثل «BERT»)، و«لغة برمجة» (مثل «Python»)، و«بنية عتاد» (مثل «ARM»).

البيانات الداعمة:

أظهرت اختبارات Google الداخلية لعام 2023 أن دقة التعرف على الكيانات في المجالات العامة بلغت 92%، لكنها كانت في البداية 78% فقط في المجالات الرأسية مثل القانون (بسبب قلة المصطلحات المتخصصة ونقص البيانات الموسومة).

ومن خلال تدريب «نموذج للتعرف على الكيانات القانونية» بشكل منفصل (على أكثر من 100 ألف نص قانوني موسوم)، ارتفعت الدقة إلى 90%؛ وفي المجال الطبي، بلغ النموذج المدرب على أكثر من 50 ألف سجل موسوم 88%.

أربع خطوات: من اكتشاف المرشحين إلى تحديد الحدود بدقة

لنأخذ الجملة «أظهر اختبار مقاومة الماء IP68 لهاتف iPhone 15 في سبتمبر 2025 أنه صمد 30 دقيقة على عمق 6 أمتار» لتوضيح العملية:

الخطوة 1: اكتشاف المرشحين — العثور على «بذور الكيانات» المحتملة

يبدأ النموذج بمسح النص، ويحدد الكيانات المرشحة اعتمادًا على قاعدة القواعد (مثل «سنة + شهر» كمرشح زمني، و«رقم + اسم منتج» كمرشح لمنتج) والاحتمالات الإحصائية (مثل احتمال 90% أن تأتي أرقام بعد «iPhone»).

  • المرشح 1: «سبتمبر 2025» (يطابق قاعدة «سنة + شهر»)؛
  • المرشح 2: «iPhone 15» (يطابق قاعدة «اسم منتج + طراز»)؛
  • المرشح 3: «اختبار مقاومة الماء IP68» (يطابق قاعدة «معلمة تقنية + فعل»)؛
  • المرشح 4: «عمق 6 أمتار» (يطابق قاعدة «رقم + وحدة + خاصية»)؛
  • المرشح 5: «30 دقيقة» (يطابق قاعدة «رقم + وحدة زمنية»).

الخطوة 2: تصنيف النوع — «وضع ملصق» لكل مرشح

من خلال «رأس تصنيف النوع» في نموذج التعلم متعدد المهام، يتنبأ النظام بنوع كل مرشح:

  • «سبتمبر 2025» → TIME (وقت)؛
  • «iPhone 15» → PRODUCT (منتج)؛
  • «اختبار مقاومة الماء IP68» → EVENT (حدث)؛
  • «عمق 6 أمتار» → ATTRIBUTE (خاصية تصف عمق مقاومة الماء)؛
  • «30 دقيقة» → ATTRIBUTE (خاصية تصف مدة مقاومة الماء).

الخطوة 3: تحديد الحدود — تصحيح «مواضع بداية ونهاية» الكيانات

قد تكون حدود بعض المرشحين خاطئة (مثل احتمال تقسيم «اختبار مقاومة الماء IP68» خطأ إلى «IP68» + «اختبار مقاومة الماء»). لذلك يتحقق النموذج من هذه الحدود باستخدام المتجهات السياقية:

  • «IP68» معيار لمقاومة الماء (ينتمي إلى ATTRIBUTE)، لكن «اختبار مقاومة الماء IP68» يمثل حدثًا كاملًا (EVENT)، لذا يتم تصحيح الحدود لتشمل «اختبار مقاومة الماء IP68» كاملًا؛
  • في عبارة «عمق 6 أمتار»، تشير «6 أمتار» إلى قيمة رقمية، بينما «العمق» يعبّر عن خاصية، وبالتالي يُعد اعتبار العبارة كلها ATTRIBUTE أكثر منطقية.

الخطوة 4: التحقق العام — تصحيح الأخطاء بالاعتماد على النص الكامل

ينشئ النموذج «متجهًا دلاليًا عامًا» للفقرة كاملة (يمثل الموضوع العام، مثل «اختبار مقاومة الماء لهاتف ذكي»)، ثم يتحقق مما إذا كانت الكيانات المحلية منسجمة مع هذا الموضوع. فمثلًا:

  • إذا كان موضوع النص هو «اختبار هاتف ذكي»، فإن «iPhone 15» بوصفه PRODUCT (منتجًا) يكون منسجمًا مع الموضوع؛
  • وإذا تم تحديد «اختبار مقاومة الماء IP68» بوصفه EVENT (حدثًا)، فهذا أيضًا يتوافق مع موضوع «اختبار هاتف ذكي»، ولا حاجة إلى تصحيح إضافي.
كيف تضمن Google دقة التعرف على الكيانات
بعد الاختبار الدقة الأولية (2020) الدقة بعد التحسين (2024) طريقة التحسين
المجال العام 85% 92% إضافة مليون بيان موسوم وتحسين معلمات الضبط الدقيق لـ BERT
النصوص الطويلة (>5000 حرف) 78% 90% إدخال استراتيجية «المعالجة بالمقاطع» (تقسيم النص إلى فقرات من 500 حرف)
المجال الرأسي (القانون) 78% 90% تدريب نماذج متخصصة بالمجال (أكثر من 100 ألف نص قانوني موسوم)
الكيانات الناشئة (مثل «dopamine dressing») 62% 85% دمج قدرة BERT على التنبؤ السياقي للتعرف الديناميكي على الكلمات الجديدة

ملاحظات المستخدمين:

تجمع Google بيانات من سلوك البحث لدى المستخدمين (مثل ما إذا كانت الصفحة التي نقروا عليها تحتوي بالفعل على الكيان المستهدف)، ثم تستخدم هذه البيانات لتحسين النموذج بالعكس.

فعلى سبيل المثال، إذا بحث المستخدم عن «تصنيف مقاومة الماء في iPhone 15»، لكن الصفحة التي دخل إليها لم تُعرّف «IP68» على أنه ATTRIBUTE، فإن النموذج يعيد ضبط معاييره لتعزيز التعرف على الكيانات المرتبطة بـ«تصنيف مقاومة الماء».

«ربط» الكلمات ببعضها وبناء المنطق

عندما يبحث المستخدم عن «حذاء مناسب للجري»، تحتاج Google إلى معرفة العلاقة بين «الجري» و«الحذاء» (غرض الاستخدام)، والعلاقة بين «النعل الأوسط الممتص للصدمات» و«حذاء الجري» (خاصية)، حتى تتمكن من إرجاع نتائج ذات صلة فعلية.

تُسمّى هذه القدرة على «ربط الكلمات ببعضها» استخراج العلاقات الدلالية (Semantic Relation Extraction).

النماذج المدربة مسبقًا والرسم البياني المعرفي

1. النماذج المدربة مسبقًا: «التعلم الذاتي» للعلاقات من نصوص هائلة

تُعد النماذج المدربة مسبقًا (مثل BERT وPaLM) «محرك التعلم» الأساسي في العلاقات الدلالية. فهي تحلل تريليونات النصوص على الإنترنت (صفحات ويب، كتب، منتديات)، وتلتقط تلقائيًا العلاقات الضمنية بين الكلمات. فعلى سبيل المثال:

  • في جمل مثل «حذاء الجري مناسب للجري الطويل» و«حذاء كرة السلة مناسب للقفز»، يتعلم النموذج علاقة غرض الاستخدام بين «حذاء الجري» و«الجري الطويل»، وكذلك بين «حذاء كرة السلة» و«القفز»؛
  • وفي جمل مثل «يأتي iPhone 15 مزودًا بشريحة A17» و«يستخدم MacBook Pro شريحة M3»، يتعلم النموذج علاقة «مزود بـ» بين «iPhone 15» و«A17»، وبين «MacBook Pro» و«M3».

التفاصيل التقنية:

تمثل النماذج المدربة مسبقًا معنى كل كلمة عبر «تضمينات سياقية» (Contextualized Embedding).

فعلى سبيل المثال، يتغير المتجه الدلالي لكلمة «حذاء الجري» بحسب سياق الجملة («حذاء الجري يمتص الصدمات جيدًا» مقابل «حذاء الجري ذو مظهر أنيق»)، مما يمكّن النموذج من التقاط هذه الفروق الدقيقة والحكم على العلاقة المحددة بين الكلمات.

2. الرسم البياني المعرفي: استخدام المعرفة المهيكلة من أجل «التحقق + الاستكمال»

قد تتمكن النماذج المدربة مسبقًا من تعلم العلاقات الضمنية، لكنها قد ترتكب أخطاء أيضًا (مثل تفسير العلاقة بين «Apple» و«فاكهة» خطأً على أنها «علامة تجارية»).

في هذه الحالات، يوفر الرسم البياني المعرفي لدى Google (الذي يحتوي على أكثر من 500 مليون كيان و20 مليار علاقة) معرفةً مهيكلة تُستخدم للتحقق من العلاقات التي تعلمها النموذج وإكمالها.

فعلى سبيل المثال، عندما يحلل النموذج الجملة «Samsung هي مورد شاشة iPhone 15»:

  • يتعلم النموذج المدرب مسبقًا من السياق علاقة «المورّد» بين «iPhone 15» و«Samsung»؛
  • وفي الرسم البياني المعرفي توجد بالفعل العلاقة المهيكلة «iPhone 15 → مورد الشاشة → Samsung»، مما يسمح بالتحقق من صحة العلاقة وتأكيدها.
من شبكة العلاقات البسيطة إلى شبكة العلاقات المعقدة

تعرّف Google أكثر من 20 نوعًا من العلاقات التفصيلية، تغطي 90% من سيناريوهات البحث لدى المستخدمين. ويمكن تقسيم هذه العلاقات إلى ثلاث فئات كبرى:

1. العلاقات الأساسية (المجال العام)

نوع العلاقة التعريف مثال (من صفحة «كيف تختار حذاء الجري؟»)
علاقة تراتبية A فئة فرعية من B (أو العكس) «حذاء الجري» → «معدات رياضية» (حذاء الجري يندرج ضمن المعدات الرياضية)
علاقة خاصية A خاصية / معلمة لـ B «نعل أوسط ممتص للصدمات» → «حذاء الجري» (النعل الأوسط الممتص للصدمات هو خاصية في حذاء الجري)
غرض الاستخدام A يُستخدم في B «إبريق الترشيح» → «تحضير القهوة» (يُستخدم إبريق الترشيح لتحضير القهوة)
التسلسل الزمني A يحدث قبل / بعد B «الإطلاق» → «الطرح في السوق» (يتم الإعلان عن المنتج أولًا ثم طرحه في السوق)

2. العلاقات المعقدة (المجالات الرأسية)

بالنسبة للمحتوى التخصصي مثل القانون والطب والتكنولوجيا، تضيف Google أنواع علاقات أكثر دقة:

  • المجال القانوني: «culpa in contrahendo» → «مخالفة مبدأ حسن النية» (علاقة سببية)؛ «المادة 10 من القانون المدني» → «أثر الزواج» (علاقة نطاق التطبيق).
  • المجال الطبي: «احتشاء عضلة القلب» → «انسداد الشريان التاجي» (علاقة سبب مرضي)؛ «الأسبرين» → «تثبيط تجمع الصفائح الدموية» (علاقة تأثير دوائي).
  • المجال التقني: «Python» → «دروس الزحف على الويب» (علاقة مجال التطبيق)؛ «بنية ARM» → «استهلاك منخفض للطاقة» (علاقة خاصية تقنية).

خمس خطوات: من استخراج العلاقات المرشحة إلى التحقق الشامل

لنأخذ مثال الجملة «عند اختيار حذاء الجري، يكون النعل الأوسط الممتص للصدمات عاملًا أساسيًا لأنه يقلل الضغط على الركبتين» لتوضيح العملية:

الخطوة 1: استخراج العلاقات المرشحة — العثور على «بذور العلاقات» المحتملة

يبدأ النموذج بمسح النص، ويحدد العلاقات المرشحة استنادًا إلى قاعدة القواعد (مثل أن «X هو مفتاح Y» قد توحي بعلاقة غرض استخدام) والاحتمالات الإحصائية (مثل احتمال التلازم 90% بين «النعل الأوسط الممتص للصدمات» و«حذاء الجري»).

  • المرشح 1: «حذاء الجري» و«النعل الأوسط الممتص للصدمات» (علاقة خاصية محتملة)؛
  • المرشح 2: «النعل الأوسط الممتص للصدمات» و«تقليل الضغط على الركبتين» (علاقة غرض استخدام محتملة).

الخطوة 2: تصنيف نوع العلاقة — «وضع ملصق» لكل مرشح

من خلال «رأس تصنيف العلاقة» في النموذج المدرب مسبقًا، يتنبأ النظام بنوع العلاقة لكل مرشح:

  • «حذاء الجري» و«النعل الأوسط الممتص للصدمات» → علاقة خاصية (النعل الأوسط الممتص للصدمات هو خاصية في حذاء الجري)؛
  • «النعل الأوسط الممتص للصدمات» و«تقليل الضغط على الركبتين» → علاقة غرض استخدام (يُستخدم النعل الأوسط الممتص للصدمات لتقليل الضغط على الركبتين).

الخطوة 3: تحديد الحدود — تصحيح «نطاق تأثير» العلاقة

قد تكون حدود بعض المرشحين غير دقيقة (مثل احتمال اعتبار «النعل الأوسط الممتص للصدمات» جزءًا مكوّنًا من الحذاء بدلًا من كونه خاصية). لذلك يتحقق النموذج من الحدود باستخدام المتجهات السياقية:

  • إن «النعل الأوسط الممتص للصدمات» يصف «خاصية في المواد / البنية» لحذاء الجري، ولذلك يُعد خاصية وليس جزءًا بنيويًا (مثل «النعل الخارجي» أو «الجزء العلوي»). لذلك تُصحَّح العلاقة لتصبح علاقة خاصية.

الخطوة 4: التحقق الشامل — تصحيح الأخطاء بالاعتماد على النص الكامل

ينتج النموذج «متجهًا دلاليًا عامًا» للمقطع كاملًا (يمثل الموضوع العام، مثل «دليل شراء أحذية الجري»)، ثم يتحقق مما إذا كانت العلاقات المحلية منسجمة مع هذا الموضوع. فعلى سبيل المثال:

  • إذا كان موضوع النص هو «شراء أحذية الجري»، فإن علاقة غرض الاستخدام بين «النعل الأوسط الممتص للصدمات» و«تقليل الضغط على الركبتين» تكون منسجمة مع الموضوع؛
  • أما إذا كان الموضوع هو «الوقاية من الإصابات الرياضية»، فيجب إعادة تقييم ما إذا كانت هذه العلاقة ترتبط فعلًا بالوقاية من الإصابات.

الخطوة 5: التحقق عبر الرسم البياني المعرفي — استخدام المعرفة المهيكلة كـ«شبكة أمان»

يستدعي النموذج الرسم البياني المعرفي للتحقق من معقولية العلاقة:

  • في الرسم البياني المعرفي، تتضمن خصائص «حذاء الجري» كلًا من «النعل الأوسط الممتص للصدمات» و«الوزن» و«مادة النعل»، مما يؤكد أن النعل الأوسط الممتص للصدمات خاصية مشروعة لهذا الحذاء؛
  • كما تتضمن وظائف «النعل الأوسط الممتص للصدمات» كلًا من «تقليل الضغط على الركبتين» و«زيادة الراحة»، مما يؤكد صحة هذه الوظيفة.
كيف تضمن Google دقة العلاقات الدلالية
بعد الاختبار الدقة الأولية (2020) الدقة بعد التحسين (2024) طريقة التحسين
العلاقات الشائعة (تراتبية، خصائص) 78% 88% إضافة مليوني بيان موسوم وتحسين الضبط الدقيق لـ BERT
العلاقات المعقدة (سببية، غرض استخدام) 65% 82% إدخال «الاستدلال المتسلسل» (ربط الكيانات المتباعدة عبر عقد وسيطة)
المجال الرأسي (الطب) 60% 79% تدريب نماذج متخصصة بالمجال (أكثر من 50 ألف نص طبي موسوم)
العلاقات الناشئة (مثل «النموذج الضخم للذكاء الاصطناعي → متعدد الوسائط») 52% 75% دمج قدرة النماذج المدربة مسبقًا على التنبؤ السياقي للتعرف الديناميكي على العلاقات الجديدة
تصحيح انحراف معنى الكلمات بالاعتماد على النص الكامل

عندما يبحث المستخدم عن «دروس Python»، تحتاج Google إلى تحديد ما إذا كانت «Python» في الصفحة تشير إلى لغة البرمجة (62%) أو إلى الثعابين (18%)؛

وعندما يبحث المستخدم عن «مؤتمر Apple»، يجب التأكد من أن «Apple» تشير إلى شركة تقنية (95%) لا إلى فاكهة (5%).

تُسمّى هذه القدرة على «تصحيح معنى الكلمات بالاعتماد على النص الكامل» إزالة الغموض السياقي (Contextual Disambiguation).

الانتباه ثنائي الاتجاه والدلالة الشاملة

1. التقاط المعنى عبر «النظر إلى ما قبل وما بعد» في الوقت نفسه

تسمح آلية الانتباه ثنائي الاتجاه (جوهر BERT) للنموذج بتحليل الجزء الأول والثاني من الجملة معًا، لالتقاط علاقات «السبب والنتيجة» بين الكلمات.

فعلى سبيل المثال، عند معالجة الجملة «تفاحة شياو مينغ نضجت»، يركز النموذج أولًا على «شياو مينغ» و«نضجت»، ويستنتج مبدئيًا أن «تفاحة» قد تشير إلى الفاكهة؛

لكن عند معالجة الجملة التالية «هو يعتزم استخدام Apple لإطلاق نظام جديد»، يعود النموذج إلى السياق السابق، ويكتشف أن «إطلاق نظام جديد» لا علاقة له بفاكهة، فيصحح معنى «Apple» إلى «شركة تقنية».

التفاصيل التقنية:

يعتمد الانتباه ثنائي الاتجاه على مصفوفة «Query-Key-Value»:

  • Query: المتجه الدلالي للكلمة الحالية؛
  • Key: المتجهات الدلالية للكلمات الأخرى؛
  • Value: المتجهات الدلالية للكلمات الأخرى (بعد ترجيحها بأوزان الانتباه).

ويحسب النموذج درجة التشابه بين «Query» و«Key» ليمنح كل كلمة «وزن انتباه». وكلما كان الوزن أكبر، كانت هذه الكلمة أكثر تأثيرًا على معنى الكلمة الحالية.

فعلى سبيل المثال، تحصل عبارة «إطلاق نظام جديد» على وزن انتباه قدره 0.8 بالنسبة إلى «Apple» (من 1)، وهو أعلى بكثير من وزن «نضجت» الذي يبلغ 0.2. لذلك يعتمد النموذج بدرجة أكبر على «إطلاق نظام جديد» لتصحيح معنى «Apple».

2. «مرساة الموضوع» للصفحة كاملة

إلى جانب السياق المحلي في الجمل، تنشئ Google أيضًا «متجهًا دلاليًا عامًا» (Global Semantic Vector) للصفحة كلها، يمثل موضوعها العام (مثل «مراجعة منتج تقني» أو «وصفات للتخسيس»).

وعندما يتعارض المعنى المحلي لكلمة مع الموضوع العام، يعطي النموذج الأولوية لتصحيح المعنى بما ينسجم مع هذا الموضوع.

فعلى سبيل المثال، عند معالجة صفحة بعنوان «اختبار مقاومة الماء لـ iPhone 15 إصدار 2025»:

  • في الجملة المحلية «أحدث iPhone 15 الذي أطلقته Apple يدعم الاتصال عبر الأقمار الصناعية»، قد يكون المعنى الأولي لـ«Apple» هو «فاكهة»؛
  • لكن المتجه الدلالي العام للصفحة يشير إلى أن موضوعها هو «مراجعة هاتف ذكي»، فيصحح النموذج «Apple» إلى «شركة تقنية».
أربع خطوات: من الغموض المحلي إلى الاتساق الشامل

لنأخذ مثال محتوى صفحة «أحدث iPhone 15 الذي أطلقته Apple يدعم الاتصال عبر الأقمار الصناعية، وهذه بشرى جيدة لعشاق الأنشطة الخارجية» لتوضيح العملية:

الخطوة 1: اكتشاف الغموض المحلي — تعليم الكلمات «المشبوهة»

يبدأ النموذج بمسح النص كاملًا، ويحدد الكلمات التي قد تحمل غموضًا (الكلمات متعددة المعنى، والضمائر، وغير ذلك). في هذا المثال، تُعد «Apple» كلمة متعددة المعاني بوضوح (فاكهة / شركة تقنية)، كما أن «هو / هي / ذلك» ضمير يحتاج إلى تحديد مرجعه.

الخطوة 2: تحليل السياق المحلي — استخراج «المعاني المرشحة»

لكل كلمة «مشبوهة»، يحلل النموذج سياقها المحلي (من 1 إلى 3 جمل قبلها وبعدها)، ويستخرج المعاني المحتملة:

  • المعاني المرشحة لـ«Apple»:
    • المرشح 1: فاكهة (بناءً على تراكيب شائعة مثل «نضجت» أو «أكل»)؛
    • المرشح 2: شركة تقنية (بناءً على تراكيب شائعة مثل «إطلاق iPhone 15» أو «الاتصال عبر الأقمار الصناعية»).
  • المعاني المرشحة لـ«هو / هي / ذلك»:
    • المرشح 1: iPhone 15 (إشارة إلى «iPhone 15» في الجملة السابقة)؛
    • المرشح 2: الاتصال عبر الأقمار الصناعية (إشارة إلى «ميزة الاتصال عبر الأقمار الصناعية» في الجملة السابقة).

الخطوة 3: التحقق الدلالي العام — مطابقة موضوع الصفحة

ينشئ النموذج «متجهًا دلاليًا عامًا» للصفحة كاملة (عبر ترميز النص الكامل باستخدام BERT)، ثم يحسب التشابه بين هذا المتجه ومتجهات المعاني المرشحة، ليختار المعنى الأكثر انسجامًا مع موضوع الصفحة:

  • يتكرر في العنوان والمحتوى كلمات مثل «iPhone 15» و«الاتصال عبر الأقمار الصناعية» و«عشاق الأنشطة الخارجية»، مما يوجه المتجه العام إلى «مراجعة منتج تقني»؛
  • من بين المعاني المرشحة لـ«Apple»، يملك معنى «شركة تقنية» تشابهًا أعلى بكثير مع الموضوع العام (تشابه جيب تمام 0.85) مقارنة بـ«فاكهة» (0.12)، لذا يتم اختياره؛
  • أما بالنسبة للضمير، فإن «iPhone 15» يملك تشابهًا أعلى مع الموضوع العام (0.9) مقارنةً بـ«الاتصال عبر الأقمار الصناعية» (0.6)، ولذلك يتم اعتماده.

الخطوة 4: حلّ التعارضات — معالجة التناقض بين مصادر المعلومات المختلفة

إذا تعارض السياق المحلي مع الموضوع العام (مثل أن تشير «Apple» في جملة ما إلى الفاكهة بينما الصفحة كلها تتناول التكنولوجيا)، فإن النموذج يحلل سبب هذا التعارض بمزيد من التفصيل:

  • إذا كان السبب «خطأً مطبعيًا» (مثل أن تكون «Apple» والمقصود «فراولة»)، فيُبقي النموذج على المعنى العام؛
  • أما إذا كان السبب «تعايش معنيين» (مثل صفحة تتحدث في الوقت نفسه عن التفاح كفاكهة وعن Apple كشركة)، فإن النموذج يُنتج «طبقات دلالية»، ويعطي الأولوية للمعنى الأكثر ارتباطًا باستعلام المستخدم.
كيف تضمن Google دقة التصحيح السياقي
بعد الاختبار الدقة الأولية (2020) الدقة بعد التحسين (2024) طريقة التحسين
الاستعلامات متعددة المعنى (Python) 58% 82% إدخال آلية الانتباه ثنائي الاتجاه في BERT، وإضافة مليون نص غامض موسوم
تصحيح الضمائر («هو / هي / ذلك») 65% 89% تدريب «نموذج حل الإحالة المرجعية» (على أكثر من 100 ألف جملة موسومة)
النصوص الطويلة (>5000 حرف) 52% 78% إدخال «متجهات عامة مقطعية» (متجه عام محلي كل 500 حرف)
التصحيح عبر اللغات (الإنجليزية → الصينية) 48% 75% دمج نموذج BERT متعدد اللغات، مع إضافة 500 ألف عينة مواءمة بين اللغات

كيف تحدد NLP ما الذي يريده المستخدم

تحدد تقنية NLP لدى Google احتياجات المستخدمين الحقيقية من خلال تحليل «نوع النية» في استعلاماتهم (معلوماتية / تنقلية / معاملية)، و«التوسع الدلالي» (الاحتياجات الضمنية)، و«التكيف مع السياق» (الوقت / المكان / الجهاز).

تعالج Google أكثر من 8.5 مليارات عملية بحث يوميًا (بيانات 2024). وقد ارتفع CTR في الاستعلامات المعلوماتية من 12% إلى 28% بعد إدخال NLP، كما ارتفعت دقة الاستعلامات متعددة المعنى من 58% إلى 82% بفضل تحسينات BERT.

أنواع النوايا

1. النية المعلوماتية: المستخدم يريد «تعلم شيء ما»

الكلمات المميزة: «كيف أفعل»، «المبدأ»، «السبب»، «شرح / درس»، إلخ.

مثال: عندما يبحث المستخدم عن «كيفية تحضير قهوة مفلترة يدويًا» أو «أسباب احتشاء عضلة القلب»، فإن NLP تطابق هذه الاستعلامات مع صفحات الشروحات والمحتوى التثقيفي.

البيانات الداعمة: أظهرت اختبارات Google الداخلية لعام 2023 أن نسبة النتائج المفيدة في الشاشة الأولى للاستعلامات المعلوماتية ارتفعت من 38% إلى 72% (بفضل التعرف على كلمات مثل «كيف أفعل»).

2. النية التنقلية: المستخدم يريد «العثور على موقع محدد»

الكلمات المميزة: «الموقع الرسمي»، «رسمي»، «تسجيل الدخول»، «التسجيل»، إلخ.

مثال: عندما يبحث المستخدم عن «الموقع الرسمي لـ Taobao» أو «تسجيل الدخول إلى Apple ID»، فإن NLP توجهه مباشرة إلى الموقع الرسمي بدلًا من صفحات الجهات الثالثة.

البيانات الداعمة: وفقًا لدراسة Microsoft لعام 2024، ارتفع احتمال نقر المستخدم على الموقع المستهدف في الاستعلامات التنقلية من 45% إلى 89% (بفضل التعرف الدقيق على كلمات مثل «رسمي»).

3. النية المعاملية: المستخدم يريد «شراء منتج / خدمة»

الكلمات المميزة: «توصية»، «سعر مناسب»، «خصم»، «شراء»، إلخ.

مثال: عندما يبحث المستخدم عن «توصية بلوحة مفاتيح ميكانيكية بسعر مناسب» أو «محطة وقود قريبة»، فإن NLP تعطي الأولوية لصفحات التجارة الإلكترونية أو المتاجر المحلية.

البيانات الداعمة: أظهر استطلاع eMarketer لعام 2024 أن معدل التحويل في الاستعلامات المعاملية ارتفع من 3.2% إلى 5.8% (لأن NLP تغطي أيضًا احتياجات ضمنية مثل «توصية» و«خصم»).

جدول مقارنة أنواع النوايا:

النوع أمثلة على الكلمات المميزة هدف المستخدم استراتيجية المطابقة في NLP
معلوماتي كيف أفعل، المبدأ، شرح / درس الحصول على المعرفة مطابقة مع صفحات تعليمية / تثقيفية
تنقلي الموقع الرسمي، رسمي، تسجيل الدخول الوصول إلى موقع محدد التوجيه مباشرة إلى الموقع الرسمي
معاملي توصية، سعر مناسب، خصم، شراء شراء منتج / خدمة إبراز صفحات التجارة الإلكترونية / المتاجر المحلية

التوسع الدلالي

لا تعبّر عبارات البحث عادة إلا عن 10% إلى 20% من الحاجة الأساسية، بينما تكون 80% إلى 90% المتبقية ضمنية (مثل «السعر» و«الصعوبة» و«سيناريو الاستخدام»).

ومن خلال التوسع الدلالي (Semantic Expansion)، تقوم NLP بتوسيع الحاجة انطلاقًا من المصطلح الأساسي، وتغطي النوايا التي لم يذكرها المستخدم صراحة.

طريقة التوسع 1: التوسع عبر الكلمات المرتبطة

تعتمد NLP على «فضاء متجهات الكلمات» (Word Embedding) لربط الكلمات الأساسية بكلمات قريبة دلاليًا. فعلى سبيل المثال:

  • المصطلح الأساسي «وصفات للتخسيس» → الكلمات المرتبطة «منخفض السعرات»، «سهل التحضير»، «مناسب للموظفين»، «خالٍ من السكر»؛
  • المصطلح الأساسي «ماذا أرتدي في الأيام الممطرة؟» → الكلمات المرتبطة «مقاوم للماء»، «مضاد للانزلاق»، «خفيف»، «دافئ».

البيانات الداعمة: أظهرت اختبارات Google A/B لعام 2022 أن نتائج البحث التي تغطي الاحتياجات الضمنية رفعت مدة بقاء المستخدم من 45 ثانية إلى 78 ثانية (+73%).

طريقة التوسع 2: التوسع السياقي

تدمج NLP وقت البحث والمكان والجهاز لمزيد من تنقيح الحاجة. فعلى سبيل المثال:

  • السياق الزمني: البحث عن «معطف» في الشتاء → التوسع إلى «مبطن» و«دافئ»؛ والبحث عنه في الصيف → التوسع إلى «مضاد للشمس» و«خفيف»؛
  • السياق المكاني: البحث عن «هوت بوت» في شنغهاي → التوسع إلى «الأكثر شهرة محليًا»؛ وفي تشنغدو → التوسع إلى «نكهة سيشوانية أصيلة»؛
  • سياق الجهاز: على الهاتف، البحث عن «محطة وقود قريبة» → التوسع إلى «سعر الوقود الفوري» و«الأقرب»؛ وعلى الكمبيوتر → التوسع إلى «تقييمات المستخدمين» و«العروض الترويجية».

البيانات الداعمة: أظهرت دراسة Microsoft متعددة السيناريوهات لعام 2024 أنه بعد التوسع السياقي انخفض الوقت اللازم لإتمام المهمة بنسبة 42% (على الهاتف من 90 إلى 52 ثانية).

كيف «تفهم» NLP احتياجات المستخدم

1. فهم اللغة الطبيعية (NLU)

يُعد NLU الأساس في NLP، إذ «يفكك» استعلام المستخدم عبر التقطيع، والتعرف على الكيانات، والربط الدلالي. فعلى سبيل المثال:

  • يبحث المستخدم عن «اختبار مقاومة الماء لـ iPhone 15 إصدار 2025» → فيُقسَّم إلى «إصدار 2025 / iPhone 15 / اختبار مقاومة الماء»؛
  • وتُعرّف الكيانات على أنها «TIME (2025)»، و«PRODUCT (iPhone 15)»، و«EVENT (اختبار مقاومة الماء)»؛
  • ثم تُدمج دلاليًا إلى «اختبار أداء مقاومة الماء لهاتف iPhone 15 في عام 2025».

البيانات الداعمة: تشير المدونة التقنية لـ Google لعام 2023 إلى أن NLU يحقق دقة 92% في تفكيك الاستعلامات المعقدة (ضمن المجالات العامة).

2. نماذج التعلم العميق (مثل BERT)

تتعلم النماذج المدربة مسبقًا مثل BERT «الدلالة السياقية» من تريليونات النصوص، وبذلك تعالج الغموض. فعلى سبيل المثال:

  • إذا بحث المستخدم عن «Python» → يحلل BERT السياق (مثل «الدالة print()» و«دروس الزحف على الويب») → فيحكم بأنه لغة برمجة؛
  • وإذا بحث عن «Java» → يدمج BERT كلمات مرتبطة مثل «قهوة» و«برمجة» → فيحكم بأنها لغة برمجة (62%) أو جزيرة (18%).

البيانات الداعمة: أظهرت اختبارات Google الداخلية لعام 2024 أن BERT رفع دقة الاستعلامات متعددة المعنى من 58% إلى 82%.

3. دمج البيانات السياقية في الوقت الحقيقي

تدمج NLP بيانات فورية مثل وقت الجهاز، والموقع الجغرافي، وسجل البحث، من أجل تعديل الحكم على الحاجة بشكل ديناميكي. فعلى سبيل المثال:

  • إذا بحث المستخدم من هاتفه عن «محطة وقود قريبة» → تحصل NLP على موقع GPS → وتعرض أولًا المحطات الموجودة ضمن 3 كيلومترات؛
  • وإذا بحث المستخدم في عطلة نهاية الأسبوع عن «تذاكر سينما» → تدمج NLP عامل الوقت (عطلة نهاية الأسبوع) → وتوصي بعروض دور السينما الرائجة.

البيانات الداعمة: أظهر استطلاع Pew Research لعام 2024 أنه بعد دمج البيانات السياقية في الوقت الحقيقي، ارتفع رضا المستخدمين عن نتائج البحث من 68% إلى 85%.

الأثر الفعلي

فيما يلي بيانات سلوك المستخدمين في ثلاثة سيناريوهات نموذجية:

نوع السيناريو البحث التقليدي (من دون NLP) البحث المحسن بـ NLP التحسن المحقق مصدر البيانات
استعلام معلوماتي (كيف أصنع كعكة) تمتلئ الشاشة الأولى بإعلانات ودروس غير ذات صلة تعرض الشاشة الأولى مباشرة درسًا واضح الخطوات مدة البقاء: من 45 ثانية → 78 ثانية (+73%) اختبار Google A/B لعام 2022
استعلام تنقلي (الموقع الرسمي لـ Taobao) تحتوي الشاشة الأولى على منصات تسوق خارجية تُظهر الشاشة الأولى فقط الموقع الرسمي لـ Taobao احتمال النقر على الموقع المستهدف: من 45% → 89% دراسة Microsoft لعام 2024
استعلام معاملي (لوحة مفاتيح ميكانيكية بسعر مناسب) تختلط في الشاشة الأولى منتجات كثيرة مرتفعة الثمن تعطي الشاشة الأولى الأولوية للطرازات ذات القيمة العالية مقابل السعر معدل التحويل: من 3.2% → 5.8% (+81%) استطلاع eMarketer لعام 2024

وفي الختام، أود القول إن جوهر قدرة NLP على الحكم على احتياجات المستخدم هو تحويل «الكلمات التي يُدخلها المستخدم» إلى «النية الحقيقية للمستخدم».

滚动至顶部