微信客服
Telegram:guangsuan
电话联系:18928809533
发送邮件:[email protected]

NLP trong SEO là gì丨Google SEO sử dụng NLP như thế nào

本文作者:Don jiang

NLP (xử lý ngôn ngữ tự nhiên) trong SEO giúp tìm kiếm khớp nội dung chính xác hơn bằng cách phân tích ngữ nghĩa và ý định người dùng. Theo nghiên cứu của Moz năm 2024, 78% các trang có thứ hạng cao đã áp dụng công nghệ này;

Trong thuật toán cốt lõi BERT của Google, xử lý NLP chiếm hơn 70%, giúp nâng cao tính chuyên môn và độ tin cậy của nội dung, đồng thời phù hợp với tiêu chuẩn EEAT.

Tôi sẽ phân tích cách Google dùng NLP để khiến kết quả tìm kiếm “hiểu bạn” hơn.

NLP trong SEO là gì

NLP là gì

NLP (xử lý ngôn ngữ tự nhiên, Natural Language Processing) là công nghệ giúp máy tính hiểu, phân tích và tạo ra ngôn ngữ của con người.

Mỗi ngày trên toàn cầu có hơn 8,5 tỷ lượt tìm kiếm (dữ liệu công khai của Google năm 2024), trong đó khoảng 60% truy vấn chứa ngữ nghĩa ẩn hoặc cách diễn đạt đa nghĩa (ví dụ “Apple” có thể chỉ trái cây, điện thoại hoặc album nhạc).

Công cụ tìm kiếm truyền thống chỉ có thể “khớp từ khóa”, nhưng NLP có thể tách văn bản lộn xộn thành các đơn vị ngữ nghĩa. Ví dụ, cụm “bài kiểm tra chống nước iPhone 15 bản 2025” có thể được tách thành ba thực thể: “bản 2025”, “iPhone 15”, “kiểm tra chống nước”, sau đó xây dựng mạng ngữ nghĩa thông qua liên kết ngữ cảnh (chẳng hạn mối quan hệ giữa “chống nước” và “tính năng điện thoại”), cuối cùng giúp máy “đọc hiểu” ý định thực sự ẩn sau văn bản.

Sự tiến hóa từ “khớp từ khóa” đến “hiểu ngữ nghĩa”

Muốn hiểu NLP giúp Google “đọc hiểu” văn bản như thế nào, trước hết phải quay về “thời thơ ấu” của công cụ tìm kiếm — từ những năm 1990 đến đầu những năm 2000.

Khi đó, công nghệ tìm kiếm còn thô sơ như một “cuốn từ điển từ vựng”: người dùng nhập “cà phê”, hệ thống chỉ đơn giản lật ra tất cả các trang web có chứa chữ “cà phê”.

Có người cố ý lặp đi lặp lại từ “giảm cân”, “giảm cân”, “giảm cân” trên trang chỉ để những người tìm kiếm “giảm cân” nhìn thấy trang đó.

“Bộ đếm từ” cơ học (1990s – đầu 2000s)

Thuật toán cốt lõi của các công cụ tìm kiếm thời kỳ đầu (như AltaVista năm 1995, Yahoo năm 1998) là TF-IDF (tần suất từ – tần suất tài liệu nghịch đảo), nói đơn giản là “đếm số lần một từ xuất hiện trong trang web, xuất hiện càng nhiều thì càng liên quan”.

Ví dụ, khi người dùng tìm “Java”, hệ thống sẽ ưu tiên hiển thị những trang có tần suất cao như “lập trình Java”, “hướng dẫn Java”, nhưng nếu gặp trang về “cà phê Java” (một giống cà phê), nó cũng có thể bị đánh giá nhầm là liên quan chỉ vì từ “Java” xuất hiện nhiều lần.

Năm 2003, một nghiên cứu của Đại học California, Berkeley đã phân tích kết quả của các công cụ tìm kiếm chủ lưu thời đó: khi người dùng tìm “Apple”, trong 20 kết quả đầu tiên, 45% là nội dung liên quan đến trái cây, 30% là sản phẩm của Apple Inc., còn 25% là nội dung không liên quan như “công thức bánh táo” hay “trồng cây táo” — người dùng phải tự sàng lọc và trung bình phải nhấp 3,2 liên kết mới tìm được mục tiêu (dữ liệu nghiên cứu Forrester năm 2003).

Một số website bắt đầu “lách luật”: ví dụ khi người dùng tìm “laptop tốt nhất”, các trang kém chất lượng sẽ lặp lại các từ như “tốt nhất”, “laptop”, “gợi ý”, thậm chí dùng chữ ẩn (chữ màu trắng trên nền trắng) để nhồi nhét từ khóa.

Năm 2005, Google buộc phải công khai thừa nhận: “Khoảng 30% các trang chất lượng thấp đã lọt vào top 10 nhờ nhồi nhét từ khóa.” (báo cáo nội bộ của nhóm Google Search Quality)

“Suy luận mơ hồ” của mô hình thống kê (giữa 2000s – đầu 2010s)

Đến giữa những năm 2000, cùng với sự bùng nổ nội dung trên Internet (khoảng 1 tỷ trang web năm 2000, tăng lên 50 tỷ vào năm 2010), việc chỉ dựa vào đếm từ khóa đã hoàn toàn mất hiệu lực.

Các công cụ tìm kiếm bắt đầu đưa vào mô hình ngôn ngữ thống kê, cố gắng dùng “xác suất ngữ cảnh” để hiểu mối quan hệ giữa các từ.

Chẳng hạn, công nghệ “đối sánh cụm từ” mà Google giới thiệu năm 2008: hệ thống không còn chỉ nhìn từng từ đơn lẻ, mà phân tích tần suất xuất hiện của “tổ hợp cụm từ”.

Ví dụ, khi người dùng tìm “cách pha cà phê”, hệ thống sẽ ưu tiên những trang đồng thời chứa các từ như “pha”, “cà phê”, “nước”, “nhiệt độ”, thay vì chỉ chứa riêng từ “cà phê”. Công nghệ này giúp mức độ liên quan của kết quả tìm kiếm tăng khoảng 12% (theo dữ liệu blog kỹ thuật Google năm 2009).

Năm 2012, Google tiếp tục giới thiệu Knowledge Graph” (đồ thị tri thức), biến các từ rời rạc thành mạng lưới “thực thể + quan hệ”.

Ví dụ, “Einstein” không còn chỉ là một từ đơn thuần, mà được đánh dấu với các thuộc tính thực thể như “nhà vật lý học”, “nơi sinh là Ulm, Đức”, “người đề xuất thuyết tương đối”.

Khi người dùng tìm “Einstein”, hệ thống không chỉ trả về trang tiểu sử mà còn có thể hiển thị trực tiếp năm sinh – năm mất, danh ngôn, thậm chí liên kết đến trang giải thích “thuyết tương đối”.

Sau khi Knowledge Graph ra mắt, dữ liệu chính thức của Google cho thấy: 40% nhu cầu tìm kiếm của người dùng được đáp ứng trực tiếp mà không cần nhấp vào liên kết (sự kiện công bố chính thức của Google năm 2013).

Nhưng như vậy vẫn chưa đủ — Knowledge Graph phụ thuộc vào “dữ liệu có cấu trúc” được gắn nhãn thủ công, trong khi 90% nội dung trên Internet là “văn bản phi cấu trúc” chưa được gắn nhãn (như blog, bài đăng diễn đàn). Để máy có thể hiểu những “văn bản hỗn độn” này, cần những công nghệ mạnh hơn nữa.

Từ “quy luật thống kê” đến “hiểu ngữ nghĩa” (giữa 2010s đến nay)

Trong thập niên 2010, bước đột phá của công nghệ học sâu (đặc biệt là sự phát triển của mạng nơ-ron) đã thay đổi hoàn toàn NLP. Năm 2013, nhà nghiên cứu Google Tomas Mikolov đề xuất mô hình Word2Vec, lần đầu tiên ánh xạ từ ngữ vào “không gian vectơ” — ví dụ, hiệu vectơ giữa “vua” và “hoàng hậu” rất giống hiệu vectơ giữa “đàn ông” và “phụ nữ”, điều đó có nghĩa mô hình có thể “hiểu” mối quan hệ ngữ nghĩa giữa các từ.

Năm 2016, Google đưa RankBrain (thuật toán xếp hạng dựa trên học sâu) vào tìm kiếm. Nó có thể tự động “học” mối liên quan giữa hành vi tìm kiếm của người dùng và nội dung.

Ví dụ, khi người dùng tìm “tai nghe không dây giá rẻ”, RankBrain sẽ phân tích trang nào được nhấp vào rồi có thời gian ở lại lâu, tỷ lệ thoát thấp, từ đó suy ra mối liên hệ thực sự giữa “giá rẻ”, “không dây” và “tai nghe”.

Dữ liệu Google công bố năm 2017 cho thấy: RankBrain đã giúp mức độ liên quan của truy vấn đuôi dài (những từ khóa không phổ biến) tăng 25% (ví dụ “gợi ý tai nghe truyền âm qua xương phù hợp để chạy bộ”).

Năm 2018, Google giới thiệu mô hình BERT (kiến trúc Transformer hai chiều), giải quyết triệt để vấn đề “mơ hồ ngữ cảnh”. Các mô hình truyền thống chỉ có thể hiểu câu theo “một chiều” (ví dụ từ trái sang phải), còn BERT có thể đồng thời phân tích cả “nguyên nhân trước đó lẫn hệ quả phía sau”.

Ví dụ, trong câu “Táo của Tiểu Minh đã chín” và “Tiểu Minh cắn một miếng táo”, BERT có thể dựa vào ngữ cảnh để xác định “táo” ở hai câu đầu là trái cây — nhưng nếu câu là “Táo của Tiểu Minh đã phát hành hệ điều hành mới”, BERT sẽ lập tức nhận ra “Táo” ở đây chỉ công ty.

Hiệu quả của BERT thể hiện ngay lập tức:

Thử nghiệm nội bộ của Google năm 2019 cho thấy CTR (tỷ lệ nhấp) của các truy vấn phức tạp tăng từ 18% lên 25%;

Năm 2023, dữ liệu công khai từ nhóm Google Search Liaison cho thấy BERT đã giúp độ chính xác của các truy vấn đa nghĩa tăng từ 58% lên 82% (ví dụ khi người dùng tìm “Python”, mô hình có thể dựa vào ngữ cảnh để xác định đó là ngôn ngữ lập trình hay loài rắn, độ chính xác tăng 24 điểm phần trăm).

Từ “khớp từ” đến “hiểu con người”

Nhìn lại lịch sử tiến hóa của NLP, bản chất chính là bước nhảy của công cụ tìm kiếm từ “thực thi chỉ lệnh một cách máy móc” sang “hiểu nhu cầu của con người”:

  • Thời đại 1.0 (khớp từ khóa): máy giống như một “bộ đếm từ”, chỉ có thể khớp theo mặt chữ;
  • Thời đại 2.0 (mô hình thống kê): máy giống như một “nhà phân tích xác suất”, suy đoán ý định thông qua xác suất ngữ cảnh;
  • Thời đại 3.0 (học sâu): máy giống như một “người học ngôn ngữ”, có thể “học được” logic ngữ nghĩa từ lượng dữ liệu khổng lồ.

Năm 2024, khảo sát của Pew Research Center cho thấy 78% người dùng cho rằng kết quả tìm kiếm hiện nay “phù hợp với nhu cầu thực hơn”, trong khi năm 2010 tỷ lệ này chỉ là 41%.

Nhà khoa học trưởng của Google, Jeff Dean, từng nói: “Mục tiêu của NLP không phải là để máy ‘đọc chữ’, mà là để máy ‘đọc hiểu con người’.”

“Công việc cốt lõi” của NLP

Để máy có thể “đọc hiểu” một đoạn văn, NLP cần xử lý từng bước các “mảnh thông tin” trong ngôn ngữ, giống như cách con người phân tích câu.

Khi hệ thống NLP của Google (chẳng hạn phiên bản cải tiến của BERT) xử lý nội dung trang web, nó sẽ nghiêm ngặt thực hiện việc “giải mã văn bản” theo 4 bước: tách từ → nhận diện thực thể → liên kết ngữ nghĩa → hiệu chỉnh ngữ cảnh.

Bước 1: Tách từ

Tách từ là bước đầu tiên của NLP. Nói đơn giản, đó là việc chia chuỗi văn bản liên tục thành các “đơn vị ngữ nghĩa” độc lập (gọi là “token”).

Tiếng Trung không có khoảng trắng tự nhiên để phân tách từ (khác với tiếng Anh như “apple pie” có khoảng trắng), vì vậy tách từ là thách thức cốt lõi của NLP tiếng Trung.

Nguyên lý kỹ thuật:

Hệ thống tách từ của Google sử dụng mô hình kết hợp “quy tắc + học sâu”:

  • Kho quy tắc: tích hợp hàng triệu cụm kết hợp tiếng Trung thường dùng (như “pha cà phê”, “ấm pour-over”, “kiểm tra chống nước”), ưu tiên khớp các tổ hợp đã biết;
  • Mô hình học sâu: dựa trên phiên bản BERT tinh chỉnh để dự đoán động các từ ngoài từ điển (ví dụ từ mới nổi như “dopamine dressing”).

Ví dụ thực tế:

Lấy nội dung trang web “Làm thế nào để pha một ly cà phê pour-over đậm đà?” làm ví dụ, hệ thống tách từ cần xác định cách chia đúng. Các phương án cắt có thể là:

  • Cắt sai: “làm thế nào/pha một/ly đậm/đà pour/cà phê” (phá vỡ các tổ hợp hợp lý như “một ly”, “đậm đà”, “cà phê pour-over”);
  • Cắt đúng: “làm thế nào/pha/một ly/đậm đà/cà phê pour-over” (phù hợp với cách biểu đạt tiếng Trung).

Dữ liệu hỗ trợ:

Thử nghiệm nội bộ của Google năm 2023 cho thấy hệ thống tách từ của họ đạt độ chính xác 97,3% đối với các trang web tiếng Trung phổ biến, nhưng đối với các từ hiếm trong lĩnh vực YMYL chuyên môn (như pháp luật, y học), độ chính xác chỉ đạt 89% (do có ít quy tắc tổ hợp thuật ngữ chuyên ngành hơn).

Để giải quyết vấn đề này, Google sẽ huấn luyện thêm “mô hình tách từ theo lĩnh vực” cho các trang web dọc, ví dụ mô hình y tế sẽ ghi nhớ cách tách đúng của các thuật ngữ như “nhồi máu cơ tim” hay “động mạch vành”.

Bước 2: Nhận diện thực thể

Sau khi tách từ, NLP cần nhận diện các “thực thể” (Entity) trong văn bản — tức các thông tin cốt lõi cụ thể như người, sự vật, thời gian, địa điểm, sự kiện…

Thực thể là “bộ khung xương” của nội dung, giúp máy nhanh chóng xác định chủ đề của trang.

Nguyên lý kỹ thuật:

Google sử dụng mô hình học đa nhiệm (Multi-Task Learning), huấn luyện đồng thời các tác vụ nhận diện thực thể, gán nhãn từ loại (như danh từ, động từ) và trích xuất quan hệ.

Mô hình sẽ dự đoán với mỗi token xem nó có thuộc về thực thể hay không, đồng thời gắn loại thực thể (như “TIME”, “PRODUCT”, “PERSON”).

Ví dụ về loại thực thể:

Loại Định nghĩa Ví dụ (từ trang “Bài kiểm tra chống nước của iPhone 15 năm 2025”)
TIME Mốc thời gian / khoảng thời gian “Tháng 9 năm 2025”
PRODUCT Sản phẩm cụ thể “iPhone 15”, “chuẩn chống nước IP68”
EVENT Sự kiện / hành động “kiểm tra chống nước”, “ra mắt”
ATTRIBUTE Thuộc tính / đặc trưng của thực thể “độ sâu 6 mét”, “30 phút” (tham số cụ thể của chống nước)

Ví dụ thực tế:

Khi xử lý câu “Bài kiểm tra chống nước IP68 của iPhone 15 vào tháng 9 năm 2025 cho thấy nó chịu được 30 phút ở độ sâu 6 mét”, hệ thống nhận diện thực thể sẽ xuất ra:

  • TIME: “tháng 9 năm 2025”
  • PRODUCT: “iPhone 15”
  • ATTRIBUTE: “chuẩn chống nước IP68”, “độ sâu 6 mét”, “30 phút”
  • EVENT: “kiểm tra chống nước”

Dữ liệu hỗ trợ:

Theo blog kỹ thuật của Google năm 2024, mô hình nhận diện thực thể của họ đạt tỷ lệ thu hồi thực thể 92% đối với văn bản lĩnh vực phổ thông (tức tỷ lệ thực thể được nhận diện chính xác trên tổng số thực thể thật), nhưng với văn bản dài (hơn 5000 chữ), tỷ lệ này giảm xuống 85% (do mật độ thực thể thấp, mô hình dễ bỏ sót).

Vì vậy, Google đưa vào chiến lược “xử lý phân đoạn”: chia văn bản dài thành các đoạn khoảng 500 chữ, nhận diện từng đoạn rồi gộp kết quả, giúp tỷ lệ thu hồi thực thể ở văn bản dài tăng lên 90%.

Bước 3: Liên kết ngữ nghĩa

Sau khi tách từ và nhận diện thực thể, NLP cần làm rõ các quan hệ logic giữa các từ (như “thuộc về”, “gây ra”, “thuộc tính”), biến các token rời rạc thành một mạng ngữ nghĩa có cấu trúc.

Bước này quyết định liệu máy có thể “hiểu” ý nghĩa thật sự của câu hay không.

Nguyên lý kỹ thuật:

Google áp dụng phương pháp kết hợp giữa mô hình ngôn ngữ tiền huấn luyện + đồ thị tri thức:

  • Các mô hình tiền huấn luyện (như BERT) học các “quan hệ ẩn” giữa các từ từ lượng văn bản khổng lồ (ví dụ “giày chạy bộ” và “đồ thể thao” là quan hệ cấp trên – cấp dưới);
  • Đồ thị tri thức (Google Knowledge Graph) cung cấp kiến thức có cấu trúc (ví dụ thương hiệu của “iPhone 15” là “Apple”, ngày ra mắt là “tháng 9 năm 2023”), dùng để kiểm chứng và bổ sung các quan hệ mà mô hình học được.

Ví dụ về loại quan hệ:

Loại quan hệ Định nghĩa Ví dụ (từ trang “Cách chọn giày chạy bộ”)
Quan hệ cấp trên – cấp dưới A là phân loại con của B (hoặc ngược lại) “giày chạy bộ” → “đồ thể thao” (giày chạy bộ thuộc đồ thể thao)
Quan hệ thuộc tính A là đặc trưng / tham số của B “đế giữa giảm chấn” → “giày chạy bộ” (đế giữa giảm chấn là thuộc tính của giày chạy bộ)
Quan hệ nhân quả A dẫn đến B “thừa cân” → “chấn thương đầu gối” (thừa cân có thể gây chấn thương đầu gối)

Ví dụ thực tế:

Khi xử lý câu “Khi chọn giày chạy bộ, đế giữa giảm chấn là yếu tố then chốt, nó có thể giảm áp lực lên đầu gối”, hệ thống liên kết ngữ nghĩa sẽ thiết lập:

  • Quan hệ thuộc tính giữa “giày chạy bộ” và “đế giữa giảm chấn”;
  • Quan hệ nhân quả giữa “đế giữa giảm chấn” và “giảm áp lực đầu gối”.

Dữ liệu hỗ trợ:

Thử nghiệm nội bộ của Google năm 2023 cho thấy mô hình liên kết ngữ nghĩa của họ đạt độ chính xác 88% đối với các quan hệ phổ biến, nhưng với quan hệ phức tạp (như “nhân quả gián tiếp”) thì độ chính xác chỉ đạt 72%. Ví dụ trong câu “Đi giày không vừa chân lâu ngày có thể làm biến dạng vòm bàn chân, từ đó gây đau lưng”, “giày không vừa chân” và “đau lưng” là quan hệ nhân quả gián tiếp, mô hình dễ đánh giá nhầm là không có liên hệ trực tiếp. Để giải quyết vấn đề này, Google đưa vào kỹ thuật “suy luận chuỗi”: nối hai thực thể xa nhau thông qua nút trung gian (như “biến dạng vòm chân”), giúp độ chính xác nhận diện các quan hệ phức tạp tăng lên 85%.

Bước 4: Hiệu chỉnh ngữ cảnh

Một số từ khi đứng riêng có thể gây mơ hồ (ví dụ “Apple” có thể chỉ trái cây hoặc thương hiệu), nên cần kết hợp cả đoạn, thậm chí toàn bộ trang để hiệu chỉnh ngữ nghĩa của chúng.

Đây là bước then chốt để NLP “hiểu” văn bản, đồng thời cũng là khâu phụ thuộc nhiều nhất vào ngữ cảnh.

Nguyên lý kỹ thuật:

Google sử dụng cơ chế chú ý hai chiều (như thiết kế cốt lõi của BERT), cho phép mô hình đồng thời “nhìn” phần đầu và phần sau của câu, từ đó điều chỉnh ngữ nghĩa của từng token một cách động.

Ví dụ, khi mô hình xử lý câu “Quả táo của Tiểu Minh đã chín”, ngữ nghĩa ban đầu của “táo” có thể là “trái cây”;

Nhưng khi xử lý câu tiếp theo “Cậu ấy định dùng Apple để phát hành hệ điều hành mới”, mô hình sẽ truy ngược ngữ cảnh phía trước, phát hiện “phát hành hệ điều hành mới” không liên quan đến trái cây, từ đó sửa ngữ nghĩa của “Apple” thành “công ty công nghệ”.

Ví dụ thực tế:

Lấy nội dung trang “iPhone 15 vừa được Apple ra mắt hỗ trợ liên lạc vệ tinh, đây là tin tốt cho người yêu hoạt động ngoài trời” làm ví dụ:

  • Nếu chỉ nhìn riêng từ “Apple”, mô hình có thể đoán nhầm là “trái cây”;
  • Nhưng khi kết hợp với cụm “ra mắt iPhone 15”, mô hình sẽ hiệu chỉnh “Apple” thành “công ty công nghệ”;
  • Khi kết hợp tiếp với “người yêu hoạt động ngoài trời”, mô hình còn xác nhận thêm rằng tính năng “liên lạc vệ tinh” của iPhone 15 có liên quan đến bối cảnh ngoài trời.

Dữ liệu hỗ trợ:

Nghiên cứu hành vi người dùng của Google năm 2024 cho thấy, trong các tình huống truy vấn đa nghĩa (ví dụ người dùng tìm “Python”), mức độ liên quan của kết quả tìm kiếm sau khi được hiệu chỉnh bằng ngữ cảnh cao hơn 37% so với khi chưa hiệu chỉnh.

Cụ thể ở cấp độ xử lý trang, hiệu chỉnh ngữ cảnh có thể nâng tỷ lệ nhận diện đúng ngữ nghĩa của từ mơ hồ từ 62% lên 89% (dựa trên dữ liệu thử nghiệm nội bộ của Google).

NLP giúp người dùng tiết kiệm 30% thời gian tìm kiếm mỗi ngày

Trải nghiệm trực quan nhất khi người dùng tìm kiếm là: “có thể tìm thứ mình muốn nhanh hơn không?”

Theo báo cáo nghiên cứu hành vi người dùng của Microsoft năm 2024, với các công cụ tìm kiếm được tối ưu bằng NLP, thời gian trung bình để người dùng tìm ra thông tin mục tiêu đã giảm từ 87 giây xuống còn 59 giây (giảm khoảng 30%).

Truy vấn đa nghĩa

Khi người dùng tìm kiếm, khoảng 40% truy vấn chứa từ đa nghĩa (như “Apple”, “Python”, “Java”). Công cụ tìm kiếm truyền thống sẽ coi các truy vấn này là một từ khóa đơn, từ đó trả về rất nhiều kết quả không liên quan.

NLP sử dụng công nghệ khử nhập nhằng ngữ nghĩa (Word Sense Disambiguation, WSD), có thể kết hợp ngữ cảnh để xác định ý nghĩa thật của từ, qua đó trực tiếp lọc bỏ nội dung vô hiệu.

Biểu hiện cụ thể:

  • Ví dụ 1: tìm “Python”: người dùng có thể muốn tìm hướng dẫn ngôn ngữ lập trình (62%), hoặc muốn tìm hiểu về loài rắn (18%), hoặc các nội dung khác liên quan đến Python (20%). Công cụ tìm kiếm truyền thống sẽ trả về tất cả các trang chứa “Python”, khiến người dùng phải tự sàng lọc 10 – 15 liên kết không liên quan trong 3 trang đầu tiên; sau khi NLP can thiệp, hệ thống có thể dựa vào ngữ cảnh nội dung trang (như “hàm print()”, “hướng dẫn crawler”) để phán đoán ý định người dùng và ưu tiên hiển thị kết quả lập trình. Thử nghiệm nội bộ của Google năm 2023 cho thấy, tỷ lệ kết quả hiệu quả ở màn hình đầu tiên của truy vấn đa nghĩa tăng từ 38% lên 72%, số lần nhấp trung bình của người dùng giảm từ 2,3 xuống còn 1,1.
  • Ví dụ 2: tìm “Java”: người dùng có thể đang muốn tìm ngôn ngữ lập trình (55%), cẩm nang du lịch đảo Java của Indonesia (25%), hoặc một loại cà phê (20%). NLP có thể phân tích các từ liên quan trên trang (ví dụ “JVM”, “Spring Framework” tương ứng với lập trình; “đền Tanah Lot”, “núi lửa” tương ứng với du lịch), từ đó nhanh chóng xác định nhu cầu của người dùng. Khảo sát của Pew Research năm 2024 cho thấy, thời gian hoàn thành tìm kiếm đối với truy vấn đa nghĩa giảm từ 112 giây xuống còn 68 giây (giảm 40 giây).

Hỗ trợ kỹ thuật:

Khả năng khử nhập nhằng của NLP phụ thuộc vào việc xác minh kép giữa “vectơ ngữ cảnh” và “đồ thị tri thức”.

Ví dụ, khi người dùng tìm “Java”, mô hình sẽ trích xuất các từ khóa khác trên trang (như “cà phê”, “lập trình”, “đảo”), rồi ánh xạ chúng đến các thực thể trong đồ thị tri thức (“Java (ngôn ngữ lập trình)”, “Java (đảo)”), sau đó dùng phép tính độ tương đồng vectơ (như cosine similarity) để xác định thực thể phù hợp nhất và cuối cùng trả về kết quả tương ứng.

Nhu cầu tiềm ẩn

Từ khóa tìm kiếm của người dùng thường chỉ thể hiện 10% – 20% nhu cầu cốt lõi, còn 80% – 90% còn lại là nhu cầu tiềm ẩn (như “giá cả”, “độ khó”, “bối cảnh áp dụng”).

NLP thông qua công nghệ mở rộng ngữ nghĩa (Semantic Expansion) có thể mở rộng từ từ khóa cốt lõi sang các nhu cầu liên quan, chủ động bao phủ ý định mà người dùng chưa nói rõ.

Biểu hiện cụ thể:

  • Ví dụ 1: tìm “thực đơn giảm cân”: người dùng có thể ngầm muốn “ít calo”, “dễ làm”, “phù hợp dân văn phòng”, “không đường”… Công cụ tìm kiếm truyền thống chỉ khớp với các trang chứa “giảm cân” và “thực đơn”, nên kết quả có thể bao gồm “thực đơn nhịn ăn cực đoan” hoặc “món nướng phức tạp”; sau khi NLP can thiệp, hệ thống sẽ phân tích các từ liên quan thường gặp với “giảm cân” (như “năng lượng”, “calo”, “nhanh”, “đơn giản”), rồi ưu tiên hiển thị các trang như “bữa sáng ít calo 15 phút”, “thực đơn cơm hộp cho dân công sở” phù hợp hơn với nhu cầu tiềm ẩn. Thử nghiệm A/B của Google năm 2022 cho thấy, với kết quả tìm kiếm bao phủ nhu cầu tiềm ẩn, thời gian lưu lại của người dùng tăng từ 45 giây lên 78 giây (tăng 73%), vì người dùng không cần tìm tiếp “thực đơn giảm cân ít calo”.
  • Ví dụ 2: tìm “mưa nên mặc gì”: người dùng có thể ngầm cần “chống nước”, “chống trượt”, “nhẹ”, “giữ ấm”… Công cụ tìm kiếm truyền thống có thể chỉ trả về kết quả chung chung như “áo mưa”, “ô”; NLP có thể nhận diện thuộc tính bối cảnh của “ngày mưa” (ẩm ướt, dễ trơn trượt), sau đó liên kết đến các đặc trưng như “chất liệu chống nước”, “đế chống trượt”, “gấp gọn tiện mang theo”, rồi gợi ý các sản phẩm cụ thể như “áo khoác chống nước”, “giày bốt Martin chống trượt”. Khảo sát của eMarketer năm 2024 cho thấy, tìm kiếm thương mại điện tử bao phủ nhu cầu tiềm ẩn giúp tỷ lệ chuyển đổi tăng từ 3,2% lên 5,8% (người dùng có khả năng nhấp mua cao hơn).

Hỗ trợ kỹ thuật:

Mở rộng ngữ nghĩa phụ thuộc vào việc huấn luyện trên “không gian vectơ từ” và “dữ liệu hành vi người dùng”.

Ví dụ, mô hình BERT của Google sẽ ánh xạ “thực đơn giảm cân” vào một không gian vectơ nhiều chiều, trong đó các từ như “ít calo”, “dễ làm” có vectơ rất gần với “thực đơn giảm cân”;

Đồng thời, hệ thống sẽ phân tích dữ liệu tìm kiếm lịch sử (ví dụ người dùng tìm “thực đơn giảm cân” thường nhấp vào “bữa sáng ít calo”), từ đó xác minh thêm mối liên quan của các nhu cầu tiềm ẩn này và cuối cùng tạo ra kho từ mở rộng.

Thích ứng đa bối cảnh

Bối cảnh tìm kiếm của người dùng (thời gian, địa điểm, thiết bị) sẽ ảnh hưởng trực tiếp đến nhu cầu. NLP thông qua công nghệ cảm nhận bối cảnh (Context Awareness) có thể điều chỉnh động cách hiểu truy vấn, từ đó cung cấp kết quả phù hợp hơn với hoàn cảnh hiện tại.

Biểu hiện cụ thể:

  • Bối cảnh thời gian: mùa đông tìm “áo khoác”, NLP sẽ ưu tiên các từ như “lót nỉ”, “giữ ấm”, “áo phao”; mùa hè tìm “áo khoác”, hệ thống sẽ ưu tiên hiển thị các mẫu “chống nắng”, “mỏng nhẹ”, “thoáng khí”. Dữ liệu tìm kiếm theo mùa của Google năm 2023 cho thấy, sau khi thích ứng theo bối cảnh, mức độ hài lòng của người dùng với kết quả tăng từ 68% lên 85% (vì kết quả phù hợp hơn với nhu cầu theo mùa).
  • Bối cảnh địa điểm: tìm “lẩu” ở Thượng Hải, NLP sẽ gợi ý các quán nổi tiếng địa phương; còn tìm “lẩu” ở Thành Đô, hệ thống sẽ ưu tiên các quán lẩu Tứ Xuyên chính gốc. Thử nghiệm liên động giữa Google Maps và Search năm 2024 cho thấy, sau khi thích ứng theo bối cảnh địa phương, xác suất người dùng nhấp vào “doanh nghiệp gần đây” tăng từ 22% lên 47% (vì kết quả phù hợp hơn).
  • Bối cảnh thiết bị: dùng điện thoại tìm “trạm xăng gần đây”, NLP sẽ ưu tiên trả về các kết quả như “bản đồ dẫn đường”, “giá xăng thời gian thực”, “gần nhất” (phù hợp nhu cầu ra quyết định nhanh trên di động); dùng máy tính tìm, hệ thống có thể hiển thị thông tin chi tiết hơn như “danh sách trạm xăng”, “đánh giá người dùng”, “khuyến mãi” (phù hợp nhu cầu duyệt sâu trên desktop). Nghiên cứu đa thiết bị của Microsoft năm 2024 cho thấy, sau khi thích ứng theo bối cảnh thiết bị, thời gian người dùng hoàn thành nhiệm vụ giảm 42% (trên điện thoại từ 90 giây xuống 52 giây, trên máy tính từ 120 giây xuống 69 giây).

Hỗ trợ kỹ thuật:

Nhận biết bối cảnh phụ thuộc vào “trích xuất siêu dữ liệu” và “tích hợp dữ liệu thời gian thực”.

Ví dụ, hệ thống sẽ trích xuất thời gian (thông qua thời gian trên thiết bị người dùng), địa điểm (qua IP hoặc GPS), loại thiết bị (điện thoại / máy tính), rồi kết hợp với dữ liệu thời gian thực (như thời tiết, giao thông, trạng thái kinh doanh của cửa hàng) để điều chỉnh trọng số ngữ nghĩa.

Ví dụ, khi tìm “áo khoác” vào ngày mưa, hệ thống sẽ lấy xác suất mưa tại địa phương theo thời gian thực để tăng cường trọng số của thuộc tính “chống nước”.

NLP tiết kiệm thời gian như thế nào

Loại bối cảnh Tìm kiếm truyền thống (không có NLP) Tìm kiếm tối ưu bằng NLP Thời gian tiết kiệm Nguồn dữ liệu
Truy vấn đa nghĩa (Python) Màn hình đầu có 10 kết quả, 5 cái không liên quan Màn hình đầu có 8 kết quả, 7 cái liên quan 40 giây Thử nghiệm nội bộ Google 2023
Nhu cầu tiềm ẩn (thực đơn giảm cân) Phải tìm lần hai với từ “ít calo” Màn hình đầu hiển thị trực tiếp thực đơn ít calo 25 giây Khảo sát Pew Research 2024
Đa bối cảnh (mùa hè tìm áo khoác) Kết quả có cả mẫu mùa đông, phải tự lọc Màn hình đầu toàn bộ là mẫu chống nắng mùa hè 30 giây Nghiên cứu đa bối cảnh của Microsoft 2024

NLP trong Google Search “đọc hiểu” văn bản trên trang như thế nào

Công nghệ NLP của Google thông qua 4 bước “tách từ → nhận diện thực thể → liên kết ngữ nghĩa → hiệu chỉnh ngữ cảnh” để biến văn bản trên trang thành “mạng ngữ nghĩa” mà máy có thể hiểu.

Mỗi ngày xử lý hơn 50 tỷ từ (dữ liệu Google 2024), độ chính xác tách từ 97,3%, tỷ lệ thu hồi nhận diện thực thể 92%, cuối cùng giúp hệ thống tự động phân biệt “Apple” là trái cây hay điện thoại, “Python” khớp với hướng dẫn lập trình thay vì loài rắn. Khi người dùng tìm nội dung liên quan, tỷ lệ kết quả hiệu quả ở màn hình đầu tiên tăng từ 38% lên 72% (thử nghiệm nội bộ năm 2023).

Tách từ: cắt văn bản thành “khối nhỏ nhất mà máy có thể hiểu”

Nói đơn giản, đó là chia chuỗi văn bản liên tục thành những “đơn vị ngôn ngữ nhỏ nhất” có ý nghĩa (gọi là “token”).

Với tiếng Anh và các ngôn ngữ có khoảng trắng tự nhiên, việc tách từ chỉ cần dựa vào khoảng trắng (ví dụ “coffee mug” tách thành “coffee” + “mug”);

Nhưng với tiếng Trung, tiếng Nhật và các “ngôn ngữ không có khoảng trắng”, nếu tách sai thì toàn bộ các bước tiếp theo như nhận diện thực thể và hiểu ngữ nghĩa đều sẽ mất hiệu lực.

Kho quy tắc + học sâu

Hệ thống tách từ của Google sử dụng mô hình kết hợp “ưu tiên kho quy tắc, dùng học sâu để bổ sung”, với mục tiêu cốt lõi là tách văn bản “vừa nhanh vừa chính xác”.

Kho quy tắc

Kho quy tắc là “nền móng” của hệ thống tách từ Google. Nó tích hợp các mẫu kết hợp thường dùng của những ngôn ngữ chính trên thế giới (ví dụ trong tiếng Trung có “pha cà phê”, “ấm pour-over”, “kiểm tra chống nước”; trong tiếng Anh có “espresso machine”, “drip coffee”). Những tổ hợp này được hình thành từ việc phân tích thống kê văn bản Internet — Google thu thập các trang web trên toàn mạng, thống kê tần suất đồng xuất hiện của từng cặp từ liền kề (ví dụ xác suất “pha” đi sau là “cà phê” là 92%, đi sau là “cơm” là 85%), cuối cùng tạo thành một “từ điển kết hợp” cấp triệu.

Ví dụ, khi xử lý câu tiếng Trung “如何煮一杯香浓的手冲咖啡”, kho quy tắc sẽ ưu tiên khớp các tổ hợp tần suất cao như “煮/咖啡”, “手冲/咖啡”, vì vậy cắt đúng thành “如何/煮/一杯/香浓的/手冲咖啡”;

Nếu gặp “Java编程”, kho quy tắc sẽ nhận ra “Java” là ngôn ngữ lập trình, “编程” là hành động, nên cắt thành “Java/编程” thay vì “Jav/a编/程” (cắt sai).

Học sâu

Dù kho quy tắc rất hiệu quả, nó không thể bao phủ mọi trường hợp — Internet mỗi ngày xuất hiện rất nhiều từ mới (như “dopamine dressing”, “metaverse”) và thuật ngữ chuyên ngành (như “trách nhiệm do lỗi trong giai đoạn giao kết hợp đồng” trong pháp luật, “nhồi máu cơ tim” trong y học), mà những từ này chưa được ghi vào kho quy tắc. Lúc này, Google sẽ gọi mô hình BERT đã tinh chỉnh để dự đoán động.

BERT (Transformer hai chiều) là một mô hình ngôn ngữ tiền huấn luyện, có thể hiểu ý nghĩa từ ngữ thông qua ngữ cảnh.

Ví dụ, khi gặp “dopamine dressing”, kho quy tắc chưa có cụm này, nhưng BERT sẽ dựa vào ngữ cảnh (như “màu sắc tươi sáng”, “tâm trạng vui vẻ”, “thời trang”) để dự đoán đây là một từ mới dùng để mô tả phong cách ăn mặc, và nên được cắt toàn bộ là “dopamine dressing”, chứ không phải “dopa/min/e dress/ing” (cắt sai).

So sánh chi tiết kỹ thuật:

Loại công nghệ Ưu điểm Hạn chế Bối cảnh phù hợp
Kho quy tắc Tốc độ nhanh (phản hồi mức mili giây) Không thể bao phủ từ mới / thuật ngữ chuyên ngành Văn bản phổ thông thông thường
Mô hình BERT tinh chỉnh Nhận diện động từ mới và thuật ngữ chuyên môn Chi phí tính toán cao (cần gọi GPU) Lĩnh vực mới nổi, văn bản đuôi dài
Thích ứng đa ngôn ngữ

Google hỗ trợ tách từ cho hơn 100 ngôn ngữ, nhưng đặc tính của mỗi ngôn ngữ rất khác nhau, nên cần điều chỉnh quy tắc và mô hình theo từng loại ngôn ngữ.

Tiếng Trung: không có khoảng trắng + độ mơ hồ cao

Khó khăn của tiếng Trung nằm ở “không có khoảng trắng” và “một từ nhiều nghĩa”. Ví dụ câu “乒乓球拍卖完了” có hai cách cắt:

  • Đúng: “乒乓球拍/卖完了” (“vợt bóng bàn” là một mặt hàng);
  • Sai: “乒乓球/拍卖/完了” (“đấu giá” là một hành động).

Google giải quyết sự nhập nhằng bằng mô hình xác suất ngữ cảnh: thống kê tần suất đồng xuất hiện của “乒乓球拍” như một thể thống nhất (ví dụ xác suất xuất hiện trong trang thương mại điện tử là 90%), cao hơn nhiều so với tổ hợp “乒乓球 + 拍卖” (chỉ 5% trong tin thể thao), vì vậy sẽ ưu tiên chọn “乒乓球拍/卖完了”.

Tiếng Ả Rập: viết từ phải sang trái + chữ nối liền

Tiếng Ả Rập viết từ phải sang trái và các từ có thể dính liền nhau. Hệ thống tách từ của Google trước tiên sẽ đảo thứ tự hiển thị (chuyển thành trái sang phải), sau đó dùng kho quy tắc để xác định ranh giới của các từ như “كتاب” (sách) và “قلم” (bút), cuối cùng cắt thành “كتاب/قلم”.

Tiếng Swahili: đặc tính ngôn ngữ chắp dính

Tiếng Swahili là ngôn ngữ chắp dính, biểu đạt nghĩa bằng cách thêm phụ tố vào sau gốc từ (ví dụ “mtoto” là “đứa trẻ”, “watoto” là “những đứa trẻ”). Mô hình tách từ của Google sẽ nhận diện ranh giới phụ tố (như “-o” là hậu tố số ít, “-wa” là hậu tố số nhiều), từ đó cắt “watoto” thành “wa/toto” (số nhiều + trẻ).

Thử nghiệm tách từ đa ngôn ngữ của Google năm 2023 cho thấy độ chính xác với tiếng Anh, tiếng Tây Ban Nha và các ngôn ngữ phổ biến đạt 98%, nhưng với các ngôn ngữ phức tạp như tiếng Ả Rập, tiếng Swahili chỉ đạt 92%.

Để cải thiện kết quả, Google thành lập “đội ngũ chuyên gia ngôn ngữ” cho từng ngôn ngữ, gắn nhãn thủ công hơn 100.000 câu điển hình để huấn luyện mô hình tách từ chuyên biệt.

Lỗi tách từ ảnh hưởng đến kết quả tìm kiếm như thế nào

Tách từ là nền tảng của toàn bộ các bước NLP phía sau. Một khi cắt sai, nó có thể dẫn đến thất bại trong nhận diện thực thể, sai lệch trong liên kết ngữ nghĩa, cuối cùng làm giảm mức độ liên quan của kết quả tìm kiếm. Dưới đây là hai ví dụ thực tế:

Ví dụ 1: Trang thương mại điện tử “cà phê Java”

Một trang web có tiêu đề “Cà phê Java: hương vị mượt mà chuẩn pour-over”, cách tách đúng phải là “Java/咖啡/:/手冲级/顺滑/口感”. Nếu tách sai thành “Jav/a咖/啡/:/手冲级/顺滑/口感”, hệ thống nhận diện thực thể sẽ coi “Jav” (chuỗi vô nghĩa) và “咖”, “啡” (từ rời rạc) là thực thể, khiến Google không thể liên kết đến sản phẩm đúng là “cà phê Java”, và khi người dùng tìm “cà phê Java”, trang này có thể bị lọc nhầm.

Ví dụ 2: Trang pháp lý về “trách nhiệm do lỗi trong giai đoạn giao kết hợp đồng”

Nội dung một blog pháp luật viết: “Trách nhiệm do lỗi trong giai đoạn giao kết hợp đồng là việc một bên gây thiệt hại cho bên kia do vi phạm nguyên tắc thiện chí, trung thực”. Cách tách đúng phải giữ “缔约过失责任” như một thuật ngữ pháp lý hoàn chỉnh. Nếu cắt sai thành các phần nhỏ rời rạc, hệ thống nhận diện thực thể sẽ không thể liên kết đến thuật ngữ pháp lý chính xác này, dẫn đến khi người dùng tìm “缔约过失责任”, trang đó sẽ bị xếp hạng thấp hơn.

Dữ liệu hỗ trợ:

Thử nghiệm nội bộ của Google cho thấy lỗi tách từ có thể làm thứ hạng của trang mục tiêu trong kết quả tìm kiếm giảm 3 – 5 bậc (dữ liệu A/B test năm 2023), và xác suất người dùng nhấp vào trang đó giảm 42% (do mức độ liên quan của kết quả giảm).

“Bắt” trọng điểm từ văn bản

Khi người dùng tìm “bài kiểm tra chống nước iPhone 15 bản 2025”, Google cần nhanh chóng biết rằng trọng tâm của trang là “iPhone 15” (sản phẩm), “tháng 9 năm 2025” (thời gian), “kiểm tra chống nước” (sự kiện).

Những thông tin then chốt này được gọi là “thực thể” (Entity).

Mô hình học đa nhiệm (Multi-Task Learning)

Hệ thống nhận diện thực thể của Google dựa trên mô hình học đa nhiệm (Multi-Task Learning), đồng thời huấn luyện ba tác vụ: “nhận diện thực thể”, “gán nhãn từ loại”, “trích xuất quan hệ”, thông qua việc chia sẻ các tham số tầng đáy để tăng hiệu suất.

Nói đơn giản, mô hình sẽ đồng thời học:

  • Từ nào là thực thể (ví dụ “iPhone 15” là sản phẩm);
  • Vai trò cú pháp của những từ đó trong câu (ví dụ “iPhone 15” là danh từ);
  • Quan hệ giữa các thực thể (ví dụ “iPhone 15” được sản xuất bởi “Apple”).

Chi tiết kỹ thuật cốt lõi:

  • Tinh chỉnh BERT: lấy mô hình BERT tiền huấn luyện của Google làm nền tảng, sau đó tinh chỉnh bằng lượng lớn dữ liệu gắn nhãn (như Wikipedia, tin tức, trang thương mại điện tử) để học các đặc trưng ngữ cảnh của thực thể. Ví dụ trong câu “iPhone 15 ra mắt vào tháng 9 năm 2025”, “tháng 9 năm 2025” và “iPhone 15” liên kết với nhau thông qua vectơ ngữ cảnh của BERT, từ đó mô hình có thể phán đoán cái trước là thời gian, cái sau là sản phẩm.
  • Bộ phân loại loại thực thể: thêm một “đầu phân loại loại” vào tầng đầu ra của BERT để dự đoán loại cụ thể của từng thực thể (như TIME, PRODUCT, PERSON). Bộ phân loại này dựa trên hơn 50 loại thực thể được định nghĩa sẵn (bao phủ cả lĩnh vực phổ thông và chuyên sâu), ví dụ:
Loại thực thể Định nghĩa Ví dụ
TIME Mốc thời gian / khoảng thời gian “tháng 9 năm 2025”, “30 phút”
PRODUCT Sản phẩm cụ thể “iPhone 15”, “ấm pour-over”
PERSON Nhân vật (thật hoặc hư cấu) “Tim Cook”, “Trương Tiểu Long”
LOCATION Địa điểm (cụ thể hoặc trừu tượng) “Thượng Hải”, “GitHub”
EVENT Sự kiện / hành động “kiểm tra chống nước”, “buổi ra mắt”
ATTRIBUTE Thuộc tính / đặc trưng của thực thể “chuẩn chống nước IP68”, “độ sâu 6 mét”
Độ chính xác nhận diện từ phổ thông đến chuyên ngành

Hệ thống loại thực thể của Google được chia thành lĩnh vực phổ thông (bao phủ văn bản hằng ngày) và lĩnh vực dọc (nhắm vào nội dung chuyên nghiệp).

Các loại thực thể phổ thông (hơn 50 loại):

Bao phủ 90% các tình huống tìm kiếm của người dùng, ví dụ:

  • Thời gian (TIME): ngày cụ thể (“tháng 9 năm 2025”), độ dài thời gian (“30 phút”), khoảng thời gian (“2020 – 2025”);
  • Sản phẩm (PRODUCT): thiết bị điện tử (“iPhone 15”), đồ gia dụng (“ấm pour-over”), đồ dùng hằng ngày (“hạt cà phê”);
  • Địa điểm (LOCATION): thành phố (“Thượng Hải”), quốc gia (“Hoa Kỳ”), tổ chức (“Google”).

Các loại thực thể chuyên ngành (theo ngành):

Đối với nội dung chuyên môn như pháp luật, y tế, công nghệ, Google sẽ huấn luyện thêm các loại thực thể đặc thù theo lĩnh vực, ví dụ:

  • Lĩnh vực pháp luật: thêm “điều khoản pháp luật” (như “Điều 10 Bộ luật Dân sự”), “hành vi pháp lý” (như “lỗi trong giai đoạn giao kết”);
  • Lĩnh vực y tế: thêm “bệnh” (như “nhồi máu cơ tim”), “thuốc” (như “Aspirin”), “phương pháp phẫu thuật” (như “phẫu thuật PCI”);
  • Lĩnh vực công nghệ: thêm “thuật toán” (như “BERT”), “ngôn ngữ lập trình” (như “Python”), “kiến trúc phần cứng” (như “ARM”).

Dữ liệu hỗ trợ:

Thử nghiệm nội bộ của Google năm 2023 cho thấy độ chính xác nhận diện thực thể trong lĩnh vực phổ thông là 92%, nhưng ở lĩnh vực dọc (như pháp luật) độ chính xác ban đầu chỉ đạt 78% (do ít thuật ngữ chuyên môn và thiếu dữ liệu gắn nhãn).

Bằng cách huấn luyện riêng “mô hình nhận diện thực thể pháp lý” (dựa trên hơn 100.000 văn bản pháp luật đã gắn nhãn), độ chính xác đã tăng lên 90%; mô hình y tế được huấn luyện với hơn 50.000 bệnh án gắn nhãn đạt độ chính xác 88%.

Bốn bước từ phát hiện ứng viên đến xác định biên

Dưới đây lấy ví dụ xử lý câu “Bài kiểm tra chống nước IP68 của iPhone 15 vào tháng 9 năm 2025 cho thấy nó chịu được 30 phút ở độ sâu 6 mét” để phân tích quy trình:

Bước 1: Phát hiện ứng viên — tìm ra những “hạt giống” thực thể có thể có

Mô hình trước hết quét văn bản, dựa trên kho quy tắc (chẳng hạn “năm + tháng” là ứng viên thời gian, “số + tên sản phẩm” là ứng viên sản phẩm) và xác suất thống kê (ví dụ xác suất “iPhone” theo sau là số là 90%), để đánh dấu các ứng viên thực thể khả dĩ.

  • Ứng viên 1: “tháng 9 năm 2025” (phù hợp quy tắc “năm + tháng”);
  • Ứng viên 2: “iPhone 15” (phù hợp quy tắc “tên sản phẩm + model”);
  • Ứng viên 3: “kiểm tra chống nước IP68” (phù hợp quy tắc “tham số kỹ thuật + hành động”);
  • Ứng viên 4: “độ sâu 6 mét” (phù hợp quy tắc “số + đơn vị + thuộc tính”);
  • Ứng viên 5: “30 phút” (phù hợp quy tắc “số + đơn vị thời gian”).

Bước 2: Phân loại — “dán nhãn” cho ứng viên

Thông qua “đầu phân loại loại” của mô hình học đa nhiệm, hệ thống dự đoán loại cho từng ứng viên:

  • “tháng 9 năm 2025” → TIME (thời gian);
  • “iPhone 15” → PRODUCT (sản phẩm);
  • “kiểm tra chống nước IP68” → EVENT (sự kiện);
  • “độ sâu 6 mét” → ATTRIBUTE (thuộc tính, mô tả độ sâu chống nước);
  • “30 phút” → ATTRIBUTE (thuộc tính, mô tả thời gian chống nước).

Bước 3: Xác định biên — hiệu chỉnh “vị trí bắt đầu và kết thúc” của thực thể

Một số ứng viên có thể gặp lỗi biên (ví dụ “kiểm tra chống nước IP68” có thể bị tách nhầm thành “IP68” + “kiểm tra chống nước”), lúc này mô hình sẽ dùng vectơ ngữ cảnh để xác minh biên:

  • “IP68” là tiêu chuẩn cấp chống nước (thuộc ATTRIBUTE), nhưng “kiểm tra chống nước IP68” là một sự kiện hoàn chỉnh (EVENT), nên biên sẽ được sửa thành toàn bộ cụm “kiểm tra chống nước IP68”;
  • Trong “độ sâu 6 mét”, “6 mét” là giá trị số, “độ sâu” là thuộc tính, nên xét toàn bộ cụm là ATTRIBUTE sẽ hợp lý hơn.

Bước 4: Kiểm tra toàn cục — hiệu chỉnh sai sót dựa trên toàn văn

Mô hình sẽ tạo ra “vectơ ngữ nghĩa toàn cục” của cả đoạn văn (biểu thị chủ đề tổng thể, chẳng hạn “kiểm tra chống nước điện thoại”), rồi kiểm tra xem các thực thể cục bộ có xung đột với chủ đề chung hay không. Ví dụ:

  • Nếu chủ đề văn bản là “đánh giá điện thoại”, thì việc gán “iPhone 15” là PRODUCT (sản phẩm) là phù hợp với chủ đề;
  • Nếu “kiểm tra chống nước IP68” được gán là EVENT (sự kiện) thì cũng nhất quán với chủ đề “đánh giá điện thoại”, không cần sửa.
Google đảm bảo độ chính xác của nhận diện thực thể như thế nào
Khía cạnh kiểm thử Độ chính xác ban đầu (2020) Độ chính xác sau tối ưu (2024) Phương pháp cải thiện
Lĩnh vực phổ thông 85% 92% Thêm 1 triệu dữ liệu gắn nhãn, tối ưu tham số tinh chỉnh BERT
Văn bản dài (>5000 chữ) 78% 90% Đưa vào chiến lược “xử lý phân đoạn” (chia thành các đoạn 500 chữ)
Lĩnh vực dọc (pháp luật) 78% 90% Huấn luyện mô hình chuyên biệt theo lĩnh vực (hơn 100.000 văn bản pháp lý gắn nhãn)
Thực thể mới nổi (như “dopamine dressing”) 62% 85% Kết hợp khả năng dự đoán ngữ cảnh của BERT để nhận diện từ mới một cách động

Phản hồi từ người dùng:

Google sẽ thu thập dữ liệu hành vi tìm kiếm của người dùng (ví dụ trang mà người dùng nhấp có chứa thực thể mục tiêu hay không) để tối ưu mô hình theo chiều ngược lại.

Ví dụ, nếu người dùng tìm “chuẩn chống nước iPhone 15” nhưng trang họ nhấp vào không gắn nhãn “IP68” là ATTRIBUTE (thuộc tính), mô hình sẽ điều chỉnh tham số để tăng cường nhận diện các thực thể liên quan đến “chuẩn chống nước”.

“Kéo quan hệ” giữa các từ để xây dựng logic

Khi người dùng tìm “giày phù hợp để chạy bộ”, Google cần biết mối quan hệ giữa “chạy bộ” và “giày” (công dụng), cũng như giữa “đế giữa giảm chấn” và “giày chạy bộ” (thuộc tính), từ đó mới có thể trả về kết quả thực sự liên quan.

Năng lực “kéo quan hệ giữa các từ” này được gọi là liên kết ngữ nghĩa (Semantic Relation Extraction).

Mô hình tiền huấn luyện và đồ thị tri thức

1. Mô hình tiền huấn luyện: “tự học” quan hệ từ lượng lớn văn bản

Các mô hình tiền huấn luyện (như BERT, PaLM) là “bộ học tập” cốt lõi của liên kết ngữ nghĩa. Chúng phân tích lượng văn bản quy mô nghìn tỷ trên Internet (như trang web, sách, diễn đàn) để tự động nắm bắt các quan hệ ẩn giữa các từ. Ví dụ:

  • Trong các câu như “giày chạy bộ phù hợp chạy đường dài” hay “giày bóng rổ phù hợp bật nhảy”, mô hình sẽ học được mối quan hệ công dụng giữa “giày chạy bộ” với “chạy đường dài”, “giày bóng rổ” với “bật nhảy”;
  • Trong các câu như “iPhone 15 trang bị chip A17” và “MacBook Pro dùng chip M3”, mô hình sẽ học được quan hệ “trang bị” giữa “iPhone 15” với “chip A17”, và giữa “MacBook Pro” với “chip M3”.

Chi tiết kỹ thuật:

Các mô hình tiền huấn luyện biểu diễn ngữ nghĩa của mỗi từ bằng “embedding theo ngữ cảnh” (Contextualized Embedding).

Ví dụ, vectơ của “giày chạy bộ” trong các câu khác nhau sẽ thay đổi theo ngữ cảnh (như “giày chạy bộ giảm chấn tốt” so với “giày chạy bộ thời trang”), giúp mô hình nắm bắt những khác biệt tinh tế này và xác định quan hệ cụ thể giữa các từ.

2. Đồ thị tri thức: dùng kiến thức có cấu trúc để “xác minh + bổ sung” quan hệ

Dù mô hình tiền huấn luyện có thể học được các quan hệ ẩn, nó vẫn có thể mắc lỗi (chẳng hạn đánh giá sai quan hệ giữa “Apple” và “trái cây” thành “thương hiệu”).

Lúc này, đồ thị tri thức của Google (bao gồm hơn 500 triệu thực thể và 20 tỷ quan hệ) sẽ cung cấp kiến thức có cấu trúc để xác minh và bổ sung cho các quan hệ mà mô hình học được.

Ví dụ, khi mô hình phân tích câu “Nhà cung cấp màn hình của iPhone 15 là Samsung”:

  • Mô hình tiền huấn luyện sẽ học được từ ngữ cảnh rằng giữa “iPhone 15” và “Samsung” tồn tại quan hệ “nhà cung cấp”;
  • Trong đồ thị tri thức đã có quan hệ có cấu trúc “iPhone 15 → nhà cung cấp màn hình → Samsung”, xác minh rằng quan hệ này là đúng, cuối cùng xác nhận mối liên kết giữa “iPhone 15” và “Samsung”.
Mạng quan hệ từ cơ bản đến phức tạp

Google định nghĩa hơn 20 loại quan hệ chi tiết, bao phủ 90% các bối cảnh tìm kiếm của người dùng. Những quan hệ này có thể chia thành ba nhóm lớn:

1. Quan hệ cơ bản (lĩnh vực phổ thông)

Loại quan hệ Định nghĩa Ví dụ (từ trang “Cách chọn giày chạy bộ”)
Quan hệ cấp trên – cấp dưới A là phân loại con của B (hoặc ngược lại) “giày chạy bộ” → “đồ thể thao” (giày chạy bộ thuộc đồ thể thao)
Quan hệ thuộc tính A là đặc trưng / tham số của B “đế giữa giảm chấn” → “giày chạy bộ” (đế giữa giảm chấn là thuộc tính của giày chạy bộ)
Công dụng A dùng cho B “ấm pour-over” → “pha cà phê” (ấm pour-over dùng để pha cà phê)
Trình tự thời gian A xảy ra trước / sau B “ra mắt” → “lên kệ” (sản phẩm ra mắt trước rồi mới bán)

2. Quan hệ phức tạp (lĩnh vực dọc)

Đối với nội dung chuyên môn như pháp luật, y tế, công nghệ, Google bổ sung các loại quan hệ tinh hơn:

  • Lĩnh vực pháp luật: “trách nhiệm do lỗi trong giai đoạn giao kết” → “vi phạm nguyên tắc thiện chí, trung thực” (quan hệ nhân quả); “Điều 10 Bộ luật Dân sự” → “hiệu lực hôn nhân” (quan hệ phạm vi áp dụng).
  • Lĩnh vực y tế: “nhồi máu cơ tim” → “tắc động mạch vành” (quan hệ nguyên nhân bệnh); “Aspirin” → “ức chế kết tập tiểu cầu” (quan hệ dược lý).
  • Lĩnh vực công nghệ: “Python” → “hướng dẫn crawler” (quan hệ lĩnh vực ứng dụng); “kiến trúc ARM” → “tiêu thụ điện năng thấp” (quan hệ đặc tính kỹ thuật).

Năm bước từ khai quật quan hệ ứng viên đến xác minh toàn cục

Dưới đây lấy câu “Khi chọn giày chạy bộ, đế giữa giảm chấn là chìa khóa, nó có thể giảm áp lực lên đầu gối” để phân tích quy trình:

Bước 1: Khai quật quan hệ ứng viên — tìm ra những “hạt giống quan hệ” có thể có

Mô hình trước hết quét văn bản, dựa trên kho quy tắc (ví dụ “X là yếu tố then chốt của Y” có thể ám chỉ quan hệ công dụng) và xác suất thống kê (ví dụ xác suất “đế giữa giảm chấn” đồng xuất hiện với “giày chạy bộ” là 90%), từ đó đánh dấu các quan hệ ứng viên.

  • Ứng viên 1: “giày chạy bộ” và “đế giữa giảm chấn” (có thể là quan hệ thuộc tính);
  • Ứng viên 2: “đế giữa giảm chấn” và “giảm áp lực đầu gối” (có thể là quan hệ công dụng).

Bước 2: Phân loại loại quan hệ — “dán nhãn” cho ứng viên

Mô hình thông qua “đầu phân loại quan hệ” của mô hình tiền huấn luyện để dự đoán loại quan hệ cho từng ứng viên:

  • “giày chạy bộ” và “đế giữa giảm chấn” → quan hệ thuộc tính (đế giữa giảm chấn là thuộc tính của giày chạy bộ);
  • “đế giữa giảm chấn” và “giảm áp lực đầu gối” → quan hệ công dụng (đế giữa giảm chấn dùng để giảm áp lực đầu gối).

Bước 3: Xác định biên — hiệu chỉnh “phạm vi tác dụng” của quan hệ

Một số ứng viên có thể gặp lỗi biên (ví dụ “đế giữa giảm chấn” có thể bị đánh giá nhầm là thành phần cấu tạo của “giày chạy bộ” thay vì là thuộc tính), lúc này mô hình sẽ dùng vectơ ngữ cảnh để xác minh biên:

  • “Đế giữa giảm chấn” mô tả “đặc trưng vật liệu / cấu trúc” của giày chạy bộ, thuộc về thuộc tính chứ không phải bộ phận cấu thành (như “đế giày”, “thân giày”), vì vậy được hiệu chỉnh thành quan hệ thuộc tính.

Bước 4: Kiểm tra toàn cục — hiệu chỉnh sai sót dựa trên toàn văn

Mô hình sẽ tạo ra “vectơ ngữ nghĩa toàn cục” cho cả đoạn văn (biểu thị chủ đề chung, ví dụ “hướng dẫn chọn giày chạy bộ”), rồi kiểm tra xem quan hệ cục bộ có mâu thuẫn với chủ đề hay không. Ví dụ:

  • Nếu chủ đề là “chọn mua giày chạy bộ”, thì quan hệ công dụng giữa “đế giữa giảm chấn” và “giảm áp lực đầu gối” là phù hợp với chủ đề;
  • Nếu chủ đề là “phòng tránh chấn thương thể thao”, thì cần đánh giá lại xem quan hệ đó có liên quan đến “phòng tránh chấn thương” hay không.

Bước 5: Xác minh bằng đồ thị tri thức — dùng tri thức có cấu trúc để “chống rơi”

Mô hình sẽ gọi đồ thị tri thức để xác minh tính hợp lý của quan hệ:

  • Trong đồ thị tri thức, các thuộc tính của “giày chạy bộ” bao gồm “đế giữa giảm chấn”, “trọng lượng”, “chất liệu đế”, xác nhận “đế giữa giảm chấn” là thuộc tính hợp lệ của giày chạy bộ;
  • Trong đồ thị tri thức, các chức năng của “đế giữa giảm chấn” bao gồm “giảm áp lực đầu gối”, “tăng sự thoải mái”, xác nhận “giảm áp lực đầu gối” là chức năng hợp lệ của nó.
Google đảm bảo độ chính xác của liên kết ngữ nghĩa như thế nào
Khía cạnh kiểm thử Độ chính xác ban đầu (2020) Độ chính xác sau tối ưu (2024) Phương pháp cải thiện
Quan hệ phổ biến (cấp trên – cấp dưới, thuộc tính) 78% 88% Thêm 2 triệu dữ liệu gắn nhãn, tối ưu tham số tinh chỉnh BERT
Quan hệ phức tạp (nhân quả, công dụng) 65% 82% Đưa vào kỹ thuật “suy luận chuỗi” (nối các thực thể xa nhau qua nút trung gian)
Lĩnh vực dọc (y tế) 60% 79% Huấn luyện mô hình chuyên biệt theo lĩnh vực (hơn 50.000 văn bản y tế gắn nhãn)
Quan hệ mới nổi (như “mô hình AI lớn → đa phương thức”) 52% 75% Kết hợp khả năng dự đoán ngữ cảnh của mô hình tiền huấn luyện để nhận diện quan hệ mới một cách động
Kết hợp toàn văn để hiệu chỉnh sai lệch ngữ nghĩa của từ

Khi người dùng tìm “hướng dẫn Python”, Google cần xác định “Python” trên trang là ngôn ngữ lập trình (62%) hay loài rắn (18%);

Khi người dùng tìm “sự kiện ra mắt của Apple”, hệ thống cần xác nhận “Apple” là công ty công nghệ (95%) chứ không phải trái cây (5%).

Năng lực “kết hợp toàn văn để hiệu chỉnh sai lệch ngữ nghĩa của từ” này được gọi là hiệu chỉnh ngữ cảnh (Contextual Disambiguation).

Chú ý hai chiều và ngữ nghĩa toàn cục

1. Nắm bắt ngữ nghĩa bằng cách “nhìn cả trước lẫn sau” cùng lúc

Cơ chế chú ý hai chiều (như thiết kế cốt lõi của BERT) cho phép mô hình đồng thời phân tích nửa trước và nửa sau của câu, từ đó nắm bắt mối quan hệ “nguyên nhân – kết quả” giữa các từ.

Ví dụ, khi xử lý câu “Quả táo của Tiểu Minh đã chín”, mô hình trước tiên sẽ chú ý đến “Tiểu Minh” và “đã chín”, bước đầu phán đoán rằng “táo” có thể là trái cây;

Nhưng khi xử lý câu tiếp theo “Cậu ấy định dùng Apple để phát hành hệ điều hành mới”, mô hình sẽ quay lại ngữ cảnh trước đó, phát hiện “phát hành hệ điều hành mới” không liên quan đến trái cây, từ đó hiệu chỉnh ngữ nghĩa của “Apple” thành “công ty công nghệ”.

Chi tiết kỹ thuật:

Chú ý hai chiều được hiện thực thông qua ma trận “truy vấn – khóa – giá trị” (Query-Key-Value):

  • Truy vấn (Query): vectơ ngữ nghĩa của từ hiện tại;
  • Khóa (Key): vectơ ngữ nghĩa của các từ khác;
  • Giá trị (Value): vectơ ngữ nghĩa của các từ khác (đã được trọng số hóa theo attention).

Mô hình tính độ tương đồng giữa “Query” và “Key” để phân bổ “trọng số chú ý” cho từng từ. Trọng số càng cao thì từ đó càng ảnh hưởng nhiều đến ngữ nghĩa của từ hiện tại.

Ví dụ, “phát hành hệ điều hành mới” có trọng số chú ý với “Apple” lên tới 0,8 (trên thang 1), cao hơn nhiều so với “đã chín” với “Apple” chỉ 0,2, vì vậy mô hình sẽ ưu tiên tham chiếu “phát hành hệ điều hành mới” để hiệu chỉnh ngữ nghĩa của “Apple”.

2. “Mỏ neo chủ đề” của toàn bộ trang

Ngoài ngữ cảnh cục bộ trong từng câu, Google còn tạo cho toàn trang một “vectơ ngữ nghĩa toàn cục” (Global Semantic Vector), biểu thị chủ đề chung của trang (như “đánh giá sản phẩm công nghệ”, “thực đơn giảm cân”).

Khi ngữ nghĩa của từ ở cục bộ mâu thuẫn với chủ đề toàn cục, mô hình sẽ ưu tiên hiệu chỉnh theo ý nghĩa phù hợp với chủ đề.

Ví dụ, khi xử lý một trang có tiêu đề “Bài kiểm tra chống nước iPhone 15 bản 2025”:

  • Trong câu cục bộ “iPhone 15 vừa được Apple ra mắt hỗ trợ liên lạc vệ tinh”, ngữ nghĩa ban đầu của “Apple” có thể là “trái cây”;
  • Nhưng vectơ ngữ nghĩa toàn cục cho thấy chủ đề của trang là “đánh giá điện thoại”, vì vậy mô hình sẽ hiệu chỉnh “Apple” thành “công ty công nghệ”.
Bốn bước từ mơ hồ cục bộ đến nhất quán toàn cục

Dưới đây lấy nội dung trang “iPhone 15 vừa được Apple ra mắt hỗ trợ liên lạc vệ tinh, đây là tin tốt cho người yêu hoạt động ngoài trời” để phân tích quy trình:

Bước 1: Phát hiện mơ hồ cục bộ — đánh dấu những từ “đáng ngờ”

Mô hình trước tiên quét toàn văn để nhận diện những từ có khả năng gây mơ hồ (từ đa nghĩa, đại từ quy chiếu…). Trong ví dụ này, “Apple” là từ đa nghĩa điển hình (trái cây / công ty công nghệ), còn “nó” là đại từ (cần xác định đối tượng mà nó quy chiếu đến).

Bước 2: Phân tích ngữ cảnh cục bộ — trích xuất “ngữ nghĩa ứng viên”

Đối với từng từ “đáng ngờ”, mô hình sẽ phân tích ngữ cảnh cục bộ của nó (1 – 3 câu trước và sau) để trích xuất các ngữ nghĩa ứng viên có thể có:

  • Các ngữ nghĩa ứng viên của “Apple”:
    • Ứng viên 1: trái cây (dựa trên các tổ hợp phổ biến với “đã chín”, “ăn”…);
    • Ứng viên 2: công ty công nghệ (dựa trên các tổ hợp phổ biến như “ra mắt iPhone 15”, “liên lạc vệ tinh”…).
  • Các ngữ nghĩa ứng viên của “nó”:
    • Ứng viên 1: iPhone 15 (quy chiếu đến “iPhone 15” ở câu trước);
    • Ứng viên 2: liên lạc vệ tinh (quy chiếu đến “tính năng liên lạc vệ tinh” ở câu trước).

Bước 3: Kiểm tra ngữ nghĩa toàn cục — đối chiếu với chủ đề trang

Mô hình tạo ra “vectơ ngữ nghĩa toàn cục” của cả trang (thông qua mã hóa toàn văn bằng BERT), sau đó tính độ tương đồng giữa nó với các vectơ ngữ nghĩa ứng viên để chọn ý nghĩa phù hợp nhất với chủ đề toàn cục:

  • Tiêu đề và phần thân trang nhiều lần xuất hiện các từ như “iPhone 15”, “liên lạc vệ tinh”, “người yêu hoạt động ngoài trời”, khiến vectơ ngữ nghĩa toàn cục hướng về chủ đề “đánh giá sản phẩm công nghệ”;
  • Trong các ngữ nghĩa ứng viên của “Apple”, “công ty công nghệ” có độ tương đồng với chủ đề toàn cục (cosine similarity 0,85) cao hơn nhiều so với “trái cây” (0,12), vì vậy sẽ được chọn trước;
  • Trong các ngữ nghĩa ứng viên của “nó”, “iPhone 15” có độ tương đồng với chủ đề toàn cục (0,9) cao hơn “liên lạc vệ tinh” (0,6), vì vậy sẽ được hiệu chỉnh thành “iPhone 15”.

Bước 4: Giải quyết xung đột — xử lý mâu thuẫn giữa nhiều nguồn thông tin

Nếu ngữ cảnh cục bộ và chủ đề toàn cục xung đột (ví dụ một câu nào đó dùng “Apple” để chỉ trái cây, nhưng toàn bài lại nói về công nghệ), mô hình sẽ tiếp tục phân tích nguyên nhân xung đột:

  • Nếu là “lỗi chính tả” (ví dụ “Apple” lẽ ra phải là “dâu tây”), mô hình sẽ giữ nguyên ngữ nghĩa toàn cục;
  • Nếu là “nhiều nghĩa cùng tồn tại” (ví dụ trang cùng lúc thảo luận về “trái táo” và “Apple Inc.”), mô hình sẽ tạo ra “phân tầng ngữ nghĩa”, ưu tiên hiển thị ý nghĩa liên quan hơn đến truy vấn của người dùng.
Google đảm bảo độ chính xác của hiệu chỉnh ngữ cảnh như thế nào
Khía cạnh kiểm thử Độ chính xác ban đầu (2020) Độ chính xác sau tối ưu (2024) Phương pháp cải thiện
Truy vấn đa nghĩa (Python) 58% 82% Đưa vào cơ chế chú ý hai chiều của BERT, tăng thêm 1 triệu văn bản đa nghĩa đã gắn nhãn
Hiệu chỉnh đại từ quy chiếu (“nó”) 65% 89% Huấn luyện “mô hình giải quyết quy chiếu” (dựa trên hơn 100.000 câu quy chiếu đã gắn nhãn)
Văn bản dài (>5000 chữ) 52% 78% Đưa vào “vectơ toàn cục phân đoạn” (mỗi 500 chữ sinh một vectơ toàn cục cục bộ)
Hiệu chỉnh xuyên ngôn ngữ (Anh → Trung) 48% 75% Kết hợp mô hình BERT đa ngôn ngữ, tăng thêm 500.000 cặp gắn nhãn đối齐 xuyên ngôn ngữ

NLP phán đoán người dùng muốn gì như thế nào

Công nghệ NLP của Google thông qua việc phân tích “loại ý định” trong truy vấn của người dùng (thông tin / điều hướng / giao dịch), “mở rộng ngữ nghĩa” (nhu cầu tiềm ẩn) và “thích ứng bối cảnh” (thời gian / địa điểm / thiết bị) để xác định nhu cầu thực sự của người dùng.

Mỗi ngày Google xử lý hơn 8,5 tỷ lượt tìm kiếm (dữ liệu năm 2024), CTR (tỷ lệ nhấp) của truy vấn dạng thông tin tăng từ 12% lên 28% (sau khi đưa NLP vào), còn độ chính xác của truy vấn đa nghĩa tăng từ 58% lên 82% (sau tối ưu bằng mô hình BERT).

Loại ý định

1. Nhu cầu thông tin: người dùng muốn “học kiến thức”

Từ đặc trưng: “làm thế nào”, “nguyên lý”, “nguyên nhân”, “hướng dẫn”…

Ví dụ: người dùng tìm “cách pha cà phê pour-over”, “nguyên nhân gây nhồi máu cơ tim”, NLP sẽ khớp với các trang hướng dẫn, trang phổ cập kiến thức.

Dữ liệu hỗ trợ: thử nghiệm nội bộ của Google năm 2023 cho thấy tỷ lệ kết quả hiệu quả ở màn hình đầu tiên của truy vấn thông tin tăng từ 38% lên 72% (nhờ nhận diện các từ như “làm thế nào”…).

2. Nhu cầu điều hướng: người dùng muốn “tìm một website cụ thể”

Từ đặc trưng: “trang chủ”, “chính thức”, “đăng nhập”, “đăng ký”…

Ví dụ: người dùng tìm “trang chủ Taobao”, “đăng nhập Apple ID”, NLP sẽ trực tiếp dẫn đến website chính thức thay vì trang của bên thứ ba.

Dữ liệu hỗ trợ: nghiên cứu của Microsoft năm 2024 cho thấy xác suất người dùng nhấp vào website mục tiêu trong truy vấn điều hướng tăng từ 45% lên 89% (nhờ NLP nhận diện chính xác các từ như “trang chủ”).

3. Nhu cầu giao dịch: người dùng muốn “mua hàng / dịch vụ”

Từ đặc trưng: “gợi ý”, “giá rẻ”, “giảm giá”, “mua”…

Ví dụ: người dùng tìm “gợi ý bàn phím cơ giá rẻ”, “trạm xăng gần đây”, NLP sẽ ưu tiên hiển thị trang thương mại điện tử hoặc cửa hàng địa phương.

Dữ liệu hỗ trợ: khảo sát eMarketer năm 2024 cho thấy tỷ lệ chuyển đổi của truy vấn giao dịch tăng từ 3,2% lên 5,8% (do NLP bao phủ được nhu cầu tiềm ẩn như “gợi ý”, “giảm giá”).

Bảng so sánh loại ý định:

Loại Ví dụ từ đặc trưng Mục tiêu của người dùng Chiến lược khớp của NLP
Thông tin Làm thế nào, nguyên lý, hướng dẫn Tiếp thu kiến thức Khớp với các trang hướng dẫn / phổ cập kiến thức
Điều hướng Trang chủ, chính thức, đăng nhập Truy cập một website cụ thể Dẫn trực tiếp đến website chính thức
Giao dịch Gợi ý, giá rẻ, giảm giá, mua Mua sản phẩm / dịch vụ Ưu tiên hiển thị trang thương mại điện tử / doanh nghiệp địa phương

Mở rộng ngữ nghĩa

Từ khóa tìm kiếm của người dùng thường chỉ thể hiện 10% – 20% nhu cầu cốt lõi, phần còn lại 80% – 90% là tiềm ẩn (ví dụ “giá cả”, “độ khó”, “bối cảnh áp dụng”).

NLP thông qua công nghệ mở rộng ngữ nghĩa (Semantic Expansion), mở rộng từ từ khóa cốt lõi sang các nhu cầu liên quan, chủ động bao phủ những ý định mà người dùng chưa nói rõ.

Cách mở rộng 1: Mở rộng bằng từ liên quan

NLP dựa trên “không gian vectơ từ” (Word Embedding) để liên kết từ khóa cốt lõi với các từ có ngữ nghĩa gần nhau. Ví dụ:

  • Từ khóa cốt lõi “thực đơn giảm cân” → các từ liên quan “ít calo”, “dễ làm”, “phù hợp dân văn phòng”, “không đường”;
  • Từ khóa cốt lõi “mưa nên mặc gì” → các từ liên quan “chống nước”, “chống trượt”, “nhẹ”, “giữ ấm”.

Dữ liệu hỗ trợ: thử nghiệm A/B của Google năm 2022 cho thấy, với kết quả tìm kiếm bao phủ nhu cầu tiềm ẩn, thời gian người dùng ở lại trang tăng từ 45 giây lên 78 giây (tăng 73%).

Cách mở rộng 2: Mở rộng theo bối cảnh

NLP kết hợp thời gian, địa điểm và thiết bị khi tìm kiếm để tinh chỉnh nhu cầu sâu hơn. Ví dụ:

  • Bối cảnh thời gian: mùa đông tìm “áo khoác” → mở rộng thành “lót nỉ”, “giữ ấm”; mùa hè tìm “áo khoác” → mở rộng thành “chống nắng”, “mỏng nhẹ”;
  • Bối cảnh địa điểm: tìm “lẩu” ở Thượng Hải → mở rộng thành “nổi tiếng địa phương”; ở Thành Đô → mở rộng thành “vị Tứ Xuyên chính gốc”;
  • Bối cảnh thiết bị: dùng điện thoại tìm “trạm xăng gần đây” → mở rộng thành “giá xăng thời gian thực”, “gần nhất”; dùng máy tính → mở rộng thành “đánh giá người dùng”, “khuyến mãi”.

Dữ liệu hỗ trợ: nghiên cứu đa bối cảnh của Microsoft năm 2024 cho thấy, sau khi mở rộng theo bối cảnh, thời gian người dùng hoàn thành nhiệm vụ giảm 42% (trên di động từ 90 giây xuống 52 giây).

NLP “đọc hiểu” nhu cầu người dùng như thế nào

1. Hiểu ngôn ngữ tự nhiên (NLU)

NLU là nền tảng của NLP, thông qua tách từ, nhận diện thực thể và liên kết ngữ nghĩa để cùng nhau “phân tách” truy vấn của người dùng. Ví dụ:

  • Người dùng tìm “bài kiểm tra chống nước iPhone 15 bản 2025” → được tách thành “bản 2025 / iPhone 15 / kiểm tra chống nước”;
  • Nhận diện thực thể thành “TIME (năm 2025)”, “PRODUCT (iPhone 15)”, “EVENT (kiểm tra chống nước)”;
  • Liên kết ngữ nghĩa gộp lại thành “bài kiểm tra hiệu năng chống nước của iPhone 15 năm 2025”.

Dữ liệu hỗ trợ: blog kỹ thuật của Google năm 2023 cho thấy NLU đạt độ chính xác 92% trong việc phân tách các truy vấn phức tạp (lĩnh vực phổ thông).

2. Mô hình học sâu (như BERT)

Các mô hình tiền huấn luyện như BERT học “ngữ nghĩa ngữ cảnh” từ lượng văn bản cấp nghìn tỷ, từ đó giải quyết vấn đề nhập nhằng. Ví dụ:

  • Người dùng tìm “Python” → BERT phân tích ngữ cảnh (như “hàm print()”, “hướng dẫn crawler”) → phán đoán đây là ngôn ngữ lập trình;
  • Người dùng tìm “Java” → BERT kết hợp các từ liên quan như “cà phê”, “lập trình” → phán đoán đó là ngôn ngữ lập trình (62%) hay đảo Java (18%).

Dữ liệu hỗ trợ: thử nghiệm nội bộ của Google năm 2024 cho thấy BERT đã nâng độ chính xác của truy vấn đa nghĩa từ 58% lên 82%.

3. Tích hợp dữ liệu bối cảnh thời gian thực

NLP tích hợp các dữ liệu thời gian thực như thời gian trên thiết bị, vị trí địa lý, lịch sử tìm kiếm của người dùng để điều chỉnh việc phán đoán nhu cầu một cách động. Ví dụ:

  • Người dùng dùng điện thoại tìm “trạm xăng gần đây” → NLP lấy định vị GPS → ưu tiên hiển thị các trạm xăng trong bán kính 3 km;
  • Người dùng tìm “vé xem phim” vào cuối tuần → NLP kết hợp yếu tố thời gian (cuối tuần) → gợi ý các suất chiếu của rạp đang hot.

Dữ liệu hỗ trợ: khảo sát của Pew Research năm 2024 cho thấy, sau khi tích hợp dữ liệu bối cảnh thời gian thực, mức độ hài lòng của người dùng với kết quả tìm kiếm tăng từ 68% lên 85%.

Hiệu quả thực tế

Dưới đây là dữ liệu hành vi người dùng trong ba bối cảnh điển hình:

Loại bối cảnh Tìm kiếm truyền thống (không có NLP) Tìm kiếm tối ưu bằng NLP Mức cải thiện Nguồn dữ liệu
Truy vấn thông tin (cách làm bánh) Màn hình đầu lẫn lộn quảng cáo và hướng dẫn không liên quan Màn hình đầu hiển thị trực tiếp hướng dẫn với các bước rõ ràng Thời gian ở lại trang tăng từ 45 giây → 78 giây (+73%) Thử nghiệm A/B của Google năm 2022
Truy vấn điều hướng (trang chủ Taobao) Màn hình đầu có cả nền tảng mua sắm của bên thứ ba Màn hình đầu chỉ hiển thị website chính thức của Taobao Xác suất nhấp vào website mục tiêu tăng từ 45% → 89% Nghiên cứu của Microsoft năm 2024
Truy vấn giao dịch (bàn phím cơ giá rẻ) Màn hình đầu lẫn nhiều sản phẩm giá cao Màn hình đầu ưu tiên các mẫu có hiệu suất / giá tốt Tỷ lệ chuyển đổi tăng từ 3,2% → 5,8% (+81%) Khảo sát của eMarketer năm 2024

Cuối cùng, điều tôi muốn nói là: cốt lõi của việc NLP phán đoán nhu cầu người dùng nằm ở chỗ biến “những từ người dùng nhập vào” thành “ý định thực sự của người dùng”.

滚动至顶部