微信客服
Telegram:guangsuan
电话联系:18928809533
发送邮件:[email protected]

SEO Knowledge Graph là gì丨Tính năng Knowledge Graph trong SERP là gì

本文作者:Don jiang

Knowledge Graph SEO là tập dữ liệu quan hệ thực thể có cấu trúc, bao gồm các thuộc tính như con người, sự kiện và nhiều yếu tố khác;

Trong SERP, các thành phần như bảng tri thức Google Knowledge Graph bao phủ hơn 500 triệu thực thể, hiển thị trực tiếp câu trả lời và nâng cao hiệu quả tiếp cận thông tin.

Knowledge Graph SEO là gì

Định nghĩa cơ bản

Google Knowledge Graph là mạng dữ liệu có cấu trúc dựa trên các thực thể trong thế giới thực, bao phủ hơn 500 triệu thực thể (con người, doanh nghiệp, địa điểm, v.v.), kết nối các mảnh thông tin rời rạc thông qua bộ ba “thực thể – thuộc tính – quan hệ” (ví dụ: “Tesla – thời gian thành lập – năm 2003”).

Nó trực tiếp cung cấp câu trả lời có cấu trúc cho câu hỏi của người dùng (ví dụ tìm kiếm “Einstein” sẽ hiển thị năm sinh năm mất và đóng góp ở phía bên phải), thay thế danh sách liên kết truyền thống. Dữ liệu của Google năm 2023 cho thấy 70% các câu hỏi đơn giản (như “tác giả của Harry Potter”) đã được giải quyết bằng thẻ Knowledge Graph.

Đối với website, tỷ lệ nhấp của trang chính thức của thực thể được thu thập cao hơn 28% so với kết quả thông thường (thống kê Moz 2024), nhưng cần đáp ứng các điều kiện nghiêm ngặt như “nguồn thông tin có thẩm quyền phải nhất quán”.

Bản chất của Knowledge Graph

Nếu công cụ tìm kiếm truyền thống là “thư viện trang web”, nơi người dùng phải tự mình lật tìm sách trên giá (nhấp vào liên kết) để tìm câu trả lời;

thì Google Knowledge Graph là “từ điển số”, nó chuyển “kiến thức rời rạc” nằm rải rác trên vô số trang web thành “ngôn ngữ có cấu trúc” mà máy có thể hiểu trực tiếp, sau đó sắp xếp chúng thành “thẻ câu trả lời” để người dùng có thể tiếp cận nhanh chóng.

Từ “văn bản hỗn loạn” đến “văn bản có cấu trúc”

Từ khóa mà người dùng nhập khi tìm kiếm (như “người sáng lập Tesla”), về bản chất là một chuỗi “chỉ lệnh ngôn ngữ tự nhiên”.

Bước đầu tiên Google cần làm là “tách” ra từ khối lượng lớn trang web những thông tin liên quan đến “Tesla” và “người sáng lập”. Nhưng nội dung trang web lại là “văn bản phi cấu trúc” — có thể là đoạn trong bách khoa toàn thư (“Tesla do Martin Eberhard và Marc Tarpenning thành lập vào năm 2003”), câu trong thông cáo báo chí (“Năm 2004, Elon Musk đầu tư 6,3 triệu USD vào Tesla và trở thành cổ đông lớn nhất”), thậm chí là bình luận trên diễn đàn (“Thực ra Tesla có khá nhiều người sáng lập, đội ngũ ban đầu rất quan trọng”).

Để biến những “văn bản hỗn loạn” này thành dữ liệu có cấu trúc mà máy có thể đọc hiểu, Google dựa vào hai công nghệ NLP là nhận diện thực thể (Named Entity Recognition, NER)trích xuất thuộc tính (Attribute Extraction):

  • Nhận diện thực thể:Thông qua các mô hình tiền huấn luyện (như biến thể của BERT) để nhận diện “thực thể được đặt tên” trong văn bản (ví dụ “Tesla”, “Martin Eberhard”, “năm 2003”), đồng thời gắn nhãn loại của chúng (doanh nghiệp, con người, thời gian).
  • Trích xuất thuộc tính:Phân tích quan hệ ngữ nghĩa giữa các thực thể, trích xuất cặp “thuộc tính – giá trị” (ví dụ “Tesla – người sáng lập – Martin Eberhard”, “Tesla – thời gian thành lập – năm 2003”).

Lấy một ví dụ cụ thể: giả sử trang web A viết “Tesla được Martin Eberhard và JB Straubel thành lập vào ngày 1 tháng 4 năm 2003”, trang web B viết “Năm 2004, Musk dẫn đầu vòng gọi vốn Series A của Tesla, nắm giữ khoảng 22% cổ phần”.

Hệ thống NLP của Google sẽ:

  1. Nhận diện các thực thể như “Tesla” (doanh nghiệp), “Martin Eberhard” (nhân vật), “JB Straubel” (nhân vật), “ngày 1 tháng 4 năm 2003” (thời gian), “năm 2004” (thời gian), “Musk” (nhân vật);
  2. Trích xuất các cặp thuộc tính: “Tesla – người sáng lập – Martin Eberhard”, “Tesla – người sáng lập – JB Straubel”, “Tesla – thời gian thành lập – ngày 1 tháng 4 năm 2003”, “Tesla – nhà đầu tư – Musk”, “Tesla – thời gian gọi vốn – năm 2004”;
  3. Tích hợp các cặp thuộc tính này thành “bộ ba” (Entity-Attribute-Value), lưu vào cơ sở dữ liệu của Knowledge Graph.

Theo sách trắng kỹ thuật của Google năm 2023, hệ thống NLP của họ đạt độ chính xác 92% trong nhận diện thực thể khi xử lý một trang web đơn lẻ (đối với thông tin doanh nghiệp đã chuẩn hóa), nhưng với trích xuất thuộc tính trong các câu phức tạp (như “do XX cùng YY đồng sáng lập”) vẫn có sai số 8% — đây cũng là lý do vì sao một số thông tin doanh nghiệp hiển thị không đầy đủ trong Knowledge Graph.

Schema.org

Nhưng vấn đề xuất hiện ở đây: các trang web khác nhau có thể dùng từ vựng khác nhau để mô tả cùng một thực thể (ví dụ “người sáng lập” có thể được viết là “đồng sáng lập”, “đội ngũ ban đầu”), thậm chí tên thuộc tính còn bị lẫn lộn (ví dụ “thời gian thành lập” có thể được ghi là “năm sáng lập”, “ngày thành lập công ty”).

Nếu Google dùng “quy tắc tự phát triển” để ép buộc diễn giải, rất dễ xảy ra tình trạng “gán nhầm” (gắn người sáng lập của công ty A sang công ty B).

Để giải quyết vấn đề này, Google cùng với Microsoft, Yahoo và các công ty công cụ tìm kiếm khác đã ra mắt Schema.org vào năm 2011 — một bộ “tiêu chuẩn đánh dấu dữ liệu có cấu trúc” dùng chung trên toàn cầu.

Nói đơn giản, Schema.org giống như một “từ điển thông tin”, quy định “loại thực thể” (như Organization cho doanh nghiệp, Person cho con người) và “nhãn thuộc tính” (như foundingDate là thời gian thành lập, founder là người sáng lập). Các nhà phát triển website có thể dùng các nhãn này để “chủ động nói với” Google rằng: “Trên trang web của tôi, dữ liệu này thuộc loại thực thể nào, tương ứng với những thuộc tính nào.”

Lấy website chính thức của doanh nghiệp làm ví dụ, nếu dùng Schema.org để đánh dấu “Tesla”:

<script type=”application/ld+json”>
{
“@context”: “https://schema.org”,
“@type”: “Organization”,
“name”: “Tesla, Inc.”,
“foundingDate”: “2003-04-01”,
“founder”: [
{ “@type”: “Person”, “name”: “Martin Eberhard” },
{ “@type”: “Person”, “name”: “Marc Tarpenning” }
],
“investor”: [
{ “@type”: “Person”, “name”: “Elon Musk”, “investmentAmount”: “6.3 million USD” }
]
}
</script>

Sau khi trình thu thập dữ liệu của Google (Googlebot) lấy được đoạn mã này, nó sẽ trực tiếp trích xuất các thông tin như foundingDate (thời gian thành lập), founder (người sáng lập), investor (nhà đầu tư) của “Tesla”, không cần tiếp tục dùng NLP để “đoán” ý nghĩa văn bản nữa.

Giá trị của Schema.org lớn đến mức nào? Dữ liệu nội bộ của Google năm 2024 cho thấy: website chính thức của doanh nghiệp sử dụng Schema.org có xác suất được Knowledge Graph thu thập các thuộc tính cốt lõi (tên, thời gian thành lập, trụ sở chính) cao hơn 47% so với website không được đánh dấu;

và với các website được đánh dấu đầy đủ (bao phủ trên 10 thuộc tính cốt lõi), độ chính xác thông tin tăng từ 68% của website không đánh dấu lên 91%.

Xác minh độ tin cậy

Dù trang web có dùng Schema.org để đánh dấu, Google cũng sẽ không trực tiếp “tiếp nhận toàn bộ”.

Để đảm bảo độ chính xác của Knowledge Graph, Google có một cơ chế đối chiếu chéo nhiều nguồn, với logic cốt lõi là: “Cùng một thuộc tính của cùng một thực thể phải giữ được sự nhất quán trong ít nhất 3 nguồn tin có thẩm quyền, nếu không sẽ bị đánh dấu là ‘độ tin cậy thấp’.”

Các “nguồn tin có thẩm quyền” ở đây bao gồm:

  • Website chính thức(tên miền của chính doanh nghiệp, trọng số cao nhất);
  • Bách khoa toàn thư có thẩm quyền(như Wikipedia, Wikidata);
  • Cơ sở dữ liệu chính phủ/ngành(như hồ sơ doanh nghiệp tại SEC của Mỹ, dữ liệu ngành của Crunchbase);
  • Truyền thông trọng số cao(như The New York Times, truyền thông dọc theo ngành)。

Lấy một ví dụ phản diện: website của một startup công nghệ A dùng Schema.org để đánh dấu “thời gian thành lập – năm 2020”, nhưng Wikipedia ghi “thành lập năm 2019”, còn Crunchbase hiển thị “lần đầu tiên xuất hiện công khai trong hồ sơ gọi vốn là Q4 năm 2019”.

Lúc này, hệ thống của Google sẽ xác định rằng thuộc tính “thời gian thành lập” có xung đột và cần được kiểm duyệt thủ công hoặc chờ xác minh từ nhiều nguồn hơn.

Cuối cùng, vì mâu thuẫn giữa website chính thức và Wikipedia không thể giải quyết, “thời gian thành lập” của doanh nghiệp này không được đưa vào Knowledge Graph, và khi tìm kiếm người dùng vẫn phải nhấp vào liên kết để xem.

Theo “Hướng dẫn thu thập vào Knowledge Graph” do Google công bố năm 2023, xung đột thuộc tính là nguyên nhân từ chối thu thập phổ biến nhất (chiếm 38%), tiếp theo là “nguồn tin không đủ thẩm quyền” (ví dụ chỉ dùng blog cá nhân để đánh dấu, chiếm 25%) và “lỗi định dạng đánh dấu” (ví dụ định dạng ngày viết là “2020/4/1” thay vì “2020-04-01”, chiếm 19%).

“Cập nhật động” của Knowledge Graph

Knowledge Graph không phải là một “cơ sở dữ liệu tĩnh” được xây dựng một lần là xong, mà sẽ liên tục được cập nhật theo sự xuất hiện của thông tin mới.

Ví dụ, năm 2023 Musk tuyên bố “X (trước đây là Twitter) mua lại LinkedIn”, Google sẽ trong vài giờ:

  1. Thu thập các bài đưa tin của truyền thông có thẩm quyền (như Reuters, Wall Street Journal) thông qua trình thu thập tin tức;
  2. Xác minh độ tin cậy của nguồn thông tin (Reuters có trọng số cao hơn blog cá nhân);
  3. Cập nhật thuộc tính acquiredCompany (doanh nghiệp bị mua lại) của “công ty X” trong Knowledge Graph, thêm “LinkedIn”;
  4. Đồng bộ cập nhật quan hệ liên kết của các thực thể liên quan (như “Musk – công ty X – doanh nghiệp mua lại – LinkedIn”).

Tốc độ của kiểu “cập nhật động” này nhanh đến mức nào? Dữ liệu thử nghiệm của Google năm 2024 cho thấy: đối với thực thể được quan tâm cao (như doanh nghiệp top 500 toàn cầu, nhân vật nổi tiếng), chu kỳ cập nhật thuộc tính cốt lõi trung bình là 2-4 giờ; còn với thực thể thông thường (như doanh nghiệp vừa và nhỏ địa phương), chu kỳ cập nhật là 1-2 tuần.

Thực thể, thuộc tính, quan hệ

Nếu nói Knowledge Graph là một “thành phố số”, thì thực thể là các tòa nhà (trường học, bệnh viện, trung tâm thương mại), thuộc tính là “nhãn” của tòa nhà (địa chỉ, số tầng, giờ mở cửa), còn quan hệ là “đường sá” kết nối các tòa nhà (tuyến xe buýt, lối đi bộ, tuyến tàu điện ngầm).

Ba yếu tố này cùng nhau tạo thành khung nền tảng của Knowledge Graph.

Tài liệu kỹ thuật năm 2023 của Google nêu rõ: 90% việc truyền tải thông tin trong Knowledge Graph phụ thuộc vào tính hoàn chỉnh và tính liên kết của ba yếu tố này

Thực thể

Thực thể (Entity) là đơn vị cơ bản nhất trong Knowledge Graph, chỉ đối tượng cụ thể hoặc trừu tượng có thể tồn tại độc lập trong thế giới thực.

Nó có thể là “người” (như Einstein), “doanh nghiệp” (như Apple Inc.), “địa điểm” (như tháp Eiffel), “sự kiện” (như Olympic Tokyo 2020), thậm chí là “khái niệm trừu tượng” (như “trí tuệ nhân tạo”).

Nhưng Google có tiêu chuẩn rất nghiêm ngặt trong việc xác định “thực thể”: phải có “tính nhận diện duy nhất” và “tính tồn tại ổn định”. Ví dụ:

  • “Tesla” là một thực thể doanh nghiệp rõ ràng (tên đăng ký Tesla, Inc., mã chứng khoán TSLA);
  • “Musk” là một thực thể nhân vật rõ ràng (tên đầy đủ Elon Reeve Musk, ngày sinh 28 tháng 6 năm 1971);
  • Nhưng “doanh nghiệp xe năng lượng mới” không phải là thực thể (vì là một loại mơ hồ), và “Tesla của năm 2023” cũng không phải thực thể (giới hạn thời gian khiến nó không còn duy nhất).

Google thông qua công nghệ nhận diện thực thể (NER) để trích xuất các thực thể ứng viên từ trang web, sau đó loại bỏ sự mơ hồ thông qua “khử nhập nhằng thực thể (Entity Disambiguation)”.

Ví dụ, khi trên trang web nhắc đến “Apple”, cần xác định đó là “quả táo” hay “công ty Apple” — điều này phụ thuộc vào ngữ cảnh (như các từ liên quan “iPhone”, “Cook”) và các nguồn tin có thẩm quyền (như mục từ “Apple Inc.” trên Wikipedia).

Theo thống kê nội bộ của Google năm 2024, khoảng 60% thực thể trong Knowledge Graph là doanh nghiệp/tổ chức (Person chiếm 25%, Location chiếm 10%, còn lại chiếm 5%), điều này có liên hệ chặt chẽ với hành vi tìm kiếm của người dùng (70% nhu cầu tìm kiếm liên quan đến doanh nghiệp, con người hoặc địa điểm).

Thuộc tính

Thuộc tính (Attribute) là đặc trưng cụ thể của thực thể, dùng để trả lời câu hỏi “Thực thể này có những đặc điểm gì?”.

Nó là “bộ kết nối” giữa thực thể và dữ liệu, chuyển thực thể trừu tượng thành thông tin có thể định lượng.

Với các loại thực thể khác nhau, thuộc tính cốt lõi có sự khác biệt rõ rệt (xem bảng bên dưới):

Loại thực thể Thuộc tính điển hình (ví dụ) Vai trò then chốt
Doanh nghiệp/tổ chức Thời gian thành lập (foundingDate), trụ sở chính (headquarters), ngành nghề (industry), số lượng nhân viên (employeeCount) Giúp người dùng nhanh chóng đánh giá nền tảng cơ bản của doanh nghiệp
Nhân vật Ngày sinh (birthDate), quốc tịch (nationality), nghề nghiệp (jobTitle), nền tảng giáo dục (alumniOf) Hỗ trợ người dùng nhận diện thân phận và vai trò xã hội của nhân vật
Địa điểm Tọa độ địa lý (geoCoordinates), dân số (population), quốc gia trực thuộc (country), địa danh nổi bật (landmark) Hỗ trợ dịch vụ vị trí và quyết định du lịch
Sự kiện Thời gian bắt đầu (startDate), thời gian kết thúc (endDate), bên tham gia (participant), địa điểm (location) Cung cấp dòng thời gian và thông tin then chốt của sự kiện

Tính “hoàn chỉnh” của thuộc tính ảnh hưởng trực tiếp đến hiệu quả hiển thị của Knowledge Graph. Ví dụ, nếu thực thể doanh nghiệp thiếu thuộc tính “trụ sở chính”, bảng tri thức bên phải sẽ không thể hiển thị vị trí địa lý;

nếu thực thể nhân vật thiếu “ngày sinh”, chức năng tính tuổi (như “năm nay Musk 53 tuổi”) sẽ không thể thực hiện.

Yêu cầu của Google đối với thuộc tính là “khả năng xác minh” và “tính nhất quán”:

  • Khả năng xác minh: giá trị thuộc tính cần được nguồn tin có thẩm quyền hỗ trợ (ví dụ “số lượng nhân viên” của doanh nghiệp cần đến từ báo cáo thường niên hoặc dữ liệu chính thức của LinkedIn);
  • Tính nhất quán: cùng một thuộc tính của cùng một thực thể phải nhất quán giữa các nguồn tin khác nhau (ví dụ “thời gian thành lập” trên website chính thức và báo cáo thường niên của doanh nghiệp không được chênh nhau quá 1 tháng).

Theo thống kê của Schema.org, thực thể bao phủ trên 8 thuộc tính cốt lõi có xác suất được Knowledge Graph thu thập cao hơn 62% so với thực thể chỉ bao phủ 3 thuộc tính (dữ liệu website toàn cầu năm 2023).

Quan hệ

Quan hệ (Relationship) là mối liên kết giữa các thực thể, dùng để trả lời câu hỏi “Thực thể này có liên hệ gì với các thực thể khác?”.

Nó là “linh hồn” của Knowledge Graph, dệt các thực thể rời rạc thành một mạng lưới thông tin có thể suy luận.

Các loại quan hệ có thể chia thành ba nhóm lớn (xem bảng bên dưới), mỗi loại mang một ngữ nghĩa cụ thể:

Loại quan hệ Định nghĩa Ví dụ (lấy “Tesla” làm ví dụ)
Quan hệ thuộc tính Liên kết trực tiếp giữa thực thể và thuộc tính của chính nó Tesla – thời gian thành lập – ngày 1 tháng 4 năm 2003
Quan hệ thực thể – thực thể Liên kết trực tiếp giữa thực thể với một thực thể khác Tesla – người sáng lập – Martin Eberhard; Tesla – sản phẩm – iPhone? Không, iPhone là sản phẩm của Apple, ví dụ đúng là Tesla – sản phẩm – Model 3
Quan hệ phân cấp Quan hệ bao hàm giữa thực thể và lớp con/lớp cha Tesla – công ty mẹ – SpaceX? Không, ví dụ đúng là “xe điện – phân loại con – xe điện thuần túy” (Tesla thuộc xe điện thuần túy)

(Lưu ý: “Tesla – sản phẩm – iPhone” trong bảng trước là ví dụ sai và đã được sửa.)

Tính “chính xác” của quan hệ là thách thức cốt lõi của Knowledge Graph. Ví dụ, trên trang web có thể đồng thời tồn tại hai mô tả “Musk là người sáng lập Tesla” và “Musk là CEO của Tesla”, Google cần thông qua phân tích ngữ nghĩa để xác định loại quan hệ của hai mô tả này (foundervs CEO), đồng thời đảm bảo chuỗi quan hệ không có mâu thuẫn (ví dụ “CEO” bắt buộc phải là “nhân viên”, còn “người sáng lập” thì không nhất thiết là “nhân viên”).

Nghiên cứu của Google năm 2024 cho thấy các thực thể chứa chuỗi quan hệ từ 3 tầng trở lên (như “Musk→Tesla→Model 3→nhà cung cấp pin→Panasonic”) có tỷ lệ nhấp của người dùng cao hơn 41% so với thực thể chỉ có 1 tầng quan hệ — bởi vì chuỗi quan hệ càng dài, thông tin càng đầy đủ, người dùng càng có thể trực tiếp nhận được câu trả lời cần thiết.

Knowledge Graph vs Kết quả tìm kiếm truyền thống

Khi người dùng tìm kiếm “công ty tên lửa của Elon Musk”, kết quả tìm kiếm truyền thống sẽ hiển thị 10 liên kết màu xanh (như Wikipedia, thông cáo báo chí, website công ty);

còn khi được Knowledge Graph bao phủ, bên phải sẽ trực tiếp bật ra một thẻ hiển thị các thông tin quan trọng như “SpaceX (công ty công nghệ thám hiểm không gian)”, “thời gian thành lập: ngày 14 tháng 3 năm 2002”, “trụ sở chính: Hawthorne, California, Mỹ”, “dự án cốt lõi: Falcon 9, Starship”.

Hình thức trình bày thông tin

Cốt lõi của kết quả tìm kiếm truyền thống là “liên kết web”, và thông tin tồn tại dưới dạng “khối văn bản”;

trong khi Knowledge Graph trực tiếp hiển thị thông tin then chốt dưới dạng “thẻ có cấu trúc”.

Mật độ thông tin và khả năng đọc của hai loại này khác biệt rõ rệt (xem bảng bên dưới):

Chiều cạnh Kết quả tìm kiếm truyền thống (lấy “trụ sở Tesla” làm ví dụ) Knowledge Graph (cùng từ khóa tìm kiếm)
Hình thức thông tin 10 liên kết (như Wikipedia, website Tesla, thông cáo báo chí), cần nhấp vào trang để tìm thông tin liên quan đến “trụ sở”. Hiển thị trực tiếp thẻ: Tesla (Tesla, Inc.)
Trụ sở chính: Austin, bang Texas, Mỹ
Thời gian thành lập: ngày 1 tháng 4 năm 2003
Ngành nghề: xe điện / năng lượng sạch
Mật độ thông tin Mỗi liên kết trung bình chứa 500-2000 chữ, nhưng thông tin liên quan đến “trụ sở” có thể nằm rải rác ở các đoạn khác nhau (ví dụ “Năm 2021 Tesla chuyển trụ sở từ California sang Texas”). Thông tin then chốt (tên, trụ sở, thời gian thành lập, ngành nghề) được cô đọng thành 5-8 trường có cấu trúc, không có nội dung dư thừa.
Tính kịp thời của thông tin Phụ thuộc vào thời gian cập nhật của trang web (ví dụ một thông cáo báo chí được đăng năm 2022 có thể chưa nhắc đến địa chỉ mới sau khi trụ sở chuyển vào năm 2023). Google ưu tiên hiển thị thông tin mới nhất thông qua thu thập thời gian thực + xác minh nhiều nguồn (ví dụ khi tìm “trụ sở Tesla” năm 2024 sẽ trực tiếp hiển thị “Austin”).

Theo khảo sát người dùng năm 2024 của Search Engine Journal, 78% người dùng cho biết “thẻ Knowledge Graph giúp tìm câu trả lời nhanh hơn”, trong khi ở kết quả tìm kiếm truyền thống chỉ có 32% người dùng tìm thấy thông tin mục tiêu ngay trong liên kết đầu tiên — những người còn lại phải nhấp vào 2-3 liên kết, khiến thời gian tăng trung bình thêm 15 giây.

Hành vi người dùng

Chúng ta so sánh thông qua hai tình huống tìm kiếm điển hình:

Tình huống 1: câu hỏi sự thật đơn giản (như “năm sinh của Einstein”)

  • Tìm kiếm truyền thống:Người dùng nhấp vào liên kết Wikipedia (41%), Encyclopaedia Britannica (23%), blog khoa học phổ thông (18%), thời gian lưu lại trung bình là 2 phút 17 giây; trong đó 62% người dùng đóng trang sau khi tìm được đáp án, 38% tiếp tục duyệt các liên kết khác.
  • Knowledge Graph:Người dùng trực tiếp xem thẻ bên phải (89%), thời gian lưu lại chỉ 23 giây; trong đó 75% người dùng đóng trang sau khi xem xong thẻ, 15% sẽ nhấp “Tìm hiểu thêm” để chuyển sang Wikipedia, 10% không có hành động tiếp theo (nguồn dữ liệu: Moz 2024 theo dõi hành vi người dùng).

Tình huống 2: tra cứu thông tin doanh nghiệp (như “trụ sở Apple”)

  • Tìm kiếm truyền thống:Người dùng nhấp website Apple (35%), Wikipedia (28%), truyền thông công nghệ (như TechCrunch, 19%), số lần nhấp trung bình 1,8 lần, tỷ lệ thoát (chỉ xem một kết quả rồi rời đi) là 57%.
  • Knowledge Graph:Người dùng trực tiếp xem thẻ (72%), số lần nhấp giảm còn 0,9, tỷ lệ thoát là 39%; trong đó 41% người dùng sẽ nhấp nút “website chính thức” trên thẻ (chuyển thẳng tới website chính thức), 28% nhấp nút “sản phẩm” (chuyển tới trang sản phẩm) (nguồn dữ liệu: Google Search Console báo cáo phía doanh nghiệp năm 2024).
Nâng cấp thuật toán từ “khớp từ khóa” đến “hiểu ngữ nghĩa”

Cốt lõi của tìm kiếm truyền thống là khớp từ khóa + xếp hạng PageRank: Google crawler thu thập trang web, trích xuất từ khóa trong văn bản (như “Tesla”, “trụ sở”), thống kê mật độ từ khóa, sau đó kết hợp với trọng số liên kết (các trang có nhiều liên kết từ website chất lượng cao sẽ xếp hạng cao hơn), cuối cùng trả về danh sách liên kết liên quan.

Trong khi đó, logic kỹ thuật của Knowledge Graph phức tạp hơn nhiều, cần trải qua bốn khâu lớn là nhận diện thực thể → trích xuất có cấu trúc → liên kết ngữ nghĩa → xác minh độ tin cậy (như dưới đây)

Từ khóa tìm kiếm của người dùng → Google crawler thu thập văn bản toàn mạng → mô hình NLP nhận diện thực thể (như “Tesla”) → trích xuất thuộc tính (trụ sở, thời gian thành lập) → liên kết các thực thể khác (như “Texas”, “năm 2021”) → xác minh tính nhất quán nhiều nguồn (website chính thức, Wikipedia, cơ sở dữ liệu ngành) → tạo thẻ có cấu trúc → xếp hạng hiển thị

Sự khác biệt về kỹ thuật trực tiếp dẫn đến sự khác nhau về “năng lực xử lý thông tin” của hai loại:

  • Tìm kiếm truyền thống:Giỏi xử lý “từ khóa đuôi dài” (như “thời gian phát hành Tesla Model S năm 2010”), nhưng không thể hiểu ngữ nghĩa (ví dụ người dùng tìm “xe của Musk”, có thể ám chỉ Tesla, nhưng tìm kiếm truyền thống có thể trả về bài bách khoa cá nhân của “Musk”).
  • Knowledge Graph:Thông qua liên kết thực thể để thực hiện “suy luận ngữ nghĩa” (như “xe của Musk” → liên kết “Musk – người sáng lập – Tesla” → suy ra “mẫu xe của Tesla”), từ đó khớp chính xác hơn với ý định của người dùng (nguồn dữ liệu: sách trắng kỹ thuật AI của Google năm 2023).
Ảnh hưởng đối với website

1. Mức độ ưu tiên hiển thị

Dữ liệu bố cục trang kết quả tìm kiếm của Google năm 2024 cho thấy: thẻ Knowledge Graph thường chiếm 1/3 khu vực bên phải của trang tìm kiếm (phía trên trên thiết bị di động), bao phủ 70% lượt tìm kiếm câu hỏi đơn giản. Nếu thực thể cốt lõi của doanh nghiệp (như tên thương hiệu, tên sản phẩm) được thu thập, “sự hiện diện trực quan” của website chính thức trong kết quả tìm kiếm sẽ tăng mạnh — ngay cả khi thứ hạng tự nhiên của website rơi xuống trang 5, người dùng vẫn có thể tìm thấy nó thông qua thẻ Knowledge Graph.

2. Độ chính xác của thông tin

Nếu “thời gian thành lập” được website chính thức đánh dấu mâu thuẫn với Wikipedia, Google sẽ đánh dấu thực thể đó là “độ tin cậy thấp”, không chỉ Knowledge Graph không hiển thị mà thứ hạng tự nhiên của website chính thức cũng có thể giảm. Thống kê của Moz năm 2024 cho thấy: website chính thức của doanh nghiệp có thông tin không nhất quán bị giảm trung bình 22 bậc thứ hạng tự nhiên, tỷ lệ nhấp giảm 19%.

3. Giữ chân người dùng

Nếu thẻ Knowledge Graph bao phủ được các thông tin cốt lõi mà người dùng cần (như “sản phẩm”, “thông tin liên hệ”, “diễn biến mới nhất” của doanh nghiệp), người dùng có khả năng hoàn thành quyết định ngay qua thẻ (như gọi điện cho website chính thức, mua sản phẩm); còn nếu thông tin trên thẻ bị thiếu (như chưa đánh dấu “sản phẩm”), người dùng vẫn phải nhấp vào liên kết website chính thức, lúc này website cần tự chịu trách nhiệm về “độ đầy đủ của thông tin”.

Chức năng Knowledge Graph trong SERP

Thẻ Knowledge Graph ở phía bên phải hoặc phía trên của trang kết quả tìm kiếm Google (SERP) chính là “đường cao tốc dẫn tới đáp án” cho người dùng.

Dữ liệu năm 2023 cho thấy 70% lượt tìm kiếm dạng sự thật đơn giản (như “trụ sở Tesla ở đâu”, “năm sinh năm mất của Einstein”) được giải quyết trực tiếp qua Knowledge Graph, thời gian lưu lại trung bình của người dùng chỉ là 23 giây, ngắn hơn 40% so với trang kết quả tìm kiếm truyền thống.

“Cửa sổ đáp án” đầu tiên mà người dùng nhìn thấy

Khi người dùng tìm kiếm “doanh số Tesla năm 2023”, ở phía bên phải (trên máy tính) hoặc phía trên (trên di động) của trang kết quả tìm kiếm Google (SERP) sẽ hiện ra một thẻ, trên đó ghi rõ:

“Tesla (Tesla, Inc.) doanh số toàn cầu năm 2023: 1,84 triệu xe” “Mẫu xe chủ lực: Model Y (1,2 triệu xe)” “Thị phần: 12,6% (xe năng lượng mới toàn cầu)”.

“Vùng vàng” trong tầm nhìn của người dùng

“Hướng dẫn thiết kế giao diện SERP” do Google công bố năm 2024 chỉ rõ: mục tiêu cốt lõi của thẻ Knowledge Graph là “truyền tải thông tin then chốt bằng con đường ngắn nhất trong khu vực mà tầm nhìn người dùng tự nhiên tập trung vào”.

1. Trên máy tính: “khu thông tin đặc biệt” chiếm 1/3 màn hình bên phải

Thẻ Knowledge Graph trên máy tính (lấy độ phân giải 1920×1080 làm ví dụ) thường nằm ở phía bên phải của trang kết quả tìm kiếm, rộng khoảng 300-400px (chiếm khoảng 25%-33% chiều rộng màn hình), chiều cao được điều chỉnh động theo nội dung (thường là 400-600px).

Việc chọn vị trí này dựa trên dữ liệu bản đồ nhiệt về ánh nhìn của người dùng:

  • Thử nghiệm theo dõi ánh mắt cho thấy khi người dùng duyệt SERP, ánh mắt trước tiên rơi vào phía trên bên trái (3 liên kết tự nhiên đầu tiên), nhưng “thời gian dừng lại trên thông tin” ở khu vực bên phải dài hơn 37% so với các liên kết không phải vị trí đầu tiên ở bên trái (nghiên cứu EyeQuant 2024);
  • Chiều rộng 300-400px vừa đủ để chứa 5-8 thông tin then chốt (như tên doanh nghiệp, thời gian thành lập, trụ sở), đồng thời không chèn ép không gian đọc của các liên kết bên trái (dữ liệu A/B test của Google năm 2023).

2. Trên di động: “lối tắt thông tin” ở phía trên

Trên di động (lấy iPhone 15 Pro độ phân giải 390×844 làm ví dụ), thẻ Knowledge Graph thường nằm ở phía trên của trang kết quả tìm kiếm, cao khoảng 200-300px (chiếm khoảng 25% chiều cao màn hình), và rộng bằng chiều rộng màn hình (390px).

Thiết kế này bắt nguồn từ thói quen “vuốt nhanh” của người dùng di động:

  • Người dùng di động trung bình chỉ vuốt 1,2 lần là đã bỏ qua 3 liên kết đầu tiên (thống kê App Annie 2024), trong khi “tỷ lệ hiển thị ngay màn đầu” của thẻ Knowledge Graph phía trên cao tới 92% (thử nghiệm nội bộ của Google);
  • Chiều cao 200-300px vừa đủ bao phủ “thuộc tính cốt lõi + 1 nút hành động” (như “website chính thức”, “sản phẩm”), tránh tình trạng quá tải thông tin (sau khi người dùng vuốt quá 300px, tỷ lệ thoát tăng 19%).
Cấu trúc nội dung và mức ưu tiên trường thông tin

Thông qua phân tích log tìm kiếm ở quy mô hàng trăm triệu, Google đã tổng kết “mức ưu tiên trường thông tin” đối với các loại từ khóa tìm kiếm khác nhau (xem bảng bên dưới).

1. Từ khóa tìm kiếm dạng doanh nghiệp/tổ chức (như “Apple Inc.”)

Nhu cầu cốt lõi của người dùng khi tìm doanh nghiệp là “xác nhận nền tảng cơ bản của doanh nghiệp + có được lối vào hành động”, vì vậy nội dung thẻ ưu tiên hiển thị “thuộc tính cơ bản + lối vào website chính thức”:

Loại trường Trường cụ thể (ví dụ) Mức ưu tiên hiển thị (từ cao xuống thấp) Dữ liệu hỗ trợ (Google 2023)
Thuộc tính cơ bản Tên (Apple Inc.), thời gian thànhใช้ค้นหา “ยอดขาย Tesla ปี 2023” ด้านขวา (บนเดสก์ท็อป) หรือด้านบน (บนมือถือ) ของหน้าผลการค้นหา Google (SERP) จะมีการ์ดเด้งขึ้นมาซึ่งเขียนไว้อย่างชัดเจนว่า:

“Tesla (Tesla, Inc.) ยอดขายทั่วโลกปี 2023: 1.84 ล้านคัน” “รุ่นหลัก: Model Y (1.2 ล้านคัน)” “ส่วนแบ่งตลาด: 12.6% (รถยนต์พลังงานใหม่ทั่วโลก)”

“พื้นที่ทองคำ” ของสายตาผู้ใช้

“คู่มือการออกแบบอินเทอร์เฟซ SERP” ที่ Google เผยแพร่ในปี 2024 ระบุไว้อย่างชัดเจนว่า เป้าหมายหลักของการ์ด Knowledge Graph คือ “ส่งข้อมูลสำคัญผ่านเส้นทางที่สั้นที่สุด ภายในบริเวณที่สายตาของผู้ใช้โฟกัสตามธรรมชาติ”

1. เดสก์ท็อป: “เขตข้อมูลพิเศษ” 1/3 ด้านขวาของหน้าจอ

บนเดสก์ท็อป (ยกตัวอย่างความละเอียด 1920×1080) การ์ด Knowledge Graph มักอยู่ทางด้านขวาของหน้าผลการค้นหา มีความกว้างประมาณ 300-400px (คิดเป็น 25%-33% ของความกว้างหน้าจอ) และความสูงปรับตามเนื้อหาแบบไดนามิก (โดยทั่วไป 400-600px)

ตำแหน่งนี้อิงจากข้อมูล heatmap ของสายตาผู้ใช้:

  • การทดสอบ eye-tracking แสดงว่าเมื่อผู้ใช้ดู SERP สายตาจะตกที่มุมบนซ้ายก่อน (ลิงก์ออร์แกนิก 3 อันดับแรก) แต่“ระยะเวลาการหยุดดูข้อมูล” ในพื้นที่ด้านขวามากกว่าลิงก์ที่ไม่ใช่อันดับแรกทางด้านซ้าย 37% (งานวิจัย EyeQuant ปี 2024)
  • ความกว้าง 300-400px สามารถบรรจุข้อมูลสำคัญ 5-8 รายการ (เช่น ชื่อบริษัท วันก่อตั้ง สำนักงานใหญ่) ได้โดยไม่บีบพื้นที่อ่านลิงก์ทางซ้าย (ข้อมูล A/B test ของ Google ปี 2023)

2. มือถือ: “ทางลัดข้อมูล” ด้านบน

บนมือถือ (ยกตัวอย่าง iPhone 15 Pro ความละเอียด 390×844) การ์ด Knowledge Graph มักอยู่ด้านบนของหน้าผลการค้นหา สูงประมาณ 200-300px (ประมาณ 25% ของความสูงหน้าจอ) และกว้างเท่าหน้าจอ (390px)

การออกแบบนี้มาจากพฤติกรรม “เลื่อนเร็ว” ของผู้ใช้มือถือ:

  • ผู้ใช้มือถือเลื่อนหน้าจอเฉลี่ย 1.2 ครั้งก็จะข้ามลิงก์ 3 อันดับแรกแล้ว (สถิติ App Annie ปี 2024) ขณะที่การ์ด Knowledge Graph ด้านบนมี “อัตราการมองเห็นในหน้าจอแรก” สูงถึง 92% (การทดสอบภายในของ Google)
  • ความสูง 200-300px ครอบคลุม “แอตทริบิวต์หลัก + ปุ่มการกระทำ 1 ปุ่ม” (เช่น “เว็บไซต์ทางการ” หรือ “สินค้า”) ได้พอดี ช่วยหลีกเลี่ยงภาวะข้อมูลล้น (หลังผู้ใช้เลื่อนเกิน 300px อัตราตีกลับจะเพิ่มขึ้น 19%)
โครงสร้างเนื้อหาและลำดับความสำคัญของฟิลด์

Google สรุป “ลำดับความสำคัญของฟิลด์” สำหรับคำค้นแต่ละประเภทจากการวิเคราะห์บันทึกการค้นหาระดับหลายร้อยล้านรายการ (ดูตารางด้านล่าง)

1. คำค้นประเภทบริษัท/องค์กร (เช่น “Apple”)

ความต้องการหลักของผู้ใช้เมื่อค้นหาบริษัทคือ “ยืนยันข้อมูลพื้นฐานขององค์กร + ได้ช่องทางดำเนินการ” ดังนั้นเนื้อหาบนการ์ดจึงให้ความสำคัญกับ “แอตทริบิวต์พื้นฐาน + ทางเข้าสู่เว็บไซต์ทางการ” ก่อน:

ประเภทฟิลด์ ฟิลด์เฉพาะ (ตัวอย่าง) ลำดับความสำคัญในการแสดงผล (จากสูงไปต่ำ) ข้อมูลสนับสนุน (Google 2023)
แอตทริบิวต์พื้นฐาน ชื่อ (Apple), วันก่อตั้ง (1 เมษายน 1976), สำนักงานใหญ่ (Cupertino, California, USA), อุตสาหกรรม (เทคโนโลยี/อุปกรณ์อิเล็กทรอนิกส์สำหรับผู้บริโภค) อันดับ 1-4 82% ของการ์ดบริษัทมี 4 รายการแรกนี้
ตัวระบุหลัก ลิงก์เว็บไซต์ทางการ (Apple.com), รหัสหุ้น (AAPL) อันดับ 5-6 75% ของการ์ดบริษัทมีปุ่มเว็บไซต์ทางการ
ข้อมูลแบบไดนามิก ความเคลื่อนไหวล่าสุด (เช่น “รายได้ปี 2023 อยู่ที่ 383.2 พันล้านดอลลาร์สหรัฐ”, “เปิดตัว Vision Pro ในงาน WWDC 2024”) อันดับ 7-8 60% ของการ์ดบริษัทมีข้อมูลเคลื่อนไหว 1 รายการ

เช่น เมื่อค้นหา “Apple” การ์ดจะแสดง “ชื่อ-วันก่อตั้ง-สำนักงานใหญ่-อุตสาหกรรม” ก่อน จากนั้นจึงแสดงลิงก์เว็บไซต์ทางการ และสุดท้ายเสริมข้อมูลแบบไดนามิกอย่างรายได้ปี 2023

2. คำค้นประเภทบุคคล (เช่น “Elon Musk”)

ความต้องการหลักของผู้ใช้เมื่อค้นหาบุคคลคือ “ยืนยันตัวตน + เข้าใจบทบาททางสังคม” ดังนั้นการ์ดจะแสดง “ป้ายกำกับตัวตน + ความสำเร็จเด่น” ก่อน:

ประเภทฟิลด์ ฟิลด์เฉพาะ (ตัวอย่าง) ลำดับความสำคัญในการแสดงผล (จากสูงไปต่ำ) ข้อมูลสนับสนุน (Google 2023)
ป้ายกำกับตัวตน ชื่อ (Elon Musk), วันเกิด (28 มิถุนายน 1971), สัญชาติ (อเมริกัน), อาชีพ (ผู้ประกอบการ/วิศวกร) อันดับ 1-4 75% ของการ์ดบุคคลมี 4 รายการแรกนี้
บทบาททางสังคม องค์กรตัวแทน (CEO ของ Tesla, ผู้ก่อตั้ง SpaceX), เกียรติยศ (บุคคลแห่งปีของ Time ปี 2023) อันดับ 5-6 68% ของการ์ดบุคคลมีบทบาท 2-3 รายการ
เอนทิตีที่เกี่ยวข้อง บุคคลที่เกี่ยวข้อง (Grimes-Musk, คู่สมรส), เหตุการณ์ที่เกี่ยวข้อง (การเข้าซื้อแพลตฟอร์ม X ปี 2023) อันดับ 7-8 52% ของการ์ดบุคคลมีความเชื่อมโยง 1-2 รายการ

เช่น เมื่อค้นหา “Elon Musk” การ์ดจะแสดง “ชื่อ-วันเกิด-สัญชาติ-อาชีพ” ก่อน จากนั้นจึงแสดงบทบาทหลักในบริษัทต่าง ๆ และสุดท้ายเติมเหตุการณ์ที่เกี่ยวข้อง

3. คำค้นประเภทสินค้า/บริการ (เช่น “iPhone 15”)

ความต้องการหลักของผู้ใช้เมื่อค้นหาสินค้าคือ “ยืนยันข้อมูลสินค้า + ช่วยในการตัดสินใจซื้อ” ดังนั้นเนื้อหาบนการ์ดจึงให้ความสำคัญกับ “สเปกหลัก + ช่องทางการซื้อ” ก่อน:

ประเภทฟิลด์ ฟิลด์เฉพาะ (ตัวอย่าง) ลำดับความสำคัญในการแสดงผล (จากสูงไปต่ำ) ข้อมูลสนับสนุน (Google 2023)
พารามิเตอร์หลัก ชื่อ (iPhone 15), วันเปิดตัว (กันยายน 2023), ราคาเริ่มต้น (799 ดอลลาร์), ขนาดหน้าจอ (6.1 นิ้ว) อันดับ 1-4 85% ของการ์ดสินค้ามี 4 รายการแรกนี้
ฟังก์ชันหลัก ฟีเจอร์เด่น (Dynamic Island, ชิป A16), อายุการใช้งานแบตเตอรี่ (เล่นวิดีโอได้ 20 ชั่วโมง) อันดับ 5-6 72% ของการ์ดสินค้ามีฟังก์ชัน 2-3 รายการ
ช่องทางการซื้อ ลิงก์ซื้อ (เว็บไซต์ Apple, Amazon), สถานะสต็อก (“เว็บไซต์ทางการในสหรัฐฯ มีของ”) อันดับ 7-8 65% ของการ์ดสินค้ามีปุ่มซื้อ

เช่น เมื่อค้นหา “iPhone 15” การ์ดจะแสดง “ชื่อ-วันเปิดตัว-ราคาเริ่มต้น-ขนาดหน้าจอ” ก่อน จากนั้นเน้นฟีเจอร์หลักอย่าง Dynamic Island และสุดท้ายจึงให้ลิงก์ซื้อจากเว็บไซต์ทางการ

กลไกการอัปเดตแบบเรียลไทม์

1. การรวบรวมข้อมูลแบบเรียลไทม์

Googlebot เพิ่มความถี่ในการรวบรวมข้อมูลเอนทิตีที่ได้รับความสนใจสูง (เช่น บริษัท Fortune Global 500 หรือสินค้ายอดนิยม) จากเดิม “สัปดาห์ละ 1 ครั้ง” เป็น “ชั่วโมงละ 1 ครั้ง” (คำอธิบายการอัปเดตอัลกอริทึมค้นหาของ Google ปี 2024)

ตัวอย่างเช่น เมื่อ Tesla เปิดตัว Cybertruck ในเดือนตุลาคม 2023 Googlebot ได้รวบรวมข่าวประชาสัมพันธ์จากเว็บไซต์ทางการ, TechCrunch และ Reuters ภายใน 15 นาทีหลังงานเปิดตัวจบลง และเริ่มกระบวนการยืนยันข้อมูลทันที

2. การยืนยันจากหลายแหล่งข้อมูล

ข้อมูลที่อัปเดตแบบเรียลไทม์ต้องผ่าน “การตรวจสอบข้ามหลายแหล่งข้อมูล” ก่อนจึงจะแสดงได้ ตัวอย่างเช่น เมื่อเว็บไซต์ทางการของ Tesla ประกาศว่า “ยอดส่งมอบไตรมาส 3 ปี 2023 อยู่ที่ 435,000 คัน” Google จะรวบรวมพร้อมกัน:

  • ประกาศจากเว็บไซต์ทางการ (แหล่งข้อมูลที่น่าเชื่อถือ น้ำหนัก 90%)
  • รายงานไตรมาส 10-Q ของ SEC สหรัฐฯ (แหล่งข้อมูลที่น่าเชื่อถือ น้ำหนัก 85%)
  • รายงานอุตสาหกรรมจาก Bloomberg และ Reuters (แหล่งข้อมูลบุคคลที่สาม น้ำหนัก 70%)

หากตัวเลข “ยอดส่งมอบ” ของทั้งสามตรงกัน (ค่าคลาดเคลื่อน ≤2%) การ์ด Knowledge Graph จะถูกอัปเดตทันที

แต่หากมีความขัดแย้ง (เช่น เว็บไซต์ทางการเขียน 435,000 คัน แต่ SEC เขียน 428,000 คัน) จะมีการหน่วงการอัปเดต (นานสุด 24 ชั่วโมง) จนกว่าความขัดแย้งจะได้รับการแก้ไข (คู่มือ “การอัปเดต Knowledge Graph แบบเรียลไทม์” ของ Google ปี 2023)

3. การเรนเดอร์อย่างรวดเร็ว

ข้อมูลที่ผ่านการยืนยันแล้วจะถูกเรนเดอร์เป็นการ์ด Knowledge Graph อย่างรวดเร็ว การทดสอบทางเทคนิคของ Google ปี 2024 แสดงว่า เวลาตั้งแต่ยืนยันข้อมูลเสร็จจนการ์ดออนไลน์ เฉลี่ยอยู่ที่ 4.2 นาที (สำหรับเอนทิตีที่มีความสนใจสูง) ถึง 18 นาที (สำหรับเอนทิตีทั่วไป)

ตัวอย่างเช่น หลังการประกาศรางวัลโนเบลสาขาสรีรวิทยาหรือการแพทย์ปี 2023 Google ใช้เวลาเพียง 5 นาทีหลังยืนยันรายชื่อผู้ได้รับรางวัลในการอัปเดตการ์ด Knowledge Graph ของ “Katalin Karikó” โดยเพิ่มแอตทริบิวต์ใหม่ว่า “ผู้ได้รับรางวัลโนเบลปี 2023”

จาก “คลิกลิงก์” สู่ “รับข้อมูลโดยตรง”

เมื่อผู้ใช้ค้นหา “ผู้ได้รับรางวัลโนเบลสาขาเคมีปี 2023” ผลการค้นหาแบบดั้งเดิมจะแสดงลิงก์สีน้ำเงิน 10 รายการ (เช่น Wikipedia ข่าวประชาสัมพันธ์ เว็บไซต์วิชาการ) และผู้ใช้ต้องคลิกทีละรายการเพื่อหาชื่อผู้ได้รับรางวัลและผลงานที่ได้รับรางวัล

แต่เมื่อ Knowledge Graph ครอบคลุม การ์ดด้านขวาจะแสดงโดยตรงว่า “รางวัลโนเบลสาขาเคมีปี 2023 มอบให้แก่นักวิทยาศาสตร์ชาวอเมริกัน Jennifer Doudna และนักวิทยาศาสตร์ชาวฝรั่งเศส Emmanuelle Charpentier เพื่อยกย่องผลงานบุกเบิกด้านเทคโนโลยีการตัดต่อยีน CRISPR”

การเปรียบเทียบตามสถานการณ์

เราเลือก 3 สถานการณ์การค้นหาที่เกิดบ่อย (ข้อเท็จจริงง่าย ๆ ข้อมูลบริษัท การค้นหาสินค้า) เพื่อเปรียบเทียบความแตกต่างของพฤติกรรมผู้ใช้ระหว่างการค้นหาแบบดั้งเดิมกับ Knowledge Graph (ที่มา: Moz 2024 การติดตามพฤติกรรมผู้ใช้, Google Search Console รายงานฝั่งองค์กรปี 2024)

สถานการณ์ 1: การค้นหาข้อเท็จจริงง่าย ๆ (เช่น “ปีเกิด-ปีเสียชีวิตของ Einstein”)

เส้นทางพฤติกรรมของการค้นหาแบบดั้งเดิม (ใช้เวลา 2 นาที 17 วินาที):

ผู้ใช้พิมพ์คำค้น → คลิก Wikipedia (41%) / Encyclopedia Britannica (23%) / บล็อกความรู้วิทยาศาสตร์ (18%) → เลื่อนหน้าเพื่อหาข้อมูล “ปีเกิด-ปีเสียชีวิต” (เลื่อนเฉลี่ย 3 ครั้ง) → ยืนยันข้อมูล (เช่น “14 มีนาคม 1879 – 18 เมษายน 1955”) → ปิดหน้า (62%) หรือดูต่อในลิงก์อื่น (38%)

เส้นทางพฤติกรรมของ Knowledge Graph (ใช้เวลา 23 วินาที):

ผู้ใช้พิมพ์คำค้น → ดูการ์ดด้านขวาโดยตรง (89%) → สแกนอย่างรวดเร็วที่ “ปีเกิด-ปีเสียชีวิต”, “สัญชาติ”, “ผลงานหลัก” (มองเฉลี่ย 3 ฟิลด์) → ปิดหน้า (75%) หรือคลิก “ดูข้อมูลเพิ่มเติม” ไปที่ Wikipedia (15%)

ความแตกต่างสำคัญ:

  • จำนวนการคลิก: ลดจาก 1.8 ครั้ง (แบบดั้งเดิม) เหลือ 0 ครั้ง (Knowledge Graph แสดงตรง)
  • ประสิทธิภาพในการรับข้อมูล: เปลี่ยนจาก “การคัดเลือกเชิงรุก” เป็น “การรับข้อมูลเชิงรับ” ผู้ใช้ไม่ต้องตัดสินว่าลิงก์ใดมีคำตอบ
  • อัตราตีกลับ: ลดจาก 57% (แบบดั้งเดิม) เหลือ 25% (Knowledge Graph)

สถานการณ์ 2: การค้นหาข้อมูลบริษัท (เช่น “สำนักงานใหญ่ Apple”)

เส้นทางพฤติกรรมของการค้นหาแบบดั้งเดิม (คลิกเฉลี่ย 1.8 ครั้ง อัตราตีกลับ 57%):

ผู้ใช้พิมพ์คำค้น → คลิกเว็บไซต์ทางการ Apple (35%) / Wikipedia (28%) / สื่อเทคโนโลยี (เช่น TechCrunch, 19%) → ค้นหา “ติดต่อเรา” บนหน้าแรกของเว็บไซต์ (เลื่อนเฉลี่ย 5 ครั้ง) หรือระบุตำแหน่งข้อมูลในฟิลด์ “สำนักงานใหญ่” ของ Wikipedia → ยืนยันที่อยู่ (เช่น “Cupertino, California, USA”) → ปิดหน้า (57%) หรือไปยังลิงก์อื่น (43%)

เส้นทางพฤติกรรมของ Knowledge Graph (คลิกเฉลี่ย 0.9 ครั้ง อัตราตีกลับ 39%):

ผู้ใช้พิมพ์คำค้น → ดูการ์ดโดยตรง (72%) → จ้องดูฟิลด์ “สำนักงานใหญ่” (91%) → คลิกปุ่ม “เว็บไซต์ทางการ” ในการ์ด (41%) เพื่อไปยังเว็บไซต์ทางการโดยตรง หรือคลิกปุ่ม “สินค้า” (28%) เพื่อดูหน้า iPhone 15

ความแตกต่างสำคัญ:

  • ต้นทุนในการระบุตำแหน่งข้อมูล: ลดจาก “เลื่อนหน้า 5 ครั้ง” เหลือ “มอง 1 ฟิลด์”
  • การแปลงการกระทำ: ปุ่ม “เว็บไซต์ทางการ” และ “สินค้า” บนการ์ดนำทางผู้ใช้โดยตรง อัตราการไปต่อสูงกว่า “ลิงก์หน้าแรก” ของผลการค้นหาแบบดั้งเดิม 2.3 เท่า (ทดสอบภายในของ Google)
  • ความมั่นใจในการตัดสินใจ: เมื่อการ์ดระบุ “แหล่งข้อมูลที่น่าเชื่อถือ” (เช่น Wikipedia) ระดับความเชื่อมั่นของผู้ใช้ต่อข้อมูลจะเพิ่มขึ้น 44% (การสำรวจ Moz ปี 2024)

สถานการณ์ 3: การค้นหาสินค้า (เช่น “ราคาเริ่มต้น iPhone 15”)

เส้นทางพฤติกรรมของการค้นหาแบบดั้งเดิม (เวลาอยู่หน้าเฉลี่ย 2 นาที 05 วินาที):

ผู้ใช้พิมพ์คำค้น → คลิกเว็บไซต์ทางการ Apple (42%) / Amazon (25%) / สื่อเทคโนโลยี (เช่น The Verge, 18%) → ค้นหา “iPhone 15” ในหน้าราคาเว็บไซต์ทางการ (เลื่อนเฉลี่ย 4 ครั้ง) หรือเปรียบเทียบราคาในหน้าสินค้า Amazon → บันทึกราคาเริ่มต้น (เช่น “799 ดอลลาร์”) → ปิดหน้า (68%) หรือดูราคาเปรียบเทียบต่อ (32%)

เส้นทางพฤติกรรมของ Knowledge Graph (เวลาอยู่หน้าเฉลี่ย 28 วินาที):

ผู้ใช้พิมพ์คำค้น → ดูการ์ดโดยตรง (85%) → มองฟิลด์ “ราคาเริ่มต้น” และ “วันเปิดตัว” (89%) → คลิก “ลิงก์ซื้อ” บนการ์ด (65%) เพื่อไปยังเว็บไซต์ทางการหรือ Amazon โดยตรง หรือคลิก “ฟังก์ชันหลัก” (22%) เพื่อดูพารามิเตอร์อย่าง Dynamic Island

ความแตกต่างสำคัญ:

  • ต้นทุนในการเปรียบเทียบราคา: ลดจาก “เปรียบเทียบข้าม 3 หน้า” เหลือ “จบใน 1 การ์ด”
  • ความเร็วในการตัดสินใจซื้อ: ลดจาก “มากกว่า 10 นาที” เหลือ “ภายใน 30 วินาที” อัตราการสั่งซื้อของผู้ใช้เพิ่มขึ้น 31% (Statista 2024)
  • ความทันเวลาของข้อมูล: การ์ดอัปเดต “ราคาเริ่มต้น” แบบเรียลไทม์ (เช่น การปรับโปรโมชั่นในปี 2024) ช่วยป้องกันไม่ให้ผู้ใช้พลาดส่วนลดเพราะข้อมูลล่าช้า
ทำไม Knowledge Graph จึงเร็วกว่า

“ข้อมูลล้นเกิน” → “การคัดกรองอย่างแม่นยำ”

หน้าผลการค้นหาแบบดั้งเดิมมีลิงก์เฉลี่ย 10 รายการ โดยแต่ละลิงก์มีข้อความ 500-2000 คำ แต่ข้อมูลสำคัญที่ผู้ใช้ต้องการ (เช่น “สำนักงานใหญ่”, “ราคาเริ่มต้น”) อาจกระจายอยู่ในย่อหน้าต่าง ๆ หรือแม้แต่ลิงก์คนละรายการ

Knowledge Graph ใช้การสกัดแบบมีโครงสร้าง + การเชื่อมโยงเชิงความหมาย เพื่อบีบอัดข้อมูลสำคัญให้เหลือฟิลด์ 5-8 รายการ ผู้ใช้จึงไม่ต้อง “งมหาเข็มในมหาสมุทร” ท่ามกลางข้อความที่ซ้ำซ้อน

ตัวอย่างเช่น เมื่อค้นหา “ยอดขาย Tesla ปี 2023” การค้นหาแบบดั้งเดิมต้องดูข่าว 3 ชิ้น (ที่เขียนแยกกันว่า “Q1 420,000 คัน”, “Q2 460,000 คัน”, “Q3 435,000 คัน”) จึงจะรวมยอดทั้งปีได้

แต่การ์ด Knowledge Graph แสดงโดยตรงว่า “ยอดขายทั่วโลกปี 2023 อยู่ที่ 1.84 ล้านคัน” ทำให้ผู้ใช้ได้ข้อมูลครบภายใน 3 วินาที

“เจตนาคลุมเครือ” → “การจับคู่ที่แม่นยำ”

ระหว่างค้นหา ผู้ใช้มักใช้คำที่คลุมเครือ (เช่น “รถของ Musk”) ทำให้การค้นหาแบบดั้งเดิมส่งกลับผลลัพธ์ที่ไม่เกี่ยวข้อง (เช่น ชีวประวัติของ Musk)

Knowledge Graph ใช้การวิเคราะห์ความเชื่อมโยงของเอนทิตี เพื่อระบุเอนทิตีหลักที่เกี่ยวข้องกับ “Musk” (Tesla, SpaceX) และอนุมานเจตนาของผู้ใช้ (“บริษัทรถยนต์ที่ Musk มีส่วนร่วมในการก่อตั้ง”) ก่อนจะแสดงข้อมูลผลิตภัณฑ์ของ Tesla ในท้ายที่สุด

ไวท์เปเปอร์เทคโนโลยี AI ของ Google ปี 2023 แสดงว่า Knowledge Graph มีความแม่นยำในการเข้าใจคำค้นที่คลุมเครือถึง 81% (ขณะที่การค้นหาแบบดั้งเดิมมีเพียง 57%) และความน่าจะเป็นที่ผู้ใช้ปิดหน้าเพราะ “ข้อมูลไม่เกี่ยวข้อง” ลดลงจาก 42% เหลือ 19%

“ขาดความเชื่อมั่น” → “การรับรองจากแหล่งที่น่าเชื่อถือ”

ในผลการค้นหาแบบดั้งเดิม ผู้ใช้มักประเมินความน่าเชื่อถือของข้อมูลได้ยาก (เช่น บล็อกหนึ่งเขียนว่า “ยอดขาย Tesla ปี 2023 อยู่ที่ 2 ล้านคัน” แต่เว็บไซต์ทางการเขียนว่า “1.84 ล้านคัน”)

Knowledge Graph ใช้กลไกยืนยันจากหลายแหล่งข้อมูล โดยจะแสดงเฉพาะข้อมูลที่ “สอดคล้องกันอย่างน้อยใน 3 แหล่งข้อมูลที่น่าเชื่อถือ” (เช่น เว็บไซต์ทางการ Wikipedia ฐานข้อมูลอุตสาหกรรม) และระบุ “แหล่งที่น่าเชื่อถือ” บนการ์ดด้วย (เช่น “ข้อมูลจากรายงานประจำปี 2023 ของ Tesla”) ทำให้ความเชื่อมั่นของผู้ใช้ต่อข้อมูลเพิ่มขึ้น 58% (การสำรวจผู้ใช้ Moz ปี 2024)

Knowledge Graph “อ่านใจ” ผู้ใช้ได้อย่างไร

จาก “การจับคู่คีย์เวิร์ด” สู่ “ความเข้าใจเชิงความหมาย”

Google ใช้โมเดลที่พรีเทรนแล้วอย่าง BERT เพื่อวิเคราะห์ “เจตนาเชิงความหมาย” ของคำค้นผู้ใช้ (เช่น คำว่า “สำนักงานใหญ่” ใน “สำนักงานใหญ่ Tesla อยู่ที่ไหน” สื่อถึงความต้องการ “ตำแหน่งทางภูมิศาสตร์” และคำว่า “ราคาเริ่มต้น” ใน “ราคาเริ่มต้น iPhone 15” สื่อถึงความต้องการ “ราคา”)

โมเดลประเภทนี้สามารถระบุ “เจตนาที่ซ่อนอยู่” ได้ — ตัวอย่างเช่น เมื่อผู้ใช้ค้นหา “บริษัทจรวดของ Musk” โมเดลจะเชื่อมโยง “Musk-ผู้ก่อตั้ง-SpaceX” แทนที่จะจับคู่เพียงชีวประวัติส่วนตัวของ “Musk”

ข้อมูลการทดสอบของ Google ปี 2024 แสดงว่า ความแม่นยำของโมเดลการระบุเจตนาเพิ่มจาก 62% ในปี 2019 เป็น 89% ในปี 2024 และความน่าจะเป็นที่ผู้ใช้ตีกลับเพราะ “เจตนาไม่ตรงกัน” ลดลง 34%

จาก “ข้อความไม่มีโครงสร้าง” สู่ “ฟิลด์ที่เครื่องอ่านได้”

Knowledge Graph ใช้เทคโนโลยี NLP (เช่น การรู้จำเอนทิตีและการสกัดแอตทริบิวต์) เพื่อเปลี่ยน “ข้อความไม่มีโครงสร้าง” ในหน้าเว็บให้เป็น “ฟิลด์แบบมีโครงสร้าง” (เช่น “Tesla-สำนักงานใหญ่-Texas”)

ตัวอย่างเช่น ข้อความ “สำนักงานใหญ่ของ Tesla ตั้งอยู่ที่เมือง Austin รัฐ Texas สหรัฐอเมริกา” บนหน้าเว็บจะถูกสกัดเป็น:

  • เอนทิตี: Tesla
  • แอตทริบิวต์: สำนักงานใหญ่
  • ค่า: Austin, Texas

ความแม่นยำของการสกัดนี้แตกต่างกันไปตามประเภทเอนทิตี (ข้อมูลองค์กร 92%, ข้อมูลบุคคล 85%, ข้อมูลสินค้า 88%) แต่ก็เพียงพอที่จะรองรับการแสดงข้อมูลบนการ์ดแล้ว (ไวท์เปเปอร์เทคนิคของ Google ปี 2023)

จาก “ผลลัพธ์คงที่” สู่ “ข้อมูลเรียลไทม์”

Knowledge Graph ใช้กลไก “การรวบรวมข้อมูลแบบเรียลไทม์ + การยืนยันจากหลายแหล่งข้อมูล” เพื่อให้แน่ใจว่าข้อมูลบนการ์ดสอดคล้องกับโลกจริง ตัวอย่างเช่น หลัง Tesla ประกาศในปี 2023 ว่า “ย้ายสำนักงานใหญ่ไป Texas” Googlebot ได้รวบรวมรายงานจากเว็บไซต์ทางการ Reuters และ Bloomberg ภายใน 2 ชั่วโมง ยืนยันความสอดคล้องของข้อมูล (เว็บไซต์ทางการและ Reuters ตรงกัน) และอัปเดตการ์ด Knowledge Graph ของผลการค้นหา “Tesla” ทั้งหมดภายใน 4 ชั่วโมง

การทดสอบทางเทคนิคของ Google ปี 2024 แสดงว่า รอบการอัปเดตข้อมูลของเอนทิตีที่มีความสนใจสูง (เช่น บริษัท Fortune Global 500) ถูกย่นจาก “สัปดาห์ละ 1 ครั้ง” แบบเดิม มาเป็น “ระดับรายชั่วโมง” ทำให้ความล่าช้าของข้อมูลที่ผู้ใช้ได้รับลดลงจาก “3 วัน” เหลือ “2 ชั่วโมง”

Knowledge Graph “แสดงคำตอบอย่างแม่นยำ” ได้อย่างไร

เมื่อผู้ใช้ค้นหา “กำลังการผลิตโรงงาน Gigafactory เซี่ยงไฮ้ของ Tesla ปี 2023” การ์ด Knowledge Graph ของ Google สามารถแสดงได้โดยตรงว่า “กำลังการผลิตของโรงงานเซี่ยงไฮ้ในปี 2023 อยู่ที่ 1.25 ล้านคัน คิดเป็น 48% ของกำลังการผลิตรวมทั่วโลกของ Tesla”

หลักการทางเทคนิค

หัวใจของ Knowledge Graph คือการเปลี่ยน “ข้อความไม่มีโครงสร้าง” (เช่น ย่อหน้าและประโยคบนหน้าเว็บ) ให้เป็น “ข้อมูลแบบมีโครงสร้าง” (เช่น ทริปเปิล “เอนทิตี-แอตทริบิวต์-ค่า”) และสร้างเครือข่ายข้อมูลผ่านความสัมพันธ์ที่เชื่อมโยงกัน

กระบวนการนี้อาศัยสายโซ่เทคนิคต่อไปนี้ (ดูด้านล่าง):

คำค้นของผู้ใช้ → Google crawler เก็บข้อความจากทั้งเว็บ → โมเดล NLP ระบุเอนทิตี (เช่น “Tesla”) → สกัดแอตทริบิวต์ (เช่น “กำลังการผลิตของโรงงานเซี่ยงไฮ้”) → เชื่อมโยงเอนทิตีอื่น (เช่น “กำลังการผลิตรวมทั่วโลก”) → ตรวจสอบความสอดคล้องของหลายแหล่งข้อมูล → สร้างการ์ดแบบมีโครงสร้าง → จัดอันดับและแสดงผล

องค์ประกอบทางเทคนิค

การรู้จำเอนทิตี (NER)

การรู้จำเอนทิตีคือ “จุดเริ่มต้น” ของ Knowledge Graph โดยแก่นของมันคือการระบุ “เอนทิตีที่มีชื่อ” (เช่น องค์กร บุคคล สถานที่) จากข้อความไม่มีโครงสร้าง และติดป้ายประเภทให้

Google อาศัยโมเดลที่ผ่านการพรีเทรนแล้วอย่าง BERT ในการทำภารกิจนี้ โดยมีรายละเอียดทางเทคนิคดังนี้:

  • หลักการของโมเดล:BERT (Bidirectional Encoder Representations from Transformers) ใช้การเรียนรู้บริบทแบบสองทิศทาง ทำให้เข้าใจว่า “Tesla” ใน “Tesla Shanghai Factory” คือ “เอนทิตีองค์กร” แต่ใน “Tesla Coil” คือ “แนวคิดทางวิทยาศาสตร์” จึงสามารถติดป้ายประเภทเอนทิตีได้อย่างแม่นยำ (Organization vs ScientificConcept)
  • ข้อมูลความแม่นยำ:ไวท์เปเปอร์เทคนิคของ Google ปี 2023 แสดงว่า BERT มีความแม่นยำในการระบุเอนทิตีองค์กรถึง 92% (สำหรับชื่อองค์กรที่เป็นมาตรฐาน) และความแม่นยำในการระบุเอนทิตีจากประโยคซับซ้อน (เช่น “ก่อตั้งร่วมกันโดย XX และ YY”) อยู่ที่ 85% (เนื่องจาก “ก่อตั้งร่วมกัน” อาจเกี่ยวข้องกับเอนทิตีหลายตัว)
  • กรณีตัวอย่าง:หากบนหน้าเว็บมีข้อความว่า “ในปี 2003 Martin Eberhard และ Marc Tarpenning ก่อตั้งบริษัท Tesla Motors ที่ Palo Alto” โมเดล BERT จะระบุได้ว่า:
    • เอนทิตี 1: Martin Eberhard (Person)
    • เอนทิตี 2: Marc Tarpenning (Person)
    • เอนทิตี 3: Tesla Motors (Organization)
    • เอนทิตี 4: Palo Alto (Location)

การสกัดแอตทริบิวต์

เป้าหมายของการสกัดแอตทริบิวต์คือการวิเคราะห์ความสัมพันธ์เชิงความหมายระหว่างเอนทิตี และดึงคู่ “แอตทริบิวต์-ค่า” ออกมา (เช่น “Tesla-วันก่อตั้ง-ปี 2003”)

Google ทำภารกิจนี้โดยผสาน “การวิเคราะห์ไวยากรณ์แบบพึ่งพา” เข้ากับ “เทมเพลตกฎ”:

  • รายละเอียดทางเทคนิค
    • การวิเคราะห์ไวยากรณ์แบบพึ่งพา:ระบุความสัมพันธ์ทางไวยากรณ์ระหว่างคำในประโยค (เช่น “ก่อตั้ง” เป็นคำกริยา, “Tesla” เป็นกรรม, “ปี 2003” เป็นส่วนขยายเวลา) จึงสกัดได้ว่า “Tesla-วันก่อตั้ง-ปี 2003”
    • เทมเพลตกฎ:ตั้งกฎล่วงหน้าสำหรับแอตทริบิวต์ที่ใช้บ่อย (เช่น “วันก่อตั้ง”, “สำนักงานใหญ่”) เช่น ถือว่าเนื้อหาหลังคำว่า “ก่อตั้งเมื่อ” หรือ “สำนักงานใหญ่ตั้งอยู่ที่” คือค่าแอตทริบิวต์ เพื่อชดเชยข้อจำกัดของโมเดลในประโยคซับซ้อน
  • ข้อมูลความแม่นยำ:การทดสอบภายในของ Google ปี 2024 แสดงว่า ความแม่นยำของการสกัดแอตทริบิวต์ “วันก่อตั้ง” ของบริษัทอยู่ที่ 88% (สำหรับถ้อยคำที่เป็นมาตรฐาน) แต่สำหรับแอตทริบิวต์ที่กำกวมอย่าง “ผู้ก่อตั้ง” (เช่น “ผู้ร่วมก่อตั้ง”, “นักลงทุนช่วงเริ่มต้น”) ความแม่นยำมีเพียง 72% (เพราะวิธีการเขียนมีความหลากหลาย)
  • กรณีตัวอย่าง:หากหน้าเว็บเขียนว่า “ในปี 2004 Elon Musk ลงทุนใน Tesla 6.3 ล้านดอลลาร์และกลายเป็นผู้ถือหุ้นรายใหญ่ที่สุด” การวิเคราะห์ไวยากรณ์แบบพึ่งพาจะระบุว่า “ลงทุน” เป็นคำกริยา, “Tesla” เป็นกรรม, “Elon Musk” เป็นผู้กระทำ, “6.3 ล้านดอลลาร์” เป็นจำนวนเงิน และสุดท้ายสกัดคู่แอตทริบิวต์ได้ว่า “Tesla-นักลงทุน-Elon Musk” และ “Tesla-จำนวนเงินระดมทุน-6.3 ล้านดอลลาร์”

การยืนยันจากหลายแหล่งข้อมูล

การยืนยันจากหลายแหล่งข้อมูลคือ “ขั้นตอนตรวจคุณภาพ” ของ Knowledge Graph โดยแก่นของมันคือการทำให้แน่ใจว่าแอตทริบิวต์เดียวกันของเอนทิตีเดียวกันมีความสอดคล้องกันอย่างน้อยใน 3 แหล่งข้อมูลที่น่าเชื่อถือ

Google ใช้กฎต่อไปนี้เพื่อดำเนินการ:

การจัดระดับแหล่งข้อมูลที่น่าเชื่อถือ (ดูตารางด้านล่าง):

ประเภทแหล่งข้อมูล น้ำหนัก (ความน่าเชื่อถือ) ตัวอย่าง
เว็บไซต์ทางการ 90 เว็บไซต์ทางการ Tesla (Tesla.com)
สารานุกรมที่น่าเชื่อถือ 85 Wikipedia (บทความ Tesla, Inc.)
ฐานข้อมูลภาครัฐ/อุตสาหกรรม 80 เอกสารยื่นบริษัทต่อ SEC สหรัฐฯ, Crunchbase
สื่อที่มีน้ำหนักสูง 70 The New York Times, TechCrunch
บล็อกส่วนตัว/ฟอรัม 30 บล็อกเทคโนโลยีส่วนตัว, กระทู้สนทนาใน Reddit

ตรรกะการยืนยัน

  • หากแอตทริบิวต์เดียวกันสอดคล้องกันในแหล่งข้อมูลที่น่าเชื่อถือ 3 แห่งขึ้นไป (ค่าคลาดเคลื่อน ≤5%) จะถูกทำเครื่องหมายว่า “ความน่าเชื่อถือสูง” และบรรจุ
  • หากมีเพียง 2 แหล่งที่ตรงกัน หรือมีความขัดแย้ง (เช่น เว็บไซต์ทางการเขียนว่า “ก่อตั้งปี 2003” แต่ Wikipedia เขียนว่า “ก่อตั้งปี 2002”) จะถูกทำเครื่องหมายว่า “ความน่าเชื่อถือต่ำ” และยังไม่บรรจุชั่วคราว
  • หากทุกแหล่งข้อมูลขัดแย้งกันทั้งหมด จะถูกปฏิเสธการบรรจุโดยตรง

ข้อมูลสนับสนุน:คู่มือ “การบรรจุข้อมูลใน Knowledge Graph” ของ Google ปี 2023 แสดงว่า ความขัดแย้งของแอตทริบิวต์คือสาเหตุที่พบบ่อยที่สุดของการปฏิเสธการบรรจุ (38%) รองลงมาคือ “ความน่าเชื่อถือของแหล่งข้อมูลไม่เพียงพอ (เช่น ใช้เพียงบล็อกส่วนตัว 25%)” และ “รูปแบบมาร์กอัปผิดพลาด (เช่น รูปแบบวันที่ผิด 19%)”

การอัปเดตระดับรายชั่วโมง

  • การรวบรวมข้อมูลแบบเรียลไทม์:สำหรับเอนทิตีที่มีความสนใจสูง (เช่น บริษัท Fortune Global 500 หรือสินค้ายอดนิยม) ความถี่ในการรวบรวมข้อมูลของ Googlebot เพิ่มจาก “สัปดาห์ละ 1 ครั้ง” แบบเดิมเป็น “ชั่วโมงละ 1 ครั้ง” (คำอธิบายการอัปเดตอัลกอริทึมค้นหาของ Google ปี 2024) ตัวอย่างเช่น เมื่อ Tesla เปิดตัว Cybertruck ในเดือนตุลาคม 2023 crawler ได้รวบรวมข่าวประชาสัมพันธ์จากเว็บไซต์ทางการ, TechCrunch และ Reuters ภายใน 15 นาทีหลังงานเปิดตัวจบลง
  • การยืนยันอย่างรวดเร็ว:ข้อมูลใหม่ต้องผ่าน “การตรวจสอบข้ามหลายแหล่งข้อมูล” ก่อนจึงจะแสดงได้ ตัวอย่างเช่น เมื่อเว็บไซต์ทางการ Tesla ประกาศว่า “ยอดส่งมอบ Q3 ปี 2023 อยู่ที่ 435,000 คัน” Google จะรวบรวมเว็บไซต์ทางการ (น้ำหนัก 90%), รายงาน SEC 10-Q (น้ำหนัก 85%) และรายงานของ Bloomberg (น้ำหนัก 70%) พร้อมกัน หากข้อมูลทั้งสามตรงกัน (ค่าคลาดเคลื่อน ≤2%) จะอัปเดตทันที
  • ความทันเวลาของการอัปเดต:การทดสอบทางเทคนิคของ Google ปี 2024 แสดงว่า รอบการอัปเดตข้อมูลของเอนทิตีที่มีความสนใจสูงเฉลี่ยอยู่ที่ 4.2 นาที (ตั้งแต่ยืนยันเสร็จจนการ์ดออนไลน์) ส่วนเอนทิตีทั่วไปอยู่ที่ 18 นาที ตัวอย่างเช่น หลังประกาศรางวัลโนเบลสาขาสรีรวิทยาหรือการแพทย์ปี 2023 Google ใช้เวลาเพียง 5 นาทีหลังยืนยันรายชื่อผู้ได้รับรางวัลในการอัปเดตการ์ดของ “Katalin Karikó” โดยแสดงแอตทริบิวต์ “ผู้ได้รับรางวัลโนเบลปี 2023”

ทำอย่างไรให้เนื้อหาถูกบรรจุใน Google Knowledge Graph

หากต้องการให้เนื้อหาถูกบรรจุใน Google Knowledge Graph ต้องเป็นไปตามเงื่อนไขหลัก 3 ประการ:

  • ใช้ Schema.org มาร์กอัปแอตทริบิวต์หลัก (สำหรับองค์กร/บุคคล/สินค้า ต้องมาร์กอัปฟิลด์อย่างชื่อ วันก่อตั้ง เป็นต้น)
  • ทำให้แน่ใจว่าข้อมูลจากหลายแหล่งสอดคล้องกัน (แอตทริบิวต์จากเว็บไซต์ทางการ Wikipedia และแหล่งข้อมูลที่น่าเชื่อถืออย่างน้อย 3 แห่งต้องไม่มีความขัดแย้ง)
  • ตรวจสอบผ่านเครื่องมือของ Google (ใช้ Google Search Console เพื่อติดตามสถานะการจัดทำดัชนี)

ข้อมูลแสดงว่า เว็บไซต์ทางการขององค์กรที่ใช้ Schema มาร์กอัปมีโอกาสถูกบรรจุสูงกว่าเว็บไซต์ที่ไม่มาร์กอัป 47% (Moz 2024) แต่ความขัดแย้งของแอตทริบิวต์ (เช่น “วันก่อตั้ง” บนเว็บไซต์ทางการไม่ตรงกับ Wikipedia) จะทำให้เกิดอัตราการปฏิเสธการบรรจุ 38% (Google 2023)

ใช้ Schema.org มาร์กอัปแอตทริบิวต์หลัก

Google ไม่สามารถ “อ่านเข้าใจ” ข้อความบนหน้าเว็บได้โดยตรง จึงต้องใช้มาร์กอัปข้อมูลแบบมีโครงสร้างของ Schema.org เพื่อระบุอย่างชัดเจนว่า “นี่คือใคร” และ “มีแอตทริบิวต์อะไรบ้าง”

Schema.org คือมาตรฐานการมาร์กอัปสากลที่ครอบคลุมเอนทิตีกว่า 1000 ประเภท เช่น องค์กร บุคคล และสินค้า และเป็น “ตั๋วผ่านเข้า” สู่การบรรจุใน Knowledge Graph

“แอตทริบิวต์ที่ต้องมาร์กอัป” ของเอนทิตีแต่ละประเภท (ดูตารางด้านล่าง)

ประเภทเอนทิตี แอตทริบิวต์หลักที่ต้องมาร์กอัป (ตัวอย่าง) ความหมายของการมาร์กอัป ข้อมูลสนับสนุน (Google 2023)
องค์กร/บริษัท name (ชื่อ), foundingDate (วันก่อตั้ง), headquarters (สำนักงานใหญ่), industry (อุตสาหกรรม) ช่วยให้ Google ระบุ “ข้อมูลพื้นฐานขององค์กร” ได้ 82% ของการ์ดองค์กรมี 4 แอตทริบิวต์แรกนี้
บุคคล name (ชื่อ), birthDate (วันเกิด), nationality (สัญชาติ), jobTitle (อาชีพ) ช่วยให้ Google พิจารณา “ตัวตนของบุคคล” ได้ 75% ของการ์ดบุคคลมีข้อมูลอาชีพ
สินค้า/บริการ name (ชื่อ), releaseDate (วันเปิดตัว), brand (แบรนด์), offers (ฟังก์ชันที่มีให้) รองรับ “การแสดงข้อมูลสินค้าอย่างแม่นยำ” 68% ของการ์ดสินค้ามีข้อมูลแบรนด์

ตัวอย่างการใช้งาน (การมาร์กอัปเว็บไซต์ทางการขององค์กร):

<script type=”application/ld+json”>
{
“@context”: “https://schema.org”,
“@type”: “Organization”,
“name”: “Tesla, Inc.”,
“foundingDate”: “2003-04-01”,
“headquarters”: {
“@type”: “Place”,
“name”: “Austin, Texas, USA”
},
“industry”: “Electric Vehicles”
}
</script>

มาร์กอัปนี้ส่งข้อมูลสำคัญไปยัง Google โดยตรงว่า “Tesla เป็นองค์กร ก่อตั้งในปี 2005 สำนักงานใหญ่อยู่ที่ Austin รัฐ Texas และอยู่ในอุตสาหกรรมรถยนต์ไฟฟ้า”

“ข้อผิดพลาดที่พบบ่อย” ในการมาร์กอัป

  • การมาร์กอัปมากเกินไป:ไม่จำเป็นต้องมาร์กอัปทุกแอตทริบิวต์ (เช่น “จำนวนพนักงาน” ขององค์กรไม่ใช่สิ่งที่ต้องมาร์กอัปเสมอไป) ควรให้ความสำคัญกับ “แอตทริบิวต์หลัก” ที่ผู้ใช้ต้องการบ่อย (เช่น “ราคาเริ่มต้น” ของสินค้า)
  • รูปแบบผิดพลาด:วันที่ต้องใช้รูปแบบ “YYYY-MM-DD” (เช่น “2003-04-01”) ไม่ใช่ “2003/4/1”; พิกัดต้องใช้ “ละติจูด,ลองจิจูด” (เช่น “30.2672,-97.7431”)
  • ความขัดแย้งของหลายภาษา:หากเว็บไซต์ทางการมีหลายภาษา ต้องมาร์กอัปแยกสำหรับแต่ละภาษา (เช่น เวอร์ชันภาษาอังกฤษใช้ inLanguage: "en") เพื่อหลีกเลี่ยงความสับสนของ Google

ความครบถ้วนของแอตทริบิวต์และความแม่นยำของความสัมพันธ์

ความครบถ้วนของแอตทริบิวต์

สถิติของ Google ปี 2024 แสดงว่า เอนทิตีที่ครอบคลุมแอตทริบิวต์หลักมากกว่า 8 รายการ มีโอกาสถูกบรรจุสูงกว่าเอนทิตีที่มีเพียง 3 รายการถึง 62%

ใช้ “องค์กร” เป็นตัวอย่าง นอกจากแอตทริบิวต์ที่ต้องมาร์กอัปแล้ว ยังแนะนำให้เพิ่ม:

  • แอตทริบิวต์ที่ผู้ใช้สนใจ: numberOfEmployees (จำนวนพนักงาน), foundingLocation (สถานที่ก่อตั้ง)
  • แอตทริบิวต์แบบไดนามิก: latestRevenue (รายได้ล่าสุด), notableProduct (สินค้าดาวเด่น)
  • แอตทริบิวต์ที่เชื่อมโยง: parentOrganization (บริษัทแม่), subsidiary (บริษัทย่อย)

กรณีตัวอย่าง:สตาร์ตอัปเทคโนโลยีแห่งหนึ่งมาร์กอัปเพียง “ชื่อ” และ “วันก่อตั้ง” จึงไม่ถูกบรรจุ แต่หลังจากเพิ่ม “จำนวนพนักงาน”, “CEO” และ “สินค้าดาวเด่น” ก็ถูกครอบคลุมโดย Knowledge Graph ภายใน 3 เดือน

ความแม่นยำของความสัมพันธ์

ความสัมพันธ์คือ “โครงกระดูก” ของ Knowledge Graph จึงต้องระบุความเชื่อมโยงเชิงความหมายระหว่างเอนทิตีให้ชัดเจน (เช่น “ผู้ก่อตั้ง”, “CEO”, “สินค้า”)

Google ใช้โมเดลการวิเคราะห์เชิงความหมาย เพื่อตรวจสอบความสมเหตุสมผลของความสัมพันธ์ ข้อผิดพลาดที่พบบ่อยได้แก่:

  • ประเภทความสัมพันธ์ผิด:มาร์กอัป “CEO” เป็น “ผู้ก่อตั้ง” (เช่น Musk เป็น CEO ของ Tesla แต่ผู้ก่อตั้งยุคแรกคือ Eberhard)
  • ความสัมพันธ์สับสน:มาร์กอัป “Tesla-สินค้า-Model 3” แต่ไม่มาร์กอัป “Model 3-โรงงานผลิต-Gigafactory เซี่ยงไฮ้” (ผู้ใช้ค้นหา “Model 3 ผลิตที่ไหน” แล้วระบบจึงเชื่อมโยงไม่ได้)
  • ความสัมพันธ์ซ้ำซ้อน:มาร์กอัปความสัมพันธ์เดียวกันซ้ำหลายครั้ง (เช่น มาร์กอัป “Tesla-ผู้ก่อตั้ง-Eberhard” ซ้ำหลายรอบ) ซึ่งอาจทำให้ Google ลดน้ำหนัก

การจัดการแหล่งข้อมูล

Google มีข้อกำหนดด้านความถูกต้องของข้อมูลสูงมาก โดยแอตทริบิวต์เดียวกันของเอนทิตีเดียวกันต้องสอดคล้องกันอย่างน้อยใน 3 แหล่งข้อมูลที่น่าเชื่อถือ มิฉะนั้นจะถูกทำเครื่องหมายว่า “ความน่าเชื่อถือต่ำ”

การจัดระดับแหล่งข้อมูลที่น่าเชื่อถือ (ดูตารางด้านล่าง)

ประเภทแหล่งข้อมูล ความน่าเชื่อถือ ตัวอย่าง ลำดับความสำคัญของ Google
เว็บไซต์ทางการ ★★★★★ Tesla.com สูงสุด
สารานุกรมที่น่าเชื่อถือ ★★★★☆ Wikipedia (บทความ Tesla, Inc.) สูง
ฐานข้อมูลภาครัฐ/อุตสาหกรรม ★★★★ เอกสารยื่นบริษัทต่อ SEC สหรัฐฯ, Crunchbase ค่อนข้างสูง
สื่อที่มีน้ำหนักสูง ★★★☆ The New York Times, TechCrunch ปานกลาง
บล็อกส่วนตัว/ฟอรัม ★★ บล็อกเทคโนโลยีส่วนตัว, กระทู้ Reddit ต่ำ

จะแก้ความขัดแย้งของแหล่งข้อมูลได้อย่างไร

หากแอตทริบิวต์จากแหล่งข้อมูลต่างกันขัดแย้งกัน (เช่น เว็บไซต์ทางการเขียนว่า “ก่อตั้งปี 2003” แต่ Wikipedia เขียนว่า “ก่อตั้งปี 2002”) ตรรกะการจัดการของ Google มีดังนี้:

  • ขั้นตอนที่ 1:ให้ความสำคัญกับแหล่งข้อมูลที่น่าเชื่อถือมากกว่า (เว็บไซต์ทางการ > Wikipedia > สื่อ)
  • ขั้นตอนที่ 2:หากแหล่งข้อมูลที่น่าเชื่อถือขัดแย้งกันเอง (เช่น เว็บไซต์ทางการกับ Wikipedia) จะขอ “หลักฐานเพิ่มเติม” (เช่น หนังสือรับรองการจดทะเบียนบริษัท หรือรายงานทางการเงิน)
  • ขั้นตอนที่ 3:หากไม่สามารถแก้ความขัดแย้งได้ภายใน 30 วัน จะถูกทำเครื่องหมายว่า “ความน่าเชื่อถือต่ำ” และยังไม่บรรจุชั่วคราว

เครื่องมือช่วย: Google Search Console

Google Search Console (GSC) คือ “เครื่องมือติดตามการบรรจุใน Knowledge Graph” ที่ Google ให้บริการอย่างเป็นทางการ ซึ่งช่วยให้ดูสถานะการบรรจุและตรวจสอบปัญหาได้แบบเรียลไทม์

ฟังก์ชันสำคัญ:

  • การติดตามสถานะดัชนี:ดูว่าเอนทิตีถูกบรรจุหรือไม่ใน “การจัดทำดัชนี” → “ความครอบคลุม” (แสดงเป็น “จัดทำดัชนีแล้ว” หรือ “ยกเว้น”)
  • รายงานผลลัพธ์แบบปรับปรุง:ดูข้อมูลการแสดงผลของการ์ด Knowledge Graph (เช่น จำนวนคลิก จำนวนการแสดงผล) ใน “ผลลัพธ์แบบปรับปรุง”
  • การวินิจฉัยข้อผิดพลาด:ตรวจสอบข้อผิดพลาดของมาร์กอัป (เช่น รูปแบบ Schema ผิด) และความขัดแย้งของแหล่งข้อมูล (เช่น การแจ้งเตือนว่าแอตทริบิวต์ไม่สอดคล้องกัน) ใน “ข้อผิดพลาด”

เทคนิคการเพิ่มประสิทธิภาพ:

  • ตรวจสอบเป็นประจำ:เข้าสู่ระบบ GSC ทุกสัปดาห์ เพื่อดูสาเหตุของ “ยังไม่แสดง” ใน “ผลลัพธ์แบบปรับปรุง” (เช่น “แอตทริบิวต์ขาดหาย”, “แหล่งข้อมูลขัดแย้งกัน”)
  • ส่งข้อเสนอแนะข้อมูล:หากข้อมูลบนการ์ดผิด (เช่น “ที่ตั้งสำนักงานใหญ่” แสดงผิด) ให้ส่ง “คำขอแก้ไขข้อมูล” ผ่าน GSC
  • วิเคราะห์คู่แข่ง:ค้นหาชื่อแบรนด์คู่แข่ง ดูแอตทริบิวต์ที่แสดงบนการ์ด Knowledge Graph ของคู่แข่ง แล้วเติมฟิลด์หลักที่ตนเองยังขาด

ยุคของ Knowledge Graph มาถึงแล้ว เนื้อหาของคุณควรถูก “มองเห็น” อย่างมีประสิทธิภาพยิ่งขึ้น — เริ่มลงมือได้ตั้งแต่ตอนนี้

滚动至顶部