微信客服
Telegram:guangsuan
电话联系:18928809533
发送邮件:[email protected]

Sau khi sửa Robots.txt | Google mất bao lâu để cập nhật chỉ mục

本文作者:Don jiang

Sau khi thay đổi tệp Robots.txt, phản hồi của Google được chia thành hai giai đoạn: “Thu thập tệp” và “Hiệu lực lập chỉ mục”.

Thông thường, Googlebot sẽ đọc lại tệp này trong vòng 24 giờ, nhưng những thay đổi thực tế trong kết quả tìm kiếm (lập chỉ mục) thường mất từ 3 đến 10 ngày.

Để tuân thủ các nguyên tắc quản lý SEO hiệu quả (EEAT), chúng tôi khuyên bạn nên truy cập Google Search Console ngay sau khi sửa đổi.

Sử dụng “Công cụ kiểm tra Robots.txt” để gửi bản cập nhật theo cách thủ công và sử dụng công cụ “Kiểm tra URL” để yêu cầu lập chỉ mục lại cho các trang cốt lõi.

Sự can thiệp chủ động này có thể rút ngắn thời gian hiệu lực xuống còn trong vòng 48 giờ, đảm bảo ngân sách thu thập dữ liệu (Crawl Budget) được tối ưu hóa.

Cập nhật thu thập dữ liệu tự động

Googlebot tuân theo tiêu chuẩn RFC 9309, đặt thời gian lưu bộ nhớ đệm (cache) mặc định cho robots.txt24 giờ.

Trình thu thập dữ liệu yêu cầu tệp này ít nhất một lần mỗi ngày. Nếu máy chủ trả về 304 Not Modified, Google sẽ tiếp tục sử dụng các chỉ thị cũ;

Nếu trả về 200 OK và kích thước tệp dưới 500 KB, các quy tắc mới sẽ ghi đè lên bộ nhớ đệm.

Độ trễ đồng bộ hóa của cập nhật tự động thường trong vòng 24 giờ, nhưng việc xóa hoặc khôi phục chỉ mục phản ánh trên trang kết quả tìm kiếm còn tùy thuộc vào việc phân bổ ngân sách thu thập dữ liệu, thường mất từ 3 đến 10 ngày.

Ngân sách thu thập dữ liệu

Ngân sách thu thập dữ liệu không phải là một con số cố định. Khi xử lý robots.txt, Googlebot luôn ưu tiên tiêu thụ ngân sách để lấy tệp này.

Nếu một trang web có ngân sách thu thập dữ liệu dồi dào, tần suất Googlebot truy cập /robots.txt sẽ cao hơn đáng kể so với các trang web thông thường.

Đối với các nền tảng thương mại điện tử lớn tạo ra hàng vạn URL mới mỗi ngày, Google có thể kiểm tra các thay đổi của tệp sau mỗi vài giờ.

Trong khi đó, trên các trang web nhỏ có ngân sách thấp, hệ thống sẽ thực hiện nghiêm ngặt chu kỳ bộ nhớ đệm 24 giờ.

Nếu thời gian phản hồi trung bình của máy chủ đối với các yêu cầu từ Googlebot vượt quá 2 giây, Google sẽ tự động cắt giảm ngân sách thu thập dữ liệu của trang web đó.

Sự sụt giảm ngân sách này sẽ ảnh hưởng đến việc phát hiện cập nhật của robots.txt.

Khi máy chủ trả về một lượng lớn lỗi 5xx dưới tải cao, để bảo vệ máy chủ lưu trữ, Googlebot sẽ giảm mạnh tần suất phát hiện, thậm chí ngừng cập nhật các chỉ thị robots lưu trong bộ nhớ đệm cục bộ và chuyển sang thời gian lưu giữ chỉ thị kéo dài tới 35 ngày.

Trong trạng thái này, ngay cả khi tệp trên máy chủ đã được sửa đổi, hệ thống điều phối vẫn sẽ sử dụng bộ nhớ đệm cũ lỗi thời để phân bổ hạn ngạch thu thập dữ liệu.

Cấp độ trang web Lượng yêu cầu thu thập dữ liệu hàng ngày ước tính Tần suất phát hiện robots.txt Thời gian nhận biết hiệu lực quy tắc
Cấp 1 (Hàng triệu trang) > 100,000 lần Mỗi 4 – 6 giờ một lần Trong vòng 12 giờ
Cấp 2 (Hàng trăm nghìn trang) 1,000 – 50,000 lần Mỗi 12 – 24 giờ một lần Khoảng 24 giờ
Cấp 3 (Dưới mười nghìn trang) < 500 lần Mỗi 24 – 48 giờ một lần Trên 48 giờ

Nếu một trang web gần đây xuất bản một lượng lớn báo cáo gốc hoặc trang sản phẩm chất lượng cao, thuật toán điều phối của Google sẽ tăng ưu tiên thu thập dữ liệu của trang đó.

Dưới sự thúc đẩy của “nhu cầu cao” này, Googlebot sẽ yêu cầu thư mục gốc thường xuyên hơn, đồng thời hoàn thành việc kiểm tra phiên bản robots.txt.

Các chỉ số kỹ thuật từ Trung tâm Google Tìm kiếm cho thấy số lượng trang có giá trị PageRank cao tỷ lệ thuận với ngân sách thu thập dữ liệu.

Các tên miền có nhiều liên kết ngoài chất lượng cao thường có tốc độ cập nhật robots.txt tự động nhanh hơn 300% so với các trang web mới không có liên kết ngoài.

Khi xử lý tệp robots.txt chứa lượng lớn quy tắc, giới hạn phân tích cú pháp 500 KB sẽ tương tác phức tạp với ngân sách thu thập dữ liệu.

Nếu tệp chứa một lượng lớn các ký hiệu so khớp biểu thức chính quy (như *$), chi phí để bộ phân tích cú pháp của Googlebot thực hiện logic lọc trong mỗi vòng cập nhật tự động sẽ tăng lên.

Đối với các trang web có ngân sách thu thập dữ liệu hạn hẹp, tập quy tắc kém hiệu quả này sẽ khiến trình thu thập dữ liệu không thể hoàn thành việc duyệt hiệu quả các thư mục sâu trong thời gian kết nối có hạn, biểu hiện bằng việc gia tăng giá trị “Đã thu thập dữ liệu – hiện chưa được lập chỉ mục” trong báo cáo GSC.

Dưới đây là các chỉ số dữ liệu cụ thể ảnh hưởng đến sự phù hợp giữa ngân sách thu thập dữ liệu và tốc độ cập nhật:

  • Ngưỡng Host Load: Tỷ lệ phản hồi 200 OK ổn định của máy chủ khi thu thập dữ liệu đồng thời cần cao hơn 99%, nếu không ngân sách sẽ tự động được điều chỉnh giảm.
  • Mật độ chỉ thị URL: Nếu số lượng đường dẫn Disallow trong một tệp vượt quá 10,000 dòng, nó sẽ làm tăng đáng kể gánh nặng tính toán cho bộ phân tích cú pháp khi cập nhật bộ nhớ đệm.
  • Độ trễ phản hồi trung bình: Nếu thời gian Googlebot lấy robots.txt ổn định trong vòng 200 mili giây, hệ thống sẽ có xu hướng tăng tần suất phát hiện.
  • Tỷ lệ phản hồi 304: Nếu máy chủ thường xuyên trả về chỉ thị 304, Googlebot sẽ coi nội dung tệp là ổn định, từ đó đẩy cửa sổ thời gian phát hiện tự động tiếp theo đến sát giới hạn 24 giờ.

Trong phần “Yêu cầu thu thập dữ liệu theo mục đích”, tỷ lệ của danh mục “Đồng bộ hóa lại” phản ánh tỷ lệ ngân sách mà Googlebot tiêu thụ để duy trì sự tươi mới của các chỉ thị.

Nếu tỷ lệ này thấp hơn 1% tổng lượng thu thập dữ liệu và trang web đang trong giai đoạn điều chỉnh đường dẫn quy mô lớn, độ trễ cập nhật tự động sẽ trở nên không thể kiểm soát.

Lúc này, việc thu thập dữ liệu đối với các thư mục đã bị chặn vẫn sẽ tiếp tục diễn ra vì các chỉ thị bộ nhớ đệm cũ trong nhóm điều phối vẫn chưa được ghi đè.

Đối với các trang web được lưu trữ trên Mạng phân phối nội dung (CDN), chiến lược lưu bộ nhớ đệm của các nút biên CDN đôi khi có thể can thiệp vào việc đánh giá ngân sách thu thập dữ liệu của Googlebot. Nếu CDN vẫn trả về phản hồi với ETag cũ cho Googlebot sau khi robots.txt thay đổi, Google sẽ nhầm tưởng rằng tệp chưa được cập nhật, từ đó chấm dứt lần đồng bộ hóa tự động này. Tình trạng này khá phổ biến trong các môi trường lưu trữ phân tán ở Bắc Mỹ và Châu Âu, thường yêu cầu đặt thời hạn bộ nhớ đệm CDN của robots.txt thành 0 hoặc sử dụng tiêu đề no-cache.

Khi một trang web trải qua các sửa đổi robots.txt quy mô lớn, hàng nghìn trang vốn được phép thu thập dữ liệu có thể vẫn tạo ra hồ sơ thu thập dữ liệu trong vòng 48 giờ đầu tiên sau khi sửa đổi quy tắc.

Chỉ khi bộ nhớ đệm robots.txt mới được đồng bộ hóa hoàn toàn với tất cả các nút cụm thu thập dữ liệu của Google, các tác vụ thu thập dữ liệu lỗi thời này mới được hệ thống hủy bỏ hàng loạt.

Biểu hiện sau khi cập nhật

Ở trạng thái bình thường, phản hồi 200 (OK) hoặc 304 (Not Modified) của robots.txt nên bao phủ 100% hồ sơ yêu cầu.

Nếu tỷ lệ mã trạng thái 4xx hoặc 5xx tăng lên, điều đó cho thấy máy chủ đã xảy ra sai lệch cấu hình khi xử lý yêu cầu xác thực tự động của Googlebot.

Trong vòng 24 đến 48 giờ sau khi cập nhật tự động, bạn sẽ quan sát thấy một bước ngoặt rõ rệt trong biểu đồ “Tổng số lần thu thập dữ liệu”.

Nếu chỉ thị mới chặn các thư mục được thu thập dữ liệu tần suất cao, tần suất yêu cầu User-Agent của Googlebot trong nhật ký máy chủ (Server Logs) sẽ giảm từ hàng chục lần mỗi phút xuống còn không.

Chỉ số giám sát Biểu hiện cập nhật tự động bình thường Biểu hiện trạng thái bất thường
Mã phản hồi robots.txt Duy trì liên tục trạng thái 200 hoặc 304. Xuất hiện lỗi 403 bị từ chối quyền hoặc 503 dịch vụ không khả dụng.
Loại yêu cầu thu thập dữ liệu Yêu cầu “Trích xuất nội dung” đối với đường dẫn đã chặn biến mất. Vẫn tạo ra lượng lớn hồ sơ thu thập dữ liệu 200 đối với đường dẫn đã chặn.
Phạm vi lập chỉ mục Số lượng “Bị chặn bởi robots.txt” trong danh mục “Loại trừ” tăng lên. Số lượng trang “Hợp lệ” không giảm theo sửa đổi robots.txt.
Chỉ số Host Load Áp lực tải máy chủ giảm khi phạm vi chặn mở rộng. Áp lực thu thập dữ liệu không giảm mà còn tăng, có thể có xung đột cú pháp chỉ thị.

Theo đặc tả giao thức RFC 9309, Googlebot sẽ tuân thủ nghiêm ngặt giới hạn 500 KB khi xử lý tự động robots.txt. Nếu nội dung tệp vượt quá ngưỡng này sau khi cập nhật tự động, Google sẽ chỉ đọc và thực thi các chỉ thị trong 500 KB đầu tiên. Về mặt dữ liệu, điều này sẽ dẫn đến việc các quy tắc Disallow ở cuối tệp không còn hiệu lực, và các trang lẽ ra không được thu thập dữ liệu vẫn xuất hiện trong kết quả tìm kiếm.

Từ góc độ phản hồi lập chỉ mục, sau khi hoàn tất cập nhật tự động, đối với các trang bị quy tắc mới cấm thu thập dữ liệu, Google sẽ không xóa chúng khỏi cơ sở dữ liệu ngay lập tức.

Trang kết quả tìm kiếm (SERP) thường trải qua giai đoạn chuyển tiếp từ 3 đến 10 ngày.

Trong thời gian này, tiêu đề và mô tả (Snippet) của trang sẽ thay đổi, hiển thị văn bản giữ chỗ tiêu chuẩn như “Thông tin mô tả cho trang này không có sẵn do tệp robots.txt của trang web này”.

Nếu bạn nhập URL bị ảnh hưởng vào “Công cụ kiểm tra URL” của Search Console, hệ thống sẽ trả về trạng thái “Đã lập chỉ mục, nhưng bị chặn bởi robots.txt”.

Giai đoạn cập nhật Đặc điểm dữ liệu Đề xuất thao tác tương ứng
Ngày 1-2 Yêu cầu robots.txt trong nhật ký máy chủ tăng, hoàn tất đặt lại bộ nhớ đệm. Xác minh xem “Số liệu thống kê thu thập dữ liệu” trong GSC có lỗi 5xx không.
Ngày 3-5 Ngân sách thu thập dữ liệu bắt đầu phân bổ lại, lượng thu thập dữ liệu đường dẫn mới được cho phép tăng lên. Giám sát tần suất thu thập dữ liệu của các thư mục mới mở xem có đúng kỳ vọng không.
Ngày 7-14 Cơ sở dữ liệu chỉ mục hoàn tất đồng bộ hóa quy mô lớn, mô tả trang cũ biến mất. Kiểm tra xem SERP còn tồn tại các liên kết lỗi thời kèm văn bản giữ chỗ không.

Bằng cách phân tích các yêu cầu từ dải IP của Googlebot, bạn sẽ thấy rằng Google thực hiện kiểm tra robots.txt bắt buộc sau mỗi 24 giờ.

Trong nhật ký dữ liệu, yêu cầu này thường mang thông tin xác thực của googlebot-id.

Nếu cập nhật tự động có hiệu lực, các yêu cầu GET đối với thư mục bị cấm sẽ nhanh chóng chuyển về 0.

Đối với các trang web lớn có hơn triệu trang, sự sụt giảm tần suất thu thập dữ liệu này sẽ giải phóng thêm hạn ngạch thu thập dữ liệu, các trang có giá trị cao vốn có tần suất thu thập thấp (như trang tin tức hoặc trang chi tiết sản phẩm mới xuất bản) sẽ có nhiều cơ hội được thu thập dữ liệu hơn.

Lúc này, số lượng trang ở trạng thái “Đã phát hiện – hiện chưa được lập chỉ mục” trong GSC sẽ có xu hướng giảm.

Thuật toán cập nhật tự động của Google sẽ tham khảo tiêu đề Last-Modified HTTP. Nếu máy chủ cấu hình chính xác thời gian sửa đổi cuối cùng, Googlebot có thể so sánh hiệu quả hơn sự khác biệt giữa bộ nhớ đệm cục bộ và tệp trên máy chủ khi thực hiện cập nhật tự động. Nếu kích thước tệp không đổi và ngày trong tiêu đề không được cập nhật, Googlebot có thể kết thúc việc kiểm tra cập nhật lần này bằng cách gửi mã trạng thái 304 để tiết kiệm tài nguyên trình thu thập.

Đối với những trang vốn xếp hạng trong ba trang đầu kết quả tìm kiếm, tốc độ xóa bộ nhớ đệm của chúng thường chậm hơn so với các trang ở tầng sâu.

Bạn có thể thực hiện kiểm tra mẫu dữ liệu trong hộp tìm kiếm bằng cách sử dụng lệnh site kết hợp với cú pháp inurl:.

Nếu phát hiện thấy một số thư mục riêng tư vẫn có thể tìm thấy tiêu đề sau 14 ngày cập nhật tự động, điều đó cho thấy việc thu thập dữ liệu tự động của robots.txt có thể đã gặp vấn đề chuyển hướng đệ quy, khiến Googlebot không thể lấy được các quy tắc văn bản cuối cùng.

Cập nhật thủ công trong Search Console

Trong bảng điều khiển “Cài đặt” của GSC, thông qua báo cáo robots.txt, bạn có thể buộc Googlebot làm mới bộ nhớ đệm mặc định 24 giờ của nó.

Sau khi nhấp vào nút “Yêu cầu cập nhật”, Google thường trích xuất lại tệp trên máy chủ trong vòng 10 đến 30 phút.

Thao tác này sẽ đồng bộ hóa trạng thái phản hồi HTTP với cơ sở dữ liệu chỉ mục của Google. Nếu mã trạng thái là 200, các quy tắc mới sẽ được xử lý ngay lập tức;

Nếu gặp lỗi 503, Googlebot sẽ trì hoãn việc thu thập dữ liệu.

Phương thức can thiệp này có thể rút ngắn đáng kể chu kỳ 48 giờ cần thiết cho cập nhật tự nhiên xuống còn dưới 1 giờ.

Quy trình thực hiện

Sau khi đăng nhập vào Google Search Console, bạn cần di chuột đến tùy chọn “Cài đặt” ở dưới cùng của thanh điều hướng bên trái.

Trong trang cài đặt, tìm báo cáo robots.txt trong danh mục “Thu thập dữ liệu”.

Nhấp vào báo cáo này, giao diện sẽ hiển thị bản sao tệp hiện đang được Google lưu trữ trong cơ sở dữ liệu.

Phía trên trang này ghi rõ ngày trích xuất thành công cuối cùng và dấu thời gian chính xác đến từng giây.

Nếu tệp trên máy chủ đã được sửa đổi, hãy nhấp vào nút “Yêu cầu cập nhật” ở góc trên bên phải trang.

Hành động này sẽ kích hoạt một yêu cầu không đồng bộ, thông báo cho Googlebot truy cập lại ngay lập tức đường dẫn /robots.txt dưới thư mục gốc của trang web.

Googlebot sẽ truy cập bằng tần suất thu thập dữ liệu tiêu chuẩn. Thông thường trong vòng 10 đến 15 phút sau khi nhấp nút, hệ thống sẽ hoàn tất chuyển đổi trạng thái từ “Đã thêm vào hàng đợi” sang “Trích xuất thành công”.

Khi Googlebot trích xuất robots.txt, giới hạn kích thước tệp được kiểm soát nghiêm ngặt ở mức 500 KB (khoảng 512,000 byte). Nếu tệp máy chủ trả về vượt quá giới hạn này, Google sẽ chỉ đọc 500 KB đầu tiên, phần còn lại sẽ bị bỏ qua. Hành vi cắt bỏ này sẽ khiến các chỉ thị Allow hoặc Disallow nằm ở cuối tệp mất hiệu lực.

Sau khi nhấp vào nút cập nhật, máy chủ phải trả về trạng thái phản hồi HTTP 200 OK.

Nếu máy chủ đã cấu hình cơ chế bộ nhớ đệm, ví dụ sử dụng tiêu đề phản hồi ETag hoặc Last-Modified, Googlebot sẽ gửi một yêu cầu If-Modified-Since.

Nếu nội dung tệp không thay đổi ở cấp độ byte, máy chủ trả về 304 Not Modified. Lúc này dấu thời gian trích xuất trong báo cáo GSC vẫn sẽ cập nhật, nhưng nội dung tệp giữ nguyên.

Nếu tệp mới có lỗi cú pháp, ví dụ thiếu dòng User-agent hoặc sử dụng các ký tự đại diện không chuẩn, báo cáo GSC sẽ đánh dấu số dòng lỗi cụ thể bằng màu đỏ trong cửa sổ xem trước.

Quá trình cập nhật thủ công yêu cầu mã hóa tệp phải là UTF-8. Nếu sử dụng các định dạng mã hóa khác chứa Byte Order Mark (BOM), Googlebot có thể không phân tích được chỉ thị đầu tiên ở đầu tệp.

Nếu trang web sử dụng CDN (Mạng phân phối nội dung) như Cloudflare hoặc Fastly, trước khi nhấp cập nhật thủ công trong GSC, bạn phải thực hiện làm mới đường dẫn tệp (Purge Cache) trong trang quản trị CDN. Nếu không, Googlebot sẽ vẫn thu thập phiên bản cũ được lưu trong bộ nhớ đệm của nút CDN, dẫn đến dấu thời gian trong báo cáo GSC là mới nhưng nội dung quy tắc vẫn là chỉ thị cũ.

Đối với các trang web chứa nhiều tên miền phụ (ví dụ blog.example.com và shop.example.com), mỗi tên miền phụ đều có tệp robots.txt độc lập.

Khi kích hoạt cập nhật thủ công trong GSC, bạn phải chuyển sang thuộc tính tài nguyên tương ứng để thực hiện riêng biệt.

Khi xử lý yêu cầu cập nhật thủ công, Googlebot không chỉ cập nhật quyền cho trình thu thập tiêu chuẩn mà còn đồng bộ hóa các quy tắc thu thập cho Googlebot-Image (tìm kiếm hình ảnh) và Googlebot-Video (tìm kiếm video).

Nếu robots.txt định nghĩa nhiều đường dẫn Sitemap, sau khi cập nhật thủ công thành công, Google sẽ thêm các đường dẫn Sitemap này vào hàng đợi chờ xử lý, nhưng sẽ không kích hoạt đồng bộ việc thu thập lại các URL bên trong Sitemap. Việc cập nhật chỉ mục thực tế của các trang vẫn cần tuân theo sự phân bổ ngân sách thu thập của từng trang.

Trong vòng 24 giờ, nếu số lần yêu cầu cho cùng một thuộc tính tài nguyên vượt quá một ngưỡng nhất định, nút này sẽ trở nên không khả dụng.

Googlebot tuân theo giới hạn 5 lần chuyển hướng.

Nếu /robots.txt chuyển hướng đến một URL khác, Googlebot sẽ đi theo tối đa 5 lần nhảy.

Nếu chuỗi chuyển hướng quá dài hoặc trỏ đến trang 404, Google sẽ coi trường hợp này là “thu thập dữ liệu không hạn chế”, tức là mặc định cho phép truy cập tất cả nội dung trang web.

Sau khi hoàn tất cập nhật thủ công, chúng tôi khuyên bạn nên kết hợp sử dụng “Công cụ kiểm tra URL”.

Nhập một URL cụ thể bị ảnh hưởng bởi quy tắc mới vào công cụ, nhấp vào “Kiểm tra URL trực tiếp”.

Trong dữ liệu logic JSON trả về, hãy kiểm tra xem mục “Quyền thu thập dữ liệu” đã hiển thị tương ứng là “Bị chặn bởi robots.txt” hoặc “Được phép” chưa.

Chu kỳ thay đổi

Đối với một trang web quy mô trung bình có 10,000 trang, nếu ban đầu một thư mục bị chặn thông qua chỉ thị Disallow, sau khi sửa thành Allow, Googlebot cần phát hiện lại các URL này.

Nếu các URL này vẫn tồn tại trong sơ đồ trang web XML, trình thu thập dữ liệu sẽ cố gắng truy cập trong vòng 48 giờ;

Nếu không có liên kết nội bộ nào trỏ đến các trang này, chu kỳ phát hiện sẽ kéo dài đến hơn 14 ngày.

Quy mô và trọng số trang web Loại thay đổi quy tắc Thời gian làm mới trạng thái chỉ mục dự kiến Giá trị tham chiếu tần suất thu thập
Trang tin tức lớn (1M+ URL) Hủy chặn đường dẫn 4 giờ – 24 giờ Nhiều yêu cầu mỗi giây
Trang web doanh nghiệp thông thường (1k-5k URL) Hủy chặn đường dẫn 7 ngày – 21 ngày 10-50 yêu cầu mỗi ngày
Trang web quy mô bất kỳ Thêm chặn Disallow 24 giờ – 5 ngày Tùy thuộc vào tốc độ hết hạn bộ nhớ đệm cũ
Trang web mới có trọng số thấp Cho phép quy tắc 15 ngày – 45 ngày Vài yêu cầu mỗi tuần

Khi một chỉ thị chặn bị xóa khỏi robots.txt, Googlebot sẽ đánh dấu đường dẫn bị ảnh hưởng là trạng thái “chờ thu thập dữ liệu”.

Nếu máy chủ phản hồi chậm khi Googlebot cố gắng truy cập các trang mới được cho phép, hoặc trả về một lượng lớn mã trạng thái 503, hệ thống sẽ tự động giảm ưu tiên thu thập dữ liệu của trang web đó, dẫn đến thời điểm cập nhật chỉ mục bị đẩy lùi xa hơn.

Hệ thống lập chỉ mục Caffeine nội bộ của Google sẽ xử lý các dữ liệu mới thu thập này, so sánh chúng với các bản chụp lịch sử.

Nếu nội dung trang giống với nội dung khi bị chặn vài tuần trước, hệ thống có thể tăng tốc độ thu thập;

Nếu trang có nội dung hoàn toàn mới, nó cần trải qua quy trình đánh giá chất lượng đầy đủ.

Cần phân biệt sự khác biệt giữa “Đã thu thập dữ liệu” và “Đã lập chỉ mục”. Trong báo cáo lập chỉ mục trang web của GSC, ngay cả khi trạng thái hiển thị là “Đã thu thập dữ liệu – hiện chưa được lập chỉ mục”, điều đó cũng cho thấy việc cập nhật thủ công robots.txt đã có hiệu lực, trình thu thập dữ liệu đã có thể đọc thành công nội dung trang. Sự chậm trễ lúc này chủ yếu bắt nguồn từ tính toán thuật toán của Google về chất lượng trang, chứ không phải do hạn chế của quy tắc thu thập.

Đối với các trang vốn ở trạng thái cho phép nay cần chặn thông qua robots.txt, tốc độ xử lý thường sẽ nhanh hơn so với “cho phép”.

Một khi Googlebot phát hiện yêu cầu bị robots.txt từ chối trong lần truy cập định kỳ tiếp theo, nó sẽ ghi lại thay đổi này trong bộ nhớ đệm.

Các URL bị ảnh hưởng sẽ biến mất khỏi kết quả tìm kiếm thông thường trong vòng từ 3 đến 7 ngày.

Nhưng trong một số trường hợp, nếu các liên kết ngoài vẫn trỏ đến URL đó, Google có thể giữ lại một mục chỉ mục không có thông tin tóm tắt và hiển thị “Thông tin mô tả cho trang này không có sẵn do robots.txt” trong kết quả tìm kiếm.

Tình trạng này cho thấy robots.txt chỉ ngăn cản việc đọc nội dung, chứ không xóa bỏ hoàn toàn sự tồn tại của URL đó khỏi kho chỉ mục.

Mục tiêu thao tác Cơ chế kích hoạt kỹ thuật Logic hành vi của Googlebot Phản hồi cuối cùng của kho chỉ mục
Khôi phục chỉ mục thư mục bị xóa nhầm Xóa chỉ thị Disallow Thêm đường dẫn vào hàng đợi URL mới phát hiện Hiển thị lại tiêu đề trang và tóm tắt
Ngăn chặn hiển thị thư mục nhạy cảm Thêm chỉ thị Disallow Ngừng gửi yêu cầu GET đến đường dẫn đó Xóa nội dung trang, có thể giữ lại URL giữ chỗ
Nâng cao hiệu quả thu thập dữ liệu Tối ưu hóa ký tự đại diện đường dẫn Phân bổ lại hạn ngạch thu thập cho các đường dẫn quan trọng Tăng tần suất làm mới bản chụp của các trang quan trọng

Nếu trang web sửa đổi robots.txt đồng thời cũng cập nhật các thẻ meta của trang (như meta name=”robots” content=”noindex”), vui lòng lưu ý xung đột logic giữa hai bên.

Nếu robots.txt chặn một đường dẫn, Googlebot sẽ không thể đọc được thẻ noindex bên trong trang web thuộc đường dẫn đó.

Để xóa hoàn toàn chỉ mục của một trang nào đó, cách làm tiêu chuẩn là trước tiên giữ trạng thái Allow trong robots.txt để đảm bảo Googlebot có thể đọc được chỉ thị noindex bên trong trang, sau khi chỉ mục biến mất khỏi kết quả tìm kiếm, mới thực hiện chặn Disallow trong robots.txt.

Theo tài liệu kỹ thuật của Google, chu kỳ hết hạn bộ nhớ đệm của robots.txt thường là 24 giờ. Nếu không thực hiện yêu cầu cập nhật thủ công trong GSC, Googlebot sẽ dựa vào tiêu đề phản hồi Cache-Control mà máy chủ trả về trong lần trích xuất tệp trước đó để quyết định thời gian trích xuất tiếp theo. Nếu máy chủ thiết lập thời gian lưu bộ nhớ đệm cực dài, Google có thể tiếp tục sử dụng quy tắc cũ trong nhiều ngày.

Tốc độ cập nhật chỉ mục cho tài nguyên hình ảnh và video thường chậm hơn so với trang HTML tiêu chuẩn.

Do tần suất thu thập dữ liệu của Googlebot-Image thường thấp hơn trình thu thập chính, sau khi sửa đổi quy tắc chặn đối với thư mục /images/, hình ảnh trong kết quả tìm kiếm có thể mất từ 30 đến 60 ngày mới có sự thay đổi.

Thay đổi thực tế của chỉ mục

Sau khi sửa đổi robots.txt, Googlebot mặc định làm mới bộ nhớ đệm cục bộ của nó trong vòng 24 giờ.

Thông qua công cụ gửi của Google Search Console (GSC), độ trễ đọc tệp có thể được rút ngắn xuống còn 1 phút.

Sự thay đổi ở cấp độ chỉ mục thể hiện đặc tính không đồng bộ:

Các yêu cầu thu thập dữ liệu thường dừng lại trong vòng 10 phút, nhưng việc xóa hoàn toàn URL khỏi trang kết quả tìm kiếm (SERP) sẽ có độ trễ từ 3 đến 14 ngày.

Đối với các trang có hơn 10,000 liên kết ngược, Google có xu hướng giữ lại văn bản giữ chỗ chỉ mục không chứa thông tin mô tả.

Sự phát triển của SERP

Khi Googlebot đọc được chỉ thị Disallow cho một đường dẫn cụ thể trong chu kỳ bộ nhớ đệm robots.txt 24 giờ của nó, sự thay đổi thường bắt đầu xuất hiện trong vòng 48 đến 72 giờ sau khi chỉ thị có hiệu lực, và thứ biến mất đầu tiên là mô tả meta (Meta Description) của trang web.

Bởi vì Google ngừng thu thập dữ liệu trang đó, kho chỉ mục của nó không thể lấy được nội dung thẻ trong tài liệu HTML.

Thay vào đó là một tuyên bố kỹ thuật tiêu chuẩn hóa:

“Thông tin mô tả cho kết quả này không có sẵn do tệp robots.txt của trang web.”

Trong trường hợp thiếu dữ liệu meta nội bộ hỗ trợ, thuật toán của Google sẽ chuyển sang phân tích văn bản neo bên ngoài (Anchor Text) để duy trì hiển thị tiêu đề cho URL đó.

Theo mô tả trong tài liệu chính thức dành cho nhà phát triển của Google (Google Search Central), nếu URL đó được liên kết bởi Amazon, Wikipedia hoặc các trang web bên ngoài có trọng số cao khác, Google sẽ thu thập văn bản mà các trang web bên ngoài này sử dụng khi trỏ đến trang đó.

Nếu các liên kết ngoài chủ yếu sử dụng “nhấp vào đây” hoặc “trang web chính thức” làm văn bản neo, thì trong SERP, tiêu đề của trang đó có thể thay đổi từ các từ đã tối ưu hóa ban đầu thành các từ không có ngữ nghĩa này, thậm chí quay lại hiển thị dưới dạng liên kết URL thô (như https://example.com/private-page/).

Đối với các trang có hơn 5,000 liên kết ngược bên ngoài, khả năng Google xóa văn bản giữ chỗ SERP của nó là cực thấp.

Lúc này, tỷ lệ nhấp (CTR) của mục này trong kết quả tìm kiếm thường sẽ sụt giảm nghiêm trọng, mức giảm thường vượt quá 85%.

Theo thời gian, sự suy giảm về mặt hình ảnh này sẽ lan rộng đến đoạn trích đa phương tiện (Rich Snippets) và đánh dấu Schema.

Các dữ liệu có cấu trúc vốn có như tiện ích đánh giá năm sao, hiển thị giá (Price) hoặc trạng thái kho hàng (Availability) sẽ biến mất hoàn toàn khỏi SERP trong vòng 7 ngày.

Vì Google không thể vào HTML để thực hiện xác thực lần hai cho JSON-LD hoặc Microdata, các thành phần vốn có thể tăng sức hấp dẫn thị giác này sẽ bị hệ thống xóa bỏ vật lý.

Đối với một trang web thương mại điện tử xuyên biên giới hoạt động tại New York hoặc London, diện tích hiển thị vốn chiếm ưu thế trong kết quả tìm kiếm sẽ bị thu hẹp xuống chỉ còn một tiêu đề liên kết màu xanh nhàm chán.

Do không gian màn hình di động có hạn, Google có xu hướng ẩn những kết quả có mật độ thông tin cực thấp.

Nếu một trang bị robots.txt chặn có trọng số thấp trong lập chỉ mục ưu tiên thiết bị di động (Mobile-First Indexing), nó có thể bị gộp vào phần “xem thêm kết quả” hoặc bị đẩy ra sau trang thứ 5.

Trong quan sát trên 200 trường hợp trang web mẫu, một khi robots.txt chặn việc thu thập dữ liệu, thị phần hiển thị (Impression Share) của URL đó trên thiết bị di động sẽ giảm khoảng 60% trong vòng hai tuần.

Ngay cả khi người dùng tìm thấy trang đó thông qua các lệnh chính xác (như site:example.com), trình bày trực quan của nó cũng chỉ còn lại một khung hình đơn điệu.

Trừ khi thực hiện yêu cầu ẩn cưỡng chế thông qua “Công cụ xóa” của Google Search Console, nếu không, URL chỉ còn tiêu đề và thông báo lỗi này có thể tồn tại trong SERP suốt nhiều tháng.

Trong các cuộc thảo luận trường hợp trên các cộng đồng kỹ thuật như Reddit hoặc Stack Overflow, thường có các nhà phát triển phản hồi rằng URL môi trường thử nghiệm của họ vẫn xuất hiện dưới dạng văn bản giữ chỗ trong các tìm kiếm đuôi dài cụ thể sau nửa năm bị cấm thu thập dữ liệu.

Bản chất kỹ thuật của hiện tượng này nằm ở việc Google coi robots.txt là bộ điều chỉnh tần suất thu thập dữ liệu chứ không phải là chỉ thị xóa quyền riêng tư.

Mục thay đổi yếu tố thị giác Trạng thái trước khi sửa Trạng thái sau khi sửa (7-14 ngày) Tham chiếu dữ liệu thay đổi
Tiêu đề (Title) Tiêu đề tùy chỉnh HTML trang web Văn bản neo bên ngoài hoặc đường dẫn URL CTR dự kiến giảm 80%+
Mô tả (Snippet) Mô tả meta hoặc trích xuất nội dung “Do robots.txt không thể cung cấp mô tả” Số ký tự thu hẹp xuống cố định khoảng 36 ký tự
Đoạn trích phong phú (Schema) Hiển thị đánh giá, giá, kho hàng Biến mất hoàn toàn Không gian chiếm dụng thị giác giảm 50%
Bản chụp (Cache) Cung cấp bản sao lịch sử đầy đủ Nút bị xóa hoặc hiển thị trỏ đến 403 Tỷ lệ truy cập thành công là 0%
Đường dẫn (Breadcrumb) Đường dẫn phân cấp có cấu trúc Chuỗi URL thô Mất phân cấp đường dẫn

Trong toàn bộ chu kỳ phát triển, dữ liệu thống kê thu thập dữ liệu mà quản trị viên nhìn thấy ở hậu trường sẽ về 0 trong vòng vài giờ, nhưng sự thay đổi cảm nhận của người dùng ở phía trước được diễn ra chậm chạp tính theo đơn vị tuần.

Phản hồi báo cáo

Trong vòng 24 đến 72 giờ sau khi sửa đổi tệp robots.txt, dữ liệu hậu trường của Google Search Console (GSC) sẽ bắt đầu ghi lại và phản hồi kết quả thực hiện các chỉ thị hạn chế thu thập dữ liệu.

Trong báo cáo lập chỉ mục “Trang” (Pages), bạn sẽ quan sát thấy số lượng URL vốn ở trạng thái “Đã lập chỉ mục” sụt giảm, trong khi giá trị của danh mục cảnh báo cụ thể “Đã lập chỉ mục, nhưng bị chặn bởi robots.txt” sẽ tăng lên tương ứng.

Sự chuyển đổi trạng thái này thường có độ trễ dữ liệu từ 3 đến 5 ngày, vì ngày báo cáo của GSC thường chậm hơn hai ngày so với ngày hiện tại.

Khi một lượng lớn trang được đưa vào phân loại “Cảnh báo”, điều này cho thấy Crawl Service của Google đã ngừng đọc nội dung HTML của các trang này, nhưng vì các URL này vẫn có liên kết trỏ đến trên Internet, hệ thống lập chỉ mục chọn giữ lại hồ sơ đường dẫn của chúng thay vì xóa vật lý.

Mô-đun báo cáo GSC Loại thay đổi dữ liệu Dòng thời gian thay đổi Tham chiếu biên độ thay đổi chỉ số
Báo cáo lập chỉ mục trang Cảnh báo “Đã lập chỉ mục, nhưng bị chặn bởi robots.txt” tăng 3 – 7 ngày sau khi sửa 100% số lượng URL đường dẫn tương ứng di chuyển
Số liệu thống kê thu thập dữ liệu (Crawl Stats) Số lượng yêu cầu thu thập dữ liệu cho thư mục cụ thể 10 phút – 24 giờ sau khi sửa Lượng yêu cầu giảm 95% – 99%
Công cụ kiểm tra URL (URL Inspection) Kiểm tra thời gian thực hiển thị “Không thể thu thập dữ liệu do robots.txt” 1 phút sau khi sửa (làm mới thủ công) Trạng thái quyền thu thập dữ liệu chuyển thành “Thất bại”
Sơ đồ trang web (Sitemaps) Lỗi “Sơ đồ trang web chứa URL bị chặn bởi robots.txt” 48 – 72 giờ sau khi sửa Số lượng lỗi khớp với số URL bị chặn

Trong báo cáo “Số liệu thống kê thu thập dữ liệu” dưới menu “Cài đặt”, bằng cách quan sát biểu đồ phân loại “Theo phản hồi”, bạn sẽ thấy rằng các yêu cầu thu thập tệp robots.txt sẽ có một đỉnh tần suất ngắn ngay sau khi sửa đổi, sau đó ổn định lại.

Nếu tệp trả về mã trạng thái 200 OK và định dạng nội dung chính xác, Googlebot sẽ thực hiện nghiêm ngặt các chỉ thị trong các chu kỳ thu thập dữ liệu tiếp theo.

Bạn có thể phát hiện thông qua việc xuất bảng dữ liệu CSV rằng số lượng yêu cầu của Googlebot-Image hoặc Googlebot-Video đối với các thư mục bị chặn sẽ về 0 trong vòng 24 giờ.

Nếu thống kê thu thập dữ liệu cho thấy vẫn có các yêu cầu liên tục đối với các đường dẫn này, thông thường là do Googlebot vẫn đang cố gắng xử lý các tác vụ còn sót lại đã vào hàng đợi thu thập trước khi quy tắc có hiệu lực, các yêu cầu tồn dư này thường không quá 48 giờ.

Công cụ kiểm tra URL (URL Inspection Tool) cung cấp dữ liệu phản hồi trang đơn chính xác nhất.

Khi bạn nhập một URL bị hạn chế và chạy “Kiểm tra thực tế” (Live Test), hệ thống sẽ trả về một biểu tượng chỉ báo màu đỏ, ghi rõ “Thu thập dữ liệu: Thất bại” và “Lý do: Bị chặn bởi robots.txt”.

Trong tab “Chỉ mục của Google”, bạn sẽ thấy trường “Phạm vi lập chỉ mục” vẫn hiển thị là “Đã lập chỉ mục”. Sự mâu thuẫn giữa trạng thái lập chỉ mục và quyền thu thập dữ liệu này là bình thường trong thời gian robots.txt có hiệu lực, nó sẽ tiếp tục cho đến khi Google tính toán lại giá trị giữ lại của URL đó.

Đối với các trang web sử dụng sơ đồ trang web XML (Sitemaps), nếu sitemap.xml của bạn chứa các URL đã bị cấm thu thập dữ liệu qua robots.txt, GSC sẽ đánh dấu là trạng thái “Lỗi”.

Điều này là do bản chất của sơ đồ trang web là đề xuất Google thu thập dữ liệu các URL này, trong khi robots.txt lại cấm thu thập dữ liệu. Các chỉ thị loại trừ lẫn nhau này sẽ dẫn đến giảm hiệu quả lập chỉ mục.

Dựa trên quan sát thử nghiệm trên 500 trang web quy mô vừa và lớn, sau khi khắc phục xung đột chỉ thị này, tốc độ phát hiện các trang bình thường khác của Google sẽ tăng khoảng 15%.

Khi bạn xem các báo cáo thông thường ngoài “Vấn đề bảo mật và Thao tác thủ công” trong GSC, ngay cả khi bạn đã hủy bỏ chỉ thị cấm trong robots.txt, cảnh báo “Bị chặn” trong báo cáo GSC cũng sẽ không biến mất ngay lập tức, nó cần một Chu kỳ thu thập lại (Re-crawl Cycle) đầy đủ để cập nhật trạng thái.

Sau khi mất đi sự hỗ trợ từ mô tả meta và tối ưu hóa tiêu đề, điểm số mức độ liên quan của các URL này trong kết quả tìm kiếm sẽ giảm mạnh.

  • Kiểm tra trạng thái host của báo cáo thống kê thu thập dữ liệu: Xem trạng thái trích xuất robots.txt trong cài đặt GSC, đảm bảo tỷ lệ trích xuất thành công trong 24 giờ gần nhất là 100%. Nếu xuất hiện lỗi 403 hoặc 5xx, Google sẽ quay lại sử dụng phiên bản bộ nhớ đệm thành công cuối cùng, dẫn đến quy tắc mới mất hiệu lực.
  • Xuất nhật ký thu thập dữ liệu để xác minh đường dẫn: Thông qua dữ liệu thu thập dữ liệu chi tiết được xuất từ GSC, bạn có thể xác nhận liệu User-agent của Googlebot có nhận diện chính xác các chỉ thị nhắm mục tiêu hay không. Ví dụ, nếu bạn chỉ cấm Googlebot-Image, thì trong thống kê thu thập dữ liệu, yêu cầu của trình thu thập trang web phải duy trì bình thường, trong khi yêu cầu của trình thu thập hình ảnh phải giảm xuống mức một chữ số.
  • Giám sát thời gian lưu giữ của văn bản giữ chỗ chỉ mục: Theo dõi các URL mang nhãn cảnh báo trong báo cáo “Trang”. Nếu sau 30 ngày các URL này vẫn không di chuyển từ phân loại cảnh báo sang phân loại “Chưa được lập chỉ mục”, thông thường điều đó cho thấy các trang này sở hữu trọng số liên kết ngoài cực cao, chỉ riêng robots.txt không thể làm chúng thoát khỏi kho chỉ mục.

Nhà phát triển không nên mong đợi nhìn thấy sự thay đổi con số trong báo cáo tổng hợp trong vòng 10 phút sau khi sửa đổi tệp.

Ngược lại, nên tập trung sự chú ý vào các thay đổi thời gian thực của “Thống kê thu thập dữ liệu” và kiểm tra điểm đơn lẻ của “Kiểm tra URL”.

滚动至顶部