Hướng dẫn cách sử dụng file robot.txt hiệu quả

Nhiệm vụ của file robot.txt

Khi có một công cụ tìm kiếm thông tin trang web của bạn, điều đầu tiên mà nó tìm kiếm hầu hết là file Robots.txt . File này sẽ nói với công cụ tìm kiếm những gì nên và không nên lập chỉ mục. Nó cũng có thể chỉ ra vị trí trang web của bạn trên XML Sitemap. Sau đó các công cụ tìm kiếm sẽ gửi “bot”, “robot” hoặc “spider” để thu thập thông tin trang web của bạn theo như hướng dẫn của file Robots.txt (các công cụ tìm kiếm sẽ không gửi nếu file Robot.txt nói với họ là không thể chỉ mục).
Google, Bing hay các công cụ tìm kiếm khác như Excite, Lycos, Alexa… đều có những “bot” riêng của họ. Hầu hết các bot này đều bắt nguồn từ các công cụ tìm kiếm nhưng cũng có một vài trường hợp các trang web sẽ gửi các bot riêng, ví dụ một số trang web sẽ yêu cầu bạn đặt mã để xác minh quyền sở hữu của bạn đối với trang web đó, sau đó họ sẽ gửi bot và để xem bạn có đưa mã của mình vào hay không.

1 luật “bất thành văn” trên internet là Bots của bất kỳ công cụ tìm kiếm nào cũng phải tuân thủ sự điều hướng của File robots.txt. Nếu nội dung trong file chỉ rõ “đừng index tôi” (Disallow) thì lập tức bots sẽ quay đầu và không lập chỉ mục nữa.

File Robots.txt nằm ở đâu?

File Robots.txt thường nằm ở thư mục gốc của bạn, bạn có thể dễ dàng tạo một file trống và đặt tên là Robots.txt, điều này giúp bạn tránh được các lỗi cho trang web đồng thời cho phép tất cả các công cụ tìm kiếm thu thập thông tin về trang web của bạn.

Cách khóa file Robots.txt và các công cụ tìm kiếm

Nếu bạn muốn ngăn chặn các bot từ các công cụ tìm kiếm xâm nhập vào trang web của mình thì có thể sử dụng đoạn code sau:
#Code to not allow any search engines!
User-agent: *
Disallow: /

Bạn cũng có thể ngăn chặn các bot xâm nhập và lấy thông tin của một số file nhất định bằng việc sử dụng đoạn code dưới đây (đoạn code này là để ngăn chặn xâm nhập cho các file cgi-bin, tmp, junk)
# Blocks robots from specific folders / directories
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

Trong ví dụ trên http://www.yoursitesdomain.com/junk/index.html là đường link bị chặn nhưng http://www.yoursitesdomain.com/index.html và http://www.yoursitesdomain.com/someotherfolder/ sẽ có thể được thu thập thông tin.
Lưu ý: File Robots.txt hoạt động giống như biển báo “không xâm phạm”. Nó cho các bot biết rằng chúng có thể thu thập dữ liệu của trang web hay không chứ nó không thực sự ngăn chặn các bot xâm nhập. Các bot chuẩn và hợp pháp sẽ nghe theo chỉ thị của bạn có cho phép xâm nhập hay không chính vì vậy mà bạn cần sử dụng các công cụ quản trị web cho Bingbot và Googlebot vì họ không nghe theo file Robots.txt, nội dung bên dưới sẽ giúp bạn hiểu rõ hơn:

Hệ thống Google và Bing

Google và Bing không nghe theo file tiêu chuẩn Robots.txt nên bạn có thể tạo tài khoản quản trị hệ thống Google và Bing và cấu hình các tên miền của mình để có chế độ thu thập dữ liệu thấp hơn. Bạn có thể xem thêm tài liệu của Google về file Robots.txt https://support.google.com/webmasters/answer/6062608?hl=en&visit_id=1-636252740320275113-2452672579&rd=1, ngoài ra bạn cũng phải sử dụng các công cụ webmaster của Google để thiết lập hầu hết các tham số của Googlebot.

Mình có một lời khuyên dành cho các bạn là các bạn nên cấu hình file Robots.txt để giảm tốc độ thu thập thông tin từ trang web của bạn, đồng thời làm giảm tài nguyên mà nó yêu cầu từ hệ thống, điều này làm cho lưu lượng truy cập trang web của bạn tốt hơn.
Nếu bạn muốn giảm lưu lượng truy cập từ các công cụ như Yandex hoặc Baidu, bạn cần phải cấu hình file .htaccess.

File Robots mặc định của wordpress:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Hoặc Bạn có thể tham khảo code này

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*
Sitemap: https://hostingviet.vn/sitemap.xml

(thay hostingviet.vn bằng domain của Bạn)