Google vừa phát hành một tài liệu mới về robots.txt giúp làm rõ cách tệp này hoạt động. Nó hỗ trợ các quản trị viên web tối ưu hóa việc thu thập dữ liệu. Điều này rất quan trọng cho SEO. Bạn muốn Googlebot hiểu rõ website của mình ?
Bài viết này sẽ giúp các bạn hiểu rõ hơn
Hiểu rõ Robots.txt là gì?
Robots.txt là một tệp văn bản đơn giản. Nó nằm trong thư mục gốc của website. Tệp này hướng dẫn các trình thu thập dữ liệu. Chúng biết được phần nào của site được phép truy cập. Chúng cũng biết phần nào cần tránh. Robots.txt giúp kiểm soát cách Google thu thập dữ liệu. Điều này ảnh hưởng đến thứ hạng tìm kiếm của bạn.
Giải thích những điểm mới trong tài liệu này
Google cung cấp thông tin chi tiết về robots.txt. Dưới đây là những điểm chính:
- Cách Googlebot hiểu Robots.txt: Googlebot tuân theo các chỉ thị như user-agent, allow, và disallow. Bạn cần viết cú pháp chính xác để tránh lỗi.
Ví dụ: để yêu cầu tất cả bot (còn gọi là trình thu thập thông tin, robot, trình thu thập dữ liệu) không được truy cập vào trang “thêm vào giỏ hàng”, bạn có thể viết nội dung sau vào tệp robots.txt:
user-agent: * disallow: /cart
- Không dùng để ngăn lập chỉ mục: Robots.txt chỉ kiểm soát thu thập dữ liệu. Muốn ngăn lập chỉ mục? Dùng thẻ meta noindex.
- Sử dụng ký tự đại diện: Ký tự * và $ giúp áp dụng quy tắc cho nhiều URL.
Ví dụ: Chặn tất cả trang trong thư mục admin, bạn có thể viết nội dung sau vào tệp robots.txt:
user-agent: * disallow: /admin/*
- Sai lầm cần tránh: Đừng chặn các tài nguyên quan trọng như CSS hay JavaScript. Điều này làm hại trải nghiệm người dùng và SEO.
Cách áp dụng tốt nhất
Muốn dùng robots.txt hiệu quả? Hãy làm theo các mẹo sau:
- Giữ đơn giản: Viết ngắn gọn, dễ hiểu. Tránh các quy tắc phức tạp không cần thiết.
- Kiểm tra trước khi dùng: Sử dụng công cụ kiểm tra robots.txt trong Google Search Console. Nó cho bạn biết Googlebot hiểu ý định của bạn ra sao.
- Cập nhật thường xuyên: Website bạn có thay đổi? Hãy cập nhật robots.txt để phù hợp hơn (nếu có).
- Không dùng để ẩn nội dung: Robots.txt không phải công cụ bảo mật. Nếu cần bảo vệ dữ liệu, dùng xác thực người dùng.
Google cũng có nói thêm:
Bạn có thể để tệp robots.txt trống (hoặc không có tệp nào cả) nếu toàn bộ trang web của bạn có thể được thu thập thông tin hoặc bạn có thể thêm các quy tắc để quản lý việc thu thập thông tin.
>> Chi tiết bạn tham khảo: https://developers.google.com/search/blog/2025/03/robotstxt-flexible-way-to-control?hl=vi
Những việc cụ thể hơn bạn có thể thực hiện bằng tệp robots.txt
Tệp robots.txt là công cụ đa năng giúp bạn trình bày những việc mà mình muốn các robot khác nhau thực hiện hoặc không thực hiện trên trang web của mình: có thể tệp này chỉ có vài dòng hoặc có thể đây là một tệp phức tạp chứa nhiều quy tắc chi tiết hơn, nhắm đến các mẫu URL cụ thể. Bạn có thể dùng tệp robots.txt để giải quyết các vấn đề về kỹ thuật (chẳng hạn như các trang được phân trang một cách không cần thiết) hoặc vì lý do liên quan đến hoạt động biên tập hoặc cá nhân (chẳng hạn như không muốn một số nội dung nhất định được thu thập thông tin). Ví dụ: bạn có thể:
Thông báo cho nhiều bot (nhưng không phải tất cả) về cùng một quy tắc
Nhóm này yêu cầu cả examplebot và otherbot tránh truy cập vào đường dẫn /search.
user-agent: examplebot user-agent: otherbot disallow: /search
Yêu cầu một bot tránh các đường dẫn chứa một đoạn văn bản cụ thể
Ví dụ: bạn có thể yêu cầu documentsbot không thu thập thông tin mọi tệp có “.pdf” trong tên.
user-agent: documentsbot disallow: *.pdf
Cho phép bot thu thập thông tin trên blog của bạn, nhưng không được thu thập thông tin trên các bài viết nháp
user-agent: documentsbot allow: /blog/ disallow: /blog/drafts/
Chặn không cho một trình thu thập thông tin truy cập một phần trang web của bạn, trong khi cho phép các trình thu thập thông tin khác truy cập vào trang web của bạn
Tệp robots.txt này không cho phép aicorp-trainer-bot được đề cập truy cập vào bất cứ trang nào khác ngoài trang chủ, đồng thời cho phép các trình thu thập thông tin khác (chẳng hạn như công cụ tìm kiếm) truy cập vào trang web.
user-agent: * allow: / user-agent: aicorp-trainer-bot disallow: / allow: /$
Lưu lại bình luận cho chính mình trong tương lai
Bạn có thể bắt đầu một dòng bằng # để tự nhắc mình về lý do đặt một quy tắc nhất định ở đó.
# I don't want bots in my highschool photos user-agent: * disallow: /photos/highschool/
>> Để biết thêm thông tin, bạn có thể tham khảo danh sách quy tắc hữu ích trong tệp robots.txt.
Kết luận
Tài liệu mới của Google là một hướng dẫn hữu ích. Nó giúp bạn quản lý robots.txt tốt hơn. Kết quả là Googlebot thu thập dữ liệu hiệu quả hơn. Điều này cải thiện SEO lâu dài trong việc tối ưu website lên hạng.



