- Bùi Tấn Lực
- 366
- 08/10/2024
File Robots.txt là gì? Đó là file chứa các chỉ thị file hoặc thư mục nào có thể đọc hoặc không thể đọc để các công cụ tìm kiếm thu thập thông tin, chi tiết như nào hãy cùng chúng tôi phân tích:
File Robots.txt là gì? Cấu trúc của File robots.txt
Mục Lục [Ẩn]
File Robots.txt là gì?
File Robots.txt là file chứa các chỉ thị để các công cụ tìm kiếm thu thập thông tin, file hoặc thư mục nào có thể đọc hoặc không thể đọc đều được quy định trong file này, khai báo file sitemap để tìm nạp dễ dàng, file này nằm ở thư mục gốc của trang web và có đuôi .txt.
Xem thêm bài viết: SEO là gì?
File robots.txt hoạt động như thế nào?
File robots.txt đưa ra các lệnh thực hiện trên website để cho các con bọ của các công cụ tìm kiếm làm theo và trong file còn khai báo được đường dẫn file sitemap để cho các con bọ dễ dàng biết đâu là file sitemap mà website muốn họ đọc. Khi quét đến website các con bọ sẽ đọc File robots.txt trước rồi mới đi vào từng url cụ thể có trên website.
Cấu trúc của File robots.txt
User-agent: *
Disallow: /quantri/
Allow: /
Crawl-delay:
Sitemap: https://webmoi.vn/sitemap.xml
Lệnh User - agent
Là tên của trình thu thập dữ liệu website như Googlebot, Bingbot,…, để * là nói đến tất cả.
Lệnh Disallow (Không cho phép)
Không được phép thu thập các url nằm trong thư mục đã nêu, ở đây mình đang báo tất cả trình thu thập dữ liệu không được đọc mấy url nằm trong thư mục quantri. Ngoài ra còn có thể không cho phép thu thập một url cụ thể.
User-agent: *
Disallow: /quantri/
Nếu muốn không cho phép Google truy cập vào thư mục quản trị, ở đây mình nói thư mục nhưng nếu hiểu về nghĩa nó là URL thì sẽ là không thu thập bất cứ trang nào có chứa chuổi https://webmoi.vn/quantri/
User-agent: Googlebot
Disallow: /quantri/
Nếu không cho Bing truy cập vào thư mục quản trị thì dùng cú pháp sau:
User-agent: Bingbot
Disallow: /quantri/
Lệnh Allow (Cho phép)
Lệnh này chỉ dùng được cho Googlebot, sẽ cho phép truy cập vào thư mục con hoặc một trang mặc dù các trang hoặc thư mục con của nó có thể không được phép. Bạn không thêm gì hết thì mặc định cho phép tất cả trừ mấy cái đã báo không cho phép.
Hoặc có thể thêm đoạn code dưới để cho phép tất cả trừ mấy thư mục và url đã Disallow:
Allow: /
Lệnh Crawl-delay
Googlebot không thừa nhận lệnh này, bạn muốn cài đặt tốc độ thu thập dữ liệu thì nên vô Google Search Console. Còn đối với các công cụ tìm kiếm khác thì đợi bao nhiêu giây trước khi tải và thu thập dữ liệu trên website.
Câu lệnh:
Crawl-delay: 5
Thời gian mà các công cụ tìm kiếm phải đợi là 5 giây ở ví dụ trên.
Lệnh Sitemap
Google, Ask, Bing và Yahoo là những công cụ tìm kiếm chấp nhận lệnh này, nó khai báo vị trí các file sitemap có đuôi .xml nằm trên website, mỗi dòng lệnh chỉ khai báo được một file, muốn khai báo file khác thì enter qua dòng mới khai báo tiếp.
Sitemap: https://webmoi.vn/sitemap.xml
Cách tìm file robots.txt
Bạn copy đường dẫn trang chủ, ví dụ đường dẫn trang chủ của mình là https://webmoi.vn/, sau đó thêm robots.txt sau đường dẫn, cụ thể link đầy đủ là https://webmoi.vn/robots.txt, tên miền nào củng làm tương tự vậy.
Nhìn link là biết file robots.txt nằm ngay ở thư mục gốc của trang web.
Nếu trong source thì nó nằm ngay đầu tiên trong thư mục public_html.
Tại sao phải tạo file robots.txt?
Không cho đọc: Website luôn có những thư mục như trang quản trị sẽ không mong công cụ tìm kiếm nào đọc được, nếu đọc được chỉ có hại chứ không có lợi vì sẽ gây trùng lặp nội dung với các link ở ngoài web.
Khai báo file sitemap: Khai báo đường dẫn file sitemap sẽ giúp các công cụ tìm kiếm dễ dàng biết được file chứa các url trên website đang nằm ở đâu, từ đó tìm nạp nhanh chóng.
Lưu ý quan trọng khi sử dụng tệp robots.txt
- Đặt file robots.txt nằm ngay thư mục gốc của trang web.
- File phải được chọn định dạng UTF-8-BOM cho font chữ (Encoding).
- Tên tệp, tên file phải đặt chữ thường hết vì đặt có chữ Hoa sẽ là file khác. Phải là robots.txt chứ không phải Robots.txt hay robtots.TXT
Lời kết
Cảm ơn các bạn đã tham khảo bài viết File Robots.txt là gì?
- 0 Bình luận
Email, Điện thoại của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *