File Robots.txt là gì? Chi tiết về Tệp Robots.txt
- Bùi Tấn Lực
- 201
- 11/09/2024
File Robots.txt là gì? Đó là file chứa các chỉ thị để các công cụ tìm kiếm thu thập thông tin, file hoặc thư mục nào có thể đọc hoặc không thể đọc đều được quy định trong file này, chi tiết như nào hãy cùng chúng tôi phân tích:
File Robots.txt là gì? Chi tiết về Tệp Robots.txt
Mục Lục [Ẩn]
File Robots.txt là gì?
File Robots.txt là file chứa các chỉ thị để các công cụ tìm kiếm thu thập thông tin, file hoặc thư mục nào có thể đọc hoặc không thể đọc đều được quy định trong file này, khai báo file sitemap để tìm nạp dễ dàng, file này nằm ở thư mục gốc của trang web và có đuôi .txt.
Xem thêm bài viết: SEO là gì?
File robots.txt hoạt động như thế nào?
Khi đọc một trang web, các con bot của công cụ Google sẽ tìm các file robots.txt trước khi spidering. Trước khi tiến hành các bước tiếp theo thì phải đọc tệp robots.txt đầu tiên.
File Robots.txt sẽ chứa các yêu cầu, thông tin cụ thể báo cho Google nên thu thập dữ liệu nào trên website.
Các con bots sẽ tiến hành thu thập các thông tin khác trên web khi tệp robots.txt không chứa bất kì chỉ thị nào cho các User-agent hoặc nếu bạn không tạo file robots.txt cho website.
Cấu trúc của File robots.txt
User-agent: *
Disallow: /quantri/
Allow: /
Crawl-delay:
Sitemap: https://webmoi.vn/sitemap.xml
Lệnh User - agent
Các công cụ tìm kiếm như Google Bot hay Bingbot... có công dụng thu thập dữ liệu, ở đây mình để * để cho phép tất cả.
Lệnh Disallow (Không cho phép)
Không được thu thập dữ liệu URL cụ thể nào, thư mục nào được thông báo cho các công cụ tìm kiếm. Chỉ được phép có 1 dòng Disallow cho mỗi URL, thư mục.
Lệnh Allow (Cho phép)
Được sử dụng để thông báo cho google rằng nó sẽ được truy cập vào thư mục con hoặc một trang tuy các thư mục con và các trang đó có thể không được phép.
Lệnh Crawl-delay
Báo cho bot của công cụ tìm kiếm trước khi thu thập dữ liệu một trang web hãy đợi một khoảng thời gian nhất định. Nếu bạn có một trang web lớn với nhiều trang và bạn muốn đảm bảo rằng trình thu thập dữ liệu không tải quá nhiều tài nguyên trên máy chủ của bạn thì điều này có thể hữu ích.
Cấu trúc của lệnh crawl-delay là: crawl-delay: 7
7 là số giây phải đợi.
Lệnh Sitemap
Khai các đường dẫn có file sitemap để cho công cụ tìm kiếm đọc.
Cách tìm file robots.txt
Bạn copy đường dẫn trang chủ, ví dụ đường dẫn trang chủ của mình là https://webmoi.vn/, sau đó thêm robots.txt sau đường dẫn, cụ thể link đầy đủ là https://webmoi.vn/robots.txt, tên miền nào củng làm tương tự vậy.
Nhìn link là biết file robots.txt nằm ngay ở thư mục gốc của trang web.
Nếu trong source thì nó nằm ngay đầu tiên trong thư mục public_html.
Tại sao phải tạo file robots.txt?
Việc các bot của công cụ tìm kiếm thu thập thông tin trong các khu vực nhất định tại trang web sẽ được kiểm soát. Khi tạo file bạn cần hết sức chú tâm vì các bot của Google có thể không thực hiện index website của bạn nếu sai chỉ thị. dưới đây là các lý do phải có file robots.txt:
Nội dung bị trùng lặp xuất hiện trong trang web được File robots.txt ngăn chặn.
Giữ được chế độ riêng tư cho một số khu vực nhất định trong website.
Giữ không cho xuất hiện trên SERP đối với một số trang tìm kiếm nội bộ.
Khai báo đường dẫn các file Sitemap trên trang web.
Một số tệp hình ảnh, tài liệu kỹ thuật số… nhất định có trên website có thể báo cho Google không lập chỉ mục.
Giúp ngăn máy chủ bị quá tải khi các User-agent thực hiện thu thập nhiều nội dung cùng một lúc với lệnh Crawl-delay.
Lưu ý quan trọng khi sử dụng tệp robots.txt
- File phải được chọn định dạng UTF-8-BOM cho font chữ (Encoding).
- Việc chỉ định các lệnh cho từng User-agent là không cần thiết vì các User-agent từ cùng một công cụ tìm kiếm đều tuân theo một quy tắc.
- Các dữ liệu riêng tư như thông tin người dùng thì không nên sử dụng file robots.txt chặn. Vì có thể liên kết đến nhiều website khác trên website này và như vậy Googlebot sẽ bỏ qua các lệnh trong tệp robots.txt
- Cách bảo mật dữ liệu trang tốt nhất cho các tệp hoặc URL không muốn truy cập trên website là dùng mật khẩu riêng tư. Đôi khi hiệu quả cũng không cao và không nên lạm dụng các lệnh robots.txt cho việc này.
Lời kết
Cảm ơn các bạn đã tham khảo bài viết về File Robots.txt
- 0 Bình luận
Email, Điện thoại của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *