Công ty thiết kế website chuẩn SEO Web Mới
Tìm kiếm
Công ty thiết kế website chuẩn SEO Web Mới

File Robots.txt là gì? Chi tiết về Tệp Robots.txt

File Robots.txt là gì? Đó là một tệp .txt, cho biết các trình thu thập thông tin như Googlebot, Bingbot… có thể truy cập và thu thập dữ liệu từ những phần nào của trang web.

File Robots.txt là gì? Chi tiết về Tệp Robots.txt

File Robots.txt là gì? Chi tiết về Tệp Robots.txt

Mục Lục [Ẩn]


File Robots.txt là gì?

Đó là một tệp văn bản đơn giản có đuôi mở rộng .txt nằm trong thư mục gốc của trang web. Tệp này chứa các chỉ thị cho các trình thu thập thông tin của các công cụ tìm kiếm, chẳng hạn như Googlebot, Bingbot… Các chỉ thị này cho biết các trình thu thập thông tin có thể truy cập và thu thập dữ liệu từ những phần nào của trang web.

Xem thêm bài viết: SEO là gì?

Cấu trúc của File robots.txt

User - agent:
Disallow:
Allow:
Crawl-delay:
Sitemap:

Lệnh User - agent

Đó Là tên của bot trên các công cụ tìm kiếm như Google Bot hay Bingbot... có công dụng thu thập dữ liệu

Lệnh Disallow (Không cho phép)

Thông báo cho các công cụ tìm kiếm không được thu thập dữ liệu URL cụ thể nào, thư mục nào. Mỗi URL, thư mục chỉ được phép có 1 dòng Disallow

Lệnh Allow (Cho phép)

Được sử dụng để thông báo cho google rằng nó sẽ truy cập vào thư mục con hoặc một trang. Mặc dù các thư mục con và các trang của nó có thể không được phép.

Lệnh Crawl-delay

Báo cho bot của công cụ tìm kiếm đợi một khoảng thời gian nhất định trước khi thu thập dữ liệu một trang web. Điều này có thể hữu ích nếu bạn có một trang web lớn với nhiều trang và bạn muốn đảm bảo rằng trình thu thập dữ liệu không tải quá nhiều tài nguyên trên máy chủ của bạn.

Cấu trúc của lệnh crawl-delay là: crawl-delay: <number>

Trong đó <number> là số giây mà trình thu thập dữ liệu nên đợi trước khi thu thập dữ liệu trang tiếp theo. Ví dụ, với lệnh “crawl-delay: 8” sẽ khiến trình thu thập dữ liệu đợi 8 giây trước khi thu thập dữ liệu trang tiếp theo.

Lệnh Sitemap

Khai báo các đường dẫn file sitemap có trong trang web.

Cấu trúc của File robots.txt

User-agent: *
Disallow: /quantri/
Allow: /
Sitemap: https://webmoi.vn/sitemap.xml

Cách tìm file robots.txt

Bạn copy đường dẫn trang chủ, ví dụ đường dẫn trang chủ của mình là https://webmoi.vn/, sau đó thêm robots.txt sau đường dẫn, cụ thể link đầy đủ là https://webmoi.vn/robots.txt, tên miền nào củng làm tương tự vậy.

Nhìn link là biết file robots.txt nằm ngay ở thư mục gốc của trang web.

Tại sao phải tạo file robots.txt?

Giúp bạn kiểm soát được việc các bot của công cụ tìm kiếm thu thập thông tin trong các khu vực nhất định tại trang web. Tuy nhiên, khi tại file bạn cần hết sức chú tâm vì nếu sai chỉ thị, các bot của Google có thể không thực hiện index website của bạn. dưới đây là các lý do phải có file robots.txt:

File robots.txt giúp ngăn chặn nội dung bị trùng lặp xuất hiện trong trang web.

Giữ một số khu vực nhất định trong website ở chế độ riêng tư.

Giữ một số trang tìm kiếm nội bộ được lựa chọn không xuất hiện trên SERP.

Chỉ định vị trí Sitemap trang web.

Ngăn chặn công cụ của Google lập chỉ mục một số tệp hình ảnh, tài liệu kỹ thuật số… nhất định có trên website.

Chỉ thị Crawl-delay – thu thập thông tin chậm trễ giúp ngăn máy chủ bị quá tải khi các User-agent thực hiện thu thập nhiều nội dung cùng một lúc.

Lưu ý quan trọng khi sử dụng tệp robots.txt

- Chọn định dạng font chữ (Encoding) cho file là UTF-8-BOM

- Các User-agent từ cùng một công cụ tìm kiếm đều tuân theo một quy tắc. Nên đôi khi việc chỉ định các lệnh cho từng User-agent là không cần thiết.

- Không nên sử dụng file robots.txt để chặn các dữ liệu riêng tư như thông tin người dùng. Vì website chứa thông tin này có thể liên kết đến nhiều website khác. Khi đó Googlebot sẽ bỏ qua các lệnh trong tệp robots.txt

- Cách bảo mật dữ liệu trang tốt nhất là dùng mật khẩu riêng tư cho các tệp hoặc URL không muốn truy cập trên website. Không nên lạm dụng các lệnh robots.txt cho việc này vì đôi khi hiệu quả cũng không cao.

File robots.txt hoạt động như thế nào?

Khi đến một trang web, trước khi spidering thì các con bot của công cụ Google sẽ tìm các file robots.txt. Nếu nó tìm thấy được 1 tệp robots.txt thì nó sẽ đọc tệp đó đầu tiên trước khi tiến hành các bước tiếp theo.

Robots.txt sẽ chứa các yêu cầu cho Google nên thu thập dữ liệu của website. Tại đây các con bot này sẽ được hướng dẫn thêm nhiều thông tin cụ thể cho quá trình này.

Khi tệp robots.txt không chứa bất kì chỉ thị nào cho các User-agent hoặc nếu bạn không tạo file robots.txt cho website thì các con bots sẽ tiến hành thu thập các thông tin khác trên web.

Lời kết

Cảm ơn các bạn đã tham khảo bài viết về File Robots.txt

  • 0 Bình luận
CEO Bùi Tấn Lực
Bùi Tấn Lực
CEO Bùi Tấn Lực người sáng lập ra Web Mới, là một lập trình viên, người viết content, chuyên tư vấn các vấn đề về website và SEO website, quý khách hãy liên hệ để trao đổi thiết kế website
  • Zalo
Chia sẻ nội dung đánh giá của bạn về File Robots.txt là gì? Tìm hiểu chi tiết về Tệp Robots.txt
Email, Điện thoại của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *
Đánh giá của bạn
Tên *
Email
Số điện thoại *
Bình luận, Hỏi đáp
Đăng ký tư vấn miễn phí
Tìm hiểu 1 năm không bằng lắng nghe 1 câu tư vấn
Tỉnh thành
0398.259.259