Công ty thiết kế website chuẩn SEO Web Mới
Tìm kiếm
Công ty thiết kế website chuẩn SEO Web Mới

File Robots.txt là gì? Chi tiết về Tệp Robots.txt

File Robots.txt là gì? Đó là file chứa các chỉ thị để các công cụ tìm kiếm thu thập thông tin, file hoặc thư mục nào có thể đọc hoặc không thể đọc đều được quy định trong file này, chi tiết như nào hãy cùng chúng tôi phân tích:

File Robots.txt là gì? Chi tiết về Tệp Robots.txt

File Robots.txt là gì? Chi tiết về Tệp Robots.txt

Mục Lục [Ẩn]


File Robots.txt là gì?

File Robots.txt là file chứa các chỉ thị để các công cụ tìm kiếm thu thập thông tin, file hoặc thư mục nào có thể đọc hoặc không thể đọc đều được quy định trong file này, khai báo file sitemap để tìm nạp dễ dàng, file này nằm ở thư mục gốc của trang web và có đuôi .txt.

Xem thêm bài viết: SEO là gì?

File robots.txt hoạt động như thế nào?

Khi đọc một trang web, các con bot của công cụ Google sẽ tìm các file robots.txt trước khi spidering. Trước khi tiến hành các bước tiếp theo thì phải đọc tệp robots.txt đầu tiên.

File Robots.txt sẽ chứa các yêu cầu, thông tin cụ thể báo cho Google nên thu thập dữ liệu nào trên website.

Các con bots sẽ tiến hành thu thập các thông tin khác trên web khi tệp robots.txt không chứa bất kì chỉ thị nào cho các User-agent hoặc nếu bạn không tạo file robots.txt cho website.

Cấu trúc của File robots.txt

User-agent: *
Disallow: /quantri/
Allow: /
Crawl-delay:
Sitemap: https://webmoi.vn/sitemap.xml

Lệnh User - agent

Các công cụ tìm kiếm như Google Bot hay Bingbot... có công dụng thu thập dữ liệu, ở đây mình để * để cho phép tất cả.

Lệnh Disallow (Không cho phép)

Không được thu thập dữ liệu URL cụ thể nào, thư mục nào được thông báo cho các công cụ tìm kiếm. Chỉ được phép có 1 dòng Disallow cho mỗi URL, thư mục.

Lệnh Allow (Cho phép)

Được sử dụng để thông báo cho google rằng nó sẽ được truy cập vào thư mục con hoặc một trang tuy các thư mục con và các trang đó có thể không được phép.

Lệnh Crawl-delay

Báo cho bot của công cụ tìm kiếm trước khi thu thập dữ liệu một trang web hãy đợi một khoảng thời gian nhất định. Nếu bạn có một trang web lớn với nhiều trang và bạn muốn đảm bảo rằng trình thu thập dữ liệu không tải quá nhiều tài nguyên trên máy chủ của bạn thì điều này có thể hữu ích.

Cấu trúc của lệnh crawl-delay là: crawl-delay: 7

7 là số giây phải đợi.

Lệnh Sitemap

Khai các đường dẫn có file sitemap để cho công cụ tìm kiếm đọc.

Cách tìm file robots.txt

Bạn copy đường dẫn trang chủ, ví dụ đường dẫn trang chủ của mình là https://webmoi.vn/, sau đó thêm robots.txt sau đường dẫn, cụ thể link đầy đủ là https://webmoi.vn/robots.txt, tên miền nào củng làm tương tự vậy.

Nhìn link là biết file robots.txt nằm ngay ở thư mục gốc của trang web.

Nếu trong source thì nó nằm ngay đầu tiên trong thư mục public_html.

Tại sao phải tạo file robots.txt?

Việc các bot của công cụ tìm kiếm thu thập thông tin trong các khu vực nhất định tại trang web sẽ được kiểm soát. Khi tạo file bạn cần hết sức chú tâm vì các bot của Google có thể không thực hiện index website của bạn nếu sai chỉ thị. dưới đây là các lý do phải có file robots.txt:

Nội dung bị trùng lặp xuất hiện trong trang web được File robots.txt ngăn chặn.

Giữ được chế độ riêng tư cho một số khu vực nhất định trong website.

Giữ không cho xuất hiện trên SERP đối với một số trang tìm kiếm nội bộ.

Khai báo đường dẫn các file Sitemap trên trang web.

Một số tệp hình ảnh, tài liệu kỹ thuật số… nhất định có trên website có thể báo cho Google không lập chỉ mục.

Giúp ngăn máy chủ bị quá tải khi các User-agent thực hiện thu thập nhiều nội dung cùng một lúc với lệnh Crawl-delay.

Lưu ý quan trọng khi sử dụng tệp robots.txt

- File phải được chọn định dạng UTF-8-BOM cho font chữ (Encoding).

- Việc chỉ định các lệnh cho từng User-agent là không cần thiết vì các User-agent từ cùng một công cụ tìm kiếm đều tuân theo một quy tắc.

- Các dữ liệu riêng tư như thông tin người dùng thì không nên sử dụng file robots.txt chặn. Vì có thể liên kết đến nhiều website khác trên website này và như vậy Googlebot sẽ bỏ qua các lệnh trong tệp robots.txt

- Cách bảo mật dữ liệu trang tốt nhất cho các tệp hoặc URL không muốn truy cập trên website là dùng mật khẩu riêng tư. Đôi khi hiệu quả cũng không cao và không nên lạm dụng các lệnh robots.txt cho việc này.

Lời kết

Cảm ơn các bạn đã tham khảo bài viết về File Robots.txt

  • 0 Bình luận
CEO Bùi Tấn Lực
Bùi Tấn Lực
CEO Bùi Tấn Lực người sáng lập ra Web Mới, là một lập trình viên, người viết content, chuyên tư vấn các vấn đề về website và SEO website, quý khách hãy liên hệ để trao đổi thiết kế website
  • Zalo
Chia sẻ nội dung đánh giá của bạn về File Robots.txt là gì? Tìm hiểu chi tiết về Tệp Robots.txt
Email, Điện thoại của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *
Đánh giá của bạn
Tên *
Email
Số điện thoại *
Bình luận, Hỏi đáp
Đăng ký tư vấn miễn phí
Tìm hiểu 1 năm không bằng lắng nghe 1 câu tư vấn
Tỉnh thành
0398.259.259