File Robots.txt là gì? Cấu trúc của File robots.txt

File Robots.txt là gì? Cấu trúc của File robots.txt

File Robots.txt là gì? Đó là file chứa các chỉ thị file hoặc thư mục nào có thể đọc hoặc không thể đọc để các công cụ tìm kiếm thu thập thông tin, chi tiết như nào hãy cùng chúng tôi phân tích:

Mục Lục [Ẩn]


File Robots.txt là gì?

File Robots.txt là file chứa các chỉ thị để các công cụ tìm kiếm thu thập thông tin, file hoặc thư mục nào có thể đọc hoặc không thể đọc đều được quy định trong file này, khai báo file sitemap để tìm nạp dễ dàng, file này nằm ở thư mục gốc của trang web và có đuôi .txt.

Xem thêm bài viết: SEO là gì?

File robots.txt hoạt động như thế nào?

File robots.txt đưa ra các lệnh thực hiện trên website để cho các con bọ của các công cụ tìm kiếm làm theo và trong file còn khai báo được đường dẫn file sitemap để cho các con bọ dễ dàng biết đâu là file sitemap mà website muốn họ đọc. Khi quét đến website các con bọ sẽ đọc File robots.txt trước rồi mới đi vào từng url cụ thể có trên website.

Cấu trúc của File robots.txt

Dưới đây là cấu trúc cơ bản của 1 file robots.txt mà các website thường dùng, Lệnh Allow: / và Crawl-delay: 5 dùng trong trường hợp đặc biệt:

User-agent: *
Disallow: /quantri/
Sitemap: https://webmoi.vn/sitemap.xml

Lệnh User - agent

Là tên của trình thu thập dữ liệu website như Googlebot, Bingbot,…, để * là nói đến tất cả.

Lệnh Disallow (Không cho phép)

Không được phép thu thập các url nằm trong thư mục đã nêu, ở đây mình đang báo tất cả trình thu thập dữ liệu không được đọc mấy url nằm trong thư mục quantri. Ngoài ra còn có thể không cho phép thu thập một url cụ thể.

User-agent: *
Disallow: /quantri/

Nếu muốn không cho phép Google truy cập vào thư mục quản trị, ở đây mình nói thư mục nhưng nếu hiểu về nghĩa nó là URL thì sẽ là không thu thập bất cứ trang nào có chứa chuổi https://webmoi.vn/quantri/

User-agent: Googlebot
Disallow: /quantri/

Nếu không cho Bing truy cập vào thư mục quản trị thì dùng cú pháp sau:

User-agent: Bingbot
Disallow: /quantri/

Lệnh Allow (Cho phép)

Lệnh này chỉ dùng được cho Googlebot, sẽ cho phép truy cập vào thư mục con hoặc một trang mặc dù các trang hoặc thư mục con của nó có thể không được phép. Bạn không thêm gì hết thì mặc định cho phép tất cả trừ mấy cái đã báo không cho phép.

Hoặc có thể thêm đoạn code dưới để cho phép tất cả trừ mấy thư mục và url đã Disallow:

Allow: /

Lệnh Crawl-delay

Googlebot không thừa nhận lệnh này, bạn muốn cài đặt tốc độ thu thập dữ liệu thì nên vô Google Search Console. Còn đối với các công cụ tìm kiếm khác thì đợi bao nhiêu giây trước khi tải và thu thập dữ liệu trên website.

Câu lệnh:

Crawl-delay: 5

Thời gian mà các công cụ tìm kiếm phải đợi là 5 giây ở ví dụ trên.

Lệnh Sitemap

Google, Ask, Bing và Yahoo là những công cụ tìm kiếm chấp nhận lệnh này, nó khai báo vị trí các file sitemap có đuôi .xml nằm trên website, mỗi dòng lệnh chỉ khai báo được một file, muốn khai báo file khác thì enter qua dòng mới khai báo tiếp.

Sitemap: https://webmoi.vn/sitemap.xml

Cách tìm file robots.txt

Bạn copy đường dẫn trang chủ, ví dụ đường dẫn trang chủ của mình là https://webmoi.vn/, sau đó thêm robots.txt sau đường dẫn, cụ thể link đầy đủ là https://webmoi.vn/robots.txt, tên miền nào củng làm tương tự vậy.

Nhìn link là biết file robots.txt nằm ngay ở thư mục gốc của trang web.

Nếu trong source thì nó nằm ngay đầu tiên trong thư mục public_html.

Tại sao phải tạo file robots.txt?

Không cho đọc: Website luôn có những thư mục như trang quản trị sẽ không mong công cụ tìm kiếm nào đọc được, nếu đọc được chỉ có hại chứ không có lợi vì sẽ gây trùng lặp nội dung với các link ở ngoài web.

Khai báo file sitemap: Khai báo đường dẫn file sitemap sẽ giúp các công cụ tìm kiếm dễ dàng biết được file chứa các url trên website đang nằm ở đâu, từ đó tìm nạp nhanh chóng.

Lưu ý quan trọng khi sử dụng tệp robots.txt

- Đặt file robots.txt nằm ngay thư mục gốc của trang web.

- File phải được chọn định dạng UTF-8-BOM cho font chữ (Encoding).

- Tên tệp, tên file phải đặt chữ thường hết vì đặt có chữ Hoa sẽ là file khác. Phải là robots.txt chứ không phải Robots.txt hay robtots.TXT

Các trường hợp trong File Robots.txt

Disallow: /quantri/

Chặn các bot tìm kiếm truy cập vào thư mục cấp 1 /quantri/ và chặn đường dẫn https://tenmien.vn/quantri/ đồng thời chặn các đường dẫn con bắt đầu bằng https://tenmien.vn/quantri/

Disallow: /upload/baomat/

Chặn các bot tìm kiếm truy cập vào thư mục /upload/baomat/ và chặn các thư mục con và file con của thư mục /upload/baomat/, chặn đường dẫn https://tenmien.vn/upload/baomat/ và chặn các đường dẫn bắt đầu bằng https://tenmien.vn/upload/baomat/

Disallow: /thiet-ke-website

Chặn các bot tìm kiếm truy cập vào thư mục cấp 1 thiet-ke-website và các thư mục con của nó, và chặn truy cập vào các URL bắt đầu bằng https://tenmien.vn/thiet-ke-website, ví dụ https://tenmien.vn/thiet-ke-website-gia-re cũng bị cấm.

Disallow: /thiet-ke-website$

Chặn các bot tìm kiếm truy cập vào đường dẫn https://tenmien.vn/thiet-ke-website.

Disallow: /

Chặn các bot tìm kiếm truy cập vào tất cả thư mục và đường dẫn có trên website kể cả trang chủ.

Disallow: /*

Chặn các bot tìm kiếm truy cập vào tất cả thư mục và đường dẫn bắt đầu bằng dấu / kể cả trang chủ.

Disallow: /*.jpg

Chặn các bot tìm kiếm truy cập vào tất cả các file có đuôi .jpg.

Disallow: /media/blank.svg

Chặn các bot tìm kiếm truy cập vào đường dẫn chứa file https://tenmien.vn/media/blank.svg.

Disallow: /*/*/$

Chặn các bot tìm kiếm truy cập vào các đường dẫn có cấu trúc 2 cấp và kết thúc bằng dấu /, ví dụ: https://tenmien.vn/thiet-ke-website/thiet-ke-website-gia-re/.

Disallow: /*/*/*/$

Chặn các bot tìm kiếm truy cập vào các đường dẫn có cấu trúc 3 cấp và kết thúc bằng dấu /, ví dụ: https://tenmien.vn/thiet-ke-website/thiet-ke-website-gia-re/thiet-ke-website-php-gia-re/.

Allow: /$

Cho phép các bot tìm kiếm truy cập vào trang chủ.

Allow: /*/$

Cho phép các bot tìm kiếm truy cập vào các URL kết thúc bằng dấu / phía sau.

Allow: /*/p=

Cho phép các bot tìm kiếm truy cập vào các liên kết có chứa tham số p=.

Allow: /upload/

Cho phép các bot tìm kiếm truy cập vào các file và các thư mục nằm trong thư mục upload.

Allow: /upload/*.jpg$

Cho phép các bot tìm kiếm truy cập các file có đuôi .jpg nằm trong thư mục upload.

Allow: /nick-zalo.svg$

Cho phép các bot tìm kiếm truy cập vào file https://tenmien.vn/nick-zalo.svg

Disallow: /
Allow: /$
Allow: /*/$
Allow: /*/p=

Disallow: / Chặn các bot tìm kiếm truy cập vào tất cả thư mục và đường dẫn có trên website kể cả trang chủ.

Allow: /$ Cho phép các bot tìm kiếm truy cập vào trang chủ.

Allow: /*/$ Cho phép các bot tìm kiếm truy cập vào các URL kết thúc bằng dấu / phía sau.

Allow: /*/p= Cho phép các bot tìm kiếm truy cập vào các liên kết có chứa tham số p=.

Những cú pháp nào mô tả chi tiết hơn sẽ được ưu tiên hơn, Disallow: / Chặn các bot tìm kiếm truy cập vào tất cả thư mục và đường dẫn có trên website kể cả trang chủ nhưng trừ các chỉ định chi tiết hơn: Allow: /$ Cho phép các bot tìm kiếm truy cập vào trang chủ, Allow: /*/$ Cho phép các bot tìm kiếm truy cập vào các URL kết thúc bằng dấu / phía sau, Allow: /*/p= Cho phép các bot tìm kiếm truy cập vào các liên kết có chứa tham số p=.

Lời kết

Cảm ơn các bạn đã tham khảo bài viết File Robots.txt là gì?

  • 0 Bình luận
CEO Bùi Tấn Lực
Bùi Tấn Lực
CEO Bùi Tấn Lực người sáng lập ra Web Mới, là một lập trình viên website, người viết content, chuyên tư vấn các vấn đề về website và SEO website
Chia sẻ nội dung đánh giá của bạn về File Robots.txt là gì? Cấu trúc của File robots.txt
Email, Điện thoại của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *
Đánh giá của bạn
Tên *
Email
Số điện thoại *
Bình luận, Hỏi đáp
Đăng ký tư vấn thiết kế website
Tìm hiểu 1 năm không bằng lắng nghe 1 câu tư vấn