File robots txt là gì? - Cách sử dụng robot.txt khi làm SEO
Bùi Tấn Lực
- 20844
- 13/04/2020
File robots txt là gì?
Nói một cách ngắn gọn nhất Robots.txt là một dạng text đặc biệt không phải là HTML hay một loại nào khác. Nó giúp cho các webmaster linh hoạt hơn trong việc cho hay không cho bot của các công cụ tìm kiếm ( SE ) đánh chỉ mục(index) một khu vực nào đó trong website của bạn. Đây là một phần khi làm dịch vụ seo
Cách tạo và sử dụng file Robots.txt:
cách tạo: File robots.txt là một dạng file rất đơn giản có thể được tảo bởi công cụ Notepad.
User-agent: *
Disallow: /admin/
Allow: /
# BEGIN XML-SITEMAP
Sitemap: https://webmoi.vn/sitemap.xml
# END XML-SITEMAP
Trong đó:
User-agent: * : Khai báo tên của search engine mà bạn muốn điều khiển, ví dụ: Googlebot, Yahoo!, Bingbot,…)
Allow (chỉ áp dụng cho Googlebot): Lệnh này cho phép bot thu thập dữ liệu một trang hoăc thư mục con, mặc dù trang hoặc thư mục chứa nó lại không được phép thu thập dữ liệu.
Disallow: /admin/ : Chặn không cho bot truy cập vào thư mục admin
Sitemap: https://webmoi.vn/sitemap.xml: khai báo đường dẫn sitemap
cách sử dụng file Robot.txt:
1.Không cho phép bot truy cập vào thư mục nào mà mình không muốn:
Lấy lại ví dụ trên :
User-agent: *
Disallow: /admin/
==> Diều này có nghĩa là cho phép tất cả các loại bot thu thập chỉ trừ thư mục admin
2.Khóa toàn bộ website không cho bot đánh chỉ mục:
User-agent: *
Disallow: /
==> có nghĩa là cấm tất cả các loại bot truy cập vào tất cả tài nguyên có trên website của bạn, như vậy có nghĩa là website bạn chả thèm chơi với các SE
3.Chặn 1 trang:
Disallow: /bao-mat
4. Cách sử dụng đồng thời “Allow” và “Disallow” cùng nhau như thế nào?
User-agent: *
Disallow: /the-gioi-hinh-anh/
Allow: /do-hoa-dep/
Các bạn thấy đó mình đã kết hợp đồng thời “Allow” và “Disallow” trong file robots.txt là gì. Chỉ cần bạn thêm như trên thì có thể kết hợp đồng thời “Allow” và “Disallow” với nhau rồi. Khai báo bao nhiêu dòng cũng được.
Hệ thống Google và Bing Google và Bing
không nghe theo file tiêu chuẩn Robots.txt nên bạn có thể tạo tài khoản quản trị hệ thống Google và Bing và cấu hình các tên miền của mình để có chế độ thu thập dữ liệu thấp hơn. Bạn có thể xem thêm tài liệu của Google về file Robots.txt https://support.google.com/webmasters/answer/6062608?hl=en&visit_id=1-636252740320275113-2452672579&rd=1, ngoài ra bạn cũng phải sử dụng các công cụ webmaster của Google để thiết lập hầu hết các tham số của Googlebot.
Mình có một lời khuyên dành cho các bạn là các bạn nên cấu hình file Robots.txt để giảm tốc độ thu thập thông tin từ trang web của bạn, đồng thời làm giảm tài nguyên mà nó yêu cầu từ hệ thống, điều này làm cho lưu lượng truy cập trang web của bạn tốt hơn. Nếu bạn muốn giảm lưu lượng truy cập từ các công cụ như Yandex hoặc Baidu, bạn cần phải cấu hình file .htaccess.
Lưu ý khi sử dụng robots.txt
- Định dạng file robots.txt phải ở dạng Encoding UTF-8, không phải định dạng này thì google sẽ khó đọc
- Phân biệt chữ hoa chữ thường.
- Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.
- Mỗi một câu lệnh nên viết trên 1 dòng. Không được viết dư, thiếu khoảng trắng.
- 0 Bình luận

Bùi Tấn Lực
Email, Điện thoại của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *