logo Open Sub Menu

File robots txt là gì? - Cách sử dụng robot.txt khi làm SEO, File robot.txt là gì, có quan trọng trong việc xếp hạng của Google không, và làm sao để tối ưu file này? Robots.txt là một file văn bản để quan trị website khai báo cho phép hay không cho phép các BOT của search engine

File robots txt là gì?

Nói một cách ngắn gọn nhất Robots.txt là một dạng text đặc biệt không phải là HTML hay một loại nào khác. Nó giúp cho các webmaster linh hoạt hơn trong việc cho hay không cho bot của các công cụ tìm kiếm ( SE ) đánh chỉ mục(index) một khu vực nào đó trong website của bạn. Đây là một phần khi làm dịch vụ seo

Cách tạo và sử dụng file Robots.txt:

cách tạo: File robots.txt là một dạng file rất đơn giản có thể được tảo bởi công cụ Notepad.

User-agent: *
Disallow: /admin/
Allow: /

# BEGIN XML-SITEMAP
Sitemap: https://webmoi.vn/sitemap.xml
# END XML-SITEMAP

Trong đó:

User-agent: * : Khai báo tên của search engine mà bạn muốn điều khiển, ví dụ: Googlebot, Yahoo!, Bingbot,…)

Allow (chỉ áp dụng cho Googlebot): Lệnh này cho phép bot thu thập dữ liệu một trang hoăc thư mục con, mặc dù trang hoặc thư mục chứa nó lại không được phép thu thập dữ liệu.

Disallow: /admin/ : Chặn không cho bot truy cập vào thư mục admin 

Sitemap: https://webmoi.vn/sitemap.xml: khai báo đường dẫn sitemap

cách sử dụng file Robot.txt:

1.Không cho phép bot truy cập vào thư mục nào mà mình không muốn:

Lấy lại ví dụ trên :

User-agent: *

Disallow: /admin/  

==> Diều này có nghĩa là cho phép tất cả các loại bot thu thập chỉ trừ thư mục admin

2.Khóa toàn bộ website không cho bot đánh chỉ mục:
 

User-agent: * 

Disallow: / 

==> có nghĩa là cấm tất cả các loại bot truy cập vào tất cả tài nguyên có trên website của bạn, như vậy có nghĩa là website bạn chả thèm chơi với các SE

3.Chặn 1 trang:

Disallow: /bao-mat

4. Cách sử dụng đồng thời “Allow” và “Disallow” cùng nhau như thế nào?

User-agent: * 
Disallow: /the-gioi-hinh-anh/ 
Allow: /do-hoa-dep/

Các bạn thấy đó mình đã kết hợp đồng thời “Allow” và “Disallow” trong file robots.txt là gì. Chỉ cần bạn thêm như trên thì có thể kết hợp đồng thời “Allow” và “Disallow” với nhau rồi. Khai báo bao nhiêu dòng cũng được.

Hệ thống Google và Bing Google và Bing

không nghe theo file tiêu chuẩn Robots.txt nên bạn có thể tạo tài khoản quản trị hệ thống Google và Bing và cấu hình các tên miền của mình để có chế độ thu thập dữ liệu thấp hơn. Bạn có thể xem thêm tài liệu của Google về file Robots.txt https://support.google.com/webmasters/answer/6062608?hl=en&visit_id=1-636252740320275113-2452672579&rd=1, ngoài ra bạn cũng phải sử dụng các công cụ webmaster của Google để thiết lập hầu hết các tham số của Googlebot.

Mình có một lời khuyên dành cho các bạn là các bạn nên cấu hình file Robots.txt để giảm tốc độ thu thập thông tin từ trang web của bạn, đồng thời làm giảm tài nguyên mà nó yêu cầu từ hệ thống, điều này làm cho lưu lượng truy cập trang web của bạn tốt hơn. Nếu bạn muốn giảm lưu lượng truy cập từ các công cụ như Yandex hoặc Baidu, bạn cần phải cấu hình file .htaccess.

Lưu ý khi sử dụng robots.txt

- Định dạng file robots.txt phải ở dạng Encoding UTF-8, không phải định dạng này thì google sẽ khó đọc

- Phân biệt chữ hoa chữ thường.

- Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.

- Mỗi một câu lệnh nên viết trên 1 dòng. Không được viết dư, thiếu khoảng trắng.

 

Bình luận

WEB MỚI

CÔNG TY TNHH THƯƠNG MẠI DỊCH VỤ WEB MỚI

Email: info@webmoi.vn

Hotline: 0398 259 259

Website: https://webmoi.vn/

Văn phòng giao dịch: E20/22E6 Đường Vĩnh Lộc, Ấp 5, Xã Vĩnh Lộc B, Huyện Bình Chánh, TP. Hồ Chí Minh

Địa chỉ: Số 7A, Thới An 10, Phường Thới An, Quận 12, TP.HCM

logo footer

CÔNG TY THIẾT KẾ WEBSITE CHUYÊN NGHIỆP, ẤN TƯỢNG, SÁNG TẠO, CHUẨN SEO

WEBMOI là công ty thiết kế web chuyên nghiệp uy tín có trụ sở chính tại Tp HCM. Chúng tôi thiết kế web theo chuẩn SEO, chuẩn di động. Áp dụng những công nghệ tiên tiến nhất hiện nay để thiết kế website như HTML5, CSS3, PHP. Nhằm mang lại sự hiệu quả thực sự cho khách hàng

Hotline: 0398259259
Nhắn tin facebook Zalo: 0398259259