robots.txt

Robots.txt là một tập tin trong thư mục gốc của [website] mà điều khiển con bọ ([spider]) truy cập vào website. Nó có thể cho phép hoặc không cho phép các con bọ cụ thể truy cập vào từng trang cụ thể trên website. Con bọ có thể bỏ qua các file robots.txt, nhưng đối với con bọ có uy tín sẽ kiểm tra và index chỉ các trang được robots.txt thừa nhận. Đáng chú ý, tất cả các công cụ tìm kiếm và [Wayback Machine] đều xem trong tập tin robots.txt.

By English

The robots.txt file is a file in the root directory of a web site that controls spider access to the site. It can allow or disallow specific spiders access to specific pages on the site. Spiders can ignore the robots.txt file, but the reputable ones check it first and index only the pages that the robots.txt file allows them to. Notably, all of the major search engines and the Wayback Machine honor the robots.txt file.  

Like Doanh nhân số