Biết Robots.txt là gì và cách làm việc với nó liên quan nhiều hơn đến kỹ năng SEO Website. Tuy nhiên, một chuyên gia SEO là một bậc thầy phổ thông, người phải có kiến ​​thức từ các ngành CNTT khác nhau. Do đó, hôm nay Kdigimind sẽ giúp bạn hiểu mục đích và cấu hình của tệp robots.txt.

1. Robots.txt là gì?

File robots.txt ở đây được hiểu là một tập tin văn bản sử dụng dưới dạng .txt. Tệp tin này là một phần của Robots Exclusion Protocol (REP). Bên trong tệp có chứa nhóm các tiêu chuẩn website quy định cách robot web thu thập dữ liệu ra sao, cách truy cập, index nội dung và phân phối tới người dùng thế nào.

Trên thực tế, robots.txt là một tệp văn bản kiểm soát quyền truy cập vào nội dung của các trang web. Bạn có thể chỉnh sửa nó trên máy tính của mình bằng Notepad ++ hoặc trực tiếp trên hosting.

Tìm hiểu về Robots.txt là gì?

Tìm hiểu về Robots.txt là gì?

REP gồm có nhiều lệnh khác nhau. Cụ thể có Meta Robots, Page-Subdirectory, Site-Wide Instructions, hướng dẫn các công cụ của Google tiến hành xử lý các liên kết hiệu quả. Việc tạo tệp này giúp các đơn vị quản lý web linh hoạt, chủ động hơn khi cho phép hoặc không cho phép các con bot của Google thực hiện index nội dung trên trang. 

2. File robot.txt có tác dụng gì?

Sau khi bạn hiểu được file Robot txt là gì thì sẽ có thắc mắc sử dụng File robot.txt có tác dụng gì cụ thể phải không? Để giúp bạn làm rõ được vấn đề này thì phần dưới đây sẽ nêu rõ công dụng của nó: 

  • Sử dụng để quản lý lưu lượng truy cập của trình thu thập dữ liệu vào trang web của bạn. Web của  bạn lớn thì việc thu thập thông tin là một quy trình rất tốn tài nguyên cho nên cần sử dụng tới File robot.txt
  • Sử dụng File robot.txt để ẩn 1 tệp khỏi google. Điều này có ích cho việc ngăn chặn công cụ google index 1 số tệp của web (hình ảnh, pdf,…), làm lãng phí công sức tạo dựng
  • Dùng cho việc ngăn chặn các nội dung bị trùng lặp trên website. Nội dung trùng lặp làm nặng tốc độ tải trang và gây khó chịu cho người đọc nên cần loại bỏ
  • Sử dụng File robot.txt cho việc chỉ định vị trí của sitemap cụ thể. Như vậy người dùng có thể dễ dàng tìm kiếm vị trí hơn
  • Dùng lệnh crawl – delay cài đặt thời gian. Đồng thời giúp giảm quá tải hoạt động cho máy chủ trong quá trình thu nhập dữ liệu khổng lồ cùng một lúc

3. Robots.txt hoạt động như thế nào?

Sử dụng Robots.txt có nguyên lý hoạt động rõ ràng. Cụ thể là để crawl được dữ liệu trang web thì các công cụ đi theo liên kết từ trang này tới trang kia. Sau đó, nó thu thập dữ liệu dữ liệu qua rất nhiều website khác nhau. 

Khi tới một website, trước khi spidering, con bot của công cụ Google thực hiện việc tìm file robots.txt WordPress. Khi nó tìm được 1 tệp này sẽ đọc tệp đó trước khi làm các bước khác.

File.txt chứa những thông tin về cách công cụ của google thu nhập dữ liệu web như thế nào. Các con bot được hướng dẫn chi tiết thông tin cho quá trình này. Nếu như tệp không chứa chỉ thị nào cho User-agent thì con bot sẽ thu nhập thông tin khác trên website.

Robots.txt có nguyên lý hoạt động rõ ràng

Robots.txt có nguyên lý hoạt động rõ ràng

4. Định dạng của file robots.txt và thuật ngữ phổ biến

Về thuật ngữ cũng như định dạng phổ biến của nó là:

4.1. Thuật ngữ 

Về thuật ngữ của file robots.txt chuẩn hiện tại sử dụng 5 thuật ngữ phổ biến mà mọi người thường hay bắt gặp. Chúng bao gồm:

  • User-agent: Đây là tên của các trình thu thập, truy cập vào dữ liệu của website
  • Disallow: Sử dụng thông báo cho các User-agent không thu thập dữ liệu URL nhất định. Mỗi một URL chỉ được dùng cho 1 dòng Disallow
  • Allow: Lệnh này được thực hiện thông báo cho Googlebot biết nó sẽ truy cập một trang hay vào một thư mục nhỏ. Việc truy cập vẫn diễn ra dù các trang hoặc thư mục nhỏ không được cho phép
  • Crawl-delay: Thông báo cho các web Crawler biết thời gian chờ đợi bao lâu trước khi tải và thu nhập các nội dung trang web. Bọ tìm kiếm Googlebot không thừa nhận lệnh này thực hiện. Cho nên bạn cần cài đặt tốc độ thu thập dữ liệu ở Google Search Console
  • Sitemap: Dùng để chia sẻ vị trí của Sitemap XML được liên kết với URL này. Lệnh  này chỉ hỗ trợ bởi các công cụ như Bing, Google, Ask,…
Thuật ngữ phổ biến về file Robots.txt

Thuật ngữ phổ biến về file Robots.txt

4.2. Định dạng file chuẩn

Về định dạng file chuẩn của tệp robots.txt được nhiều người quan tâm để thực hiện đúng chuẩn xác. Theo đó tệp này sẽ có nội dung được nêu như sau: 

  • User-agent:
  • Disallow:
  • Allow:
  • Crawl-delay: 
  • Sitemap: 

Ví dụ: Có nhiều ví dụ thực tế về tệp này hoạt động cho trang web www.example.com. Bạn có thể tham khảo bên dưới: 

  • User-agent: *
  • Disallow: /wp-admin/
  • Allow: /
  • Sitemap: https://www.example.com/sitemap_index.xml

5. Hướng dẫn tạo file robots.txt chuẩn SEO cho website wordpress

Cách tạo robots.txt chuẩn SEO cho website wordpress không phải ai cũng nắm rõ và thực hiện đúng cách để giúp nó phát huy tối đa công dụng. Cho nên phần nội dung này sẽ có hướng dẫn cách thực hiện cho mọi người dễ áp dụng:

5.1. Sử dụng Plugin Yoast Seo trên wordpress

Người dùng có thể chỉnh sửa hay tạo file robots.txt cho WordPress trên WordPress một cách đơn giản. Trước hết, bạn đăng nhập vào trong web và nhìn thấy được ngay trang Dashboard.

 Dùng Plugin Yoast SEO trên WordPress  để chỉnh sửa hay tạo file robots.txt

Dùng Plugin Yoast SEO trên WordPress  để chỉnh sửa hay tạo file robots.txt

Bạn nhìn bên trái và nhấn vào trong phần SEO > Tools > File editor. Tiếp theo cần kích hoạt wordpress thì tính năng  file editor mới xuất hiện. Sau đó, bạn sẽ thấy mục robots.txt và .htaccess file, lúc này bạn tạo file robots.txt.

5.2. Tạo file robots.txt thủ công cho WordPress và upload qua FTP

Bạn không muốn dùng plugin để tạo ra file này thì tạo thủ công và upload qua FTP, khâu này hoàn toàn không hề phức tạp như nhiều người nghĩ. Thực tế chỉ cần vài phút là tạo được bằng tay hoàn toàn

Bạn dùng Notepad hoặc Textedit tiến hành tạo mẫu file robots.txt WordPress. Tiếp tục, bạn cần tiến hành upload file này qua FTP mà không cần phải dùng tới plugin. Điều này sẽ nhanh chóng giúp bạn thực hiện các thao tác đơn giản mà dễ dàng hơn.

Sử dụng FPT để tạo file robots.txt thủ công

5.3. Sử dụng bộ Plugin All in one seo tạo file robots.txt

Một cách khác để tạo file robots.txt chuẩn SEO cho website wordpress là bạn dùng bộ Plugin All in One SEO, cách thức thực hiện cũng đơn giản và nhanh chóng. Được biết thì đây là một trong số các plugin hữu ích sử dụng phù hợp cho wordpress. 

Cụ thể, khi bạn cần tạo file robots.txt WordPress thì bạn vào giao diện chính của Plugin All in One SEO Pack. Bạn sẽ chọn vào phần All in One SEO, tới Features Manager và nhấn vào Active cho mục robots.txt.

Sử dụng bộ Plugin All in One SEO để tạo file robots.txt

Sử dụng bộ Plugin All in One SEO để tạo file robots.txt

Ngay phần giao diện sẽ có cho bạn nhiều tính năng hữu ích để sử dụng. Trong mục robots.txt có tab mới, bạn có thể tạo lập và điều chỉnh file ở đây dễ dàng. All in One SEO làm mờ đi thông tin file này. Vì thế cho nên khi chỉnh sửa file ..txt WordPress sẽ hơi tốn công hơn chút. Tuy nhiên, điểm công là cách này hạn chế các thiệt hại cho website của bạn. 

6. Một số quy tắc cần nắm khi tạo file robots.txt

Khi tạo file robots.txt thì người dùng cần nắm những quy tắc nhất định. Và đó là những quy tắc nào thì mời bạn theo dõi nội dung chia sẻ bên dưới đây sẽ rõ nhất: 

Nắm vững quy tắc khi tạo file robots.txt

Nắm vững quy tắc khi tạo file robots.txt

  • Các tệp cần được đặt trong các thư mục cấp cao nhất để cho các con bot dễ dàng tìm được
  • Txt bạn nên phân biệt chữ hoa và chữ thường cụ thể thì tệp được đặt tên chuẩn là robots.txt
  • Bạn không đặt /wp-content/themes/ hay /wp-content/plugins/ vào trong mục Disallow. Bởi vì điều này làm cản trở công cụ nhìn nhận đúng giao diện sử dụng cho web
  • Một vài User-agent đã bỏ qua các file robots.txt chuẩn khi xuất hiện vấn đề như Malware robots có đoạn mã độc hại, trình Scraping thu nhập thông tin
  • Tệp này luôn có sẵn và thường được xuất hiện công khai trên các website. Bạn chỉ cần cho thêm /robots.txt vào cuối Root Domain là xem được chỉ thị của website đó chi tiết. Ai cũng có thể thấy được trang họ cần tìm. Vì thế cho nên bạn không nên dùng các tệp này cho việc ẩn đi thông tin chi tiết của người dùng
  • Từng Subdomain trên một Root Domain sẽ dùng các file robots.txt hoàn toàn riêng. Có nghĩa là blog.example.com và example.com nên có các tệp robots.txt riêng của mình, không dùng chung. Và đây cũng là cách hiệu quả cho việc chỉ ra vị trí của  sitemaps mà liên kết với domain ở cuối tệp

7. Một số câu hỏi liên quan đến file robot txt

Không phải ai cũng nắm rõ các vấn đề liên quan tới file robot txt. Cho nên mới dẫn tới việc có nhiều thắc mắc xoay quanh việc này mà cần được các chuyên gia trong lĩnh vực website giải đáp. Sau đây là một số câu hỏi kèm trả lời chi tiết cho mọi người hiểu rõ hơn file robot txt:

7.1. File robots.txt nằm ở đâu của website?

Nhiều người thắc mắc về File robots.txt nằm ở đâu của website? Trên thực tế, câu hỏi này được các nhà quản trị web trả lời đó là nó nằm tại ví trí domain.com/robots.txt. Bạn có thể kiểm tra xem đúng có sự xuất hiện có nó không là hiểu rõ nhé.

 File robots.txt nằm tại vị trí nào ở website?

File robots.txt nằm tại vị trí nào ở website?

7.2. Làm sao để kiểm tra website có file robots.txt không?

Không phải website nào cũng sử dụng  file robots.txt và tất nhiên việc bạn phân vân trong website của mình có hay không có file này cũng là điều bình thường. Cách thức kiểm tra cũng hết sức đơn giản. Bạn nhập Root Domain của bạn, và thêm /robots.txt vào cuối URL. 

Trong trường hợp bạn không có trang .txt xuất hiện thì câu trả lời là website bạn hiện không tạo .txt cho WordPress. Ngược lại nếu như bạn thấy xuất hiện trang .txt thì có nghĩa là web có file này nhé.

7.3. Kích thước tối đa của file robots.txt bao nhiêu?

Theo thông tin chia sẻ từ các chuyên gia thì kích thước tối đa của file robots.txt vào tầm khoảng 500 kilobyte. Kích thước này cũng không quá lớn nên không quá ảnh hưởng tới tốc độ trang.

7.4. Có thể chỉnh sửa robots.txt không? Cách chỉnh sửa?

Câu trả lời là người dùng hoàn toàn có thể chỉnh sửa được file robots.txt. Bạn có thể lựa chọn việc chỉnh sửa thủ công hoặc dùng  plugin WordPress SEO để chỉnh sửa. Chẳng hạn như Yoast cho phép bạn thực hiện chỉnh sửa tệp này từ WordPress backend.

7.5. Làm sao để chặn tất cả các web crawler?

Khi bạn muốn thực hiện việc chặn toàn bộ các website thì bạn cần thực hiện các thao tác cần thiết. Cụ thể là truy cập Settings đi tới Reading và chọn vào ô bên cạnh tùy chọn Search Engine Visibility. WordPress sẽ được thêm dòng lệnh vào trong tiêu đề của website. Đó là: meta name=’robots’ content=’noindex,follow’

Sau đó WordPress cũng thay đổi tệp này trên website của bạn. Đồng thời cho thêm dòng lệnh này:

  • User-agent: *
  • Disallow: /

Yêu cầu các robot không index các trang nội dung trên website của bạn sử dụng dòng lệnh cần thiết. Tuy nhiên, nó cũng không tùy thuộc vào việc công cụ tìm kiếm có chấp nhận hoặc bỏ qua yêu cầu này không. 

7.6. Sử dụng file robots.txt cần lưu ý gì?

Khi sử dụng file robots.txt muốn đạt được hiệu quả cao thì bản thân người quản trị web cũng phải lưu ý nhiều điều, tránh những sự cố. Và sau đây là các lưu ý mà bạn không nên bỏ qua:

  • Các liên kết trang bị chặn bởi tệp này sẽ không được các bot theo dõi. Trừ việc có các link liên kết được với các trang web khác, bằng không thì tài nguyên được kết nối cũng không được thu thập lại và lập ra chỉ mục
  • Link juice không được truyền từ trang đã bị chặn tới được trang đích. Bạn muốn sử dụng Link juice truyền qua các trang này thì bạn cần phải áp dụng biện pháp khác, còn không dùng được tệp này WordPress
  • Bạn không dùng được  tệp này cho việc ngăn xâm nhập các dữ liệu tiêu cực, nhạy cảm xuất hiện ở kết quả của SERP. Trang web này chưa thông tin cá nhân có thể là liên kết với nhiều website khác nữa. Các con bot có thể sẽ bỏ qua chỉ thị của  file này trên Root Domain hoặc là trên trang chính của bạn. Cho nên web vẫn có thể được lập chỉ mục đầy đủ
  • Trong trường hợp bạn muốn chặn web khỏi các kết quả tìm kiếm thì dùng một biện pháp khác. Chẳng hạn như bạn sử dụng mật khẩu bảo vệ hoặc Noindex Meta Directive. Có nhiều công cụ tìm kiếm chứa User-agent để sử dụng
  • Các User-agent từ cùng một công cụ sẽ có nguyên tắc hoạt động. Bạn không phải chỉ định các lệnh cho mỗi User-agent riêng lẻ
  • Cụ thể có các công cụ tìm kiếm lưu nội dung của file robots.txt WordPress nhưng nó vẫn cập nhập nội dung trong bộ nhớ cache hàng ngày. Trường hợp bạn thay đổi tệp và muốn cải thiện tốc độ cập nhập thì nên dùng chức năng Gửi của Trình kiểm tra tệp này
Lưu ý khi sử dụng File Robots.txt

Lưu ý khi sử dụng File Robots.txt

LỜI KẾT

Thông qua nội dung được truyền tải ở trên chắc bạn đã hiểu rõ được Robots.txt là gì, tạo file Robots.txt chuẩn SEO cho website wordpress chi tiết ra sao. Khi bạn hiểu rõ tệp này thì việc sử dụng cho quản trị website hiệu quả và tránh được rất nhiều sự cố bất ngờ. Đừng quên cập nhập thường xuyên vào trang web để bổ sung thêm nhiều kiến thức web bổ ích nhé.