SEO

Robots.txt là gì? Tìm hiểu cách hoạt động và thiết lập chuẩn SEO

Tác giả
Ngày đăng :
Tháng Sáu 09, 2022
Robots.txt là gì? Tìm hiểu cách hoạt động và thiết lập chuẩn SEO

Robots.txt cho bạn góc nhìn thú vị về cách công cụ tìm kiếm phân tích dữ liệu trên website. Hãy khám phá thông qua bài viết của Kdigimind về cơ chế hoạt động cụ thể hơn.

Qua đó, quý bạn đọc tự mình trả lời được file robot.txt có tác dụng gì. Phần cuối sẽ hướng dẫn chi tiết các bước thiết lập tệp và kiểm tra trạng thái hoạt động. Thông thạo kỹ thuật này từ sớm tạo ra lợi thế cạnh tranh không nhỏ trên bảng xếp hạng.

Tệp Robots.txt là gì?

Robots.txt là gì? Đây là tập tin văn bản đơn giản, tồn tại dưới hình thức file .txt. Chúng xuất hiện trong Robots Exclusion Protocol(REP) chứa một nhóm các tiêu chuẩn. Dựa vào đó, công cụ tìm kiếm sẽ thu thập dữ liệu, truy cập cũng như Index nội dung.

robots.txt 1
Tệp tồn tại dưới dạng câu lệnh và xây dựng qua văn bản đơn giản

Trong thực tế, SEOer thường có xu hướng tạo robots.txt WordPress. Kỹ thuật này linh hoạt, chủ động trong việc cho phép Googlebot quét thông tin hoặc không.

File robot.txt có tác dụng gì?

Để giúp bạn hiểu rõ khái niệm hơn, phần này sẽ phân tích tác dụng của tệp là gì. Thiết lập này giúp kiểm soát hoạt động truy cập của Bot đến khu vực nhất định trên web. Lợi ích gồm có:

robots.txt 2
File robots.txt giúp trình thu thập thông tin hoạt động hiệu quả hơn

– Ngăn chặn nội dung trùng lặp xuất hiện trên web.

– Giữ một phần của trang đặt ở chế độ riêng tư.

– Định hướng các trang đến kết quả tìm kiếm nội bộ không hiển thị trên SERP.

– Là file hướng dẫn và chỉ định vị trí của Sitemap.

– Ngăn không cho công cụ Index một số tệp.

– Sử dụng lệnh Crawl – delay cho nhiệm vụ setup thời gian. Nhờ thế, máy chủ không bị hoạt động quá mức do các trình thu thập thông tin tải nhiều nội dung một lúc.

Nếu biết khai thác và điều chỉnh thông minh, file hỗ trợ rất nhiều cho nhà quản trị web. Công cụ tìm kiếm cũng không cần nỗ lực để quét và hiểu toàn bộ nội dung.

Cú pháp trong file robots.txt chuẩn

Để xây dựng file robots.txt chuẩn, bạn cần nắm vững các cú pháp chính. Nhưng trước hết sẽ là phần giải thích thuật ngữ chuyên ngành thường gặp. Qua đó, bạn dễ dàng hơn trong quá trình tạo lệnh.

robots.txt 3
Khi thiết lập tệp, bạn sẽ thường gặp những thuật ngữ xuất hiện nhiều lần
✅Thuật ngữ Ý nghĩa
User – agent – Chỉ tên chung của các trình thu thập và truy cập dữ liệu web.

– Chẳng hạn như trình thu thập Googlebot, Bingbot,…

Disallow – Sử dụng để thông báo User – agent không thu thập dữ liệu từ URL nào đó.

– Mỗi URL chỉ được sử dụng 1 dòng Disallow duy nhất.

Allow – Áp dụng cho Googlebot.

– Là lệnh thông báo Bot thực hiện truy cập vào một trang hoặc thư mục con.

Crawl – delay – Thông báo Web Crawler cần phải đợi bao lâu trước khi tải và thu thập nội dung trang.

– Tuy nhiên, không tuyên bố chính thức nào từ Google thừa nhận lệnh này. Thay vào đó, bạn điều đỉnh tốc độ thu thập dữ liệu trong Google Search Console.

Sitemap – Sử dụng để cung cấp vị trí nào đó của Sitemap XML đã được liên kết với URL.

– Lệnh này chỉ khả thi với công cụ Google, Ask, Bing và Yahoo.

Pattern – Matching

Trên thực tế, việc sử dụng robots.txt WordPress để chặn hoặc cho phép Bot hành động khá khó. Bởi lẽ, công cụ sử dụng tính năng Pattern – Matching để bao quát hàng loạt tùy chọn URL.

Google và Bing sử dụng hai biểu thức chính. Chúng dùng để xác định trang hoặc thư mục con muốn loại trừ. Hình thức xuất hiện là các ký tự sau:

(*): Tượng trưng cho bất kỳ chuỗi ký tự nào. Điều này nghĩa là hoạt động áp dụng cho mọi loại Bot của công cụ Google.

($): Kí tự khớp với phần cuối trong URL.

Hiểu những quy chuẩn này giúp bạn áp dụng đúng vào hoàn cảnh, mục đích sử dụng. Nhờ thế, file phát huy hết tác dụng.

Định dạng cơ bản

Những thuật ngữ đã giải thích ở trên chính là định dạng cơ bản của tệp. Tuy nhiên, thực tế có thể sẽ chứa nhiều dòng User – agent và chỉ thị của người dùng hơn.

Chẳng hạn, các dòng lệnh Disallow, Allow, Craw – delay chỉ định các Bot khác nhau. Mỗi loại thường được viết riêng biệt, cách nhau bởi một dòng. Đối với WordPress, bạn có thể viết liên tục.

Vị trí của file robots.txt trên website

Khi sử dụng website WordPress, công cụ tự động tạo file ngay dưới thư mục gốc của server. Hình thức như sau:

robots.txt 4
Bạn có thể thấy tệp nằm bên dưới thư mục gốc của server

– User-agent: *.

– Disallow: /wp-admin/.

– Disallow: /wp-includes/.

Ở đây, bạn đã thấy dấu (*) xuất hiện phía sau User – agent. Như phân tích ở trên, điều này có nghĩa quy tắc áp dụng cho mọi loại Bot trên toàn website. Trong ví dụ, tệp nói cho bọ tìm kiếm biết không được truy cập vào thư mục wp-admin và wp-includes.

Bởi vì, hai đối tượng này chứa thông tin nhạy cảm, không muốn người khác biết. Đây là file ảo do WordPress tự động thiết lập khi cài đặt và không sửa được. Vị trí chuẩn thường thấy nằm ở thư mục gốc với tên gọi public_html và www(hoặc tên website).

Để có file cho riêng mình, bạn cần một tệp mới thay thế vào đó. Hướng dẫn tạo trên WordPress rất dễ dàng và sẽ giải thích trong các phần sau.

Cách thức hoạt động

Công cụ tìm kiếm có hai nhiệm vụ chính và đã không còn xa lạ với người nghiên cứu website. Thứ nhất, đó chính là hoạt động Crawl – cào, phân tích dữ liệu để khám phá nội dung. Tiếp đó là quy trình Index để cung cấp đúng yêu cầu tìm kiếm của người dùng.

robots.txt 5
Thông qua file, Bot biết mình đi đâu và thu thập những gì

Để Crawl, Google sẽ đi từ liên kết này đến trang khác. Cuối cùng, Bot thu thập dữ liệu thông qua hàng tỷ nơi đã qua. Hoạt động này còn biết đến với tên gọi khác là Spidering.

Khi đến một trang và trước khi Spidering, công cụ Google sẽ tìm file robots.txt WordPress. Dựa vào việc đọc hiểu tệp này sẽ tiến hành các bước tiếp theo.

File chứa thông tin hướng dẫn Google nên thu thập dữ liệu như thế nào. Sẽ thật thiếu sót nếu không tạo tệp này hoặc tệp không chứa bất kì chỉ thị nào cho User – agent. Bot tiến hành thu thập dữ liệu không đúng định hướng, lộ trang nhạy cảm,…

Điểm hạn chế của file robots.txt

Trong các phần trên, bạn đã thấy khả năng tuyệt vời của file. Tuy vậy, công cụ vẫn không thể hoàn hảo 100%. Dưới đây là những hạn chế nhất định, bạn nên biết để có cách áp dụng sao cho hợp lý.

Một số trình duyệt không hỗ trợ các lệnh

Không phải mọi công cụ tìm kiếm đều hỗ trợ các lệnh trong tệp này. Nếu không chú ý có thể dẫn đến tình huống rò rỉ thông tin bảo mật.

Vì thế, cách tốt nhất là nên đặt mật khẩu cho các tệp riêng tư trên máy chủ. Các Bot muốn vào được cần phải được sự cho phép.

Mỗi trình dữ liệu có cú pháp phân tích riêng

Thông thường sẽ thi hành bộ quy chuẩn các lệnh áp dụng cho trình dữ liệu uy tín. Tuy vậy, mỗi Search Engine có cách giải trình data riêng biệt.

Một số công cụ không hiểu được toàn bộ câu lệnh đã cài trong file. Vì thế, nhà phát triển web cần nắm rõ cú pháp cho từng trình thu thập dữ liệu khác nhau.

Bị file robots.txt chặn vẫn có thể Index

Trong nhiều trường hợp, bạn đã chặn một URL của mình trong hướng dẫn robots.txt. Tuy vậy, không thể loại trừ khả năng chúng vẫn xuất hiện và được Crawling, Indexing.

Để không mắc phải vấn đề, bạn nên xóa URL đó đi nếu nội dung không quá quan trọng. Việc để ai đó nhìn thấy trên SERP và nhấp vào sẽ không thể giữ bảo mật được thông tin.

Lưu ý khi sử dụng robots.txt

Bên cạnh những hạn chế, bạn cần biết cả những lưu ý quan trọng khi sử dụng. Cụ thể các quy định như sau:

robots.txt 6
Bạn không nên lạm dụng tệp để ngăn hoạt động của trình thu thập thông tin

– Hành động chỉ định lệnh cho từng User – agent là không cần thiết. Bởi vì, hầu hết chúng đều đến từ một công cụ tìm kiếm và tuân theo nguyên tắc chung.

– Tuyệt đối không lạm dụng robots.txt để chặn dữ liệu riêng tư như thông tin người dùng. Bởi vì, Googlebot sẽ bỏ qua, dẫn đến khả năng bảo mật thông tin không cao.

– Để an toàn, bạn nên dùng mật khẩu riêng cho mỗi tệp hoặc URL không muốn cho truy cập. Tuy nhiên, tránh việc sử dụng quá mức vì đôi khi hiệu quả sẽ không như mong đợi.

Qua đó dễ thấy rằng mọi hoạt động chỉ đem đến tác dụng tương đối. Sử dụng ở mức độ vừa phải cùng việc chủ động bảo vệ web là điều cần thiết.

Cách kiểm tra website có robots.txt không

Chắc chắn sẽ có rất nhiều người băn khoăn không biết web của mình đã tồn tại tệp này chưa. Bạn kiểm tra bằng cách nhập Root Domain, sau đó thêm /robots.txt vào cuối URL.

robots.txt 7
Cách kiểm tra sự tồn tại của file rất đơn giản

Nếu trang .txt không xuất hiện chứng tỏ website chưa được xây dựng file này. Kỹ thuật có thể áp dụng cho mọi web.

Quy tắc nên bổ sung vào file robots.txt WordPress

Trong các phần trên, bạn đã biết bộ quy tắc và câu lệnh thiết lập file. Vậy nếu muốn áp dụng thêm các quy chuẩn bổ sung cho Bot sẽ ra sao? Bạn chỉ cần thêm chúng vào phần khai báo User – agent cho mỗi Bot.

Giả sử, bạn tạo ra hướng dẫn cho tất cả Bot kèm theo tiêu chuẩn khác chỉ áp dụng Bingbot. Cách viết như sau:

– User-agent: *.

– Disallow: /wp-admin/.

– User-agent: Bingbot.

– Disallow: /.

Ở ví dụ này, Bot không được truy cập /wp-admin/. Tuy nhiên, với Bingbot sẽ có hiệu lực trên toàn bộ trang web của bạn.

Cách tạo robots.txt

Giả sử tình huống trên, bạn đã kiểm tra và chưa thấy tệp có sẵn. Trường hợp đơn giản hơn là muốn thay thế bằng file của chính mình. Hướng dẫn thực hiện theo ba cách, áp dụng cho WordPress trình bày ngay sau đây.

Sử dụng Yoast SEO

Bạn có thể chỉnh sửa hoặc tạo robots.txt trên chính giao diện WordPress Dashboard. Các bước thực hiện vô cùng đơn giản và quen thuộc với anh chị em làm SEO như sau:

robots.txt 8
Để tạo file cho riêng mình, bạn có thể sử dụng Plugin WordPress

– Đăng nhập vào website và sẽ thấy xuất hiện giao diện trang Dashboard.

– Hướng sang phía trái màn hình, click theo SEO > Tools > File editor.

Tính năng File editor không xuất hiện nếu WordPress chưa được kích hoạt trình chỉnh sửa file. Do vậy, bạn cần active thông qua FTP (File Transfer Protocol – Giao thức truyền tập tin). Lúc này, robots.txt và .htaccess file sẽ xuất hiện. Đó chính là nơi cho phép tạo tệp theo ý muốn.

Khai thác bộ Plugin All in One SEO

Một cách khác là sử dụng bộ All in One SEO để tạo file trong WordPress nhanh chóng. Plugin này rất đơn giản trong thao tác, hiệu quả đem lại cao. Các bước như sau:

– Đi đến giao diện chính của All in One SEO Pack.

– Click lần lượt qua All in One SEO > Features Manager > Nhấp Active cho mục robots.txt.

– Giao diện xuất hiện ra một loạt các tính năng. Mục robots.txt xuất hiện như tab mới trong thư mục lớn.

– Bạn nhấp vào ô Active màu xanh và bắt đầu xây dựng lệnh.

Tuy nhiên, Plugin này có chút khác biệt so với cách làm bên trên. All in One SEO làm mờ đi thông tin của tệp thay vì bạn được chỉnh sửa file như công cụ Yoast SEO.

Xét theo hướng tích cực, yếu tố này giúp hạn chế thiệt hại cho website. Đặc biệt, một số Malware bots sẽ gây hại cho website khi bạn không ngờ tới.

Tạo file và upload qua FTP

Nếu không muốn sử dụng Plugin, bạn có thể thực hiện theo phương pháp thủ công cho chính WordPress. Trước tiên, bạn tạo mẫu file trước trên Notepad hoặc Textedit.

robots.txt 9
Bạn có thể tạo thủ công qua Notepad

 

Sau khi đã chắc chắn về Rule cũng như câu lệnh, hãy upload tệp này qua FTP. Quá trình vô cùng đơn giản, không tốn nhiều thời gian của nhà phát triển web.

Quy tắc khi tạo file robots.txt

Trong quá trình tạo file, bạn không nên chỉ tập trung vào viết các câu lệnh ở trên. Thêm vào đó, một số quy tắc sau đây cũng rất cần được áp dụng:

– Để Bot tìm thấy, tệp phải được đặt trong thư mục cao cấp nhất của trang web.

– Tên tệp viết thường với hình thức chính xác như sau “robots.txt”.

– Trong mục Disallow, bạn không nên đặt /wp-content/themes/ hay /wp-content/plugins/. Điều đó cản trở công cụ nhìn thấy chính xác giao diện Blog hay website của bạn.

– Một số User – agent bất chính chọn cách bỏ qua file tiêu chuẩn. Ví dụ thường thấy là Malware robots(chứa mã độc) và các trình Scraping địa chỉ Email.

– Mỗi Subdomain trên Root Domain sử dụng file riêng biệt. Điều này mang ý nghĩa cả blog.example.com và example.com nên có các tệp khác nhau.

Đó là những điều bạn nên biết để đánh giá cũng như sử dụng file theo cách khách quan hơn. Bên cạnh đó còn giúp chủ động đề phòng rủi ro xảy đến.

Câu hỏi thường gặp

Đối với người mới tiếp cận lần đầu rất khó tránh khỏi các thắc mắc. Dưới đây là câu hỏi thường gặp cùng lời giải đáp dành cho bạn.

Không khó để bạn tìm thấy lời giải đáp cho thắc mắc liên quan đến robots.txt

✅Câu hỏi Giải đáp
Kích thước tối đa của tệp robots.txt là bao nhiêu? Khoảng 500 kilobyte.
File nằm ở đâu trên website? Vị trí bạn có thể tìm thấy là domain.com/robots.txt.
Chỉnh sửa file như thế nào? Bạn thực hiện thủ công qua FTP hoặc Plugin trên WordPress.
Điều gì xảy ra khi Disallow vào nội dung Noindex? Google không bao giờ thấy lệnh Noindex bởi công cụ không thể Crawl dữ liệu trang.
Làm thế nào để tạm dừng hoạt động thu thập dữ liệu? Bạn có thể ngưng bằng cách trả về một mã kết quả HTTP 503 cho mọi URL. Việc thay đổi tệp để chặn hoạt động thu thập dữ liệu là không nên.

Trên đây là toàn bộ kiến thức cần biết để Googlebot quét dữ liệu theo đúng định hướng. Việc tạo lập cũng như chỉnh sửa dễ dàng vì đều có công cụ hỗ trợ. Kdigimind tin rằng bạn sẽ nhanh chóng thiết lập file robots.txt trên WordPress thành công.

Tác giả

Bài viết liên quan

0
Would love your thoughts, please comment.x
()
x