Tìm hiểu chi tiết về tập tin Robots.txt trong WordPress

Tập tin robots.txt là một trong những cách chính để thông báo cho các công cụ tìm kiếm biết để lập hoặc không lập chỉ mục một khu vực nào đó trên blog/website của bạn. Tất cả các công cụ tìm kiếm chính đều hỗ trợ các tính năng cơ bản mà nó cung cấp. Trong bài viết này tôi sẽ chia sẻ tất cả các kiến thức có liên quan đến việc cấu hình và sử dụng tập tin robots.txt cho trang web của bạn. Mặc dù nhìn có vẻ đơn giản, nhưng nếu để mắc lỗi trong việc cấu hình và sử dụng tập tin robots.txt sẽ gây thiệt hại nghiêm trọng cho website của bạn. Vì vậy, nếu bạn là người mới hãy đọc cẩn thận, chi tiết bài viết này để thực hiện một cách chính xác.

Tập tin robots.txt là gì?

Như chúng ta đã biết, tất cả các công cụ tìm kiếm đều có các con bọ để thu thập thông tin trên website. Khi một con bọ của công cụ tìm kiếm tiến hành thu thập thông tin trên trang của bạn, nó sẽ lần theo các liên kết hoặc sơ đồ trang bạn đã gửi trong trang tổng quan của webmaster. Sau đó nó sẽ lần theo tất cả các liên kết trên blog/website để thu thập thông tin và lập chỉ mục website của bạn.

Tuy nhiên bạn không muốn các con bọ thu thập thông tin một số phần có tính nhạy cảm trên website của mình. Ví dụ như thư mục wp-admin.

Sử dụng tập tin robots.txt, bạn sẽ thông báo cho các con bọ biết nó không được thu thập thông tin tại các khu vực mà bạn đã chỉ định.

Tập tin robots.txt là một tập tin văn bản tuân thủ theo các cú pháp nghiêm ngặt. Nó sẽ được đọc bởi các con nhện tìm kiếm. Những con nhện tìm kiếm này còn được gọi là robots, vì thế tập tin mới có tên là robots.txt. Cú pháp trong tập tin robots.txt rất nghiêm ngặt để máy tính có thể đọc được. Đối với máy tính, nó không đọc như cách chúng ta vẫn thường đọc. Đối với máy tính chỉ có hai trạng thái là 1 và 0.

Cũng còn được gọi là “Giao thức chặn Robots”, tập tin robots.txt là kết quả của sự đồng thuận giữa các nhà phát triển công cụ tìm kiếm từ trước đó. Đây không phải là tiêu chuẩn chính thức của các tổ chức nhưng tất cả các công cụ tìm kiếm chính đều tuân thủ tiêu chuẩn này.

Tập tin robots.txt có thể làm được những gì?

Các công cụ tìm kiếm sử dụng các con nhện để lập chỉ mục trên website của bạn. Nó lần theo các liên kết để liên tục đi từ trang này đến trang khác. Khi một công cụ tìm kiếm thu thập thông tin trên một website, nếu nó bắt gặp một trang nào đó mà nó chưa lập chỉ mục trước đây, nó sẽ mở tập tin robots.txt của website đó. Tập tin robots.txt cho công cụ tìm kiếm biết URL nào trên trang web đó được phép lập chỉ mục, URL nào thì thì không.

Công cụ tìm kiếm sẽ lưu trữ nội dung trong tập tin robots.txt, nhưng nó sẽ thường xuyên làm mới nội dung trong ngày. Vì vậy các thay đổi sẽ được cập nhật một cách nhanh chóng.

Vị trí của tập tin robots.txt?

Tập tin robots.txt luôn nằm ở thư mục gốc cài đặt website. Ví du: nếu tên miền của bạn là www.vidu.com thì tập tin robots.txt sẽ được tìm thấy tại địa chỉ www.vidu.com/robots.txt.

Một điều cần lưu ý là tập tin robots.txt của bạn phải có tên là robots.txt. Vì vậy bạn không được đổi tên của nó nếu không muốn nó ngưng hoạt động.

Ưu khuyết điểm của tập tin robots.txt

Ưu điểm:

Không phải tất cả các trang trên website đều được các công cụ tìm kiếm lập chỉ mục. Việc thu thập dữ liệu của Googlebot cũng có giới hạn và ưu tiên như việc chúng ta sử dụng ngân sách để ưu tiên mua các vật dụng cần thiết vậy. Trong SEO, thuật ngữ “Crawl Budget” dùng để chỉ nội dung nói trên.

Bằng cách chặn các phần có nội dung nhạy cảm, riêng tư, không ảnh hưởng nhiều đến SEO trên website của mình khỏi các công cụ tìm kiếm, bạn có thể sử dụng “Crawl Budget” của mình cho các phần khác. Bằng cách này, bạn không chỉ làm giảm tải trên máy chủ mà còn làm cho toàn bộ quá trình lập chỉ mục trên trang của mình nhanh hơn.

Khuyết điểm:

Dùng robots.txt bạn có thể nói với các con bọ tìm kiếm nơi mà nó không được lần theo trên trang web của bạn. Nhưng bạn không thể nói với các công cụ tìm kiếm rằng URL này không được hiển thị trong kết quả tìm kiếm. Điều đó có nghĩa là ngay cả khi bạn không cho phép công cụ tìm kiếm thu thập dữ liệu của một URL nào đó thì nó vẫn sẽ hiển thị trong kết quả tìm kiếm. Nếu các công cụ tìm kiếm thu thập đầy đủ các liên kết đến một URL thì nó sẽ có đầy đủ các thông tin trên đó.

Nếu bạn thực sự muốn chặn trang của mình hiển thị trong kết quả tìm kiếm, bạn cần sử dụng thẻ noindex. Điều đó có nghĩa là công cụ tìm kiếm phải có khả năng lập chỉ mục và tìm thẻ noindex. Vì vậy trang sẽ không bị chặn bởi tập tin robots.txt.

Và cũng bởi vì khi sử dụng robots.txt, các công cụ tìm kiếm không thể lập chỉ mục, thu thập dữ liệu các trang nên nó không thể phân phối giá trị liên kết trỏ đến các URL đó. Vì vậy nếu bạn không muốn hiển thị một phần nào đó của trang web trong kết quả tìm kiếm nhưng vẫn muốn nhận được nhiều liên kết, đừng sử dụng robots.txt. Khi một trang bị chặn bởi tập tin robots.txt, giá trị liên kết sẽ bị mất.

Thêm vào đó nội dung của tệp robots.txt được công khai trên Internet. Trừ khi được bảo vệ nếu không bất kỳ ai cũng có thể xem nội dung tệp robots.txt của bạn. Vì vậy đây không phải là nơi để thêm các nội dung nhạy cảm.

Cú pháp của robots.txt

Tập tin robots.txt chứa một hoặc nhiều khối lệnh, mỗi lệnh bắt đầu bằng user-agent. “User-agent” là tên của một con bọ tìm kiếm cụ thể nào đó (Ví dụ: GoogleBot, BingBot…). Bạn có thể sử dụng dấu sao * để áp dụng cho tất cả các loại bọ của các công cụ tìm kiếm khác nhau.

Dòng tiếp theo là Allow hoặc Disallow. Nó nói cho các con bọ của các công cụ tìm kiếm biết phần nào nó được phép lập chỉ mục, phần nào không.

Các khối trong tập tin robots.txt có dạng như bên dưới:

User-agent: *
Disallow: /User-agent: Googlebot
Disallow:User-agent: bingbot
Disallow: /not-for-bing/

Các chỉ thị Allow và Disallow không phân biệt chữ hoa và chữ thường. Vì vậy viết hoa hay viết thường là tùy vào sở thích của bạn.

User-agent

Dùng để xác định tên của một con bọ cụ thể. Lưu ý là các công cụ tìm kiếm có rất nhiều con bọ khác nhau. Nó sẽ sử dụng các con bọ khác nhau để thực hiện việc lập chỉ mục cho các kiểu dữ liệu khác nhau như: lập chỉ mục nội dung, hình ảnh, quảng cáo, video…

Các công cụ tìm kiếm sẽ luôn chọn khối lệnh cụ thể nhất mà chúng có thể tìm thấy. Ví dụ bạn có 03 khối lệnh: một cho tất cả (*), một cho GoogleBot, một cho GoogleBot-News. Nếu con bọ tìm đến để lập chỉ mục là GoogleBot-Video, nó sẽ tuân theo các giới hạn của GoogleBot. Nhưng một con bọ GoogleBot-News sẽ sử dụng các quy định cụ thể hơn của GoogleBot-News.

Các user-agent phổ biến của bọ tìm kiếm

Bảng bên dưới liệt kê các user-agent phổ biến của bọ tìm kiếm mà bạn có thể sử dụng cho tập tin robots.txt của mình:

Tên công cụ tìm kiếmTrườngUser-agent
GoogleGeneral (Tổng quan)GoogleBot
GoogleImages (Hình ảnh)GoogleBot-Image
GoogleMobile (Di động)GoogeBot-Mobile
GoogleNews (Tin tức)GoogleBot-News
GoogleVideoGoogleBot-Video
GoogleAdsenseMediapartners-Google
GoogleAdWordsAdsBot-Google
BingGeneral (Tổng quan)bingbot
BingGeneral (Tổng quan)msnbot
BingAds (Quảng cáo)adidxbot
YahooGeneral (Tổng quan)slurp
YandexGeneral (Tổng quan)yandex
BaiduGeneral (Tổng quan)baiduspider
BaiduImages (Hình ảnh)baiduspider-image
BaiduNews (Tin tức)baiduspider-news
BaiduVideobaiduspider-video
Cốc cốcTên gọi chung cho tất cả các loại robot của Cốc Cốccoccocbot
Cốc cốcRobot web chínhcoccoc-web
Cốc cốcRobot hình ảnhcoccoc-image
Cốc cốcRobot nhanhcoccoc-fast
Cốc cốcRobot quảng cáococcoc-ads

Chỉ thị Disallow

Dòng thứ hai trong bất kỳ khối lệnh nào cũng đều là Disallow. Bạn có thể có một hoặc nhiều dòng Disallow để chỉ định các khu vực mà con bọ không được truy cập. Nếu bạn để trống dòng Disallow, có nghĩa là con bọ có thể truy cập tất cả các phần trên website của bạn.

User-agent: *
Disallow: /

Ví dụ trên sẽ chặn không cho robots.txt “báo cáo” thông tin đã thu thập trên trang của bạn với các công cụ tìm kiếm.

User-agent: *
Disallow: 

Ví dụ phía trên chỉ khác một ký tự (/), nhưng nó sẽ cho phép tất cả các công cụ tìm kiếm thu thập toàn bộ thông tin trang web của bạn.

User-agent: googlebot
Disallow: /images

Ví dụ trên sẽ chặn con bọ tìm kiếm của Google, không cho nó thu thập thông tin trong thư mục images. (Kể cả các thư mục con và tập tin chứa trong nó). Lưu ý là nó không chặn con bọ tìm kiếm của Google thu thập thông tin trong thư mục Images. Tên thư mục được phân biệt rõ ràng giữa chữ hoa và chữ thường.

Sử dụng ký tự đại diện/cụm từ thông dụng trong tập tin robots.txt

Tập tin robots.txt không hỗ trợ chính thức ký tự đại diện/cụm từ thông dụng. Nhưng tất cả các công cụ tìm kiếm chính đều có thể hiểu nếu bạn sử dụng các ký tự/cụm từ đại diện. Điều này có nghĩa là bạn có thể sử dụng các dòng lệnh như bên dưới để chặn các nhóm tập tin:

User-agent: /*.php
Disallow: /images/*.jpg

Trong ví dụ trên, * đại diện cho tất cả các tập tin có phần mở rộng là php, jpg. Lưu ý rằng dòng thứ hai vẫn phân biệt chữ hoa và chữ thường. Vì thế nếu có một tập tin *.JPG, nó sẽ vẫn được con bọ thu thập thông tin.

Đối với một số công cụ tìm kiếm như Google, nó cho phép sử dụng các cụm từ thông dụng phức tạp hơn. (Lưu ý rằng không phải tất cả các công cụ tìm kiếm khác đều có thể hiểu được login này). Các tính năng hữu ích nhất này thêm ký tự $ để cho biết vị trí kết thúc của một URL. Bạn có thể thấy được điều này thông qua ví dụ bên dưới:

User-agent: /*.php$

Đoạn mã trên có nghĩa là /index.php sẽ không được lập chỉ mục nhưng /index.php?p=1 sẽ được lập chỉ mục. Tuy nhiên, điều này chỉ hữu dụng trong một số trường hợp cụ thể và cũng khá nguy hiểm vì nó vô tình bỏ chặn những phần mà bạn muốn chặn.

Các chỉ thị thu thập thông tin khác cho tập tin robots.txt

Ngoài chỉ thị User-agent và Disallow, có một vài lệnh thu thập thông tin khác mà bạn có thể sử dụng cho tập tin robots.txt. Các lệnh này không được trình thu thập thông tin của các công cụ tìm kiếm hỗ trợ. Vì vậy hãy chắc chắn rằng bạn biết được các giới hạn của chúng.

Chỉ thị Allow

Đây không phải là đặc tính kỹ thuật ban đầu, nhưng chỉ thị Allow được nhắc đến từ rất sớm. Hầu hết các công cụ tìm kiếm hiểu nó và nó cho phép tạo ra các chỉ thị đơn giản, dễ đọc như sau:

Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Cách duy nhất để có kết quả tương tự mà không cần phải sử dụng chỉ thị Allow là sử dụng chỉ thị Disallow cho từng tập tin cụ thể trong thư mục /wp-admin.

Chỉ thị host

Được hỗ trợ bởi công cụ tìm kiếm Yandex, chỉ thị này cho phép bạn quyết định xem bạn có muốn công cụ tìm kiếm hiển thị vidu.com hay www.vidu.com hay không. Chỉ cần chỉ định nó như sau:

host: vidu.com

Bởi vì chỉ thị host chỉ được hỗ trợ bởi Yandex, nên bạn chỉ cần tìm hiểu để biết mà thôi.

Chỉ thị crawl-delay

Được hỗ trợ bởi Bing, Yahoo và Yandex, chỉ thị crawl-delay có thể sẽ rất hữu dụng trong việc làm chậm quá trình thu thập thông tin của ba công cụ tìm kiếm này. Những công cụ tìm kiếm này có những cách khác nhau để các đọc chỉ thị, nhưng kết quả cuối cùng về cơ bản là giống nhau.

Dòng lệnh bên dưới sẽ khiến cho Yahoo và Bing phải chờ 10 giây sau khi thực hiện các thao tác thu thập dữ liệu. Còn Yandex chỉ truy cập vào website của bạn sau một khoảng thời gian là 10 giây. Dưới đây là ví dụ về chỉ thị crawl-delay:

crawl-delay: 10

Hãy cẩn thận khi sử dụng chỉ thị crawl-delay. Bằng cách thiết lập thời gian là 10 giây cho chỉ thị crawl-delay, bạn chỉ cho phép các công cụ tìm kiếm lập chỉ mục tối đa 8.640 trang/ngày. Đây là con số lớn đối với một số blog/website nhưng lại là con số nhỏ đối với các blog/website khác. Nhưng nếu bạn không nhận được bất kỳ lượt truy cập nào từ các công cụ tìm kiếm nói trên, thì đây là cách hay để tiết kiệm băng thông và tài nguyên trên máy chủ web.

Chỉ thị sitemap dành cho XML Sitemaps

Sử dụng chỉ thị sitemap bạn có thể nó cho các công cụ tìm kiếm Bing, Google và Yandex vị trí sơ đồ trang XML của bạn. Tất nhiên bạn cũng có thể gửi sơ đồ trang cho các công cụ tìm kiếm bằng cách sử dụng Webmaster tools. Nhưng nếu bạn không muốn sử dụng Webmaster Tools, thì bạn có thể dễ dàng thêm một dòng chỉ thị sitemap vào tập tin robots.txt.

Xác thực tập tin robots.txt của bạn

Có nhiều công cụ khác nhau giúp bạn xác thực tập tin robots.txt của mình. Google có một công cụ dùng để kiểm tra tập tin robots.txt trong Google Search Console (Nằm bên dưới trình đơn Crawl). Bạn nên sử dụng công cụ này để xác thực tập tin robots.txt.

kiem tra tap tin robots

Hãy kiểm tra kỹ các thay đổi trước khi xác minh nó nếu bạn không muốn vô tình trang web của mình bị chặn trong tập tin robots.txt, dẫn đến bị lãng quên trong các công cụ tìm kiếm.

Tối ưu hóa tập tin robots.txt cho SEO

Trong các hướng dẫn dành cho các quản trị viên, Google khuyên họ không nên sử dụng tập tin robots.txt để ẩn các nội dung có chất lượng thấp.

Nếu bạn đang nghĩ đến việc sử dụng tập tin robots.txt để chặn các con bọ tìm kiếm lập chỉ mục đối với các chuyên mục, ngày tháng và các trang lưu trữ khác thì đó không phải là một sự lựa chọn sáng suốt.

Bạn nên nhớ rằng, mục đích của tập tin robots.txt là hướng dẫn cho các con bọ biết nó cần phải làm gì đối với nội dung mà nó thu thập trên trang của bạn. Nó không thể ngăn các con bọ thực hiện việc thu thập dữ liệu trên trang của bạn.

Có một số WordPress plugin cho phép bạn thêm các thẻ meta như nofollow và noindex vào các trang lưu trữ của bạn. Plugin Yoast SEO cũng cho phép bạn làm điều này. Sử dụng các plugin là cách tốt nhất để thực hiện việc thêm thẻ meta cho các trang lưu trữ.

Bạn không cần phải thêm các trang login, thư mục quản trị hoặc trang đăng ký vào tập tin robots.txt. Vì các trang đó đã được thêm thẻ noindex bởi WordPress.

Bạn nên sử dụng chỉ thị Disallow cho tập tin readme.html trong tập tin robots.txt. Tập tin này có thể sẽ bị một số người sử dụng để tìm thông tin phiên bản WordPress mà bạn đang sử dụng.

Mặc khác nếu có ai đó đang thực thi một truy vấn độc hại để định vị các WordPress site đang sử dụng một phiên bản cụ thể nào đó, thì chỉ thị Disallow có thể bảo vệ bạn trước các cuộc tấn công hàng loạt.

Dưới đây là ví dụ về nội dung trong tập tin robots.txt mà bạn có thể tham khảo:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /search?q=*
Disallow: /readme.html
Sitemap: https://thanh1986t.com/sitemap_index.xml

Lời kết

Để ngăn chặn các con bọ thu thập thông tin của các trang hoặc thư mục cụ thể trên website, bạn sử dụng tập tin robots.txt.

Khi trang web của bạn ngày càng lớn mạnh, việc thu thập dữ liệu, lập chỉ mục sẽ tốn rất nhiều tài nguyên trên máy chủ. Nếu các trình thu thập thông tin của các công cụ tìm kiếm thu thập và lập chỉ mục toàn bộ website của bạn, nó sẽ gây ra các vấn đề nghiêm trọng về hiệu năng. Trong trường hợp này, bạn có thể sử dụng robots.txt để hạn chế quyền truy cập vào một số phần nhất định của trang web mà không quan trọng đối với SEO hoặc thứ hạng. Bằng cách này, bạn không chỉ làm giảm tải trên máy chủ của bạn mà nó làm cho toàn bộ quá trình lập chỉ mục nhanh hơn.

Ngay cả khi bạn chặn trang hoặc thư mục trong robots.txt, nó vẫn có thể xuất hiện trong kết quả tìm kiếm nếu nó có liên kết từ các trang khác đã được lập chỉ mục. Nói cách khác, thêm trang bạn muốn chặn vào robots.txt không đảm bảo rằng nó sẽ bị xóa hoặc không xuất hiện trên các công cụ tìm kiếm.

Cách tốt nhất để bảo vệ tập tin và thư mục là đặt mật khẩu hoặc thêm thẻ noindex chứ không phải là sử dụng chỉ thị Disallow để chặn trong tập tin robots.txt.

Trên đây là tất cả các kiến thức mà tôi đã tìm hiểu và học hỏi được từ internet về tập tin robots.txt.

Hy vọng bài viết này sẽ hữu ích đối với bạn.

Nếu bạn thấy bài viết này hữu ích đừng quên Like và Share.

Hẹn gặp lại bạn trong các bài viết tiếp theo./.

Đăng ký nhận bài viết mới nhất

Hãy đăng ký nhận tin để nhận được những nội dung thú vị và tuyệt vời!

Để lại bình luận

Plugins Themes Thủ thuật
Hướng dẫn thêm icon vào menu điều hướng trong WP
Hướng dẫn thêm icon vào menu điều hướng WordPress
Hướng dẫn thêm menu điều hướng cho wordpress site
Hướng dẫn thêm menu điều hướng trong WordPress
15 .htacess snippet hay
15 .htaccess snippet hữu ích cho WordPress site
Keyword Research SEO Offpage SEO Onpage
Từ khoá và website của bạn
Xây dựng Website chuẩn SEO
Xây dựng Website chuẩn SEO
Hướng dẫn chi tiết WordPress SEO
Hướng dẫn chi tiết WordPress SEO cho người mới
Ajax Bootstrap HTML/CSS JavaScript Joomla jQuery PHP/MySQL
Cách đặt tên miền
Tên miền là gì? Cách chọn tên miền cho blog WordPress
Thay đổi tên miền cho website wordpress
Hướng dẫn thay đổi tên miền cho website WordPress
Sự khác nhau giữa tên miền và Web Hosting
Sự khác nhau giữa tên miền và Web Hosting
Amazon Nichesite Google Adsense Product Lauch Social Marketing Viết Blog Youtube Partner
Thêm Google Adsense vào trang web WordPress
Hướng dẫn thêm Google Adsense vào trang web WordPress
Hướng dẫn đăng ký tài khoảnClickbank khi bị chặn ở Việt Nam
Hướng dẫn đăng ký tài khoản Clickbank khi bị chặn tại Việt Nam
Kiếm tiền từ blog WordPress
Kiếm tiền từ blog WordPress như thế nào?