Kiểm tra tệp robots.txt của trang web của bạn và hiểu rõ về nó.
Mở miền của bạn trong thanh địa chỉ như thế này yourdomain.com/robots.txt
Nếu bạn tìm thấy khác, hãy xóa mã và gửi lại cho Google.
Định dạng cơ bản là
- User-agent: [user-agent name]
- Disallow: [URL string not to be crawled]
- User-agent: *
- Disallow: /
Cho phép tất cả Trình thu thập thông tin web truy cập vào tất cả nội dung
- User-agent: *
- Disallow:
- User-agent: Googlebot
- Disallow: /
Bạn cũng có thể kiểm tra điều này bằng công cụ kiểm tra robots.txt của Google.
Nó sẽ xuất hiện một cái gì đó như thế này.
Chèn bất kỳ đường dẫn nào bạn muốn tìm xem Google có thu thập dữ liệu hay không, sau đó nhấp vào kiểm tra.
Để gửi lại tệp robots.txt, hãy nhấp vào tùy chọn gửi sau khi cập nhật tệp.
Nó sẽ xuất hiện như thế này.
Sau đó, chỉ cần nhấp vào gửi lại để cập nhật tệp robots.txt trong Google và kiểm tra dấu thời gian sau đó.
Top 8 trình thu thập dữ liệu web và bot phổ biến nhất
Google- Googlebot
Bing- Bingbot
Yahoo- Slurp
DuckDuckGo- DuckDuckBot
Baidu - Baiduspider
Facebook Hit- facebot bên ngoài
Alexa- ia_archiver (+ http://www.alexa.com/site/help/webmasters; crawler@alexa.com)
Ahrefs- AhrefsBot