爬虫禁抓协议robots.txt

Robots协议是国际互联网界通行的道德规范。
在这里插入图片描述

由网站所有者指定的一个文件:robot.txt,这个文件指明了哪些目录下的网页是不允许爬虫抓取的。
在这里插入图片描述

sitemap网站地图

sitemap是什么?
sitemap是网站目录检索

Google、雅虎、和微软都支持xml网站地图(xml Sitemaps)的协议。
百度的Sitemap是指百度支持的收录标准,在原有协议上做出了扩展。

作用?
通过sitemap文件,搜索引擎可以更全面的了解网站结构,有利于蜘蛛爬行!

在这里插入图片描述
在这里插入图片描述

如何创建sitemap网站地图

1、网上搜索sitemap生成器,自己生成一个文件
2、将该文件部署到网站根目录。
3、将该地图的链接放在robots.txt文件的最后。
4、提交到百度/谷歌收录。
在这里插入图片描述
在这里插入图片描述

Logo

加入社区!打开量化的大门,首批课程上线啦!

更多推荐