六六导航站AI教程资讯 → 谷歌推网页爬虫新标准,开源robots.txt解析器

谷歌推网页爬虫新标准,开源robots.txt解析器

2025-06-22 14:48:46      小编:六六导航站      

对于接触过网络爬虫的人来说 robots.txt 绝不陌生,这一存放于网站根目录下的 ASCII 码文件标明了网站中哪些内容是可以抓取的,哪些内容又是禁止抓取的。

今年,robots.txt 就满 25 周岁了, 为了给这位互联网MVP庆祝生日,谷歌再度出手,开源 robots.txt 解析器,试图推助机器人排除协议(REP)正式成为互联网行业标准。

非标准的标准

机器人排除协议(Robots Exclusion Protocol)是荷兰软件工程师 Martijn Koster 在1994 提出的一项标准,其核心就是通过 robots.txt 这样一个简单的文本文件来控制爬虫机器人的行为。

REP 以其简单高效征服了互联网行业,有超过 5 亿个网站都在使用 robots.txt,可以说它已经成为了限制爬虫的事实标准,像 Googlebot 在抓取网页时就会

  • 猜你喜欢
  • 相关AI应用
  • 精选推荐