网站上无意义的页面,低质量或特殊的页面,可以设置机器人元标记告知谷歌百度蜘蛛这个页面不接受爬取或索引,在页面使用nofollow或noindex标记。
两个主要设置:
index / noindex:是否允许爬虫索引页面,指示 Google 是否要在 Google 搜索结果中显示此网页
follow / nofollow:是否允许爬虫爬取页面,是否允许跟踪页面上的任何链接
添加方法:
在<head>里添加
1. 告知所有获取工具页面不需要获取和索引:
< meta name="robots" content="noindex, nofollow" >
2. 告知所有获取工具页面需要获取和索引:
< meta name="robots" content="index, follow" >
3. 告知所有抓取工具这个页面不允许索引,但可以抓取页面上的任何链接:
< meta name="robots" content="noindex, follow" >
4. 告知所有抓取工具这个页面允许索引,但不可以抓取页面上的任何链接:
< meta name="robots" content="index, nofollow" >
Tips: 默认情况下,两者都设置为“true”,因此如果您对此没有问题,则无需设置此标签。
备注 :
1. name 属性的值 (robots) 指定此指令适用于所有抓取工具,包括搜索引擎和非搜索引擎获取工具。 如需针对特定的抓取工具,可将 name 属性的 robots 值替换为这个抓取工具的名称。 如:
只想阻止 Google 将您的网页编入索引,可撰写为:
< meta name="googlebot" content="noindex" >
2. 如需屏蔽非搜索抓取工具(例如 AdsBot-Google),可添加针对具体抓取工具的指令,例如 :
< meta name="AdsBot-Google" content="noindex" >。
3. robots nofollow与链接级别属性不同,链接级别nofollow属性会阻止 Googlebot 跟踪单个链接,使用 rel=“nofollow”
4. disallow: 应用在robots.txt中,告诉搜索引擎不要抓取这个网页,但这并不能保证该页面不会被索引。
5. Google 抓取工具(用户代理):
Googlebot(桌面版):Googlebot
Googlebot(智能手机版):Googlebot
Googlebot Video:Googlebot-Video 或 Googlebot
Googlebot News:Googlebot-News 或 Googlebot
Googlebot Image:Googlebot-Image 或 Googlebot
AdsBot: 检查桌面版网页广告质量。 (会忽略 * 通配符)
AdsBot Mobile Web Android: AdsBot-Google-Mobile 检查 Android 网页广告质量。 (会忽略 * 通配符。 )
AdsBot Mobile Web: AdsBot-Google-Mobile 检查 iPhone 网页广告质量。 (会忽略 * 通配符)
AdSense: Mediapartners-Google
Mobile AdSense: Mediapartners-Google
Mobile Apps Android: 检查 Android 应用页面广告质量。 遵循 AdsBot-Google 漫游器规则。 (会忽略 * 通配符)
APIs-Google: APIs-Google
Google StoreBot: Storebot-Google
Google Favicon: Googlebot-Image / Googlebot
Google Read Aloud: Google-Read-Aloud(不会遵循 robots.txt 规则)
Feedfetcher: FeedFetcher-Google(不会遵循 robots.txt 规则)
Google 网站验证工具:Google-Site-Verification(会忽略 robots.txt 规则)