论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>职称论文>范文阅读
快捷分类:

搜索引擎类学士学位论文范文 和什么是搜索引擎蜘蛛抓取份额类论文范文集

分类:职称论文 原创主题:搜索引擎论文 发表时间: 2024-01-26

什么是搜索引擎蜘蛛抓取份额,该文是搜索引擎类学士学位论文范文与蜘蛛和搜索引擎和抓取相关毕业论文开题报告范文.

顾名思义,抓取份额是搜索引擎蜘蛛花在一个网站上的抓取页面的总的时间上限.对于特定网站,搜索引擎蜘蛛花在这个网站上的总时间是相对固定的,不会无限制地抓取网站所有页面.

抓取份额的英文Google 用的是crawl budget,直译是爬行预算,觉得不太能说明是什么意思,所以用抓取份额表达这个概念.

抓取份额是由什么决定的呢?这牵扯到抓取需求和抓取速度限制.

抓取需求

抓取需求,crawl demand,指的是搜索引擎“想”抓取特定网站多少页面.

决定抓取需求的主要有两个因素:一是页面权重,网站上有多少页面达到了基本页面权重,搜索引擎就想抓取多少页面.二是索引库里页面是否太久没更新了.说到底还是页面权重,权重高的页面就不会太久不更新.

页面权重和网站权重又是息息相关的,提高网站权重,就能使搜索引擎愿意多抓取页面.

抓取速度限制

搜索引擎蜘蛛不会为了抓取更多页面,把人家网站服务器拖垮,所以对某个网站都会设定一个抓取速度的上限,crawlrate limit,也就是服务器能承受的上限,在这个速度限制内,蜘蛛抓取不会拖慢服务器、影响用户访问.

服务器反应速度够快,这个速度限制就上调一点,抓取加快,服务器反应速度下降,速度限制跟着下降,抓取减慢,甚至停止抓取.

所以,抓取速度限制是搜索引擎“能”抓取的页面数.

抓取份额是由什么决定的?

抓取份额是考虑抓取需求和抓取速度限制两者之后的结果,也就是搜索引擎“想”抓,同时又“能”抓的页面数.网站权重高,页面内容质量高,页面够多,服务器速度够快,抓取份额就大.

小网站没必要担心抓取份额

小网站页面数少,即使网站权重再低,服务器再慢,每天搜索引擎蜘蛛抓取的再少,通常至少也能抓个几百页,十几天怎么也全站抓取一遍了,所以几千个页面的网站根本不用担心抓取份额的事.数万个页面的网站一般也不是什么大事.每天几百个访问要是能拖慢服务器,SEO 就不是主要需要考虑的事了.

大中型网站可能需要考虑抓取份额

几十万页以上的大中型网站,可能要考虑抓取份额够不够的问题.

抓取份额不够,比如网站有一千万页面,搜索引擎每天只能抓几万个页面,那么把网站抓一遍可能需要几个月,甚至一年,也可能意味着一些重要页面没办法被抓取,所以也就没排名,或者重要页面不能及时被更新.

要想网站页面被及时、充分抓取,首先要保证服务器够快,页面够小.如果网站有海量高质量数据,抓取份额将受限于抓取速度,提高页面速度直接提高抓取速度限制,因而提高抓取份额.

当然,能抓上百万页是一方面,搜索引擎想不想抓是另一方面.

大型网站另一个经常需要考虑抓取份额的原因是,不要把有限的抓取份额浪费在无意义的页面抓取上,导致应该被抓取的重要页面却没有机会被抓取.

浪费抓取份额的典型页面有:

大量过滤筛选页面.站内复制内容低质、垃圾内容、日历之类的无限个页面.这些页面被大量抓取,可能用完抓取份额,该抓的页面却没抓.

怎样节省抓取份额?

当然首先是降低页面文件大小,提高服务器速度,优化数据库,降低抓取时间.然后,尽量避免上面列出的浪费抓取份额的东西.有的是内容质量问题,有的是网站结构问题,如果是结构问题,最简单的办法是robots 文件禁止抓取,但多少会浪费些页面权重,因为权重只进不出.

某些情况下使用链接nofollow 属性可以节省抓取份额.小网站,由于抓取份额用不完,加nofollow 是没有意义的.大网站,nofollow 是可以在一定程度上控制权重流动和分配的,精心设计的nofollow 会使无意义页面权重降低,提升重要页面权重.搜索引擎抓取时会使用一个URL 抓取列表,里面待抓URL 是按页面权重排序的,重要页面权重提升,会先被抓取,无意义页面权重可能低到搜索引擎不想抓取.

最后几个说明:

链接加nofollow 不会浪费抓取份额.但在Google 是会浪费权重的.noindex 标签不能节省抓取份额.搜索引擎要知道页面上有noindex 标签,就得先抓取这个页面,所以并不节省抓取份额.canonical 标签有时候能节省一点抓取份额.和noindex 标签一样,搜索引擎要知道页面上有canonical 标签,就得先抓取这个页面,所以并不直接节省抓取份额.但有canonical 标签的页面被抓取频率经常会降低,所以会节省一点抓取份额.抓取速度和抓取份额不是排名因素,但没被抓取的页面也谈不上排名.

综上所述:这篇文章为大学硕士与搜索引擎本科搜索引擎毕业论文开题报告范文和相关优秀学术职称论文参考文献资料,关于免费教你怎么写蜘蛛和搜索引擎和抓取方面论文范文.

参考文献:

1、 凿壁取光 西汉时候,有个农民的孩子,叫匡衡 他小时候很想读书,可是因为家里穷,没钱上学 后来,他和一个亲戚学认字,才有了看书的机会 匡衡买不起书,只好借书来读 那个时候,书是非常贵重的,有书的人不肯轻易借给别人.

2、 云南省民族宗教委两学一做学习教育常抓常新 2018年以来,云南省民族宗教委将“两学一做”学习教育作为推进思想建党、组织建党、制度治党的有力抓手,注重打牢“学”的基础、把握“做&rdq.

3、 罗平旧屋基:抓准特色亮起来 在罗平县旧屋基彝族乡,有一个好去处——那色峰海 天气晴好,那色峰海群峰耸翠,远望如森林密密簇簇;云雾环绕,那色峰海峰林波澜壮阔,鸟瞰似山的海洋 大补懂村掩映在层层山峦之间,幻如.

4、 百米高空蜘蛛人 “刘师傅,准备吃饭啦!今天炖了巴河的莲藕排骨汤,又香又糯,马上给你送上去!”湖北黄冈220千伏大吉—南湖线路项目经理孙黄胜通过对讲机向正在高空作业的刘师傅喊道 &l.

5、 中国五矿:持之以恒抓教育,多措并举聚合力 7 月26 日,中国五矿集团有限公司(以下简称“中国五矿”)援助164 万元建设的云南省镇雄县黄莲小学学生宿舍楼和图书室项目开工建设,那些冰雪男孩们,再也不用顶风冒雨起早贪黑的.

6、 领域导向的数字图书馆移动视觉搜索引擎建设* 摘要视觉大数据资源作为大数据的重要组成部分,其价值产生机理与转换规律具有高度的领域依赖性 文章从数字图书馆移动视觉搜索引擎的领域依赖性分析入手,运用模块化设计思想对其业务流程进行了分析,在此基础上,提.