来源:www.024fuwu.com 时间:2021-05-26
沈阳网站制作、沈阳网站建设行业赢来改革风,请本站报道:新媒体网站是最近两年兴起的技术,沈阳做网站原创的兴起,标志着辽宁振兴的开始,为什么这么说呢,因为沈阳有好多网络公司都是代理南方的产品,没有自己的研发团队!我们辽宁世纪兴愿做第一个吃螃蟹的人,受到了客户一致好评。
我们先来看百度爬虫工作原理是这样的:首先百度的抓取器会和网站的首页进行交互,拿到网站首页之后会对页面进行理解,理解包含(类型、价值计算),其次会把网站首页的所有超链接提取出来。如下图所示,首页的超链接被称为“后链”,等到下一轮抓取的时候,抓取器会继续和这些超链接的页面进行交互,拿到页面进行提炼,依次不断一层一层的抓取,这就构成了抓取环路。在这个过程中,我们融入了新媒体技术,网站大变样!
任何一个资源都是通过URL来抓取的,URL相对于网站的门牌号,那么URL的规划就非常重要了。尤其是如上图所示,“待抓URL”的环境,爬虫在首页的时候,并不知道URL是什么样子。
优秀的URL的特点是主流的、简单的,竟可能不要去做一些非主流的样式,让人看起来很直观的URL,优秀URL示例:https://www.jilebinzang.com/hyxw/334.html
Feed流推荐:大多数做feed流的站点后台是有非常多的数据,用户不断的刷会有新的内容出现,但你刷新的次数再多,可能也只能刷到1%左右的内容,而爬虫相当于一个用户,爬虫不可能做到以这种方式将网站所有的内容都爬取到,所以就会导致一些页面爬虫不到,即使你有100万的内容,可能只能抓取到1-2万。
仅有搜索入口:如上图所示,首页只有一个搜索框,用户需要输入关键词,才能找到对应的内容,但爬虫不可能做到输入关键词然后再去爬取,所以爬虫只能爬取到首页后,就没有后链了,自然抓取和收录就会不理想。
解决方案:索引页下的内容按发布时间逆序排序的,这样做有一个好处,搜索引擎可以通过索引页即使的抓取到你网站最新的资源,另外新发布的资源要实时在索引页同步,很多纯静态的网页,内容更新了,但是首页(索引页)却没有出来,这样会导致搜索引擎通过索引页无法即使的抓取到最新的资源,第三个点是后链(最新文章)的URL需要直接在源码在露出,方便搜索引擎抓取,最后就是索引页不是越多越好,有少数优质的索引页就足够了,比如长城号,基本上只利用首页来做索引页。
最后这里和大家说一个更高效的解决方案,那就是直接通过百度站长资源平台去主动提交资源,这样搜索引擎可以绕过索引页直接抓取到最新资源,这里需要注意两个点。
Q:资源提交是不是越多越好?
A:收录效果的核心永远是内容质量,如果大量提交低质、泛滥资源会导致惩罚性打击。
Q:为什么提交了普通收录但没有抓?
A:资源提交只能加速资源发现,不能保证短时间内抓取,当然百度方面表示,算法在持续优化,让优质的内容更快得到抓取。
3、访问友好性:
抓取器要和网站进行交互,要保证网站的稳定的,抓取器才能够正常的爬取。那么访问友好性主要包括以下几个方面。
访问速度优化:加载时间建议控制在2S以内,那么无论是用户还是爬虫,对于打开速度更快的网站,都会更加青睐,其次是避免非必要的跳转,这种情况虽然是少部分,但依然有网站出现很多级的跳转,那么对于爬虫来讲,很有可能在多级跳转的同时就断开了。常见的有做了不带www的域名跳转到带WWW的域名上,然后带WWW的域名又要跳转到https上,最后更换新站,这种情况就出现了三四级的跳转。如果出现类似网站改版,建议直接全部跳转到新域名上。
规范http返回码:我们常见的301/302的正确使用,以及404的正确使用,主要是常规的问题,用常规的方式来解决,比如遇到无效资源,那么就使用404来做,不要用一些特殊的返回状态码了。
访问稳定性优化:首先尽可能选择国内大型的DNS服务,以保证站点的稳定性,对于域名的DNS,实际上阿里云还是比较稳定靠谱的,那么其次是谨慎使用技术手段封禁爬虫抓取,如果说有特定资源不希望在百度上展现,那么可以采用robots来屏蔽,比如说网站的后台链接,大多数都是通过robots屏蔽的。如果说抓取频次太高,导致服务器压力过大,影响用户正常访问,那么可以通过资源平台的工具降低抓取频率。其次是避免防火墙误封禁爬虫抓取,那么这里建议大家可以把搜索引擎的UA加入到白名单。最后一点是服务器的稳定性,特别是在短时间内提交大量优质资源,这个时候一定要关注服务器稳定性,因为当你提交大量资源后,爬虫会随之增加,这个时候会不会导致你服务器压力过大而打不开,这个问题是需要站长关注的。