从技术层面分析百度如何识别打击快排

本人2011年入坑开始编程至今,主攻各种http/tcp协议小软件。站在一个不专业的程序员角度,从技术层面分析百度搜索排名的原理以及针对快排的识别,以下所有言论仅代表个人观点

———————————–前言—————————————
所有的搜索引擎算法,都是由机器运行的各种判断逻辑代码。

及:
设置一个或多个判断条件,满足该条件,则按方案1执行,不满足该条件,执行方案2、方案3….
每个方案里面,又会有各种判断条件,衍生出各种不同方案,导致不同结果

如果不认可,建议关闭此页面以免耽误您的宝贵时间

———————————–正题—————————————

一、排名因素

1.硬件维度:域名(含BA、建站历史等)、服务器等

2.软件维度:建站程序,页面大小(压缩),HTTP/HTTPS传输等

3.灵魂维度:内容内容内容….

4.可控维度:用户体验(点击、点击率、人群画像)

二、排名算法工作原理

硬件维度和软件维度,不在我考虑范围内,建站程序五花八门,人各有命

我们只谈灵魂维度和可控维度。

首先,灵魂维度,关于网站的内容,百度通过蜘蛛抓取页面内容后,经过NLP等智能算法,判断内容在其数据库重复度、判断内容可读性、判断内容属性等。这里我们可以借鉴一下百度NLP技术文档的说明。这些都是百度现在具有的内容识别能力(下图,应该还有隐藏没有公开的识别能力)。
从技术层面分析百度如何识别打击快排

其次,可控维度,用户体验,是什么呢?
简单来说,就是一个页面,一个url在搜索结果里面,受用户欢迎的程度(点击率)、被用户认可的程度(跳出率)。
就这些而言,那些五花八门的快排都已经做到位了。那为什么你的排名上不去??

这里就到我今天分析的重头戏了,用户人群画像

大多数的快排,其实就是通过搜索点击,达到伪装用户体验的过程。每次搜索点击之后,清理缓存历史记录。你是不是觉得这个点击特别干净呢?

百度应该也这么觉得,一个网站,被点击的次数,有绝大部分都是没有任何历史记录的“纯白”用户点击。只要把控这一点,就可以干掉99%的快排。

试想一下,我们正常使用百度的时候,会去刻意清理缓存吗?甚至很多使用者,都是登录了百度账号在使用搜索的。

从技术层面分析百度如何识别打击快排

上图是我清理缓存之后,再次访问百度的数据,可以看到,百度COOKIE返回了BD_LAST_QID这个字段,LAST,是上一次/最后的意思,。
值得一提的是,在我清理缓存之后,访问百度,理论上COOKIE字段应该是空白的,但事实上却莫名其妙的带着BIDUPSID这个字段请求了。如下图

从技术层面分析百度如何识别打击快排

这是否意味着,你的每一次请求,百度都有迹可循呢?

另外,指纹参数运算后的加密字段,以往是每一次跳转页面,重新计算一次,每次的值都不同,此次更新之后,仅仅在第一次访问百度的时候计算。后续无论跳转任何页面,这个值都不变。是否侧面证明了,以往只需要解决指纹就可以上排名,在这次更新过后,指纹不再重要了?

另外,百度蜘蛛是影响排名的因素之一,快排如果不来蜘蛛,一定是没有用的
蜘蛛就是爬虫,它过来抓取你的内容,提交到后台,经过算法判断你是否值得收录。
已经收录的页面,它过来抓取你的内容,提交到后台,经过算法判断你排名是升是降还是拔毛。。。
—————————————————————–
最后用通俗的语言,给大家解释一下用户历史画像,接触过某宝s单的朋友应该知道,s单的时候,人家要求你用信誉高的号,用购买记录干净的号。。
那百度怎么做到“信誉高”又“干净”呢?
千万不要以为使用百度账号cookie就可以解决历史画像,那只是一小部分。。核心内容不便透露。。

转发:不是什么正经Boy

版权声明:本站部分文章来源或改编自互联网及其他公众平台,主要目的在于分享信息,版权归原作者所有,内容仅供读者参考,如本站内容侵犯了您的权益请联系我们,邮箱:1511977125@qq.com 我们核实后会及时处理,发布内容不代表痴痴资讯网立场,本文标题:从技术层面分析百度如何识别打击快排本文链接:https://www.chichizixun.com/1918.html