客户案例
关于我们
联系我们
分享日记
开始你的专案
网站制作日记
网站建设
网站优化
当前位置:
网站首页
>
网站制作日记
>
网站优化
谈搜索引擎排序算法的基础原理
咱们向搜索引擎提交一个查询,搜索引擎会从先到后列出很多的成果,这些成果排序的规范是啥呢?这个看似简略的疑问,却是信息检索专家们研讨的中心难题之一。
为了阐明这个疑问,咱们来研讨一个比搜索引擎愈加古老的论题:求医。比方,假设我牙疼,应当去看如何的医师呢?假定我只要三种挑选:
A医师,既治眼病,又治胃病;
B医师,既治牙病,又治胃病,还治眼病;
C医师,专治牙病。
A医师必定不在思考之列。B医师和C医师之间,貌视更应当挑选C医师,由于他更专心,更适合我的病况。假设再加一个条件:B医师经历丰富,有二十年从医阅历,医术高超,而C医师只要五年从医经历,这个疑问就不那么简略判断了,是优先挑选愈加专心的C医师,仍是优先挑选医术愈加高超的B医师,确实成了一个需求细心权衡的疑问。
最少,咱们得到了一个定论,择医需求思考两个条件:医师的特长与病况的适配程度;医师的医术。咱们必定觉得这个定论天经地义,并且可以很自然地联想到,搜索引擎排序不也是这么吗,既要思考页面内容与用户查询的匹配程度,又要思考页面自身的质量。可是,如何把这两种要素结合起来,得到一个,而不是两个或多个排序规范呢?假设咱们把这两种要素表明成数值,终究的排序依据是把这两个数值加起来,仍是乘起来,或是按决策树的方法把它们组织起来?假设是加起来,是简略相加,仍是带权重加呢?
咱们可以依据直觉和经历,经过试错的方法,把这两个要素结合起来。但十分好的方法是咱们能找到一个清晰的依据,最好能跟数学这么坚实的学科联系起来。说起来,依据朴素的经历,人类在古代就能建造出楼房;但要建造出高达数百米的 摩天大厦,假设没有修建力学、材料力学这么坚实的学科作为后台,则是十分十分艰难的。同理,依据朴素的经历构建的搜索引擎算法,用来处理上万的页面集合应当是没疑问的;但要检索上亿的页面,则需求更为结实的理论基础。
求医,患者会优先挑选确诊精确、治疗作用好的医师;关于搜索引擎来说,通常按页面满意用户需求的概率从大到小排序。假设用q表明用户给出了一个特定的查询,用d表明一个特定的页面满意了用户的需求,那么排序的依据可以用一个条件概率来表明:
P(d|q)
这个简略的条件概率,将搜索引擎排序算法与概率论这门坚实的学科联系了起来,这就像在大海中航行的船舶装备了指南针相同。使用贝叶斯公式,这个条件概率可以表明为:
条件概率
可以清楚地看到,搜索引擎的排序规范,是由三个有些构成的:查询自身的特点P(q);页面自身的特点P(d);两者的匹配联系P(q|d)。关于同一次查询来说,一切页面对应的P(q)都是相同的,因而排序时可以不思考,即
公式
公式左面,是已知用户的查询,求页面满意该用户需求的概率。搜索引擎为了进步呼应用户查询的功能,需求事前对一切待查询的页面做预处理。预处理时,只知道页面,不知道用户查询,因而需求倒过来核算,即剖析每个页面能满意哪些需求,该页面分了多大份额来满意该需求,即得到公式右边的第一项P(q|d),这相当于上文介绍的医师的专门程度。比方,一个页面专门介绍牙病,另一个页面既介绍牙病又介绍胃病,那么关于"牙疼"这个查询来说,前一个页面的P(q|d)值就会更高一些。
公式右边的第二项P(d),是一个页面满意用户需求的概率,它反映了页面自身的好坏,与查询无关。假设要向一个陌生人引荐页面(咱们并不知道他需求啥),那么P(d)就相当于某个特定的页面被引荐的概率。在传统的信息检索模型中,这一个量不太被注重,如传统的向量空间模型、BM25模型,都企图只依据查询与文档的匹配联系来得到排序的权重。而实际上,这个与查询无关的量是十分重要的。假设咱们用页面被拜访的频次来估量它满意用户需求的概率,可以看出关于两个不一样的页面,这个量有着极端巨大的区别:有的页面天天只被拜访一两次,而有的页面天天被拜访不计其数次。可以供给如此巨大区别的量,竟长期被传统的搜索引擎疏忽,直到Google发明了pagerank并让它参加到排序中。Pagerank是对P(d)值的一个不错的估量,这个要素的参加使搜索引擎的作用立即上升到了一个新的台阶。
总结,这个公式同样回答了上文提出的疑问,页面与查询的匹配程度,和页面自身的好坏,这两个要素应当如何结合起来参加排序。这个公式以不行争辩反驳的理由通知咱们,假设页面与查询的匹配程度用P(q|d)来表明,页面自身的好坏用P(d)来表明,那么应当按它们的乘积来进行排序。在现代商业搜索引擎中,需求思考更多更细节的排序要素,这些要素可能有成百上千个,要把它们交融起来是愈加杂乱和艰难的疑问。
分享到:
点击次数:
【
打印此页
】 【
关闭
】
上一条:
Apache服务挂起Asynchronous AcceptEx failed.
下一条:
百度算法更新,第三方统计不准
Copyright © 灵雀网络建设 2011-2015 All Rights Reserved 苏ICP备15030722号-1
光纤激光切割机维修
苏州激光切割加工