您好,欢迎来到行行出状元 登录 免费注册

淘宝SEO解析 2015淘宝搜索算法

来源:http://info.hhczy.com 编辑:UKI 2015-04-24 | 标签: SEO 淘宝网 搜索规则 |
浏览:3429

淘宝搜索排序的目的是帮助用户快速的找到需要的商品。从技术上来说,就是在用户输入关键词匹配到的商品中,把最符合用户需求的商品排到第一位,其它的依次排在后续相应的位置。为了更好的实现这个目标,算法排序系统基本按三个方面来推进:

一.算法模型

当用户输入关键词进行搜索的时候,系统依据算法模型来给匹配到的每个商品进行实时的计算,并按照分数的大小对商品进行排序。

对于好的算法模型,首先需要考虑我们能够有哪些特征因子可以应用。比如在网页搜索中,算法模型基本就是按网页的重要性和相关性给网页计算一个分数,然后进行排序。这里的相关性,和重要性就是网页排序模型中两个重要的因子。具体来说相关性因子是指搜索关键字在文档中出现的度数,当这个度数越高时,则认为该文档的相关程度越高。重要度因子比如Google的Pagerank,可以理解为一个网页入口超级链接的数目:一个网页被其他网页引用得越多,则该网页就越有价值。特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。

考虑淘宝搜索的时候,有些特征因子是很容易能想到的,比如

A.文本的相关性:关键词和商品的匹配,匹配的程度,是否重要词的匹配,匹配词之间的距离等,都可能影响相关性。比如搜索“小鸭子洗衣机”的时候,一个商品的中心词是洗衣机的要比卖洗衣机配件商品的相关性高,小鸭子连在一起的相关性要比“小”和“鸭子”分开时候的相关性高等。文本相关性最基本的计算方式可以参考BM25等。

B.类目热点:淘宝数据的一个重要特质是每个商品都挂靠在类目属性体系下面,每个商品都做了一个很好的分类。在搜索过程中,同一搜索词的大量用户行为数据很容易聚焦到相应的热点类目,比如“手机”的搜索行为会集中到手机类目,而不是配件类目。

C.图片质量:图片是电子商务网站非常重要的一个数据,图片是否精美吸引人,图片上是否有各种各样的“牛皮癣”,和商品匹配度等都很大程度上影响着用户的点击和购买决策。

D.商品质量:每个商品都有不同的质量,商品的描述真实性,是否物美价廉,受人欢迎的程度等。

E.作弊因子:类似于全网搜索有关键词堆砌,linkspam,网页重复等等作弊的问题,电子商务搜索也面临同样的问题,比如商品关键词堆砌,重复铺货,重复开店,广告商品引流等等,也有商品特有的问题如价格作弊,交易作弊等,需要利用统计分析或者机器学习来做异常行为,异常规律的发现和识别并运用到排序中。

F.公平因子:淘宝的商品很丰富,每个搜索词下都有足够多的商品在竞争,需要在相似质量的情况下让更多的商品和卖家有展示的机会,而不是像网页搜索一样是一个基本静态的排序,照成商品点击和展示的马太效应。

类似的商品,卖家,买家,搜索词等方面的特征因子有很多,一个排序模型就是把各种各样不同的特征因子组合起来,给出一个最终的关键词到商品的相关性分数。只用其中的一到两个特征因子,已经可以对商品做一些最基本的排序。如果有更多的特征参与到排序,我们就可能得到一个更好的排序算法。组合的方法可以有简单的人工配置到复杂的类似LearningtoRank等的学习模型。

那么如何衡量不同算法之间的优劣呢?

二.线下评估

算法模型的评估一般分为线下的评估和线上的评估,线下的评估很多都体现在搜索中常用的相关性(Relevance)指标。相关性的定义可以分为狭义相关性和广义相关性两方面,狭义相关性一般指检索结果和用户查询的相关程度。而从广义的层面,相关性可以理解为用户查询的综合满意度。当用户在搜索框输入关键词,到需求获得满足,这之间经历的过程越顺畅,越便捷,搜索相关性就越好。

在淘宝搜索衡量狭义相关性的时候,一般是使用PI(PerItem)测试的方法:

A.抽取具有代表性的查询关键词,组成一个规模适当的关键词集合

B.针对这个关键词集合,从模型的产出结果中查询对应的结果,进行人工标注(人工判断为相关性好,中,差等).对人工评测的结果数据,使用预定义好的评价计算公式比如DCG等,用数值化的方法来评价算法模型的结果和标注的理想结果的接近程度

利用人工标注数据来计算相关性的分数,来判断模型的好坏;在这个过程中人工不可避免的会有主观的判断,但综合了多人的判断结果还是可以获得一个有统计意义的结果,另一方面标注数据也可以帮助我们找到一个算法表现不理想的地方,有针对性的提升。

广义的相关性线下评测比较困难,受人工主观因素的影响更大,一般使用SBS(SidebySide)的评测方法,针对一个关键词,把两个不同算法模型产出的结果同时展示在屏幕上,每次新模型和对比模型展示的位置关系都是随即的,人工判断的时候不知道哪一边的数据是新模型的结果,人工判断那一边的搜索结果好,以最终的统计结果综合来衡量新模型和老模型的搜索表现。

线下评测的方法和指标有很多,不同的搜索引擎会关注不同的指标,比如以前Yahoo的全网搜索引擎比较关注RCFP(Relevance,Coverage,Freshness,Perspective)等,淘宝搜索线下评测时候一般统计DCG和SBS的指标。

线下的评测方法从统计上有一定的指导意义,能从一定程度上区分模型的好坏,但要真正验证算法模型的好坏,还需要接受真实的流量来验证。

三.线上测试

为了真实验证一个算法模型的好坏,需要有一个系统能提供真实的流量来检验。淘宝搜索实现的BTS(BucketTestingsystem)系统就是这样的一个环境,在用户搜索时,由搜索系统根据一定的策略来自动决定用户的分组号(Bucketid),保证自动抽取导入不同分组的流量具有可对比性,然后让不同分组的用户看到的不同算法模型提供的结果。用户在不同模型下的行为将被记录下来,这些行为数据通过数据分析形成一系列指标,而通过这些指标的比较,最后就形成了不同模型之间孰优孰劣的结论。只要分组的流量达到一定的程度,数据指标从统计意义上就具有可比性。

不同的BTS系统会关注不同的数据指标,在淘宝搜索,有一些重要的指标是很多算法模型测试的时候关注的:

访问UV成交转化率:来淘宝搜索的UV,最终通过搜索结果成交的用户占比。

IPV-UV转化率:来淘宝搜索的UV,有多少比例的用户点击了搜索结果

CTR:搜索产生的点击占搜索产生的PV的比例

客单价:每个成交用户在淘宝搜索上产生成交的平均价格

基尼系数:基尼系数是一个经济学名词,考量社会财富的集中度;如果社会财富集中到很少一部分富人手中的时候,基尼系数就会增大,社会的稳定性和可持续发展性就会出现问题;淘宝搜索借用了这个概念来衡量搜索带给卖家的PV展示,和点击的集中度,在保证用户体验的前提下,给更多的优质或小小而美的卖家展示的机会。

大部分时候我们都有好几个模型和功能在线上测试,我们用BTS的方式来观察测试的情况,如果提升稳定就逐渐开放给所有用户,如果没有提升,我们也能从中获得经验帮助我们更好的理解用户。(文/一剑西来天外飞仙)



【版权声明】行行出状元平台欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源:;同时,我们倡导尊重与保护知识产权,如发现本站内容存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至service@hhczy.com,我们将及时沟通与处理。

热门文章

  • 1688运营解答贴:店铺不够50个宝贝有影响吗?店铺权重怎么查看?
    1688运营解答贴:店铺不够50个宝贝有影响吗?店铺权重怎么查看?

    1688运营解答贴:店铺不够50个宝贝有影响吗?店铺权重怎么查看?

    经常有用户在社群中询问“问产品是优化到七星好,还是主图带营销文案比较好?”、“产品突然被大批量下架是什么原因?”……大泽收集了一些常见问题,希望能给商友一些启发~

  • 1688生意参谋市场洞察在哪里看?如何查找蓝海关键词?
    1688生意参谋市场洞察在哪里看?如何查找蓝海关键词?

    1688生意参谋市场洞察在哪里看?如何查找蓝海关键词?

    1688生意参谋市场洞察在哪里查看?很多1688卖家不知道市场洞察在哪里查看。订购付费版生意参谋后,进入生意参谋后台,如图所示点击“市场竞争”就可以看到市场洞察的各项数据了。

  • 超级物种将关闭除福州外的所有店铺?永辉超市回应了
    超级物种将关闭除福州外的所有店铺?永辉超市回应了

    超级物种将关闭除福州外的所有店铺?永辉超市回应了

    2月26日消息,日前,有消息称,超级物种将关闭全国除福州外的所有店铺,具体关闭时间暂未确定。对此,永辉超市官方否认了这一消息,并回应称,超级物种的部分闭店属于正常的业态调整。

  • 苏宁易购股权即将变更,股票已停牌
    苏宁易购股权即将变更,股票已停牌

    苏宁易购股权即将变更,股票已停牌

    2月26日消息,日前,苏宁易购发布公告称,公司实际控制人、 控股股东张近东以及股东苏宁电器集团有限公司拟筹划转让股份,预计转让比例20%-25%,可能涉及公司控制权变化。苏宁易购股票自2月25日起停牌,预计停牌时间不超过5个交易日。

  • 数字人民币再试点,成都将发放4000万元红包
    数字人民币再试点,成都将发放4000万元红包

    数字人民币再试点,成都将发放4000万元红包

    2月24日消息,日前,成都发布微信公众号消息,成都“数字人民币 红包迎新春”活动将于2021年2月24日正式开启。此次活动向在蓉个人发放总额4000万元的数字人民币消费红包,红包数量约20万个,中签个人可获得178元或238元金额红包。

  • 小米要造车?已拥有多项相关专利
    小米要造车?已拥有多项相关专利

    小米要造车?已拥有多项相关专利

    2月21日消息,近期,有媒体透露,已从多个渠道获悉小米确认要造车,并视其为战略级决策,公司创始人雷军或将亲自带队。

  • 苹果被曝开启6G研发:正在招聘工程师
    苹果被曝开启6G研发:正在招聘工程师

    苹果被曝开启6G研发:正在招聘工程师

    2月21日消息,据彭博社相关消息透露,苹果公司在最近发布了一则招聘广告,旨在为下一代移动网络招募无线系统研发工程师,即6G网络。据悉,此次苹果要招募岗位的工作地点位于硅谷和圣地亚哥。

人物观点

更多 >
  • 卢捷:创新创业要考虑自身造血赚钱
    卢捷:创新创业要考虑自身造血赚钱

    卢捷,厦门创客猫网络科技有限公司创始人,热衷创新创业,是一位名副其实的有为创业青年,主要从事互联网相关行业,自双创热潮出现后,投身于为互联网活动、创新创业活动的主办方做线下活动的图文直播、现场采访、媒体报道等这样的一个现场媒体服务。

  • 林超:平行进口车为汽车市场添活力
    林超:平行进口车为汽车市场添活力

    恒基瑞驰科技创始人,美国天马迅达快递副董事长。2007年赴美留学,进修工商管理硕士。2010年5月创立了美国迅达快递,致力于为海外华人和国内海淘用户提供优质的物流服务。2014年5月份联合创立了美国天马迅达快递。在全美30多个州开设了100多家加盟店,服务于全美华人,电商以及海淘客户。2016年开始投资创立“恒基瑞驰供应链管理平台”,全面服务于平行进口车的各个贸易商与经销商。

人物最强打工人:苹果CEO库克获8亿年终奖!
人物马斯克资产缩水近千亿,不再是全球最富有的人
人物福布斯公布中国杰出商界女性榜:董明珠第五
人物罗永浩回应坚果手机被放弃:嗯,好事
人物马云近3个月来首露面,阿里股价强势反弹!

推荐专题

更多 >

合作协会

  • 福建电子商务协会
  • 德化县电子商务协会