搜索的核心应用在于场景。尽管今天的文本搜索已经达到了成熟的阶段,但对于消费者来说,词不达意的模糊搜索依然大量出现。对于搜索技术公司而言,用一张图来找同款的搜索方式便成了创业的机会。
作为图像搜索购物领域的佼佼者,淘淘搜CEO林建聪为其产品构建的应用场景如下:当用户在淘宝上搜到某款心仪服装,却希望找到更便宜的价格时,只需将该图片的网页地址输入到淘淘搜的搜索框,以图搜图,就能找到相同或相似款的产品,并同时兼有比价的效果。
淘淘搜的前身是一家外包软件公司。外包软件市场竞争门槛低,利润渐趋微薄,林建聪和他的合伙人萌生退意。2007年底,林建聪来到杭州,开始寻找新项目。
彼时,图像搜索正作为一个新兴概念进入中国。在淘淘搜之前,林建聪的公司已经在图像搜索领域沉淀多年,曾尝试过人脸漫画、虚拟整形和车牌识别等等。他们也曾帮助淘宝制作一款叫做试衣间的产品,用户只需输入自己的照片,便能体验虚拟的穿衣效果。这是一个非常酷的项目,一时间吸引了大量媒体聚焦,用户PV更是水涨船高。但令林建聪大跌眼镜的是,在极高的PV之下,转化率却始终无法提高。
“我们曾经犯过一个严重的错误,那就是把自己定位为一家技术驱动型的公司。”事后,林建聪这样反思。他希望将公司运营从技术驱动转为应用驱动。
调研之后,林建聪将目光转向了搜索领域:BAT这三家国内最大的互联网公司,百度做搜索,淘宝最大的入口也是搜索,而腾讯每年投入不菲的资金用于搜索。从互联网历史来看,搜索模式是最具成长能力的商业模式。由此,他得出结论:要做宽市场创新,搜索的盘子很大,创业机会很多。
在当年的淘宝上,文本搜索技术非常成熟,但即便如此,作为淘宝最大成交类目的服装服饰,仍然充斥着大量词不达意的模糊搜索。
“用户喜欢搜索2013、韩版、连衣裙、碎花、田园这些词,但实际到了商品词的描述时,绝大部分用户描述不清,淘宝搜索的第一屏全是密密麻麻的勾选,就是为了帮助用户精准描述。所以,如何让用户更快更好地找到搜索结果,是一个很好的课题。”
语言不能搞定的事情,必须靠图片去解决。相比于国内已相当成熟的文本搜索,林建聪试图利用图像搜索为自己构筑护城河。
视觉搜索比文本搜索难得多
然而,这是一个比文本搜索难得多的课题。
“首先要对图像进行特征提取,让机器知道图片里是个什么东西,同时还需要让机器接受大量的训练。”林建聪告诉《天下网商·经理人》记者。
这一训练背后的原理是虚拟网络神经元,通过模拟人的神经中枢,使得机器具有视觉能力。用专业术语来表述,便是机器视觉。
林建聪以一个比喻简洁地解释机器视觉:一张张图片在计算机的数据库中好比一串串DNA密码,每张图片都有其特定的序列,当搜索引擎输入一张新的图片时,后台便会进行一系列的DNA密码比对,特征重叠达到一定程度,相应的图片就会被认为是吻合的,并按照相似度给出排序。
为了给图片的特征编码,淘淘搜需要将一张张原始图片切割成非常小的像素点,而不同的切割方式决定了机器最终的识别效果。这一系列技术,涉及一门叫做“深度学习”的算法。
机器视觉是巨头涉足的领域,百度为深入研究“深度学习”算法,特地在苹果总部的所在地美国库比蒂诺市设立了IDL(InstituteofDeepLearning)研究院。研究的目的之一就是利用“深度学习”研究成果改善百度搜索引擎中的图像检索功能,抢占未来的图像搜索市场。
谷歌更是在短短几年时间内,陆续收购了七八家涉足图像识别的技术公司,并试图以产品谷歌眼镜抢占未来的入口。
图像搜索和识别的远景堪称宏伟。麻省理工学院的科学家五年前就已经研发出能根据人的面部表情变化做出相应反应的机器人Nexi,这为著名科幻电影《人工智能》里的机器小男孩在现实中的出现提供了可能。
然而,因为经历过失败,对过于极客范儿的畅想,林建聪始终保持着警惕。在巨头的缝隙中生存,他深知淘淘搜的不易,并为自己制定了一系列原则:做好打持久战的准备,深挖用户需求,形成先发优势。
从技术驱动转向应用驱动
跟所有搜索公司一样,林建聪首先要做的,便是为淘淘搜建立一个数据库:先导入大量网页图片,再将数据库中的图片过滤和合并,随后提取出所有图片的特征,形成索引和序列。当用户搜索一张图片时,淘淘搜会根据图像的特征从数据库里调取并排序。
然而,林建聪很快发现了作为一家应用驱动的技术型公司背后的困难:做图像搜索的应用,面对的是数以亿计的图片,想要让搜索更精确,必须有一些辅助手段。
与数据量级相对较小的人脸搜索相比,淘淘搜所涉及的服装服饰的搜索更为困难。以衬衣为例,其质量好坏与织物的密度有关,但密度的高低更多要靠手感,靠单纯的机器视觉无法识别。再比如,搜索引擎的数据库更新都有一定的时间延迟,往往会出现用户发送了搜索请求,淘淘搜搜索到图片,而用户点击链接到淘宝后,却发现该款商品已经下架的情况。
此外,跟所有图像搜索遭遇的问题类似,林建聪发现,商品的色彩、图案是最容易被优先识别的,其材质、版型的识别则显得较为困难。
对这一系列问题,淘淘搜的解决方案颇为务实。“除了图片搜索,我们还会借助文本来进行分析,做出二次过滤。例如,用户搜索的是一款雪地靴的图片,但如果他随后输入品牌UGG,搜索结果就能将不符合的图片过滤掉。”林建聪告诉《天下网商·经理人》记者,“十八般武艺全上,技术只是其中一种手段。”
除了提高分析的速度外,林建聪还希望通过提供尽可能多的相似款来解决用户难以找到相同款的问题。“用户搜索往往是冲着一件衣服的某一项或几项特征去的,比如T恤,用户看重的无非是领型和图案,而连衣裙是否收腰、是否包臀这类表现曲线的设计很重要,所以,我们按照类目,列出不同类目的特征元素,建模的时候建立权重配比,告诉机器哪一类的哪些权重更高一些。”
建模的背后是一套相似度权重的设计。
林建聪将这项调研分为理性和感性两方面,理性打分单纯考察搜索结果的款式、图案、色彩与输入图片的相似度,而感性打分只有0和1两项,单纯地考察商品的“神似度”。通过不断测试,一点点优化搜索结果。
十八般武艺都用上的结果是,淘淘搜的转化率相对其他搜索方式出奇地高。“我们平均每个类目的搜索转化率,都比单纯的文本搜索要高出30%左右。”林建聪说,“这证明了图片搜索比文本搜索更为便捷。”
因场景制作解决方案
自2012年底淘淘搜开始独立运营以来,除了一部分淘宝客和广告收入,目前仍处于投入阶段。而林建聪思考最多的,依然是如何满足用户需求,为不同的场景提供不同的解决方案这一问题。在此之前,淘淘搜PC端有官网和插件淘淘搜比价服务用户,但在移动端,产品无疑有更大的想象空间。于是,淘淘搜开发的App顺势上线,完成了“搜索引擎+网页插件+App”的布局。
在移动端,淘淘搜的App“帮我找”解决这样一类问题:当你在路上遇到有人穿着一件好看的衣服,却又不知道去哪里淘时,只需用手机拍下照片,打开“帮我找”输入图片,就可以搜索购买。这样的以图搜图场景无疑比网页版的比价功能具有更大的想象力,却也面临着更多复杂的情境。例如,手机的性能、图片的像素、拍摄对象的姿势和背景等,都会影响到最终的搜索结果。目前,林建聪仍在探索,如何在这一复杂情境下快速起跑,构筑起自己的图像识别护城河。
【版权声明】行行出状元平台欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源:;同时,我们倡导尊重与保护知识产权,如发现本站内容存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至service@hhczy.com,我们将及时沟通与处理。