语音搜索市场巨头布局争抢市场

发表于 2012-12-10 09:20:23

登录/注册后可看大图

类Siri产品介绍(腾讯科技配图)

腾讯科技雷建平 12月10日报道

语音搜索时代开始到来！用户正感受一个特别时代，国外Siri、Google Now大行其道。Siri将iPhone变成一个智能化机器人，利用Siri可通过手机读短信、了解餐厅、询问天气、语音设置闹钟。Google Now则通过智能化读取关键词后，为用户提供相关的语音服务。

国内Siri、Google Now遭遇重重困扰，却给众多企业布局移动互联网机会。中移动通过入股科大讯飞，并联手科大讯飞推出智能语音门户产品，正在构建自己的Siri梦想。遭遇移动互联网冲击的百度、搜狗们也在积极筹备，正通过语音助手类产品构建在PC端的优势。

今年在百度媒体开放日上，百度负责人透露，语音搜索作为移动搜索的重要搜索产品之一，百度将在年底推类似于语音助手产品。搜狗更是先声夺人，在今年11月底推出可应用于iOS与安卓系统平台的语音助手产品，宣布成为国内首家涉足移动智能语音助理服务领域的搜索厂商。

搜狗搜索事业部总经理茹立云对腾讯科技透露，搜狗早在今年3月份就对搜狗语音助手项目立项，到如今搜狗语音助手项目已成立了100人的团队，前后投入2千万元，目前已有100万的安装量，希望半年内搜狗语音助手有2000万以上的安装。

搜索厂商涉足语音搜索仅仅是时间问题

Siri 的横空出世引发一场语音热潮，建立在语音交互基础上的个人智能助理产品也代表着日后移动产品的发展趋势。早有业内专家指出，一款具备良好体验的的语音助理类工具首先需要强大语言理解能力，其次也需要长期结构化数据积累和索引技术的支持。

茹立云指出，搜索引擎厂商具备比Siri 能力更强主要是在3个方面：1，本身手机语音上的识别,和意图识别，搜素引擎都做了多年；2，搜索引擎有很多开放平台数据，比如天气预报、航班、美食数据都可以接入进来，问答数据也可以接入进来，Siri的问答数据则需要手动补充；3，大的搜索引擎厂商都有自己的知识图谱系统，能做精准化演算，Siri则有局限性。

实际上，与Siri相比，Google Now的一个先天优势在于与Google搜索功能的结合，用户搜索的关键词被记录下来，Google Now智能化读取关键词后，其提供的信息相关性更高，几乎是瞬间返回答案。有些问题能够直接给出答案，而Siri通常在用户提出问题后，要等几秒钟才会得到答案，甚至Siri需要在网上搜索后给出答案。因此，搜索厂商涉足语音搜索领域仅仅是时间问题。

谷歌(微博)在华的不作为给百度、搜狗机会，当前百度、搜狗正在这一领域构建在移动互联网领域的优势。相对来说，搜狗拥有自主研发的服务器集群及抓取技术，输入法有本土中文语言模型和基于云端技术的互联网词库，能提高中文分词及长句输入准确率，不过，与百度单独研发不同，尽管搜狗有语音搜素技术，并且已经在搜狗输入法上运营，不过选择的是与第三方合作。

据茹立云介绍，在搜狗语音助手立项之初，搜狗语音技术也刚刚处于立项阶段。搜狗曾对国内语音提供商进行评测和接触，对象包括百度讯飞、盛大语音、车音王、云之声和科大讯飞，最终云之声为合作伙伴。“云之声对我们支持到位，效果不错，未来双方还将深化合作。搜狗自身的语音技术也在逐步往前走。”

语音助手将会有很多扩展功能

据了解，语音搜索从诞生到现在，使用人群还相对精英化。此外，中国是一个人口众多的国家，不仅有众多的方言，还面临着不少人说话不标准的挑战，这些都是语音搜索面临的挑战。

茹立云指出，通过对用户语音搜索后的实际数据分析，语音搜索识别能力在85%以上，尤其是中国北方识别率明显比南方高很多，如果依然出现语音搜索错误，用户可通过手动修正。未来语音搜索正在大规模铺开时，可能会有差异，语音搜索则通过不同地域声波进行识别。一些大众化方言比如上海话、广东话，语音识别技术基本上能够像普通话一样解决掉。“当然，未来很多使用语音搜索的用户可能也不会手动输入，语音搜索的技术方面也得提高。”

茹立云认为，目前阶段正属于从互联网时代向移动互联网时候转移的时期，用户还没有形成语音搜索的使用习惯。完成这一转变可能还需要至少2年时间。

当然，语音搜索服务形态也会发生很多改变和扩展，比如语音助手里会有周边应用，甚至周边功能比地图做得更深入。以搜狗语音助手为例，其将支持号码百事通，里面有3000多万的内置的电话号码，比如搜海尔售后电话可以立马出来。搜狗也会推出SNS产品与搜狗语音助手想通。

对于当前的搜狗语音助手来说，最大任务是完成安装量。茹立云透露说，搜狗在和很多厂商接触，会在明年1月份公布一批战略合作的伙伴，并适当做一些预装。

“语音助手现在是手机很重要的一个卖点，很多厂商都会打出类似牌子吸引用户，运营商也会和一些软件进行合作，未来搜狗会做一个开放平台，厂商在浏览器或特定应用里可直接把我们后端技术接入进去，通过搜狗语音助手就能够做获得这种智能搜索和回答体验。”

当然，着力于语音操控的苹果，对于语音软件似乎不太友好。此前，科大讯飞曾透露，讯飞语点申请上架时间远超苹果AppStore7-10天的审核周期。国外一款类Siri产品Evi也遭遇尴尬，苹果称已有苹果产品或者广告主题外观相似混淆的应用程序将会被拒绝，Evi新版因此惨遭下架。

对此，茹立云也表示，目前还没看多国内一款类Siri产品成功上线，谷歌也是将Google Now变成Google语音搜索才上线。当前，搜狗语音助手以Android版本为主，iOS版也在做，搜狗正在跟苹果沟通怎样能够让搜狗语音助手上架。

以下是专访搜狗搜索事业部总经理茹立云实录：

腾讯科技：搜狗近日发布智能语音助理软件“搜狗语音助手”，涉足移动智能语音市场。能否透露一下当初为何要做这个项目？

茹立云：搜狗语音助手项目正式立项是在今年3月份，目前大概有100人的团队，我们人力上的开销，到现在为止差不多成本2000万。之所以做这个项目，在于我们一直探索移动互联网时代未来搜索形态是什么样。自siri发布后，我们觉得siri可能非常符合手机平台未来搜索的形态，因为siri能很好的把手机特性，及解决手机上使用搜索的各种不方便性解决。

当然siri在解决搜索问题方面还存在很多局限性，但我们认为这是未来一个方向，首先siri能解决手机上大家使用搜索的不方便。手机屏幕比较小、输入不便捷，通过语音方式能够很好的解决输入不便捷的问题，同时搜索结果或反馈的结果更精准，不像PC上面你要一个个去选择。

所以我们认为siri代表了未来移动上搜索的解决方案，但现在处于一个初期阶段，离真正成熟还有相当一段时间需要去努力。

腾讯科技：语音搜索作为移动搜索的重要搜索产品之一，百度也将在年底推类似语音助手的产品。能否介绍一下国外和国内的现状？

茹立云：去年iPhone 4S上推出siri应用，siri更好地利用手机功能，把语音交互变成手机上实用交互方式，而不像以前只能输入文字。第二个更多地把手机自身控制智能性通过语音方式满足。

在后续服务上，siri除手机控制，还可以跟它智能聊天，智能获取进一步结果，比如说本地生活服务，或更深层次的知识计算相关的东西。大家知道像Google的知识图谱，搜狗的知立方，在这之前Woldfram Alpha。苹果把Woldfram Alpha引入进来，在siri里面应用。

在这之后国内小的厂商在跟进，可能跟苹果的做法不一样，这些小的厂商首先它没有自主的语音识别技术，更多的是和科大讯飞合作，同时他们做的还是比较初期的事情，就是手机控制，但会要求这种语句形态或者语句的句式比较固定，语义理解上的能力并不是特别强。

再往下就是它服务能力有限，比如国外有这种开放的成熟知识计算引擎，国内还没有。直到现在搜狗推出知识语音助手引擎，百度会推出类似的引擎。

腾讯科技：您提到知识图谱，Google推的知识图谱和Google Now，和苹果siri区别在哪里？

茹立云：Google的知识图谱跟siri用的Wolfram Alpha引擎有比较大的差别，就是Google的知识图谱更多的是在比较热门的领域，知识之间关系的关联，比如说一个明星可以得到他所有演过的电影和唱过的歌间的关联。而Wolfram Alpha更多的是把这种知识的关系能够做更进一步复杂的计算。比如说它有中国GDP每年的数字，你问中国一年GDP的增长率，它就可以自动地计算出来，并且生成一个报表，所以这是知识图谱和siri方面的差异。

现在Google Now更多地把PC上的图谱接到Google Now的一套引擎里。从我的理解来讲，未来像知识图谱这种应用在建立关系的基础上，更重要的是能够做更进一步复杂的计算。它能够给你做很多的解决方案，不仅仅给你一堆原始的数据。

所以知识图谱是把原来比较复杂、比较混乱的数据通过机器挖掘给你组织好，变成比较清晰的关系的数据，进一步的计算我认为未来会产生更大价值。这也正是搜狗在做的非常重要的工作。

腾讯科技：百度在尝试类似的实物搜索，搜狗可能比百度做得更早，大家做实物搜索是为了语音搜索更顺畅展开？

茹立云：在PC上的确有比较大的实物搜索方面的需求，之前比较多的是通过问答方式来解决。但问答会受时间限制，比如说是时间性需求，就会受时间限制；地域性的需求，就会受到地域限制；还有它本身的逻辑性、推理性和延展性都比较差。

如果问答里面问的是一个问题，再稍微扩展一点它就解决不了。之前我们举过一个例子，梁启超太太的儿子的情人可能问答里有，但问梁启超太太的儿子的情人的爸爸是谁？那问答里面没有，它就解决不了。通过更近一步的知识图谱或者是知立方或者是知识关系，首先能够把这些知识关系计算在一起，同时它能够在这后面做很多推理的事情。在关系上计算，如果你多么复杂，我都能帮你推理出来。在PC上它就能够弥补原来数据上的不足。

进一步到移动互联网，因为手机界面本身更小，对搜索的结果或回答的结果要求性更高，那么你通过知识图谱这种方式就能够更好地给你提供精准的答案，并且能够把整个推理过程都告诉你。就是更适合移动时代搜索的需求。

腾讯科技：无论是Google知识图谱还是国内的实物搜索，普遍面临的问题是国内各种词句非常丰富，既有深度又有广度，怎么平衡这些问题，为语音搜索来服务呢？

茹立云：本身数据的构建是个逐步过程，无论是Google还是搜狗，还是百度现在覆盖的类别都有限，大家主要是在做人物类、地理位置信息相关，还有动植物，或者是作家相关的东西，但是未来这个会越来越多，因为本身的信息就互联网上，我怎么把它挖掘出来。所以第一个是数据的规模尽可能地覆盖用户可能覆盖的领域。

第二个是我有了这些基础数据后，怎么样能从用户查询和数据能够匹配上，并且能够让这些数据进行相关推理和演算，其实主要是这几个方面。第一个是自然语言处理技术和积累。比如古汉语、现代汉语博大精深，悲剧和杯具是同音词，我怎么把它挖掘出来形成同意关系，我能够在词的基础上建立一种网络，能够把相同上下义衍生出来，这是一个自然语言处理上的基本功。

在这个基础上可能需要做到查询意图的理解，我怎么把一个自然语言查询转化成后面我的知识库可以推理的查询。它可能是一对一，也可能是一对多的计算，这个需要做很多的基础的工作和深入的研究。本身这方面已经有了比较多的尝试了，像原来的开放平台，或者百度称为的框

计算，在做的就是这方面的工作。怎么样把一个自然语言处理得可以进行知识库演算的东西。

第三块在原有知识库上，本身推理方式的计算，其实是整个系统里面最难的，也是现在人工智能这个领域还没有完全解决的，需要做很多的工作。

腾讯科技：搜索引擎有天然因素去做移动语音搜索。但在移动互联网时代，移动搜索排名也仅仅是在前十位置，位置还次于地图应用，那么语音搜索到底会给移动搜索带来什么样的改变？

茹立云：搜索应用在手机上可能没有PC那么重要，这本身跟移动的特性相关。首先手机输入很不方便。在这之后本身移动上会有大量的APP存在，这可能会跟PC上不太一样，我找这些APP会对比我在PC上找这种对应的网站或者应用。

有了语音之后，可能我找APP就不用一页页地翻，可能一呼东西就找到了。这是一个搜索过程。通过语音助手就能够做这样的事情。现在搜狗语音助手都支持这方面的功能，的确很多人会用。

第二块本身在手机上，因为我要通过浏览器去搜索，我打开浏览器比较费劲。浏览器打开以后，再找到搜索框又有时间成本，搜索框里面再输入是个有成本的东西，我再查找我要的结果都是有成本的东西。通过这么一种语音搜索的方式，我只要一拿出来，一说话，这个结果马上就呈现给你，并且这个结果是通过复杂的计算给你的，不是像PC上的搜索引擎，是你筛选的这么一个过程，就是你后续的成本会大幅度降低，它未来就能够提升用户这么一个使用的频度和方便性。现在有数据显示，在PC搜索上用户每天的搜索是7次，在移动搜索上，通过语音助手，包括它的搜索，打开APP做一些听音乐的行为，每天可以达到15到20次。

腾讯科技：有一个问题，中国有很多的方言，此外，好多人说普通话都说得不标准，比如说我以前用语音搜索，但我的话如果不标准，可能敲出来的字就不是我想要的，怎么解决语音搜索中面临的这样的问题？我觉得这是很典型的问题。

茹立云：这是语音识别需要解决的问题，但是我们比较高兴地看到，比如现在一些大众化的方言，比如说上海话、广东话，语音识别技术已经基本上能够像普通话一样地把它解决掉。同时在语音搜索里，像现在我们搜狗做了交互上的创新，siri仅仅能够根据语音来搜索，搜狗的话，如果你觉得这个语音是错的，还可以进一步变成文字输入。可能10次里9次语音是对的，另外一次是错的，那错的那一次还可以用文本修正。这样你这种输入的成本还是大幅度降低。

腾讯科技：好多人其实不想输入，但是他说的话又不太标准，但又是普通话，肯定会遇到这种情况，怎么去通过语音模糊处理，让用户可以更好地达到他想输入的效果？

茹立云：我们对用户语音搜索后的实际数据进行分析，发现语音识别能力在85%以上，10次里面可能有1次是错的，这一次我们也提供交互方式，可以手动地做这种修正，所以整体来进提升还是很大。所以这个数据包括了所有中国各个地域的人群，的确会发现北方的识别率明显高很多，南方会差一些，但也是在80%以上。

相对而言，用语音搜索引擎的人文化水平比较高，未来更大规模铺开时，可能会有这种差异，但语音识别里很重要的一块，本身就是完备性，只要这个地域的口音的人能够上来的话，这个口音都不是问题。本身声音就是一个声波，不同的地域声波不一样，我还是能够识别出来。

腾讯科技：国内像科大讯飞做语音很长时间了，但感觉这一块国内好像不是特别成熟，至少用的人不是太多，语音搜索这块国内面临的最大挑战是什么？

茹立云：语音技术还需要进一步提升，可能真正使用过程中有些人觉得还是不可以接受的，因为使用的人可能打字都不会打。第二个本身习惯养成，毕竟大家原来是从传统互联网过来，现在往移动互联网在做偏移。怎么让大家形成这么一个习惯：我在手机上用语音做搜索是很方便，这是一个过程的迁移，一个习惯的养成。

美国的情境比国内好很多，还是本身发展阶段与行为养成阶段，等大家真正体会到它的好处，自然能把问题解决掉，但需要时间，比如需要两年时间从语音技术成熟到用户行为的转变。

腾讯科技：从技术角度来看，语音助手产品在开发过程中难点在哪些方面？

茹立云：这个产品分成这么几个功能块来讲，第一块是语音识别，不像输入法，首选90%都是搜狗输入法。语音识别现在正确率只有80%多，并且用语音交互不像之前用输入法，我二选就可以做交互那么方便。语音识别是第一道门槛，这个门槛迈不过去，主要的属性就没有了。

语音助手第二个属性就是智能，智能体现在几个方面。第一块是你对语音意图的识别，一句话进来之后，它的意图到底是什么？这是非常难的地方。这跟搜索引擎不一样，搜索引擎之前很多处理相对来讲是短的查询，而这边会是一个完整的句式。

它需要搜索引擎对自然语言处理的积累以及用户查询意图识别积累。像搜狗做输入法，因为它这种长句的积累比较多，意图理解的能力比较强。第三就是意图之后给它出的结果的精准性的匹配和选择，它会依赖于本身的搜索技术以及大量的数据处理技术，这不是一个搜索引擎厂商能够玩得动的，它包括基础搜索的数据，因为用户会有很多听小说、看图片的需求。

第二块你需要大量智能的问答数据，就是问答上这种精准的匹配和抽取的技术。问答的信息很广泛。能够通过这种技术，使得一方面在闲聊的时候，觉得它也是很智能。另一方面在真实的问答需求上，也能很好地匹配它的需求。

第三块是如果它的这个需求是面向领域的，你就提供一些领域的精准化的数据。之前开发平台或者是框计算这套体系都是解决这个问题。

第四块就是我们称为知立方或者是知识计算的体系，它能够处理更复杂的问题。现在开放平台框计算，查询后面的答案是固定的，而刚才说的知识计算，它能够根据你的知识库自主地做很多复杂的计算。简单来说，刘德华哪年到70岁了，它就能告诉你哪年，这个在原来的问答或者是框计算里面都是解决不了的。

另外一块像之前说了谁的老婆的什么什么，这种关系都能够很好地推理。或者中国历年GDP的增长，我的知识库里面有每年GDP的数据，我都可以演算出来。甚至中国历史上在位时间最长的皇帝是谁，都可以通过整个数据库的计算来告诉你谁是。

腾讯科技：刚才说了几个方面，一个是语音的识别，一个是意图的识别，一个是技术的精准性包括这种问答，搜狗在哪方面投入的研发力量最多，最大的难点是怎么解决的？

茹立云：现在我们会投入在不同阶段。在我们开发或者发布这个产品前，我们比较多的经历都投入在意图的识别上，就是怎么样判断这个查询，它可能后面的意图会是什么。

腾讯科技：语音助手这套技术都是搜狗自己做的吗？如果不是为什么不把团队直接收过来？

茹立云：现阶段除了语音都是自己的。你们如果观察细致，就是搜狗输入法上面语音识别技术已经是搜狗自主的技术了。给我们提供语音服务的是一家叫云之声的创业企业。我们对国内语音的提供商做过大规模评测，包括百度、讯飞还有盛大语音，还有捷通，车音王，所有国内这种语音的提供厂商，我们都进行过接触和测试。云之声目前跟讯飞差不多的。

腾讯科技：您提到做语音助手前对国内市场进行调研，能不能谈一谈各家的特点？

茹立云：语音助手产品角度，我们调研比较多的是siri和Google Now两个产品，我们会对这两个产品做一个未来趋势上的研判，哪个更像未来移动上的搜索。我们最终觉得siri这种方式会是更接近未来移动搜索的形态，但siri本身在技术能力上有比较大的欠缺，因为它不是语音厂商，我们可以在这个技术上做更多进一步的工作。所以我们发布了类似siri的产品，而不是Google Now，或是两个同时发布。

第二块是本身语音技术上，可以看到讯飞的通用语音识别上具有领先优势，但其他厂家也会有他们的优势，比如像云之声的能力和讯飞差不多，但它可以针对我们做很多特定的优化，这个优化包括：第一个就是面向领域的优化，因为本身会有很多领域上的识别。

面向领域优化，就能够使得这个领域里面的识别更加精准。比如说一个查询，如果不说它是哪个领域的，它可能识别并不好，但是一旦你说是一个地图领域的，它的识别就可以更精准。这是第一个。第二个它可以专门为你提供面向本地的语音识别的技术，如果你是手机的操作，本地的信息就会非常重要。所以说你的通讯录里面的识别，比如输入一个名字，可能不同人的难度是不一样的。如果面向你的本地做语音识别，就可以达到更好的识别的效果。

所以它作为一家语音技术提供商，会更好地和你的产品结合，做语音识别上的优化。其他几家厂商各有特性。比如说车音网，在车载上的语音识别技术比较好，它在汽车行驶过程中，对噪音的处理都会非常不错。

腾讯科技：具体在语音助手这个领域，现在市场是什么样的状况？

茹立云：国内现在推出的有几块，可能最早的我记得是智能360，还是虫洞，有两家小的创业公司。在这之后是讯飞推出了它的“讯飞雨点”，这之后就是搜狗语音助手，接下来就是之前放出风声的百度的语音助手。我们可以看到每家都会有它明显的不足，但是讯飞语音识别技术的确很牛，但是它的语义和后台的服务上都比较欠缺，因为它缺少搜索引擎相关技术的积累。

而像前面两家创业公司，本身因为他们语音技术据我了解用的都是讯飞的，后续的意图上和后台的服务上更没有什么优势，可能和科大讯飞是一样的，缺乏这种意图上的积累。搜狗现在语音技术还不是自己的，但是搜狗已经有自主的语音技术，在输入法上已经使用了。

但是我们后面搜索引擎这一块相关的处理上面有非常强大的能力。百度在语音处理上，现在也有跑在搜索上的语音的技术，同时也会有搜索上的技术的积累，但是搜索上的语音的技术，那个更多的是短词的，跟这种长句的语音识别差距是蛮大的，所以它也得经受一个考验。因为它本身可能没有这种长句的积累。

腾讯科技：苹果是很封闭系统，搜狗语音助手如果在苹果平台推出，是否会缺乏推广优势？

茹立云：我们的iOS版不是完全版，不如安卓上成熟。本身苹果是一个封闭平台，第一步也面临着能不能上架的问题。我们现在看到国内这些语音助手的产品，还没有一家上架。从国际范围来讲，会有一些上架的，都是很小的厂商，Google Now也是做了这种改变之后，变成Google语音搜索，上到了iOS系统上。其实它很封闭，怎么样上架是其中的一个问题。

上架之后，因为它有内置的优势，对于这个产品，本身对搜索引擎的理解，搜索引擎的能力以及本地化方面都存在着严重的不足，如果做对比的话，其实它的意图识别和后续的服务上都存在着严重的不足。相对而言，苹果的用户还是比较高端的，一个好的产品，口碑有了，我在上面自然而然就会传播开的。安卓是我们的主打，同时我们iOS这个版本也在做。

腾讯科技：您预计语音在移动搜索里将扮演什么样的角色？

茹立云：我觉得语音就是未来移动搜索里交互的转变过程，原来是输入，现在变成语音了，并且它这种呼出和搜索能力的增强，不仅仅是对互联网的搜索，同时是对本地内容的搜索和控制，这是一个很重要的转变，更多的是交互和便捷上。

其实移动搜索还有很重要的东西，就是搜索结果精准性，它是跟PC不一样。PC的屏幕很大，你可以慢慢选。但是在移动上你的精准性会跟本身这个问题和你所处的环境相关。

比如你的地理位置信息都可以获取到。我觉得结果更精准也是非常重要的点。其实它是两个方面。语音相当我原来PC上的打字的输入法变成可以说话，但是用户更进一步的需求还是你在搜索上怎么更精准，在很小的屏幕上拿到我想要的信息。

腾讯科技：现在的下载量有多少？未来搜狗对语音助手有预期吗？

茹立云：搜狗语音助手从发布到现在下载量破100万。半年内希望能有2000万以上的安装。我们现在也会和很多厂商接触，可能1月份会公布一批战略合作的伙伴。