Google的新脑,改变关于搜索的一切

分类:
标签:,
分享到:

翻译真的是一件很恐怖的事情啊,对语文能力也是很大的考验……文章还差最后一部分没翻,还是先发出来吧。
第一部分的译文来自houshunwei,在此表示感谢,链接在文末。

=======================幸好没学翻译分割线======================

在1983年发行的科幻喜剧电影《男子与两个大脑》中,史蒂夫·马丁扮演的迈克尔-Hfuhruhurr,娶了他的一个病人为妻,后来却爱上了另一个女人安妮的大脑。迈克尔和安妮保持着心灵上的沟通,直到迈克尔的结发妻子被谋杀,才得以把安妮的大脑移植到妻子的体内。

虽然谷歌天天见,但你可能没有注意到她也正在进行脑移植。而且,跟Hfuhruhurr医生一样,你会更加喜欢新的版本。

一般来说,谷歌以前是统计专家的化身。除了按关键字索引数千亿网页之外,它新增了一些微妙的功能,如用户的查询中的人名识别、 短语解析,纠正错词等。但这都是以谷歌庞大搜索日志为依托的数学计算。这些日志记录了人们输入的查询词和点击的网页链接。这些并没有发掘更加底层的信息,比如谷歌的算法不知道"旧金山"是一个城市而"旧金山巨人队"是一个棒球队。

现如今,这种情况正在发生改变。当在谷歌中输入搜索词时,谷歌会启动两个独立并行的搜索系统,一个跑在基于关键字的传统网页索引上,返回按照相关性排序后的结果,即所谓的"十个蓝色链接"。而另一个则运行在一个新的数据库上,这个数据库存储了命名实体及其关系。

查询“费城”时,第二个搜索系统会在结果页的右边显示“知识面板”,里面有一个地图还有其他包括创建人威廉 · 佩恩在内的一些基本信息(与此同时,谷歌还显示了汤姆 · 汉克斯在1993年出演的电影《费城》的电影海报)。根据谷歌的说明,新的数据库使得搜索引擎从之前的对关键字串的搜索变成了对“物”的搜索。

这个第二大脑被称为知识图谱。英语国家的人在五月份就用上了这种给力的搜索服务而且从上周开始,这项服务推广到了七种其他语言的国家。而知识面板背后的故事则要追溯到 2010 年年中,当时谷歌收购了一家旧金山的名叫Metaweb Technologies创业公司并且决定使用这家公司的大规模语义数据库---FreeBase。这个数据库按照人类理解世界的方式来为项目组织数据。

谷歌的数据库是通过文档之间的关联而建立的粗糙结果的集合。相反,Metaweb 的成果是经过核实的事物及其关系,是一部拥有超过5亿7000万的事物和35亿的关系的人类百科全书。(费城是一个城市,城市是州的一部分,而州又是国家的一部分; 它有多少的人口,还有典型的天气,等等)

虽然知识面板是知识图谱的最常见的样式,新的信息帮助合理安排几乎一切谷歌在做的事情。这个结果也是比较彻底的。虽然真正的人工智能还有很长的路要走,但知识图谱已经算是一种通过软件满足我们的信息需求的快速入口。最基本的,谷歌工程师正在构建公司著名的“手气不错”,使其第一次和每一次都能返回完美的结果。

阿米特辛格尔(Amit Singhal)是谷歌高级副总裁,负责改善谷歌核心搜索算法。他说:"这是让计算机拥有理解能力的一次尝试"。"现在,当在任何网页上出现字母 T-A-J-M-A-H-A-L ,计算机马上就能够理解,本文档是关于纪念碑的,或者这个是音乐家,或者这一个是关于一家餐馆。挖掘“相关内容”(aboutness)是构建未来搜索的基础。

在《财富杂志》最近采访中,谷歌首席执行官拉里 · 佩奇说在过去的 10 年他一直在推动这种变化。他说:"完美的搜索引擎会理解您的真正需求。它能深入地了解世界上的一切事物,返回你真正需要的内容“

当然,Google (纳斯达克: GOOG) 并不只是一个搜索引擎,她也是去年收入370亿美金的广告市场,她还是一个媒体平台 (YouTube),是云计算服务 (Gmail 和谷歌驱动器)提供商 ,是浏览器软件(Chrome)和移动操作系统(Android)的领头制造商。若一个搜索引擎能够理解“相关内容”,那这将改变她的整个帝国。到目前为止,究竟怎么做尚无线索,但所做的改变至少会与以往公司的大型核心技术一样的具有深远意义。

首席工程师Shashi 塔库尔 对通用搜索2007年引入知识图谱项目的先后作了比较。这种改变使得用户首次能在单个页面内搜索网页、视频、地图、图像和书籍,对谷歌的整体流量产生了巨大的推动力。最终,知识图谱项目可能比通用搜索具有"更大的战略影响",塔库尔说。

  • 统计学的魔法走到了尽头

    在搜索事务上,你不可能找到比阿米特·辛格更好血统的人。他在康奈尔大学师从信息检索先驱格里·沙尔顿(被称作数字搜索之父,也是1944年设计出IBM第一台计算机的的哈佛教授霍华德·艾肯的学生)。2000年,谷歌将辛格从AT&T招致门下,他的第一个任务便是重写谢尔盖·布林原来的排名算法来超越PageRank并且将许多新的关联类型考虑进去。这个改进相当显著,据记者史蒂夫·利维所著的In the Plex描述,辛格由此成为了谷歌院士并且被授予“价值千万”的奖励。

    但是,尽管有这些成就,辛格表示他所做的搜索仅仅是一台模仿人类理解语言的巨大杂牌电脑。

    “计算能力和其他各种东西还没有到位,截至目前看来最有效的搜索方法被认为是基于关键词的搜索”,辛格解释道。“你给我们一个请求,我们找出请求中重要的部分,然后我们使用许多的启发式方法,来看看这些重要的单词是不是在文档里也同样重要。这个过程难以置信地有效——整个搜索领域都是基于这个,包括所有你知道的搜索公司,也包括谷歌。但是更进一步使机器接近人类思维方式的梦想一直都没有消失。”

    在他最开始重写谷歌的关联算法之后,辛格继续处理其他的问题,例如词法分析:找到如何将runner和running这样的单词简化为它们的的词根(在这个例子里就是run),目的在于进行更广泛的搜索,同时也要学习如何避免异常发生(apple和Apple明显来自同一个词根,但是在现实世界中意思却大相径庭)。通用搜索应运而生,接着出现了自动补全和即时搜索,在用户敲完搜索请求之前就可以返回搜索结果(例如:键入wea,就可以获得本地的天气预报)。

    “尽管有了这些进展,一件事仍然萦绕心头”,辛格说:“那就是我们无法在计算机中恰当地展示真实世界。这些仍然都是些统计学的小把戏,依赖于计算一串字母。虽然它看起来像是一台难以置信的智能电脑,并且我们将它制作得远胜于其他任何人,但是事实上它还是基于字符串的。”

    这个挫折并不只是一种知性美。辛格表示在2009年或是2010年,谷歌曾遭遇严重的障碍。公司搜索工程师的目标一直是尽可能高效地为用户提供他们需要的信息。但对于一大堆模棱两可的搜索条件,单纯依靠统计相关性并不能帮助谷歌感知用户的意图。就拿辛格最喜欢的例子来说:泰姬陵。键入这个词条的用户是在搜索位于北方邦(辛格老家)的著名陵墓?获得格莱美奖的蓝调音乐家?或是街上的印度餐馆?谷歌的工程师们意识到如果单纯使用统计学知识,“我们将永远无法肯定其中一个(解释)是比其他几个更重要”,辛格说。

    “对于那些使用统计方法取得的成就,我非常自豪。我们系统很大一部分还是建立在它之上的”,辛格说。“但是我们不能在未来五年的系统上继续使用它。那些统计匹配方法逐渐遇到了一些根本上的限制。”

    谷歌所需要的是一种能更多地了解世界上所有的泰姬陵的方法,这样它才能更好地基于其他上下文线索如用户的位置来猜测他们真正想要的是什么。这就该提到Metaweb了。“他们正在探索如何表达现实世界的事物、实体,以及哪些是重要的、我们应该去了解他们的什么”,辛格说。当谷歌偶遇这家创业公司时,它的数据库仅仅有1200万个实体,辛格说它和现实世界比起来就像个玩具。“但是我们看到了表达技术的前景,我们迫切需要构建一个现实世界的表达方式,他们已经有了进展。”

  • 包含世间万物的数据库

    Metaweb技术公司本身就有一个引人入胜的历史。该公司2005年脱胎于加州格兰岱尔市的Applied Minds公司(五年之前由迪斯尼研发头目布兰·费伦和Thinking Machines前首席执行官丹尼·希利斯创立的咨询公司和创新工厂)。曾任Metaweb首席技术官、现任Google工程主管的约翰· 詹南德雷亚表示这家初创公司背后的理念是建立“一个机器可读的百科全书”来帮助计算机模拟人类的思维方式。

    “如果你和我正在谈话,那我们要有一个共同的词汇表”,詹南德雷亚说,在来到Metaweb公司之前曾任Tellme Network和Netscape/AOL的CTO角色。“如果我说‘财政悬崖’,你能明白我的意思,原因是你脑海中有这个概念,但是电脑没有。这就是我们着手要做的。”

    Metaweb构建的知识库叫做Freebase,时至今日还在运作。它是一个协同数据库(技术上讲,是一个语义图),依靠志愿者仔细地指定每个新实体的属性,以及它如何适应现有知识类别,才得以发展壮大。(例如,Freebase知道木星属于行星类型的一个实体,它包含一些属性如平均半径69911公里,它也是阿瑟·C·克拉克两本小说的虚构设定)。虽然Freebase现在由Google托管,但是它仍然开放接受所有人提交信息,并且这些信息在知识共享许可协议下可以自由重用。事实上,微软就利用了Freebase来使它的搜索引擎Bing理解实体,这和知识图谱在Google所做的工作是一样的。

    Freebase被和早期的知识库如Cyc相提并论,Cyc是一个大约三十年由AI研究员Doug Lenat构建的一个全面常识本体项目。但詹南德雷亚谨慎地指出,Metaweb没有试图构建一个人工智能系统。“我们明确避免关于推理或复杂的逻辑结构这样困难的问题”,他说。“我们只是想建立一个足够大而且有用的数据集。有很多这样的词汇表和本体,但他们没有涵盖过山车,他们不知道如何表示食物的成分或者鸡尾酒配方。我们想要涵盖所有的一切。”

    涵盖“所有的一切”的含义便是Metaweb不得不摆脱经典的关系数据库模型(数据存储在有序表的行和列中),并构建自己的专有图形数据库。在一个语义图中,没有行和列,只有“节点”和“边缘”,即,实体和它们之间的关系。因为你不可能提前为一个真实世界的实体(用数据库术语来说就是“模式”)指定属性集和关系,在表达实际的知识方面,图形数据库比关系数据库要好的多。

    “假设人的模式是他们出生地和出生日期,同时你有一百万人”,詹南德雷亚解释说:“现在你想添加死亡日期。当数据都进了内存再改变模式?传统的数据库可不太擅长这个。这就是为什么语义图是非常强大的——你可以不断地添上新的边。”

    Metaweb不只是依赖志愿者来扩充数据库。它也在寻找可以汲取的公共数据库,例如维基百科, CIA Factbook 和 MusicBrainz开放音乐数据库。“我们使用任何可行的方法来添加实体”,詹南德雷亚说。

    这家创业公司真正的挑战是去除重复的实体。在一个语义图里,一个实体只能被表示一次,否则一切白费功夫。“核对的过程成为了关键,难做而且花钱”,詹南德雷亚说。为了支付这个开销,Metaweb开发和销售了基于Freebase的软件工具,合作伙伴可以利用它使自己的信息产品更加有用。例如《华尔街日报》雇佣Metaweb公司建立了一个数据库,来帮助其读者关注不同类型的相关内容。

    截至谷歌2010年来叩门时,Metaweb和外部贡献者花费了5年时间添加实体到Freebase。这家搜索巨头的收购报价很有吸引力,詹南德雷亚说,部分原因是数据库变得难以增加。Metaweb不能一次吞下世界上所有的知识,而且它不知道哪些资源是最重要的。“我们想让人们更容易地找到东西”,他说:“但如果你不知道人们正在寻找什么,这个问题就更难了。而搜索引擎的优点就是知道人们正在尝试找什么。这是最有帮助的。”

    自从谷歌收购了Metaweb,Freebase的大小增长了一倍,大约有2400万个实体。但是以Freebase为核心的知识图谱增长得更快,不到三年就超过了五亿。这种快速增长有两个原因,詹南德雷亚说,其一便是谷歌本身拥有巨大的现实事物数据库,诸如产品(谷歌目录)和地理位置(谷歌地图)。“Google有很多很多的数据,我们就算不能利用其中全部数据,也可以利用一部分,这也解释了为什么知识图谱远大于它的祖先Freebase”,詹南德雷亚说。另一个原因是谷歌的搜索记录,它实时展示了在可以访问Google的每个国家人们在搜索什么,这有助于詹南德雷亚的团队决定下一步需要填充知识图谱的哪些角落。

    加入Google也带来了一些技术优势。借助辛格的团队,Mataweb的工程师们有能力改进算法来把新数据插入到知识图谱并且检验它们的准确性。并不是每一个新的实体都需要人力来修订(这对于实体数量是维基百科40倍的知识图谱来说工作量太大了),谷歌开发了质量控制系统,让工作人员抽样具有统计学意义的少部分来确保精度。

    同时,核对问题在规模上得到了简化。“如果我告诉你有一个人叫哈里森·福特,你无法确定是谁,因为数据库里可能有10个哈里森·福特”,詹南德雷亚说:“但如果我说他是一个电影演员,那么你就能接近正确答案。接着如果我说他出生在特定的某年,你会说,好,我知道了。同样的原则也适用于别名,像“新鲜王子”,这和威尔·史密斯是相同的实体。换句话说,知识图谱囊括越多的事实,重复就越容易被消除。

    但5.7亿实体足够建立一个可行的世界表示吗?或者说谷歌是否才刚刚开始?“我认为这挺多了”,詹南德雷亚说。相比之下,他指出生物学家爱德华·o·威尔逊的生活百科全书项目,最多有1000万个物种,到目前为止已经列出了200万个。“没有10亿那么多,只有1000万”,詹南德雷亚说。同样,“有成千上万的型号的汽车,而不是几十亿。有种类繁多的墨西哥餐馆,但是你很难想像会超过100种。”

    谷歌的多次重复它们的使命是整理全世界的信息,如果你倾听詹南德雷亚足够长的时间,你就会逐渐意识到该公司真的打算这么做。惊人的事实是对于谷歌来说,将我们整个世界简化为语义图并不是一个存储或者计算上的挑战。唯一真正的问题是要了解实际上需要多少实体才够用,同时需要能够察觉何时该项目已经达到了收益递减点。事实上,知识图谱已经足够巨大以至于它的增长曲线开始变平,詹南德雷亚说。

    “我确实认为拥有足够知识用处很大,”他说:“如果你已经能表示地球上所有的文书,所有的产品,以及所有有人居住的地方,那么很多重要的东西都已经包含在内了。当然知识图谱知道的东西比我平生所学还要多。所以它对于一个人来说已经足够巨大了。”
  • 在知识面板上涂鸦

    当然,为了能在谷歌的网络上发挥作用,知识图谱对于所有人来说都要足够大 。这就是为什么该公司在使图谱国际化上投入了很多精力。据沙希·塔库尔所述,这其实包含两个问题。其一是外语方面——每个图谱中的实体需要被关联到它的正确名称,不仅仅是英语名称,还有法语,意大利语,日语,德语、俄语、西班牙语和葡萄牙语。但还有一个本地方面也同样重要。对于知识图谱的查询经常需要根据用户的位置的来进行不同的解读。例如,如果你从美国输入“Corinthians“, 那么你可能是在寻找新约第七本书的信息,你便会在知识面板看到的这个。但是在巴西,你会看到体育俱乐部科林蒂安的链接,那是一家位于圣保罗的著名足球队

    为使知识图谱发挥作用,谷歌已经解决国际化问题。另一个首当其冲的问题便是如何呈现信息。目前,知识图谱的结果有三种形式:
    1. 如果你的问题有一个明确而简单的答案,结果往往会以一个卡片的形式出现在普通搜索结果的最顶端。比如说你去机场接一位朋友并且你想知道何时飞机将会到达。键入航班编号,谷歌将会以较大的样式向你展示到达时间,还包括一个简单的图形来显示飞行的进度。
    2. 通常,知识图谱结果以知识面板的形式出现在常规搜索结果的右边。这个面板可能包括有关你搜索词的陈述,地图,照片,事件列表,或图谱中相关实体的链接和缩略图(查询“梵蒂冈”将产生“教皇”、“教廷”、“梵蒂冈博物馆”和“梵蒂冈城”的链接)。据詹南德雷亚所说,“当我们确信知道你正在寻找什么时”,一个知识面板便会出现。
    3. 如果对于你的查询,最好的答案是一个列表,而不是一个特定的实体,您会看到谷歌所谓的“幻灯片”——一排滚动的缩略图。要想看到幻灯片的例子,去谷歌尝试搜索如“欧内斯特·海明威的书”或“达芬奇画作”这样的词条。塔库尔称幻灯片为“对于一个复杂问题的精准回答”,并说当结果需要交互和探索时,它往往是最好的展示方法。”
    这是目前为止谷歌向公众展示的方式,但在未来,来源于知识图的结果将采取许多其他形式,塔库尔说。“目前有多人在尝试不同的形式在面板上涂鸦,”他说。“随着图谱变得更深入、更丰富和更广泛,有更多的关联和更多的话题,这将带来更多的应用。”

    举个例子来说,塔库尔说某些特定类型的搜索可以产生“花式图表”了——搜索“土星”可能会显示出一个交互式太阳系图表的一部分。或者搜索“加州的大学”,你可能会看到它们排列在地图上。(现在你只能在“幻灯片”上看到他们的校徽或吉祥物,这可能不是呈现这个特定列表最自然的方式)。当你考虑到有多少搜素是从智能手机和平板电脑开始的,出现的可能性便会增加,因为可以兼容更多类型的输入和输出,包括语音。

    随着时间的推移,谷歌用户可以期待知识图谱的结果如雨后春笋般出现。“用户会开始依赖现有的知识面板”,塔库尔说。“我们只在特定时刻触发它的最大原因是因为我们特别小心避免影响用户体验,我们只在可能提供方便的时候才启用它。但随着图谱容量的增长,将会有更多的查询空间供我们为您提供方便。”

    而且,知识图谱不仅仅关乎搜索——其效用以不明显的方式出现在其他谷歌产品里,塔库尔说。如果你有一台内置Google TV的电视,你可以用口头指令点播视频内容;在幕后,就是知识图谱将命令与实际的演出、频道和Web内容匹配在一起。Google Now,安卓手机上的类siri服务,可显示即时信息卡片,也是由知识图谱驱动。随着越来越多Google的团队弄清楚自己的产品可以受益于巨大的数据库,应用程序将会成倍增加,塔库尔说。“知识图谱是展示知识的支柱,是整个公司依赖的服务”,他说。
(未完待续……)

参考文献:


你可能还会对下列文章感兴趣:

5条评论 你不想来一发么↓ 顺序排列 倒序排列

    向下滚动可载入更多评论,或者点这里禁止自动加载

    想说点什么呢?

    您需要登录您的Google账号才能进行评论。想要匿名评论?试试新的评论框吧↓