主题演讲:海量公司首席科学家、博士周富秋

时间:2011-11-15 17:01   来源:中国台湾网

  很高兴今天下午能够听到尤其在游戏行业里关于云计算的实质性应用。因为上个月我参加了全国第十届互联网大会,我听的最多的是大家谈概念,我可以直白的讲,大陆有一个毛病就是喜欢炒概念,没有真正实质性的去谈到一些应用。我的结论是参加第十届互联网大会,听众非常多,但是他们谈的更多是云的概念而不是云的计算。就想起了什么都是浮云。今天很高兴能够听到很多新的想法。

  如果真正要谈到云计算,实际上最初提出云计算概念是24年前提出来,当时实际上是云计算的雏形,由于种种原因没有付诸实施。随着时代的变化,IT行业的变化,如果追溯到远一点60年代IBM推出大型计算机,现在我们看得最多的是每个人手上拿的移动设备,平板电脑等等。另外一个是互联网,互联网的兴起和发展尤其是在大陆,在台湾提出互联网比较早一些,真正互联网在国内的兴起是1996年,我记得1995年从美国回来的时候,很多人问我什么是互联网,甚至有人问我什么是电子邮件,短短的16年期间互联网在大陆简直是蓬勃发展,现在的兴起简直是势不可当,渗入生活当中的各个层面。但是更大的问题是什么呢?互联网的兴起,我认为最大的弊病在于数据急剧增加,我对现在互联网数据的增加最大的概括,互联网给我们的生活带来阳光,但是只有几屡阳光,还不是充满阳光,就像一首歌讲的还有很多阴霾,就是多、杂、乱、难。我们实际上很多人在遭受一种病症就是信息污染综合症。我们十年以前、十五年以前、二十年以前是遭受信息匮乏的病症,现在是信息太多。怎么办?我谈到两个原因,计算平台的转移和互联网的兴起,在呼救云计算。

  我认为谈云计算更多在计算上下功夫,如果现在是这样的现状,互联网大量的信息需要超级的计算模式去解析它,去分析它,找出它真正能够给人们的生活和工作带来价值的东西提供给我们的客户。这就是我们海量信息技术有限公司致力于追求的,我们有智能计算的手段去处理海量的互联网的信息,把这个平台建立在云计算的框架里。现在最大的问题是看到一大堆问题,真正要分享很难,谷歌两位年轻人很厉害,他们说建立谷歌的目的是梳理世界上的信息,使之在全球范围内可得。是要梳理它,不是说把这个东西给你,现在我们在谷歌和百度拿到一大堆原始数据的罗列,看到第三页,我想我看到第二页就不想看了。怎么让计算机去处理,真正解决我们的社会问题。这就是我认为最关键的智能计算带来的社会价值。

  以前我们关心更多的是技术上的东西,我们应该转移态度多关注社会上的问题。基于这一点,我认为将来的互联网是什么样子?很多人都讲是移动化的,无国界的,互动性的,互联网将来也是不可分割的一部分,我认为更关键的是怎么处理这些数据,这么多信息怎么去解析它,我提出一个观点就是一定要智能化、结构化的互联网,这才是将来的方向,这个不谋而合和硅谷的大师凯文讲的一样,不会太好,但是不一样。不一样在什么地方?用三个字来解释,首先是聪明、智能,互联网能看到东西,能理解数据,能归纳数据,能筛选数据,给出的是我们所需要最终的知识和情报,而不是一大堆原始的东西。二是更加个性化,因为我们市场的细分。三是无处不在,一天24小时。这是未来互联网的憧憬,我认为这完全符合我们所打造的。

  我们已经实现了计算机的互联,在80年代、90年代初的时候是用的大型机,然后是用了PC,基本上可以把互联网上相互之间的电脑连接起来,现在我们做到网页互联,谷歌和百度就是,把同样的信息分类出来,我可以在网站里查到我的信息,可以从我的电脑联系到另外一台电脑。但是有一点没有做到,就是让互联网更加智能,就是把网页里谈到的东西联系起来,这就非常难了。就是让它智能化,网页里提到的事物之间到底有什么关系,这一点是更重要的。将来我们的互联网是语义网络,是数据的网络,将来呈现在我们面前是一个网状的东西,而不是竖状的。我们期望互联网将来的数据是结构化,是相互关联的。一个页面上的概念和另外一个页面上的概念是相关的。提到的人、事、物都有独一无二的身份,有独一的属性。我看到网页上有姚明,它谈的是一个人,跟NBA有关系,跟上海球队有关系等等,这就是互联网赋予人理解文本的这种解释。比如读到北京,互联就就知道它是一个地名,有经度、有纬度,有人口等等。不是做不到,而是必须要做到。

  所以我们海量公司一直在追求这个,我们一定要把互联网上的数量变成质量,要从信息服务转化为知识获取。比如一个老板有一个秘书,老板提出需求,你给我找一个东西,找一个我做抉择的依据,秘书第二天拿一大堆的资料给他,这是一种解决方案。另外一种解决方案可能是通过一个团队的工作,把一大堆的资料浓缩成一个表格,我想老板肯定是喜欢第二种做法。我们希望这个压缩的工作让机器去做,不是做不到,是能够做到。以内容为纽带,将网络搭成一个语义逻辑整体。最后让机器读懂互联网。机器能看懂互联网上的内容。

  要这样做一定是依赖于云计算大的框架,四年以前还没有兴起云概念的时候,刚才大家谈到IAAS、PAAS、SAAS,我们已经基于云计算大框架,根据客户提出的对数据加工的需求,我们提出了云的采编服务。城邦的公司肯定他们的编辑要处理大量的工作,而且很多大量的工作是用手工做的,我们能不能让机器做一些案头工作,把编辑做的找转编发这些进行智能化,这就是云采编服务。还有云净化服务,国务院一再强调不能有不良信息、色情的信息、违法的信息在网上散发,很多网站很紧张,录用一大批小姑娘、小伙子成天在这儿看,看到不好的就删掉。我们提出一个云计划的净化服务,我们可以用机器来删除,我们删掉的目标已经做到95%。我们可以看看客户群里已经有这样的反馈,它可以做到95%到98%的机器净化。而只提出2%到5%让客户进行审核。还有云发布也是基于云计算的发布,可以提高网站的流量等等。我们还推出我一直比较希望推出的通过这个平台的建立,能够推出一个云的标引,数据来了以后怎么给数据打上标签,让这些数据更加智能化。云的标签,对出版商、对网站,因为我以前在美国工作了15年,处理了大量的美国200年的数据库,因为是非结构化的文本,怎么把它结构化,就是必须打上标签,就便于后端和前端用户进行检索和分析。

  这WOS平台应用架构图。我们采用了很多业界的标准东西,最终的目的是什么?是希望客户提供所需要的信息。如果客户来了以后,他提出信源,有很多不同的信息来源,这些是非结构化的,这些是不同文本和格式,通过我的平台就把它转换成结构化的数据,这个结构化的数据就是大家谈的RDF,大量的文本来了以后,要变成一个表格一样的东西,变成几行字来解决。知道里面提到的人事物,因为文本往往是这样的,自然语言往往是这样的,在谈事情的时候必须要提到人,必须要提到专有名词,必须要提到时间、地点等等。我们通过智能化处理以后,人与物、人与人都建立语义管理,这样我们对人的行为进行分析,我们可以进行链接和推送服务。

  举一个例子,中文要做到真正让中文能够让机器理解中文,首先要把中文分词分清楚,你看不出中间这个词是怎么分的,可以说乒乓球拍卖完了,也可以说是乒乓球,拍卖完了。这是不一样的。给大家看一下怎么用智能的方法去理解一篇文章,首先分词很重要。所谓智能分词、命名实体、语义网。比如宁静这个词,比如宁静的夏天、宁静的夜晚,往往从这个理解,我们的机器也按照这个方向理解。往往在娱乐圈里,在中国大陆宁静是一个很有名的演员,我能不能在一篇文章里把宁静分出来,它不是一般的词,而是指一个人名,然后给她建立关系,她跟红河谷有关系,她演过的所有电视剧和电影有关系,而且和其他的明星有关系等等。智能分词从这儿做起。

  再举一个例子,有一个客户找到我们,说我是帮助企业寻找广告代言人,一般广告代言人都找明星,我设广告代言人所设定的明星在一个时间段里,我们通过智能分析,它给我们两个人,一个是王菲,一个是李亚鹏,我在想大陆都知道这是一对很有名的夫妇。他们的曝光率在这四个点上,第一个点把关键词和特征词看一下,这个点他们谈什么,有什么具体的题目,这个点和这个点上是什么,在这个时间段里他们俩在网络上的曝光率就是这样的状态。然后给了我们上千个影视明星,他就非常高兴,说可以帮助企业很快的找到这个新闻的热点,怎么发现新闻的热点,根据名人,然后进行跟踪,最终帮助他们筛选出要做广告代言人的选择。

  还有在垂直行业,有一个医疗网站叫“好大夫在线”,他们每天要收到成千上万份不同的客户在网上提出的需求,他描述我到底身体有哪些不适,有哪些病状和问题,可是描述得往往不专业,不会用专业的医疗词汇等等。这样的话,好大夫在线抓住这个时机,因为有很多网民年龄大了就希望自己能够在网上得到医疗的咨询,就招了一大批有医疗背景的人坐在那里分诊,这个网站可以分400条不同的病例,网民提出的需求到底是哪种病,分给哪个医院,哪个大夫都是通过人工的。他们找到我们,我们做了关键的几步,把大量的网上谈到医疗方面的信息进行抽取,找了专业词汇,找了一些模糊的地方,然后进行对比,基本上把网站所需要用人去处理的分诊系统基本上95%替代。还能够根据他的病症提出不同的解决方案,比如哪个医院,哪个大夫更有效等等。

  我们在移动行业当中,我拿着手机,将来拿着手机什么都没有,只要我提出需求,我要得到什么就得到什么。这也是凯文凯利梦寐以求的。比如拿着手机看到楼房,通过卫星定位知道我在什么地方,这是基本上能够实现的。更关键的是这片楼里在干什么,有什么活动,有什么样的商店,有什么样的影院,有什么样的餐饮等等。这从云当中获得,这些都是经过结构化处理的,经过海量的结构化处理。把结构化处理后的信息能不能够叠加在手机上,让它知道最终能够知道到底需要什么。可以看出这一片的楼的价格比另一片楼的价格更低或者更高等等。这都是应用云计算来做。最关心的是怎么从网络当中获取信息。

  “云”中的智能计算,在互联网当中怎么做智能计算?现在的互联网不再是PGC占主导地位,就是专业人士知道的东西,现在已不占主流,关键是UGC,这个非常庞大,而且非常乱,我们一定要对这些数据进行结构化、智能化的处理以后,它才能够发挥作用,才能够从云中得到图像、视频、购物等等。这是我们认为云中的智能关键,也就是网上大量非结构化的信息,有条理的统一的处理,这就是智能计算。

  我们希望通过“云”中的智能计算,我们迎来的互联网首先是有效的,现在的互联网你以为他给你带来很多很好的好处,确实是可以上网,但是真正关键的东西查了吗?百度、谷歌做了权威性的调查,实际上百度、谷歌的搜索引擎只能满足人们对信息需求的20%,有80%并没有满足。但是怎么让那80%呈现在用户面前,首先通过智能计算是有效的。二是安全的。三是可操作的。四是可靠的。五是一致的。六是可扩展的。中间这个球就是互联网,也就是凯文讲的。未来的互联网通让它拥有语义网络的服务,最终无时不在,无所不包,而且是24小时不间断运作。最后实现大家梦寐以求的梦想。谢谢大家。

编辑:郭庆娜

相关新闻

图片

本网快讯

热点新闻

奇闻趣事

两岸