图片: | |
---|---|
名称: | |
描述: | |
算法的王国
中国数据资源丰富,有机会在人工智能领域占据领先地位
今年年初,关注全球人工智能(AI)发展动向的人注意到两件小事。先是微软高管之一陆奇在1月表示,自己从自行车事故中恢复后不会回归这家世界最大的软件公司,而是将加入中国领先的搜索引擎百度,担任该公司的首席运营官。当月晚些时候,国际人工智能协会推迟了年会举办的时间。会议原计划在1月举行,但时间与中国新年发生了冲突。
要了解中国为何占据优势,不妨试想一下人工智能所需的投入。其中最基本的两种投入——计算能力和资本,在中国十分充裕。从阿里巴巴和腾讯这样的巨头到兴业数金和UCloud等创业公司都在尽可能快地打造数据中心。咨询公司高德纳(Gartner)称,近年中国云计算市场保持了超过30%的增速,而且这一势头还将继续。据乌镇智库的数字,2012年至2016年,中国的人工智能公司获得了26亿美元的资金投入。这一数字少于美国同行获得的179亿美元,但总额正在迅速增长。
然而,真正让中国成为人工智能福地的其实是另外两大资源。一是研究人才。微软人工智能事业部门的负责人沈向阳说,中国除了数学很强,还有语言及翻译研究的传统。阿里巴巴的闵万里手下有150名数据科学家。他说,在中国,寻找顶尖的人工智能专家要比在美国难。不过他预测这种局面在两三年里就会发生改变,因为多数大型高校都开设了人工智能项目。据一些估计数字,全世界培养的人工智能科学家中,超过五分之二在中国。
中国的第二个优势是数据,这也是人工智能最重要的“原料”。过去,软件和数字产品主要是按代码编写的规则行事,因而拥有最优秀的编程人员的国家占据优势。随着深度学习算法的出现,这些规则日益建立于从大量数据中提取的各种规律之上。供试用的数据越多,算法能学到的东西就越多,人工智能所提供的服务也就越智能。
中国的体量和多样性为这样的循环提供了强劲的动力。单靠开展日常生活,该国近14亿人口就能产生大量数据,几乎超过其他所有国家的总和。就算是某种罕见病,在中国也能获得足够的病例去训练算法识别该疾病。由于输入中国的汉字要比西方国家的字母费时费力,人们使用语音识别服务的频率通常也高于西方国家,企业也就获得了更多的语音片段来改善语音服务。
真正令中国与众不同的一点是,它的互联网用户比任何国家都多:大约有7.3亿人。几乎所有网民都用智能手机上网,产生的数据比来自台式电脑的数据有价值得多。这主要是因为智能手机包含传感器,而且由机主随身携带。以沿海大城市为例,在进行小额交易时几乎已经没人使用现金了,通过手机上的支付宝和微信支付等服务就可以搞定。
中国人似乎不是特别担心隐私的问题,这就使得收集数据变得更容易了。例如,风靡该国各大城市的共享单车服务不仅提供了廉价的交通方式,而且还是个所谓的“数据游戏”。一些公司会在用户租用自行车时利用装在车上的GPS设备追踪租车者的活动。
年轻的中国人似乎尤其热衷由人工智能驱动的服务,对于自身数据被使用也比较淡然。微软运营的聊天机器人、阳光正向的小冰如今有超过一亿个中国用户,多数都是在晚上11点到凌晨3点和它聊天,通常都是谈论自己在白天遇到的问题。小冰从互动中学习,过程中又变得更聪明。如今它不再只是给人鼓励和讲笑话,还运用人工智能创作出了首部诗集——《阳光失了玻璃窗》。中国的文学界为此展开了激烈的争论,探讨人工智能生成的诗歌算不算诗歌。
中国的人工智能还有一个重要的支持力量:政府。在该国当前的五年计划中,科技是其中的重点。科技公司正与政府部门开展密切的合作,例如,百度已受命领导一个深度学习的国家级实验室。政府也不大可能用过于严格的监管增加人工智能公司的负担。中国有40多部法律包含了个人数据保护规则,但很少执行。
创业者正在利用中国的人才及数据优势。许多人工智能公司一两年前才开始运营,但其中有不少公司发展速度都快过西方的同类。李开复解释说,“中国的AI创业公司通常有更快的迭代及执行速度。”他在本世纪初曾负责管理谷歌在中国的子公司,如今领导风险投资基金创新工场。
结果是,中国已经出现了一批人工智能独角兽公司,即估值超过十亿美元的创业公司。总部位于北京的新闻聚合器“头条新闻”根据读者的兴趣及位置,利用机器学习来推荐文章,还运用人工智能过滤掉虚假信息(在中国,这类信息主要是各种可疑的养生资讯)。另一家人工智能创业公司科大讯飞开发了一款语音助手,可将普通话翻译成包括英语和德语在内的若干种语言,即使说话者话语间夹杂俚语或背景有杂音也没影响。旷视科技的人脸识别软件Face++几乎可以瞬间将人识别出来。
在旷视科技的总部,公司向来访者做了一番演示。大堂里的一个摄像机省去了展示身份证件的必要:员工不用出示工作牌就可进入公司。办公楼各处都安置了类似的装置,其所收集的数据显示在一面视频墙上。当墙上跳出一张人脸时,周围立刻就出现一个白色方框,以及关于这个人的一些文字信息。屏幕的右上角,几个大大的字母拼写出“Skynet”(天网),也就是《终结者》系列电影中那个试图消灭人类的人工智能系统的名字。旷视科技已向支付宝以及网约车公司滴滴提供支持,帮助它们核查新客户的身份(将他们的面孔与政府持有的照片做对比)。
眼见创业公司取得了成功,中国的科技巨头也开始大举投资人工智能。百度、阿里巴巴和腾讯(合称为BAT)正在开发许多类似的服务,包括语音及人脸识别。不过它们也在试图利用现有优势成为特定人工智能领域里的主导力量。
目前来看,腾讯最为低调,直到最近几个月才建立起自己的人工智能实验室。不过它拥有的数据比百度和阿里巴巴都要多,势必会在人工智能领域占据重要地位。其即时通讯服务微信有近10亿用户,同时还是数千种服务的平台,例如支付、新闻、城市指南以及法律咨询等。腾讯还是全球最大的游戏公司,其大热游戏《英雄联盟》和《部落冲突》在全球的玩家都超过一亿人。
已是电商巨头的阿里巴巴正豪掷数十亿元,力争在云计算领域取得领先。6月于上海举行的一次会议上,阿里巴巴展示了一项名为“ET城市大脑”的人工智能服务,可利用视频识别来实时优化交通。该服务运用路边摄像头拍摄的视频片段来预测车辆的行为,即刻调整交通信号灯。阿里巴巴声称,在其总部所在地杭州,该系统使交通的平均速度提高了11%。该公司还计划加强其“ET医疗大脑”系统,提供各种人工智能服务来帮助研发新药和诊断医学影像。为获取所需数据,公司已与十几家医院签约。
不过,自身命运与人工智能最休戚相关的还是百度,这在某种程度上是因为这项技术也许是它追上阿里巴巴和腾讯的主要机会。如今它将大部分资源都投入到了自动驾驶技术上,目标是在2018年前将无人驾驶汽车投放市场,到2020年为全自动驾驶汽车提供技术。7月5日,百度在北京的一次开发者大会上推出了其首款自动驾驶汽车软件“阿波罗”。
阿波罗系统不仅涉及安全行驶汽车,还要管理一个向外部人士开放的项目。竞争对手如谷歌的子公司Waymo和电动汽车公司特斯拉都对自己的软件和收集来的数据严防死守。而百度不仅计划公开自己项目的“秘方”(用行话说就是将它们“开源”),还计划共享数据。百度的设想是,采用百度技术的汽车制造商也会效法,从而打造出一个无人驾驶汽车数据的开放平台——用陆奇的话说,就是“自动驾驶汽车领域的安卓系统”。
至于中国公司将自己的人工智能产品推向海外时成绩如何,仍有待观察。就目前而言,只有少数产品走向了海外。理论上说,这些产品的海外之旅应该很顺利,比如在中国混乱的道路上训练出来的自动驾驶汽车,在欧洲更文明有序的交通环境中行驶时应该也没问题(相反,在德国受训的汽车到了北京,过了一个十字路口可能就寸步难行了)。不过,中国对道路安全的要求不如西方严格,对事故的容忍度更高,西方国家的消费者对在如此环境中训练出来的汽车可能有所顾虑。据说,中国城市都在力争成为自动驾驶汽车的测试场。
还有一个风险。眼下数据还是人工智能最重要的因素,但数据的重要性也许会减弱。人工智能公司已开始使用模拟数据,包括来自视频游戏的数据。新型的算法也许用较少的数据就能变得智能。趋势科技的CEO吴甘沙警告说:“怕就怕我们会因为自己在数据上的优势而停止在算法上的创新。”这是北京的一家创业公司,开发自动驾驶技术。不过,目前来看,中国毫无自满之意。在争夺人工智能卓越地位的竞赛中,中国将是美国的劲敌