近日,数据挖掘和数据科学领域最顶级的学术年会KDD(国际数据挖掘与知识发现大会)正式对外宣布了今年论文收录情况:2018KDD总共收录295篇论文,其中来自中国企业和研究机构的论文为103篇。
这个数据背后的意义耐人寻味,它标志着我国AI学术再上一个台阶,意味着即使是在KDD这样论文录取极为严格的国际顶尖AI学术会议上,中国高校和企业的身影已经无疑是其中最浓墨重彩的一笔。
AI学术浪潮已来
在斯坦福大学发布的2017年人工智能指数年度报告中,学术方面,计算机科学领域的论文数量自1996年以来增长了6倍,同时期内,AI领域的学术论文增长了9倍。两者相比,凸显了学术界对AI的关注和重视程度。
伴随着人工智能技术应用而起的AI学术浪潮已来。
谈及国内的AI学术发展,绕不开的话题就是去年7月国务院正式印发的《新一代人工智能发展规划》,其中重点之一就是:
聚焦人工智能重大科学前沿问题,以突破人工智能应用基础理论瓶颈为重点,超前布局可能引发人工智能范式变革的基础研究,促进学科交叉融合,为人工智能持续发展与深度应用提供强大科学储备。
AI学术理论研究作为产学研的基础,很快得到了国内各大高校的积极响应。
随后,诸多高校开始相机设立了AI学院或者相关的研究机构,一方面培养AI方面人才,另一方面从“小”开始,攻坚AI学术研究。
截止到2018年7月份,我们统计了已经设立AI学院的部分高校:
高校之外,在一些国际性大会上,来自中国的面孔更是不容忽视。
据了解,目前全球AI相关的顶级会议主要如下:
其中,在2017年AI界顶级会议AAAI大会上,有2571篇投稿论文,其中,中国和美国的投稿数量分别占到31%和30%,虽然在被接收论文数量上,中国还是低于美国,但数量已经大幅提升。
而根据美国白宫此前发布的《国家人工智能研究与发展策略规划》来看,从2013年到2015年,以SCI收录的论文数量计算,在增加“文章必须至少被引用过一次”附加条件后,中国在2014年和2015年都超过美国,位居前列。
同样在KDD上,作为数据挖掘领域的顶级学术会议,大会每年的论文接收严格度非常高,仅约200篇,接收率不超过20%。然而值得注意的是,近几年的KDD上,收录的国内高校和企业的论文数量逐年增加,比如今年接收的中国论文总数更是达到103篇,超过论文总数(295篇)的三分之一,这股来自东方的学术力量不容小视。
KDD上中国AI力量的崛起
确实,在KDD 20多年的历史中,从参与度到科研成就,从影响力到活动组织,越来越多的中国的元素体现在其中。
在KDD2016大会的“Data Science of China(数据科学在中国)”分论坛上,当时有业内专家统计了近7年来KDD文章录用情况和参会人员数据。从2010年至今,第一作者为华人的录用文章占总录用文章的45%左右,并呈上升趋势,今年该比例更是高达56%。
图 | 历年华人第一作者文章数量占总数比
另外,两岸三地的参会人数也从2013年的102人增长到今年的168人,如下表所示,表示了国内的研究水平和能力的提升。
图 | 历年KDD两岸三地参会人数
此前,微软学术搜索分析了最近五年(2013年到2017年)的KDD论文数量,参考了KDD发表文章的引用次数以及作者之间互相引用情况,总结了其中最具影响力的作者,图上提到的21名学者中,华人有13名,占据了其中的62%。其中,图表的横轴表明了作者总体在数据挖掘领域的声望排名,越靠右的排名越高;纵轴则表明了作者在KDD的威望排名,位置越高排名就越高。值得注意的是,最右上角圆圈所代表的的学者正是京东金融副总裁、首席数据科学家、城市计算事业部总经理郑宇。
图 | 2013年到2017年KDD上最具影响力的作者
在2017年的KDD大会中,KDD 2017杰出服务奖(Service Award)则授予给了香港科技大学的杨强教授,以表彰他在数据挖掘和人工智能领域非凡的服务和贡献。
同时,KDD在近几年和中国的合作也非常密切,除了杨强教授领衔的SIGKDD China,在7月21日,由京东金融承办的2018 KDD Summer School暨KDD18 Pre-Conference在四川召开,而在今年3月,京东金融就已经参与承办了国际数据挖掘领域顶级赛事KDD Cup 2018。
图 | 2018 KDD Summer School活动现场的Poster交流环节
值得注意的是,今年京东金融也有四篇论文被KDD大会收录,作者均来自京东金融城市计算事业部(京东金融于2018年成立的全新一级事业部),占京东集团论文收录总数量的接近一半。
其四篇论文主题分别为《共享单车动态调度:时空数据上的强化学习模型》、《基于深度分布式融合网络的空气质量预测》、《利用共享单车轨迹数据的违章停车检测》、《基于对等和时间感知的表示学习的驾驶行为分析》,都是依托城市计算这一多学科融合的新兴领域,通过不断获取、整合和分析城市中多种大数据来解决城市所面临的交通、环境等挑战。
顶级学术会议上的中国企业之光
· 做学术也要“接地气”
如前文所述,KDD作为数据挖掘和数据科学领域最顶级的学术年会,来自学术界,工业界和政府部门的研究人员都希望在KDD上发表和展示自己的有影响力的工作,因而每年的投稿量都特别大,所以KDD的接收率一直非常低。
据了解,以KDD的应用数据科学论文为例,每篇投稿文章由至少3到4名审稿人评审及1名相应领域的高级程序委员协调讨论并推荐,最终由程序委员会主席决定是否录取。
所以国内企业能够从其中脱颖而出,更是实属不易,这背后反映的不仅仅是科研能力的提升,也是企业解决实际问题的能力。
以每一年KDD的重要竞赛环节KDD CUP为例,其题目范围基本上围绕与数据科学相关的现实问题,许多试题都有很强的应用背景。
比如简单统计了历年了KDD CUP的赛题:
学术研究最终还是要落地到解决实际问题,像KDD这样的顶级学术会议,也非常注重企业用数据去解决现实问题的能力,这也凸显了学术在“束之高阁”的同时,也不断地向产业落地延伸。
从京东金融被收录的四篇论文也能明显看出这个趋势。
· 企业科研的强落地能力
仔细研读今年京东金融被收录的四篇论文,就很好体现了学术研究和产业落地的紧密融合。比如《利用共享单车轨迹数据的违章停车检测》这篇论文,研究背景就是国内共享单车爆发所产生的骑行轨迹数据,给检测违章停车带来新机遇。
论文中提到的基于共享单车轨迹数据的违章停车检测技术通过预处理和检测模块,综合轨迹清洗、路网匹配、轨迹索引方案等技术,已经成功应用在部分地区的违停检测上。据悉,京东金融也已经和北京摩拜科技公司完成内部部署,并展示给交管部门,为交警进行违停管理提供帮助,并为停车场的增建提供建议。
而在21日举办的2018 KDD Summer School上,京东金融副总裁、首席数据科学家、城市计算事业部总经理郑宇提到“城市计算是用大数据和人工智能打造未来城市,具体也就是对数据不断的采集、管理、分析、挖掘,来解决城市的痛点,比如交通拥堵和环境污染。从城市的规划、运维到预测,形成一个闭环,推动城市可持续发展。”
这也是学术研究到产业落地的完美闭环。
从企业的角度来看,在推动城市可持续发展中,一方面是企业对经济利益的追求,更重要的也是对社会利益的重视。
以当前严重的空气污染问题为例,预测未来空气质量不仅可以帮政府更好地做出决策,也可以帮助人们规划未来出行计划。
在KDD收录的四篇论文中,京东金融就提出了一种基于深度学习的预测方法DeepAir来预测未来48小时细粒度空气质量。其采用深度分布式架构来融合异构数据,对所有影响空气质量的直接和间接因素进行建模。对比于传统预测模型的结果(2014.10.1-2016.12.30),DeepAir的模型准确率比它们高22%。
当然,这也是现在科技企业做学术研究的一大趋势——体现他们的强科研落地能力。比如今年腾讯旗下医疗AI实验室共有3篇论文分别被KDD 2018、SIGIR 2018、COLING 2018三个国际顶尖学术会议收录,其论文的主要研究方向为医疗知识图谱中实体关系的发现和应用,就是通过大数据以及知识图谱,辅助临床决策,赋能基于AI的医疗产品。
· 学术研究,决定了企业的另一面
越来越多的企业注重技术研发以及学术研究,也表现了大公司在扩大商业版图的同时,非常注重技术的深耕和持续研究等等,这是一个双向互利的过程。
此前马斯克曾发表过90%的学术论文无用的言论,一石激起千层浪。诚然,在一些商人眼里,写论文是烧钱的事情,没有什么价值。但是如业内专家所说,一篇论文,经过同行评议、修改、发表出来。这个过程本身就是一种价值,光看最后的论文,当然90%赚不到钱。但也是为研究从量变到质变添了一块砖。
同样,就像浙江工业大学计算机科学与技术学院院长王万良所说,要明确认识企业做论文的正确作用,“论文不是设计图纸,许多只是实用技术的前期研究中间结果,企业的研发和高校科研院所的研发是不同的研发阶段,难以互相取代。许多事情关键是正确认识。”
而企业在顶级学术会议中扮演着越来越关键的角色,同样以京东金融为例,其城市计算事业部的一篇论文此前也被人工智能领域国际顶级学术会议IJCAI2018录用。
顶级的学术会议不仅仅是学术界展示自身学术实力的机会,也正在成为大公司展现科研实力的重要舞台。
以深度学习为例,在平台、算力和数据系统的基础之上,无论高校还是企业的实验室,做出来的研发成果近乎可以在产业端即插即用,这也是为什么大公司需要在AI时代参加这些学术会议发表论文、以及技术比赛。
据了解,在科研成果的应用转化方面,京东金融城市计算事业部就已经为国家发改委城市和小城镇改革发展中心、环保部、水利部、交通部等多个中央部委提供科技服务,并与国家能源集团、中国联通、北控集团、摩拜、链家等企业开展深度合作。
最后
在英国政府与图灵研究院发布的《2017AI产业报告》中,就指出过这样一个问题:今天整个AI产业中,最急切需要的,是学术与产业多个端口之间的流通与聚合能力。
无论是KDD,还是IJCAI,亦或是其他AI顶级学术会议上,国内高校和企业的身影越来越多,一方面这是中国AI学术能力的体现,另一方面也凸显了在学术和科研上,大家都在一步步稳扎稳打,共同助推产学研一体化,用AI解放生产力、创造更多的社会价值。