光纤是如何探测地震的?
幽灵般中微子的认识之路
朱邦芬院士忆黄昆:越伟大,越纯洁
谢希德:半导体之母的天空
学物理能做什么
关于不确定性原理,海森堡错了吗?
“墨子号”量子卫星是怎么在天上做量子实验的?
你经常吃薯片,那你了解他嘛?
滴答滴…...从摩尔斯电码传来的余波
让心情变彩色的小妙招,也许就是染个发
官方微信
友情链接

用更聪明的神经网络,拯救我们于大数据的洪流之中

2019-03-05
 


本文经「原理」

(微信公众号:principia1687)

授权转载,

禁止二次转载。

可以说,我们的整个世界都被数据的洪流淹没,而年仅33岁的计算机科学家Anshumali Shrivastava或许能挽救我们于这股汪洋之中,使我们免于被淹没的命运。

 

每一天,超过10亿张的照片会在网络上发布;每一秒,大型强子对撞机(LHC)就能产生上百万GB的观测数据;大数据的膨胀速度比目前计算机程序分析它的速度还要快。Shrivastava正在设计的便是一种新一代的人工智能程序,能有效地对海量信息进行处理。


MIT的电气工程师和计算机科学家Piotr Indyk认为,Shrivastava在管理庞大数据集的策略上非常具有创造性,它们清晰、漂亮,而且很好用。


如何让神经网络更高效?

 

Shrivastava之所以进入人工智能领域,是因为能用于解决现实问题的数字运算算法,能够让他“看见”数学在发挥作用。然而,当Shrivastava在康奈尔大学攻读计算机科学博士学位的时候,他才认识到人工神经网络——这个目前最好的人工智能程序是多么低效。


神经网络是由被称为人工神经元的代码片段组成的。当人工智能网络要学习一项任务,比如图像识别时,它可能要研究已经分类标记好的图像,让网络中的每个人工神经元获得识别特定图像模式的专业知识。


  计算机学习大量分类标记的图像。| 图片来源:Fei-fei Li


然而,即使每个神经元都做到了专门化,一个典型神经网络中的所有神经元仍然会持续学习所有的输入信息。例如,当神经网络看见一张猫的照片时,即使是负责识别卡车的神经元也要对这张照片进行关注。这是一件非常浪费时间和资源的事。


在研究生院,Shrivastava找到了一种只激活与输入最相关的神经元的方法。他用到了哈希函数(hash function),这是一种在数据库中组织记录的计算工具,就像在图书馆中组织书籍的杜威十进分类法(Dewey Decimal System)一样。

 

Shrivastava创建了一组哈希函数,根据网络中的虚拟神经元与给定输入的相关性,来组织并快速定位这些神经元,这样就可以找到所有与猫有关的神经元,而忽略与卡车相关的神经元。



○  计算机可以通过将每个文档输入到哈希函数,为每一个记录分配一个哈希码,来组织数据库中的记录。类似的文档会被分配以类似的哈希码,并被存储在哈希表中的同一个哈希“桶(bucket)”里,这类似于将同一主题的书籍放在图书馆中同一个书架上的方式。| 图片来源:T. TIBBITTS


Shrivastava说:“有两年时间,我一直在思考这个问题。我把所有的难题都放在脑后。” 当他有时间的时候,就会回到这个问题上,但结果常常是无功而返。直到有一天,通向答案的道路来到了他的面前,让他在几个小时内就将这个问题解决了。他坐在卧室里,一遍又遍地审阅着自己的解答,确保它确实是有效的。

 

这项工作在2014年的神经信息处理系统(NIPS)大会上获得优秀论文奖。莱斯大学的计算机科学家Moshe Vardi说,Shrivastava提出的系统或许能称得上是“2014年机器学习领域的最佳研究”。


从那以后,Shrivastava建立了一个图像分类的神经网络,它的工作效果和标准神经网络差不多同样好,但是使用的计算量减少了95%。这样的效率可以为人工智能程序腾出更多的时间和资源来处理其他信息(例如语音识别的音频),从而为实现更多功能的人工智能铺平道路。


自从2015年加入莱斯大学以来,Shrivastava还发展出了其他简化计算的方法。Vardi赞叹说:“Shrivastava非常聪明,思维非常敏捷,有时候我们不得不追着他跑,因为他的思维永远冲在最前面。”


哈希码应用于数据库

 

最近,Shrivastava与来自莱斯大学和杜克大学的同事将哈希算法应用到叙利亚内战受害者的数据库中。从过往经验来看,想要准确地计算在冲突中死亡的人数,以帮助起诉犯下反人类罪行的人是非常困难的。通过受害者家属、媒体和其他来源报告的数据包含重复的记录。为了找到重复记录,所得到的354000条记录需要计算机用时超过一周来进行比对。


然而,当Shrivastava的计算机程序为四个受害者数据库中的每个记录都分配了一个哈希码之后,计算机就能利用这些代码在几分钟之内识别出可能的重复。然后,程序就可以只对那些匹配的记录进行核对。这一程序于6月发表在了《应用统计年鉴》上。


此外,Shrivastava和同事还开发了一个智能手机应用程序,可以根据一个人周围环境的照片来导航购物中心或其他大型建筑。这个应用程序将用户拍摄的照片提取为哈希码,与参考照片的哈希码进行比较,可以在两秒内确定位置。

 


○ Anshumali Shrivastava设计算法来帮助计算机更聪明、高效地工作。| 图片来源:A. SHRIVASTAVA


在大数据这股汹涌膨胀的洪流中,Shrivastava也很有可能被淹没或感到气馁。幸运的是,他是一个如此积极正面的研究人员,在他的身体里面似乎没有郁闷的种子。


Shrivastava是一个或许会在特定问题上停滞数月或数年,然后在一场突如其来的头脑风暴中灵光乍现出像哈希函数的科学家。当他能够让一个运行缓慢的计算机系统投入高速的运转时,他会说:“这一切都是值得的。”

 

参考来源:

https://www.sciencenews.org/article/anshumali-shrivastava-sn-10-scientists-watch



关于我们
下载视频观看
联系方式
通信地址

北京市海淀区清华东路甲35号(林大北路中段) 北京912信箱 (100083)

电话

010-82304210/010-82305052(传真)

E-mail

semi@semi.ac.cn

交通地图
版权所有 中国科学院半导体研究所

备案号:京ICP备05085259-1号 京公网安备110402500052 中国科学院半导体所声明