图片: | |
---|---|
名称: | |
描述: | |
人类是怎么识别的?当我们看到一个东西,大脑会迅速判断是不是见过这个东西或者类似的东西。这个过程有点儿像搜索,我们把看到的东西和记忆中相同或相类的东西进行匹配,从而识别它。机器的图像识别也是类似的,通过分类并提取重要特征而排除多余的信息来识别图像。这就是最大的原理,看起来一点儿都不复杂对不对?
期初人工智能的先驱们也觉得这挺简单,然鹅……
那是1966年的夏天,人工智能之父Minsky给学生布置了一个暑假作业:要求学生通过编写一个程序,让计算机告诉我们它通过摄像头看到了什么。于是一大票人从此走上了图像识别的不归路。
毕竟,50多年过去了,这个作业还不能说真正做完。。
1970s-1980s
到了上世纪七八十年代,Minsky布置的作业算是有了些眉目。现代电子计算机的出现,让计算机有机会尝试回答出它看到了什么东西。
研究人员首先从人类看东西的方法中获得借鉴。当时人们普遍认为,人类能看到并理解事物是因为通过两只眼睛可以立体地观察事物(现在看来当然是极大的误解……)。因此要想让计算机理解它所看到的图像,必须先将事物的三维结构从二维的图像中恢复出来,这就是所谓的“三维重构”的方法。
另一个灵感是,人们认为人之所以能识别出一个苹果,是因为人们已经有了先验知识:苹果是红色的、圆的、表面光滑的。如果给机器也建立一个这样的知识库,让机器将看到的图像与之匹配,是否可以让机器识别乃至理解它所看到的东西呢,这是所谓的“先验知识库”的方法。
这套方法只能够提取少数基本特征,实用性当然不高,只能用在某些光学字符识别、工件识别、显微/航空图片的识别等。
1990s
到了上世纪九十年代,图像处理硬件技术有了飞速进步,人们也开始尝试不同的算法,包括统计方法和局部特征描述符的引入,使得计算机视觉技术取得了更大的发展,并开始广泛应用于工业领域。
在“先验知识库”的方法中,事物的形状、颜色、表面纹理等特征受到视角和观察环境所影响,在不同角度、不同光线、不同遮挡的情况下会产生变化。因此,研究者的新方法是,通过局部特征的识别来判断事物,对事物建立一个局部特征索引,即使视角或观察环境发生变化,也能比较准确地匹配上。
2000s
进入21世纪,得益于互联网兴起和数码相机出现带来的海量数据,加之机器学习方法的广泛应用,计算机视觉发展迅速。以往许多基于规则的处理方式,都被机器学习所替代:机器自动从海量数据中总结归纳物体的特征,然后进行识别和判断。
这一阶段涌现出了非常多的应用,包括典型的相机人脸检测、安防人脸识别、车牌识别等等。数据的积累还诞生了许多评测数据集,比如权威的人脸识别和人脸比对识别的平台——FDDB和LFW等,其中最有影响力的是ImageNet,包含1400万张已标注的图片,划分在上万个类别里。
2010以后
到了2010年以后,借助于深度学习的力量,计算机视觉技术得到了爆发增长和产业化。出现了神经网络图像识别,这就是目前比较新的一种图像识别技术了。
它是怎么工作的,我在《财富》杂志上见过一张简明的示意图,把它汉化过来给大家看,算是一目了然了:
通过深度神经网络,各类视觉识别的任务精度都得到了大幅提升。在全球最权威的计算机视觉竞赛ILSVR上,千类物体识别错误率在2011年时还高达25.8%,从2012年引入深度学习之后,后续4年的错误率分别达到了16.4%、11.7%、6.7%、3.7%,出现了显著突破。现在,人脸识别甚至能做到误判率低于百万分之一。
归根结底,机器的图像识别和人类的图像识别原理相近,过程也大同小异。只是技术的进步让机器不但能像人类一样认花认草认物认人,还开始拥有超越人类的识别能力。
比如,我非常期待技术大牛能赶紧开发出口红色号识别软件!!!
女:看看我和昨天有什么不同?
我:嗯……好……好像没什么不同……
女:我换了一支口红呀!你是眼睛瞎了吗?!!
我:哦
女友的口红啊,请放过我的肉眼…………