图片: | |
---|---|
名称: | |
描述: | |
视觉是人类观察和认识世界非常重要的手段。据统计,人类从外部世界获取的信息约80%从视觉获取,这既说明视觉信息量巨大,又体现了视觉功能的重要性。同时,人类视觉是如此的功能强大,在很短的时间里,迅速地辨识视线里的物体,在人的视觉系统中,人的眼睛捕捉物体得到光信息。这些光信息经过处理,运送到大脑的视觉皮层,分析得到以下信息:有关物体的空间、色彩、形状和纹理等。有了这些信息,大脑作出对该物体的辨识。
对于人类而言,通过视觉来识别数字、识别图片中的物体或者找出图片中人脸的轮廓是非常简单的任务。然而对于计算机而言,让计算机识别图片中的内容就不是一件容易的事情。
图像识别的一般过程,前端是特征提取,后端是模式识别算法。后端的模式识别算法包括:K近邻算法(K-Nearest Neighbors)、支持向量机(SVM),神经网络等。对于不同的识别场景和越来越复杂的识别目标,寻找合适的前端特征显得尤为重要。
对于特征提取,抽象于人的视觉原理,提取有关轮廓、色彩、纹理、空间等相关的特征。以色彩为例,它是一种现在仍然在广泛使用的特征,称之为颜色直方图特征,这是一种简单、直观,对实际图片颜色进行数字化表达的方式。颜色的值用RGB三原色进行表示,颜色直方图的横轴表示颜色的RGB值,表示该物品所有颜色的集合,纵轴表示整个图像具有某个颜色值像素的数量,这样,计算机就可以对图像进行颜色表征。
以纹理特征为例,桔子会有凸凹不平的纹理,而苹果的纹理则非常光滑。这种局部的纹理刻画,如何通过特征抽象表示出来?Gabor 特征可以用来描述图像纹理信息的特征,Gabor 滤波器的频率和方向与人类的视觉系统类似,特别适合于纹理表示与判别。SIFT(Scale Invariant Feature Transform)特征全称尺度不变特征变换,是一种检测局部特征的算法,该算法通过把图中特征点用特征向量进行描述,该特征向量具有对图像缩放、平移、旋转不变的特性,对于光照、仿射和投影变换也有一定的不变性。
形状特征也是图像特征的重要一类,HOG(Histogram of Oriented Gradients)特征就是其中一种。HOG特征是一种描述图像局部梯度方向和梯度强度分布的特征。其核心内容是:在边缘具体位置未知的情况下,边缘方向的分布也可以很好地表示目标的外形轮廓。
上述特征提取算法提取的特征还是有局限的,尽管在颜色为黑白的数据集MNIST上的最好结果错误率为0.54%,但是在大型和复杂的数据ImageNet ILSVRC比赛的最好结果的错误率也在26%以上,而且难以突破。同时,提取的特征只在特定的场合有效,场景变化后,需要重新提取特征和调整模型参数。