2.不在于图像理解模型是否与人类的认知过程一致,关键是要有效;
3.图像是最自然的自然语言,图像理解可以借鉴自然语言处理中的方法。
从CVPR、ICCV、ECCV、IJCV、PAMI、JOV等国际会议和期刊中,我们可以看出目前关于目标检测(如车辆检测、人脸检测和行人检测等)、目标识别(如人脸识别)、目标分类、场景理解等的文献非常多。面对如此多的文献,我晕,我倒。敢问“CV”路在何方。为了不让自己在如此多的文献中迷失了方向,本文结合我的研究方向(图像理解)在文献堆中杀出一条“血路”,梳理出一条主线。
从计算机信息处理的角度来看,个人认为一个完整的图像理解系统可以分为以下的四个层次:数据层、描述层、认知层和应用层(注:此分层方法类似于Selfridge(谢夫里奇)于1959年提出的小妖模型(Pandemonium Model)。二者的不同在于Selfridge的小妖模型是从认知的角度提出的一个模式识别的计算机模型,而本文是从信息处理的角度提出的一个图像理解系统分层框架;其次二者每层的任务也是不一样的)。各层的功能如下:
数据层:获取图像数据,这里的图像可以是二值图、灰度图、彩色的和深度图等,本文主要针对摄像头采集到的彩色照片/灰度图。主要涉及到图像的压缩和传输。数字图像的基本操作如:平滑、滤波等一些去噪操作亦可归入该层。该层的主要操作对象是象素。
描述层:提取特征,度量特征之间的相似性(即距离); 采用的技术有子空间方法(Subspace)如:ISA,ICA,PCA, 。该层的主要任务就是将象素表示符号化(形式化)。
认知层:图像理解,即学习和推理(Learning and Inference);该层是图像理解系统的“发动机”。该层非常复杂,涉及面很广,正确的认知(理解)必需有强大的知识库作为支撑。该层操作的主要对象是符号。具体的任务还包括数据库的建立。
应用层:根据任务需求(分类、识别、检测)(ps:如果是视频理解,还包括跟踪),设计相应的分类器、学习算法等。
图像理解的潜在应用包括:
1。智能视觉监控:
2. 图像检索
3. 图像补充
4.图像和文本之间的相互转换
(1)Image2Text(I2T):将图像翻译成文本,不仅要描述出图像中的物体,而且要概括出这些物体的组合所表达的中心思想。从这个意义上,可以把这个应用称为“图像摘要”(Image Abstract,IA)。
(2) Text2Image(T2I):将文本转化为图像。具体的应用如:
a) 根据用户输入的一段文字,让电脑自动为其配图,让电脑自动为你用图解释图片(auto-illustration);
b) 让电脑根据歌词自动制作MTV。
图像和文本之间的相互转换涉及到图像的场景识别与理解、目标的检测和识别、图像融合等,可以说是图像理解中最具挑战性的和最具趣味性的研究课题。
如果这个转换研究成功的话,那么电脑就具有“看图说话”、“看书作图”的能力。注意这里的文本,可以是现代文、歌词、唐诗、宋词等,也可以是音乐、歌谱、声音等等。
太佩服自己了,竟然总结出如此的应用。哈哈。
本文的后续部分是文章的阅读笔记,每篇文章将按照上述的四个层次进行总结。
【关于作者】
MIT的Associate Professor,主要的研究方向是场景识别和目标识别(scene and object recognition).目前的研究中通常将目标识别和场景识别分开研究,作者希望搭建一个融合这个识别任务的系统。其代表作有:LableMe、80million images、Gist和Shareing features等。A. Torralba是Scene Understanding Symposium(SUnS)的主要组织者和参与者,其个人主页:http://web.mit.edu/torralba/www/.
【文章摘要】
“模型+数据库”是计算机视觉中目标和场景识别重点研究的两个方面。但从目前的文献来看,大部分的研究集中在如何构建一个更好的模型,对数据集的关注相对较少。本文作者眼光独到,从建造一个大规模的数据库入手,告诉我们:如果数据库大了,做什么都好办。
作者利用关键字搜索在一些著名的搜索引擎上收集图片,经过8个月的努力,最终收集整理了79302017张图片(32*32),每张图片对应一个单词(即,一个语义标注),用到的名词共有75062个。整个数据库不压缩的话要占用750G的硬盘空间,规模之大实在是空前的。
由于标注中存在中噪音,文中作者借助wordnet进行消除。基于如此庞大的数据库,作者向我们展示了如何利用它和wordnet voting scheme进行人体检测(person detection)、人体定位(person localization)、场景识别(scene recognition)、自动图像标注(automatic image annotation)及图像着色(Image Colorization)等有趣的应用。文中所采用的方法,但是很有效,这主要归功于作者所建立的数据库。“林子大了,什么鸟多有”。在80 million这样的数据库中,找两张相似度较高的图片概率是很大的,因此目标的检测和识别也就变得更加容易了。
更多关于此数据库的信息参见http://people.csail.mit.edu/torralba/tinyimages/。
在四层模型中,可以将其划入认知层中,因为数据库的建立是认知层的一个任务。
【文章摘要】
自从A. Torralba提出tiny images后,很多研究者开始从事这方面的研究。本文通过实验说明:(1)对于场景分类来说,32*32的分辨率已经足够;(2)当图片的分辨率很小时,颜色是场景分类中的一个重要信息。文章作者所采用的特征(区域直方图)和分类方法(knn)都相当简单,但是却取得了46%的识别率。
本文作者采用的图像特征虽然简单,但是其思想相当不错。作者通过归一化图像块(8*8)的直方图,并计算其熵,用熵的平方作为该图像块的权值;然后将图像快划分为left, right, top, bottom, center五个区域,将其相应的图像块直方图累加起来。这种带权值的区域直方图思想值得借鉴,因为该方法能在一定程度上反应出图像的空间位置关系。
本文重点要传递的思想是:利用tiny images进行场景的分类是一个有趣的、有效的方法。在图像理解的四层模型中,本文所描述的区域直方图属于表示层。
作者在文章的最后对有关tiny images的研究进行了展望:
“…, one could use tiny images as detector for salient points. It would be possible to divide an image into a set of tiny images, which are then classified into predefined keypoint categories. If the tiny image is not rejected, it can be assigned to a class of keypoints and therefore describes the image with quite accurate localization. As a result, individual salient points – unrelated to edges or gradients – could be defined.”
【关于作者】
R. Raina(homepage:http://www.stanford.edu/~rajatr/)师从Andrew Y. Ng,在斯坦福大学AI Lab学习。研究方向是机器学习及其应用,目前主要研究是借鉴神经科学的非监督(Unsupervised)学习算法。
【文章摘要】
“Self-taught Learning”,自己教自己学习的学习?香港科技大学杨强教授将其翻译成“无师自通”,相当准确传神。
本文提出的“无师自通”迁移学习方法是一种新的机器学习框架。它不同于传统的监督学习(Supervised Learning)、无监督学习和增强学习(Reinforcement Learning,或者称为“Learning with a critic”---基于评价的学习),该方法通过从未标记数据样本(Unlabeled Data)中学习到一个紧凑的、有效的表示(Representation)(即,从未标记样本中学习一个较高层次的特征表示方法),然后将学习到的特征表示方法应用到监督学习任务中。“无师自通”学习方法不仅利用到了Labeled Data,也用到了Unlabeled Data,所以它既不是监督学习,也不是非监督学习,而是一种半监督学习(Semi-supervised Learning,关于半监督学习的综述参见[Zhu, 2008] Semi-supervised Learning Literature Survey)。
Self-taught Learning究竟迁移什么东西呢?它将从未标签数据样本中学到的数据表示方法(可以看成知识)迁移到带标签的数据样本中。该方法本质上可以看成是一种特征空间的变换,或者说“维数约减”(注:其实,维数约减说法比较不确切,因为诸如PCA之类的维数约减方法变换之后的维数通常比原来的维数少,但是本文的特征空间变换采用Sparse Coding,变换后的维数可以比原来的维数大)。目前关于半监督学习的方法很多,而Self-taught Learning的独特之处在于它不要求未标记的数据样本和已标记的数据样本(1)标记集一样;(2)二者独立同分布(iid)。
本文提出的“Self-taught Learning”算法可以归纳为求解两个优化问题。
1.通过Sparse Coding方法求解未标记数据样本集的“基元”(basic elements)。注意:(1)基元的个数可以大于未标记样本的维数;(2)基元集不要求是正交集。这两点是Sparse Coding和PCA方法的显著区别。该优化问题的直观解释就是寻找一组基,使得在该基下,重构误差和重构系数尽可能地小。
2.求解完第一个优化问题后,获得了一组基。接下来要做的就是求已标记的样本集在这组基下的系数,文中将这个过程建模为一个优化问题特征向量,即在基下的“最优”系数。
最后,作者通过图像分类、手写体识别和文本分类等应用,验证了“无师自通”这种半监督学习方法的有效性。作者还指出了一个具有重要的理论价值的研究:未标记样本集和已标记样本集之间的相似性是如何影响到Self-taught Learning算法的性能。
在图像理解的四层模型中,本文提出的Self-taught Learning旨在通过未标记样本集学习到一个比较有效的特征表示方法,并将该方法迁移到已标记的样本集中,因此可以将其归类到表示层。
【关于作者】
R. C. F. Wong,研究的主要方向是图像的语义检索、统计视觉计算等。
【文章摘要】
在拍摄不同场景的图片时,拍摄者一般会选择不同的图像获取参数(image acquisition parameters)。如拍摄风景画是,为了尽量能把所看到的景物都拍摄下来,一般会将光圈调小,物距较长;拍人物肖像的时候,一般物距较小;拍体育图片的时候,一般采用长焦距镜头、快门等。因此根据拍摄时摄像机的参数(aperture---孔径、exposure time---曝光时间、subject distance---物距、focal length---焦距、fire activation---闪光?),可以确定以一幅图片的类别。文中采用决策树判别方法学习到10条规则对图像进行场景分类。
本文虽然能对Web上的图像进行自动的语义标注,但是每一幅图像只有一个类别的标签,且类别的数目有限,因此这种标注方式对图像的描述能力十分有限。文中虽然提出了将图像的拍摄参数和底层信息(颜色特征、纹理特征和形状特征)相结合的自动语义标注系统,但是没有给出具体的实现方案和实验结果。
本文最大的贡献在于提出了利用物理层的信息(图像拍摄参数)对图片进行语义标注。在图像理解的四层模型中,可将“基于图像获取参数的语义标注”划分到表示层中。
【作 者】
Jia Li(http://www.stat.psu.edu/~jiali/),女,中国人,Stanford博士毕业,现在PSU,与James Z. Wang(http://wang.ist.psu.edu/docs/home.shtml)同事。主要研究方向是统计学习及其在计算机视觉中的应用(如Image Annotation, Image Retrieval等),代表性研究成果Automatic Linguistic Indexing of Picture – Real Time: ALIPR(http://alipr.com)。
【文章摘要】
现有的图像搜索引擎如Google, MSN等,主要依据图片所在网页中的文字信息。通过这种方式对图片进行标注,存在着大量的噪声。对图片进行分类/标注,是语义图像检索中的一个关键步骤,也是计算机视觉中的难点和前沿问题。
本文和大多数文章一样,将图像的标注问题看成是一个分类问题。因此贯穿这篇文章的主线就是“特征提取–特征选择(变换) -聚类– 建立模型(分类器)”。在特征提取阶段,作者提出了一种新的特征表示方法,这种特征综合了颜色和纹理信息,同时记录了各个信息的分布情况(概率)。由于这种表示方法不是定长,因此作者提出了一个相应的聚类算法(类似于K-Means):Discrete Distribution Clustering。相似性度量采用Mallows Distance。通过聚类获得了一些表示概念(语义标签)的prototype(用质心表示),通过计算每张图像到质心的距离,利用距离建立起质心所在区域的模型。最后将这些模型这些加权来表示某一语义标签。
本文的解决问题的思路与Kah-Kay Sung的《Example-Based Learning for View-Based Human Face Detection》极其相像。在图像理解的四层模型中,作者的主要贡献在于表示层。同时本文提出的标注方法效率高,达到了实时。
在文章的展望部分作者提出了:1。加入3D信息和形状信息以提高模型的准确性;2。建立更大规模的数据库;3。充分利用上下文信息。个人认为通过加入3D信息以提高模型的准确性持怀疑态度。对于网络上的大量图片,一般都是没有什么联系的,通过单张图片获取3D信息这本身就是一个难题。再者,3D信息对于目标识别来说非常重要,但是对于图像的语义标注来说,指导意义不大。