数字图像处理

数字图像绪论--视觉感知要素（1.1）

Bridge619

2022-08-01 / 0 评论 / 533 阅读 / 0 点赞

08/01

1.数字图像绪论

1.1 视觉感知要素

1.1.1人眼的结构-眼球壁与眼球内容物

1.1.1.1眼球壁

眼球壁由三层膜结构组成：前 $\frac{1}{6} $角膜与后$\frac{5}{6}$的巩膜组成纤维层；脉络膜、睫状体和虹膜组成中间的血管层；最内层为网膜层，为视网膜所在处。

1.纤维层：

角膜是一种硬而透明的组织，覆盖着眼睛的前表面。
巩膜是一层与角膜相连包围着眼球其他部分的不透明膜。

2.血管层：

脉络膜：脉络膜里面包含有血管网，是眼睛的重要滋养源；因含有丰富的色素，故脉络膜有遮光作用，亦能够防止眼球内部光线反射。
脉络膜的最前面分为睫状体和虹膜。虹膜的收缩和扩张控制着进入眼睛的光亮，虹膜的前面包含有眼睛的可见色素，后面则包含有黑色色素。

3.网膜层：

视网膜：眼睛最里面的膜，布满整个后部的内壁，是脊椎动物和一些头足纲动物眼球后部的一层非常薄的细胞层。它是眼睛中将光转化为神经信号的部分。又称视衣、眼球内膜、眼球神经膜。

由前段至后段分为视网膜虹膜部、视网膜睫状体部和视网膜视部，前两部无感光功能，因此称为视网膜盲部。

视网膜另可由外向内粗分为色素上皮与神经上皮；前者再细分为9层，其中的感光层含有可以感受光的视杆细胞和视锥细胞。这些感光层的细胞将它们感受到的光转化为神经信号，这些信号被视网膜上的其它神经细胞处理后，转变为视网膜神经节细胞的动作电位。视网膜神经节细胞的轴突组成视神经。视网膜不但有感光的作用，它在视觉中也有重要作用。在形态形成的过程中，视网膜和视神经是从脑中延伸出来的。

每个人的视网膜血管结构都不一样，因此可用于生物特征识别。

1.1.1.2眼球内容物

围在眼球壁内的是眼球内容物，包括房水、玻璃体、和柔韧的水晶体。房水（水样液）是一种清澈的液体，存于两个区域：晶状体暴露的区域，在角膜和虹膜之间的眼前房。晶状体由透明细纤维组成的睫状体内的悬韧带悬吊着。玻璃体是一种由水和蛋白质组成的透明物质，具有果冻状和黏稠性的成分。

晶状体：晶状体由同心的纤维细胞组成，并由附在睫状体上的纤维悬挂着。晶状体包含60%~70%的水、6%的脂肪和比眼睛中任何其他组织都多的蛋白质。

晶状体由稍黄的色素着色，其颜色随着人的年龄的增大而加深。晶状体吸收大约8%的可见光谱，对短波长的光有较高的吸收率。在晶状体结构中，蛋白质吸收红外光和紫外光，吸收过量时会伤害眼睛。

1.1.2眼睛中图像的形成

普通照相机中，镜头有固定的焦距，各种距离的聚焦是通过改变镜头与成像平面间的距离实现的，数码相机的成像芯片放置在成像平面上。
人眼中的成像与照相机的成像相反，晶状体和成像区域（视网膜）之间的距离是固定的，对各个距离的正确聚焦是通过改变晶状体的形状实现的。

睫状体中的纤维可实现这一功能，在远离或接近目标物时纤维会分别变扁或者加厚晶状体。晶状体中心和视网膜沿视轴的距离大约是$17mm$。焦距约为$14$~$17mm$，在眼睛放松且聚焦距离大于$3m$时，焦距约为$17mm$。

下面一张图中的几何关系说明了如何得到一幅在视网膜上形成的图像的尺度。

人眼观看一棵棕榈树的图解

假设一个人正在观看距其100$m$，高15$m$的一棵树。

令$h$表示视网膜图像中该物体的高度，由上图的几何形状可以看出$\frac{15}{100} = \frac{h}{17},h=2.55mm$。

视网膜图像主要聚焦在中央凹区域，光接受器的相对刺激作用产生感知，把辐射能转变为电脉冲，最后由大脑解码。

人眼视觉过程：

光刺激 $\longrightarrow$ 左右眼视网膜接受 $\longrightarrow$ 视网膜神经处理 $\longrightarrow$ 视觉通道
$\longrightarrow$ 大脑皮层处理 $\begin{cases}
1.存储参考图像\2.信息处理 \3.特征提取\4.决策 \5.描述\\end{cases}$

1.1.3亮度适应和辨别

因为数字图像作为离散的灰度级来显示，所以眼睛对不同亮度级别的辨别能力在显示图像处理结果中是一个重要的考虑因素。

人的视觉系统能够适应的光强度级别范围是很宽的——从暗阈值到强闪光约有$10^{10}$ 个量级。
主观亮度：人的视觉系统感觉到的亮度，是进入人眼内的光强度的对数函数。
明适应：人由暗处走到亮处时的视觉适应过程，称为明适应。当人由暗处走到亮处时，人眼一时无法辨认清物体，需要大约一分钟的调整适应时间。
暗适应：人由亮处走到暗处时的视觉适应过程，称为暗适应。当人由亮处走到暗处时，人眼一时无法辨认物体，需要大约三十分钟的调整适应时间。
视觉惰性(视觉暂留)：光像一旦在视网膜上形成，在它消失后，视觉系统对这个光像的感觉仍会持续一段时间，大约为(1/20--1/10)s。
视觉连带集中：人眼一旦发现缺陷，视觉立即集中在这片小区域，密集缺陷比较容易发现。
视觉的心理学特性：视觉过程，除了包括基于生理基础的一些物理过程之外，还有许多先验知识在起作用。这些先验知识被归结为视觉的心理学知识，它们往往引导出现视错觉。
同时对比度：人眼睛无法判断出视场中目标的绝对亮度。因为人类视觉对亮度的主观响应与目标物的背景亮度有着密切的关系。

1.2 图像处理与计算机视觉的相关概念

1.2.1 图像的基本概念

图：反射光或透射光的分布，或自身发出的能量（客观）。
像：在人的视觉系统对图的接受在大脑中形成的印象或认识（主观）。
观察系统使用的光波段：可见光、红外、X射线、微波超声波、射线等。
图像处理：是对图像信息进行加工处理，以满足人的视觉心理和实际应用的需求。
图像处理方法：光学方法、电子学方法。

模拟图像:

又称连续图像，是指在二维坐标系中连续变化的图像，即图像的像点是无限稠密的，同时具有灰度值（即图像从暗到亮的变化值）。连续图像的典型代表是由光学透镜系统获取的图像，如人物照片和景物照片。

**连续的:**指从时间上和数值上是不间断的

数字图像:

又称数码图像或数位图像，是二维图像用有限数字数值像素的表示。由数组或矩阵表示，其光照位置和强度都是离散的。数字图像是由模拟图像数字化（采样和量化等）得到的、以像素为基本元素的、可以用数字计算机或数字电路存储和处理的图像。

像素的值代表图像在该位置的亮度，称为图像的灰度值。数字图像像素具有整数坐标和整数灰度值。

数字图像可以充分利用现代化的数字通讯和信息传输技术

数字图像可以长期保存和永不失真

1.2.2 数字图像处理的特点

信息量大：512×512×8bit＝256KB ，256KB×25帧/s＝6400KB=6.25MB
占用的频带较宽：电视图像的带宽$5$~$6MHz$ ，而语言带宽4$KHz$，频带越宽，技术实现难度越大
像素相关性大：压缩潜力大
评价受人的影响大

1.2.3 计算机视觉

用于计算机实现人的视觉功能，对客观世界的三维场景的感知、识别和理解
研究用计算机来模拟人和生物的视觉系统功能的技术学科，是当前计算机科学中的一个非常活跃的领域。
既是工程领域，也是科学领域中的一个富有挑战性重要研究领域。
是一门综合性的学科，其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学，神经生理学和认知科学等。

1.3 图像处理与计算机视觉的主要研究内容

1.3.1 图像处理

对图像进行一系列的操作以达到预期的目的的技术称作图像处理。

图像处理的内容相当丰富，包括狭义的图像处理、图像分析与图像理解。

狭义的图像处理着重强调在图像之间进行的变换，是一个从图像到图像的过程，是比较低层的操作。
狭义的图像处理主要满足对图像进行各种加工，以改善图像的视觉效果，或对图像进行压缩编码以减少所需存储空间或传输时间，达到传输通路的要求。
- 特点：主要在像素级进行处理，处理的数据量非常大。

图像处理可分为模拟图像处理和数字图像处理两种方式。

模拟图像处理：利用光学、照相和电子学方法对模拟图像的处理称为模拟图像处理。目前，许多军用、宇航的处理仍采用光学模拟处理。
数字图像处理：利用计算机对数字图像进行系列操作，从而获得某种预期的结果的技术称为数字图像处理，又称计算机图像处理。通常，也简称为图像处理。

1.3.1.1数字图像处理方法

数字图像的处理方法种类繁多，根据不同的分类标准可以得到不同的分类结果。

根据对图像作用域的不同，数字图像处理方法大致可分为两大类，即：空域算法和变换域算法。

1)空域处理方法

空域处理方法是指在空间域内直接对数字图像进行处理。在处理时，既可以直接对图像各像素点进行灰度上的变换处理，也可以对图像进行小区域模板的空域滤波等处理，以充分考虑像素邻域像素点对其的影响。

空域处理法主要有两大类：
(1)邻域处理法 (2)点处理法

2)变换域处理方法

变换域处理方法首先主要是通过傅立叶变换、离散余弦变换、沃尔什变换、小波变换等变换算法，将图像从空域变换到相应的变换域，得到变换域系数阵列，然后在变换域中对图像进行处理，处理完成后再将图像从变换域反变换到空间域，得到处理结果。

1.3.1.2 图像变换

图像变换是图像处理和图像分析的一个重要分支，它将图像从空间域变换到变换域，然后在变换域对图像进行处理和分析。
图像变换是许多图像处理和分析技术的基础，是图像增强和复原的基本工具，也是图像特征提取的重要段。
常用的图像变换有傅立叶变换、DCT变换，小波变换等。

1.3.1.3 图像增强

图像增强是指根据一定的要求，突出图像中感兴趣的信息，而减弱或去除不需要的信息，从而使有用信息得到加强的信息处理方法。
根据增强处理过程所在的空间不同，图像增强技术可分为基于空间域的增强方法和基于频率域的增强方法两类。
图像增强主要方法有直方图增强、空域滤波法、频率域滤波法以及彩色增强法等。

1.3.1.4 图像复原

图像复原也叫图像恢复。其目的是找出图像降质的起因，并尽可能消除它，使图像恢复本来面目。
常用的恢复有纠正几何失真、从已知图像信号和噪声的统计特性入手，用Wiener滤波等方法来改善信噪比等。

1.3.1.5 图像编码与压缩

图像编码就是利用图像信号的统计特性及人类视觉的生理学和心理学特性对图像信号进行高效编码，以解决数据量大的矛盾。

图像编码的目的有三个:

①尽量减少表示数字图像时需要的数据量；

②降低数据率以减少传输带宽；

③压缩信息量,便于特征抽取，为识别作准备。
分类:

①根据解压重建后的图像和原始图像之间是否具有误差，图像编码压缩分为无误差编码和有误差编码两大类。

② 根据编码方法作用域不同，图像编码分为空间域编码和变换域编码两大类。

1.3.2 图像分析

图像分析主要是对图像中感兴趣的目标进行检测、测量和分类，从而建立对图像的描述。

图像分析主要研究用自动或半自动装置和系统，从图像中提取有用的测度、数据或信息，生成非图像的描述或者表示。
图像分析的内容分为特征提取、符号描述、目标检测、景物匹配和识别等几个部分。

特点：是一个从图像到数据的过程，可以看作是中层处理。

中层操作:

1.3.3 图像理解

图像理解是在图像分析的基础上，进一步研究图像中各目标的性质和它们之间的相互联系，并得出对图像内容含义的理解以及对原来客观场景的解释，从而指导和规划行动。图像理解有时也叫景物理解。

图像理解主要是高层操作，其处理过程和方法与人类的思维推理有许多类似之处。

高层操作:

利用计算机系统解释图像，实现类似人类视觉系统理解外部世界。其正确的理解要有知识的引导，与人工智能等学科有密切联系。仍是一个有待进一步探索的领域。

1.3.4 图像工程的内涵

可分为图像处理、图像分析和图像理解三个层次

1.3.5 计算机视觉(CV)

1.3.5.1 计算机视觉(CV)

研究对象：利用二维投影图像恢复三维景物世界。
研究目标：根据感测到的图像对实际物体和场景做出有意义的判定。根据图像来构造出对场景的描述。

1.3.5.2 计算机视觉(CV)研究要达到的目的

根据一幅或多幅二维投影图像计算出观察点到目标物体的距离
根据一幅或多幅二维投影图像计算出目标物体运动参数
根据一幅或多幅二维投影图像计算出目标物体的表面物理特征

1.3.5.3 计算机视(CV)的任务

中心任务就是对图像进行理解

对单幅图像的理解

对多幅图像的理解

对视频图像的理解

理解什么？形状、位置、运动

1.3.5.3 计算视觉

计算视觉（Computational Vision）用计算机信息处理的方法研究人类视觉的机理，建立人类视觉的计算理论。

计算视觉可被认为是计算机视觉中的一个重要研究领域。

视觉信息：
- 人类视觉系统感知的信息
- 人类发明的各种视觉装置所获取的信息
- 由这些信息推导出的其他表现形式
- 抽象出的高级表达和行为规划以及与其密切相关的信息和经验
视觉信息系统

采集、表达、处理、分析、理解

1.4 图像处理与计算机视觉的相关学科领域

1.4.1 图像处理与相关学科的联系和区别

1.4.1.1 图像处理和数字信号处理

数字信号处理与图像处理是紧密相关的学科。

1.4.1.2 图像处理与计算机图形学

计算机图形学与图像处理是逆过程。

1.4.2 图像处理与相关学科的关系

多学科的交叉与结合。
计算机研究领域绝大多数问题都是病态的，存在着诸多不确定性因素。
一个相对完备的视觉系统是也是一个知识管理系统。
基于几何、概率和运动学计算与三维重构的计算视觉理论，它的基础包括摄影几何学、刚体运动力学、概率论与随机过程、图像处理、人工智能等理论。

1.5 图像处理与计算机视觉的发展与应用

1.5.1 数字图像处理

1.5.1.1 数字图像处理的发展

数字图像处理起源于20世纪20年代。

当时，人们通过Bartlane海底电缆图片传输系统，从伦敦到纽约传输了一幅经过数字压缩后的照片，从而把传输时间从一周多减少到不到3小时。为了传输图片，该系统首先在传输端进行图像编码，然后在接收端用特殊打印设备重构该图片。

该应用已经包含了数字图像处理的知识，但还称不上真正意义的数字图像处理，因为它没有涉及到计算机。
第一台可以执行有意义的图像处理任务的大型计算机出现在20世纪60年代早期。

1964年，位于加利福尼亚的美国喷气推进实验室（JPL实验室）处理了太空船“徘徊者七号”发回的月球照片，以校正航天器上电视摄像机中的各种类型的图像畸变，标志着图像处理技术开始得到实际应用。
数字图像处理技术在20世纪60年代末和20世纪70年代初开始用于医学图像、地球遥感监测和天文学等领域。

其后，军事、气象、医学等学科的发展也推动了图像处理技术迅速发展。

数字图像处理技术已经融入到科学研究的各个领域，成为工程学、计算机科学、信息科学、生物学以及医学等各学科之间学习和研究的对象。

1.5.1.2 数字图像处理的应用

生物医学中的应用
- 最突出的临床应用就是超声、核磁共振、γ相机和CT等技术。如X射线照片的分析，血球计数与染色体分类等。
遥感领域中的应用
- 森林遥感图像处理与应用
- 国土资源遥感图像处理与应用
- 海洋遥感图像处理与应用
工业方面的应用
- 在生产线中对生产的产品及部件进行无损检测也是图像处理技术的一个广泛的应用领域。
  
  如晶振元件缺陷检测、食品包装出厂前的质量检查、浮法玻璃生产线上对玻璃质量的监控和筛选、零件及产品无损检测、焊缝及内部缺陷检查、流水线零件自动检测识别、邮件自动分检、生产过程的监控等。
军事公安领域的应用
- 可采用图像处理与模式识别等方法实现监控、案件侦破、交通管理等。如巡航导弹地形识别；侧视雷达的地形侦察；遥控飞行器RPV的引导；目标的识别与制导；警戒系统及自动火炮控制；反伪装侦察；指纹自动识别；虹膜识别；犯罪脸形的形成；手迹，人像，印章的鉴定识别；过期档案文字的复原等。
通信中的应用

图像通信按业务性能可分为：
- 电视广播
- 可视电话和会议电话
- 传真
- 图文电视和可视图文
- 电缆电视（CATV）
文字识别
- 计算机文字识别俗称光学文字识别（OCR），是指通过计算机技术及光学技术对印刷或书写的文字进行自动的识别，是实现文字高速自动录入的一项关键技术。
- 文字识别通过一定的方法和技术提取文字的特征并将其存贮于机器设备中，实现对文字的自动识别。
- 包括：图文输入、前处理、单字识别及后处理。
交通
- 电子警察、智能交通等。

1.5.2 计算机视觉

1.5.2.1 CV的发展

计算机视觉作为一门学科开始于60年代初。

计算机视觉的基本研究中的许多重要进展是在80年代取得的。

现在计算机视觉已成为一门不同于人工智能、图像处理、模式识别等相关领域的成熟学科。

1）计算机视觉20多年来的二大事件

Marr计算视觉理论（80年代）：使计算机视觉成为一门独立科学。
- 首次从信息处理的角度综合了图像处理、人工智能、心理物理学、神经生理学及临床精神病学的研究结果。
- 提出了第一个较为完善的视觉系统框架为计算机视觉这门学科形成奠定基础。
- 马尔视觉理论特点
  - 没有考虑视觉中的选择性和整体性
  - 没有重视高层知识的知道
  - 信息的加工过程自下而上，单向流动，没有反馈，计算量大
- Marr计算视觉理论二个核心论点：
  - 人类视觉的主体是重构可见表面的几何形状
  - 人类视觉的重构过程是可以通过计算的方式完成的。
- Marr视觉系统研究的三个层次
  
  $\begin{cases}
  计算理论层次：计算目的于计算策略；总的输入与输出 \
  表达与算法层次：各模块的输入、输出和内部的信息表达、以及实现计算理论规定的目标的算法 \
  硬件实现层次：如何用硬件实现以上算法\end{cases}$
- Marr 视觉信息处理的三个阶段
  
  $\begin{cases}
  图像低层处理：图像获取；图像预处理包括图像滤波、增强、矫正；抽取要素图；2D表达 \
  中层处理（空间表达与建模）：恢复其2.5维结构、形状与位置；进行建模与表达；以观察者为中心的可见表面的取向、边界、深度等 \
  高层分析：识别、分析、理解、描述；以物体为中心的坐标系中，用体元和面元集合描述形状的空间组织形式\end{cases}$
摄影机自标定和分层重建（90年代）：使计算机视觉走出了低谷。

2）CV发展现状

基于几何方法的计算机视觉理论体系已臻于完善
机器学习方法受到越来越多的关注
针对众多特定领域的应用研究不断深入，较大规模的应用系统逐步走向商业化

1.5.2.2 CV的应用

计算机人-机交互
自动导航
生产自动化
多媒体技术、数据库与图像通信
医学影响处理
三维场景建模与显示

文章不错,扫码支持一下吧~

版权属于: Bridge619 - Bridge619的个人博客

本文链接: https://www.bridge619.com/article/dip1.1

作品采用: 《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权