视觉优化范文-盘古文库

视觉优化范文

来源：开心麻花

作者：开心麻花

2025-09-23

视觉优化范文（精选8篇）

视觉优化第1篇

近年来,随着电子商务广泛渗透到社会经济生活的各个领域,网络零售份额的不断扩大,网上购物已经成为大众消费的日常行为习惯。在网购买家数量快速增长的同时,网店卖家数量也日益剧增,卖家之间的竞争日趋激烈,消费者对商品图片和店铺装修风格等视觉要素的要求也越来越高。这对淘宝天猫商城、淘宝个人网店、其他电子商务购物平台等商家来说,越来越需要优化自己的店铺视觉效果,从而吸引更多的消费者进入店铺和详情页,增加店铺的转化率和成交率。换句话说,网店已经成为一种重要的营销媒介。在网店经营推广中,主图决定了点击率,详情页决定了转化率。买家在网店上买东西,摸不到材质,尝不到味道,看不见客服,听不见声音,唯一能看到的就是网店中的图片和文字。因此,如何实现商品详情页的图文良好视觉效果可谓是重中之重,它也直接决定了客户是否愿意下单购买商品。

2 认识视觉营销

2.1 视觉营销的含义

相关传播学研究成果显示:人的信息来源中视觉方面占了70%,听觉方面占了20%,其他方面占了10%,可以说视觉是一种影响人行为的重要先决因素。视觉营销(VMD)是一种行之有效的市场营销手段,起初许多商家把它用于服饰行业终端卖场,商家们在橱柜中精心陈列衣服和首饰等常用服饰用品,用来引起顾客的视觉关注,激发顾客的内心兴趣,吸引顾客走进店铺再进一步观察了解,最终引起顾客购买的欲望直至发生购买行为。在网店应用中,视觉营销就是利用色彩、图像、动画和文字等营造的视觉冲击效应来吸引潜在顾客的关注,达到提升商品销量和增强店铺的吸引力的营销目的。

2.2 视觉营销在店铺经营中的作用

随着网店竞争日趋激烈,网店卖家急需破解的难题就是如何才能把顾客眼球吸引过来,把店铺的商品信息、服务理念和品牌文化等信息传达给顾客,同时还要促进商品销售和树立品牌形象。在破解此难题过程中,视觉营销起着不可或缺的作用。在营销学里有一种著名的AIDA模式,它分四步走:首先,引起顾客视觉关注;其次,唤起顾客内心兴趣;再次,激起顾客购买欲望;最后,促成顾客发生购买行为。网店视觉营销是以塑造网络店铺的良好形象和促进销售为根本目的的,那么网店卖家可以把视觉营销运用在商品展示中,形成一个自己店铺引力“磁场”,从而把潜在顾客的关注吸引过来,并把顾客的兴趣和购买欲望激发出来,让顾客愿意在网店中加长浏览商品的时间,这样不但能在顾客心目中树立起良好的店铺形象,而且会促成顾客购买行为,达到最终营销的目的。

3 网店商品详情页设计存在的主要问题

现在的网店详情页设计制作中都会存在或多或少的问题,它们都会直接影响买家对商品本身的关注程度,从而影响买家对店铺的整体印象,进而会影响到买家购买行为和店铺的销售业绩。具体的问题总结如下:

(1)页面结构布局主次不分。例如,商品属性、图片等重要的信息与邮费咨询、服务承诺等次要的信息摆放位置颠倒,造成顾客不能第一时间获得所需要的信息而失去兴趣直接跳离页面。

(2)帮助顾客判断的商品内容展示不充分。例如,顾客非常想了解商品的材质、尺寸、颜色、寓意、真伪辨别、普及知识、使用与保养、赠品、消费承诺、付款方式等信息不够齐全,从而降低顾客购买的信心。

(3)页面字体和颜色选择及使用缺乏统一感,造成视觉混乱。例如,有些卖家为了突显一些重要信息,要么使用红色的大号字体,要么底色色块使用鲜艳的颜色,这样做达到醒目的目的,但却付出失去了页面的整体性和视觉美感的代价,进而降低店铺的档次和品牌质感。

(4)广告在页面中所占篇幅过长,影响用户体验。主要体现在页面前几屏以大量的文字或其他广告为主,客户不能第一时间看见商品主体,另外广告图片过多会造成页面加载速度大大降低。糟糕的用户体验将会消耗客户的热情和耐心,降低客户的购物冲动,甚至引起客户跳离页面。

(5)商品图片品质过低,降低了商品品质。如商品图片模糊不清,影响客户对商品的把握和信任。

(6)页面设计为了视觉艺术感,忽略商品介绍。一味追求华丽或个性的设计效果,没有结合营销思维去突出商品本身的图片和介绍信息。

4 运用视觉营销优化网店详情页设计的策略

成功经营网络店铺,不仅要有获得客户认可店铺的商品,还需要有让客户轻松掌握简洁的页面结构布局,使用能引起客户对商品集中注意力、激起购买欲望的视觉营销设计。运用视觉营销优化网店详情页设计的策略具体如下。

4.1 运用视觉设计的策略

(1)网店商品详情页应遵循店铺品牌视觉规范来选择字体和颜色,保持与店铺主页风格相一致,实现整齐划一的视觉效应,从而保持整个店铺的品牌视觉形象。例如,选择字体首先要选择品牌企业视觉形象识别系统(VI)自身设定的字体,其次可以选择能避免视觉疲劳、自然醒目的字体。

(2)商品图片应选择一定画质的、统一而单纯的背景,整体画面要显得清晰明亮。为了让消费者能够从全方位连贯地浏览商品,并形成全面的商品印象,那么需要每个商品都使用不同大小和角度的配图。例如,细节图是详情页当中必不可少的模块,也是消费者相对比较关注的图片模块,细节图建议放置3~6张多角度特写图片,如图1所示。

(3)页面的广告轮播图应符合整体页面风格。

4.2 运用视觉营销提升用户体验的策略

(1)根据不同行业商品类别,从客户角度去思考问题,把客户想了解的商品属性信息通过详情页的图文设计出来,从而解开客户心中的疑问,这样做才是有的放矢,才能达到吸引顾客和促进销量的目的。例如,女装、数码两大典型行业消费者对于图片的需求程度前3位,如图2所示。

(2)对图片大小和质量要进行严格控制。由于商品图片色彩不同,其容量大小也随之不同,进而引起相应的问题(如无法达到原先的设计效果或影响网速),最后影响了整体页面使用效果。

(3)对页面长度要做好充分的计划控制,为了不影响商品本身的关注度,那么商品展示图片之前的广告描述就不宜过多了。相关买家在详情页的停留时间数据的权威调查,如图3所示,在设计详情页时要充分考虑这个因素。

经过实践证明:PC端淘宝详情页通常为20屏,如果详情页屏数过多,容易让买家失去耐心,跳离详情页;手机淘宝详情页通常为4页10屏;详情页图片不宜超过25张,图片宽度不宜超过750px,高度不宜超过1500px,单图最大不宜超过300KB。

(5)对页面的信息内容要一目了然,并有助于客户的判断。要以客户身份多思考问题,例如商品尺码不合适如何处理?有色差如何处理?这些客户比较关注的问题要给出相应的质量保证、服务承诺和售后服务,从而消除客户的购物顾虑,获得客户的信任和认可。

5 结语

当前,在电子商务快速发展的背景下,研究运用视觉营销设计制作网店商品详情页面的策略是相当有必要的,它将有助于网店在激烈的竞争市场中立于不败之地,并实现网店可持续健康发展。

参考文献

[1]维索基·简.信息设计[M].南京:译林出版社,2009.

[2]张靖靖.网络商店展示设计探析[J].湖北师范学院学报:哲社版,2013(5).

[3]刘娜娜.以用户为中心的设计理念在网页设计中的运用[J].广东科技,2013(8).

[4]武彦如.网店“商品描述”页面设计改进策略[J].包装工程,2012,33(6).

视觉优化第2篇

一、读透“图像三性”，优化教学设计

1.解读教材，寻找图像的冲击性

每次拿到美术教材进行教学时，笔者往往觉得教材的图像不能满足自己的要求，觉得过于常规而失去了美术的视觉性。在教《新村落新社区》一课时，笔者查阅了相当多的书籍和教材，大胆地采用了俯视角度，从形体、材质、色彩等方面观察建筑来提示引入新课，并结合身边的各种小型立体包装进行立体的构成设计和拼摆，培养学生的动手能力和美的表达能力。作为教材中的图像，首先要对学生的视觉形成冲击，从而引发他们的兴趣，对教学内容产生好奇心；其次是图像质量尽可能高并突出重点；最后是图像的细节部分得到充分的展示。由于学生是教材最终的使用者，学生可以借助图像进行自主的学习，同时教师从教材的图像中看到新的教学点，从中获得新的灵感。教材图像不仅仅是一张图，最终的目的是引导学生关注美术学科的基本知识，给人以种种美的感受。

2.品味教材，挖掘图像的艺术性

图像是美术教材的“本”，教材的美术价值在很大程度上是“由图而生”。因此图像质量的高低和图像格调的雅俗是关键。中国有一句老话：爱美之心人皆有之。美因人而异，面对学生，图像的艺术性不仅体现在内容上，还表现在形式、色彩对比、质感、意境传达等方面。教材中的图像有的是形象可爱、色彩柔和的画面；有的是形状奇特、色彩鲜艳的画面；有的是色彩丰富、格调高雅的画面。大量的作品不仅需要教师有针对性地引导孩子欣赏，还要帮助孩子发现其中的美。如何让孩子品味到图像的艺术性呢?首先教师要有较高的个人艺术修养，能找到不同层次“美”的图像；其次是图像本身要有较高的图像质量，包括大小、清晰度、质感、色彩真实度等；再次是需要图像被呈现出来的载体和相应的呈现方式的承托。教材中的图像不仅是一张图，更是一种美感的传递，需要教师巧妙地引导学生看、读、品味作品。

3.研读教材，重构图像的系统性

作为教材的使用者之一，教师应该是读教材时间最多、拥有教材的册数最完整的人。在教学时，我经常去看教材内容前后的关联性，根据学情确定合适的教学目标。一些有经验的教师说先要把教材读厚再把教材读薄，是很有道理的。我常常用很多方法去读教材。首先是快速看教材图片，然后把自己的第一感觉记录在教案纸上或心中，包括图片给我的视觉震撼力、图片的创意色彩等；其次是细读教材的提示和要求，把自己对图像教材的分析逐渐地加入到整册教材中去思考，考虑“第一感觉”和“教材编写者”之间的重合区；最后是寻找感兴趣、有特色的教材图像素材，整理内容、设计教学目标、实施教学过程、完成教学任务。根据图像某一个联系点延续教学的纵横向发展，如有时可以从图像的内容上进行延续，可以建立以“人物”为主要内容的图像文件夹或档案袋；也可以以某种美术元素来建立独立的文件夹或档案袋如“黑白画”；还可以通过一种主题建立延续……

这样的延续性图像建立不仅完善了教材图像的系统性，还为教师的教学做好了准备，避免了“茫茫大海，无处寻觅”的尴尬情景。教材中的图像不仅是一张图，更是一种系统化的重构，教师要用最吸引人的图像和灵感来设计出适合孩子学习的思路。

二、突破教学瓶颈，巧用图像资源

1.从经典图像中发现“教学点”

常听说一些大学的美术教师告诫自己：多去看看大师的作品，你就会有所收获!在教学之余，我常常去看一些作品展览，翻阅一些美术的图书，这总是能让我很兴奋，有时突发奇想，开始天马行空地设计自己的教学。欣赏无处不在，教材中总会有很多的名人大作，有的气韵生动，有的浓郁粉彩，有的黑白乾坤。面对这些精彩之作我总是能浮想联翩。在教材中隐藏着美术语言，同样也明示着完成这样的专业语言的教学手段和策略，这在图像中显示得更为直接和明显。使用者可以通过比较同一作者、同一系列的作品找到要突破的难点，从而达到教学目的。因此通过比较图像，不仅让我们看到其中的不同，更看到了教学的侧重点和教学目标的设置，给我们的是一种引导和思考，从而发现教学点。

2.从图像异同中挖掘“突破点”

如何选择最能打动孩子的作品开展教学是课前要思考的重点。比较作品的区别，可以让我们找到适合孩子学习的点。在教学《家乡的桥》一课时中，教材呈现给我们很多不同角度、不同年代桥的作品，选哪一件作为教学的开场呢?这费了我很大的心思。纵观教材上各种关于桥的摄影作品，我比较了绍兴的纤道桥、卢沟桥、赵州桥和黄埔大桥，从桥的历史、美术性的角度来看，选择前三者的概率更大，但是比较所有的大桥我们发现：黄埔大桥更让孩子激动，因为桥独特的旋转构造和变化很接近孩子的某种赛车玩具的造型。在教学的第一时间，我设计了如下的步骤：我在黑板上画了三种不同的线，并且告知这三种不同的线都是表现一个物体，请孩子联想自己生活中的某一场景或某一样物体。在我的启发和孩子的猜测下我们快速了找到了桥的概念，但是更多的孩子对第三种线的桥有浓厚的兴趣，都发出了“陈老师，你画一下，你画一下”的呼声。我又问：“想再进一步了解我们的上课内容吗?那赶紧走进我们今天学习的美术课，一起去看……”孩子被我的设计吸引，而设计这样的开场白源于我比较了作品的异同，并找到了孩子的兴趣点。在教学中我对教材的图像资源进行了比较分析，巧妙地借助了作品本身的视觉性，挖掘走进教材的“突破口”，充分地展现了教材的艺术感。

3.从图像库资源中解“疑难点”

巧妙利用图像资源，解读美术教材，借助孩子兴趣和前后知识点关联构成主题。现行的美术教材都以主题单元的形式出现，在教学上要求螺旋上升。在教学中我常建构作品库，达到前后的连贯，从而化解了很多课堂教学的重难点。在立体造型中，我遵照“造型—立体造型—雕塑”这样一个发展概念，让每个主题教学都不是一个孤立的内容。在教学这类作品时，我把一册的《花式点心》、三册的《壶的聚会》、五册的《立体造型》、十册的《做做陶艺》全部融合在一起进行思考。用橡皮泥制作花式点心的过程让孩子体会到简单造型的乐趣，随后我结合孩子的作品进行了半立体的欣赏和延伸，在教学《壶的聚会》一课时我以花式点心为依据让学生思考：怎么让这个点心再厚一些?逐渐地引导到立体概念；最后让学生欣赏作品“明代提壶”“青花瓷”“现代壶艺”等，建立立体的意识。在《立体造型》和《做做陶艺》中我不再以抽象的雕塑作品为开场白，而是从《壶的聚会》开始，我提出了“如何做一个360度都可以欣赏的壶”的问题，进而转向雕塑的体验过程和认识，让学生以“美国的宾夕法尼亚大学校园雕塑”“天津的《风》雕塑”以及现代各种陶艺来进行作品欣赏。在这个过程中，教师则建立了以“主题”为单位的思路延续，学生有了一个比较科学、完整的美术学习阶段体验。类似的主题作品库可以在绘画、建筑、平面设计等各个领域中体会和建构，帮助学生建立有层次的艺术体验。

视觉加权的率失真优化死区调整算法第3篇

关键词：死区,人眼视觉模型,率失真理论,量化

1 引言

H.264/AVC有许多创新,比如帧内的混合预测编码、低复杂度的变换编码等。最大的亮点是不需要除法和浮点运算的量化算法,量化以44的变换块为单位进行。前向量化准则为Z=ROUND((Y+f)/Qstep),反向准则为Y=ZQstep,其中Y={yi,i=0,,N=15}为44的变换残差块,对应的量化阶块Z={zi|zi∈I,i=0,1,,15},Qstep是范围从0.625到224的量化步长。为了使量化器很好地匹配输入信号,H.264中引入参数f调整死区大小,对于帧内模式f=Qstep/3;对于帧间模式f=Qstep/6。然而f并不能适用于所有码流。同时,由于图像和视频的最终接受者是人,人眼视觉系统和客观质量评估并不总是一致的,因此客观质量评估并不能完全正确地表示图像质量。

目前国内外一些学者对H.264的量化器进行了改进。Thomas Wedi和Steffen Wittmann提出了在H.264的量化器中引入死区调整参数θ分开控制死区和重构值位置的算法[1]。该算法可以在减小死区使细节被恢复的同时保持原有的重构值位置不变,从而不会增加量化误差。在此基础上联合优化参数f和θ可以进一步提高量化器的性能[2],带来0.5 dB左右的增益。但是这种方法需要传输参数θ,因此带来了额外的开销,同时也和标准解码器不兼容。除此之外,上述方法都旨在提高量化器的客观质量,而没有考虑如何提高主观质量。

针对这些不足,提出了基于视觉模型的率失真优化的死区调整算法。该算法根据视觉加权的率失真代价值调整死区大小。由于死区是零点附近被量化为0的区域,因此本算法根据上述的率失真代价值将死区附近的信号自适应地量化为0或1。本算法可有效提高图像视觉质量,同时没有额外的开销,和标准解码器兼容,而且可适用于任何基于块编码的图像和视频压缩标准。

2 率失真优化的死区调整算法

根据香农率失真理论,最优的量化器是在给定码率Rc约束条件下使失真最小的量化器[3]。对于一个有限阶数的量化器,假定S是一组实数的集合,I={0,1,2,}是量化阶(quantization level)的有限集合,那么最优的量化器满足

其中x是输入信号,z是对应的量化阶,D(x,z)是x被量化成z后产生的失真,R(x,z)是对应的速率。如果对输入信号的每一个值都按照式(1)选择最优的量化阶,无疑可以得到最好的率失真性能。但是这种作法意味着巨大的计算量,几乎是不可能实现的,因此需要减少处理的信号,使计算量下降。在图像和视频压缩编码中变换编码后的信号可以近似为拉普拉斯分布[4]。拉普拉斯分布的特点是在离零点近的区域呈现比较陡峭的分布,而在远端呈现近似均匀的平坦分布。由于H.264的量化器是死区大小为[0,Qstep-f]的均匀量化器,它量化大幅度信号的性能几乎是最优的[5],而对小信号性能较差。因此将研究重点放在死区及其附近的小信号区间。令第1个和第2个量化区间的区域为上述的小信号区间,并将该区间定义为自适应窗wadpt奂S。自适应窗wadpt内的信号允许的量化阶的集合为I′={0,1}。根据式(1),落在自适应窗内的信号x的最优量化阶z*为

当码率等于给定的码率约束Rc时,式(2)的受限问题可以转换为不受限的求解方程[6],z*为

举例说明该算法:如图1所示,系数y1和y2落在自适应窗wadpt内的44的残差矩阵Y,其中y1落在死区内而y2落在第2个量化区间,因此按照原有的量化规则,y1会被量化为0,而y2被量化为1。根据式(3)对y1和y2重新量化后,原来被量化为0的y1被量化为1,而原来被量化为1的y2被量化为0。自适应窗外的系数保持原有的量化阶不变。

在H.264中,假定残差块中有m个系数位于自适应窗wadpt内,每个系数可能有2个量化阶0或1,那么m个系数可以产生2m种可能的量化结果。保持残差块内其他系数的量化阶不变,这m个系数产生的2m种可能的量化结果就构成了2m个候选的量化阶块Zi,i∈L,L={0,1,2,,2m-1}。这样为m个系数选择最优量化阶的问题就转化为在2m个候选量化阶块中选择最优量化块的问题。在给定码率约束Rc的条件下,最优解为

转变成不受限的问题后,最优的量化块Z*可以由最小化代价函数J(Y,Zi),i∈L得到

其中,λ≥0,Jλ(Y,Zi)=D(Y,Zi)+λR(Y,Zi),R(Y,Zi)是Y量化成Zi时编码花费的比特数,D(Y,Zi)是Y量化成Zi重构矩阵和Y之间的失真。

3 视觉加权死区调整算法

人是图像和视频信息的最终接收者,因此在压缩编码中应该考虑人眼的视觉特性。人眼误差敏感度是空间频率的函数。一般地,人眼误差敏感函数可以看作是带通滤波器,它在某个频点处达到最大的频率响应后,随着频率的增加而快速下降。也就是说人眼对低频误差较敏感,而对高频误差不敏感。利用人眼的这一特性,视觉加权的率失真优化的死区调整算法可以获得更高的主观质量,同时通过给高频分配较少的码字降低编码速率。

图像/视频编码块中灰度能量的大小表示它内在的噪声屏蔽能力。噪声屏蔽能力和人眼察觉不到的量化噪声有关[7]。人眼视觉系统中函数用来衡量人眼对不同频率误差的敏感度。定义如下

式中:δ=11.636/角度,频率f的单位是周/角度。f可以进一步变换成f(周/角度)=fd(周/像素)fs(像素/角度),其中

式中:N是DCT块的大小,在H.264中N=4,d为观看距离。可见fs和观看距离有关,对于高度是288像素的CIF图像,当观看距离是图像高度4倍时,fs=20像素/角度。

根据上面介绍的人眼视觉模型,1个位于第i行和第j列的像素能量可以加权为。从而视觉加权失真DW(Y,Z)可以定义为

而视觉加权的率失真优化的最优量化块为

由式(11)和式(12)可以看出随着频率的增加,每个像素的失真占总失真的比重不断减小。因此较高频率的像素易被量化为0,而较低频率的像素易被量化为1。通过给高频像素分配较少的比特,可以在保证主观图像质量不变的条件下使用较少的比特。

综上所述,视觉加权的率失真优化的死区调整算法主要步骤如下:

1)设置自适应窗wadpt;

2)确定44编码块中落在wadpt中系数的个数m;

3)编码候选量化块Zi,计算对应失真DW(Yi,Zi)和码率R(Yi,Zi),i=0,,2m-1;

4)计算每个候选块的率失真代价函数JW(Yi,Zi)=DW(Yi,Zi)+λR(Yi,Zi),i=0,,2m-1;

5)求出{JW(Yi,Zi),i=0,,2m-1}中的最小值Jmin;最优量化块Z*就是对应Jmin的量化块。

4 实验结果

基于JM11.0版本的标准参考代码,分别对率失真优化的死区调整算法DRDO和视觉加权的率失真优化的死区调整算法PDRDO进行了测试。编码参数设置为帧率30 f/s,图像格式4∶2∶0,序列的帧格式为IPBB,P帧和B帧使用相同的量化阶,在进行率失真代价函数的计算时,拉格朗日因子λ和H.264中进行编码模式选择时使用的λmode取值相同。

DRDO算法的测试结果如图2和图3所示。测试序列分别是QCIF格式的News序列和CIF格式的Foreman序列,编码长度为100帧。图中圆圈标记的曲线是由H.264的参考代码得到的率失真性能,正方形标记的曲线是在原有量化器中加入DRDO算法得到的性能曲线。由上述的实验结果可以看出,改进后的量化器无论在高码率还是低码率情况下性能都优于原有量化器,并且增益在高码率情况下表现更为明显,一般可以超过1 d B。

图4给出了H.264、DRDO算法和PDRDO算法分别对CIF格式的Mobile序列编码300帧后得到的率失真曲线。从图中可以看出DRDO算法提高了量化器的率失真性能,PDRDO算法的率失真曲线位于DRDO算法甚至H.264的曲线之下。然而PDRDO算法编码的图像拥有和原量化器相同的主观质量(图略),同时使用更少的比特。表1给出了Mobile序列352288P在相同量化阶下PDRDO算法和H.264相比节约的比特和得到的编码增益。

主观质量评估遵循规范ITU-R BT.500-11[8]。在相同量化阶下参考代码和PDRDO算法得到的解码序列在屏幕上并排放置。在观众不知道序列由哪个算法产生的条件下,进行打分。一轮结束后调换序列的位置再进行一次打分。PDRDO算法的平均主观质量分数几乎和H.264的相同。因而虽然PDRDO算法得到的信噪比低,但和H.264有相同的主观质量,同时还节约了10%的码率。

5 小结

率失真优化死区的方法可以有效地提高编码的率失真性能。通过将人眼视觉模型引入率失真代价值的计算,该算法可以在不影响主观视觉质量的前提下,扔掉较多的高频信号,从而花费较少的编码比特。主观质量评估显示当主观质量相同时,基于视觉加权的率失真优化的死区调整算法可以平均节约10%的编码比特。该算法没有额外的开销,适用于任何基于块编码的图像和视频压缩标准,而且和标准解码器兼容。

参考文献

[1]WEDI T,WITTMANN S.Quantization with an adaptive dead zone size for H.264/AVC FRExt[C]//Proc.JVT DOCUMENT,JVT-K026.Munich,Germany:[s.n.],2004:51-58.

[2]WEDI T,WITTMANN S.Rate-distortion constrained estimation of quantization offsets[C]//Proc.JVT DOCUMENT,JVT-0066.Busan,KR:JVT,2005:89-96.

[3]SHANNON C E.A mathematical theory of communication[J].Bell Syst.Tech.,1948,27:379-423.

[4]SMOOT S R,ROWE L A.Study of DCT coefficients distributions[J].Proc.SPIE,1996,1:403-411.

[5]GY魻RGY A,LINDER T.Optimal entropy-constrained scalar quantiza tion of a uniform source[J].IEEE Trans.Inform.Theory,2000,46:2704-2711.

[6]EVERETT H.Generalized lagrange multiplier method for solving problems of optimum allocation of resources[J].Operations Reasearch,1963,11(3):399-417.

[7]TAN S H,PANG K K.Classified perceptual coding with adaptive quantization[J].IEEE Trans.Circuits Syst.Video Technol.,1996,6(4):375-388.

视觉优化第4篇

骨架提取(skeletonization)是指根据不同的定义和算法提取原始物体骨架的过程。目前,骨架的提取方法很多,例如Voronoi图,最大圆盘,距离场等提取方法,在文献[4]中作者评述了近300种方法。但无论什么方法,一个优良的骨架应该具有如下性质[5,6]:

1)骨架应保持原物体的拓扑。

2)骨架点精确,尽量靠近物体的中心。

3)骨架的粗细应该为一个像素(或接近一个像素)。

4)骨架能表达物体在人类视觉中的重要部分。

5)在一定的噪音情况下,骨架应具有一定的稳定性。

本文提出的图像处理方法在依据骨架定义及优良的骨架的性质的理论基础上,对图像进行处理。在处理后的图像中,越接近“真实”骨架的像素点的显著水平越高。通过选取不同的阈值,有效的过滤掉图像中不必要的信息,并对提取后的骨架进行必要的细化,使得提取后的骨架更加精确。

1 图像处理方法

图像处理方法的目的是使越接近骨架点的像素的显著值越大,而远离骨架点的像素的显著值越小。基于此,该文从两个方面对图像像素的显著值进行描述:其一为以图像像素点到边界的最短距离作为半径的圆与边界的切点数量;其二为与边界切点的跨距。

1.1 与边界的切点数量

根据骨架最大圆盘的定义,可以发现除端点和非骨架点外的所有骨架点至少和两个或两个以上的边界点相联系,这些边界点到骨架点的距离最短。如图1,骨架点S1对应的最大圆盘与物体边界相切于P1和P2两点,骨架点S2对应的最大圆盘与物体边界相切于P3、P4和P5三点。而与物体边界相切的点越多,则骨架点的重要程度越高。对于与边界相切于两点的骨架点,往往为骨架的普通点(Regular node);而与边界相切点为三个点或三个点以上的骨架点,往往为骨架的连接点(Junction node)。一个物体的拓扑结构与骨架连接点有着重要的联系,依靠骨架普通点来维持,以骨架的端点(End node)作为终结。

因此可以用像素点与边界切点的数量作为该像素点为骨架点可能性的衡量。当像素点与边界仅有一个切点时,该类像素点为骨架点的可能性很低(或仅为骨架端点),可以不考虑,像素显著值为0;当像素点与边界相切于两点或更多时,该类像素点为骨架点的可能性比较高,像素的显著值大小应随切点数量的增加而增加。

在理想的情况下,骨架点与边界点会有两个或两个以上的切点。但在实际的数字图像中,边界点和骨架点都是位于像素的网格中,即使是骨架点也很难找到两个边界点,使得两个边界点到该骨架点的距离完全相等且是所有边界点中最短的。为了找到像素点对应的最大圆与边界的切点,将涉及到离散化问题。为简便起见,该文以4个相邻像素点对应的最近边界点,作为一个像素的最大圆与边界的所有切点的近似。

如图2所示,在离散条件下,以像素点P0、像素点P0的右边像素P1、像素点P0的下面像素P2、像素点P0的右下像素P3,四个相邻像素点作为基础,来求解以像素点P0为圆心的内切圆与边界的切点。其过程为:首先找到到达像素点P0距离最近的边界点,例如为B1。则此时,4-相邻像素点P0、P1、P2和P3与边界点B1的距离分别为d0、d1、d2和d3。再次遍历所有边界点,若存在一个边界点与4-相邻像素点的距离不大于对应的d0、d1、d2和d3中的其中一个,则此边界点将被视作以像素点P0为圆心的内切圆与边界的切点之一。如图2所示,边界点B2与P0的距离并非最短,但B2与P1的距离d5不大于B1与P1的距离d1,则将B2视为边界切点。

1.2 与边界切点的跨距

仅使用与边界切点的数量作为像素的显著值是不够的。如图3所示,像素点S1和S2所对应的最大内切圆与物体边界的切点数量都是2个。从切点个数上做区分,S1和S2两个像素点是没有任何区别的。但是,目前人们通常提取物体的视觉主骨架。视觉主骨架具有只描述人们的视觉主要部分的形状,简化骨架结构的性质。由此,应使像素点S2的显著值高于S1的显著值。同时,从另一个方面讲,像素点S1成为毛刺骨架的可能性也高于S2,也再次降低了S1成为骨架点的可能性。

观察图3,会发现像素点S1对应的两个边界切点B1和B2之间,存在一个边界跨距B1BB2;像素点S2对应的边界跨距为B3BB4。边界跨距B3BB4的长度大于边界跨距B1BB2。对于同一个连续边界而言,最大内切圆与边界切点所形成的跨距越大,则最大内切圆的圆心越靠近物体的中心,该圆心成为视觉主骨架点的可能性越大,成为毛刺骨架点的可能性越小。该文以边界的跨距(span)作为另一项描述像素点显著值的标准。

一个最大内切圆可能与同一个连续边界有多个切点,如图4所示。此时,假设与边界有n个切点,则有效的边界跨距span的计算公式为:

式中:B1、B2...Bn为最大内切圆与边界的切点,且沿边界逆时针方向对切点进行编号所得;Dis(Bi,Bj)为Bi到Bj的距离,大小为以逆时针方向,从Bi到Bj之间边界像素点的个数;length为连续边界的长度,大小为边界像素点的个数。因此,span为边界长度去除边界切点间最大间距后的长度。

上面讲述了切点都在同一个边界上,跨距span的求取方法。有时一副图像可能存在多条边界,如图5所示。当一个最大内切圆与不同的边界相切时,则内切圆的圆心将是一个骨架点。根据优良骨架应具有的性质,骨架应保持原物体的拓扑结构。若上述内切圆的圆心不是骨架点,则会导致骨架的断裂,所获取的骨架将不能够保持原来的拓扑。由此,应增加与不同边界存在切点的像素点的显著值,以便后续在此像素点附近寻找骨架点。该文,对于这样的像素点的跨距span,直接赋予最大值MAXSPAN。最终的span公式为:

式中:borderk为图像上某一条连续边界。

1.3 像素点显著值的确定

综合以上两点因素,该文提出像素点的显著值公式为:

式中value为像素点显著值,其值越大,代表该像素点为骨架点的可能性越高,反之越低;number为像素点对应的最大内切圆与边界切点的数量;span为边界切点有效跨距,其计算公式在1.2节已经给出;STANDARD_SIZE为一个标准值,row为输入图像的高度,col为输入图像的宽度。将span乘以因子STANDARD_SIZE/(row+col)的目的是使span在图像进行缩放时,保持其值相对不变。

2 骨架提取及其多尺度控制

通过本文提出的方法处理后的图像,图像的像素值为该像素点的显著值。处理后的图像可以通过matlab自带的函数bwmorph提取骨架。由于像素点显著值的大小反映了该点为骨架点的可能性,所以本文提出一个THRESHOLD与显著值进行比较:当显著值大于THRESHOLD时,该像素值置为1(前景像素点);当显著值不大于THRESHOLD时,该像素值置为0(背景像素点)。因此有:

处理后获取的二值图像,作为bwmorph函数的输入。

当对THRESHOLD选取不同的值时,可以实现对骨架的多尺度控制。减小阈值THRESHOLD将增加物体像素点参与骨架的提取,使骨架更加细致;增大阈值THRESHOLD,则将使显著值高的点参与骨架提取,提取的骨架更加粗糙,其效果相当于骨架剪枝。可以通过选取适当大小的THRESHOLD值,来保留视觉上重要的骨架枝,实现骨架的多尺度控制。

3 实验结果及分析

实验中,首先通过本文提出的图像处理方法,将原始的二值图像转化为显著值图像,然后根据THRESHOLD的值,再次将显著值图像转化为二值图像,此时只有显著值大于THRESHOLD的像素点的值才为1,最后使用matlab中提供的形态学骨架函数bwmorph提取骨架。通过THRESHOLD的值实现骨架的尺度控制,直到选取一个较良好的骨架。

图6(a)通过bwmorph函数直接提取的骨架。可见,提取的骨架存在许多不必要的分支,并且骨架的拐角也不过圆滑,不够自然。图6(b)-(e)中的骨架,都是通过本文提出的方法处理后所提取的骨架。THRESHOLD选取的值不同时,所获取的骨架的详细程度也不同,其值选取的越小,提取的骨架越精细,但分支较多;其值选取的越大提取的骨架越简略,分支越少。图6(f)和图6(g)分别为图像在缩放为原来的80%和120%后,在THRESHOLD值为35时所获取的骨架。可以看出在原图像进行缩放后并且THRESH-OLD值不变的情况下,提取的骨架具有一定的相对不变性。

表1为提取图6(a)-(e)骨架所使用的时间。获取时间的环境为Intel(R)Core(TM)i3 CPU 2.40GHz,内存为2.00GB;软件为Matlab7.0。输入图像的尺寸为500*500像素。从表中可以看出,仅使用matlab自带的bwmorph进行骨架提取,所用的时间较长。而使用本文提出的图像处理方法并结合bwmorph函数进行骨架提取时,虽然增加了一步图像处理的操作,但整体时间大大减少。通过本文方法处理过的图像,将有效减少非骨架像素点的数量,从而使后续提取骨架的操作随之减少。当THRESHOLD值由小变大时,提取的骨架将由“繁”到“简”,操作所用的时间逐渐减少。

4 结束语

针对传统骨架提取方法获得的骨架不精确、多毛刺、拐角不平滑、处理时间长等问题,该文提出一种图像处理方法,使得处理后的图像再次提取的骨架质量显著提高。该图像处理方法是依据骨架定义及优良骨架性质的基础上,提升可能成为骨架点的像素显著值,进而利用一个阈值对像素进行分类,判断该像素是否能够成为待提取骨架像素点。通过对阈值的控制可以实现对提取骨架的多尺度控制,进而选取适当的阈值,以便提取视觉主骨架。

实验结果表明该图像处理方法简单、快速,与传统骨架提取方法结合获得的骨架,能够方便地去除骨架中的多余分支,并且较好地保存了目标的主要拓扑结构,在骨架的拐角更加圆滑,自然。同时,在图像进行缩放并且阈值不变的情况下,也能有效保证所获取的骨架相对不变性,这一点对于骨架应用有着实际意义。

摘要：该文根据骨架定义及优秀骨架的性质,提出一种图像处理方法。该方法对图像的物体像素点进行检测,评测每个像素点成为骨架点的可能性大小,然后以一个阈值对像素点进行分类,以便确定后续进行骨架提取的像素点,并通过选取适当的阈值,来获取视觉主骨架。实验表明:该方法与传统骨架提取方法相结合,所获取骨架较好地保存了目标的主要拓扑结构,在骨架的拐角更加圆滑、自然,能够有效减少骨架毛刺,并且处理所需时间有效减少。

关键词：图像处理,骨架,视觉主骨架,毛刺,拓扑结构

参考文献

[1]Blum H.A transformation for extracting new descriptors of shape,MIT Press,1967:362-380.

[2]ZHANG Guo-dong,HAN Jia-chi.Skeleton pruning algorithm based on fuzzy distance transform,Journal of Shenyang Aerospace University,2012,29(1):64-69.

[3]Nicu D.Cornea,Deborah Silver,Member,IEEE,and Patrick Min.Curve-Skeleton Properties,Applications,and Algorithms,Visualization and Computer graphics,2007,13(3):530-548.

[4]L Lam,SW Lee,CY Suen.Thinning methodologies-a comprehensive survey,IEEE Transactions On Pattern Analysis And Machine Intelligence,1992,14(9):869-885.

[5]S.X.HU,Yan-Ming Xiong,Liao,M.Z.W.Tang,Y.Y..Skeletonization of ribbon-like shapes based on local minimum modules of wavelet transform,Wavelet Analysis and Pattern Recognition,2007:1247-1251.

视觉优化第5篇

在几年的教学实践中, 笔者发现, 教师使用的课件质量参差不齐, 出现了许多问题, 诸如有时素材不足, 内容显得过于单调;有些课件偏重知识的传递, 忽略了课件的交互和视觉效果;有些课件的画面设置凌乱而影响学生的阅读等等。因此, 本文就多媒体课件中画面设计的视觉效果谈谈自己的一点看法。

一、画面背景的统一性

课件中常常使用多种媒体组合来表现教学内容, 为了美观, 也为了主体表现不让人感觉突兀, 安排适当的背景非常必要, 但应该追求色彩、风格、形式的统一。

背景的颜色、图案要树立整体风格, 原则是尽量切合教学主题, 色彩单一, 形象简洁, 避免喧宾夺主。背景可以使用单色, 可以是图案的简单排列, 可以是某张图片等等。标题、文字、图形、按钮等安排在适当的位置, 可以对教学内容的主体起到一定程度的装饰效果。统一的背景, 可以传达给学习者节奏感、安静感、韵律感、简洁感。

为突出教学课件内容所要表达的层次性或某种对应关系, 可以在同一背景下切割、重叠出不同的色块或图案, 用以衬托所要表达内容的层次或对应关系。

二、画面构图的整体性

多媒体课件画面的设计, 应该把握基本构图的整体性, 针对教学内容, 从基本风格主题与意境, 将教学诉求融入课件画面的整体设计中。例如:如果教学内容是一篇古诗, 可以设计成典雅、古朴、空旷、宁静的风格, 可以选择淡雅的浅蓝色、浅灰色等作为画面背景, 而不宜使用红色、黄色等。这样通过整体性的把握, 就可以避免课件画面表述的内容和风格出现残缺不全或支离破碎的现象。

与此同时, 无论是文字、色彩抑或图片的选择, 都要确保无损于或者有助于教学内容的表达与理解。对于中学生而言, 课件画面的设计应该简洁、流畅和清晰;对于小学生而言, 画面应该融入更多的振奋人心的形状或图片。对于图片的使用, 为了节省画面空间, 有的只要可以表达内容、原理或意境就可以, 多余的部分可以裁剪, 只保留特征性部分或主题部分。同时, 对图片的裁剪也要考虑画面的风格, 水平的图片有开阔的感觉, 竖式的图片则有挺拔的感觉。

例如, 上两图左边一幅是我校教师为《看社戏》一课设计的幻灯片, 选用的图片气氛热烈, 而背景则使用了宁静的淡蓝色, 两者较为冲突, 经修改后使用了右边一幅, 整体效果较为明快。

三、色彩搭配的和谐性

许多教师由于课件中的配色不科学, 缺乏美感, 所以在使用中容易造成学生心情压抑、注意力不集中、易形成视觉疲劳等问题, 直接影响了教学效果。例如五彩的画面, 但背景色和字体颜色反差大;色彩纯度过高, 画面文字看不清, 让学生感到刺眼, 产生心理波动;或者背景色和字体颜色反差小, 色彩明度差过低, 视觉效果十分模糊;还有随心所欲地选择色彩搭配等等。

世界上没有不美的色彩, 只有不美的搭配。在课件制作中, 色彩的选择与搭配应该是制作者首先要考虑的问题。第一, 它不应使课堂沉闷、乏味, 使学生感觉沉闷压抑;同时又不过分热烈, 使学生过度兴奋而导致注意力分散、视觉疲劳和心理恐慌。第二, 应充分考虑文字的明暗程度和清晰可读性, 使距屏幕较远的学生也能看清屏幕上的内容。

同时麦尔斯研究认为, 4~15岁的儿童, 也就是小学到初中的学生, 偏爱纯度高的鲜艳的色彩, 如:纯粹的红色、黄色、蓝色、绿色等;15~20的青少年, 即高中的学生则喜爱低纯度的色彩, 也称为复色, 像橙色、粉红色、蓝紫色、黄绿色等经过调和的色彩。因此, 针对不同年龄的学习者合理地配合使用相应的色彩搭配, 不仅可以使学生感到身心愉悦, 还可以轻松地完成学习任务, 保证学习效果。

四、文字设计的可辨性

文字是为了向学习者传达作者的意图和有关教学信息, 要达到这一目的, 必须给人以清晰的视觉印象。因此, 设计中的文字应避免繁杂零乱, 使人易认、易懂, 具备较好的可辨性。

(一) 文字在画面中的位置

文字在画面中的不同位置会带给观众不同的感受。以标题为例, 放在画面的上部或中上部, 给人平衡的感觉;也可以放在画面的顶端, 显得比较醒目;还可以放在画面的下方, 产生稳定的效果。当然, 为追求某些效果, 也可以竖排。还可以排列成曲线, 产生动态的效果。

左图教师在设计时没有注意到文字在背景中的位置, 致使第二行文字中出现了线条, 影响了视觉效果, 经修改, 我们将整体题目下移, 在线条以上提要求, 线条以下为题目, 文字效果就比较和谐了。

(二) 文字在画面中的层次

为突出重点, 美化版面, 画面中的文字应该尽量以不同的层次来表达, 既可以产生不同的视觉效果, 又能够呈现不同的重点。标题和正文可以选择一样的字体, 以大小的差异来区别, 也可以通过不同的色彩来强调;必要时用不同的字体来区分。文字的行距和大小非常重要, 切忌出现大量文字的堆砌。例如下左图出现了大段的文字, 课堂教学时学生基本看不清楚, 缺乏基本的层次, 经修改后以时间排列, 加强了层次感, 但文字还应更加简洁。

(三) 文字在画面中的色彩

色彩的重要性在上面已经加以阐述, 但对于文字而言, 色彩的选择还要考虑标题或正文的需求, 例如描写蓝色海洋的标题或正文一般不要使用红色。当然, 文字色彩的使用要兼顾画面背景的色调, 避免发生冲突。

(四) 文字在画面中的个性

中国书法艺术源远流长, 不同的字体风格表现出不同的情感色彩。比如老宋体艺术风格端庄、典雅、清正、秀丽;新宋体艺术风格挺拔矗立或宽博平展;仿宋体艺术风格清秀、骨力、直率、骨刚。表达凝重、粗犷、壮美的情境时, 可以选择黑体、魏碑等;表达轻松、飘逸、欢快、滑稽的情绪时, 可以使用海报体、新潮体、中变体等。

视觉优化第6篇

重轨在我国高速铁路的快速发展中扮演着不可或缺的角色,其质量是保障铁路安全运输的必要条件。重轨的生产过程中除了对材质、加工工艺、几何尺寸等有严格要求外,其表面质量缺陷(如轧疤、夹杂、线纹等) 也是非常重要的技术指标[1]。

当前重轨表面缺陷的视觉检测方法已经成为了研究的热点。国外,加拿大NDT公司开发的重轨质量监测系统和奥地利Next Sense公司开发的表面缺陷及轮廓检测系统实现重轨表面三维检测。国内相关研究起步较晚, 重庆大学的叶苏茹、谢志江、欧阳奇等人[2~4]在热态重轨辐射特性、光源及摄像机选型、图像处理以及缺陷识别提取等方面做出大量的工作;北京科技大学的徐科[5]以及四川大学的张朝勇[6]等人在普通视觉检测方案的基础上加入激光线光源,通过结构光三维视觉原理实现了钢轨表面缺陷三维检测方法。

大量的研究均集中于检测系统中设备的选型等问题和图像处理算法等方面。然而在机器视觉系统中,成像位姿很大程度地影响着所拍摄图像的品质,并且一幅高质量的图像是后续缺陷能够检出的先决条件。本文将摄像机成像角度作为重点研究对象,通过构建优化策略和图像评价,得到重轨表面视觉检测系统的摄像机最佳成像角度。

1 重轨表面检测区域分割

重轨的表面十分复杂,由多曲面多平面组合而成。根据重轨生产企业的统计数据,重轨的表面缺陷主要集中在重轨表面的转折连接弧面上,尤其以轨腰的上下腰面处最为突出,其次为表面精度和质量要求较高的底面和踏面[1,4,7]。针对这种情况,在满足性能并节约成本的基础上,视觉检测系统通常采用6个摄像机环绕配置,如图1所示。摄像机4和摄像机1分别拍摄轨头踏面和轨底底面,这两个面变化平缓,比较容易拍摄。摄像机2和摄像机6拍摄轨头侧面、轨头底面以及部分轨腰腹面,摄像机3和摄像机5拍摄轨底侧面、轨底顶面以及部分轨腰腹面,这几处位置转折面转角大,曲面变化复杂,所需景深大,对成像效果提出较高的要求。

2 摄像机成像角度优化

2.1 角度优化方向

本文中为了便于观察和计算,将重轨截面放正,如图2所示,由于重轨截面基于中线OO'对称,则选摄像机2和摄像机5的成像角度为代表进行优化。本文中优化时忽略镜头视场角和自身变形率的影响,并以摄像机光轴代表拍摄方向。

摄像机光轴的角度变化对视场中物体的呈现有较大的影响,尤其是如摄像机2和摄像机5视场中转折较大的弧面。通过总结,摄像机光轴的角度优化遵循以下三个方向:

1)有效视场最大化方向,即指在摄像机拍摄视场内,重轨表面被拍摄区域的有效像素面积应最大。如图2,摄像机2的视场中,重轨表面拍摄区域最外端分别为A与B ,令AB连线与重轨截面对称轴OO'夹角为β2 ,摄像机光轴与OO'夹角为α 2,定义有效视场占比为有效像素的实际占用面积与理论最大占用面积的比值,则有效视场占比表示为sin(α2 +β2)。

2)区域均匀化方向,即指摄像机光轴与拍摄区域的局部区域尽可能垂直。本文中使用摄像机光轴与曲面的最小夹角θmin 来度量该垂直程度,即将重轨拍摄区域的轮廓分割成小段微元△ l 1、△ l2 …△ ln ,每段微元与摄像机光轴的所夹锐角为θ1min、θ2min…θnmin,θmin是其中的最小值。因此,θmin 代表了该摄像机光轴与重轨表面局部区域夹角的最坏估计,调整摄像机光轴与重轨截面对称轴OO' 的夹角α使得θmin 最大,这样能够避免出现局部畸变过大,平均照顾视场中的每个区域。

3)最小景深方向。摄像机选用镜头时需要考虑景深的问题,尤其对于重轨表面这样弯折大的曲面形状, 再加上重轨运动状态下的振动问题,景深如果不够则会导致图像模糊[8]。不同的摄像机光轴角度需要不同的景深,对于选取镜头有实际指导意义。镜头景深的图示如图3所示,其计算公式如式(1)所示。

景深:

式中δ为容许弥散圆直径,f为镜头焦距,F为镜头光圈,L为拍摄距离。

2.2 角度优化结果

根据上述优化策略,以60Kg规格的重轨为对象, 优化的结果分别如表1、表2所示。同时并根据优化结果构建相应角度的图像采集系统进行图像拍摄,该系统采用DH-HV5051UM-M面阵相机和Computar H0514-MP2镜头,最大分辨率2592×1944pixels,焦距为5mm,光圈调节范围为F/1.4至F/16,拍摄距离为270mm,容许弥散圆直径取0.011mm,取光圈F/4,求得景深?L=322mm。

由结果可见,系统的景深是远远满足要求的,摄像机2的各优化策略结果差异较大,这是与摄像机2所拍摄区域的折弯变化较为剧烈有关,则α2 的取值需要通过图像质量评价才能确定。而摄像机5的各优化策略结果和实际图像均很相近,说明α 5取在48°是十分理想的。

3 优化结果的图像质量评价

3.1 图像质量评价的一般方法

图像清晰度评价函数是衡量数字图像质量的重要指标。现有的图像清晰度评价方法一般建立在图像边缘或信息熵的统计信息基础上,即是图像细节保留的越多, 图像灰度的变化越敏锐、越剧烈,则图像越清晰,可辨识程度越高。基于这类思想,常见的图像清晰度评价函数主要包括梯度函数、频谱函数和熵函数等[9,10]。

3.2 重轨表面图像的综合性评价方法

重轨的表面情况复杂,单一的评价函数不足以评价其表面图像的质量。因此,本文利用HALCON软件平台,根据重轨的几何特征,同时参考图像的灰度直方图特征、迹线灰度特征、灰度均值等信息[11],并使用梯度函数中的灰度方差函数以及熵函数计算结果共同组成关于重轨表面图像的综合性评价方法。

灰度方差函数:

其中I是当前图像,μ定义为I的灰度平均值:

熵函数:

对于一幅图像,其图像熵H(I)定义为:

根据香农信息理论,当其图像能量E(I)一定时,图像熵E(I)越大,则图像越清晰。

4 角度优化结果评价

将摄像机2以其光轴与重轨截面对称线OO'夹角分别为75°、65°、56°拍摄的图片依次导入评价系统中,同时并根据式(2)~式(4)计算出该图的灰度平均值、灰度方差和图像熵。其结果如图4~图6所示。

从评价结果可以看出,此三幅图像的灰度方差和图像熵的计算结果均相差不大,可见在此三种角度下摄像机的成像细节都很清楚,说明摄像机的分辨率、景深、对焦等都符合成像要求。结合灰度平均值、图像的几何信息以及灰度迹线特征来看,摄像机以75°拍摄时轨头侧面及轨头底面的灰度值不足,导致整体灰度平均值偏低,并且图像中轨头侧面被过度拉伸而轨头底面则被严重压缩,存在严重的失真。摄像机以65°和56°拍摄时,整体灰度平均值均较高,灰度方差和图像熵也比较接近,但在纵向(沿图中轮廓线)方向上,摄像机以65°拍摄图像中轨头侧面占210个像素,轨头底面占143个像素,而摄像机以56°拍摄图像中轨头侧面占171个像素,轨头底面占168个像素。相比之下,以56°拍摄的图像中对轨头底面展现的像素更多,且轨头侧面与底面宽度之比更符合实际情况,所以56°更优。

通过以上分析,在满足景深、拍摄分辨率、对焦准确的条件下,摄像机2的光轴与重轨截面对称线OO'夹角为56°时拍摄的图像最佳,图中灰度分布均匀,畸变小,各结构分布合理,能够均衡地表现出各个局部区域的图像细节。

5 结束语

本文结合重轨的表面轮廓特点和缺陷分布的重点区域,对摄像机的拍摄角度进行研究,得出各摄像机的最佳成像角度。同时整理出所有重轨型号对应的各摄像机最佳成像角度数据,并将其转换为卧倒状态,且定义摄像机成像角度为以重轨截面坐标系中以X正轴为起点逆时针旋转的角度,所得数据如表3所示。

本次研究得出的数据为重轨表面视觉检测系统的成像装置布置提供了理论依据,也为能够适应于多型号重轨轧制线的视觉检测装置的设计提供了研究方向,具有重要的意义。

摘要：在机器视觉系统中摄像机的成像位姿很大程度上影响着图像质量。结合重轨的结构特点和表面缺陷分布位置,采用六摄像机环绕布置方案,通过提出不同的优化策略对摄像机成像角度进行优化,并研究图像清晰度评价函数建立重轨表面图像综合评价方法,分别从图像灰度均值、灰度方差、图像熵和灰度直方图、几何特征等方面对摄像机成像角度优化的结果进行评价,求得各摄像机的最佳成像角度,为重轨表面缺陷视觉检测系统搭建提供理论基础。

视觉优化第7篇

我国在20世纪60年代开始对计算机图形设备以及辅助图形设计方面进行研究。随着计算机科学技术的发展，以及计算机在工业设计技术方面的应用，先后出现CAD,CAM,UG,Pro/E等可以进行工业设计的通用平台软件。本文通过设计的眼光来看待工业设计类通用平台软件的可视化操作界面，而且运用美学的规律以及人机工程学理论进行视觉化研究，从而满足不同使用者的各种需求。本文的理论基础主要有三个：第一，著名哲学家黑格尔说过，美学是艺术哲学，是美的艺术哲学；由于美学是一门边缘的学科，他可以与许多学科有或多或少的联系，本文会利用美学的规律进行工业产品设计的视觉优化研究；第二，色彩搭配原理与技巧；第三，人机工程学的基本知识，人机工程学的研究是以人的心理以及生理因素作为参考的，以行为、认知、意识以及情感等各方面为研究依据。这样在利用通用平台软件进行工业产品设计时，视觉优化会做得更好。

1 通用平台软件在工业设计中可视化界面设计

1.1 软件可视化界面的基本概念以及可视化设计原则

1.1.1 可视化界面的基本概念

可视化是在图形学知识的基础上，结合图像处理技术对字符数据进行分析，最终转化成图形元素显示在计算机屏幕上。本文中用户界面设计时综合考虑到人的思维逻辑、操作规律以及人机交互方式，界面的美观性对软件界面进行的整体设计。

1.1.2 直观易接受的图形界面设计原则

在人机交互的过程中，界面是用来接收和传递人机交互信息的媒介。界面设计实质上包含了许多的学科知识，其中需要注意的图形界面设计原则有：从始至终要注意人才是界面产品的控制者，要尽可能得减少界面信息给用户带来的记忆负担，使界面元素保持一致。

1.2 CAD用户界面中图形技术及可视化设计

1.2.1 以几何造型为主的CAD造型技术

现代CAD系统主要是由几何造型数据库与用户界面等关键技术构成。大家所处的现实世界就是由许多种类型的三维几何形状所构成的系统。计算机系统可以通过对这些几何形状进行描述的方式来构建立体的几何模型。在CAD系统中所有的产品模型都会利用这种方式进行描述，这也是CAD造型技术的核心组成部分。

1.2.2 相似、灵活、直观才是用户界面设计的准则

对于一个CAD系统来说，最终的使用者是用户，要想设计出一个友好的用户界面，就必须遵循它特定的设计准则。这些特定的准则包括相似性、灵活性以及直观性。

相似性准则是指处理相同类型的问题时必须以相似的方法进行解答，同时在与同类软件进行比较时，在对用户的输入/输出做出响应时，也具有相似性。

灵活性准则指的是在设计界面的过程中，需要考虑到不同用户的不同需求，并且要考虑到用户的不同需求，以及如何快速灵活解决系统自身问题或者故障给用户带来的影响。

直观性准则主要是考虑符合用户视觉观察方式的角度去考虑，怎么对用户界面进行设计。直观的用户界面应该让用户对交互的信息是一目了然的。总之所有与用户有关的交互信息都要以直观的方式在界面中进行清楚的表达。

2 软件界面设计中的艺术化

2.1 艺术化的软件界面设计必须遵循美学规律

一个软件界面的好坏是看第一印象能否给人带来美观的印象，而一个美观的软件界面设计一定要遵循美学规律，界面需要给人以舒适协调的感觉，在有效的范围内最大限度地吸引用户的注意力。

本人所理解的设计中的美学包括：功能美，形式美，社会美以及艺术美。其中功能美是基于作品的整体结构及其制造材料所体现出来的美，这种美与作品本身将要实现的功能是不可分割的。形式美是基于材料本身所具有的自然属性而展现出来的美。社会美以及艺术美则是从前两种美中延伸出来的。

2.2 色彩的合理运用可以让软件界面设计更具有艺术性

2.2.1 软件界面设计的色彩设计

由于软件界面是用户与软件进行交互的桥梁，因此界面的好坏就决定了用户对软件产品的第一印象。然而在人机交互界面设计中，色彩比形状更加具有吸引力。相同的软件界面搭配不同的色彩，效果是截然不同的，因此设计出良好的人机界面是软件界面设计的关键所在。在软件产品中，都会涉及到自定义界面这一个设定方式，因此在这个设计中，色彩搭配就显得非常重要。比如蓝色的背景色搭配红色字体或者是红色的底色就会给人非常不舒服的感觉。所以在软件界面设计中，色彩搭配要合理的运用色彩元素来协调与其他要素之间的关系。当前色彩在软件界面设计中的应用是非常广泛的，许多的设计者也加强了在这一方面的研究。

2.2.2 对比统一的艺术处理手法能让界面色彩更加和谐化

软件界面中所应用的字体也会影响到整个界面的设计风格，使用的字体大小颜色必须与界面的视觉风格达成统一的标准。色彩搭配协调的软件界面可以让用户工作更加舒适，所以在设计软件界面的时候，要考虑使用什么颜色可以让用户长时间工作也不会感到累。举几个常见的颜色来说明不同颜色的作用与用法。蓝色：给人平静而且舒适的感觉，常常用于基础界面以及底色；红色：热烈而且刺眼，会让人产生焦虑的心情，一般用于警告的状态；明色，给人干净又明亮的感觉，通常用于信息的提示等。

软件界面的色彩搭配需要遵循特定设计原则：人们在观察屏幕信息时是很难同时对多种色彩进行分辨的。所以一个屏幕上最多不要出现7种颜色。对于重要的信息可以使用醒目的颜色。在一个系统中，各种颜色的搭配需要保持一致。例如对于错误信息的提示如果是用红色表示，那么前后的错误提示信息都要用红色。综上所述，在软件界面的设计中只有合理地对色彩进行搭配才能设计出更具有艺术性的界面。

2.3 CAD软件界面设计中可视化信息艺术化人性化的碰撞

CAD软件界面设计中可视化信息艺术化人性化的碰撞可以从三个方面进行研究：

(1)CAD软件界面中的可视化信息，界面中的可视化信息包括色彩、文字以及图标等。进行工业产品设计用到的CAD软件界面基本信息有绘图区信息、绘图工具图标信息、提示信息、标准工具图标信息、对象特征工具信息、命令以及修改工具图标信息，如图1所示。

(2)CAD软件界面中可视化信息的配色原则，对于一个软件界面的色彩来说，追求的目标是需要既美观又漂亮。为了达到这一目标，需要遵守一定的设计原则，尤其是以下4条：软件界面应用的颜色种类要适中；配色方案需要符合人们的心理特点；配色方案要有独特性并易于识别与记忆；界面配色要具备统一性。以上的配色方案在CAD界面中有着明确的体现，如图2所示。从图中可以看出，CAD软件界面一直是经典的单色工作界面，并且可以根据用户的喜好自行进行工作界面的颜色设置。而且配色方案中颜色的饱和度以及明度都是可以进行设置的。使用过程中用于标注以及分层的多色线条也是在界面设计中对色彩运用规律与原则的体现。

(3)CAD软件界面可视化信息的处理要兼顾人性化，要想使界面可视化人性化一些，也需要遵守一定的原则：简洁原则，界面在进行设计时尽量在保证信息完整性时减少不必要的视觉元素；平衡原则，进行软件界面设计要充分考虑视觉信息的平衡，一定不能使用过分拥挤的局部信息进行显示，不然会产生视觉疲劳；对比原则，进行界面设计时，视图区的大小，文字粗细等都可以对界面视觉效果产生非常大的影响。

3 软件界面设计中的人性化

3.1 重视用户需求才是人性化设计的关键

(1）人性化设计中的用户需求。简单的理解用户需求就是当用户在完成一项任务的过程中必须要用的工具或者材料等能够影响到用户是否能达成目标。在软件开发初期，用户的需求是模糊的，片面不合理的，所以对用户需求进行分析时，要明确掌握哪些对软件开发是真正符合用户需求的。简单来讲，用户需求可以概括成四点：可执行性、易用性、安全性和系统自恢复性。

(2）重视用户需求才能设计出人性化的产品，在软件设计中，以用户为中心的工业产品设计包括用户和任务两个层面。自从以用户为中心的设计理念应用在软件界面设计中，软件的设计点由以前的注重技术转变成注重用户需求的人性化设计方面。软件界面的最终使用者是用户，因此在设计中需要选择更加符合用户需求的人机界面设计标准，一个优秀的界面，用户是不需要进行培训或者查看用户手册的。这种界面需要遵守两个原则：保证用户界面的直观易用性以及保证界面的显示与交互信息简单易懂。只有做到这两点，用户才可以在不需要求助的情况下轻松地完成设计任务。

3.2 急需引入智能化设计方法的软件界面人机交互功能

人机交互的定义是指为了完成一个特定的交互任务，人与计算机进行信息交换时所使用的某种媒介或者语言。而要想去研究软件的人机交互界面，就需要从人机交互的接口开始。人机交互的菜单通常包括固定的工具栏、下拉式、链接式以及弹出式等。工具栏是一个可以直接表示图标功能的接口，这种接口易于被用户识别以及理解。界面交互性是软件界面设计发展至今已经形成许多中与用户需求相符合的一种功能和设计方法。现在所说的交互性不是指人机交互的概念，而是指软件的界面可以按照用户自身的爱好来进行优化与调整。

3.3 以适应用户操作为核心的人性化软件界面设计

要实现以适应用户操作为核心的人性化软件界面设计就需要设计出人性化的软件界面来满足用户的需求。在进行人性化软件界面设计时需要把握好人性化设计的核心，这样才能够设计出满足人性需求的产品。在这里，把用户的需求划分为基本要求以及潜在要求。在进行人性化界面艺术设计过程中需要注意以下几个方面：

(1）层次要分明。软件的界面是用来传递信息的，所以一个好的界面一定是层次非常清晰的，界面要做到重点突出，减少界面上多余的视觉元素，就算是必须使用时也要保证画面不能够喧宾夺主。

(2）功能要齐全。一个软件在进行操作之前是可以设置一些向导功能让用户进行一些必要的设置，从而使用户对软件界面有一个简单的了解，便于用户更有针对性的运用软件的功能。

(3）进行合理布局。界面进行合理的布局是为了把最重要的信息显示在最突出的地方，而把一些不重要，用得非常少的信息放到一个不显眼的地方，这样可以对重点信息进行突出化显示。

(4）主色调的合理搭配。软件界面的主色调直接反映了界面的风格以及软件的特色，而软件界面的主次因素区分则是需要靠亮度对比度来进行调整完成的。

4 视、听、触在工业设计类通用平台软件界面延伸设计中的作用

在现如今这个互联网如此火爆以及技术迅速发展的时代，视、听、触控制技术在各个科技领域应用是非常广泛的，一个合格的人性化界面设计必然会包含视、听、触这些元素。

4.1 人机交互界面设计中视、听、触元素的多感官体验

(1）多感官人机交互界面指的是将人体的视、听、触等感觉器官与人机交互界面相结合起来，然后再使用手势输入、语音识别以及视线跟踪等交互技术来传递信息。这样就允许用户特有的感知以及交流方式与计算机系统进行一个更加复杂的信息交流，使用户体验达到更佳。但是这些交互方式最终都是以人为前提来完成的。在现如今数组技术如此发达的今天，要求进行人机交互信息的方式简单并且易于识别，此时，以视觉符号化为主的形式语言是最佳的选择。当前以视觉艺术为主的设计模式受到了很多更佳先进多媒体技术以及虚拟技术的冲击，因此多感官技术也在向着多维化、动态话以及综合化的方向发展。

(2）人机交互界面设计的总原则是简洁易用。简洁易用的具体原则如下：简洁性与美观性并存、统一性与多样性并存、易用性与交互性并存以及静态与动态并存。

4.2 软件界面设计的局限性和实用性

(1）局限性。通常用户在不同的时期需求是不同的，为了使设计出的软件用户界面满足更高的可用性需求，去全面地了解用户需求显得非常有必要。但是再怎么好的人机交互界面也有它的局限性，这也和软件设计对设计的概念以及计算机软硬件的局限性有关。比如计算机的鼠标与键盘都可以作为软件系统的硬件接口，并且它们也是最为传统的信息交互接口，但是这些硬件接口也可能给软件界面的设计带来一些局限性。因为这些物理接口也受到硬件技术的制约。

(2）软件界面设计的实用性。现阶段可视化界面交互方式有两种：以人的动作为界面交互的主体交互方式以及以触摸与触感作为界面主体的交互方式。本文的重点是研究通过平台软件在工业产品设计中使用者的区别以及需要如何去满足他们的各种各样的需求。可以分成两大类：一类是经过了专业培训的熟悉软件基础知识的技术形人群；另一类是从来没有经过相关培训，第一次接触工业设计类软件的普通人群。由于使用这些软件的人大部分都是从事相关行业的人员，他们对这个行业的专业术语以及专业知识非常了解，因此在软件界面中涉及到专业类的术语都是可以轻松实现的。困难的地方在于这些人群的工作经验以及工作习惯各自不同，这就需要在设计软件时加入一些常用并且实用的工具，充分考虑软件界面产品的宜人性。

4.3 工业设计类通用平台软件界面设计中视、听、触多元素融合的新思路

人机交互领域现有的视、听、触觉的成果主要有三种：

(1）语音识别与自然语言处理技术，在人机交互领域有一项专门针对人类自然语言的先进处理技术，也就是通常所说的语音识别与自然语言处理技术，比如当前的文字可以通过语音输入等。

(2）决策可视化应用技术，这项技术的出现使得人机交互变得更加的方便快捷，其应用的最主要的技术就是图形的应用。

(3）触摸屏技术，随着2007年苹果公司推出的iPhone智能手机后，触摸屏技术越来越发达，当前触摸屏手机占的手机市场份额是非常大的。

软件界面设计由视觉向视听触多元融合方向设计的构想。随着科学技术尤其是计算机技术的发展，在不久的将来，在使用这些工业类设计软件进行设计时，只需要对着计算机软件的界面说出需要创建物体的名称数值，计算机就可以自动按照指令进行设计，或者用户可以在一定的虚拟环境中通过可视化软件界面。

5 结论

本文研究通用平台软件在工业产品设计中的视觉优化，而且是以通用平台软件CAD的用户界面为研究对象。研究指出，随着计算机技术的迅速发展，计算机的软件朝着更智能、更安全、读取以及响应速度更快的方向发展。本文中提到的知识点以及观点涉及的学科知识很多，有一些研究需要进一步的完善与发展，因此，不可避免地存在一些不完备的地方，这也是以后研究的重点。

参考文献

[1]汪海波.以用户为中心的软件界面的设计分析、建模与设计研究[D].济南:山东大学,2008:37-38.

[2]朱伟.车载导航仪软件界面人因工程设计与评价[D].哈尔滨:哈尔滨工程大学,2012:67.

[3]陈昊.软件界面可视化设计方法与应用研究[D].重庆:重庆大学,2009:106.

[4]宋伟.基于软件界面交互性的声音设计研究[D].武汉:武汉理工大学,2008:264-276.

[5]郭蔚婷.面向林农用户的软件界面可用性研究[D].北京:北京林业大学,2010:72-87.

[6]黄庆华.多媒体软件界面艺术设计研究[D].上海:华东师范大学,2007:358.

[7]潘婧.手机游戏软件界面交互的设计与实现[D].武汉:华中科技大学,2011:826.

视觉优化第8篇

作为人类最为重要的感官, 视觉系统为人类认识世界提供了80%以上的外界信息, 因此失明是人类最严重的残障之一。以视网膜色素变性 (RP) 、老年黄斑变性 (AMD) 为代表的视网膜退行性疾病, 主要是视网膜中的光感受器细胞受损伤, 是目前最主要的致盲疾病[1,2], 到目前为止, 还缺乏有效的治疗措施。视觉假体是当今国际上对RP和AMD失明患者进行视觉功能修复的研究热点。它主要由外置微摄像头采集外界图像信息, 通过图像处理器把图像转换为对应的电刺激模式, 再由微电流刺激器将多路电脉冲加载到微电极阵列, 对视觉神经系统进行电刺激, 在视觉中枢产生光幻视, 从而实现视觉功能修复[3,4]。视觉假体硬件系统如图1所示。

目前, 至少有八个国家的二十个研究小组致力于视觉假体的研究, 并涌现了多种视觉假体系统。其中, 最具代表性的是Second Sight公司的Argus II型视觉假体, 该产品具备60通道的刺激电极, 并于2011年在欧洲通过临床测试, 成为世界上首例商品化的视觉假体系统[5]。电极数量直接影响光幻视点的空间分辨率, 下文中提出的分辨率均指空间分辨率。目前电极数量达到200以上的视觉假体仍在研制中, 但即使微电极阵列的电极数量达到3232, 即1 024电极, 其诱发的光幻视点分辨率 (1 024像素) 仍远远低于视频采集图像的分辨率 (2~30万像素) 。所以, 降采样是视觉假体图像处理中必不可少的环节。

以图2为例, 左图为分辨率336336 (约11万像素) 的待降采样图像, 右图为对应3232电极阵列 (光幻视点分辨率1 024像素) 的降采样结果。降采样时将左图分割为3232个小区块, 每个区块对应右图的一个像素点, 然后应用降采样算法, 根据左图每个区块的图像信息计算右图对应像素点的灰度值。

近年来, 国际上多个视觉假体小组在视觉假体图像处理系统研发过程中, 非常注重整体系统的实时性 (以最终输出帧率为衡量标准) 。本文以澳大利亚新南威尔士大学 (University of New South Wales, U N S W) 2 0 0 9和2 0 11年的视觉假体图像处理系统[6,7], 以及美国加州理工大学 (California Institute of Technology, CIT) 2010年的视觉假体图像处理系统为例[8], 对比了不同降采样算法对系统输出帧率 (frames per second, fps) 的影响。

由表1分析可知, 降采样环节是影响视觉假体实时性的重要因素, 算法复杂度越高, 系统实时性越差。目前视觉假体图像处理中应用的降采样算法一般有如下三种[9]。

(1) 临近采样 (Impulse Sampling) 是直接选取每个区块中心像素的灰度值作为降采样值。该算法复杂度低, 但丢失了区块中大部分的图像信息。

(2) 区域均值 (Regional Averaging) 是计算每个区块中所有像素的灰度均值作为降采样值。该算法涵盖的像素信息全面, 权重单一, 复杂度中等。相关心理物理学研究表明, 该算法处理后的图像具有较好的辨识度[10], 因此区域均值法应用最为广泛。

(3) 高斯加权均值 (Gaussian Sampling) 是在区域均值的基础上, 根据每个像素与区块中心的距离d分配权重w, w=e-d^2/ (2*σ^2) , (σ为自定义参数) , 由此计算加权均值作为降采样值。该算法权重复杂, 复杂度高, 严重影响系统的实时性。

针对以上三种降采样算法的不足, 本文提出了间隔抽样均值算法, 并以区域均值降采样算法为参照, 统计分析了间隔抽样参数对图像处理效果和算法复杂度的影响。

1 基于间隔抽样的降采样算法优化设计

1.1 间隔抽样算法的提出

本文基于DSP开发平台, 构建了视觉假体图像处理系统。该系统摄像头的分辨率为720576, 处理后得到待降采样的图像分辨率为336336 (记为mn) , 灰度范围为[0, 255]。目标电极数量记为st, 分4种类型:3232、2424、1616和88。降采样的区块尺寸记为pq, 对于不同微电极阵列, 区块尺寸如表2所示:

以s=t=16, p=q=21的情况为例, 如使用区域均值算法进行降采样, 总共要计算st=256个区块, 每个区块要对pq=441个点进行均值统计, 算法复杂度为OR=O (pqst) , 运算量非常大。如使用临近采样算法, 复杂度为OI=O (st) , 运算量大大降低, 但处理效果不好。

如图3所示, 每个的区块相对待降采样图像而言, 只是很小的一部分, 且区块内部的灰度变化一般不会过于剧烈。由此我们提出了间隔抽样均值算法, 该方法按固定间隔对每个区块抽样后再计算灰度均值, 在大幅降低算法复杂度的同时取得与区域均值算法几乎相同的图像处理效果。间隔抽样均值算法选取区块中特定行、列的交叉点作为抽样点。记抽样率为η, 则算法复杂度OG=ηOR。

间隔抽样算法选取区块中行坐标=1+ir, 列坐标=1+jc的点作为抽样点, 其中r表示行间隔, c表示列间隔 (i, j, r, c∈Z, 0i<[p/r], 0j<[q/c], 1rp-1, 1cq-1, [x]表示对x向上取整) 。对于给定的r, c, 抽样率η= ([p/r][q/c]) / (pq) 。图3表示了p=q=21, r=c=3时的抽样情况, 区块中浅色阴影表示选定的抽样行和抽样列, 深色阴影表示选定的抽样点。此时选取行列坐标均在[1, 4, 7, 10, 13, 16, 19]中的49个点作为抽样点, 抽样率η为11%, 算法复杂度OG为0.11OR。相比区域均值法, 此时降采样的运算负担降低了近90%。

1.2 间隔抽样算法的参数设计

为了分析间隔抽样参数对图像处理效果和算法复杂度的影响, 对于4组不同尺寸的区块, 设计了4组不同的行间隔r和列间隔c。s=t=32, p=q=10时, 抽样率η设计为[0.5, 0.4, 0.25, 0.16, 0.09, 0.04]。其他区块尺寸设计抽样参数时, 抽样率η都尽可能与之类似, 同时区块尺寸越大, 抽样率η划分越细致。例如当s=t=16, p=q=21时, 抽样参数设计如表3所示。

2 抽样参数对图像处理效果的影响

统计分析时, 共选取了45幅生活中常见场景和物体的图像, 原始分辨率都是720576。部分原始图像如图4所示。

在图像处理过程中, 首先将原始图像转换为灰度图片并进行灰度增强, 然后通过视野剪裁获得分辨率为336336的图像, 随后直接应用区域均值算法和间隔抽样均值算法进行降采样, 得到与目标电极阵列对应的低像素图像。

对于每幅图像, 以区域均值算法的降采样结果为标准, 计算同一区块尺寸时不同抽样参数下, 间隔抽样均值算法降采样结果的误差, 记为D, 则有D∈Z且|D|∈[0, 255]。记某幅图像在给定区块尺寸和抽样参数下, 得到的一组|D|为一组结果, 则每组结果中|D|的概率分布, 反映了此时间隔抽样算法处理结果与区域均值算法处理结果的接近程度。|D|的概率分布越向0集中, 表示两种算法的处理结果越接近。

在统计学中, 若两组数据间差异不超过5%, 一般认为两组数据无显著差异。由此在本文中, 若|D|13, 即255的5%取整, 则认为两算法的处理结果无显著差异。一组结果中, 记某阈值为T, 若|D|T的概率P≥0.95, 则认为此时|D|集中在T以内。据此, 本文提出两个参数考察|D|的概率分布。

(1) P|D|13, 一组结果中, |D|13的概率。该值越接近1, 表示|D|的概率分布越向0集中, 也就是间隔抽样均值算法的结果越接近区域均值算法的结果。

(2) |D|P=0.95, 一组结果中, |D|有95%以上概率集中在T以内的最小阈值T。该值越接近0, 表示|D|的概率分布越向0集中, 也就是间隔抽样均值算法的结果越接近区域均值算法的结果。

在给定区块尺寸和抽样参数下, 对图像的45组结果, 统计P|D|13和|D|P=0.95的均值和标准差。当s=t=32, p=q=10时, 统计分析结果如图5所示:

由图5可知, P|D|13与抽样率η呈正相关, |D|P=0.95与抽样率η呈负相关。抽样率η不小于0.09时, P|D|13的均值都在0.95以上, 也就是说两算法降采样结果的误差在5%范围内的概率都不小于0.95。据此可以认为间隔抽样均值算法的降采样结果与区域均值算法相比没有显著差异。同时注意到此时, |D|P=0.95不大于10, 说明|D|显著集中在4%以内, 这同样证明两种算法的处理结果没有显著差异。此时, 间隔抽样算法的复杂度仅为OG=0.09OR, 相比区域均值算法降低了约90%的运算负担。不同抽样率时, 间隔抽样算法的降采样结果如图6所示。

由图6可看出, 抽样率η为0.25和0.09时, 间隔抽样均值算法降采样的结果图与区域均值算法几乎完全相同;而抽样率η=0.04时, 图中椅子支脚处和地面的处理效果与原始算法相比有明显差异。综上所述, 在两算法处理效果无显著差异前提下, 记最小的抽样率η为最优抽样率ηg。

对不同区块尺寸下处理结果的统计分析也有类似的结果:P|D|13与抽样率η呈正相关, |D|P=0.95与抽样率η呈负相关。这也就是说, 抽样率越高, |D|的概率分布越向0集中, 两算法的处理结果越接近。当s=t=16, p=q=21时, 统计分析结果和降采样结果如图7和图8所示。

由图8可知, 当s=t=16, p=q=21时, 最优抽样率ηg为0.036。对于4种不同的区块尺寸, 最优抽样率ηg如表4所示:

由表4可知, 对于相同分辨率的待降采样图像, 随着目标电极数量的减少和区块尺寸的增加, 应用间隔抽样均值法的最优抽样率ηg逐渐降低, 算法复杂度OG=ηOR也逐渐降低。相比区域均值算法, 在处理结果无显著差异的前提下, 间隔抽样均值算法至少可以降低90%的运算量。

3 总结与讨论

在视觉假体图像处理中, 视频采集图像的分辨率通常远远高于光幻视点阵列的分辨率, 因此降采样是视觉假体图像处理中的必要环节。对视觉假体图像处理系统的实时性分析表明, 降采样环节的运算量是影响图像处理实时性的重要因素。为此, 本文提出了基于间隔抽样均值的降采样算法, 并以区域均值降采样算法为参照, 统计分析了间隔抽样参数对降采样处理效果和算法复杂度的影响。通过研究误差|D|的概率分布, 找出不同区块尺寸下的最优抽样率ηg。统计结果表明, 相比区域均值算法, 在处理结果无显著差异的前提下, 间隔抽样均值算法至少可以降低90%的运算量。

摘要：对视觉假体图像处理系统的实时性分析表明, 降采样环节的运算量是影响图像处理实时性的重要因素。为此, 提出了基于间隔抽样均值的降采样算法, 并以区域均值降采样算法为参照, 统计分析了间隔抽样参数对图像处理效果和算法复杂度的影响。研究表明, 在处理效果无显著差异的前提下, 间隔抽样均值算法可以使降采样环节的运算量降低90%以上。

关键词：视觉假体,图像处理,降采样,实时处理

参考文献

[1]Avi Caspi, Jessy D.Dorn, Kelly H.McClure, et al.Feasibility study of a retinal prosthesis:spatial vision with a16-electrode implant[J].Arch Ophth, 2009, 127 (4) :398-401.

[2]Kichul Cha, Kenneth W.Horch, Richard A.Normann, et al.Reading speed with a pixelized vision system[J].Opt Soc of Am A, 1992, 9 (5) :673-677.

[3]Thomas Guenther, Nigel H Lovell, Gregg J Suaning.Bionic vision:system architectures–a review[J].Expert Rev Med Devic, 2012, 9 (1) :33-48.

[4]Mark S.Humayun, James D.Weiland, Gildo Y.Fujii, et al.Visual perception in a blind subject with a chronic microelectronic retinal prosthesis[J].Vision Res, 2003, 43 (24) :2573-2581.

[5]Rodrigo A.Brant Fernandes, Bruno Diniz, Ramiro Ribeiro, et al.Artificial vision through neuronal stimulation[J].Neurosci Lett, 2012, 519 (2) :122-128.

[6]D.Tsai, J.W.Morley, G.J.Suaning, et al.A wearable real-time image processor for a vision prosthesis[J].Compu Meth Prog Bio, 2009, 95 (3) :258-269.

[7]Paul.B.Matteucci, Philip Byrnes–Preston, Spencer C.Chen, et al.ARM-based visual processing system for prosthetic vision[J].EMBS2011, 3921-3924.

[8]Wolfgang Fink, Cindy X.You, Mark A.Tarbell.Microcomputer-based artificial vision support system for real-time image processing for camera-driven visual prostheses[J].J biomedi opt, 2010, 15 (1) :016013.

[9]Spencer C.Chen, Gregg John W.Suaning, et al.Simulating prosthetic vision:I.Visual models of phosphenes[J].Vision Res, 2009, 49 (12) :1493-1506.