人机交互的知识上(精选5篇)
人机交互的知识上 第1篇
人机交互各章知识点
第1章
1.人机交互的概念,所涉及的学科及关系。
答:人机交互(Human-Computer Interaction,HCI)是关于设计、评价和实现供人们使用的交互式计算机系统,并围绕相关的主要现象进行研究的科学。
人机交互技术与认知心理学、人机工程学、多媒体技术和虚拟实现技术密切相关。其中,认知心理学与人机工程学是人机交互技术的理论基础,而多媒体技术、虚拟实现技术与人机交互技术是相互交叉和渗透的。2.人机交互研究的内容。
答:人机交互的研究内容有人机交互界面表示模型与设计方法、可行性分析与评估、多通道交互技术、认知与智能用户界面、群件、Web设计、移动界面设计。3.人机交互经历的三个阶段
答:命令行界面交互阶段、图形用户界面交互阶段、自然和谐的人机交互阶段 4.发展趋势
答:集成化、网络化、智能化、标准化 5.狭义的讲人机交互技术
答:人机交互技术主要是研究人与计算机之间的信息交换,主要包括人到计算机和计算机到人的信息交换两部分。
第2章
1.人的主要的感知方式
答:视觉、听觉、触觉 2.人的常见认知过程
答:
1、感知和识别
2、注意
3、记忆
4、问题解决
5、语言处理
交互原则:许多认知过程是相互依赖的,一个活动可同时涉及多个不同的过程,只涉及一个过程的情况非常罕见。3.人机系统设计步骤 答:(1)需求分析阶段(2)调查研究阶段(3)系统分析规划阶段
(4)系统设计阶段(5)测试阶段(6)人机系统的生产制造及提交使用阶段 4.人机工程学的定义
答:人机工程学是研究“人-机-环境”系统中人、机、环境三大要素之间的关系,为解决系统中的人的效能、健康问题提供理论与方法的科学。
第3章
1.交互设备的的分类 输入设备 { 文本输入设备:键盘、手写输入设备(手写板)
图形输入设备:二维扫描仪、数码摄像头
三维信息输入设备:三维扫描仪、动作捕捉设备 指点输入设备:鼠标、光笔、控制杆板、触摸屏 } 输出设备
显示器、打印机、语音交互设备(耳麦、声音合成设备)
虚拟现实交互设备:
三维空间定位设备(空间跟踪定位器、数据手套、触觉和力反馈器),三维显示设备(立体视觉、头盔式显示器、VAVE(洞穴是现实环境)、裸眼立体显示器、真三维显示)
第5章
1.人机界面的分类方式:
根据用户界面的具体形式、根据根据用户界面中信息载体的类型、根据计算机输出信息的形式
图形用户界面有哪几种:命令行界面、图形界面和多通道用户界面 2.图形用户界面的三个重要思想
答:1.桌面隐喻 2.所见即所得 3.直接操纵 3.设计用户界面的一般性原则
答:(1)界面要具有一致性(2)常用操作要有快捷方式(3)提供必要的错误处理功能
(4)提供信息反馈(5)允许操作可逆(6)设计良好的联机帮助(7)合理划分并高效地使用显示屏幕
4.多通道用户界面的基本特点
答:1.使用多个感觉和效应通道 2.允许非精确的交互 3.三维和直观操纵 4.交互的双向性 5.交互的隐含性
第6章
1.GOMS、LOTOS、UAN的定义与作用。
GOMS:定义:是在交互系统中用来分析用户复杂性的建模技术,主要被软件设计者用于建立用户行为模型。作用:采用“分而治之”的思想,将一个任务进行多层次的细化,通过目标(goal)、操作(operator)、方法(method)、以及选择规则(selection rule)四个元素来描述用户的行为。
LOTOS:是一种作为国际标准的形式描述语言,它的特点是适于描述解决并发、交互、反馈和不确定性等问题的一系列系统的设计,因此可以用来描述交互系统。
UAN:是一种简单的符号语言,着眼于用户和界面两个交互实体的描述,主要描述用户的行为序列以及在招待任务时所用的界面
第7章
1.WEB界面设计的基本原则
答:1.以用户为中心 2.一致性 3.简洁与明确 4.体现特色 5.兼容不同的浏览器 6.明确的导航设计
2.WEB网站可用性的5个原则
答:易学性、有效性、易记性、容错性、满意程度 2.WEB界面字体和颜色的选用原则
颜色:确定网站的标准色彩、以红、绿、蓝三色称为三基色、底色应应柔和、素雅。网页色彩搭配的原则:色彩的鲜明性、色彩的独特性、色彩的合适性、色彩的联想性。
字体:1.整个网站上的字体应该保持使用的一致2.考虑字体如何适应网页,以及字体与整个设计的关系3.的字体和整个页面及网站应融为一体4.计元素例如页边框,行间距,背景颜色和前景颜色等都可以影响最终的结果。5.通过字体不同的安排,可以让网站产生丰富变化的外观和感觉
WEB界面基本设计技术
HTML、JavaScript、JavaApplet、服务器端脚本语言、AJAX技术
第9章
1.可用性的定义及5个“E”。
答:可用性是指特定的用户在特定环境下使用产品并达到特定的目标的效力、效率和满意的程度。5个“E”是指有效性(Effective)、效率(Efficient)、吸引力(Engaging)、容错能力(Error Tolerant)、易于学习(Easy to Learn)2.支持可用性的设计原则及各原则所包含内容。
答:1.可学习性(其中包括可预见性、同步性、熟悉性、通用性、一致性)
2.灵活性(其中包括可制定性、对话主动性、多线程、可互换性、可替换性)3.鲁棒性(其中包括可观察性、可恢复性、响应性、任务规范性)3.用户测试的三个部分
答:1.前期准备工作(明确测试的目的、准备测试环境、准备测试设备、确定测试过程中的各种角色分配)2.测试执行的六个阶段(制定测试计划、选择测试者、准备测试材料、执行引导测试、执行正式测试、分析最终报告)3.可用性测试的评价(通过搜集一些客观、量化的数据进行性能评价、如果要比较两个可选的交互设计,即对两个交互界面A和B,根据某一准则做一个客观的测试决定哪个更好。4.可用性工程的生命周期有以下几个阶段
答:1.了解用户 2.竞争性分析 3.设定可用性目标 4.用户参与的设计 5.迭代设计 6.产品发布后的工作
1、人机交互:是指关于设计、评价和实现供人们使用的交互式计算机系统,并围绕相关的主要现象进行研究的学科。
2、人机交互是一门综合学科。认知心理学与人机工程学是人机交互技术的理论基础,虚拟现实技术与人机交互是相互交叉和渗透的。
3、人机交互的发展历史:命令行界面交互阶段;图形用户界面交互阶段;自然和谐的人机交互阶段。
4、人的感知交互过程主要是通过视觉、听觉和触觉感知进行的。
5、人类从周围世界获得的信息约有80%是通过视觉得到的。
6、RGB颜色模型通常用于彩色阴极摄像管等彩色光栅图形显示设备中。
7、CMYK颜色模型对于认识某些印刷硬拷贝设备的颜色处理很有帮助。
8、常见的认知过程:感知和识别;注意;记忆;问题解决;语言处理。
9、影响认知的因素:情感;人的个性差异。
10、分布式认知理论是传统认知理论的发展,和传统的认知理论并不冲突。
11、分布式认知理论的特征:强调个体与外部表象的结合,重视人工制品的作用;强调认知的分布性;强调交互作用和信息共享;关注具体情境和情境脉络。
12、输入设备:键盘、手写输入设备(手写板)、二维扫描仪、数码摄像头、三维扫描仪、动作捕捉、鼠标、光笔、控制杆、触摸板、触摸屏。
13、输出设备:显示器、打印机、语音交互设备。
14、三维扫描仪成为了实现三维信息数字化的一种极为有效的工具。动作捕捉设置则用于捕捉用户的肢体甚至是表情动作,生成运动模型。
15、人机交互输入模式?请求模式:在请求模型下,输入设备的启动是在应用程序中设置的;采样模式:输入设备和应用程序独立地工作;事件模式:输入设备和程序并行工作;
16、基本交互技术?定位:定位是确定平面或空间的一个点的坐标,是交互中最基本的输入设备技术之一;笔画:笔画输入用于输入一组顺序的坐标点;定值:定值输入用于设置物体旋转角度、缩放比例因子等;选择;选择是在某个选择集中选出一个元素,通过注视。指点或接触一个对象,使对象成为后续行为的焦点,是操作对象时不可缺少的一部分;字符串:键盘是目前输入字符串最常用的方式,现在用写字板输入字符也已经很流行。
17、WIMP用户界面仍是主要的人机交换基础。WIMP界面由窗口、图标、菜单、指点设备。
18、用户界面可以分为:命令行界面、图形界面、多通道用户界面。
19、在目前的计算机应用中,图形用户界面仍然是最常见的交互方式。20、图形用户界面的主要思想:桌面隐喻;所见隐喻;直接隐喻。
21、隐喻可以分为三种:直接隐喻;工具隐喻;过程隐喻。
22、隐喻的主要缺点是需要占用屏幕空间,并且难以表达和支持比较抽象的信息。
23、图形用户界面设计的一般原则:界面要具有一致性;常用操作要有快捷方式;提供必要的错误处理功能;提供信息反馈;允许操作可逆;设计良好的联机帮助;合理划分并高效地使用显示屏幕。
24、用户体验的元素:品牌、使用性、功能性、内容。
25、影响用户体验的因素:现有技术上的限制,使得设计人员必须优先在相对固定的UI框架内进行设计;设计的创新,在用户的接受程度上也存在一定的风险;开发进度表,也会给这样一种具有艺术性的工作带来压力;设计人员很容易认为他们了解用户需要,丹实际情况常常不是这样。
26、用户的区别:偶然型用户;生疏型用户;熟练型用户;专家型用户。
27、用户的观察主要方法有:情境访谈;焦点小组;单独访谈。
28、一个好的人机交互界面设计一开始就要考虑可用性问题。
29、美国IBM公司采用OVID方法,OVID模型有:设计者模型;编程者模型;用户感念模型。
30、OVID方法的关键是确定交互中涉及的对象,并把这些对象组织到交互视图中。
31、行为模型的概念:主要从用户和任务的角度考虑如何描述人机交互界面
32、结构模型的概念:主要从系统的角度来表示人机交互界面。
33、行为模型包括:GOMS:目标操作方法和选择行为模型是在交互系统中来分析用户复杂性的建模技术,主要被软件设计者用于建立用户行为模型。LOTOS:时序关系说明语言是一种作为国际标准的形式描述语言,它的特点是适于描述解决并发、交互、反馈和不确定性等问题的一系列系统的设计。UAN:用户行为标准是一种简单的符号语言,着眼于用户和界面两个交互实体的描述,主要描述用户的行为序列以及在执行任务时所用的界面。
34、GOMS;LOTOS;UAN的优缺点?GOMS的优点:采用“分而治之”是思想,将一个任务进行多层次的细化。缺点:对于任务之间的关系描述过于简单,实现比较困难,任务是面向目标而忽视了问题的本质和个体差异,无法表示真正的认知过程;LOTOS的优点:可保证描述不存在的二义性,便于分析和一致性测试理论的研究,复杂的行为由简单的行为表达式表示。缺点:没有明确事件或行为的发生时间。UAN的优点:紧密且功能强大,合理的抽象层次来描述复杂的界面设计和交互任务,有行为模型和结构模型的特点。缺点:设计需要一定的编程基础,复杂度大,刻画各种平行和串行的序列关系方面不足,任务时间的时序关系没能明确表示,描述输入设备和若干功能平行路径是比较繁琐。
35、行为模型合成UML:G-U-L运用GOMS原理为基础进行任务分解,建立基本的行为模型,原子操作由UANM模型描述,在此基础上,运用LOTOS算符来表示任务目标之间的时序关系。
36、行为模型和结构模型的转换:行为模型主要对设计起指导作用,设计人员在此基础上再进行结构模型(如状态转换网络等)的创建。
37、界面描述语言一般分为两类:命令式语言;陈述式语言。
38、窗口系统的三种结构?在各个应用程序内部实现和管理多任务;在操作系统核心集中处理多任务管理;多任务的管理可由独立的管理程序进行管理。
39、UIMS:用户界面管理系统。
40、对话独立性的概念:是人机交互研究领域的主要问题,主要是强调业务(应用程序的定义)与提供给用户的界面的分离。
41、对话独立性的优点:可移植性;可重用性;界面的多样性;定制界面。
42、Web界面设计原则?以用户为中心:是以Web界面设计必须遵循的一个主要原则;一致性;简洁与明确;体现特点;兼顾不同的浏览器;明确的导航设计。
43、Web界面规划:在规划设计Web界面时,第一个步骤就是要明确网站的目标和用途(如企业的Web网站和个人Web网站有不同的目标和用途)。
44、Web界面设计常用到HTML标注语言、Java Script客户端脚本语言、Java Applet小应用程序、ASP、ASP等服务器脚本语言、AJAX等技术。
45、Web3D可以看成是Web技术和3D技术结合的产物,是互联网上实现3D图形技术的总称。
46、移动界面设计受到的限制:由于移动设备的便携带性、位置不固定性和计算机能力的有限性,以及无线网络的低宽带、高延迟等诸多的限制,移动界面设计又具有自己的特点。
47、可用性可从五个方面理解:有效性、效率、吸引力、容错能力、易于学习。
48、产品开发过程增加可用性的优点?:提高生产率、增加销售和利润、降低培训和产品支持的成本、减少开发时间和开发成本、减少维护成本、增加用户的满意度。
49、支持可用性的设计原则?可学习性:新用户能否很容易地学会交互和达到最佳交互性能;灵活性:用户和系统之间信息交流的方式是否灵活多样;鲁棒性:体现为用户能不能成功达到交互目标,能否达到的目标进行评估。
50、可用性评估方法:用户模型法、启发式评估、认知性遍历。用户测试、用户调查(常用)。
51、结合GOMS和LOTOS对任务“中国象棋对弈”进行描述。Task:中国象棋对弈
-----------------GOAL:中国象棋 [>: GOAL:运行 |||: *GOAL:走棋
ACTION:自动记录棋谱 >>: GOAL:当前方走 >>: OPRATOR:拾取棋子 OPRATOR:放置棋子 GOAL:对弈方走 >>: OPRATOR:拾取棋子 OPRATOR:放置棋子 *GOAL:打谱 []: OPRATOR:加速 OPRATOR:减速 OPRATOR:暂停 OPRATOR:恢复 GOAL:退出
-----------------
基于手部动作的人机交互算法实现 第2篇
当前智能人机交互系统逐渐成为科技研究的一个重要方向。在这一发展潮流下, 手势识别成为了一种新兴的人机交互操作方式。本文对人机交互系统进行研究, 提出了一套基于手部动作的人机交互算法。该算法通过摄像头捕捉图像, 并对采集来的图像进行高斯滤波等前端处理, 然后利用背景差分进行运动目标检测, 接着利用基于Ycbcr空间的肤色检测技术找到运动目标中的手部区域, 并对手部区域进行运动分析, 最后根据识别出来的手部动作进行相应的操作。实验结果表明该算法可以较好的去除背景噪声的干扰, 对操作者手势进行实时有效的识别, 并对遥控小车发出指令, 实现了基于手部动作的智能人机交互。该算法具有广阔的发展和应用前景, 实现了更为智能方便的人机交互。
随着科技的发展, 人机交互在各行各业都有着广泛的应用前景。而随着人机交互的发展, 智能化成为了人机交互系统的主要发展方向。相较于传统的人机交互方式, 比如键盘输入, 鼠标输入, 新型的人机交互方式可以为使用者带来更大的便利, 比如图像输入, 语音输入。简单地说, 图像输入是基于数字图像处理技术的输入方式, 经过摄像头采集和计算机处理对图像和视频进行处理, 屏蔽噪音, 提取有用信息, 进而完成相应的操作指令。图像输入的主要方式是手势识别、人脸识别、动作识别。
动作识别算法是对一系列图像中包含的动作进行识别分析的算法, 主要由前端噪声处理、目标检测、和目标行为分析组成。对运动检测的主要方法有帧间差分法, 背景差分法。帧间差分法实时性好, 背景不积累, 算法简单, 计算量小;背景差分法不受背景干扰, 算法简单易实现。
本文对基于手部动作的人机交互算法进行研究, 目的是通过识别操作者的手部动作对小车进行控制。本算法直接调用摄像头采集实时视频, 对操作者手部动作进行噪声过滤, 运动和肤色检测、动作分析并发送相应的指令。
基于手部动作的人机交互算法
本文提出的基于手部动作的人机交互算法框图如图1所示。在初始视频采集模块, 通过摄像头采集视频, 对采集来的视频流进行高斯滤波、形态学滤波等做前端处理, 滤除噪声, 以便对操作者手部动作进行提取和检测。在运动目标检测模块, 通过背景差分得到运动目标。在肤色特征检测模块, 通过肤色识别, 轮廓提取等处理进一步滤除图像中的干扰信息, 得到更为精准的手部区域。在手部运动分析模块, 通过质心提取, 运动特征点定位识别手部动作在图像中的位置, 进一步确定操作者手部的运动轨迹和方向, 从而翻译出操作者的真实意图, 并在人机交互模块对遥控小车进行操控。
初始视频采集
捕捉静态背景
由于在实际操作中背景会因为操作者身处的环境不同而受到或多或少的干扰, 要想从复杂的背景中提取出清晰的影像, 需要考虑采集时, 背景是否受光线因素影响, 操作者是否移动等相关因素。所以为了提取出相对稳定清晰的影像, 本算法自视频开始采集后采用第26帧的图像作为背景图像, 滤除前25帧图像中的噪声和干扰。这样提取出来的的背景相对干净, 噪声干扰少。
确定背景图重心
为了准确的定位重心坐标, 需要使用矩计算物体形状的重心, 面积, 主轴和其它的形状特征等。由公式 (1) :
其中x, y, i, j是待处理区域的坐标 (单帧图像中的像素点坐标) 。
令Xc, Yc表示区域重心的坐标, 则如公式 (2) 所示:
在二值图像的情况下, M00表示区域的面积。
因为操作者体型不同, 所以为了更准确的定位重心, 需要设定一个重心上移量。
高斯滤波
高斯滤波的作用在于消除高斯噪声, 对信号做平滑处理。在图像处理中, 高斯滤波是一种常用的减噪手段。其算法原理就是将中心像素点的值用其邻域内像素值的加权平均代替。
形态学滤波
形态学滤波的基本方法有:腐蚀、膨胀、开启、闭合。腐蚀可以细化图像中的目标, 消除边界点;膨胀可以粗化图像中的目标, 可以填补图像中的缝隙;开启可以使图像变得光滑, 有效过滤噪声点, 具体操作是先腐蚀, 再膨胀;闭合可以消除图像中的狭窄的间断, 填补轮廓的裂痕, 具体操作是先膨胀再腐蚀。本算法采用了开启运算。
运动目标检测
背景差分法
背景差分法是一种常用的运动区域检测的方法, 通过将当前帧与背景帧作对比差分, 检测出运动区域。背景差分法检测运动目标速度快, 检测准确, 易于实现。
如不考虑噪音n (x, y, t) 的影响, 视频每一帧图像I (x, y, t) 可以看作是由背景图像b (x, y, t) 和运动目标m (x, y, t) 组成:
由式 (3) 可得运动目标m (x, y, t) :
而在实际中, 由于噪音的影响, 式 (4) 不能得到真正的运动目标, 而是由运动目标区域和噪音组成的差分图像d (x, y, t) , 即:
得到的运动目标需要做进一步处理, 阈值分割是最常用的方法:
式中T为一阈值, 本文既采用这种阈值分割法。
肤色特征检测
肤色识别
在现实生活中受限于环境因素, 不同时刻的光照、颜色各异的灯光、噪声的背景等很多因素都可以对肤色识别产生或大或小的干扰。为了尽可能小的减少环境因素的干扰, 本算法采用YCb Cr肤色空间。因为人眼对于亮度的变化较为敏感, 且根据相关研究显示, 不同人种的肤色的不同主要在于亮度分量, 因此在肤色识别中一般剔除亮度分量, , 只关注Cb、Cr两个颜色分量。
YCb Cr与RGB的转换公式如下:
图像二值化
图像的二值化处理就是将图像上每一个像素的灰度置为0或255, 即将256个亮度等级的灰度图像通过适当的阈值过滤, 大于阈值的置为255, 小于阈值的置为0, 从而获得仍然可以反映图像整体和局部特征的二值化图像。在本算法中, 高于阈值的图像即为手部目标, 低于阈值的图像即为背景。
理想方式下, 为选取一个合适的阈值, 记t为目标与背景的分割阈值, 目标像素数占图像比例, 平均灰度;背景像素占图像比例, 平均灰度。图像的总平均灰度为:
从最小灰度值到最大灰度值遍历t, 当t使得值
最大时, t即为分割的最佳阈值。
在本算法中, 由于肤色检测比较特殊, 并不能简单采用理想方式找到最佳阈值。经试验设定, 当Y分量像素值在70~255, Cb分量像素值在80~128, Cr分量像素值在134~165之间视为肤色区域, 即该区域像素点置为255, 其他区域像素点置为0。
绘制轮廓集
为了更好地识别运动目标的形状, 也为了更好地定位运动目标的坐标, 需要将运动目标的轮廓勾勒出来。因为输入的图像为二值图像, 可以较为容易的将整幅图像中的轮廓扫描出来, 并将所有轮廓的边界点坐标存储于一个特殊的矩阵中。利用这些坐标, 我们可以轻易地绘制出一个包含多个轮廓的轮廓集。
设定轮廓最小外界矩形的面积阈值
虽然肤色识别可以过滤掉大多数背景干扰, 但在实际应用中, 人体的其他部位以及背景环境中的类肤色干扰因素依然会影响系统对于手势的识别。因此本算法采用设定一个轮廓最小外接矩形的面积阈值, 从而在整幅图像所有轮廓中找到手臂的轮廓, 即轮廓的最小外接矩形。这样可以提高算法的准确性和实用性。
手部运动分析
信息提取
设重心坐标为 (Gx, Gy) , 轮廓最小外界矩形的四个顶点坐标是 (Ax, Ay) 、 (Bx, By) 、 (Cx, Cy) 、 (Dx, Dy)
设 (AVERx, AVERy) 为顶点坐标平均值
将四个坐标点横坐标排序, 设横坐标最小的顶点为 (MINx, MINy) , 横坐标最大的顶点为 (MAXx, MAXy) 。
若AVERx>Gx, 则运动特征点为 (MAXx, MAXy) , 反之特征点为 (MINx, MINy) 。
信息分析
摄像头开始采集后, 每隔48帧系统会采集一幅图像, 共采集4次。经过上述处理后得到一个特征点, 记为特征点1、特征点2、特征点3、特征点4。然后根据特征点坐标变化的规律进行手部运动分析。若特征点4的横坐标大于特征点3, 特征点2和特征点1横坐标, 则视为向右移动;若特征点4的横坐标小于特征点3, 特征点2和特征点1横坐标, 则视为向左移动;若特征点4的纵坐标大于特征点3, 特征点2和特征点1纵坐标, 则视为向上移动;若特征点4的纵坐标小于特征点3, 特征点2和特征点1纵坐标, 则视为向下移动。
指令发送与接收
借助Visual C++编译环境的MFC模式下的MSComm控件可以实现系统与串口的通信。MSComm是Microsoft公司提供的用于串行通信编程的控件。借助该控件, 应用程序可以方便的借助串口收发数据。MSComm控件提供了多种通信命令的使用接口以及两种处理通信的方法:事件驱动方式和查询方式。本系统采用查询方式。借助无线收发模块可以实现指令的远距离传输, 本系统采用的是BM100B模块, BM100B模块采用GFSK调制方式, 可工作在315/433/490/868/91MHZISM频段, 具有尺寸小, 功率大, 灵敏度高, 传输距离远, 通信数虑高, 内部自动完成通信协议转换和数据收发控制等特点。用户可以利用该模块提供TTL、232或485串行数据接口自行配置摸块的串行速率, 工作信道, 发射功率, 通讯数率等参数。
实验结果
本文采用Visual C++编程软件和Open CV对实时采集的视频进行了前端噪声处理, 之后通过背景差分法得到运动目标, 通过肤色检测找到具有肤色特征的目标, 然后通过运动分析识别手部运动, 最后与小车进行交互。图2为基于手部动作的人机交互算法实验结果示例, 实验中规定当操作者手从上到下移动时, 系统发出前进指令;当操作者手从下往上移动时, 系统发出后退指令;当操作者手从左往右移动时, 系统发出左转指令;当操作者手从右往左移动时, 系统发出右转指令。如图2 (a) 和 (b) 所示, 当操作者手从左往右移动时, 小车也从左往右移动。如图2 (c) 和 (d) 所示, 当操作者手从下往上移动时, 小车也从下往上移动。
结语
本文提出了一套基于手部运动的人机交互算法, 该算法可以对手部运动进行提取, 进而根据提取到的特征点进行运动分析, 最后根据分析的结果能够通过智能控制系统进行人机交互。该方法可以用于一些适用于残障人士的特殊场合, 方便他们进行操作, 具有识别准确, 反应速度快的特点。
建议观点
1.我认为当下科学的发展正处于剧变期, 科学技术在未来几年内将呈指数式增长。所以我认为未来的十年内对于科技发展和科研从业者最为关键。
2.我认为智能人机交互再近十年内是最有可能发生巨大变化的发展方向, 因为现阶段其他行业的科学成果已经为智能人机交互打下了良好的基础, 同时社会的发展也需要智能人机交互得发展。
人机交互的知识上 第3篇
关键词:人机交互设计;手机产品;应用
中图分类号:TP391.41;TN929.53 文献标识码:A 文章编号:1006-8937(2016)11-0079-02
所谓人机交互设计技术,就是通过运用计算机技术,运用有效的方式实现人与计算机的相互对话。人机交互系统在网络中的营运已经取得了一定的成就,人们可以通过人际交互系统更快、更有效的达到自己的目的,这对于人们社会生活的发展具有积极地影响作用,为人们的生活和发展带来了一定的利益。人机交互的设计对于手机产品来说是一项新的挑战,它不仅仅能够推动科学技术的发展,还提高人们的生活水平,使得手机产品更加方便、快捷。
1 人机交互设计在手机产品中的应用推广
人机交互设计在手机产品上的应用主要是先了解客户的需求,将其他人机交互设计应用作为参考,根据其他人机交互设计方面的应用对人机交互设计在手机上的设计进行合理的开发和研究。现如今,已经有很多人机交互设计在其他方面的应用,但在手机的应用方面还只是处于研发和基础的状态。但是由于人机交互设计在其他方面的使用已经取得了一定的成就,比如在生活中乘车、打印还有一些其他的应用已经涉及到了人机交互设计。因此,将人机交互设计融入到手机产品中已经成为当前较为紧迫的事情,这个应用也受到了很多相关人员的关注。
2 人机交互设计在手机产品上应用的影响因素
2.1 使用群体的范围
使用群体的范围不同,设计者在设计的过程中存在着一定的难度。
由于不同的使用群体对于手机产品的要求不同,这使得人际人机交互设计与手机产品的融合存在着一定的问题,两者之间的相容性较差,将会影响两者相应的结合,使得两者在进行结合的时候不能够将手机产品和人机交互设计两者的优势发挥到最大化,这在一定程度上影响了两者本身的特点,使得人机交互设计在手机产品上的应用的可行性受到了质疑。因此,使用群体范围对人机交互设计在手机产品的应用具有重要的影响作用。使用群体的范围将会直接影响人机交互设计在手机产品上应用的可行性和适应性,因此做好群体范围的评估对于人机交互设计与手机产品的结合具有积极地影响意义。
2.2 手机产品的界面设置
手机产品的界面设置对于整个手机产品本身就具有一定的影响作用。界面设置是整个手机产品的门面,消费人群将会第一时间感受到界面设置的好或者不好,进而直接影响消费者的购买欲望,因此,界面设置对于增加消费者也具有重要意义。
除此之外,界面设置中也应该结合人机交互设计,消费者是否能够在界面设置中顺利的找到与人机交互有关的选项对消费者的便利和人机交互设计的推广都具有较为重要的作用。如果手机产品的界面设置不能够将人机交互设计的应用充分的表现出来,消费者就很难找到人机交互设计的应用,这样一来,消费者不能及时享受到人机交互设计为消费者带来的好处,人机交互设计在手机产品中也就不能得到相应的推广和传播,进而对科学技术的推广造成一定消极的影响作用。
2.3 人机交互设计的实用度
人机交互设计在实际使用的过程中存在的问题和开发项目在手机产品的设计过程中也是十分重要的,人机交互设计在手机产品中的应用如果不能够将手机产品的本身特质提高,将会严重影响手机产品的本身质量,进而影响手机产品的消费,对手机产品的利益造成一定消极的影响。人机交互设计的实际应用对于人机交互设计在手机产品上面的推广具有重要的影响作用,手机产品上的人机交互设计具有了实际应用才能够保证消费者能够方便地进行使用,才能够使得人机交互设计在手机产品上的应用变得有意义。在进行推广和设计的过程中,人机交互设计对实际应用的考虑将会对以后的研发和推广产生一定的影响。
3 人机交互设计在手机产品上的应用的解决措施
3.1 结合使用范围和操作技术进行设计
人机交互設计在手机产品上的应用应当根据使用群体的不同来进行设计,才能够保证有更多人能够找到适合自己的产品。由于不一样的消费群体将会有不一样的消费需求,不一样的消费人群也具有自己本身的特点。假如手机产品在设计的过程中仅仅是单一的设计产品,将会在一定程度上失去一定的消费群体,这将会大大减少人机交互设计手机产品的消费,使得相关企业在一定程度上受到利益的影响相同,人机交互设计在手机产品上的应用也应当根据不同的消费人群进行操作技术的设计,比如较为先进的群体与年纪较大的使用者对人机交互的应用的要求是不一样的,较为先进的使用者对操作技术的要求可能较为简单,因为他们在一定程度上对操作技术已经有了一定的掌握,使用起来也就会更加得心应手,然而老年人则较少的接触这些新鲜的科技,对操作设计将会有不一样的需求。除此之外,不一样的群体对人机交互的使用方面也存在着很大的差别,设计者应该将这些都考虑在手机产品的设置上,使得操作技术能够更好的适用于消费者。
3.2 设计较为适合的界面设置
简而言之,界面的设置将会是手机产品最直观的部分,消费者在拿到手机的第一印象除了外观之外便是界面设置了,对界面设置的适用程度将很大一部分决定了消费群体的购买欲,将会直接联系到企业的利益,因此,在设计的过程中应该结合手机本身产品的特点对界面进行设计对手机产品的整体是非常重要的。在这个过程中,应当将人机交互设计的设置按钮变得更加简便、清新,使得消费者在使用手机产品上使用人机交互应用变得较为明了和快捷,这样才能够保证消费人群在使用人机交互设计的手机产品时能够使得手机产品的效用最大化。界面的设置需要将手机产品本身的特性与人机交互设计应用的特性将结合,才能够使得两者为消费者带来的利益最大化,有利于人机交互设计在手机上的应用推广,同时为产品设计者带来一定的利益。界面设计的良好和稳定能够帮助消费者更加快速的接受人机交互设计,使得人机交互设计能够更快融入到手机产品中。
3.3 改善人机交互设计在手机应用中的适用性
人机交互设计在手机产品应用中的适用性对于人机交互设计在手机产品的应用推广具有重要的作用。当下,越累越多的在进行手机购买的过程中会考虑到产品的性价比,因此,手机的适用性也对消费人群的大小起着一定的影响作用。设计人员应该根据消费人群范围的不同进行分析和研究,增加人机交互设计在手机产品上的适用性,人机交互设计的适用性较强,接受其在手机产品上应用的人将会越多反之。如果人机交互设计的适用性较弱,那么接受这种手机产品的人也不会有太大的进步。将人机交互设计在产品中的应用和实际相结合,增加人机交互设计在生活中的使用,这样能够增加人机交互设计在手机产品中的应用率,使得人机交互设计在手机产品中的应用变得广泛和生活化,这样才能够保证人们更快、更好的接受人机交互设计在手机产品中的存在方式,为推动人机交互设计的发展做出贡献。
4 结 语
人机交互设计在手机产品的应用过程其实是将系统发展的过程,在设计人机交互系统的过程中,必须先将使用范围进行清楚的划分,再根据这些使用范围对人机交互设计进行研发和改善。在进行界面设置的过程中也应该将人机交互设计恰当的融入在手机产品的界面设置中,这样才能够保证消费着顺利找到界面设置中的人机交互设计并将人机交互设计的应用进行推广和开发。除此之外,手机产品和人机交互设计的应用的相符程度也很重要,要对手机产品和人机交互设计进行合理的分析,这样才能够保证两者都能够发挥出最大的效益。只有保证了当前障碍的解决,对影响因素能够进行合理的控制,才能够使得人机交互设计在手机产品的应用能够顺利进行。
参考文献:
[1] 王雯艳.基于文化理念之智能手机的图形用户界面设计研究[D].景德镇:景德镇陶瓷学院,2014.
[2] 刘微.基于交互系统理论的手机游戏产品设计研究[D].沈阳:沈阳航空航天大学,2013.
[3] 邓欢琴.人机交互在电子产品设计中的应用[J].包装工程,2014,(2).
[4] 周莉莉,吕琴琴.基于智能技术发展的人机交互和谐设计方法研究[J].美术教育研究,2013,(6).
[5] 唐培和,徐奕奕,俸学文.一种基于本体论的和谐人机交互服务研究[J].广西工学院学报, 2012,(4).
[6] BenShneiderman, CatherinePlaisant(美),张国印,李健利(译).用户界面 设计[M].北京:电子工业出版社,2006.
[7] 杨梦园,苏杭.在盈利与用户体验中找到平衡点——APP广告弊端解 决的研究[J].现代装饰(理论),2013,(8).
面向残疾人的人机交互界面 第4篇
人的因素所涉及的范围极其广泛, 生理, 心理, 行为等等, 每一个方面都有其研究的价值。而我们在文中所要探讨的只涉及到其中一个很小的方面面向残疾人的人机交互界面, 通过一些专门针对残疾人的人机交互方法, 来探讨人机交互界面的发展。
一、早期面向残疾人的人机交互
早期其实是一个相对的概念, 在本文中的早期指的是90年代以前的人机交互。这一时期的普通的人机交互还是主要通过键盘, 鼠标和显示器来进行的。这使得当时的人机交互几乎都与眼睛有关, 而当时针对残疾人的人机交互也主要集中在与视力有关的方向之上, 主要对象是全盲和半盲。
由于受到技术和工艺的制约, 这一时期的前期的尝试主要集中于将视觉转化为触觉的方面, 就像当初人们发明盲文来帮助盲人阅读一样。当然, 也有很大一批成功的面向盲人的人机交互界面被发明出来。
在将屏幕文本转化为可触摸的文本方面, Optacon和Versabraille都是成功的典范。前者可以利用特定设备将文字扫描并用一块充满针的垫子来模拟他们的形状, 或者是通过一个摄像头扫描CRT显示器上的文本;后者则是通过特殊的终端将文字输出为可以更新的盲文。
但是, 如同盲文一样, 触摸文本只能使得很少一部分盲人受益, 于是, 另一种更加实用的方法声音, 浮出了水面。用合成语音读出部分屏幕上的文字的应用程序被大量发明, 他们被叫做屏幕阅读器 (Screen Reader) 。
随后, 随着WIMP (Windows, Icons, Menus and Pointers) 的大量使用, 基于WIMP的面向视力有缺陷用户的人机交互界面也随之出现。在这样的系统中, 需要解决的关键问题就是实现对于整个窗口的模拟, 包括文本, 图标等等。通过利用数据库存储窗口在内存中的位图以及对于数据库的访问, 在特殊的硬件和软件条件下能够解决大部分情况的模拟, 包括新窗口的打开和其他窗口变为不活动的窗口等情况, 可以为用户提供大部分信息。
二、当前面向残疾人的人机交互
从90年代开始到现在的这些年间, 在摩尔定律的作用之下, 计算机硬件和电子技术有了飞速的发展, 与之相应的软件性能也得到了提高, 新的人机交互方法层出不穷, 针对残疾人的也有了很多新的创意, 当然也变得更加复杂了:有的是利用眼球的运动和眨眼 (eye movements and winks) , 有的利用大脑电波 (Electroencephalograph) , 有的利用肌肉控制器 (Electromyograph) , 还有的利用红外线, 等等。
首先, 让我们先看一下利用肌肉控制器的这种方法。其基本思想就是首先将肌肉的物理运动通过传感器 (包括表面电极, 和信号放大器等) 收集起来并转化为适当的数字形式以便于处理, 之后通过特征提取器 (feature extractor) 进行预处理, 一旦预处理结束, 类型识别系统 (classifier) 就把这些行为分成不同的类。在最后的分类过程中, classifier采用最大程度相似评估的办法 (Maxmium likehood measurement) , 将不同的行为根据统计的结果分类, 并且可以根据实际进行调整。
接下来一个也是和EMG (Electromyograph) 有关的一个尝试, 叫做基于面部方向的人机交互界面。随着计算机性能的发展, 科学家很早就开始把计算机视觉 (Computer Vision) 用于人机交互界面的设计了, 但是只用摄像头给计算机硬件带来了很大的压力, 因为毕竟要达到很好的反映速度需要很快的图像处理能力, 同时, 由于计算机摄像头的视野局限, 单纯的计算机视觉方法并不是很有效。于是后来, 科学家开始把EMG和计算机视觉相结合来进行设计, 对于很小范围颈部肌肉活动, 只需要用计算机的图像观察器来判断脸部转动的角度;如果大的话就可以用EMG来判断脸部转动的角度;如果处于两者之间, 就用两者的线性组合决定。用这种方法, 计算机可以根据人的面部方向来决定下一部的响应, 这显然对于面向残疾人的人机交互界面的设计有很大的意义。
语音是人类沟通的自然方式, 在经历了前期的发展之后, 自然在当前依然有很大的用武之地。我们下边所要说的就是一个基于语音控制的人机交互界面。它由六部分组成, 鼠标和键盘的规划, 语音识别器, 带麦克风和两个开关的耳机, 键盘和鼠标的电路, 鼠标控制电路和微控制器。在这个系统中, 键盘按键和对鼠标的被规划成不同的不同的语音指令, 耳机上的两个开关一个是用于重置语音识别器, 一个是用于切换对于键盘或是鼠标的控制, 微处理器接受来自语音识别器的命令, 并转化为对鼠标和键盘的控制, 从而完成用户想要的操作。
三、未来面向残疾人的人机交互:
尽管当前的人机交互界面有了一定的进步, 但是由于成本和适用范围的原因, 还不能被广泛的投入使用。但是在将来, 随着计算机科学相关技术以及生物技术的发展, 人的整个身体包括器官, 肌肉, 活动以及眼神等还有人所处的环境都将作为因素被考虑到人机交互界面的设计当中去。未来面向残疾人的人机交互界面, 将会利用残疾人所能感受外部环境的全部方式, 与计算机进行交互, 从而使残疾人能够最大限度的利用计算机。
四、结论
科技的力量不仅在于它对于工业领域的巨大推动作用, 而且更重要的是它的社会影响。设计出便利的人机交互界面, 让残疾人能够方便地控制计算机是这一领域的科学家不可推卸的责任之一。
摘要:本文结合实例从历史的角度分析了早期和当前的面向残疾人的人机交互界面的主要特性, 并对未来的人机交互界面提出了展望。
关键词:残疾人,人机交互
参考文献
[1]王巍, 王志良, 郑思仪, 谷学静.人机交互中的个性化情感模型[J].智能系统学报, 2010 (1) .
人机交互的进化 第5篇
我们要操作和使用计算机,首先就要和机器进行信息交流。通过周边设备如鼠标和键盘,我们可以把信息传递给计算机,而计算机在屏幕上展示软件对象,则是把信息传递给我们。
随着计算机逐渐渗透到生活中的方方面面,人和机器的交流也就变得越发重要,而设计、评估和实现供人类使用的交互式计算机系统已经成为了一个专门的学科——人机交互(HumanComputer Interaction)。这是一门涉及计算机科学、行为科学、认知心理学、设计学等不同领域,同时包含了软硬件设计的交叉性学科。
伴随着计算机的发展,人机交互也在不断进化,硬件上从早期计算机使用的穿孔卡片,到键盘、鼠标,手写板,单点触控和多点触控,再到3D体感控制器等。软件上则从命令行到图形用户界面(GuI),到手写识别、语音控制和视觉交互等。人机交互的进化使得计算机本身变得更加易用,而人们在接触新的计算机设备时,上手也变得更迅速了。进化的总体趋势就是让交互方式更接近于人类自然交流方式,从键盘输入变为手势、人体动作、语音甚至是感知。
GUI和鼠标的诞生
在人机交互发展的历史上,GUI和鼠标、键盘的发明都称得上是重大的突破。人机交互的重要原则是用户至上、尽量减少用户记忆负担和保持一致性,GUI提高了易用性和学习效率,鼠标则提高了操作性,它们的出现改进了计算机的可用性。对技术史了解不多的计算机用户会认为是苹果公司在GUI和鼠标的创造过程中做出了重大贡献,其实,真正带来这些革命的是另一家公司——施乐(Xerox),以及斯坦福大学研究院(SRI)。
1970年,施乐在帕洛阿尔托建立了一个研究数字技术的研究中心(PARC)。在人机交互发展史上,PARC和SRI都具有举足轻重的地位。PARC于1973年推出了第一种使用GUI的施乐Alto计算机,以今天的眼光看简陋至极,但我们所熟悉的GUI就是从如此古朴原始的界面发展而来。
而鼠标的来历则要复杂一些。麻省理工电子工程博士伊凡·萨瑟兰(IvanEdward Sutherland)创造了最早的交互式图形系统Sketchpad,这也是他博士论文的主题。Sketchpad为计算机图形学带来了重大突破,人机交互方式从此彻底发生改变。伊凡·萨瑟兰也因此于1988年获得ACM颁发的计算机界的最高奖图灵奖。
SketchPad的工作原理是:使用手持物体如光笔在计算机屏幕表面移动,通过一个光栅系统测量光笔在水平和垂直两个方向上的运动,在屏幕上重建笔移动所生成的线条、点和圆弧,这些图形对象可以任意处理和操作,创建的图形随后存人内存,可以在以后重新调用进行处理。今天看来这已经是理所当然,但在五十年前,“直接操作图形对象”是革命性的,它开创了计算机辅助设计(cAD)这个新领域。
在Sketchpad的启发下,SRI的道格拉斯·恩格尔巴特(Dottalas c.Engelbart)设计和开发了首个使用鼠标(只有一个按键)的计算机协作系统oN-Line System(NLS)。NLS于1968年12月9日在旧金山公开展示,它包含了第一个实用的鼠标,研究人员还演示了超文本、目标寻址和动态文档链接,以及两个位于不同地点用户之间的联网语音和视频对话。恩格尔巴特的团队从1962年开始研究NLS,得到了美国国防部高级研究计划署、美国航天局和美国空军的资助。这次演示在科技史上意义深远,被誉为“所有展示之母”(TheMother of AU Demos),可能连恩格尔巴特也没有预想到,仅仅几十年,几乎所有人都能体验到NLS所展示的一切创新。
恩格尔巴特在1970年获得了“用于显示的X-Y位置指示器”专利,因指示器有一个类似老鼠的长尾巴而取绰号为“鼠标”。在鼠标发明之后,恩格尔巴特团队的多名工程师在1976年左右加入了PARC。至此,施乐不仅拥有了图形用户界面GUI,也有了鼠标。
随后,施乐在1981年推出了XeroxStar,这是第一个结合鼠标、GUI、图标、文件夹、以太网网络、所见即所得(WYSIWYG)编辑器、文件服务,打印服务和电子邮件的商业计算机工作站。由于价格昂贵,Xerox Star未能打开市场,施乐最终退出了个人电脑市场。Xerox Star虽然商业上并不成功,但却影响到了后来的许多产品,如苹果Lisa和Macintosh电脑,微软的Windows,IBM OS/2等。
伟大的艺术家偷窃
在施乐之后,真正把鼠标和GUI带给一般用户的则是苹果公司。苹果与施乐有着千丝万缕的联系,许多苹果的著名工程师和设计师最初都是施乐雇员。前苹果首席科学家拉瑞·特斯勒(LaHyTler)是人机交互领域的先驱,在1980年加盟苹果前,从1973年到1980年一直在施乐的帕洛阿尔托研究中心(PARC)工作。
1979年,苹果创始人史蒂夫·乔布斯(seve JobS)参观了PARC。PARC当时是硅谷的创新中心,被形容为“富有邻居”,而苹果公司当时是硅谷炙手可热的科技创业公司,正筹备上市发行股票。乔布斯提议让施乐购买价值一百万美元的10万优先股,换取访问PARC之行。PARC的某些人认为这次“放海盗进门”的主意是“精神失常”。《纽约客》形容乔布斯的访问是“狐狸进了鸡窝”。他对由窗口、图标和菜单构成的图形用户界面(GuI)留下了深刻印象,特斯勒演示了鼠标控制显示屏上的光标,键盘命令和GUI。特斯勒回忆说,乔布斯当时十分兴奋,大喊“这是革命”。乔布斯回去之后,立即让工程师复制施乐的GUI,如菜单和视窗,以及鼠标。当然他没有完全照搬,而是在施乐的基础上进行了创新和改进,如当时施乐的鼠标有三个按键,成本300美元,而苹果将鼠标简化到只有一个键,成本只需15美元。苹果设计师一并设计了菜单栏、下拉式菜单和回收站,都比施乐的GUI更精简。最终,苹果Maci8ntosh电脑将深藏在实验室中的新技术真正带给了普罗大众。
施乐也曾经试图保护其GUI知识产权,在苹果起诉微软抄袭Macintosh用户界面后,施乐也于1989年起诉了苹果,但因为过了三年的诉讼时效而未予受理。苹果的诉讼则在1994年遭挫败。至于鼠标,情况也类似,苹果在1983年推出的Apple LiSa上就采用了类似的鼠标输入设备。虽然恩格尔巴特拥有鼠标专利,但苹果并没有支付任何专利费。在1995年之前,美国专利有效期为17年,Apple Lisa流行之时它恰好过期,虽然
按发布时间算苹果本应该付专利费。
苹果的确是一家伟大的公司,能将前人的发明集成到一起并创造出大受欢迎的产品。但我们不应忘记的是研究人员和计算机科学家的重要性。正如前面所展示的,绝大部分人机交互技术的发展都发源于实验室,包括大学或研究机构的实验室,以及企业建立的实验室。
多点触控
鼠标和计算机键盘诞生几十年来,它们在人机输入设备的统治地位从没发生动摇,但最近一两年,却不断有人提出鼠标将被淘汰的说法,这一切源于多点触控(Multi Touch)的流行。多点触控是指触感表面能识别其上的两个以上点的压力,能支持缩放等丰富动作。其实触控操作并非新鲜概念,其历史比个人电脑还要长。
触控屏实际研究开始于1960年代,早期工作主要由IBM和多所大学完成。欧洲粒子物理研究所(cERN)是最早实现互容式多点触控显示的研究机构之一,丹麦电子工程师本特·斯特伦普(Bent Stum~)在i972年为超级质子同步加速器的控制室设计一种新型的人机界面,他的方案是在一个触摸屏上固定多个可编程按键。伊利诺大学香槟分校在1972年部署了PLATO IV触控终端,PLATO是一种计算机辅助教育系统。MIT架构机器组的研究人员在1978年发明了矢量信息单点触控输入。
而多点触控技术起步于1982年,多伦多大学输入技术研究组研发出第一个人机输入多点触控系统,它利用玻璃平板之后的摄像机识别多个手指的压力。1983年,贝尔实验室的默里·希尔(M~ray Hm)全面讨论了基于多点触控的用户界面,称之为“软机器”。1984年,默里·希尔等人发明了第一种多点触控显示屏,在CRT上覆盖一层透明电容触控传感器阵列。1985年,多伦多大学团队开发出第一种多点触控显示平板。技术突破出现于1991年,皮埃尔·韦尔纳(Pierre Wellner)提出了多点触控的“数字桌”系统,支持多个手指和缩放。1992年,PARC的比尔·巴克斯顿(Bill Buxton)将多点触控板整合到键盘底部,今天的笔记本基本都采用这一设计。此后,一些公司开始在实验室技术进展上展开商业化研究,其中一家公司Fingerworks于2005年被苹果公司收购。2007年1月,苹果宣布了震惊世界的多点触控智能手机iPhone。已故前CEO乔布斯在新闻发布会上形容新产品,“iPhone是一款革命性的、不可思议的产品。”今天,几乎所有的新智能手机和平板电脑都采用了多点触控设计,仅仅苹果iPhone和iPad系列每季度销量就多达数千万部之多。刚上市的iPhone 4S在其第一个周末就创下了400万的创纪录销量。
Kineef体感控制器
软件巨人微软在人机交互上同样有令人瞩目的表现,但可能其它方面的原因导致它在人机体验上的名声不佳。它的Microsoft Surface大型触控平板电脑同样给人留下深刻印象,但这款产品并不是大众消费产品,而是企业级产品,用于企业和商店产品展示。它在人机交互上取得突破的另一个硬件是游戏机Xbox 360外设Kineet。
或许是因为竞争激烈,游戏机产业是一个常常推出创新型交互硬件的行业。任天堂的Wii遥控器、Wii动感强化器(Wii Remote Plus)、Wii u(尚未上市),索尼的PlayStation Move动作感应控制器、PlayStation Eye等。
微软的Kinect是第一种使用姿势和语音控制人机界面的消费电子产品,在人机交互上比Wii更前进一步,摆脱了控制器和手柄的限制,让玩家可以通过自然方式如身体动作和声音控制与游戏交互,它结合了软件和硬件去跟踪三维空间中人体的姿势和声音。
Kinect通过多个传感器捕捉人的动作和声音,包括RGB彩色摄影头,3D深度传感器和多阵列麦克风。底座装有马达,使得Kinect可以随着焦点人物而转动,在软件协助下提供人体动作捕捉,面部识别和语音识别功能。
它的软件主要由微软子公司Rare开发,3D扫描系统Light Coding由以色列公司PrimeSense提供。Kinect能同时跟踪可视范围中的6个人,主动跟踪其中两个活动的人,对每位玩家的20个关节进行动作分析和特征提取。
Kinect普及了实验室和电影中的身体动作捕捉,为其它各种应用开启了大门,例如动画制作,与机器人结合起来对人体姿势做出反应(MIT的iRobotCreate)等。它在2010年11月正式上市,60天内售出了800万台,创下消费电子产品最快销售的吉尼斯纪录。截至3月9日,销量突破l千万。微软在6月发布了Kinect for Windows SDK,使开发者可以为WindoWS开发Kinect应用。
语音助手Siri
苹果在2010年4月收购了为iPhone和iPod Touch开发虚拟个人助手的创业公司Siri。收购之后,Siri从App Store下线。一年半之后的现在,我们已经知道Siri去了哪里,Siri成为了iPhone 4s独享的特色功能,也成为它的一大卖点。当然,基于人工智能和语音识别的语音个人助手并不鲜见,也并非苹果所独创,Android同样有类似的程序如Voice Actions和Sonalight。苹果的独到之处是与其产品的深度整合,改变了我们与机器的交互方式。语言是我们最早学习到的技能之一,把与手机的对话变得像私人助理那样轻松愉快,比在桌面上点击鼠标更自然,无疑具有深远意义。
Siri出自SRI的国际人工智能中心,是美国国防部高级研究计划署资助的CALO项目的副产品。CALO代表“学习和管理认知助手”(Cognitive Assistant that Learns andOrganizes),有超过60所大学和研究机构参加,从2003起在五年时间内投资超过了1.5亿美元,据称是至今规模最大的人工智能项目,旨在创造出一个虚拟智能助理,减轻政府雇员的负担,它能给电子邮件排序,区分优先次序,进行归纳总结,还能安排会议,编写简报等。Siri的人工智能技术来自CALO,语音识别技术则是由纽昂斯通信公司提供。纽昂斯主营服务器和嵌入式语音识别,电话呼叫转移系统,光学字符识别软件等,有一个专门部门为美国军方和政府机构开发软件。
Siri需要访问苹果的服务器,利用云端的计算能力处理数据,因此在美国之外它的功能受到限制。通过与系统的深度整合,Siri可以根据需要调用各种应用程序的API(应用程序接口),让用户觉得它似乎真的十分智能。它能让用户直接通过语音接收、编辑和发送信息,查询交通信息和天气情况,设
定闹钟和计时,安排日程和提醒,调用Google和Bing搜索Web,调用知识引擎Wolfram Alpha解答复杂的数学问题和其它问题。Siri目前只支持英语、法语和德语三种语言。鉴于目前人工智能没有取得根本性突破,语音识别还有很多难题没有克服,如正确的语义分析,再加上Siri的语音识别误判率还是相当高,有时候的回答更是不知所云。它实际上相当于先进聊天机器人Elbot、Cleverbot和Alice等的语音版,但用户体验远胜于网上打字聊天。
人机交互的未来
人机交互未来的发展趋势无疑是更深入、更自然和更全面。用户可以在同一时刻通过多种途径如语音、手势、姿势、眼动等与计算机交互,发挥每一种渠道的独特优势,提高效率;计算机的智能将会上一个台阶,能感知人想干什么,不需要人的命令;日常生活中的交互将会无处不在。这一切将为人类带来更具有浸入感的体验,创造更舒适的生活。
在这一切成为现实前,我们可以先去简单了解一些科学家在实验室中取得的新进展。
第六感:多点触控功能如此有用,为什么只限于智能手机和平板呢?MIT媒体实验室研究人员开发了可穿戴式增强现实姿态控制界面,将周围的环境变成可交互的触摸面,它由摄像机、微型投影机、镜子以及微型计算机组成,可将图像投影到任意表面,将环境和信息结合起来,通过无线网络识别商店货架上的商品,提供商品和价格对照表,或将图像投影到空中并通过手势进行操作。
OmniTouch:与第六感类似,但更先进。它是微软研究院研究人员和卡内基梅隆大学博士生克里斯·哈里森(chrisHarrison)共同开发的可穿戴式交互系统,能将身体部位和附近表面转变成触控界面,用户可以通过触摸他们的手臂和附近墙壁或纸张阅读和回应电子邮件。研究人员在他们的论文中提到了第六感等项目,但认为它们并没有创造真正可触摸的界面,因为它们无法区分点击和悬浮的手指。OrnniTouch系统概念验证原型包含了一个深度场摄像机和基于激光的微型投影仪。在6048次手指点击测试中,系统的正确识别率达到了96.5%。其可能应用包括在桌面上投影完整键盘,对投影在纸上的地图进行缩放操作等。
脑电波控制:人类大脑有五百亿到一千亿个神经元,神经元之间以突触的形式互联,形成神经元网络,突触总长度可以绕地球几圈,其连接复杂度即使是世界最快的超级计算机和今日全球的互联网,也难望其项背。因此要解读神经交互产生的微弱脑电波需要克服数量惊人的挑战,至少在一二十年内我们不太可能看到大的突破。但通过脑电波去执行简单任务则是完全可能的,科学家已经成功让全身瘫痪的残疾人通过脑电波控制机器人的手臂。由于脑电波微弱,阅读电波的方法不外是侵入式和非侵入式两种。侵入式是直接将电极植入到脑皮层,将脑电波转化成机器可读的信号,这种方法显然只有少数人会去尝试;另一种是利用紧贴在大脑表层的传感器阵列,需要过滤周围的杂波,放大原始脑电波信号。但对普通人来说,这两种方法太遥远或者太昂贵,用起来也不舒服。
在今年的TED大会上,越南裔澳大利亚企业家Tan Le演示了一种售价299美元的廉价脑电波耳机。Tan Le是Emotiv公司联合创始人,曾于1998年被评为澳大利亚杰出青年,入选30名30岁以下最成功女性。Emotiv公司产品EPOC被形容为个人的人机交互界面。演示者戴着耳机在简单训练后演示利用脑电波控制虚拟物体的移动,控制电子轮椅转向,控制游戏中的虚拟角色动作等等。使用脑电波耳机不是什么轻松的事儿,需要配戴者集中注意力。







