空间分类范文(精选9篇)
空间分类 第1篇
关键词:园林植物,空间分类
在园林的构成要素中, 建筑、山石、水体都是不可或缺的要素, 然而, 缺少了植物, 园林就不可能从宏观上作整体性的空间配置。利用植物的各种天然特征, 如色彩、形姿、大小、质地、季相变化等, 本身就可以构成各种各样的自然空间, 再根据园林中各种功能的需要, 与小品、山石、地形等的结合, 更能够创造出丰富多变的植物空间类型。这里, 就从形式和功能两个角度出发并结合实例对园林植物构成的空间作具体分类。
从形式上分:
1 开敞空间
园林植物形成的开敞空间是指在一定区域范围内, 人的视线高于四周景物的植物空间, 一般用低矮的灌木、地被植物、草本花卉、草坪可以形成开敞空间。在较大面积的开阔草坪上, 除了低矮的植物以外, 有几株高大乔木点植其中, 并不阻碍人们的视线, 也称得上开敞空间, 但是, 在庭园中, 由于尺度较小, 视距较短, 四周的围墙和建筑高于视线, 即使是疏林草地的配置形式也不能形成有效的开敞空间。开敞空间在开放式绿地、城市公园等园林类型中非常多见, 像草坪、开阔水面等, 视线通透, 视野辽阔, 容易让人心胸开阔, 心情舒畅, 产生轻松自由的满足感。
2 半开敞空间
半开敞空间就是指在一定区域范围内, 四周围不全开敞, 而是有部分视角用植物阻挡了人的视线。根据功能和设计需要, 开敞的区域有大有小。从一个开敞空间到封闭空间的过渡就是半开敞空间。它也可以借助地形、山石、小品等园林要素与植物配置共同完成。半开敞空间的封闭面能够抑制人们的视线, 从而引导空间的方向, 达到“障景”的效果。比如从公园的入口进入另一个区域, 设计者常会采用先抑后扬的手法, 在开敞的入口某一朝向用植物小品来阻挡人们的视线, 使人们一眼难以穷尽, 待人们绕过障景物, 进入另一个区域就会豁然开朗, 心情愉悦。
3 覆盖空间
覆盖空间通常位于树冠下与地面之间, 通过植物树干的分枝点高低, 浓密的树冠来形成空间感。高大的常绿乔木是形成覆盖空间的良好材料, 此类植物不仅分枝点较高, 树冠庞大, 而且具有很好的遮荫效果, 树干占据的空间较小, 所以无论是一棵几丛还是一群成片, 都能够为人们提供较大的活动空间和遮荫休息的区域, 此外, 攀援植物利用花架、拱门、木廊等攀附在其上生长, 也能够构成有效的覆盖空间。
4 封闭空间
封闭空间是指人处于的区域范围内, 四周围用植物材料封闭, 这时人的视距缩短, 视线受到制约, 近景的感染力加强, 景物历历在目容易产生亲切感和宁静感。小庭园的植物配置宜采用这种较封闭的空间造景手法, 而在一般的绿地中, 这样小尺度的空间私密性较强, 适宜于年轻人私语或者人们独处和安静休憩。
5 垂直空间
用植物封闭垂直面, 开敞顶平面, 就形成了垂直空间, 分枝点较低、树冠紧凑的中小乔木形成的树列、修剪整齐的高树篱都可以构成垂直空间。由于垂直空间两侧几乎完全封闭, 视线的上部和前方较开敞, 极易产生“夹景”效果, 来突出轴线顶端的景观, 狭长的垂直空间可以引导游人的行走路线, 对空间端部的景物也起到了障丑显美、加深空间感的作用。纪念性园林中, 园路两边常栽植松柏类植物, 人在垂直的空间中走向目的地瞻仰纪念碑, 就会产生庄严、肃穆的崇敬感。
6 天时空间
这里所说的天时空间包括随季相而变化的空间和植物年际动态变化空间。一切物质存在的基本形式就是空间和时间, 而时间通常被称为四维度空间。因此植物的空间分类中, 不可能离开时间这个概念, 也就是说, 它不可能离开年复一年的年际变化, 也不可能离开春夏秋冬的季相变化。
空间分类 第2篇
日历介绍:
1、日历展示年、月;
2、深色月份(图标❶)为有日志内容,将鼠标移动至月份上后停留几秒就会显示此月有几篇日志,灰色月份(图标❷)为无日志的月份,
3、通过年份的左右箭头,可以切换年;
空间分类 第3篇
关键词:学科竞赛;主题;时间;空间;模式;管理
学科竞赛是面向大学生开展的学术科技活动,是培养学生创新精神和实践能力的有效载体,是激发学生潜能和创造力的最好手段,对培养和提高学生的创新思维、创新能力、团队合作精神、解决实际问题和实践动手能力具有非常重要的作用。多年来,形形色色各级各类的大学生学科竞赛层出不穷,对学科竞赛的分类也五花八门。只有通过构建一套有效的分类体系,提出学科竞赛分类准则,厘清学科竞赛内涵与外延,才能避免造成学科竞赛管理混乱和措施不当等现象,有效减少竞赛的不公平和不公正,从而推动学科竞赛有效开展以及进一步发展。
一、学科竞赛分类准则的提出
我们可以把学科竞赛定义为学生利用所学科学文化知识针对所提出的学术问题在一定时间和空间通过一定方法(或模式)进行分析、构思、尝试,争取优胜的活动。不难看出,作为学科竞赛应该包含主题、时间、空间、模式四个要素。“主题”即竞赛的内容和核心,如某届大学生电子设计竞赛主题“智能小车制作”等。“时间”即竞赛全过程或某一阶段从开始到结束的间隔,一般一次比赛包括竞赛准备阶段、理论方案阶段、模型制作阶段、决赛(或答辩陈述)阶段等时间段。“空间”即竞赛所需要的场所,如决赛场所、预赛场所等。“模式”即解决竞赛问题所采取的方法,如手工制作、计算机编程、口头表述等。
不定主题科技活动分为以下三类:
(1)不定时间不定空间的大学生学术科技活动。它是大学生一种自我的不受约束的学习或研究活动。我们把它们称为自由学习研究类活动,如学术调查、科技发明等。
(2)定时间不定空间的大学生学术科技活动。时间规定可以半年、一年,但活动场所没有统一规定。我们把这种有组织的活动称为研究训练计划类活动,如大学生科研训练计划、创新实验计划、新苗计划等。
(3)不定时间有评比空间的大学生学术科技活动。我们把它们称为展示类活动,如“挑战杯课外科技作品竞赛”。它没有主题限制,没有时间规定,仅以申报调查报告、学术论文和科技发明制作三类作品参赛。对优秀作品给予奖励,并组织学术交流和科技成果的展览、转让等活动。
以上三类大学生学术科技活动都不设主题,它们不具备学科竞赛特征,不是本文研究对象。在此列举能清楚理解什么样的大学生学术科技活动才能称得上是学科竞赛,也更加明确了科研训练项目和大学生挑战杯等活动与学科竞赛之间的区别。这对我们学科竞赛管理工作具有积极意义。
规定“主题”的大学生学术竞赛活动,根据竞赛运作模式固定与否,我们把它分为非学科竞赛和学科竞赛类两类。其中具有固定运作模式的竞赛如知识竞赛、辩论赛、技能竞赛等,它们运作模式只有笔试、口试或只有验证型动手等形式,竞赛过程过于简单,学科性不强,只是对学生基本知识、技能的训练。我们认为不应列入学科竞赛范畴。
规定主题的具有不同运作模式的大学生学术科技竞赛活动,我们列入学科竞赛范畴。根据时间、空间二个要素把它分为开放式学科竞赛、半开放式学科竞赛、封闭式学科竞赛、半封闭式学科竞赛四类。
(1)开放式学科竞赛,指不定时间有决赛空间的学科竞赛。该类学科竞赛准备阶段、理论方案阶段、模型制作阶段不受时间限制,竞赛所用场地也不作统一规定,仅以提交参赛作品参加决赛。如大学生机械设计、大学生智能汽车、大学生广告设计竞赛等。
(2)半开放式学科竞赛,指不定时间半定决赛空间的学科竞赛。该类学科竞赛准备阶段、理论方案阶段不受时间的限制,模型制作和决赛集中在统一规定的场地内进行。如大学生结构设计、大学生工程训练综合能力竞赛等。
(3)封闭式学科竞赛。该类竞赛准备阶段、理论方案阶段、模型制作阶段、决赛阶段定的时间统一规定,场地实行全封闭,如大学生程序设计竞赛等。
(4)半封闭式学科竞赛。该类竞赛准备阶段、理论方案阶段、模型制作阶段、决赛阶段定的时间作统一规定。竞赛场地分散于不同地点进行竞赛,竞赛期间参赛人员可以运用网络、书籍、各种文件资料等多种手段收集信息,如大学生数学建模、大学生电子设计竞赛等。有关特征如下表所示:
学科竞赛类型不是一成不变的,根据竞赛的发展和主题变化可以调整。如大学生结构设计竞赛,为反映学生真实参赛水平,更加公平公正,从起初开放式调整到目前的半开放式竞赛;全国大学生电子设计竞赛因隔年竞赛的主题不同,采取了两种不同形式竞赛,逢单年为半封闭式竞赛,逢双年为开放式竞赛(嵌入式竞赛)。
二、针对四类不同的学科竞赛,提出具有针对性的管理措施
我们根据时间和空间对学科竞赛进行了分类,针对四类学科竞赛的不同特征,提出了以下科学有效的管理措施,从而指导学科竞赛管理工作,在实践中得到较好应用,取得明显效果。
(1)开放式学科竞赛一般是以培养学生探索精神、创新精神和解决实际问题能力的综合性竞赛。从竞赛主题看,一般采用具有现实意义的问题,要求参赛学生拟定解决方案或按所设置的测试标准设计制作作品。竞赛难度一般较大,对知识的综合运用能力要求较高,需要学生利用现有知识去分析问题、构建思路、选定方法以及验证方案,进而实现从掌握理论知识到切实解决问题的跨越。竞赛整个过程需要参赛者花费大量时间、精力,这种特征决定了形式必须开放,过程不受时间空间限制。如机械设计、工业设计等竞赛。开放式学科竞赛的主体是参赛学生,同时需要教师在赛前进行指导和提供必要硬件、场地等帮助。开放式学科竞赛必须把诚信放在首位,在市场经济浪潮冲击下,有的学生和教师不免会利用开放式竞赛特点,为了获奖而投机取巧、弄虚作假、急功近利。为此,要实行诚信一票否决制,对违纪现象及时查处。另外,一方面在竞赛内容上增加决赛答辩评审环节在获奖的权重,另一方面可以通过推行和健全竞赛举报机制,加强作品真实性考证。
近年来,浙江大学针对开放式学科竞赛,通过制定《浙江大学大学生竞赛管理条例》,规范和引导参与学科竞赛的师生行为,引导学生树立“重参与、重过程、争取获奖”的竞赛观,在竞赛过程中培养良好的品质,形成健全的人格。督促教师要以“教书者必先强己,育人者必先律己”约束自己,在竞赛中以优良的职业道德影响学生。我们还推出竞赛过程跟踪机制,实行网络监控、评议等等方法保证竞赛公平公正。我们充分认识开放式学科竞赛答辩环节的重要性,尽力为竞赛作出公平公正的评判。
(2)半开放式学科竞赛分两个阶段,竞赛理论方案设计(或竞赛准备)阶段和竞赛模型作品制作阶段。竞赛理论方案设计(或竞赛准备)阶段实行开放形式,竞赛模型作品制作阶段实行集中封闭形式。半开放式学科竞赛有现场集中封闭制制作竞赛作品环节,因此竞赛命题十分关键。在考虑题目的新颖性和实用性前提下,一定要考虑可操作性,如果主题选择偏难,会造成参赛队在规定时间不能完成制作竞赛作品而无法参加接下来的决赛。如果主题偏易,失去竞赛的挑战特性,不利于创新意识和能力的激发,最终会造成评奖等级难以区分问题。
为保证半开放式学科竞赛的公平公正,必须有相对完善的竞赛章程作支撑。明确竞赛的性质、目的、意义、方式,组织机构及职责,参赛资格和作品申报,作品的展览、交流、转让,奖励等内容,使之体现原则性、灵活性和可操作性。并邀请教学经验丰富、学术水平高的专家学者组成竞赛专家委员会。
浙江大学承办了浙江省大学生结构设计竞赛,该竞赛采取半开放式。为确保竞赛的公平公正,一方面,省大学生结构设计竞赛组委会通过制定竞赛章程明确竞赛的宗旨、组织和规则,以及参赛资格、参赛形式、参赛经费、评奖办法、参赛时间安排、知识产权保护等问题;另一方面,每届竞赛承办学校都制定实施办法暨竞赛指南,明确竞赛开展程序,作品的要求和评审标准、奖项设置的具体方法、参赛者必须遵守的纪律。在竞赛设置上,我们适度增加模型作品制作阶段在评奖中的比重,力争使竞赛公平公正公开。
(3)封闭式学科竞赛是在同一时间,提供统一的竞赛设备在封闭的环境中进行的学科竞赛,如大学生程序设计竞赛。封闭式学科竞赛有两个重要阶段和两个重要环节。两个重要阶段:第一,赛前准备阶段,包括制定竞赛规则,发布通知,明确参赛条件、竞赛范围,成立专家委员会、命题等。第二,竞赛实施阶段,包括场地布置,竞赛现场秩序维持,领奖及颁奖工作安排等。两个重要环节:一是对赛场的控制与调节,开赛后,要严格按照规则实施,对违反竞赛规则的选手及时予以处罚。竞赛中如果出现问题,要依靠评委会迅速解决,以保证竞赛不间断地进行。二是竞赛题的选择与确定,要考虑竞赛难易度,确保竞赛各奖项能顺利评出。
封闭式学科竞赛从形式上看,最为公正,但要避免 “以考代赛”和走入知识竞赛模式,所以不能过于提倡。另外,考虑到本科、专科学生的知识和能力,在竞赛组别上最好按高校学生学历层次分本科、专科组别制定不同的评审标准。由于封闭式学科竞赛场地限制,该类竞赛还不能满足各校参赛要求,竞赛可以通过开展学校或赛区的初赛与复赛,扩大学生受益面。
浙江省大学生程序设计竞赛是封闭式学科竞赛,浙江大学已经开展十三届。我们重视竞赛的每个阶段和环节,统一竞赛规则与技术数据,保证了每支参赛队公平参赛,至今乃保持竞赛零举报的好声誉。我们紧紧抓住大学生程序设计竞赛这一封闭式学科竞赛特征,通过竞赛题目的创新性、交叉性和多样性,以弥补封闭式竞赛对学生创新能力、实践能力的培养的不足。通过扎实富有成效的开展,从2010年开始,浙江省每年有3所高校3支代表队进入世界总决赛,约占全球3%,约占国内进入总决赛队伍16%,受到世界注目。浙江大学2003年以来每年参加世界总决赛,并在2011年第35届国际大学生程序设计竞赛中摘得全球总冠军。
(4)半封闭式学科竞赛是在规定时间分散于不同空间进行的学科竞赛。它与封闭式竞赛不同之处在于参赛队处于不同地点进行竞赛,允许参赛者可以运用网络、书籍、各种文件资料等多种手段收集信息,允许参赛者外出加工、购买竞赛所需物品。如数学建模、电子设计竞赛等。半封闭式学科竞赛关键在于竞赛过程监控,通过设立巡视制度,进行随机随时抽检,增加现场答辩环节,对违规参赛者实行一票否决制达到参赛过程的公平公正。在评委的选择上,建立评审专家资源库,将为人公正、专业能力和水平在本学科领域突出、竞赛经验丰富的专家和学者纳入其中,每届从中随机抽取评委名单。另外还可以通过评审过程公开,允许被测试队之外的其他参赛队观看,一则互为监督,二则互相学习。
浙江大学是全国大学生数学建模竞赛浙江赛区秘书处单位。多年来,我们本着公平、公正、公开的原则,在赛前制定严格的纪律制度和评审制度。竞赛期间赛区组委会组织巡视检查,委派巡视员进驻参赛学校。安排学生进行现场答辩;评审专家采取回避制度。在评奖结果上,采取公示制度和举报制度等等。通过以上针对性管理措施,浙江省半封闭式学科竞赛卓有成效,如全国学生数学建模竞赛,2010年浙江大学参赛队荣获本科组全国唯一“高教社杯”奖项。2008公安海警高等专科学校荣获专科组全国唯一“高教社杯”奖项。
大学生学科竞赛是一个系统工程,只有通过理性分析学科竞赛的现状,找出发展规律,通过厘清学科竞赛内涵与外延,进行内涵的深化和外延的拓展,提出具有针对性管理措施,学科竞赛工作才能提高一个层次,才能富有成效持续开展。近年来,浙江大学在这方面已经迈开了一大步,取得了较大成绩,我们将不断努力探索,争取让更多学生直接受益。
参考文献:
[1] 刘长宏等.“四层次、三维度”学科竞赛体制的改革研究与实践[J]. 实验室研究与探索,2011(1).
[2] 陈树莲. 学科竞赛功利化的现状分析与对策[J]. 教学与管理(理论版),2007(12).
空间分类 第4篇
标准制定的背景和意义
2009年11月, 全国休闲标准化技术委员会成立, 这不仅是我国首个以休闲为标准化对象的专业标准化委员会, 也是全世界首个并且是唯一的休闲标准化技术委员会。标委会成立以后, 对我国休闲产业现状进行了大量的专项调研和研究工作。随着经济社会已经开始由工业化时代向后工业化时代转变, 国民生活水平和生活质量大幅度提升, 休闲也从精英阶层的小众化走向了平民百姓的大众化, 并且会在未来几年呈现井喷式发展。但我国目前的休闲空间缺乏、休闲设施不足、休闲服务落后等, 无法满足国民的基本休闲需求。特别是城市公共休闲空间的缺乏严重影响了国民的休闲质量。基本上大中型城市的公园在早上和晚上都是人满为患。商场、休闲街区在周末也是人潮汹涌。节假日景区里的人山人海则是中国景区的常态。如此休闲, 何来质量可言?因此, 全国休闲标准化技术委员会自成立以来, 就把通过标准化手段来提升中国休闲质量作为目标。
2013年2月, 国务院发布《国民旅游休闲纲要 (2013-2020年) 》 (后简称《纲要》) , 全国休闲标准化技术委员会部分委员作为专家参与了《纲要》起草。《纲要》提出了旅游休闲产业的指导思想、发展目标、主要任务和措施以及组织实施等。其中“主要任务”的第1条是保障国民休闲时间, 第2条是改善国民旅游休闲环境, 第3条是推进国民旅游休闲基础设施建设。提出的措施包括稳步推进公共博物馆、纪念馆和爱国主义教育示范基地免费开放;城市休闲公园限时免费开放;稳定城市休闲公园等游览景区、景点门票价格, 并逐步实行低票价;加强城市休闲公园、休闲街区、环城市游憩带、特色旅游村镇建设, 营造居民休闲空间;加强公园绿地等公共休闲场所保护, 对挤占公共旅游休闲资源的应限期整改, 等等。此外, 《纲要》“主要任务”还包括加强国民旅游休闲产品开发与活动组织, 完善国民旅游休闲公共服务等等。把休闲时间和休闲空间的保障放在了《纲要》任务的首要位置。为响应《纲要》, 全国休闲标准化技术委员会把《城市公共休闲空间分类与要求》列入了制标计划, 标准于2013年年底报批并于2014年9月发布。本标准的制定和发布实施对于营造良好的休闲空间和休闲环境, 提供满意的休闲服务, 更好地促进休闲产业发展, 具有重大的实践意义。
《城市公共休闲空间分类与要求》要点解读
休闲空间是居民与游客休闲活动的主要发生地和承载地。加强休闲空间建设特别是公共休闲空间的建设是满足公众休闲生活需要的基本保障。
《城市公共休闲空间分类与要求》主要规定了城市公共休闲空间的分类及基本要求, 通过对空间类型的划分, 从休闲的维度来划分城市公共休闲空间的共同点和不同点, 以促进城市公共休闲空间的规划、建设、利用维护与服务的提升。
1. 分类体系:按休闲功能分类
本标准的标准化对象是城市公共休闲空间, 主要是从休闲功能的维度把城市公共休闲空间分为了2类: (1) 专项公共休闲空间———以某一种或某一类休闲功能为主要特色的公共休闲空间, 主要包括运动场馆、文化场馆、休闲步道、自行车道、特色市场、青少年活动中心、老年活动中心、休闲水域、特殊公共场所等; (2) 综合型公共休闲空间———集合多个专项休闲功能为主要特色的公共休闲空间, 主要包括中央休闲区、公园、城市广场、休闲商业区、滨水休闲区、社区休闲中心等。这样分类的主要原因是由休闲需求推导休闲空间该具备的功能, 从而有利于休闲空间供给方进行合理的空间规划、布局、建设以及提供服务。
2. 标准核心:完善公共休闲空间体系
分类的要点是维度清晰不交叉, 涵盖全面不漏缺。服务标准化的核心就是QSCV (优质、服务、洁净、价值) , 通过标准的实施来有效提升服务质量。《城市公共休闲空间分类与要求》本质上是一个服务类标准, 通过对城市公共休闲空间赋予涵义, 按休闲功能进行空间分类, 并从休闲功能的共性角度提出了具体的基础性要求, 从而让休闲空间供给者了解完善公共休闲空间体系有哪些休闲要素, 对空间的休闲功能有什么样的基本要求等。
城市公共休闲是城市建成区范围内满足公众休闲需求的公共休闲空间。要对公共休闲空间进行分类, 首先得对休闲进行分类。休闲的英文leisure来自拉丁语词licere, 意思就是自由。希腊人使用scol, schole, skole来定义leisure, schole被认为是一种远离工作的状态或者条件 (Welton, 1987) [转引自D.Mc Lean, R.Hurd, Recreation and leisure in modern society, Jones and Bartlett publishers, Inc, 2005:88]。在古希腊文化中, 休闲一直被看作是相对于体力劳动、属于上层阶级和知识分子的活动, 它给人们提供了思考和增加艺术修养的机会。中国旅游研究院《中国休闲发展年度报告2011—2012》中指出, 休闲是“人们在工作或者劳动之余所从事的一切使身心放松的活动的总和”。究其本质, 从行为角度来说, 休闲是一种在自由时间里远离工作和日常生活琐事的消遣活动。那么这个活动的场所和空间就是休闲空间。休闲活动从产业的角度来分, 澳大利亚的文化与休闲统计系统 (ACLC:AustraliaCultureandLeisure Classifications) 将其分为四大类 (1) 休闲遗产类, 对应的休闲空间如博物馆、自然遗产保护区等; (2) 休闲艺术类, 对应的休闲空间如图书馆、影剧院等; (3) 休闲体育类, 对应的休闲空间如健身房、体育场馆等; (4) 其他休闲活动类, 对应的休闲空间如露营地、城市中央休闲区等。不同类型的休闲活动要素对休闲空间的具体要求差异很大, 因此, 有必要对公共休闲空间进行功能分类, 以便开展规划建设。
在国民休闲时代, 必须满足居民多元化的休闲需求, 因此, 必须具备多元化的休闲空间体系, 一方面, 应加强社区休闲空间建设, 就近满足社区成员的休闲需求;完善城市和郊野公园体系, 满足国民日常小憩和周末远足游憩的需求;城市应建设多要素、多功能聚集的中央休闲区, 提供项目丰富的休闲活动;同时应加强农村休闲场所和空间的培育, 丰富农村休闲项目;应注重水域和森林休闲空间的布局, 满足亲近自然的多元化休闲活动需求。
另一方面, 公共休闲空间应具有开放性和良好的可进入性, 舒适、惬意, 实施景观化设计或改造, 并有效处理非公共空间与公共空间的关系, 如拆墙透绿;发展慢性系统, 包括绿道, 以及街道两侧的建筑, 考虑沿街遮荫、避雨和停留的需要, 形成使行人感到亲切友好的街道界面。
此外, 各类城市综合公共休闲空间体现着城市基本休闲品质, 应体现出城市的独特魅力, 例如:
中央休闲区———体现地域文化特征, 以休闲娱乐功能为主的公共活动区域, 具有相对明确的区域边界、相应的管理机构和较大的规模, 有足够的免费公共空间, 能深度体现城市文化底蕴, 休闲设施集中, 休闲氛围浓郁, 休闲业态丰富, 享有较高知名度和鲜明的形象, 对当地居民和外来游客有较强聚集效应。
公园———具有一定的用地范围、良好的生态环境和服务设施, 供公众游憩的绿地空间。
城市广场———位于城市建成区, 具有较大公共活动空间, 供人们游憩休闲的场地。
休闲商业区———具有一定规模, 文化娱乐、商品零售、餐饮等服务网点集中的区域。
滨水休闲区———依托水域形成的休闲产业集中、休闲服务与产品供给丰富、休闲环境良好的特殊区域。
社区休闲中心———应是一个满足社区成员或来访者休闲需要的由设施、设备、服务和场所构成的一个综合体。
城市中央休闲区是一个城市的名片, 代表着这个城市的形象, 是提起这个城市就能让人立刻想起的地方, 比如上海的新天地, 北京的什刹海, 南京的秦淮河夫子庙等。城市公园和城市广场的分布和数量则是普通百姓日常休闲的保障, 所以城市公园和城市广场代表着城市大众休闲的品质。休闲商业区和滨水休闲区则体现了城市休闲产业的发展状况, 也是城市休闲发展的持续力量。社区休闲中心则反映了一个城市休闲的成熟度, 也是城市居民休闲最基本的需求。国外发达城市的社区在承担基本生存功能的基础上, 还承担着经济、政治、教育、休闲等多项功能。我们国家的社区早期仅仅承担着生产生活的功能, 随着社会的发展, 目前城市很多商业小区已经有了非常发达的休闲功能了, 但是仍然需要进一步完善。
专项公共休闲空间则代表了一个城市的休闲前沿和休闲质量, 其数量和分布的合理性是城市休闲水平发展的标志。专项休闲空间主要包括:
运动场馆———开展运动训练、比赛、休闲健身等活动的场所。
文化场馆———满足审美、教育、自我激励等休闲精神需求的设施和场所, 如博物馆、科技馆、图书馆、影剧院等。
休闲步道———专供步行使用、禁止通行机动车辆的道路。
自行车道———自成体系的专门供自行车通行的道路。
特色市场———满足人们特定的文化、爱好等活动的专门市场。如古玩市场、花鸟市场、邮币市场等。
青少年活动中心———面向青少年的校外文体活动和培训辅导场所。
老年活动中心———面向老年人的文体活动和培训辅导场所。
休闲水域———依托水体形成的开放性休闲活动空间。
特殊公共场所———在特定时间向公众开放的特殊公共区域。
专项公共休闲空间是休闲产业的基本要素, 而休闲产业是现代服务业的重要组成部分。休闲产业的发达程度也是衡量经济、社会现代化水平的重要标志。因此, 专项公共休闲空间的合理有序供给、品牌化发展必定是休闲产业关注的重点。
3. 保障体系:基本质量要求
作为一个公共休闲空间, 最基本也是最重要的就是满足国民的基本休闲需求。那么, 国民基本休闲需求涵盖哪些要点呢?我们认为主要有以下4个方面:
(1) 可进入性良好。不同的休闲空间的可进入性要求可以不同, 但一个共同点是方便民众进出, 标识导览系统完善, 整体空间具有一定的开放性, 停车场配比合适;慢行系统与机动车道路相分离等。
(2) 环境优美。主要包括生态环境和文化环境, 具体而言, 包括文化或生态景观比例适宜、主题鲜明;绿地、水系等生态敏感区域得到有效保护;历史文化建筑或街区得到有效保护;室内休闲空间及时通风换气, 噪音和湿度等条件符合相关标准要求;建筑物与环境相协调;夜晚景观优美, 灯光照明适度;此外, 除商业性质的休闲空间外, 应最大限度地减少乃至杜绝户外商业广告。电力线、电话线、电视闭路线三线入地, 电力设施不影响景观。公共厕所数量合理, 位置适宜。垃圾箱数量合理, 外观整洁等等。
(3) 休闲娱乐设施满足基本需求。主要包括公用电话亭、移动通信网及互联网服务设施满足需求;配备直饮水设施, 水质达到饮用水标准;配备面向残障人士的服务设施;休憩设施充足, 适应行人遮荫、避雨和停留的需要;在活动集中的重要节点设置咨询点或服务站;特殊公共场所的开放形成制度化等等。
(4) 安全得到保障。紧急疏散导引系统完善有效;护栏等防护设施设备完好, 定期维护检修, 无安全隐患;有医务室、定点医院等医疗救助机构;安全、标识、卫生、消防等公共设施达到国家相应标准要求等等。
标准的发布实施与作用
休闲标准体系建设中, 休闲空间与场所, 休闲服务与管理, 休闲行为三大要素构成了休闲的核心要素, 《城市公共休闲空间分类与要求》的发布与实施将更有力地促进城市公共休闲空间的建设与发展。
首先, 能促进城市居民基本休闲空间的完善。当前, 我国城市居民基本休闲空间存在着数量不足, 类型单一, 分布不合理, 规划不结合国民基本需求等问题。本标准的发布和实施将促使休闲空间规划者和供给者了解空间类型, 调研民众空间需求, 有序规划和合理利用休闲空间。
其次, 促进休闲产业的发展。休闲还是个新兴事物, 很多地区的休闲发展尚处于无意识状态。而休闲空间是休闲产业的基础要素, 通过本标准的实施, 可以掌握休闲产业中对休闲空间的着力点, 从而促使免费休闲和收费休闲同步合理发展, 引导企业在规划休闲空间时重视民众需求。
第三, 休闲空间标准作为休闲标准体系三大要素之一, 是一个基础性、提纲挈领型的标准, 它发布实施后必定会导致对具体休闲空间的标准化需求, 因此会促进体系内细化标准的发展, 如社区休闲中心的发展需要服务、管理、安全分类和等级评定等等一系列标准化。
此外, 城市中央休闲区、社区休闲中心、度假社区、休闲主体功能区等作为城市公共休闲空间的重要组成部分, GB/T 28003-2011《城市中央休闲区服务质量规范》、GB/T 28927-2012《度假社区服务质量规范》、GB/T 28928-2012《社区休闲服务质量导则》、GB/T31176-2014《休闲咨询服务规范》等标准的发布实施, 将极有力地促进城市公共休闲空间的发展与建设。
结语
空间分类 第5篇
关键词:商空间,面向对象分类,自适应区域增长,云模型,模糊支持向量机
0 引言
随着高分辨率遥感影像的普及,针对高分辨率影像的信息解译技术已经成为一个研究热点。影像分类技术是实现影像解译的一个基本方法。传统的分类技术如最大似然法[1]、最小距离法[2]、K-means法[3]以及ISODATA[4]等,都是基于像素光谱特征的分类或聚类方法。与低分辨率遥感影像相比,高分辨率遥感影像能提供更多的利于分类的特征,如纹理特征、形状特征、空间相关特征等,这些特征的应用无疑将大大提高目标识别的能力。另一方面,由于地物细节丰富、空间相关性强而产生相互影响和干扰,以及同物异谱、同谱异物的广泛存在等,将降低目标识别的可靠性。因此,仅基于像素光谱特征的传统分类方法并不适合于高分辨率遥感影像。面向对象的多特征分类技术以对象为处理单元,充分利用对象的多维特征,将单个特征无法区分的地物用多维特征加以区分,因而具有更高的可靠性,适用于高分辨率遥感影像分类。
面向对象的影像分类过程可以描述为以下三个方面:影像分割与对象生成、特征选择与计算,分类算法执行。因此,分类效果取决于三个因素:分割质量、特征选择、分类算法性能。影像分割是面向对象分类的基础,影像分割将影像分成数量相对较少、具有多维特征、内部同质的区域,后续的分类就是以这些同质区域为基础开展的。由于遥感影像的复杂性以及影像分割技术的限制,获得一个令人满意的分割结果常常是比较困难的。为尽可能准确地获得内部较为同质、又相对完整而不破碎的区域,本文提出了一种自适应的基于云模型的区域增长分割方法。
近年来,人们提出了一些新的分类技术,如人工神经网络技术[5]、模糊分类技术[6]、决策树分类技术[7]等。这些分类技术目前仍主要针对中低分辨率遥感影像,虽然已经取得了大量的进展,但仍多应用于基于像素光谱的分类,将它们直接应用于高分辨率遥感影像分类仍然不太理想。
Vapnik等根据统计学习理论,提出了支持向量机的技术(SVM)[8]。SVM在求解小数量样本、非线性、高维特征的模式识别问题上具有良好的性能。由于影像分割产生的区域具有数量相对较少、特征维数相对较高的特点,因此SVM技术更适合于面向对象的分类。SVM算法属于监督法分类技术,需要人工指定训练样本,而且分类结果的精度取决于训练样本的质量。为减少低质量训练样本对分类精度的影响,以及提高算法抗噪声能力,Lin提出了一种模糊支持向量机的技术(FSVM)[9]。在FSVM中,不同的训练样本对分类超平面的贡献程度不同,赋予不同的加权惩罚系数,以不同的隶属度表示。然而,对于模糊支持向量机来说,隶属度函数的确定又成为了关乎算法效能的一个关键问题。目前,尚未出现一个成熟的、广泛适用的隶属度确定方法。
本文对FSVM分类算法做出了改进,设计了一个新的隶属度计算方法,综合考虑了样本尺度、样本点到类中心的距离、以及样本点、类中心、最优超平面三者相对位置,以准确计算样本点的模糊隶属度。由于FSVM分类是一个两类分类技术,而对于遥感影像,地物的种类往往多于两类。目前研究人员采取的方案是将两类分类器扩展到多类分类器,提出SVM多类分类技术[10]。本文并没有采取这种多类扩展方案,而是借鉴决策树思想,并结合对象的多维特征,提出一种FSVM和决策树结合的分层分类策略。
目前的分类方法,无论是基于像素的还是面向对象的,大多局限在一个单一粒度空间对影像进行分类。由于高分辨率遥感影像的复杂性,单一粒度空间的分类结果往往存在着一定程度的错误,而且这种错误在单一粒度空间内是很难纠正的。张钹院士和张铃教授提出的基于商空间(Quotient space)的粒度计算模型及其理论认为,人类智能的公认特点,能使人们从极不相同的粒度上观察和分析同一问题,不仅能在不同的粒度世界上进行问题求解,而且能够很快地从一个粒度世界跳到另一个粒度世界[11]。
文本将商空间理论应用于高分辨率遥感影像分类,提出一种新的基于商空间理论,结合模糊支持向量机和决策树的分层合成分类技术。首先,在不同粒度下,构建基于模糊支持向量机和决策树的分层分类模型,形成不同粒度商空间下的分类结果。然后,运用商空间粒度合成原理,比较不同粒度商空间的分类结果,综合形成完整的合成分类结果。
1 自适应的基于云模型的区域增长
影像分割是面向对象分类的一个基本环节。分割质量对后续的分类效果有很大的影响。针对不同的应用,人们提出了很多不同的分割方法,总体上分为四类:阈值分割法、基于边界的方法、基于区域的方法以及二者结合的方法。这些方法很少考虑影像分割过程中像素聚类的不确定性,硬性地将其划归为某个类别,而忽视了像素属于其他类别的概率。影像分割过程并不是朝着一个“必然和确定”的方向进行,而是存在着随机性和不确定性,致使影像分割显得非常复杂,获得一个令人满意的分割结果常常是比较困难的。例如Mehnert和Jackway[12]指出,影像分割过程中存在着像素次序依赖,不同的像素次序可能引起不同的分割结果,这种像素次序依赖反映了影像分割的随机性。另外,在像素聚集形成区域的过程中,像素隶属某个区域的可靠程度不同,并不适合于用“完全隶属”或“完全不隶属”来描述,靠近区域中心的像素,隶属区域的可靠程度较大,远离区域中心的像素,隶属区域的可靠程度较小。这种可靠程度反映了影像分割的不确定性。
云模型是一个关于形式表达和概念分析的新理论[13],它能反映客观世界与人类认知科学领域概念的随机性和模糊性,以及表示随机性和模糊性之间的关联性,建立定性概念和定量数值之间的映射。云模型使用三个数值特征以表达概念特征,分别是期望值Ex、熵En以及超熵He。期望值Ex是云模型表达概念的中心值,它最能有效描述这个定性概念,表达云滴组概念的中心。熵En综合反映概念的模糊性和概率,表达云滴组的离散程度。超熵He度量熵的不确定性,也就是说,它是熵的熵,表达云滴组的偏离程度。
影像分割是将空间相邻、光谱相似的像素聚集形成同质区域的过程。如果我们把区域视作定性概念,我们就能使用云模型来表达区域概念,区域增长实际上就是云综合的过程,这个过程可以描述如下。
首先,利用后向云发生器实现从定量数值到定性概念的转换,定性概念实际上表达一个区域。后向云发生器是一个从定量数值特征到定性概念的转换模型,按下式计算期望值Ex和熵En:
根据期望值Ex和熵En,定义云期望曲线方程如下
其次,执行云综合处理使区域概念的数值尺度变大。随着概念的扩张,概念表达的区域也相应增长。本文将云期望方程作为区域增长和合并的判断准则,并且在增长过程中自适应调整这个准则。因此,任意像素对于每个邻近云模型的隶属度就可以用该方程计算得到。其过程描述如下。
1)通过正向云发生器,计算每一个未处理像素对于其邻近云模型的的隶属度;
2)比较像素对不同云模型的隶属度,像素合并到隶属度最大的云模型中;
3)重新计算云模型概念的定性特征,使云模型在扩张过程中实现自适应调整。
4)继续执行上述过程,直到所有像素都已处理。
为避免区域增长对像素次序、区域次序的依赖,保证所有区域能够以均衡的方式增长,我们采取了两个策略:
1)当一个像素相对几个不同的邻近云模型具有相同的隶属度时,我们采取的策略是,该像素分配到尺度最大的云模型。
2)当一个云模型增长后,下一次增长从与上一次特征差异显著的云模型开始,避免一些云模型过度增长,而另一些受到抑制。
2 商空间理论下的分层合成分类
本文认为,人眼在识别目标时遵循三个阶段,分别是分层识别阶段、对比识别阶段和合成识别阶段。其中,分层识别阶段,可以模拟为一种层次模型。在每一层次,根据一种或几种主要特征,将上一层次识别结果进一步区分。对比识别阶段,主要借助于上下文关系,进行推理判断。合成识别阶段,对不同角度的分层识别结果进行归纳、合成,得到最终的识别结果。商空间理论提供了问题的商空间描述,建立了问题求解的分层、推理、合成的理论框架,可以用于构建目标识别的统一模型。本文首先用模糊支持向量机和决策树建立层次分类模型;然后在商空间分解、合成理论指导下,建立合成分类模型,对不同层次分类结果合成,获得最终分类结果。
2.1 商空间粒度理论
商空间理论将一个问题描述为三元组(X,f,T),其中:X表示问题的论域,f表示论域属性,T表示论域拓扑结构。商空间理论认为同一个问题在粒度不同时,对应不同的等价关系,有不同层次的商空间描述。给定一个等价关系R,可以得到论域X对应于R的商集,记为[X],对应的三元组([X],[f],[T])称为对应于R的商空间。问题求解就是在某一粒度下对商空间中论域X及其相关结构T和属性f进行分析和研究,并在不同粒度下,研究各商空间相互之间的关系、合成、分解以及推理等。商空间的分解、合成、推理原理在文献[11]中有详细叙述。
2.2 基于改进模糊支持向量机和决策树的分层分类
本文对模糊支持向量机分类算法做出了两个改进。首先,设计了一个计算样本模糊隶属度的新算法,综合考虑了样本尺度、样本点到类中心的距离,以及样本点、类中心和最优分类面之间的相对位置。第二,提出了一个FSVM和ISODATA结合的分类方法,不仅提高了训练样本的质量,而且也使分类过程自动化。
2.2.1 改进的模糊支持向量机
给定一个模糊训练数据集(xi,yi,μi),i=1,2,...,n,其中:xi是d维特征点,yi代表xi的类标记,μi是样本xi的模糊隶属度。最优分类面不仅能使两类能正确区分开,而且还要使两类能最大距离分离,必须满足以下目标约束条件
式中:C是一个惩罚参数,控制着训练样本分类错误的惩罚程度;ξi是松弛因子。根据KKT理论(KarushKuhn-Tucker),FSVM把上述问题转化为求解以下最优化问题:
这是一个二次规划(QP)最优求解问题,拉格朗日乘子αi可以用二次规划方法计算。仅一部分训练样本有非0的αi,这些样本称为支持向量,因为只有这些非0的αi决定着分类超平面的位置。
这里K(xi,x)称为核函数,对于线性分类情况,线性核函数公式是
对于非线性分类情况,核函数的公式是
在FSVM的训练过程中,不同训练样本与分类面的相对位置以及距离不同,在求解分类面过程中所起作用也不同,因而在FSVM算法中具有不同重要程度,样本的隶属度正是反映这种重要程度。刘提出了一个隶属度计算方法,考虑了样本点到类中心的距离[14]。但这个方法没有考虑样本点、类中心以及最优分类面三者之间的相对位置,因此难以有效反映样本的重要程度。本文设计了一种新算法,综合考虑了样本尺度、样本点到类中心的距离、样本点与类中心以及最优分类面之间相对位置,以准确计算样本模糊隶属度。
假设正类的样本集为{(x1i,y1i,μ1i),i=,1,2N1},负类的样本集为{(x2j,y2j,μ2j),j=,1,2,N2},令1x表示正类样本的中心点,x2表示负类样本的中心点,每类样本的模糊隶属度μ1i,μ2j按下式计算
这里C1i,C2j表示每类样本调节系数:
FSVM是一个监督分类技术,需要提供一定数量的训练样本,且算法性能很大程度上取决于训练样本的质量。ISODATA是一个非监督聚类技术,通过设置初始聚类中心、定义相似性准则函数,对所有样本聚类,并在每次迭代过程中,动态调整聚类中心、合并和分裂,获得最终聚类结果[4]。为获得高质量训练样本,并使分类过程自动化,本文将FSVM算法和ISODATA结合,由ISODATA算法对所有对象进行聚类,从中选择一些样本作为训练样本。
2.2.2 模糊支持向量机和二叉决策树结合的分层分类
决策树算法是1986年由Quilan提出的[15],是一种重要的数据分类技术。本文采用的是二叉决策树算法,它是一种从无次序、无规则的样本数据集中,按照从上到下、分而治之的归纳过程,在二叉树的内部节点进行属性值的比较,做出一系列二者必居其一的选择,根据不同的属性值判断从该节点向下的分支,最终在决策树的叶节点得到分类结果。由于二叉决策树从上层节点到下层节点的归纳过程实际上是一个两类分类过程,可以用FSVM算法实现。因此,二叉决策树算法和模糊支持向量机算法结合,并考虑区域对象的多维特征,可以实现遥感影像的分层分类,其主要过程描述如下。
1)首先将所有区域样本视为一类作为第一层根节点;
2)对于第一层的根节点,选择某种特征,例如光谱特征,采用FSVM算法,将所有区域样本分为两组,形成第二层的两个节点;
3)针对第二层的每个节点,以某种特征,例如纹理特征,采用FSVM算法,将该节点的区域样本再分成两类,形成第三层的4个节点。
4)针对第三层的每个节点,以某种特征,例如几何特征,采用FSVM算法,将该节点的区域样本再分成两类,形成第四层的8个节点。
5)以上过程递归用,直到形成最后的叶节点,对应最终的分类结果。整个过程如图1所示。
2.3 基于商空间的分层合成分类
2.3.1 商空间粒度合成原理
影像(X,f,T)在粒度1商空间中的分类结果为(X1={a1},T1,f1),在粒度2商空间中的分类结果为(X2={a2},T2,f2),假设其合成的商空间分类结果为(X3={ci},T3,f3),商空间合成分别包括论域合成、拓扑结构合成以及属性函数合成,其中论域合成表示为
拓扑结构合成表示为T3={t 3|t3=t1∩t2,t1∈T1,t2∈T2}(11)
属性函数合成表示为
其中:D(f,f1,f2)是某一给定的判别准则,且对于投影Pi:(X3,T3,f3)(Xi,Ti,fi),i=,12满足2,Pif3==fi,i=1,2。
2.3.2 基于商空间的分层合成分类
1)运用本文提出的模糊支持向量机和二叉决策树结合的分层分类方法,依次按光谱特征、纹理特征、几何特征对影像进行分层分类,获得粒度1商空间的分类结果(X1={a1},T1,f1)。
2)运用分层分类方法,依次按几何特征、光谱特征和纹理特征对影像进行分层分类。获得粒度2商空间的分类结果(X2={a2},T2,f2)。
3)根据商空间粒度合成原理,将粒度1商空间的分类结果(X1={a1},T1,f1)和粒度2商空间的分类结果(X2={a2},T2,f2)按式(10)进行合成。比较粒度1的分类结果和粒度2分类结果中每个对象的类别值,如果某个区域在2个粒度空间中的分类结果一致,则有理由认为该区域分类正确,存储到论域X3中。如果某个区域在2个粒度空间中分类结果不一致,则该区域分类错误。
4)将所有区域的光谱特征、几何特征、纹理特征组建特征向量。
5)对每类分类正确的区域进行ISODATA聚类,选择一定数量的聚类中心作为该类的训练样本,调用本文改进的FSVM算法构造分类器,对分类错误的区域重新进行分类,并将分类结果合并到论域X3中。
3 实验结果和分析
实验数据为SPOT影像,分辨率为2.5 m,大小为512像素470像素,如图2所示。传统的分水岭分割结果如图3所示。从图3可以看出存在严重的过分割现象。用本文提出的基于云模型自适应区域增长的分割结果如图4所示,用本文的分层合成分类方法,其分类结果如图5所示。图6是用传统的基于像素光谱特征法的分类结果。对比图5和图6,本文的分类方法具有较好的分类效果,其中,道路、绿地、湖泊基本上被完整提取出来,且整个分类过程完全自动进行,无需人工选择训练样本,适合于高分辨率遥感影像分类。而图6传统方法(ISODATA)的分类结果则存在着较大的绿地和湖泊的混分,以及居民地和道路的混分情况。
图7是另一幅城区的遥感影像图,地物类型较为复杂,即使是目视解译,有些地物还无法直接从影像上判读,特别是两条道路其灰度差异较大。图8是本文的分层合成法分类结果,图9是传统的基于像素光谱特征分类结果。从本文方法分类结果来看,原图亮色和暗色两条道路被提取出来,因为其灰度差异过大分别作为2个类别。原图黑色或亮色且具有规则或不规则形状的地物,在分类图中也分别作为黄色、棕色、绿色、红色地类提取出来。而图9传统方法的分类结果很显然存在着较大的道路错分情况。由于本文研究在只有全色影像情况下分类,没有充分的多光谱数据,在这种情况下,即便是人工目视解译尚且有难度,自动解译只有在充分挖掘分类算法本身的性能和影像上提供的丰富的纹理特征、形状特征等才能提高目标的识别率。
4 结论
空间分类 第6篇
图像目标的分类、识别是计算机视觉和模式识别领域的一个重要研究问题。由于图像目标存在视角变化、亮度变化、尺度、目标变形、遮挡、复杂背景以及目标类内差别等影响,使得图像目标的分类识别非常困难。针对这些问题,提出具有各种不变性的局部特征[1,2],如SIFT(Scale Invariant Feature Transform)[2]。Fei-Fei[3]和Fergus[4]提出基于局部特征的生成模型用于图像分类,Berg[5]和Lazebnik[6]提出基于几何对应的图像分类方法,但这些方法性能不稳定而且计算复杂度非常高[7]。为了使用这些局部特征,提出许多基于特征包(Bags-of-Features)的方法对图像目标分类[1,8,9,10,11],并取得良好性能,但是这些方法没有利用局部特征在图像空间位置关系,只利用了局部特征在特征空间的关系。最近,Lazebnik[7]借鉴Grauman[9]的金字塔匹配思想,提出空间金字塔匹配核(Spatial Pyramid Matching Kernel,SPMK),首先对局部特征量化,并在二维图像空间建立金字塔,然后计算两幅图像的子图像区域局部特征直方图交叉,该方法要求图像中目标比较规范,且要求目标在图像中位置比较一致[7],没有描述图像中局部特征之间的空间位置相关性,而且该方法时间效率不高。本文提出一种局部特征空间相关核(Spatial Correlation Kernel,SCK)对图像目标进行分类,该方法首先提取图像的局部特征,利用K均值进行量化,然后在图像空间计算量化后的局部特征位置自相关度,最后利用直方图交叉函数计算两个位置自相关度之间的匹配程度,从而得到局部特征空间相关核函数。SCK可以较好地描述局部特征在图像中相对位置关系,满足正定条件,可以嵌入基于核的学习算法,且具有良好的时间效率。本文将SCK嵌入支持向量机[12](Support Vector Machine,SVM)对公共数据库ETH80[9]中图像进行分类,实验结果表明SCK的分类性能优于SPMK。
1 原理与方法
图像目标的语义信息主要来源于图像中颜色信息以及颜色之间的结构信息。局部特征具有良好的局部不变性能,它能够获取图像或目标局部的亮度和结构信息,文本分类常用词袋(Bag-of-Words)来描述文本,为了能够较好地利用这些局部特征,已经有很多研究者采用类似文本单词包的视觉词汇包来描述图像[8,10],通常采用对图像中局部特征矢量量化的方式来获取视觉词汇,然后组成视觉词汇库,也可称为局部特征词汇库。为了能够较好地获取图像或目标局部的空间相关信息,本文将二维图像空间均匀划分为子区域,然后计算在一定距离上的子区域内各视觉单词出现次数的交叉值,也就是局部特征在空间位置上的自相关度,采用直方图交叉可以较好地比较图像之间的这种相关度,将这种比较结果称为局部特征空间相关核。
1.1 视觉词汇库建立
选择一系列相关图像用于建立视觉词汇库,如图1所示。首先提取各图像中局部特征,然后利用矢量量化方法(如K均值)对局部特征点集进行聚类,聚类中心表示一个视觉单词,从而得到视觉词汇库(w1,w2,,wl,,wn),n为词汇库中单词总数,wl表示词汇库中第l个视觉单词,1nl。
1.2 局部特征空间相关核
设e维特征空间F,F⊆Re,首先提取图像I中局部特征L={(X1,P1),,(Xi,Pi),(XQ,PQ)},Xi∈F,1iQ,Q=|L|为图像中局部特征总数,Pi表示局部特征Xi的二维图像坐标,将各局部特征分配给词汇库中与其距离最近的单词,然后划分图像为MN的子区域,如图2所示,每个子区域记为XPjk,j,k分别表示子区域的行列标号,0j
1.2.1 局部特征空间位置自相关度计算
设XJK(l)={xjk(l)},xjk(l)>0,XJK(l)表示大于0的xjk(l)集合,不同l对应不同集合,距离d为0d
当d为1时表示与互为八邻域关系,则局部特征空间自相关向量:
式中:表示td个中较小值之和,yd(l)表示wl在距离d的自相关度,yd(l)可以描述局部特征在图像空间中相对位置关系。
1.2.2 局部特征空间相关核
对另一幅图像I′,类似图像I有t′d对满足:
式中:j′1,j′2,k′1和k′2的含义分别与式(1)中的j1,j2,k1和k2相同,类似式(2)有
式中:zd(l)表示wl在距离d的自相关度。利用局部特征空间自相关向量得到局部特征空间相关核函数(Spatial Correlation Kernel,SCK)为
1.3 证明局部特征空间位置相关核满足Mercer条件
只有满足Mercer条件的核函数才能保证基于核函数的凸优化学习算法(如SVM)寻找到最优分类平面。min函数满足Mercer条件,是正定的[13],所以式(5)中min(yd(l),zd(l))是Mercer核。由于Mercer核函数对非负线性联合封闭,根据式(5)可知局部特征空间位置相关核函数ζ(I,I′)满足Mercer条件,是正定的。所以局部特征空间位置相关核函数能被运用于任何需要Mercer核的学习算法。
1.4 时间效率分析
除了分类正确率外,图像分类、识别的另一个重要性能指标是时间效率,要求图像之间匹配时计算复杂度低、速度快。从式(5)可以看出,SCK的时间计算复杂度(即图像匹配复杂度)与词汇库中单词总数n以及min(M,N)都成线性关系,其计算需要nmin(M,N)次min操作和两层累加操作,而且外层累加次数只有min(M,N),此值相对于单词总数n很小,内层累加次数为n。根据SPMK[7]的原理,SPMK首先要计算每个通道在金字塔每层的直方图交叉,如下式,
式中:X,Y代表两个局部特征点集,ℓ表示空间金字塔的第ℓ层,ℓ≥0,D表示第ℓ层单元格的总数,D=2ℓ2ℓ。然后得到每个通道的金字塔匹配核
式中L表示金字塔的层数,再计算所有通道的匹配值,得到空间金字塔匹配核:
式中:r表示通道号,T为总通道数,X′r,Y′r分别表示两幅图像中局部特征点集X′,Y′属于第r个通道的局部特征子集。由式(6)、(7)、(8)可知,SPMK的计算需要T∑ℓ=0L4ℓ次min操作、三层累加操作以及T(L+1)次乘法。SCK与SPMK相比较,SCK不需要乘法运算,SCK需要两层累加,SPMK需要三层累加操作,而且最外层累加次数为T,其值比较大,而SCK的外层累加次数为min(M,N),其值比较小,这些会导致实际的SPMK时间效率比SCK要低。
2 实验结果与分析
为了评价局部特征空间相关核对图像目标分类的性能,将SCK嵌入支持向量机[12],实验数据为公共数据库ETH80[9]。ETH80共含有8类目标,分别为apple,car,cow,cup,dog,horse,pear,tomato,如图3所示。本文每一类有10个具体的目标,每个目标从不同位置、不同视角拍摄5幅图像,总共400幅图像。实验中视觉词汇库的建立采用训练图像中提取的局部特征。
对ETH80中图像均匀提取SIFT特征,每幅图像含有约256个128维SIFT特征点,然后进行主成分分析(Principal Component Analysis,PCA),得到10维局部特征。采用交叉验证(cross-validation)的方式评价分类性能,每次测试图像为一个目标的5幅图像,而其它图像作为训练图像,共训练和测试80次,所得分类结果是80次分类的平均正确分类率。
下面讨论子区域划分对正确分类率的影响。先讨论情况1):M=N=2ω,ω=0,1,2,,这种可以称为金字塔式区域划分方法。正确分类率与M或N的关系如图4所示,横坐标表示M或N的值,纵坐标表示正确分类率。图右边表示词汇库中单词数n,从上到下分别表示n为20,50,70,100,150,160,170,180,200。图4中除了词汇库中单词数n值为70,100,160,M=8时分类率比M=4时分类率略有下降外,对于其它n值,M值增大使得分类率随之上升,可见,当图像被划分越细,SCK越能捕获图像目标的局部位置关系,正确分类率也就越高。当M值较小相应分类率也较低时,M值变大时正确分类率具有较大的提升空间,这表明此时局部特征在图像空间中的位置关系对分类性能影响较大,在图4中,当n=20,M=8时分类性能比M=1时提升23.11%。n值对分类性能有一定影响,这是因为n值大小影响视觉词汇库的构成,分类性能不仅取决于局部特征在图像空间的位置关系,还要一定程度上依赖局部特征在特征空间的位置。
情况2):不同的M、N(1M8、1N8),当M≠N时可以称为不平衡区域划分法。限于篇幅,只给出词汇库中单词数n=20,不同M、N时正确分类率,用二维矩阵表示,如图5所示,图中数字表示正确分类百分比,并用相应灰度表示,灰度越“白”表示正确分类率越高,图的右边色带表示图中不同灰度所对应的百分比。从图5中可以看出,较“白”的单元格都处在图形的右下角(M、N值较大),这表明图像被划分的越细,SCK描述局部特征在图像中相关性的能力越强。从图5中也可以看出,对角线上的值未必大于同行或同列上的元素值,也就是说M=N时分类率未必大于相应的M≠N时分类率。
SCK的时间性能分析如图6所示,图中给出了词汇库中单词数n为20和50时采用金字塔式区域划分法的情况,可以看出,SCK的计算时间与词汇库中单词数n以及min(M,N)成线性关系,这与理论分析一致。实验所用机器的CPU是赛扬2.4 G,内存是256 M。将SCK与SPMK进行比较,SPMK的金字塔层数为2,通道数为50,结果见表1,SCK具有较高的正确分类率,同时获得了良好的时间效率,SCK能够获得很好的时间效率是因为它能够有效地描述图像的特征,尽量减少两幅图像匹配时计算复杂度。
3 总结
本文利用局部特征提出了一种空间相关核,该核函数考虑了局部特征的空间位置相关性,能够较好地描述图像目标各部分的空间关系,能将图像目标的描述与分类器进行良好地融合,从而实现图像目标分类。该核具有良好的时间效率,满足Mercer条件,可以嵌入基于核的学习算法中。将空间相关核函数结合SVM对公共图像数据库进行分类实验,结果表明空间相关核具有良好的分类性能。
摘要:为了描述局部特征在图像空间中相对位置关系,提出一种局部特征空间相关核(Spatial Correlation Kernel,SCK)用于图像目标分类。该方法首先提取并量化图像中的局部特征,再计算量化后的局部特征的空间位置自相关度,然后利用直方图交叉匹配两幅图像的空间位置自相关度得到局部特征空间相关核。该核充分利用局部特征的强分辨能力及其空间位置,且SCK具有线性计算复杂度,满足正定条件,可以运用于基于核的学习算法。本文将SCK嵌入支持向量机对公共数据库中图像目标进行分类,实验结果表明,SCK可以获得良好的时间效率和分类性能。
空间分类 第7篇
关键词:文本挖掘,文本分类,向量空间模型,四维向量空间模型
1 前言
随着互联网的快速发展,当今社会进入了一个信息爆炸的时代。近年来,关于如何利用互联网搜索技术和自然语言处理技术,把分散的信息有效地汇集并组织起来的问题研究得到了关注,人们希望能够,整体上了解一个事件的全部细节以及事件之间的关系[1,2]。Web文本挖掘中有一项关键技术,即文本分类。它覆盖了包括数据挖掘、机器学习、神经网络、统计学以及自然语言处理等多个研究领域,在信息检索、信息抽取、信息过滤等方面有着广泛的应用,能够帮助人们将大量的新闻文本归类,从而发现新闻事件的发生、发展规律,指导人们对于突发案例事件进行进一步的研究。文本分类的一个重要研究方向是文本表示。目前主要存在3种文本表示模型:布尔模型(Bool Model)、向量空间模型(Vector Space Model,VSM)和概率模型(Probabilistic Model)[3]。布尔模型是最早被提出来的一种模型,它的缺点是不能反映特征项的权重信息。后来Salton等人在布尔模型的基础上提出了向量空间模型, VSM在知识表示方面有着巨大的优势, 不仅概念简单,而且操作方便,是目前最为流行的文本表示模型, 在众多系统中都有很好的应用。 而VSM也存在着缺陷,即维数众多带来的维数灾难严重影响分类的效果。概率模型最大的优势是能够准确地描述特征项与文本之间的相互关系,在检索系统中应用较为广泛。本文针对传统向量空间模型的缺陷,提出一种用四维向量空间表示文本的方法,并通过有效地自适应性追踪算法,提高了文本分类的精度。
2 四维向量空间模型
向量空间模型是目前最简便高效的文本表示模型之一。在信息检索中,广泛使用向量空间模型VSM来标引文本。在VSM中,一个特征向量对应于高维特征空间中的一个点,文本d对应于特征词的权重向量。文档模型表示为D = {w1dwsd}。其中:wkd为特征tk在文本d中的权重,s为特征集的大小。在VSM中,没有考虑特征在文本中的位置信息以及语法作用等,一个文本向量是一个词袋(A Bag of Words)。在向量空间模型中,由于文本被描述为向量,因此对文本的各种运算就可以借助向量运算进行,例如文本的合并、删除、比较等,文本与文本之间的相似度,可以用向量之间的相似度来度量[4]。
但是,经典向量空间模型下维度过于庞大,相似度的计算量大;简单化处理了标题、正文等位置不同的词,使得词位置的重要性被忽略,从而影响了分类的效果。根据经典的向量空间模型理论,本文提出了一种四维向量空间,来实现空间模型向量的降维,并提高分类的准确度。
2.1 特征抽取与建模
Web新闻有六个基本要素,即时间、地点、人物、事件的起因、经过、结果。Web新闻的结构主要包含标题、导语、主体、背景、结语。标题、导语、主体是消息必不可少的,背景和结语有时则蕴涵在主体里面,有时省略。标题是对新闻要素的基本概括和高度精炼。导语和主体作为新闻的正文,代表了新闻的主要内容。但实验中,我们发现内容类似的几个不同主题的新闻很难通过标题和正文区别开来。我们知道,时间、地点、人物可以作为事件之间区别的基本标识,因此我们将时间名词,地点和人物构成的专有名词提取出来,专门对内容类似的新闻进行分类[5]。
按照经典的向量空间模型理论,我们用四维向量空间来代表一个新闻文本,包含标题维度、正文维度、专有名词维度、时间维度。这四个维度的特征构成了新闻的主体信息。形式化表示如式(1)。
Di=(Dtitle,i,Dcontent,i,Dnoun,i,Dtime,i) (1)
其中Di代表了第i篇新闻报道向量,Dtitle,i代表了第i篇报道的新闻标题特征词分向量,Dnoun,i代表了实体特征词分向量,Dtime,i代表时间特征词分量,Dcontent,i代表内容特征词分向量。对于每一个分向量Dji=(W1,j,i,W2,j,i,Wn,j,i),Wn,j,i代表了分向量ji的第k个特征词的权重。
2.2 相似度计算
2.2.1 向量相似度计算
给定两个n维向量di和dj,在向量模型中向量di和dj之间的相似性可以定量表示,一般用这两个向量之间夹角的余弦值来计算[6]。例如计算文档间标题特征词分量的相似度,见公式(2)。
其中di为测试文本的特征向量,|di|、|dj|是向量的模,m为特征向量的维数,且sim(Dtitle,i,Dtitle,j)的取值在0和+1之间。同理,可以计算正文和专有名词分向量的相似度。
2.2.2 时间相似度计算
通过分析网上的新闻报道,发现存在各种各样的时间形式,正确识别出文档中的时间表示是比较困难的。目前,对于时间的处理方式主要是将时间分为绝对时间、相对时间和模糊时间三种形式[7]。本文讨论的时间形式主要是绝对时间,时间抽取算法主要参考最近修改时间(Time-modified),即当文档被建立或者修改时将会产生最近修改时间。网络蜘蛛在收集网页时会得到该时间,可以将该时间看作时间原点。
一般来讲,对于某个事件的报道将会持续一段时间,所以文档与某个事件之间的时间距离越小,理论上它属于该事件的可能性就越大。本文定义事件时间timeevent为一时间区间[timeb~timee]。其中timeb为最早报道该事件的文档时间,timee为最近报道该事件的文档时间。文档和事件模型之间的时间距离,单位为天,见式(3)所示:
Distime(doc,event)=min{|timedoc-timeb|,|timedoc-timee|} (3)
根据统计分析发现,对于一个话题的报道一般会持续0-6周的时间,假设函数服从正态分布,分布函数为Φ(Distime(i,j))。在四维向量文档模型中,将时间的概率分布函数放大或缩小相似度的系数,并对标题、专有名词、正文的相似度做加权。计算出的最终相似度如公式(4)所示,其中,α、β、γ为加权因子,可以通过训练或者遗传算法确定。
sim(Di,Dj)=Φ(Distime(i,j))[αsim(Dtitile,i,Dtitle,j)+βsim(Dn,i,Dn,j)+γsim(Dcontent,i,Dcontent,j)] (4)
2.3 改进的分类追踪算法
简单向量距离模型是所有分类追踪器中最直观也是最简单的一个追踪器,其模型的主要流程如图1所示。
计算一个话题中包含的相关报道的算术平均,生成一个代表话题的中心向量,然后在新文本来到时,确定新文本向量,计算该向量与话题中心向量间的距离,即相似度计算,最后根据设定的阈值,判定该报道是否属于该话题[8]。
本文中,我们对该算法进行了一定的改进,设定两个阈值:修正阈值和分类阈值,其中修正阈值>分类阈值。如果新文本向量与
话题中心向量的相似度大于修正阈值,则将新文本归入该话题,并作为话题模型的训练文档,重新计算话题中心向量;如果新文本向量与话题中心向量的相似度小于修正阈值,且大于分类阈值,则将新文本归入该话题;否则,则认为新文本不属于该话题。具体算法过程如图2所示。
3 实验过程及结果分析
3.1 评价指标
我们采用Recall,Precision和F1来评价文本分类的效果,即分类器做出正确分类判断的能力。Recall是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率;Precision是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率。F1参数是Recall,Precision二者的折中。如式(6)-式(8)所示:
Recall=识别出的相关文档数/文档库所有的相关文档数 (6)
Precision=检索出的相关文档数/检索出的文档总数 (7)
F1=2PR/(P+R) (8)
3.2 实验过程及结果比较
我们对传统的向量空间模型和四维向量空间模型分别进行了实验。实验采用LDC(Linguistic Data Consortium)提供的数据集TDT2 Multilanguage Text Version 4.0,这是LDC提供的一个供高校进行学术研究使用的数据集合,其中包括了一个小规模的中文数据集。我们采用TDT2中采集的来自新华网1998年1月1日0点18分至1998年6月30日1点25分共823篇来自9个事件的数据集。
有关研究表明,30%的关键词就能有效的代表文档,因此我们选取前n个关键词作为特征,设定n=0.3*关键词总数,这样能够保证有效地降低维度。经过实验分析和比较,我们确定最终的分类方案,即,首先采用中科院ICTCLAS模块对采集到得文本进行分词,并获取相应词性和个数的关键词,组成四维特征向量[9]。然后通过反复训练,设定各个维度的权重为α=0.4,β=0.3,γ=0.1。采用文档频率的特征选择方法选择500个内容特征词,以阈值a=0.7时作为分界点进行分类。
采用上述一系列预处理和特征处理方法后,其分类结果如图2所示,大多数类别的准确率和召回率都在0.85以上。
F1的平均值可达到92.49%,相比之下,仅抽取全文且不做特殊特征处理时(经典向量空间模型)的F1 仅有81.5%,如图4所示。
4 结束语
本文在经典向量空间模型的基础上,提出了以标题、专有名词、时间名词和内容关键词作为维度的四维向量空间模型,通过赋予各个维度不同的权重,来提高区分文本之间类别的精确度。将来的工作主要集中在以下几点:首先,可以研究通过隐含语义索引方法继续降低内容文本的维度[10],简化计算相似度的过程;其次,研究动态的阈值设定方法,使得阈值的设定更具有普遍适用性,以更好的实现准确率、召回率和F1参数的进一步提高。
参考文献
[1]James Allan.Topic Detection and Tracking:Event-based Information Organization[M].USA:Kluwer Academic Publishers,2002.1-16
[2]Y.Zhang,J.G.Carbonell,J.Allan.Topic Detection and Tracking:Detection Task[A].In Proceedings of the Workshop ofTopic Detection and Tracking[C],1997.
[3]G.Salton,M.E.Lesk.Computer Evaluation of Indexing and Text Processing,Journal of the ACM,1968,15(1):8-36
[4]宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64
[5]孙承杰,关毅.基于统计的网页正文信息抽取方法的研究[J].中文信息学报,2004,18(5):17-22
[6]曹恬,周丽,张国煊.一种基于词共现的文本相似度计算[J].计算机工程与科学.2007,29(3):52-53
[7]贾自艳,何清,张海俊等.一种基于动态进化模型的事件探测和追踪算法.计算机研究与发展,2004,41(7):1273-1280
[8]黄萱菁,夏迎炬,吴立德.基于向量空间模型的文本过滤系统[J].软件学报,2003,14(3):435-441
[9]ICTCLAS.http://www.nlp.org.cn/project/project.php-proj-id=6.
空间分类 第8篇
国内多数电子商务销售平台的用户可以对商品及服务发表评价。商品评论信息对商家及购物者都很重要,会影响潜在消费者的购买。通过对商品评论文本的采集分析可以得知用户对商品的褒贬程度,有助于商家改进生产及销售策略。随着电商平台用户和商品的不断增长,针对各种商品的评论文本信息数量激增,要求能够根据评论情感倾向及时、准确地自动进行分类,统计好评和差评程度是电商平台需要考虑解决的问题。情感分析语义计算可用于分析商品评论文本的褒贬性。该方法基于情感词典匹配,适用的语料范围较广,无论是手机、电脑这些商品,还是书评、影评都有相应语料。但是词典匹配需要深入到词语、句子、语法这些层面,分类结果会由于语义表达的丰富性而出现较大误差[1]。监督机器学习方法也可用于商品评论文本情感分析。朴素贝叶斯分类算法是常用的统计学习分类方法,需要人工标注训练文本,将训练文本分句分词,如果直接将分词作为原始特征进行分类学习,会大幅度增加分类器的训练时间,而且由于分类效果依赖于训练文本和测试文本之间的相关性,会引入噪声特征,影响分类性能[2]。文献[3,4]研究比较了中文文本分类中文档频率、χ2(Chi-Square,CHI)统计等特征选取方法对分类效果的影响。由于针对选定的训练文本进行训练,可能会筛选掉包含着重要判断信息的情感特征词,或保留一些无法体现情感倾向的特征词,而且待测文本需参与较复杂的特征选择运算,不利于大规模在线评论统计分类。
本文提出语义分析和监督分类相结合的方法,为不同类别商品根据评论语料构建领域情感词典。将评论文本与情感词典集匹配提取情感特征,构建低维数的情感特征向量空间模型SF-VSM,结合改进的多项式朴素贝叶斯分类算法构建分类器。采集国内某电商平台的三份商品评论文本集作为分析样本,分别与基于原始特征、χ2特征选择向量空间模型的朴素贝叶斯分类算法进行了实验对比。
1 相关知识
语义分析算法在分析商品评论文本情感倾向时,首先需读取某条评论文本并进行分句;然后查找分句的情感词并赋予相应分值,查找程度词、否定词和感叹号并赋予相应权重,统计该分句的好评分值p1和差评分值n1,统计所有分句的好评分值和差评分值;最后计算得到该条评论的好评均值pm和方差pv,以及差评均值nm和方差nv,从而可以得到该条评论的褒贬程度[5]。评论文本分词后需要和情感词典比对确定情感倾向,情感词典包括基础情感词典、拓展情感词典。基础情感词典包括了一些被广泛认同的如“好”、“差”等这些情感词,通常把知网提供的正面/负面评价词语、正面/负面情感词语和台湾大学简体中文情感极性词典的positive/negative词典消重之后组合在一起,构成基础积极/消极情感词典,同时需要对知网提供的程度级别词语进行权值的设置。将基础情感词典通过同义词词典找到情感词的同义词,这样就拓展了基础情感词典,称为拓展情感词典[6]。
机器学习方法分类商品评论文本情感时,需先选出一部分表达积极情感的文本和一部分表达消极情感的文本,用概率统计方法进行训练,获得一个情感分类器。通过情感分类器对所有文本进行积极和消极的二分分类[7],最终的分类可以为评论文本给出好评/1或差评/0这样的类别,也可以给出好评或差评的概率值。文本分类最常用的文本特征表示模型是向量空间模型VSM,向量空间模型假设文本中词条对文本类别所起的作用是相互独立的,把文本看作一系列无序词条的集合[8]。如果分类算法直接将训练文本分词作为特征,则特征项空间维数太大,会产生稀疏问题和增加计算复杂度;如果仅限于对分类的训练文本进行特征选择,将可能会保留一些无情感倾向的无用特征或剔除一些在特定领域有情感倾向的有用特征。本文考虑构建不同类型商品的领域情感词典,结合基础和拓展情感词典,分析提取商品评论文本中的立场、情绪等情感特征,构建相应的情感特征向量空间模型,降低特征向量空间维数,以达到改善分类精度和提高分类速度的目的。
2 基于情感特征向量空间模型的中文商品评论情感倾向分类算法
2.1 情感特征向量空间模型
在特定的领域,有些并非基础的情感词也有情感倾向,比如“此款手机很耐摔,还防水,挺好!”耐摔、防水是在手机商品这个领域有积极情绪的词。为确保文本情感特征提取的全面准确,需要针对不同类别的商品构建领域情感词典。采用基于领域语料的逐点互信息PMI(Point-wise Mutual Information)[9]计算法构建领域情感词典,在相应的语料库中循环统计特征词、特征词与积极基础情感词和特征词与消极基础情感词分别出现的数量。利用这些数据计算积极互信息和消极互信息,求两个互信息之差,差为正则积极、为负则消极。重复计算不同词的互信息之差,最后选分值高的特征词组成领域情感词,计算方法如下:
其中word表示被测词,SO-PMI(word)表示积极互信息和消极互信息之差,Pwords和Nwords分别表示基础情感词典中的积极和消极基准词,PMI计算如下式:
其中p(w1,w2)表示被测词w1与基础情感词w2同时出现的概率,p(wi)表示wi出现的概率。设N为语料库所有文本数,df(wi)为词wi在语料库出现的文本频率,p(wi)计算如下:
为不同类型商品构建的领域情感词典会有所不同。如通过对手机评论语料库的统计分析,能够获取“流畅、轻薄、模糊”等情感词,而服装类商品则有“合身、得体、褶皱”等情感词。类别不同而具有相似属性的商品,如手机、笔记本电脑等IT商品,分别为它们构建的领域情感词典会出现部分相同的情感词。
基础情感词典、拓展情感词典与领域情感词典组合而成的情感词典(L)用三元组描述[10]:
其中C代表情感关键词集,N代表否定词集,M代表修饰词集,这些词汇均可从词典中自动获取。给定一条评论文本R,分词表示为:
借助情感词典从R中提取特征词,得到情感特征词集合:
每条评论文本被提取的所有情感特征构成一个特征向量,所有评论文本中的全部情感特征构成空间向量模型SF-VSM,其每一维对应一个情感特征,定义如下:
其中VSi表示第i条评论文本所对应的情感特征向量,fji表示第j个情感特征。SF-VSM模型主要考虑情感词特征表示,避免噪声干扰,维数较低,以便解决数据稀疏问题。
若为某类商品评论构建的原始特征向量空间维数记为DV,构建的情感特征向量空间SF-VSM维数记为DS,则通过(DV-DS)/DV×100%可以计算得到降维程度。
2.2 改进的多项式模型朴素贝叶斯分类算法
需利用分类算法基于SF-VSM模型训练出分类规则,然后根据分类规则判定未知文本的类别。朴素贝叶斯分类是一种常用的文本分类方法,将表示成为向量的待分类文本Di(x1,x2,…,xn)归到类别集合C={C1,C2,…,Cm}中的某一类。其中Di(x1,x2,…,xn)为待分类文本Di的特征向量,C={C1,C2,…,Cm}为给定的文本类别集合,即求解向量Di(x1,x2,…,xn)属于给定类别C1,C2,…,Cm的概率值(p1,p2,…,pm),其中pj为Di(x1,x2,…,xn)属于Cj的概率,则max(p1,p2,…,pm)所对应的类别就是文本Di所属的类别。假设Di为一任意文本,文本Di属于Cj的概率为:
其中P(x1,x2,…,xn)对应所有类值是相同的,所以只需估算P(Cj)P(x1,x2,…,xn|Cj),式(8)可转化为如下公式:
朴素贝叶斯分类假设在给定的文本类别下,文本特征项是相互独立的,则有:
式(9)可简化为:
根据P(Di|Cj)计算方式的不同,朴素贝叶斯分类主要有多变量伯努利模型MBM(Multivariate Bernoulli Model)、多项式模型MM(Multinomial Model)等模型[11]。由于多项式模型考虑了特征项在文本中出现的次数,该信息决定一个文本的类别时具有重要的价值,所以本文采用了多项式模式朴素贝叶斯分类方法。文本属于类Cj时特征词xi出现一次的概率为P(xi|Cj),出现nk次的概率为P(xi|Cj)nk,假定共有n个词,则n=n1+n2+…+nk,则有:
P(xi|Cj)采用词频估算:
其中表示特征项xi在类Cj的各文本中出现的次数之和,为类Cj中所有特征项的总次数。
为了避免数据稀疏引起的零概率问题,一般会引入laplace平滑因子[12],如下式:
式中V是训练样本的特征词表。如果训练集中某类别包含的特征词量较大,而其他类别包含的特征词量相对少,利用式(14)计算可能会造成较大的估计偏差。提出采用修正的平滑因子λ,λ取特征项xi在所有类中出现的概率,即λ=P(xi|C),式(14)调整为下式:
先验概率P(Cj)计算如下:
对于给定的待测文本Di,通过式(11)、式(15)和式(16)表示的模型计算后验概率分布,将后验概率最大的类作为Di的类输出。
2.3 算法描述
提出的中文商品评论文本情感倾向分类算法主要步骤描述如下:
(1)针对要处理的某类商品,利用2.1节式(1)-式(3)基于相应评论语料库构建领域情感词典;
(2)将该类中文商品评论集预处理,人工标注文本所属类别,标注每条评论属于好评或差评;
(3)采用交叉验证方法,将标注文本分为训练文本和测试文本;
(4)将训练文本分句、分词,去除停用词和高频词,构成初始文本向量;
(5)将初始文本向量与基础情感词典、拓展情感词典和领域情感词典,提取情感词特征,根据2.1节式(4)-式(7)构建SF-VSM;
(6)基于SF-VSM和式(15)计算每个情感特征项对类别进行划分的条件概率,记录结果;
(7)根据式(16)计算好评和差评两个类别在训练文本集中出现的频率,记录结果;
(8)输入测试文本,依据(4)、(5)步生成测试文本情感特征向量;
(9)利用式(7)计算测试文本情感特征向量分别属于两个类的概率,将测试文本分配到概率最大的类别中,记录分配结果;
(10)针对所有测试文本,重复(8)、(9)步,统计所有测试文本分配结果和实际标注的类别一致次数,计算分类准确率;
(11)重复(3)-(10)步,多次迭代计算分类平均准确率;
(12)输入待分类评论文本,依据(4)、(5)步生成待分类评论文本情感特征向量;
(13)利用式(7)计算待分类评论文本情感特征向量分别属于两个类的概率,将待分类评论文本分配到概率最大的类别中,输出结果,算法结束。
算法步骤中(4)-(7)步生成分类器,(8)-(11)步测试分类准确率,(12)、(13)步完成待分类评论文本的分类。
3 实验
实验比较三种算法对中文商品评论文本情感倾向的分类效果。算法一是文中提出的基于情感特征向量空间模型的改进多项式模型朴素贝叶斯分类算法。算法二是基于原始特征向量空间模型的多项式模型朴素贝叶斯分类算法,该算法直接将评论文本分词作为特征项。算法三是基于χ2特征选择向量空间模型的多项式模型朴素贝叶斯分类算法[13]。χ2统计方法假设词条和文本类别之间符合具有一阶自由度的χ2分布,通过衡量词条与文本类别之间的相关程度选择特征以降低特征空间的维数。
3.1 实验数据与评价指标
实验数据采集自国内某电商平台指定型号的数码相机、手机、笔记本的用户评论,其中数码相机评论7067条,手机评论11 125条,笔记本评论23 379条。鉴于评论分类是二分类问题,将三份评论进行剔除保留处理,人工分类标注,得到数码相机评论好评和差评均为2409条,手机评论好评和差评均为4742条,笔记本评论好评和差评均为8653条。
算法一使用的基础情感词典由知网提供的情感词语和台湾大学简体中文情感极性词典消重组合在一起,拓展情感词典采用哈工大信息检索研究中心同义词词林扩展版。从http://www.datatang.com下载关于数码相机、手机、笔记本相应的评论语料库。根据2.1节提出的方法分别构建数码相机、手机、笔记本对应的领域情感词典,其中数码相机领域情感词典中有502个褒义词、170个贬义词,手机领域情感词典中有810个褒义词、352个贬义词,笔记本领域情感词典中有838个褒义词、368个贬义词。
查准率(precision)、召回率(recall)和微平均(F1)作为评价分类效果的指标[14]。查准率是指算法正确分类到某个类别的评论文本数与算法分类到该类别的评论文本数的比率;召回率是算法正确分类到某个类别的评论文本数与人工分类到该类别的评论文本数的比率;F1微平均值综合考虑了查准率和召回率两个指标,计算公式如下:
3.2 实验结果与分析
程序用Java语言实现,采用10折交叉验证法进行训练和测试,每次分配训练文本和测试文本后,交给三种算法运算处理,记录训练时间和测试时间,计算评价指标值,并重复10次取平均值。程序在Intel pentium4 3.2 GHz的CPU,内存4 GB的PC机,Windows 7操作系统上运行测试。
实验中统计对比得到,针对数码相机评论,相比于算法二为其构建的原始特征向量空间,算法一为其构建的情感特征向量空间维数下降了53.4%。而手机评论特征空间维数下降了51.7%,笔记本评论特征空间维数下降了52.3%。三种算法的分类效果如图1所示。
从实验结果可以看出,算法一的分类精度高于算法二和算法三。当对笔记本评论分类时算法二分类效果最差,说明特征向量维数过高造成噪声数据过多,影响了分类精度。当对数码相机评论分类时,由于训练文本较少,算法三保留了过多的低频词,这些低频词并非情感特征,大都是噪音词,不应作为特征,相比于算法二,分类效果提升并不明显。由于实验目的是识别评论属于好评或差评,应主要考虑文本情感特征,而中文商品评论文本的情感特征比较丰富,情感词与评价对象之间的对应关系比较清晰。算法一能够较准确地提取情感特征,空间维数相比算法二和算法三都低,而且在计算条件概率时采用了修正的平滑因子,计算准确率较高。当对笔记本评论分类时精度有所下降,但不是特别明显,说明算法分类性能比较稳定。
鉴于算法需实际运用于电商平台在线评论分类系统,3种算法的训练文本训练时间和测试文本分类时间需要测试,时间开销如表1所示。
算法二将所有分词作为特征项,随着评论文本的增加,词汇增多,特征向量维数远高于算法一和算法三,增加了分类计算复杂度,计算耗时最长。算法三根据χ2分布提取特征的计算复杂度为O(n2),同一类别生成的特征向量维数仍比算法一要高。算法一分词匹配提取情感特征的计算复杂度为O(m×n),生成的SF-VSM维数均低于算法二和算法三,训练时间开销较小,测试文本分类时间短,满足在线评论分类要求。
3.3 存在的问题
针对不同类别商品的中文评论文本,提出的算法在情感倾向分类之前,需要完成相关预备工作,即收集整理不同类别商品评论语料库,并通过语义分析方法构建领域情感词典。整理并定期更新完善各类别语料库,是算法能够有效运行的前提条件,并且对在线商品评论情感倾向分类时,需要将情感词典集作为模块集成到分类程序中,同时需要经常更新领域情感词典。
4 结语
基于SF-VSM模型结合改进的多项式朴素贝叶斯算法,能够快速有效地将中文商品评论文本分类为好评或差评,分类得到的结果可以为推荐系统提供帮助。差评度较高的商品将不会被推荐给用户,也可以为在线广告投放系统提供帮助,好评程度较高的商品相关广告可以被投放。针对差评度较高的商品,需要深入分析挖掘差评评论文本,提取意见较大的商品属性或服务项目,这样有助于生产企业改进商品和销售企业改进服务,这也是进一步的研究方向。
摘要:为了能够快速有效地将中文商品评论识别为好评或差评,提出一种算法。针对不同类别的商品,预先根据其评论语料构建领域情感词典,评论文本与情感词典集匹配提取情感特征,构建情感特征向量空间模型SF-VSM(Sentiment Feature Vector Space Model),解决传统的特征向量空间模型维数较高及特征选择误差问题。然后基于该模型结合改进的多项式朴素贝叶斯方法对评论进行情感倾向分类。实验结果表明,相比分别基于原始特征和基于χ2特征选取的朴素贝叶斯分类算法,该算法分类精度较高且分类速度快。
空间分类 第9篇
产品设计知识的有效重用是提高产品创新性和缩短设计周期的有效方法之一, 设计知识重用可以大大降低多学科分布式设计人员在非创新性设计中的损耗, 提高设计效率和设计质量, 目前已成为设计知识管理领域中研究的核心问题。近年来在设计知识管理方面有影响的是由剑桥大学及知名企业共同参与的产品设计信息和知识管理项目[1]。设计知识的复杂性使得设计知识分类成为制约知识有效重用的重要问题, 有效的分类可以提高知识存储的合理性, 提高知识检索速度。
在设计知识分类相关研究文献中, Ropohl将设计知识分为:技术诀窍, 功能性规则, 结构性规则, 技术法规和社会技术的理解性知识[2]。Court认为产品设计过程中需要用到的知识可以分为:通用知识、领域知识和过程知识[3]。文献[4]提出基于决策过程的产品设计知识分类方式。文献[5]把产品相关的知识分为:零部件的知识, 零部件间关系的知识, 涉及零部件构造的材料属性约束知识, 零部件和用户偏好关系知识。Hai Zhuge提出了一种知识网格模型, 在三维知识空间里组织知识[6]。石鑫等人将产品设计知识分为四类:过程性知识、实体性知识、关系型知识和事实性知识[7]。马雪芬等人以支持设计知识流动为目标, 提出了产品设计知识六维分类体系[8]。乔虎等人建立了变型设计知识的两层结构, 并分别针对各层建立独立的知识库[9]。本文针对分类精确度及知识交叠性等问题, 依据设计知识不同角度的存在状态, 提出了四维知识分类方法。
1 四维设计知识分类体系
本文从产品设计实际过程出发, 针对不同设计阶段涉及的知识, 从不同角度对其进行划分, 最终确定产品设计流程, 设计知识类型, 知识存在形式, 知识学科领域为四个分类方向, 以四维空间划分设计知识, 将设计知识以四维形式K= (x, y, z, w) 表示, 其中x表示产品设计流程, y表示设计知识类型, z表示知识存在形式, w表示设计知识领域。
将产品设计流程x分为四个阶段:概念设计1x、方案设计2x、详细设计3x、仿真验证4x。其中概念设计包括设计任务规划, 需求分析, 技术特性分析, 系统原理设计等内容;方案设计需要提出几种初步方案, 并经过分析、对比和评价, 确定最佳总体方案;详细设计需要通过详细多学科计算分析, 完成方案细节设计及性能优化, 并完成图纸和技术文件等。仿真实验是对设计方案及样机模型等进行仿真验证的过程, 通过验证发现问题并加以改进。
设计知识类型y可以分为产品相关知识y1、设计组织知识y2和设计外延知识y3。产品相关知识是关于产品的基本信息, 包括产品的外型、色彩、功能、材料、零部件、结构数据等方面;设计组织知识是设计管理相关知识, 包括设计过程中对人力、物力、时间资源的组织, 设计团队建设等;设计外延知识指设计相关部门所提供的关联知识, 如从销售部门获取的客户需求知识, 生产部门获取的生产信息等。
知识存在形式z是指设计知识呈现的方式, 可以分为:文档类z1, 数据类z2, 图形类z3, 模型类z4, 隐性类z5知识。以文档形式保存的设计信息是典型的文档类知识;典型的数据类知识有产品的设计参数, 实验数据等;设计图纸是典型的图形类知识;CAE模型属模型类知识, 隐性类知识是存在于设计人员头脑中的知识, 通过沟通实现知识获取。
知识学科领域w指设计知识所属的学科领域, 如材料学、流体力学、电磁学、摩擦学等研究领域。
以设计流程α、知识类型β、知识存在形式g为坐标轴, 建立三维知识空间, 如图1所示, 各知识单元拥有三维坐标, 并处于不同学科中, 知识单元的空间坐标用表示。学科领域之间可能存在交叉, 图中K3同属于材料学和电磁学两个学科。为了将学科领域这一维度嵌入三维空间中, 本文使用超图及广义表来对知识分类体系进行表示和描述。
2 基于超图的设计知识分类模型
超图理论在计算机科学, 人工智能等领域都得到了广泛的研究, 在知识管理领域中的知识组织、知识检索等方面也取得了一定的新成果。
超图是图的推广, 它的一条边可以连接任意数量的顶点。超图H是一个集合组H= (X, E) , 其中是一个有限集合, 元素x1, x2, , xn被称为超图的节点或顶点, 集合E={E1, E2, , En}是X的非空子集, 称为超边[10]。
超图是研究有限集合中各元之间的多元关系的系统, 通过对经典图的扩展, 使图的应用更有效。例如, 在经典图中, 若以顶点代表歌曲, 每条边代表两个顶点 (歌曲) 享有同一作曲家, 但丢失了“同一作曲家的多首歌曲”这一信息, 而利用超图表示则可以完整的表达信息。
本文基于超图和广义表构建知识分类模型来表示四维设计知识分类体系, 主要过程如下:
1) 以设计知识单元vi作为超图的顶点, 顶点的三维坐标分别是产品设计流程, 设计知识类型, 知识存在形式, 以超图的边Ej来表示知识单元在四维知识空间中以学科领域划分。
2) 分别用数值1到4表示设计流程的四个阶段, 以1到3表示三种知识类型, 1到5表示5种知识存在形式, 构建设计分类体系矩阵K0。
3) 基于关联矩阵的超图表示方法能清晰的表示节点之间的关系, 并且便于计算机处理。将知识分类超图根据各知识单元所属学科不同, 用矩阵K= (k ij) 来表示, 其中K中的j列对应超图H中的条边E1, E2, E3, ..., Ej, i行对应超图H中的i个顶点v1, v2, ..., vi。当viÎEj时, kij=1, 当时, kij=0, 如图2所示。从而实现四维设计知识分类体系的表达。
4) 广义表一般记作LS= (a 1, a 2, , a n) , n是它的长度, ai可以是单个元素 (原子) , 也可以是广义表 (子表) 。借助广义表LS矩阵K0和矩阵K进行整合, 生成广义表LS= (K0, K) , 进而通过十字链表等技术实现LS的计算机存储和处理。
以上为构建四维分类模型的基本步骤, 在实际应用中, 可以根据实际需要对相应的分类维度进行调整, 实现不同设计知识的有效分类。
3 微力测量系统关键部件设计知识分类应用
高精度多量程电子天平在贵重金属、药品等称量方面发挥举足轻重的作用, 但该类产品主要为国外进口, 国内企业自主研发能力薄弱, 市场竞争能力严重不足, 主要因素之一就是产品设计经验未进行规范化, 缺乏足够的知识重用机制。高精度多量程电子天平主要结构包括:陶瓷架, 传力叉, 柔性架、柔性铰链等机械结构以及与之关联的检测电路, 是决定天平设计精度的重要部件, 它们通过机械结构将被称重对象的质量转化为微小形变, 并由LC检测电路识别。本文选取高精度多量程电子天平关键部件陶瓷架的设计为例, 对以上提出的四维知识分类体系的具体应用进行说明。
根据天平陶瓷架实际设计过程情况, 选取关键设计知识节点, 并按照四维设计知识分类体系, 划分各知识节点所属的产品设计流程, 设计知识类型, 知识存在形式与知识学科领域, 建立知识节点与四维体系的对应关系, 如表1所示。
将设计流程的四个阶段概念设计、方案设计、详细设计、仿真验证分别用数值1到4表示, 知识类型和知识存在形式以同样方法表示, 构建设计分类体系矩阵K0, 如图3所示。
根据表1建立学科领域维度大规模稀疏布尔矩阵K, 其中1表示知识节点k属于学科K, 0表示不属于K, 如表2所示。建立广义表LS将矩阵K0和K进行整合, 生成广义表LS= (K0, K) , 借助其他数据结构方法实现四维知识分类体系的计算机存储和处理。
4 设计知识分类管理原型系统开发
根据本文提出的设计知识四维空间分类方法, 以Windows为应用操作系统, 采用C/S架构和SQL Server数据库, 开发了复杂产品设计知识管理平台, 实现了设计知识的合理分类、存储和有效重用, 提高了知识检索效率, 有效支持了复杂产品的设计过程, 同时对本文提出了方法进行了验证和反馈。
以高精度多量程电子天平设计为例, 如图4所示为天平部件陶瓷架相关信息及文件。
5 结束语
本文通过对产品设计知识特性的综合分析, 并结合设计知识使用特点, 提出了四维知识分类体系, 并基于超图及广义表对其进行了表达和描述。在此基础上以高精度多量程电子天平设计关键部件陶瓷架为例, 对提出的知识分类方法进行了验证, 并开发了复杂产品设计知识管理原型系统。结果表明, 该方法能够提高产品设计知识的重用效率, 提高产品设计效率, 缩短产品设计周期。
摘要:产品设计知识的存在复杂性、动态性和多样性的特点, 设计知识的有效分类是影响设计知识重用的重要因素。本文针对产品设计知识的复杂特点, 在对知识分类相关文献研究的基础上, 从产品设计流程, 设计知识类型, 知识存在形式, 知识学科领域四个维度构建设计知识分类模型。基于超图与广义表实现知识分类模型的结构化描述与表示。基于本文提出的知识分类模型, 面向典型微力测量系统——高精度多量程电子天平, 开发了设计知识分类管理原型系统, 以陶瓷架结构设计为例验证了分类方法的有效性。
关键词:知识分类,设计知识,超图,微力测量系统
参考文献
[1]Ball A, et al.A grand challenge:immortal informationand through-life knowledge management (KIM) [J].International Journal of Digital Curation, 2006, 1 (1) :53~59.
[2]Ropohl, G.Knowledge types in technology[J].International Journal of Technology and Design Education, 1997, 7 (1-2) :65-72.
[3]A.W.Court.The relationship between information andpersonal knowledge in new product development[J].International Journal of Information Management.1997, 17 (2) :123-138.
[4]David G.Ullman.Robust decision-making for engineeringdesign[J].Journal of Engineering Design, 2001, 12 (1) :3-13.
[5]EL-Sayed S.Aziz, C.Chassapis.A decision-making framework model for design and manufacturing of mechanicaltransmission system development[J].Engineering withComputers, 2005, 21 (2) :164-176
[6]Hai Zhuge.A knowledge grid model and platform forglobal knowledge sharing[J].Expert Systems withApplications, 2002, 05:313-320.
[7]石鑫, 同淑荣, 马飞.面向重用的产品设计过程知识分类及表示研究[J].机床与液压, 2010, (17) :21-24
[8]马雪芬, 戴旭东.支持产品现代设计的六维度设计知识分类体系与知识建模研究[J].机械设计与制造, 2010, (9) :239-241.
[9]乔虎, 莫蓉, 陈涛, 宫中伟.变型设计知识库构建方法研究[J].中国机械工程, 2011, 16:1974-1980.