正文内容
年会综述文本范文
来源:开心麻花
作者:开心麻花
2025-09-19
1

年会综述文本范文(精选7篇)

年会综述文本 第1篇

一、以综述文本为论证依据的说明

经济法学是一个独立的学科体系,其研究内容与研究路径需要通过一定的媒介表现于外。这些媒介包括学术专著、期刊论文、学者的文献综述等,当然也包括经济法学研究会历年年会的综述文本。若要探究经济法学的研究路径,分析论证这些外在的学术载体是必经之路。对这些文本内容进行理性的分析,我们当能看出经济法的研究路径。

在这些学术理论载体中,经济法学研究会历年年会综述文本最具权威性、直观性,是经济法学研究最新成果和研究动态的集中体现。把每年的年会主题和综述文本单个来看,它们只是对最新研究成果和动态的客观描述和总结,但若是从纵向的时间角度来看,把这些时间上的点一一连接起来,我们就可以很直观地看到一定时间内经济法学研究的路线图。所以,以年会综述文本为分析对象,通过纵向的体系性论证当可以推知在一定时间段内,经济法学的研究动态和趋向,总结出一个较为清晰的经济法学研究的走向脉络,也就是经济法学的研究路径。以经济法学研究会年会综述文本为研究对象,虽有以管窥豹之嫌,但由于综述文本的权威性和全面性,还不至于过于片面,得出的结论也应当具有一定的代表性,故本文选取经济法学研究会年会综述文本及年会主题为分析材料,来探究经济法学研究的路径趋向,进而分析其曲直,探讨其是否偏离失误,自有论证的合理性以及结论的可靠性。

二、年会综述与主题的梳理

通过对年会综述文本的用词进行直观的分析,我们会发现,自2005年起至2012年(2013—2014年的研究综述尚未公布)八年间的年会综述中,除了一定数量的法言法语在表征着综述文本的经济法属性,充斥其间的大量非法学语词都表现出强烈的“逆法学性”:“和谐社会”“区域经济协调”“科学发展观”“‘十一五’规划”“改革开放”“金融危机”“经济发展方式”“民生”等等,政策性用语已经习惯性地盘踞在经济法学“年度峰会”的综述文本以及与会学者的论文之中。按照一般逻辑这些非法学语词甚至不应当出现在法学论文中,然而,现在这些非法学语词却堂而皇之地出现于经济法学研究会年会的综述文本中,那么必定是基于了一定的正当理由。这个理由就是经济法学研究会历年年会主题的限定。网上查阅经济法网,我们可以发现,历年年会都会以《预通知》的方式向与会学者限定年会讨论主题,正是这一主题限定决定了非法学语词出现于年会综述文本的“当然性”。以下通过图表说明(见下表)。

通过上表的列举,我们可以看到年会主题有很强的非法学性,而当年的年会综述中集中出现的非法学语词正是这些主题限定的语词。历年年会主题的限定正是综述文本用词的走向。另一个不得不说的问题是经济法学研究会对经济法学研究的引导作用。由于经济法学年会的权威性、代表性,其综述文本与限定主题往往对未来的经济法学研究走势有方向性的影响作用。这一旗帜大纛的指向决定着未来的经济法学研究的重点。通过知网查询,可以发现,2004年以前,为CSSCI期刊收录的以“和谐社会”和“科学发展观”为主题的经济法学科文章数量分别为零篇和四篇,而2005—2006年年会以“和谐社会”和“科学发展观”为主题之后,两类文章数量在次年就分别上升为20篇和19篇。由此经验性事实,我们可以看出,每年经济法学年会之后必然有对应主题研究热潮的兴起。

通过经济法年会综述与当年年会主题的语词对比,我们可以得出一个结论,经济法学年会综述文本以及年会主题年复一年的指引性研究,经过数年发展,已使经济法学研究形成了“指哪打哪”的无目的研究习惯,形成了一种非规范的经济法学研究路径,这一路径逐政策导向而行,紧密跟随经济政策与经济体制变革。而规范法学意义上经济法研究路径,即以本体论、方法论、运行论等为研究对象的路径,在这里表现得并不明显,即使有这样的研究路径,它也必须围绕年会《预通知》限定的年会主题———政策性主题来行进。因此,可以有一个结论,2005—2014年经济法学研究路径是一条非规范法学意义的研究路径,这也是这十年年会的宏观走势。经济法学早已无体系性、持续性学术建树,对学科理论成果再生影响极为不利。

三、评价

从经济法学研究会年会主题及综述文本出发,我们论证出以往十年间(这或许代表的不止这十年,再向前看,经济法学自诞生之日起就伴生着这样一条研究路径)经济法学研究的大体路径,政策性、时代性是这一研究路径的主要特征。不断变化的热点话题以及施政方针是经济法学在这一时期研究的旗帜大纛。经济法学研究也镀上了鲜明的时代感,显得“与时俱进”。诚然,法学要紧跟时代,以解决现实问题,为政府和政党提供决策的理论支撑,这种“工具主义”论调也符合大多数研究者的研究习惯,甚至在某种意义上,法学研究中能否强调或者追随这些“时代主题”已成为经济法学界判别一个研究人员是否具有问题意识的重要标志。

但是,如此紧跟时代主题,对政党政策亦步亦趋真的合理吗?这些“时代主题”很明显属于政党政策,是政治学或是政策学的范畴,本身不具有法律的稳定性和恒定性,也不具有内在逻辑性。如果经济法学的研究路径一直紧随“时代主题”,这一路径在引导经济法学产生新的知识而且与时俱进的同时,首先于之不利的便是经济法基础理论的独立与完善,导致经济法学者们的研究脱离经济法理论本身,为了新颖、“切中时弊”,而紧随政策导向,从而伤及经济法理论的长远发展;其次,使学者们的知识再生产成果流于碎片化,学者们逐大政方针而研究的习惯必然产出彼此毫无内在关联的研究成果,对经济法基础理论的体系性毫无裨益,宏观来看这并非是科学的研究方法;最后,经济法学研究一味追逐时代主题而行的研究路径必然导致经济法规范中政策性膨胀,而极度短视,缺乏长效,损害经济法作为法天然应该具有的规范性和稳定性,使政策权宜性取代经济法的稳定性,最终使经济法学沦为政策之学或者应急之学。

虽然我们这里是从十年年会的梳理中总结出这种研究路径,但是这种路径并非仅存于这十年之间,再往前看自经济法学研究兴起以来,这种路径便已如影随形地伴随着我国的经济法学研究。笔者以为这种路径产生的直接原因在于政府主导式的改革模式(并不是说政府主导的改革模式有何不妥,而是说这种改革模式客观上影响了经济法学的研究路径),以及经济法学界研究者整体存在学术独立性不足的问题,经济法学研究面对强大政府政策的影响,自然难以自持,受之裹挟,处处对政府政策亦步亦趋。经济法学研究如此路径可谓已是风雨飘摇,如果我们对这一潜在根源,不能及时做出改变,必然陷于“路径依赖”。故,如果中国经济法还要称之为法,中国经济法学还要作为独立的法学学科存在,那么我们必须做出相应的反思,对现有的经济法学研究路径予以改变。

参考文献

[1]李友根.论时政话语的经济法学研究——以“包容性发展”为例[J].现代法学,2013,(1):163-169.

[2]邢会强.中国经济法学研究的规则经济法转向[J].经济法研究,2014,(1):98-105.

[3]谭正航.我国经济法研究范式的转换——兼评陈云良教授的转轨经济法理论[J].社会科学论坛,2009,(7):58-62.

[4]汪敏.全国经济法理论研讨会综述[J].法商研究,2006,(1):152-160.

[5]管斌.全国经济法理论研讨会综述(2006—2010)[J].法商研究,2003,(1).

文本情感研究综述 第2篇

所谓文本情感分析 (Sentiment Analysis) , 就是对说话人的观点、态度和情感倾向性进行分析, 即分析文本中表达的主观性信息。根据立场、出发点、个人态度和喜好的不同, 人们对各种对象和事件表达的信念、态度、意见和情感的倾向性不可避免地存在差异。在论坛、微博等反映人们观点的网络媒体上, 尤其表现出了这种差异。

文本情感分析在实际生活中有着广泛的应用, 可以应用于产品推荐系统、有害信息过滤、社会舆情分析、产品在线跟踪和质量评价、影视评价、Blogger声誉评价、新闻报道评述、事件分析、股票评论、图书推荐、敌对信息检测、企业情报系统等方面。

在已有研究中, 文本情感分析也被称作观点鉴别 (Opinion Classification) 、流派分类 (Genre classification) 、情感的极性 (Sentiment polarity) 、语义倾向 (semantic orientation) 、观点挖掘 (opinion mining) 、观点抽取 (opinion extractive) 等, 为了表述的一致性, 本文中将其统一表述为情感分析。

文本情感分析通常包含4个子问题:①确定文本情感的类别有多少;②文本的主客观区分, 即区分出文本内容是主观评论还是客观陈述;③文本的极性分类 (Polarity Classification) , 又称为正负面倾向性分类, 即判别文本内容是肯定赞赏的, 还是否定批判的;④文本情感强度分类, 即判定文本情感倾向性的强弱程度, 如强烈贬义、一般贬义、客观、一般褒扬、强烈褒扬5个类别, 这一问题通常又被称为等级推理 (Rating Inference) 。

2 文本情感分析整体研究现状

目前, 公认的关于文本情感分析的研究工作开始于Pang在2002年提出的基于文本的N元语法 (Ngram) 和词类 (POS) 等特征, 分别使用朴素贝叶斯 (Naive Bayes) , 最大熵 (Maximum Entropy) 和支持向量机 (Support Vector Machine, SVM) 将电影评论文本的倾向性分为正向和负向两类。此外还有Turney在2002年提出的基于无监督学习 (Unsupervised Learning) 对文本情感倾向性分类的研究。同时他们在实验中使用的电影评论数据集目前已成为广泛使用的情感分析的测试集。

如今, 国内外都已经掀起了文本情感的研究热潮, 很多研究团体、科研院校、公司已经对文本情感展开了研究。把这些相关的研究分为4个阶段:①语料阶段;②文本的预处理阶段;③特征标注与特征选择阶段;④情感分类阶段。

2.1语料阶段

目前绝大部分语料都来自博客、专业的评论站点、新闻站点、电子商务站点。而其中影评资料、产品的用户评论、Web 2.0博客文章是研究者的首选。

康奈尔大学的电影评论数据集以及Theresa Wilson等建立的MPQA库是目前研究者广泛使用的两类情感分析数据集。

2.2文本的预处理阶段

文本情感分析的预处理包括:停用词、词缀修剪、N元词、词性标准、简化替换 (如书替换为NOUN、照相机替换产品名) 等, 但这些有意“美化”的处理都会降低情感分析的准确率。

此外, 主观句识别也属于文本情感分析的预处理阶段。该研究的目标是需要提取文本的真正表达情感的句子。Pang于2004年提出基于文本中的主观句的选择和Wilson等人于2005年开创了在短语层进行主观性分析的研究工作, 提出基于文本中中性实例 (Neutral Instances) 的分析, 他们根据28个混合特征训练了一个分类器, 都是为了能够尽量获得文本中真正表达情感的句子。Abbasi于2008年提出通过信息增益 (Information Gain, 简称IG) 的方法来选择大量特征集中对于情感分析有益的特征。

2.3特征标注与特征选择阶段

情感特征的标注方法目前主要包括:

(1) 监督机器学习的方法, 由已有的电子词典或词语知识库扩展生成的情感倾向词典。情感词就是指具有情感倾向的词语以名词、动词、形容词和副词为主, 包括人名、机构名、产品名、事件名等命名实体。其中, 部分词语的褒贬性 (或称为极性, 通常分为褒义、贬义和中性) 可以通过查字典获得, 其它的极性与情感倾向性的强烈程度都无法直接获得。

使用情感词作为特征的研究有:

朱嫣岚等人提出了基于知网的两种词汇语义倾向计算方法, 即基于语义相似度的方法和基于语义相关场的方法。

娄德成和姚天昉也是通过计算文本中词汇与知网中已标注褒贬性词汇间的相似度, 来获取词汇的语义倾向性。

目前, 依靠语料或字典语料结合构建意见词典成为主流。由于目前用于情感分析的中文标注语料较少, 即当目标领域不存在标注语料时, Xiaojun Wan通过谷歌翻译等机器翻译服务, 利用英语标注语料和中文未标注语料弥补中文标注语料不足的问题。此外, 还有Danushka Bollegala等提出算法可以通过其它领域标注语料和目标领域的未标注语料生成意见挖掘所需的情感敏感词典。

(2) 无监督机器学习的方法。Turney在2002年基于点互信息 (PMI) 计算文本中抽取的关键词和情感基准词 (Excellent, Poor) 的相似度来对文本的情感倾向性进行判别 (SO-PMI算法) 。实现方法简单, 此算法得到了很多研究者的推荐。

Yuan等人在Turney的研究工作的基础上, 对汉语极性词的自动获取进行了研究, 发现采用一个字符的汉语情感词比汉语情感词的效果要好。

(3) 情感特征的选择方法。目前很多情感分析的研究基于机器学习, 那么特征选择就是一个很重要的问题, N元语法等句法特征是使用最多的一类特征, Wilson等人于2009年提出混合单词特征、否定词特征、情感修饰特征、情感转移特征等各类句法特征的情感分析, Abbasi等人于2008年提出混合句子的句法 (N元语法、词类、标点) 和结构特征 (单词的长度、词类中单词的个数、文本的结构特征等) 的情感分析。Melville等人于2009年提出结合情感词的先验的基于词典的情感倾向性和训练文本中后验的基于上下文的情感倾向性共同判断文本的情感倾向性。

另外, 传统的文本特征选择方法有监督特征选择方法CHI、IG、MI和无监督特征选择方法DF、TS、TC、En。这些方法应用到这些情感特征选择上的效果如何还有待实验验证。

2.4情感分类阶段

(1) 情感建模的方法。

基于监督学习算法的情感分析仍然是主流, Zhang等人于2009年提出基于非负矩阵三分解 (Non-negative Matrix Tri-factorization) , Abbasi等人于2008年提出基于遗传算法 (Genetic Algorithm) 的情感分析之外, 使用最多的监督学习算法是朴素贝叶斯、k最近邻 (K-Nearest Neighbor, K-NN) 、最大熵和支持向量机等。

此外还有基于规则和无监督的建模方法。娄德成等人于2006年利用句法结构和依存关系对中文句子语义进行了情感分析, Zagibalov等人于2008年在SO-PMI算法的基础上通过对于中文文本特征的深入分析以及引入迭代机制在很大程度上提高了无监督学习情感分析的准确率。

(2) 情感分析的其它研究点。

除以上介绍的情感分析关注情感的分类以外, 还有评论对象的识别、情感倾向性论述的持有者识别、抽取句子中评价词语和目标对象之间的关联关系、评价倾向极性的强度等研究方向等等。

(3) 目前已有系统。

目前很多系统已经问世, 例如:日本富士通公司开发了从中、日、英三国语言的博客和论坛中提取对企业及其产品的评价信息的技术, 根据从万维网上抓取的大量用户的评论得到产品的整体信誉度。

上海交通大学开发了一个用于“汉语汽车论坛”的意见挖掘系统。目的是在电子公告板、门户网站的各大论坛上挖掘并且概括顾客们对各种汽车品牌的不同性能指标的评论和意见, 并判断这些意见的褒贬性和强度。然后, 通过对文本处理的综合统计, 给出可视化的结果。该系统仍需要在特征获取、权重计算等方面进行完善。

综合以上研究现状, 对比国内外的研究进展, 对于国内来讲, 中文文本情感分析可以说刚刚起步, 与国外的主要差距表现在:①在基础资源建设方面, 还没有建立起一个公开、公用、权威、标准的词典资源和具有一定规模的标准语料资源;②在研究方案方面, 从词语、短语、搭配、句子到文本, 主要跟踪借鉴国外研究思路与技术路线进行尝试。

3 中文文本情感分析亟待解决的问题

相比传统的文本分类, 情感分类有先天的困难和挑战, 主要表现在:①自然文本中表达方式的多样化:比喻、附和、讽刺、正话反说等;②句式的复杂性:比较型的句子、各种不同的习惯用语、句式的不同搭配等;③训练数据的稀疏性和不均衡性。这些都造成了目前较为狭窄的应用领域, 不能同时获得较高的准确率和召回率。

中文文本情感分析研究方兴未艾, 仍然存在很多问题亟待解决, 未来的研究将主要围绕以下几个方向展开:

(1) 建立标准的中文文本情感词库及标准的文本情感测试语料库。标准完善的数据库是验证算法的有力工具。因此创建更大规模且更标准的中文文本情感数据库是下一步工作的重中之重。

(2) 选择最优文本情感特征集。文本情感特征是中文文本情感分析研究的第一步, 在很大程度上影响最终的列表识别结果。一个词存在多维度的情感, 因此, 单纯依靠情感词并不能准确判定所有情况下的情感和意见。所以, 对于情感特征集选择技术需要我们进一步的研究和完善。

(3) 选择合理有效的文本情感分类方法。情感特征的权重简单累加并不意味着情感表达能力的累加, 紧致有效的特征表达方法是跨越“语义鸿沟”的重要手段。人们往往通过各种手段多渠道地获取各种各样的情感特征, 并通过不同分类器的融合表示它们。但这方法需要在更多的情感分析领域进行实验验证, 未来还需要开展融合多方面文本情感特征的工作。

文本作者归属研究综述 第3篇

关键词:作者归属,个人言语特征,定性分析,定量分析

随着法律语言学的发展不断深入,相关研究成果也逐渐的被运用到司法实践中去。作为语言证据的一个重要方面,作者归属分析一直是法律语言学家研究的重点之一。McMenamin(2010)认为作者归属分析通常要经历两个步骤:一是对比,即排除某人为可疑文本(questioned text)的作者;二是类比,即识别该文本可能的作者。Gibbons(2003:297)认为“后者更加困难,因为否定某人的身份证据常常是绝对的,而肯定某人身份的证据常以带可能性字眼的表述陈述。”不过,无论是对比还是类比,都需要比较文本中一定的语言参数,这个语言参数应当在不同作者之间存在差异性。众多语言学家一致认为,这个语言参数就是个人言语特征(idiolectal feature)。根据社会语言学的观点,不同文本的作者隶属于不同的言语社区,因此他们的个人言语变体包含了他们所在群体(包括性别、年龄、职业)的特征,但同时,个人言语变体也包含了一些专属于他们自身的特征。个人言语特征主要关注的不是个体语言系统,而是以下三个方面:(1)这个被很多人共享的语言系统是如何以一种特殊的方式被个体所使用;(2)个体所产生的文本,这种文本具有“个性”和“唯一性”(Coulthard 2004);(3)个体是怎样从众多表达方式中作出选择的。因此,在对法律文本进行归属分析时,个人言语特征可以被定义为文本作者从一系列可供其自由选择的语言表达方式中做出选择时所产生的特征(Nolan 1994,Mc Menamin 2001,Coulthard and Johnson 2007)。从研究方法上看,文本作者归属研究的研究方法大致经历了两个阶段:定性分析阶段和定性定量分析相结合阶段。该文拟对这两类方法进行综述,以期读者了解文本作者归属分析大致的发展脉络。

1 定性分析阶段

1.1 笔迹鉴定

在电子计算机普及之前,笔迹鉴定被公认为是一个能识别作者身份的手段。Found,Dick and Rogers(1994)通过调查认为笔迹分析有助于识别作者,但识别的确定性不尽相同。他们将笔迹特征分为三类:阶层特征(class features)、个体特征(individual features)以及个人特有的特征(idiosyncratic feautures),只有将这三类特征综合起来进行分析才有可能进行身份识别。

1.2 形态句法学分析

McMenamin(2010)从形态句法学角度分析了可疑文本的显著性(markedness)。他列举了多个显著性的例子,如缺少相应的曲折语素、曲折语素前加撇号(’)、复数词尾与所有格相混淆、形容词副词误用、前缀与词根相分离、主谓一致等,如果受试的日常语言使用中不具备相应的显著性,即可排除其为可疑文本的作者。有些学者担心受试的反侦察意识较强,可能会在可疑文本中改变自己的语言水平,从而干扰语言学家的判断。对此,Gibbons(2003)提出语言学家可以采取各类措施,如设计相当长(至少30分钟)的会谈,从受试的语言使用情况倒推其语言习得阶段,或是选择在感情上吸引其注意力的话题从而减少其对语言的控制并仔细分析,受试在这种情况下,并不能始终如一的改变自己语言水平,从而可以保证形态句法学分析的有效性。

1.3 词汇分析

由于职业、阶层以及所受教育的差异,不同语言使用者使用的词汇范围大小不一,因此一些特定词汇的使用将有助于识别作者身份,如可以推断某人不太可能知道可疑文本中出现的一个词,因此某人不大可能是该文本的作者。Coulthard(1997)证明“当警察捏造供词时,有时会不自觉的使用警察的行话,并过度使用一些非常正式的词汇或表达。”在罗伯特.布朗上诉案中,上诉人声称他的一段独白供认录实际上是将他对好几个问题的回答整合在一起拼凑而成,Coulthard(2010:475)注意到其中一句话为:

“I was covered in blood,my jeans and a blue Parka coat and a shirt were full of blood.”

Coulthard认为“my jeans and a blue Parka coat and a short”极为不寻常,因为说话者在指称自己的物品时,一旦第一个物品前使用了物主代词,后面就不会使用不定冠词,除非说话者想强调不定冠词后面的物品并非其所有,而这与警方所宣称的情况并不吻合。

1.4 语篇分析

Coulthard(1994 b)在一起上诉案件中,基于语篇特征推断警方的审讯记录中有一些捏造成分,如“white plastic bag”的反复使用,而不是像正常口语中,起初用这个表达的完整形式,随后只用the bag来指称。此外,该笔录中某人始终用朋友的姓来指称他们,而实际上他只用朋友的名或名加姓。McMenamin(2010)分析了一位犯罪嫌疑人的多封书信,发现其在表达某一意义时始终用同一种表达方式,而可疑文本中表达类似意义时却出现了多种不同的表达,因此推断该犯罪嫌疑人不是可疑文本的作者。

相对于定量分析,定性分析易于理解,对于没有专业数学知识的法官和陪审团更具有吸引力(Cohen,1977),但定性分析的结论最终是否能够作为证据被法庭采纳,需要看它是否符合相应的证据规则,以美国为例,美国法中规定了Daubert标准,要求法庭对科学证据必须从以下5个方面进行鉴定:

1)该理论或技术是否可以被检验;

2)该理论或技术是否经过同行评审或公开发表;

3)误差率已知或可知;

4)该项技术有一定的操作准则;

5)该理论或技术在相关科学领域被普遍接受。

由此可知,单纯的定性分析无法满足上述第3点要求,因此有必要在定性分析的基础上引入定量分析以适应司法实践的要求,由此作者归属分析的发展进入了第二个发展阶段。

2 定性定量分析相结合阶段

Daubert标准从客观上促进了作者归属分析中定量研究方法种类及数量的增加(Grant,2009:3)。这一阶段的研究方法繁多,但基本上仍然选择某些个人言语特征为分析变量,笔者尝试将该阶段分为三个次阶段:一元特征阶段、一维多元特征阶段和多维多元特征阶段。

2.1 一元特征阶段

作者归属定量分析发展之初,只从文本中选取一个个人言语特征作为分析变量,最早可追溯到Morgan(1851)在给牧师W.Heald的书信,信中提出可以利用文本所用单词长度的平均值来确认作者。此后,众多学者选取了不同的个人言语特征,采用了不同的定量分析方法,进行作者归属分析研究,杨群英(2005)对此做了细致的归纳,如Yule,G.U(1944)用K特性值分析文本的词语量,Fucks,W(1952)用Shannon函数分析单词的音节数,Cox,D.R.et al.(1958)用判别分析法分析文本的单词类型,Morton,A.Q(1965)用x2检验分析单词的使用率,Thisted,R.et al.(1976)用泊松分布检验文本的词汇量情况。另外,Nazar and Sánchez(2006)选出5位作者共100篇新闻报道,以二元单词序列为分析变量,采用卡方检验,进行分析。

2.2 一维多元特征阶段

一元特征分析的缺点较为明显,因为即使该特征适用于某个或某些案件,但并不能保证其适用于所有案件,因此并非一把“万能钥匙”。对此,Grant and Baker(2001:77)认为“仅仅表明某个特征在某一具体案件分析中有效或是无效是不足够的,因为该特征并不会在所有情况下都同样适用。”因此,众多专家学者开始尝试选取多个个人言语特征,采用了类似“鸡尾酒疗法”的方法,进行综合分析。Spassova and Turell(2007)首先对文本的所有单词词性进行标注,然后以二元单词序列、三元单词序列和四元单词序列为分析变量,采用主成分分析和线性判别分析,所得结果通过散点图表现出来。Spassova(2008)以14组西班牙语中的迂回动词结构做为分析变量,采用判别分析,将所得结果以散点图形式展现。这些研究都是将多个处在同一语言维度上的个人言语特征纳入分析范围,分析的准确度有了很大提高。但Olsson(2008:14)认为:“受证据规则制约,在司法实践中,任何一种(作者归属分析)检验方法的准确度应当高于95%,否则这种方法的效度和信度很难得到承认。”因此,为了进一步提高分析的准确度,语言学家开始了新的尝试。

2.3 多维多元特征阶段

Turell(2010)从文本、语法、社会语言学以及语言范畴序列(sequence of linguistic category)四个维度进行分析。他首先用定性方法分析了可疑文本的写作时间、出现的语言错误、非标准语法形式、加泰罗尼亚西班牙语所特有的特征以及其他语篇、语用特征,如大写字母、告别语、时间书写格式等。然后从语料库中选取参照文本,从语法及社会语言学角度分析可疑文本中带有显著性的标记语,如单数第一人称代词yo以及复合关系代词的使用情况,发现可疑文本和已知文本这两个标记语的使用频率相近,且显著高于语料库中的参照文本。Turell最后分析了两组文本中的语言范畴序列。他将可疑文本、已知文本和参照文本按照标题、段落、句子进行划分,并对段落开头及段落结尾部分予以标记,再将文本划分为一系列不同类型的二元单词序列(bigram)和三元单词序列(trigram),接着利用文字处理软件LEGOLAS 2.0提取出文本中单词序列的类型数量,序列总数以及相应的频率值,找出数量最多的10类单词序列,运用判别分析,并将分析结果用散点图表示,认为已知文本的作者极有可能为可疑文本的作者,最后用交互效度分析,得出分析有效度达83.4%。Rico-Sulayes(2011)则从句法特征、文本特征以及媒体特有特征这三个维度选取出共25个个人言语特征,采用判别分析,得出真阳性值(TP)和假阳性值(FP),通过公式计算出假阴性值(FN)以及真阴性值(TN),并以此推导出这种方法的敏感度(sensitivity)、特异度(specificity)和准确度(diagnostic accuracy),最终得出结论,认为采用这25个特征比单纯采用句法特征或是媒体特有特征更具有效性,其敏感度、特异度和准确度均有明显提高,达到90%以上。

3 结束语

中国编辑学会历届年会主题综述 第4篇

历届年会主题简略陈述如下:

1.1993年11月4日~11月8日在浙江富阳召开以“研究社会主义市场经济体制下的编辑出版工作”为主题的首届年会。

2.1995年10月26日~10月31日在贵州贵阳召开以“社会主义市场经济条件下编辑工作特点和规律”为主题的第二届年会。

3.1996年8月23日~8月27日在辽宁大连召开以“新时期编辑工作面临的新情况和担负的任务”为主题的第三届年会。

4.1998年7月13日~7月18日在青海西宁召开以“编辑审稿、加工工作的理论和实践”为主题的第四届年会。

5.2000年8月11日~8月14日在内蒙古呼和浩特召开以“新形势下的责任编辑工作”为主题的第五届年会。

6.2001年8月19日~8月23日在黑龙江哈尔滨召开以“探讨新形势下编辑工作的性质、特点、任务和要求, 总结经验, 交流思想, 提高认识, 促进我国社会主义出版事业的新发展”为主题的第六届年会。

7.2002年9月6日~9月8日在云南昆明召开以“高举邓小平理论伟大旗帜, 贯彻三个代表’重要思想, 探讨社会主义编辑职业道德建设”为主题的第七届年会。

8.2003年9月5日~9月9日在山西太原召开以“围绕多出精品多出人才’的要求, 进一步探讨编辑理论与编辑实践的创新问题”为主题的第八届年会。

9.2004年7月5日~7月8日在甘肃兰州召开以“转制条件下的编辑工作”为主题的第九届年会。

10.2005年8月25日~8月28日在江苏苏州召开以“深化出版改革条件下, 编辑工作如何适应新形势, 坚持正确导向, 保证出版物的质量, 坚持发展社会主义先进文化”为主题的第十届年会。

11.2006年8月18日~8月19日在江西南昌召开以“适应新形势, 构建科学的编辑人才评价体系”为主题的第十一届年会。

12.2007年9月11日~9月12日在贵州贵阳召开以“探究编辑新规程”为主题的第十二届年会。

13.2008年10月8日~10月9日在山西太原召开以“优秀出版物价值探讨”为主题的第十三届年会。

14.2009年10月29日~10月30日在安徽黄山召开以“编辑与文化”为主题的第十四届年会。

由上述材料可知, 中国编辑学会成立之初 (1993年~1999年) 年会召开频率并没有达到一年一次, 机构配置的不完善及相关研究工作的不充分, 使1993年至1999年间中国编辑学会的年会主题确定陷入散乱, 因此更谈不上挖掘编辑领域出现的新问题及其深层含义, 与时代的契合不够紧密。这是学会发展的第一个阶段。虽然这一问题只是新生事物在成形之前必经的阵痛, 但它绝不会自行消失, 它需要足够的注意力和得力的措施来加以辅助, 以有效减少阵痛的持续期。短暂的迷茫期后, 接下来的2000年~2009年中国编辑学会年会在各方面趋于规律, 开始成为真正意义上的年会。10年间, 中国编辑事业高速发展, 文化体制的深化改革激荡着文化产业, 新情况层出不穷, 这巨大的变化自然也投射在中国编辑学会历届年会上与时俱进成为新千年以来年会主题的最大特色, 总结过去、把握当下、预测未来成为中国编辑学会发展近10年年会不变的主题。这10年又可细分为前期 (2000年~2003年) 的承上启下、中期 (2004年~2007年) 的步入正轨、后期 (2008年~2009年) 的扩大包容, 总之, 中国编辑学会的年会主题在变化的大背景下正在朝着一个更为开放的方向前进。

1993年~1999年

概念是构建任何学科理论体系的基础, 编辑学也不例外。中国编辑学会成立之初, 就试图打破过去的研究范围, 尽量扩大编辑概念的外延, 在更为广泛的基础上对编辑概念进行探讨和确定。

随着社会主义市场经济体制的不断深化, 中国出版业提出了“阶段性转移”计划。其实质是到20世纪末, 出版业要在全国范围内基本实现从数量规模型向质量效益型的战略转移。因此, 我国出版业开展了一系列“扬弃”活动, 即做好批判继承工作, 既要敢于摒弃不符合时代要求的思想和方法, 又要善于继承过去优良的习俗和传统。中国编辑学会在这一时期召开的年会也主要以此为题, 譬如对“三审制”的坚决执行、编辑角色的重新定位以及《图书编辑工作流程》的“千呼万唤始出来”等都印证了中国编辑学会既重视基础又不忘创新的研习态度、既尊重传统又不墨守成规的工作方法, 这些有益的探讨都为中国编辑事业健康有序的发展提供了经验。

2000年~2003年

2001年召开的第六届年会将主题确定为“探讨新形势下编辑工作的性质、特点、任务和要求, 总结经验, 交流思想, 提高认识, 促进我国社会主义出版事业的新发展”, 整体大而空, 形式大于内容, 无法让人准确快速捕捉到会议想要传达的精神。仔细研读这届年会的相关资料可以发现“加入WTO后编辑活动的变与不变”才是会议的主要议题, 该议题具有很强的时效性, 与国情、世情都有非常紧密的联系。年会主题与会议内容的脱节成为第六届年会的最大诟病。此外, “责任编辑职能探讨”、“职业道德建设”和“精品与人才”这些主题虽然彼此间没有直接联系, 但实际都是中国编辑学会在我国加入WTO大环境下对具体问题的观照。

2002年举办的中国编辑学会成立十周年庆祝大会, 即第七届年会, 见证了学会的日臻成熟。但不能忽视的是, 年会还处在极不稳定的自我修正期, 对主题确定的偏颇就是例证。同时, 在一个时间段内和一个大背景下探讨具体问题的年会主题模式被确定下来, 并沿用至下一阶段。

2004年~2007年

2004年4月初, 除人民出版社一家保留事业单位体制外, 全国另外的526家公办出版社全部转为经营型企业单位。失去了传统的“铁饭碗”, 整个出版业亟须观念、思路和经营模式的调整。该阶段可以看做中国编辑学会在文化体制改革背景下对保持出版物质量、人才评估和培养以及编辑新规程等问题的探讨。这些商议和研究为面临转制而不知所措的出版单位提供了指导。

这一时期, 中国编辑学会两位成员的稿子不得不提, 分别是刘杲的《出版改革莫忘图书质量第一》和桂晓风的《让更多的编辑人才涌现和成长》。前者说明了坚持图书质量的必要性和出版改革前提下如何做到坚持图书质量第一, 后者则分析了编辑人才队伍的现状并提出了自己的建设性意见。两篇文章均为大家之作, 刘杲和桂晓风都是长期耕耘于编辑领域有一定建树的学者, 因此可以站在全局的视角, 高屋建瓴, 对出版体制改革过程中可能面临的问题提出对策。譬如, 刘杲在文中说:“出版改革的制度创新, 一定要坚持质量第一的原则, 建立相应的激励机制和约束机制。这里还有一个不可缺少的重要环节, 就是确认图书质量的第一责任者。现代企业制度要求, 企业的法定代表人是产品质量的第一责任者, 出版社社长是出版企业的法定代表人, 当然是图书质量的第一责任者。” (2) 这项制度对保证和提高图书质量至关重要。再如, 桂晓风对中国编辑人才队伍存在的“两个不够相称”和“四个不能充分适应”弊端提出了建设“三支队伍”和培养“三种人才”的建议。

2008年~2009年

该时间段没有延续之前的固有模式, 只有一个开放式话题。无论是“优秀出版物价值”还是“编辑与文化”都是编辑领域亘古不变的话题, 文化气息浓郁。但不能据此就认定这样的主题没有效用, 开放式话题讨论为学科体系发展提供了更多的思路。中国编辑事业正朝着一个多元方向进发, 一年一次的会议只解决一个或几个问题已经不能满足学科发展, 它需要新思想源源不断地注入, 只有这样, 它才能枝繁叶茂, 开花结果。

参考文献

[1].张田:《中国编辑学会首届年会情况综述》, 《实事求是》, 1994 (2) 。

[2].刘杲:《出版改革莫忘图书质量第一》, 《中国编辑》, 2005 (6) 。

[3].桂晓风:《让更多的编辑人才涌现和成长——关于编辑人才学研究的几点思考》, 《中国编辑》, 2006 (5) 。

国内近十年旅游文本翻译研究综述 第5篇

1 近十年国内旅游文本翻译研究综述

十年来,有众多学者对旅游文本进行研究,我们有必要对这些研究成果进行梳理,通过整合分析预计今后发展方向和趋势,以便进一步推进该领域的深入研究。近期的研究成果主要集中在以下四个方面:

1.1 旅游资料的文本类型及功能研究

纽马克(New-mark)把文本分为三种类型:表达型(expressive)、信息型(informative)和呼唤型(vocative)。[2]旅游翻译体裁属典型的“呼唤型”文本,它包括旅游景点介绍、旅游宣传广告、旅游告示标牌、民俗风情画册、古迹楹联解说等等各方面的内容而其中尤以景介翻译最具旅游文体特色,也是旅游翻译的重点和难点。[3]对于旅游文本的功能,学者各持己见。陈爱兵[2]认为:旅游该文本主要兼具两个功能,一是传递信息,二是诱导行动。传递信息就是通过景点介绍帮助游客熟悉景点的历史和特色等。其目的在于吸引外国游客,同时激发他们参观景点的兴趣,以致流连忘返即诱导功能。张宁[4]则认为,旅游资料以传递信息为主,属于信息型文本。但是多数学者赞同旅游文本兼具信息和诱导两种功能,如方梦之、毛忠明[5]。对旅游文本类型及功能进行研究是因为通过这些研究有利于对文本选择相应的翻译策略。

1.2 汉英旅游资料文体特点的对比研究

贾文波[6]指出,汉英民族不同的文化背景和思维方式导致各自旅游文体独特的语言风格和形式。因此有必要对汉、英旅游文体的行文用字、篇章布局、文体修辞和文体风格等方面进行对比研究。徐丹[7]也指出:英语旅游文体大多风格简略,结构严谨,表达直观通俗,注重信息的准确性,比较客观。但是汉语旅游文本讲究文采,注重感情色彩的渲染,凸显意境,比较主观,因而,显得过于笼统和失真。陈刚[8]所著《应用问题翻译:理论与实践》中,第十一章专门研究旅游文体翻译。而李超德和王克非[9]博士则尝试在Werlich文本语法基础上,提出一种适用于非文学翻译特别是旅游英译的平行文本比较模式。通过对英汉酒店文宣的平行文本作简要分析,归纳出它们各自在语义、句法、语用以及修辞等方面的特点。这种平行文本分析模式旨在找出文本间的异同,有助于采取相应的翻译策略,提高英译的质量,同时也适用于其他旅游文本。

1.3 旅游文本的文化研究

贾玉新[10]认为:跨文化交际是指不同文化背景的人们进行信息交流转换;从心理学的角度讲,不同文化背景的人进行信息的编、译码,完成交际活动,这就是跨文化交际。旅游文本的英译则是解码汉语文化和译为符合英语文化的过程,属于跨文化交际。旅游文本主要实现传递信息和诱导功能,而闫丽俐[11]指出,英语国家游客与中国人在思维方式、文化传统和审美情趣等各方面存在着差异。所以要实现旅游文本的功能,翻译者必须站在跨文化的高度来对待和从事翻译工作。

对于如何处理旅游资料中文化,赖少华[12]指出,旅游资料的翻译应该以读者的文化为主,以译文为重,同时在翻译中应在读者接受范围内最大限度保留原文的文化信息。并提出了具体的翻译方法:删减,针对原文中出现的诗词、名人名言和专业术语;释义,对于原文提及的人名,地名,历史典故等不容易理解的,可以增加文化点进行解释;类比,用于引起读者对自己熟悉事物的对比联想,很快理解原文并记住;改译是在不影响原文主要意义,不损害原文文化内涵的基础上对原文的文体、语序进行调整,以达到宣传的目的。对于文化的处理,可以综合运用这些方法。针对旅游材料翻译中的文化空白与文化差异,郭梅蕊[13]也提出了类似的译法。这些翻译原则或标准的优势在于“对症下药”,主要适用于特定的旅游资料翻译。

1.4 旅游文本误译探索

社会对旅游文本翻译的需求日益增加,但目前国内旅游文本翻译质量不尽人意。文本翻译的好坏影响交际的效果,同时也影响我国的国际形象,不少学者已开始关注和重视应用文体的误译旅游文本的误译问题。刘建刚[14]对旅游资料汉译英典型错误进行归类评析,主要从忠实、语法、表达方式、逻辑关系等角度展开。高存和张允[15]对旅游文本英译做了问卷调查,结果是英译文本中中式英语多,文本信息量得转达不够。王宁[16]归纳了旅游翻译五个方面的问题,即死译,生搬硬套,信息传递不准确完整;内涵把握不准确,导致信息传达错误;语法词汇错误;过多的拼音音译替代翻译;翻译质量低劣,影响旅游地形象。上面所提错误很多是初级错误如语法词汇错误,应该避免的。这些误译大都是实实在在的翻译案例,译者必须给予高度重视,应尽量按照英语的表达方式,顺应他们的文化要求,准确表达文本信息,达到与原文本对等的功能。

2 旅游资料翻译研究前景

众多学者众多业界学者认同德国“功能目的论”对旅游翻译有指导意义,在以它为理论指导的前提下,探索旅游资料的文本类型、功能,对比分析汉英旅游文本的文体特点,从文化角度分析旅游文本等三类。对于旅游文本的英译研究看似众多,但是关于旅游翻译的研究多局限语言现象的描写及问题的解决,很少客观地从旅游文本本身着手进行深入研究。在翻译策略和方法上,虽然结合现代翻译理论,但对如何将该理论和概念用于旅游翻译并没有详细说明,有理论与实践脱节之嫌。而且对汉语旅游文本的英译研究比较主观,随感式的讨论强烈,没有系统地对比分析文本特征和语篇功能,然后再结合现代翻译理论,提出翻译原则和方法。

根据旅游文本英译的研究现状,以后的研究还应重视以下两个方面。

2.1 从内容上讲:旅游网站研究

纵观这十年来,对旅游文本的研究大都是传统的旅游文本,即印刷文本。对此,国内研究旅游翻译的文章和著述为数不少,某些研究颇为深入,如陈刚的《旅游翻译与涉外导游》[17]、《应用文体翻译:理论与实践》,顾维勇的《实用文体翻译》[18]中第五章详谈了旅游文体翻译,等等。

但是随着新媒体的运用,出现了大量对外旅游途径的网站,其英译问题日益突出,亟待改善。虽然旅游网站文本也是旅游文本之一,但是作为一种新型的旅游文本它在内容、语言、篇章等方面都呈现出自己的特点,有必要进行深入研究。目前对旅游网站文本也有一些研究,如丁大刚所著《旅游英语的语言特点与翻译》[19],该书第五章专门介绍英语旅游网站文本的特点与翻译,为旅游网站文本的英译或汉译提供指导。

2.2 从方法上讲:语料库研究模式

在旅游文本的研究中,以描写性翻译研究为主。很多翻译方法及原则仅通过一、二个支持自己观点的例子证明,而不是以大量的真实语料为基础分析,其翻译方法适用性不强,不具有系统性。旅游文本的语料库翻译研究则可以解决这个问题。梁晓鹏博士和康宁[20]详细阐述了如何建立汉英旅游文本翻译研究的语料库进行分析,并指出其中会遇到的困难。基于语料库的研究方法,利用在因特网上可以得到海量数据,作为对旅游网站文本的系统研究,这自然是以后发展的方向。

年会综述文本 第6篇

图像中的文本可以分为人工添加文本(artificial text/caption text)和场景文本(natural scene text)[2]。人工文本通常出现在视频帧图像中,如在新闻视频中由人工加入的新闻标题、时间等,体育赛事中人工加入的分数记录等,访谈节目中对话的脚本字幕等,通常有重要的提示作用。场景文本是指拍摄场景中所包含的文字,如人们使用数码相机、数码摄像机、扫描仪等拍摄的自然场景的文本图像。在自然场景中寻找文字区域非常有必要,这些文字数据承载着人们日常生活中的非常有用和重要的信息,比如道路指示牌、街道标语、广告牌、海报、书籍封面等。因自然文本所处的图像或视频背景复杂,受光照、拍摄角度、拍摄场景等因素影响,自然场景文本定位是一个具有较大难度性和挑战性的研究课题。

本文将从研究现状、主要技术方法、性能评价方法、最新研究方向等4个方面对图像和视频中的文本定位技术做一个全面的综述。

1 研究现状

1.1 图像和视频中的文本特征

颜色特征:大部分情况下同一块区域同一行字符色调和亮度相同或相似,颜色、亮度密集,与背景急剧变化。也有特殊情况,比如艺术字中每个字也会出现色彩渐变。

字符大小:同一行或同一列方向上的字符大小一般相同。

字符边缘:边缘突出,拉丁文在垂直方向上边缘较突出,中文则在水平与垂直方向上边缘均比较突出。

字符间距:行与行间的间距一定,字符间的间距也一定。同一个区域中文字集中。

分辨率:人工文本的分辨率一般较高;自然场景的文本分辨率受光照、拍摄角度等因素影响则不一定。

笔画粘连性:文字本身具有粘连性,适合连通区域方法。

角点丰富:象形文字具有丰富密集的角点信息。

纹理特征:文本区域周期出现的高强度和高频率。

边缘特征:文本被设计得清晰易读,背景与文本间出现了强边缘。

1.2 文本定位的应用

OCR(Optical Character Recognition)光学字符识别技术:文本识别的主要步骤包括输入图像或视频帧,文本区域检测,文本区域定位,文本分割与增加,字符识别,输出文本内容。文本定位是正确识别的前提。

图像、视频的分析与检索[3,4]:多媒体技术与计算机网络的飞速发展,使得大量的图片和视频以数字图像形式传播,图像和视频的检索也成为研究热点。传统的基于关键词的检索技术已不能满足于人们的需求,基于内容的图像检索应运而生,而图像中的文字是高层检索的重要来源。如新闻检索。

智能交通:文本定位技术广泛地应用于车牌识别[5]或交通信息的收集,实现交通的智能化管理。

电子图书馆:传统的图书馆建立是人工的对书籍目录进行记录与录入,但在计算机高速发展和信息大量膨胀的今天,计算机能自动定位到封面的书目信息、然后提取、识别、写入数据库,高效地建立数字图像馆。

机器人视觉:如交通路标、道路指示牌中包含的日常生活信息非常重要,对于盲人或是身在异乡的人来讲,若能借助一些设备把拍摄到的这些指示牌中的文本信息定位、提取、识别后转化为语音信息或是翻译成本国语言,则非常有实用意义。

网页检索和网络过滤:一些不良网络信息将文本嵌入到图像中,进行传播,躲避传统的网络过滤文本技术,针对此做法,需要对网络图片的文字区域进行定位、提取、识别和分析,判断其内容的合法性和道德性。

图像语义压缩:在图像传输过程中,图像中的文字信息包含的内容通常更有意义,如果能准确定位和提取文字信息,然后相应在文字区域的压缩比小一些,其余背景区域压缩比大些,则会节约存储容量,加快传输速度。

信封分拣:传统的邮件分拣常是人工操作,费时费力,若能利用计算机自动地定位识别信封上的信息则能把人简单重复的机械性劳动中解放出来并获得高效的工作效率。

1.3 现有的研究机构

文本的定位和识别技术自20世纪50年代起就受到关注,国内外已出现大量机构致力于此的研究,针对不同的应用背景取得了一定成就。

1.3.1 国内

吴佑寿与丁晓青教授合作研发的TH-OCR,被称为“亚洲文字识别”第一技术。

中国科学院研发出“汉王笔”手写产品。

潘云鹤院士和庄越挺教授组成的研究组,该研究组试图从视频流中提取出内嵌的文本信息来完成视频信息的检索。

1.3.2 国外

国际文档分析和识别大会(ICDAR:International Conference on Document Analysis and Recognition)组织[6]在2003年和2005年分别举行的文本比赛,此比赛分为三个部分:文本定位、字符识别、单词识别。诸多学者在文本定位上的研究都采用ICDAR的数据库,尤其是场景文本,有一定的通用性。

微软软件中捆绑了手写系统,这些系统可以把手写的文字图像提取与识别成计算机所认识与表达的文字。

德国1994的Mo CA(Automatic Movie Content Analysis)项目,该项目进行了诸如视频切分、视频中的文本检测、定位与识别等工作。

2 文本定位的主要研究方法

2.1 基于连通区域的方法

基于连通区域(connected component)的方法是自底向上(bottom-up)的,由小连通区域合并到大连通区域,最后精细出文本区域候选区,最后,由几何分析来进一步确定和定位到文本区域。通过利用同一行字符的颜色相同或相似这一特性来定位的。这类方法若针对彩色图像,通常是用颜色聚类或图像分割的技术把图像中的连通区域分割出来,再对连通区域进行大小、宽高比等的限定以及投影分析等来获得文本区域[7,8]。若对于灰度图像,就需要二值处理。

Luca[5]等人在多种场景图像中实验,借助三步操作完成了对文本区域中单个字符的检测与定位。首先,利用文字区域与背景的强烈对比度,采用一种经典的快速有效的Niblack方法对图像像素进行一个分类,标识出文本像素,背景像素,其它对象的像素;然后用20种参数特征集来描述连通区域,包括高宽比、占用率、边缘强度、笔划宽度、相关度、轮廓粗糙度等,来描述各对象的连通区域;最后,级联分类器的使用,把这些连通区域分为文本区域与非文本区域。实验结果是在自然光照条件下ICDAR数据集的121张汽车车牌图片、100集装箱图片,训练集均用了500张,测试集用了970张和40000张,实验结果为平均正确率为94%,误报率为1.8%。

Premnath Dubey[7]等人利用机动车车牌本身的高对比度和统一的排列与密度变化等特性,做垂直方向上做边缘检测,然后利用改进的形态学操作进行9*1掩模的闭运算,进行连通区域的生成,得到了文本侯选区;最后再通过车牌常是矩形形状的启发性知识去分割和搜索文本区域。

Manoj[8]提出了一种基于连通区域的方法。作者认为文本有许多重复的垂直笔画,在此基础上试图找到一个密集的垂直边缘模式,一旦找到这样的边缘组,就用形态学操作来把边缘连接起来把相邻的垂直边缘连接起来。然后借助于连通区域的几何特征(高度和宽度,文本的走向和布局),消除一些异常区域。实验结果表明此方法对于倾斜和弯曲字符非常有效,但对于字符间距大的文本则效果不理想。

基于连通区域的算法[5,7,8,9]实现较为简单,因此被广泛应用于文本定位。但对于文本分辨率较低噪声高或是文本本身是多彩的,字符的定位就会有偏差。另外,在滤除非文本区域时用到的各种门限值(如高度、宽度、黑白像素比等),是依赖于经验的,需要提前分析与设定。

2.2 基于边缘检测的方法

在大多数情况下,基于边缘的算法比基于连通区域的方法在不同光照、排列方向的条件下鲁棒性更强[9]。因为背景与文字有着较高的对比度,便于观众阅读。文本的边缘信息有强度和密度两个特征。当文本位于简单背景下时,边缘的密度特征较为明显;当文本位于复杂背景下时,边缘的强度特征比较明显。基于边缘的方法常根据这两个特征来检测文本区域,通过边缘检测与区域合并形成文本区域候选区,最后采用启发性规则来滤除非文本区域,是一种常用的定位方法。文字笔画边缘比较明显,且比较有规则,一般以水平和垂直为主,垂直笔画边缘有相近的高度,笔画边缘在空间上表现出粘连性,连接相邻的笔画边缘会得到规则的矩形区域。做法一般是先检测出图像的边缘;然后用平滑滤波或形态学膨胀等方法将边缘连接成块;再利用文本的启发性知识滤除非文本块。

在文献[3]中,作者在视频帧中,分别利用Sobel算子和Canny算子产生每一帧图像和它对应的二值图像的边缘信息图,再把这两幅边缘图分成小块,计算每一块中边缘点的相似度,当相似度大于某个阈值则进行一个新的合并,合并出的这一张边缘图包含较少的背景边缘和更多的文字边缘。然后,水平方向和垂直方向上的投影用来确定侯选文本区域;阈值方法来确定相邻的行和列是否包含了文本像素。最后,检验这些找出的文本区域是否真的包含文字,包含了则送往提取步骤,否则标识为错误警报。实验结果表明,此方法达到了90.36%的精度和85.57的召回率。该方法计算量小,尤其是对于单色文字可节约时间,但若文字是多彩的,则这个方法趋于失效。

Srivastav和Kumar[10]首先采用一种改进的Canny边缘检测来产生自适应阈值,得到最初的文本区域和非文本区域,然后通过一些启发性规则来移除明显的非文本区域。接着,把那些两个连续相邻的,在同一方向排列的并满足一定的大小约束、内部组件距离的约束的区域认定为文本区域。最后,通过估计笔画的宽度、背景颜色、针对每一个区域,若有统一值的则归类为文本区域,否则则滤除掉。此方法在ICDAR2003实验中对于字体大小、复杂背景有较强的鲁棒性,平均达到了96.38%的召回率和79.21%的精度。此方法的缺点是参数值是由经验设定,不能自适应地选取参数值来适用于所有图片,并且不能准确检测到两个或更少文本组成的字符串。但是,关于相邻笔画宽度与色彩的约束也是一个较新的检测方法和尝试。

Shivakumara[11]基于边缘信息,提出了一种适合于人工添加文本和场景文本的方法,通过定义初始文本块,文本分割,和利用新的边缘特征来消除误报。基于过滤器和边缘分析的启发性规则来确定初始的文本块和从图像中分割出完整的文本区域。消除误报用到了新的边缘特征,比如直线和曲线。本文采用了误检率、响应时间、检测率、误报率等参数来证明此方法有着良好效果。

文献[12]中,Xiaodong等也是利用边缘信息从视频图像中获得独立的字符。首先,借助图像梯度幅值与方向信息获得了边缘信息图,这样可以压制背景一些背景干扰;接着,在边缘图的基础上作垂直方向的投影,这样把文本行能分割成独立的单个字符;然后,采用K-均值聚类来把属于文字块的图像聚类;最后再提取出文字的二值图像。

基于边缘[3,9,10,11,12]的方法速度较快,但是要求文字的笔画边缘突出,背景的边缘较少,且不能与文字边缘有太多连接交叉。同时,对噪声敏感,能检测字体差别较大的文本,对不同语言的笔画密度敏感不同。所以边缘检测方法经常用来跟其他的方法联合起来使用。

2.3 基于角点信息的方法

如中文这类象形文字有着较多的笔画数,具有丰富的角点信息,利用角点检测算子得到图片或视频帧的角点图像,再根据文本区域角点的分布、密度等特点对角点进行过滤和聚类,从而得到候选区域。

Xian-Sheng Hua[13]等人在视频帧中用SUSAN角点检测器检测角点,删除一些低密度的孤立点,然后合并这些留下的点成为文本区域候选区。然后利用这些视频帧的边缘图纵向和横向分解这些区域,来获得候选文本行。最后,基于边缘图的特征文本框验证步骤用来大幅度减少错误的警报区域。实验表明此方法还是很精确的。

Wen Wu[14]等人利用文本本身角点丰富的特征,先检索出特征点,然后依据局部区域分析来聚类并分割,找到文本区域的候选区域,在候选区域中检测文本并跟踪,根据一些启发性法则来合并文字区域,再从中提取文字,送入到OCR设备。

Li Sun[15]等人利用文字固有的角点信息密集的特征,观察到与非文本区域相比,文本区域有着更密集的边缘与角点,因此能从文本区域能得到较强的响应,非文本区域则较弱。利用Harris角点响应(corner response)策略得到了侯选的文本区域,然后联合色彩特征与连通区域的大小范围特征来滤除非文本区域。最后,通过投影角点响应区来精确定位出文本的区域。作者在500幅大小为320*240和352*288的图片上实验,达到了91.63%的召回率和95.86%的精度。本文较适合于规整水平排列的文本,不太适合于倾斜排列文本。

用角点检测的方法可以减少检测的范围,存储的数据量小,减小内存,适合用于象形文字。不足是对文字尺寸敏感,尤其是对于大型文字不太适合。

2.4 基于纹理特征的方法

文本区域通常具有统一的风格,表现出一种特殊的纹理模式,使得它与图像的其他区域不同。文字具有一致的纹理:每个文字区域由具有相同的朝向和几乎相同间距的文字行组成,并且每个文字行由具有几乎相同尺寸的相邻文字组成。基于纹理的分割方法的基本思想是把文本当作一种特殊的纹理来处理,利用这些纹理的特征设计相应的纹理分割算法来检测文本。常用的纹理分析方法如Gabor滤波、Gussian滤波、小波变换、FFT、空间方差等。

S.A.Angadi[16]等人就是利用纹理与DCT变换来实现对低分辨率的自然场景的文字区域的提取的。他们首先输入图像f(x,y),然后把它分成8*8的块,每一个图像块采用DCT变换并用高通滤波压缩背景,然后在每一个8*8的块上采用DCT变换的逆变换获得处理后的图g(x,y)。从处理后的图g(x,y)中,分成50*50大小的块,提取纹理特征,再使用纹理特征和判别函数来进行块的分类;把文字块合并成候选文本区域后,再细化确定的文本区域以得到最后的文本区域。实验结果表明,在100张大小为240*320的低分辨率自然场景图片,对于文本区域的检测达到了96.6%,针对不同的背景复杂程序,处理时间为6~10秒。

Shivakumara[17]采用基于小波变换、统计特征和中心矩的方法来检测视频中的人工添加文本和场景文本。该方法利用小波分解的LH、HL和HH子带来计算特征,这些特征采用K均值聚类来区分出图像背景下的文本区域,然后借助于投影轮廓分析来检测这些文本块。最后,采用一些启发性规则来滤除非文本区域。实验结果表明,在低对比度的、背景复杂的、字体大小不一的文本中实验,达到了96.7%的检测率,4.2%的误报率和5.6%的漏报率。

Weijuan Wen[18]等人把图像先用小波变换,得到了三个子带图像,这三个子带国像均二值化后再进行合并,通过线性合并成一纹理图像组合。再用CRLA(constrained run length algorithm)算法和图像平滑来增强侯选文本区域。最后,通过八区域生长与过滤得到了文本区域。实验结果表明,对于有着重叠的复杂背景图像,用小波来实现文本定位效果较好。

基于纹理的方法通常有较好地鲁棒性,能有效地分割简单背景下的文本和图形区域,达到较高的召回率和精度。它的主要缺点是在纹理分类阶段计算复杂,比较费时,另外,基于纹理过滤的方法需要广泛浏览输入的图片来检测和定位文本区域,这些错综复杂的操作耗费了大量的计算代价。对于文字大小和风格很敏感,而且在判断“似文本”的背景纹理区域(比如一些类文字的商标LOGO)时往往出现错误,因此很难手工设计一个通用的纹理分类器适用于各种情况。

2.5 基于机器学习的方法

因为文本定位可以看作是一个两类分类问题:文本和非文本。研究者也提出了很多种基于机器学习的方法[4,19,20]。基于学习的方法通过采用实例学习的方法获取模型参数,提高了检测结果的可靠性,同时,可以通过增加学习样本扩充检测模式的范围,提高检测系统的鲁棒性。其中,神经网络具有自学习、强鲁棒性和推广能力,其中前向多层神经网络由于具有强大的空间映射能力,已经成为一种最为广泛的神经网络模型。

Zhong Ji[4]等人针对视频帧中的场景文本使用SVM分类器和混合特征(文中使用了独立于语言的多种特征,如纹理特征、边缘特征等,共24个特征值)做检测与定位。首先,在多个视频帧中用一个小重叠滑动窗口(16*24)扫描,提取出混合特征,然后使用支持向量机分类器来从背景中区分出文本。最后,投票机制和形态滤波器用来精确定位到文本区域。这个方法比起已有的方法有两方面的改进,一是选择鲁棒的特征来区分复杂背景下的场景和被覆盖的文本。另一个是整个处理过程中解决了多语言的问题。在新闻、商业、体育、电影四种不同类型的视频上进行实验,共1196场景图片文本行,144张错报,83幅漏报,达到了88.54%的平均精度和93.06%平均召回率。该算法的不足是不能准确定位到非水平排列的文本。

Hanif[19]等人提取文本的多种特征,包含梯度(梯度均值、梯度标准差、梯度最大值)、边缘(宽度、高度等)和Haralick纹理(对比度、均匀性、熵等)三方面的共15个子特征,成为一个混合特征集进行训练和测试。然后基于Ada Boost算法,在输入的原始图像上用级联分类器得到候选文本区域,然后用MLP多层感知器来最终判断出文本区域。在ICDAR2003数据集中测试,实验结果能达到96.2%正确文本检测率的和7.6%的误报率。

Xiaowei Zhang[20]等人基于二维小波变换,先把图像转换到小波域,然后设置一滑动窗口来浏览高频子带,经过计算滑动窗口中的图像的小波纹理特征,再采用K-均值聚类算法分类出文本区域,简单背景区域和复杂背景区域。最后,使用数学形态学操作准确定位出文本位置。实验结果表明,该算法能从背景中把不同语言、字体、大小、排列方式的文本准确定位。

以上方法[4,19,20]都采用了机器学习,优点是鲁棒性较好,缺点是机器学习分类器的好坏信赖于训练集的好坏。但是在复杂背景图像中,文字的大小、字体、风格、排列方式的变化很大,很难训练出一个推广性很好的分类器。另外特征的选取也直接影响着分类器的好坏,从目前来看没有一种特征能够很清晰的将文本和非文本分开。并且,机器学习的方法也比较耗时。基于学习的方法的重点在于图片样本集和特征向量空间的选取,因为这两点决定了该方法最终的识别效果。

3 性能评价标准

对于文本的定位技术,评价标准一般由以下术语来判断性能高低和算法好坏。最传统的性能参数是召回率和精度。召回率(Recall Rate,也叫查全率):是检索出的相关文档和文档库中所有的相关文档数的比率,衡量的是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率。在衡量一个算法对于文字定位的性能优越与否,主要从定位区域的召回率与精度来看。直观地说,一个好的检索系统检索到的相关文档越多越好,不相关文档越少越好。用公式表示如下:

召回率=检索到相关文档数/所有相关文档总数

Recall=Correct/(Correct+False Negatives)

精度=检索到的相关文档数/所有检索到的文档总数

Precision=Correct/(Correct+False Positives)

还有一些参数也常用来衡量定位的性能是否好,如文献[17]中所采用的检测率、误报率、漏报率等,计算公式如下:

检测率DR=number of TDB/number of ATB

误报率FPR:FDR=Number of FDB/Number of(TDB+FDB)

漏报率MDR:MDR=Number of MDB/Number of TDB.

其中,ATB(actual text blocks)表示原图像中真实的文本块;TDB(truly detected text block)表示检测出的真实包含文本或部分包含文本的文本块;FDB(Falsely Detected Text block)表示检测出的并没有包含文本的矩形块;MDB(Text block with missing data)表示检测出的缺失文本的矩形块。

4 最新研究方向

通过对以上图片和视频中文本检测和定位方法的分析可以看出,目前文本提取与识别的难点是由文本本身的特点决定的。现有的方法大都只能处理一些规范条件下的文本检测和定位问题。所以今后进一步的研究方向应该着重于解决以下一些问题:

目前的算法中,阈值部分大多数仍为经验值需要提前设定,有效的自适应阈值选取方法有待解决。

时域特征具体形象易动,操作容易,效果具有波动性,时好时坏。频域特征往往抽象,不易理解,操作麻烦但效果较稳定。若能在文本定位的几个步骤,有效结合图像中文本区域的时域特征和分析频域特征,取长补短则可能解决上述问题,有一个较好的效果。

对于人工添加文本和自然场景文本,因为各自本身特点不同,情况多变,还没有一种统一的方法来完成对文本的定位。

目前还没有一个客观、有效的量化标准来对不同的文本定位算法进行评价和比较。

5 结束语

没有某一种单一的且鲁棒性很好的文本检测和定位算法,可以检测和定位出任意文本,以便能够检测各种文本(不同的字体、大小、纹理特征、色彩、背景等)。图像中的文本信息有一些信息源,比如色彩、纹理、动态、形状、几何特征等。把这些不同的信息进行合理地合并有助于提高一个文本信息提取系统的性能。但并不清楚如何整合的几种方法的产出。显然需要一个为公共领域和代表性的客观基准测试数据库。因为缺乏这样一个公共的测试集,使得比较不同算法的性能和合并一些方法时均产生了难度。

对于标题文本,已经取得了一些重要的进展并开始了一些应用,比如自动的视频检索系统已经出现。但它们的提取效果针对通过的OCR软件并不太精确。低质量的视频帧图像还需要文本增强。对于场景文本,已做的工作还不多,在一些移动设备如手机拍照,定位并翻译出场景中的文本已出现了一些应用环境。场景文本对比标题文本来看有着很多不同的特性。比如,一部分场景文本被遮挡或者在大小、字体、色彩、方向、排列、光照等变化增加了研究的难度。

尽管许多关于文本检测、定位和提取的理论研究已经考证,还需要在真实应用中文本检测和定位,比如带照相机的手持电话设备用于实时的检索系统,比如图文结构分析,文档结构分析都需要不同的图片中提取到文字信息,包括扫描的文档图像或是真实场景图像。尽管在TIE(Text Information Extraction)还有很多难题,但这个领域的重要性和实用性依然持续吸引研究者,比如ICDAR组织举行的国际比赛和国际文档分析组织。设计出一种能兼具通用性和鲁棒性、实效性地文本定位算法亟待解决。

摘要:图像与视频中的文字分人工添加文本和自然场景文本。按照每种文本各自的特征又有多种文本定位方法。依据人工文本与场景文本的特征进行文本定位技术的分类与分析,介绍了最新的国内外研究现状,并对文本定位算法的性能评价标准和今后研究方向进行了深入讨论。

年会综述文本 第7篇

一、面对时代迷局, 中国教育势在必改

1.教育变革的方向

这个论坛是中国政治经济时代面临转型要求下对教育的一种呼唤, 在论坛举行之前中国教育改革问题就已经显得非常突出, 伴随三届论坛来的教育改革的呼声越来越大, 不仅出现了教改如何改的问题, 还有高考改革的问题、择校问题、农民工入学问题, 等等, 三年来更加突出的农村教育问题、校车问题, 虎妈狼爸, 还有不断受到非议的中国低龄化, 学生理想教育问题, 等等。全国人大常委、民进中央副主席、中国教育学会副会长、新教育实验发起人、著名教育家朱永新教授从中国教育变革力量出发, 针对中国教育一直以来都在改, 可到头来又为什么会失去方向, 徘徊不前的状态。分别提出了制约中国教育发展的因素和中国教育长远发展的方向, 为教育改革问题定做了坐标轴。朱永新教授认为第一个制约因素是中国教育立法问题, 中国教育立法起步晚, 成果少。最早的教育立法是80年代末90年代初, 到目前为止中国只有6个主要教育法律, 都是集中在90年代颁布。而最近这十多年教育立法的停滞不前。因此教育改革的第一个方向积极推进教育立法, 实行《2010-2020年国家中长期教育改革和发展规划纲要》提出了“六修五立”的教育立法计划。第二个势在必改的制约因素就是教育失衡。中国从80年代开始走的是效率优先、兼顾公平的道路, 所有的教育政策、资源配置都是往好学校里配, 都是做锦上添花工程, 都是做面子工程, 而忽略了给最需要的地区配置资源, 造成了学校和学校之间的差距越来越大。所以教育改革的第二个方向就是重点推进教育公平, 化解择校等热点问题, 缩短城乡教育差距。建立专门拨款机构, 监督每年中央教育财政支出4%的教育经费, 做到合理预算、恰当拨款、公平用款。

2.教育改革的突破口

中国统考制带来的问题也是非常明显, 因此这次论坛专门围绕高考问题、择校问题来进行探讨, 找出教育改革的突破口。首先是高校尤其是重点大学对农村学生招生问题, 北京大学教育学院常务副院长文东茅教授以一个高校招生的N+X计划方案来为中国的高考松绑, 促进高考公平。文东茅教授N+X高校招生计划在全国实行开来的, 对于广大农村考试无疑是一项切实的公平计划, 使更多有知识有才华的学子不受地域限制进入更多的高等学府学习。除了高考, 应试教育和择校也是多年来久治不愈甚至在某些地方是愈演愈烈, 很多人认为好像这是中国教育的不治之症, 而且应试教育和择校这两件事可以是一个孪生兄弟, 互为捆绑, 互为推进, 越是激烈的地方就越搞严酷的应试教育。北京理工大学教育科学研究所所长、21世纪教育研究院院长杨东平教授从制度层面上呼吁取消择校制度, 为广大小升初和基础教育的学生谋取合法利益, 解决困扰广大中国家长的枷锁。

二、针对改革, 中国各级教育的方向

1.拯救中国大学的迷失

本届大会联席主席南京师范大学教育科学学院院长胡建华教授在论坛上说中国教育所面临的问题很多, 最值得我们深思的一是教育观念不清, 何为观念不清?就是连最基本的什么是教育, 怎么办高等教育, 很多人都是迷糊的。二是教育制度缺失, 单单就学术自由这个制度就没有人敢说已经在中国真正建立起来。三是教育环境不佳, 何时教育体系相对独立了, 教育环境的“不佳”两个字才能去掉。针对中国大学的迷失, 不仅胡建华教授提出了深思问题, 本次论坛的专家们都提出了“期望中国的高等教育回归本性, 回归到真理和知识上”的观点。中国的高等教育只有回复它的民主、自由、批判的学风, 才能使中国大学的校门越来越靠近未来的世界文明。在讲到民主、自由、批判的学风时, 云南大学高等教育研究院院长董云川教授以“现在大学制度”离“现代大学制度”有多远?的一字之差的饶有意义的标题来为我们讲述高等教育办好的大前提是政府不越位的问题。华东师范大学教育科学学院院长丁钢教授从教育常识上来谈大学的改革, 就当前教育常犯的不是把学生当作真正的人, 不把教师当作真正的人, 或者教育的目标不是培养真正的人才, 而是其他目标, 比如说政治工具、经济工具或者其他的。由于这样一些常识性的错误, 中国的教育经常在伤害学生的身体、心灵、挫伤学生的创新性。所以我们应该反思教育, 反思国家在教育的基本层面上。真正做到能少犯教育常识办优秀的大学。

2.困境中农村教育及民办教育的出路

在国际社会中最能让国家繁荣的秘密武器是职业技术教育和最具活力的民办教育, 而回头看中国却使这“两最教育”成了收容差生和流动人口子女的地方, 是中国家长最无奈的选择。云南师大教育学院原院长、民族教育信息教育部重点实验室主任王凌围绕着民族地区农村教育发展的应然与实然这样的一些观念, 指出了这样的农村教育的发展路径, 他主张最中心的是农村学习中心, 也即学习型的社会、学习型的社区建设, 然后是乡党委、政府和乡中心学校, 最后教师以校本研究为重点, 以课堂改革为核心。对于民办教育, 浙江大学著名的民办教育研究中心主任吴华教授为我们提出了一些想法。民办教育体制面临的诸多问题, 最主要要做到民办教育的转型。转型的关键要做到去政治化、去计划化。

三、基础教育——要回归到学生与公民

让众多人堪忧的中小学教育在本次论坛中也提上了议程, 中国基础教育中存在着一个相当严重的问题就是知识过度, 简言之就是教师灌输知识, 学生吸收知识。杜郎口教研改革的发展人崔其升先生认为:一是课堂上不光讲知识, 更重要是通过这个平台培养学生的进取心和独立思考的能力, 让学生在人群当中不示弱、不落后的气魄和意识。二是通过这几年来在知识的学习当中, 要打破传统当中这一节课的内容是什么, 需要学习哪些内容, 甚至把这些教学目标、教学任务明确地写在黑板上。三是注意课堂当中知识的多元性, 千万不要把一个标准答案、唯一答案在课堂当中由老师制定好。四是知识在生活当中的应用性。崔其升把原本一个很糟的学校变成一个很有趣的学校、很成功的学校。值得教育界学习和借鉴。

相关文章
运动会跳绳通讯稿

运动会跳绳通讯稿

运动会跳绳通讯稿(精选6篇)运动会跳绳通讯稿 第1篇跳出健康、跳出风采胶州市第六实验小学举行跳绳比赛活动随着一生哨响,胶州市第六实验...

3
2025-09-23
艺术匠心范文

艺术匠心范文

艺术匠心范文(精选10篇)艺术匠心 第1篇一篇文学作品的优秀,源于作者深邃而独特的见识,源于作者独具匠心的表现技巧,源于作者精准而细腻的...

1
2025-09-23
英文入学申请书范文

英文入学申请书范文

英文入学申请书范文(精选9篇)英文入学申请书范文 第1篇Application Letter for AdmissionDear Sir or Madam,My name is ______...

2
2025-09-23
远程网络控制范文

远程网络控制范文

远程网络控制范文(精选11篇)远程网络控制 第1篇1 智能网络现场控制单元的基本结构远程控制依附于网络技术, 其控制模式是客户服务器模...

1
2025-09-23
银行面试题自我介绍

银行面试题自我介绍

银行面试题自我介绍(精选5篇)银行面试题自我介绍 第1篇在准备自我介绍时,我们要先明白自我介绍的目的是什么?其实,HR让你做自我介绍,...

1
2025-09-23
移动安全生产工作总结

移动安全生产工作总结

移动安全生产工作总结(精选8篇)移动安全生产工作总结 第1篇近年来,分公司始终把安全生产作为头等大事来抓,坚持“安全第一,预防为主”...

1
2025-09-23
一缕阳光的小学作文

一缕阳光的小学作文

一缕阳光的小学作文(精选6篇)一缕阳光的小学作文 第1篇当我们汲汲于富贵,戚戚于贫贱时,何不让一缕阳光走进我们的心里,晕开满心的疲惫...

1
2025-09-23
医院2016年医疗质控工作计划

医院2016年医疗质控工作计划

医院2016年医疗质控工作计划(精选12篇)医院2016年医疗质控工作计划 第1篇冕宁漫水湾友松医院2016年医疗质控工作计划2016年我院为进一步...

2
2025-09-23
付费阅读
确认删除?
回到顶部