正文内容
网络文本范文
来源:开心麻花
作者:开心麻花
2025-09-19
1

网络文本范文(精选11篇)

网络文本 第1篇

方法一:最简单的下载, 也是教师们用得最多的方法。

(1) 选择网页的文本, 这时文字显现反选状态 (蓝底, 白字) 。

(2) 右键, 复制 (或CTRL+C) 以上选择的文本。

(3) 打开相应的软件, 如Word、PPT等。

(4) 粘贴文本 (或CTRL+V) 。

通过以上步骤, 网络上的文本资源被成功复制、下载。

问题:用以上方法下载网络文本资源, 如果网页上的文本不能选择怎么办?如果网页上的文本可以选择, 但不能成功复制怎么办 (有些网页文本你一单击右键复制, 它会提示非法拷贝等提示) ?

请大家尝试如下网络文本资源的下载方法。

方法二:“另存为”法, 基本操作如下。

(1) 先上网找到相应的网页文本资源。

(2) 点击IE浏览器的“文件”菜单。

(3) 在文件菜单下选择“另存为”。

(4) 把“保存类型”选择为“文本文件”, 然后把保存位置设置为“桌面”或者你需要保存的位置, 再点“保存”按钮。

在桌面或者你选择的保存位置会生成一个文本文件, 打开文本文件就会出现你要下载的文本信息, 再用选择-复制-粘贴的方法将其复制到你所需要的地方, 如Word、PPT中等等。

给大家介绍用方法二下载的实例:

http://www.xwjy.cn/jiaoyududao/zhengcifagui/200909/9440.shtml

以上链接就不能直接复制、粘贴, 但可用以上介绍的方法二下载。

方法三:还有一些网页的文字, 用“另存为”的方法也不行, 那你可以尝试如下方法。

打开网页, 在IE浏览器的“查看”菜单里选“源文件”, 在里面找找看你没有你需要的文字, 如果有, 再进行“复制”-“粘贴”操作。

用这种方法, 也可以下载以下页面的文本资源:

http://www.xwjy.cn/jiaoyududao/zhengcifagui/200909/9440.shtml

方法四:打开网页, 在IE浏览器的“文件”菜单里选“使用Microsoft Office Word编辑”。

用这种方法, 同样也可以下载以下页面的文本资源:

http://www.xwjy.cn/jiaoyududao/zhengcifagui/200909/9440.shtml

方法五:打开网页, 在IE浏览器的“工具”菜单———“Internet选项”———“安全”———Internet———自定义级别, 然后在设置里把“脚本”里的活动脚本“禁用”, 按“确定”。

重新启动IE浏览器, 打开需要下载的网页, 这时就可以选择、复制所需要的文本了。

复制完后别忘了把IE浏览器的活动脚本设置为启用, 不然以后浏览网页的时候有些页面里的内容就看不到了。

下面介绍几种更高级一些的网络文本下载方法。

方法六:“拷屏———文字识别”法。

有些网页上的文本资源, 你看到的看似是文本, 但它是图片或者是FLASH等软件生成的“非文本格式的文本”, 比如JPEG图片、SWF格式的动画、加密的PDF格式文本等。

大家可以尝试, 拷屏后用文字识别软件识别的方法来下载。该方法操作相对较复杂, 需要有一定的电脑操作基础。

这种下载方法的原理是:先将要下载网页的页面拷屏, 生成JPEG图片, 然后用文字识别软件将图片识别成文本 (就和将报纸、杂志上的文字用扫描仪扫描到计算机后用文字识别软件识别原理相似) 。

具体操作方法如下:

(1) 打开需要下载的页面, 按PrintScreen键 (这个键一般在键盘的右上方, 有些键盘可能是简写PSC) 。

(2) 打开图片处理软件Photoshop, 新建一个文档, 粘贴, 这时你所选的网页页面以图片的形式出现在Photoshop中, 用裁剪工具将没有文字或者不需要的部分剪去, 剩下文本部分。

为了提高文字的识别率, 请放大图片, 将图片的分辨率提高到300以上。

图像大小调整的方法, Photoshop-图像-图像大小。将文件存储为JPEG格式 (“文件”菜单-“存储为”) 。

安装识别软件, 这里以尚书七号OCR为例, 软件下载地址:http://www.xwjy.cn/xici/soft/shangshu7.rar。

下载解压后点击安装文件Setup.exe, 按提示点“下一步”直到“确定”, 安装完成。

在“开始”菜单里运行“尚书七号OCR程序”, 打开前面保存的JPEG图片, 再按“识别”按钮, 图片被识别成文本 (红色框从左到右分别是“打开”按钮和“识别”按钮) 。

识别软件的识别率受到图片清晰度等多种因素影响, 如果没有100%识别适当手动修改一下即可。

在使用PrintScreen键“拷屏-识别”这种方法进行文本下载时, 常见到的一个主要问题是:当需要下载的文本不只是电脑桌面那么一屏, 而是有很多, 需要拉垂直滚动条才能浏览全部文本, 这时用PrintScreen键只有一屏一屏的拷贝, 然后用文字识别软件进行识别, 那是比较麻烦的。

下面给大家介绍一种可以滚动拷贝屏幕的方法。

滚动拷贝屏幕一般需要用到一些软件, 这类的软件很多, 下面以HyperSnap为例, 软件下载地址:http://www.xwjy.cn/xici/soft/hypersnap670.rar。

先将Hypersnap软件下载到本地, 然后双击安装:

下面要做的两项工作就是:在网上找到需要下载的页面文本 (文本较多, 带滚动条) , 然后启动HyperSnap软件进行滚动拷屏, 具体方法如下:

(1) 打开需要下载的文本页面, 下面以http://www.xwjy.cn/jixujiaoyu/jinrituijian/200903/7843.shtml为例, 并且将垂直滚动条拉到最顶端 (这样便于从上往下滚动拷屏全部内容) 。

(2) 启动HyperSnap软件, 可以从“开始”-“程序”菜单里启动, 也可以从桌面上直接双击快捷按钮。

(3) 进入HyperSnap程序界面, 选择“捕捉”菜单下的“整页滚动”, 这时会在需要下载的页面出现闪烁框, 在闪烁框里点击鼠标左键, 电脑就会自动滚动屏幕并拷屏。

(4) 选择“文件”菜单下的“保存”或“另存为”将文件保存所需要的格式和位置。

(5) 将拷屏的图片文件放大到300dpi以上, 然后用识别软件进行文字识别。

方法七:“文字捕捉”法。

用HyperSnap软件还可以直接对页面进行“文字捕捉” (意思就是直接将页面的文字识别成可以拷贝的文本, 这是一种非常“神奇”而又方便的方法) , 具体操作如下:

(1) 打开HyperSnap软件。

(2) 在“捕捉”菜单里选择“捕捉设置”, 在“捕捉设置”的对话框里将“文本捕捉”选项卡里的“纯文字捕捉”和“格式化文本捕捉”选中, 确定。

(3) 打开找到的页面, 然后点击HyperSnap的“文本捕捉”菜单下的“文本”, 在网页页面鼠标就会变为区域选择状态。

(4) 按住鼠标左键, 选择需要捕捉的区域, 然后文本就会被捕捉、识别, 并呈现出来。

室内无线网络覆盖合作协议标准文本 第2篇

室内无线网络覆盖合作协议

甲方:

乙方:中国铁塔股份有限公司北京市分公司

为了建设北京地区室内无线接入网,更好的完善

大厦/楼宇内的无线接入状况,甲乙双方经协商,就乙方为大厦/楼宇内建设室内覆盖系统特立协议如下:

一、乙方对双方约定区域进行无线网络的重点覆盖。

二、乙方通过室内覆盖系统布放方式,将无线信号较均匀地分布于本合同项下建筑物室内,用于为广大用户提供更优质的通信服务。

三、甲方向乙方提供专用220V供电电源,同时提供避雷接地及保护接地。甲方应在乙方设备安装施工完成后随即提供电源。双方同意选择以下 种方式确定乙方应向甲方支付的电费标准:

A:鉴于乙方为甲方所辖楼宇通信质量改善和通信能力的提高所做的投资,甲方同意在本协议有效期内不向乙方收取室内覆盖系统发生的电费。

B:乙方为所安装的设备安装独立电表,并根据电表统计的实际用电量向甲方支付电费,电费单价:

元/度。如遇国家电费价格调整,甲乙双方可经友好协商进行调整,另行签署补充协议。

乙方收到甲方提供的符合国家税务规定的发票后,以(支票、网银)方式以

为周期向甲方支付上述电费。

甲方银行及税务信息如下: 户名:[ ] 开户行:[ ] 银行地址:[ ]

--1--账号:[ ] 纳税人识别号:[ ] 地址、电话:[ ]

四、发票采用以下第 种方式:

A:甲方就本合同约定的属于增值税范围的非免税业务事项向乙方开具增值税专用发票,不同税率业务分别开票(如果对业务不能清晰划分,按照其中最高税率业务开具增值税应税业务全额发票)。具体付款金额以实际结算单为准,结算单应做价税分离,分别列示不含税金额、税率、税额、价税合计。

甲方必须按照国家有关法律法规的规定如实向乙方开具并提供增值税专用发票。如甲方未能提供增值税专用发票,则结算总价调整为按合同税率计算的不含税价款,乙方按照此价款与甲方结算;如甲方提供的增值税专用发票税率低于合同约定,则结算总价调整为按合同税率计算的不含税价款与已开具发票的可抵扣税款的合计数,乙方按照此价款与甲方结算。

甲方应在增值税专用发票开具之日起30日内按照本合同规定将发票提交至乙方,乙方凭发票办理结算手续。如果由于甲方未在规定时限内送达发票、导致发票无法在有效期内进行认证的,甲方应负责更换该增值税发票,并承担由此给乙方造成的损失。

B:甲方就本合同约定的属于增值税范围的免税业务事项向乙方开具增值税普通发票,并提供税务机关出具的免税证明文件。具体付款金额以实际结算单为准。

C:甲方应就本合同约定的属于非增值税范围/转供电的业务事项向乙方开具地税发票,具体付款金额以实际结算单为准。

五、本合同项下通信设施占用资源事宜采用长期合作方式,本协议有效期自从

****年**月**日起到

****年**月**日止。

六、甲方责任:

6.1甲方无偿提供用于乙方安装无线网络接入设备及相关通信设施所需场地、相关机房空间、机柜设施等,并为乙方传输线路施工提供便利条件,不得向乙方收取除电费外的任何费用。

--2--6.2甲方提供建筑物平面示意图及相关资料;在设备的安装、调测及开通期间,甲方应提供必要的配合,保证施工的完成。甲方应积极配合乙方进行传输的施工工作(包括光缆敷设等),以保证乙方的工程进度。如乙方在传输施工中遇到非技术性问题,甲方应协助乙方共同解决。

6.3甲方提供为保证乙方无线网络接入设备及相关通信设施正常运行所用的电源、乙方建设的无线网络所需的路由。

6.4甲方负责通信设施所在场地使用期间的常规维护,避免发生漏水,协助乙方及时排除供电线路及避雷接地、保护接地的故障,保证符合通信设施所在场地使用要求。甲方应与乙方共同维护通信设施所在场地的安全消防工作。

6.5未经乙方同意,甲方不得随意挪动、中断或终断无线网络接入设备及相关通信设施,由于甲方原因导致乙方设备丢失、损坏等情况,应由甲方承担相应费用;如甲方进行工程施工等工作可能影响乙方上述设备的,甲方应提前向乙方通报并采取相应的保护措施;如甲方需要停电,应提前48小时告知乙方。

6.6合作期间,应配合乙方进入基站及设备安装地点进行日常的维护和抢修。甲方应配合乙方将来可能进行的设备增容、改造、升级等工作,并提供相应施工条件。

6.7甲方应向乙方提供大厦/楼宇产权证书和营业执照复印件;如属物业管理方式,而非产权方直接签定合同的情况,甲方应向乙方提供产权方出具的,同意甲方签订为大厦/楼宇安装无线覆盖系统的合同的授权委托书。

6.8合作期内,如该大厦/楼宇被整体出租、出让,甲方应保证使新的承租人或所有人继续履行此合同。

6.9甲方不得向第三方转让全部或部分乙方应付账款,否则,该转让行为无效。

七、乙方责任:

7.1乙方负责提供无线网络接入设备及相关通信设施。

7.2乙方负责无线网络接入设备及相关通信设施施工、安装调测。7.3乙方按照确定的施工设计图的要求进行施工。对已安装的设备需要进行改动前,应经甲乙双方共同协商,同意后方可施工。

7.4乙方负责对无线网络接入设备及相关通信设施的更新改造、升级。

--3--7.5乙方负责完成乙方网络接入到甲方建筑物内的施工工作,并由乙方负责相关光缆进入甲方建筑物前的投资建设。

7.6乙方投资建设的无线网络设备和线路等设施,资产归乙方所有。7.7乙方遵守甲方的防火、防盗、治安等规定。

7.8对于设备故障的处理,除特殊情况外,乙方自接到甲方通知后的24小时内予以修复。

7.9乙方的无线网络接入设备及相关通信设施应符合国家相关环保规定。7.10乙方的无线网络接入设备及相关通信设施对甲方原有设备不产生不良影响。

八、任何一方不得擅自终止合同。在合同期内,如遇政府整体规划、开发等特殊情况,甲方应提前通知乙方,乙方酌情调整。

九、本合同未尽事宜,需经甲乙双方共同协商以书面形式做出补充约定,补充约定与合同协议有同等效力。

十、争议解决

本合同在履行中如发生争议或意外情况,双方应协商解决;协商不成可向乙方所在地人民法院起诉。争议解决前,双方应继续严格履行合同,任何一方不得擅自终止合同的履行。如遇不可抗力所造成的合同终止,甲乙双方损失自理自负。

十一、双方因履行本合同或与本合同有关的一切通知都必须按照本合同中的地址,以书面信函形式或双方确认的传真或类似的通讯方式进行。采用信函方式的应使用挂号信或者具有良好信誉的特快专递送达。如使用传真或类似的通讯方式,通知日期即为通讯发出日期,如使用挂号信件或特快专递,通知日期即为邮件寄出日期并以邮戳为准。

甲方:[ ] 乙方: [ ] 地 址:[ ] 地 址:[ ] 邮 编:[ ] 邮 编:[ ] 联系人:[ ] 联系人:[ ] 电 话:[ ] 电 话:[ ] 传 真:[ ] 传 真:[ ]

--4--

十二、本合同一式

份,甲方

份,乙方贰份,双方签字盖章之日起生效。

甲方:

签字代表:

签字日期:

方:

签字代表:

签字日期:

****年**月**日

--5--

基于文本挖掘的网络媒体报道研究 第3篇

[关键词] 文本挖掘 网络媒体 实体关系 属性抽取 上海世博

1 引言

随着信息技术的发展和网络信息资源的丰富,数字化信息不断改变着我们的思维方式和工作模式。然而面对海量信息,如何发现并获取有价值的信息成为难题。如今,各种网络搜索引擎可以帮助人们进行有效的信息检索和分类,但是利用这些工具检索出来的信息仍然是海量的。如何从检索到的海量信息中挖掘出用户感兴趣的内容,并能对信息进行必要的分析、提炼成为信息管理、情报分析领域的新课题呢?本文将运用属性抽取和文本挖掘的方法,以网络版新闻报道为例,对报道的内容进行分析,并挖掘出媒体报道的内涵。

文本挖掘是数据挖掘技术中日益盛行的重要研究领域,同数据挖掘的区别在于文本挖掘主要处理非结构化的文本数据,包括新闻文章、研究论文、书籍、期刊、报告、专利说明书、会议文献、技术档案、政府出版物、技术标准、电子邮件消息及Web页面等,这些数据不像关系数据库那样具有规范格式,因此处理难度都较高。同时,这些文档又大多采用自然语言描述,对挖掘提出更高的要求。从1995年Feldman正式提出文本挖掘的概念[1]至今,国外学者对文本挖掘的应用研究进行了很多有益的探讨,这方面最主要的研究集中在文本挖掘理论体系与技术手段方面,获得的成果有文本挖掘模型[2-3]、非结构化文本文件特征抽取与文本中间表示[4-6]、文本挖掘算法 [7-8]、语义关系挖掘[9-10]、文本聚类与主题分析[11-12]等,对文本挖掘国外学者已经形成了一套较成熟的理论体系,并且应用于多个领域,如网络聊天室文本流主题跟踪[11]、在线新闻实时监控[12]、专利数据分析[13]等。最近几年,国内学者对文本挖掘的关注度开始提高,但仍然处于吸收国外研究成果阶段,在理论方面,对文本特征抽取和文本聚类[14-16]等进行了一定的探讨;在实践应用中,文献[17]运用文本挖掘的方法对政府工作报告中用户感兴趣的区域经济关系进行了实证研究,并得到相关结论。通过国内外的研究对比,笔者发现,无论在理论探讨还是实践应用方面,国内的文本挖掘研究还不够深入,仍处于小规模实验阶段。

本文拟运用文本挖掘的基本方法,就我国台湾、香港及其他境外媒体华语版及上海本地媒体对上海世博会相关报道进行分析,研究的新闻文本量近29 000篇,通过属性抽取分析媒体报道的差异。

2 网络媒体文本挖掘方法分析

本次实验选取的新闻样本为境内外主流媒体网络版,主要包括上海本地的《解放日报》、《新民晚报》等,香港地区的《大公报》、《香港商报》、《香港文汇报》等,台湾地区包括《经济日报》、《联合报》、《中国时报》等,国外媒体中文版包括《星洲日报》(马来西亚)、《明报》(加拿大)、《联合早报》(新加坡)等,共计30家中文主流媒体。

作为一种文本信息,新闻报道的格式也相对一般文本文件更为规范,这样便于挖掘的实现。与传统的新闻分析强调事件(新闻主题)、人物、时间、地点不同,这里运用文本属性抽取和文本内容挖掘以获取新闻报道的关注点并分析不同地区媒体报道的差异,因此与传统的信息统计分析等情报学方法又有一定的区别,可作为特定信息集合的信息挖掘和特征提取的实践应用。

在进行文本挖掘工作前,我们需要对所操作的对象进行抽象化。如果将一篇新闻报道看做一个实体的话,那么新闻报道所反映的信息可以看做该实体的属性,我们可以将实体所关注的重点进行抽象。如:某篇新闻(实体)是关于世博会安全保障(属性)方面的报道,那么安全保障即为该实体的属性,是这篇报道的主要内容。本文关注的是在一个实体集合中哪些属性是他们的共同特征,并且与另外的实体集合有哪些差异,并进行比较。例如:对于上海世博会的报道,香港地区媒体和上海本地媒体就是不同的实体集合,在这两个实体集合中哪些属性是相同的,如报道的关注度主要集中在哪里,哪些又是不同的,如香港地区媒体主要侧重于哪些方面的报道等。我们希望通过文本挖掘的方式进行报道差异的分析。

为了便于实现计算机的文本挖掘,需要建立相应的实体—属性对应关系,这里我们引入了一级属性和二级属性的概念,如下图所示:

依据上文的解释,属性是用来描述某一实体的特征,对于新闻报道来说可以体现为具体内容的抽象,如世博会安全保障(属性)是某篇新闻(实体)的核心内容。然而,安全保障这个属性又是较为抽象的概念,需要将其进一步拆分,如安检、园区秩序等均可用来具体描述安全保障的内容。因此,在设计实体—属性关系时,一级属性用来描述实体的核心内容,而二级属性用来具体表述抽象的属性。

对于不同的实体,都有相应的属性描述,当一类实体组成一个实体集合(如上海本地媒体关于上海世博会报道的集合)时,属性就能反映出不同实体集的差异和不同的关注点。

3 网络版新闻媒体挖掘实现流程

网络版新闻报道是一种文本文件格式,相对于关系数据库中的信息来说属于非结构化信息,如今对非结构化信息挖掘的难点之一是自然语言的处理。为了降低自然语言处理的难度,我们首先将非结构化文本内容通过程序自动导入数据库,形成结构化数据,对结构化数据再进行简单的自然语言识别以实现属性抽取操作,并建立属性(内容)同实体(新闻)的关联关系,进而实现对新闻报道的文本挖掘。流程如图2所示:

我们使用检索策略从网上获取关于上海世博会新闻报道的专题集,在形成专题报道集的过程中,对文本信息进行相应规范化处理,运用自行开发的软件实现内容自动入库,并形成以地区为分类标准的不同实体集合。

对于入库的文本信息,提取新闻属性,首先要创建一个属性关系集合,在集合中包含一级属性和二级属性的关系。确定属性集合的方法分两步:①确定一级属性集合,我们采用的方法是人工对《胡锦涛考察世博会筹办 要求确保安保万无一失》的讲话,以及俞正声《万众一心全力以赴办好世博会》的讲话进行内容整理,统计出9个一级属性,分别为:服务保障、安保工作、外事工作、新闻宣传、社会氛围、场馆建设、科技创新绿色生活、世博园场馆、世博相关等;②确定二级属性集合,我们的方法是采用第三方软件(WordSmith)对文本集进行词频统计,人工筛选出与世博有关的高频信息,通过筛选我们获得近200个高频信息,在人工的干预下实现一级属性和二级属性的映射关系。表1显示的是我们获取的部分属性:

这样一级属性和二级属性就可抽象为如下的逻辑关系:

{KNo,KName,KListk}, KListk = ,k=1,2,…,R;i=1,2,…,n。其中,KNo为属性编号,KName为一级属性名,R为一级属性分类数,KListk为类别K的二级属性,共有n个相应二级属性。

4 新闻媒体属性抽取模型

新闻媒体报道的语言具有自然语言的特点,在属性特征抽取时如果仅仅以建立的二级属性表进行简单的匹配处理将使得处理结果的准确性受到影响,因此我们在特征提取时考虑运用相似度的算法来匹配较为相近的内容,提高属性抽取的完整性。

基于文本挖掘的新闻媒体分析首先是确定信息抽取的方法,提取描述实体的属性信息。根据图1实体—属性关系,抽取的模板为:Template={TNo, TName, News, KSet}

其中,TNo为模板的编号,TName为实体集的名称,取值为所选取的媒体名称,如《解放日报》等;News为实体名称,取值为具体新闻名称,如《站在历史的连接点上——写在上海世博会开幕之际》;KSet为实体描述的属性集合,该属性集合是一个细分的属性描述,即二级属性,能够反映某一News的报道内容。

抽取过程中要对自然语言进行相应的判断,我们运用相似度的计算,公式如下所示:

这里的TigerKey为二级属性KListk的触发器{t1,t2,t3,……tn},通过这些词汇的存在来进行信息的抽取,但考虑到自然语言的表述问题,需要对出现的词汇进行相似度判断。公式中,S表示为一个句子,在属性抽取过程中,计算句子和TigerKey触发器的相似度,当大于一个阀值时,确定为某一KSet的内容。通过相似度的算法,在属性抽取过程中,程序将“安全检测”和“安全检查”视为同一属性描述,并进行提取。这样可以保证由于自然语言表述不同所造成的属性抽取错误。

为了更好地挖掘新闻内容,需要对新闻实体所包含的各种描述属性进行挖掘。我们在对新闻报道进行浏览时,发现一篇新闻报道虽然有某一方面的报道侧重点,但不可避免地会涉及到多个主题,如报道世博服务为主题的新闻报道,还会涉及关于安全保障等方面的内容。因此,为了全面地反映相关内容,在属性提取时,我们考虑实体和属性一对多的关系,并设计了一对多的新闻实体模板,如表2所示。

在具体操作中,属性抽取的基本算法如下:

(1)选取新闻报道专集文本(如台湾媒体),从二级属性中获得属性集合{ KListk |=k=1,2,…,s};

(2)k=1;

(3)获取新闻专集{TNj|j=1,2,……s};

(4)j=1,GetNews(TNj);

(5)在TNj的句子S中查找KListk,SearchKeyword(S,KListk);

(6)如果找到,则将KListk置于缓冲区内,SetKeywork(KListk),结合相似度算法查找相似属性;

(7)如果一篇新闻查找结束,并且缓冲区不为空,则取出缓冲区的内容,按照一级属性和二级属性的关系模板标识相关新闻实体模板,填充新闻名称、属性集合、相似属性;

(8)如果j>s,则新闻专题集结束,否则j=j+1,转(4);

(9)如果k>s,则属性集合结束,否则k=k+1,转(2)。

5 基于文本挖掘的媒体报道差异分析

我们选取了国内上海、香港、台湾及国外媒体华语版2010年4-11月关于世博报道的29 000篇新闻,这些报道来自于《解放日报》、《新民晚报》、《大公报》、《香港商报》、《香港文汇报》、《经济日报》、《联合报》、《中国时报》、《星洲日报》(马来西亚)、《明报》(加拿大)、《联合早报》(新加坡)等共计30家中文版主流媒体,具体分布如表3所示.

国外媒体华语版我们选取了亚洲媒体8家、北美媒体3家,总报道量为3 436篇。对这些新闻文本,我们也进行了字数统计,表4是各媒体报道的平均字数。

从统计的平均报道字数上来看,各地媒体对世博会的报道还是较为重视的,报道的篇幅也较长,报道较为全面。

根据文本挖掘、属性相似匹配以及属性的对照关系,我们对29 000篇来自香港、台湾、上海、国外媒体华语版的新闻报道进行处理,可以大致发现,这些报道更多地集中在对世博会社会氛围、安保工作、科技创新绿色生活方面,图3显示了相关的统计结果。

本次世博会突出绿色环保这一主题,并且参观人数超过7 300万,因此媒体对“科技创新绿色生活”和世博“安保工作”的关注度较高是可以理解的,同时世博会又产生了巨大的社会效应,如对志愿者的宣传等。然而,让我们感到有些意外的是关于具体场馆的关注度并不高,看来媒体更加关注世博会的宣传和安全运营。

我们对各地媒体报道关注度的差异进行了对比分析,发现不同地区对这三大主题的关注度有一定细微的差异。见图4。

从图4我们可以看到,在三大主要宣传主题中,上海媒体报道量较为平均,分别为24%、26%和29%,而香港、台湾、国外媒体华语版的报道则相对有其侧重点,其中香港和台湾媒体更关注世博会的主题,对科技创新绿色生活专题的报道较多,分别占报道总量的39%和41%,国外媒体华语版则更多地关注世博会的安保工作,共有34%的报道量反映这方面的问题。

图5从左至右,由上到下分别显示了上海媒体、台湾媒体、香港媒体、国外媒体华语版在2010年4-11月期间关于世博会三大主要内容报道的走势。

可以看出,各地媒体对世博会关注的热度基本保持稳定,对所关注的主题也基本保持平稳的走势。仅有国外媒体华语版在5月份以后,报道量有一定下降,但是降幅不大,仍然保持一定的关注热度。

此外,从二级属性来看,各地媒体所关注的细节也有所差异,我们选取了关注的前五项进行对比分析,见图10。

从表5中我们可以发现,各地媒体共同关注的内容主要集中在科技创新、绿色环保以及参观人数方面,说明世博主题和参观人数是各媒体的关注重点,然而各地媒体在报道中也有一些差异,如:上海媒体在志愿者(小白菜)这方面有较多的报道,但其他地区媒体则对此关注较少,说明对于世博的社会效应关注不够;另外国外媒体华语版对世博园区内人流、排队秩序方面关注较多,说明其对世博的安全运营较为关注。

6 结束语

随着网络和信息技术的不断发展,网络上的文本信息呈几何数增长,面对海量的信息,人工对其进行相关分析已变得不可能。因此,借助于文本挖掘技术发现潜在的有价值的信息是情报分析研究的一个重要应用。本文以上海世博会媒体网络报道为例,运用文本挖掘技术并辅以属性抽取、属性关系映射等方法,实现了对海量数据的聚类分析,并对差异进行了比较研究。在实际研究中,考虑到新闻报道中大量采用自然语言的特点,在属性抽取时结合了相似度的算法,使挖掘的准确率得到了提高。但是,对于属性之间的有向关系、属性的相关分析、以及如何保证属性构建的准确性等问题还需要进一步的探讨。

参考文献:

[1] Feldman R, Dagan I. Knowledge discovery in textual databases (KDT)// Proceedings of the First International Conference on Knowledge Discovery and Data Mining (KDD-95) ,1995 :112-117.

[2] Mothe J , Chrisment C, Dkaki T. Information mining - use of the document dimensions to analyse interactively a document set// BCS - IRSG 23rd European Colloquium on Information retrieval research, GMD-IPSI, Darmstadt,2001:6-20.

[3] Ghanem M, Chortaras A, Guo Y, et al. A grid infrastructure for mixed bioinformatics data and text mining. Computer Systems and Applications ,2005, 34(1):116-130.

[4] Karanikas H, Tjortjis C, Theodoulidis B. An approach to text mining using information extraction// Proceedings of the Fourth European Conference on Principles and Practice of Knowledge Discovery in Databases. Lyon, France,2000:13-16.

[5] Montes-y-Gómez M, Gelbukh A, López-López A. Text mining at detail level using conceptual graphs// Proceedings of the International Conference on Conceptual Structures.New York: Springer,2002,32-40.

[6] Hu Q h, Yu D R, Duan Y F,et al. A novel weighting formula and feature selection for text classification based on rough set theory. Proceedings of Natural Language Processing and Knowledge Engineering ,2003: 638.

[7] Blake C, Pratt W. Better rules,few features :A semantic approach to selecting features from text// Proceedings of 2001 IEEE International Conference on Data Mining ,2001:59–66.

[8] Kawahara M, Kawano H. An application of text mining:Bibliographic navigator powered by extended association rules// Proceedings of 33rd Hawaii International Conference on System Sciences, 2000:2009-2018.

[9] Girju R, Moldovan D. Text mining for causal relations// Proceedings of the International Florida Artificial Intelligence Research Society (FLAIRS 2002) ,Pensacola ,Florida. May 2002:360-364.

[10] Lin D K, Pantel P. DIRT - Discovery of inference rules from text. Journal of Natural Language Engineering. Fall-Winter ,2001(12) :22-31.

[11] Bingham E. Topic identification in dynamical text by extracting minimum complexity time components// Proceedings of ICA,2001:546-551.

[12] Montes-y-Gómez M, Gelbukh A, López-López A. Discovering ephemeral associations among news topics// Proceedings of IJCAI—— 2001 Workshop on Adaptive Text Extraction and Mining, 2001:216-230.

[13] Lent B , Agrawal R, Srikant R. Discovering trends in text databases// Proceedings of the Third International Conference on Knowledge Discovery and Data Mining,1997: 227-230.

[14] 周茜,赵明生, 扈曼.中文文本分类中的特征选择研究.中文信息学报,2004 ,18(3) :17-23.

[15] 卢娇丽,郑家恒.基于粗糙集的文本分类方法研究.中文信息学报,2005 ,19(2) :66-70.

[16] 刘云峰,齐欢.基于潜在语义空间维度特性的多层文档聚类.清华大学学报(自然科学版) ,2005 ,45 (S1) :1783-1786.

[17] 丁堃,刘盛博,许侃. 基于文本挖掘机制的区域经济关系分析.情报学报,2006,27(3):418-424

基于全卷积网络的场景文本检测 第4篇

计算机视觉与模式识别在经过三十多年的发展, 已经取得了长足的进步, 并且在某些方面已经达到了工业应用的水准。像光学字符识别[1] (OCR) 、指纹识别等任务。然而, 大多数的视觉和模式识别工作仍然与人类的视觉感知能力存在很大的差距。自然场景文本检测和识别就是其中一个极具挑战[2], 并且应用广泛的课题。

当前文本检测算法主要分为两类:基于滑动窗口和基于连通区域的方法。滑动窗口方法是通过一个大小可变的滑动子窗口扫描一张图片所有可能的位置来检测文本信息。它们利用一个训练好的分类器来判别窗口里是否有文本信息。这类方法的局限性主要在运算量大。当前, 基于连通区域的场景检测方法取得了国际领先的效果。它们首先通过一个底层的滤波器快速分割文本和非文本像素, 然后把具有相似属性的文本像素连通起来构成文本成分。笔画宽度转化 (SWT) 和最稳定极值区域 (MSREs) 是这类方法的代表。但是这种方法没有充分利用文本的序列信息, 同时对非连通语言, 比如中文, 将会失去作用。

考虑到全卷积网络[3]在图像分割任务中的出色表现, 本文设计了一种两步级联的由粗糙到细致的神经网络。第一部级级联网络用来从整张图检测粗糙的文本区域并且输出一个像素级别的显著性图用来表征是否为文本区域的概率, 第二部级级联网络用语用于精确的定位文本行的位置, 并且产生两个显著性图, 一个是基于文本区域, 一个是基于文本中间线。这是第一次尝试利用神经网络直接输出文本区域的方法, 并且避免了设计基于字符的分类器, 解决了多语言多方向的问题, 同时省去复杂的后处理。

2 主要技术

本文设计了一种两步级联的由粗糙到细致的神经网络

2.1 第一层级联粗糙区域检测

我们的网络是基于广泛使用的VGG-16 Net[4]做为基本框架, 并加以改进, 其中包含5 层pooling, 在实际过程中也可以根据需要。受到全卷积网络的启发, 我们用1*1 的卷积代替全连接层, 这种做法使得图像输入为任意大小并且能够保留粗糙的空间位置信息。网络结构如图一所示, 在粗糙的区域检测中主要利用了文本区域的监督信息, 强调了文本行的序列结构。在网络设计中, 该发明设计了一种针对文本特征的卷积核并进行了特征融合, 文本在自然场景中的变现形式一般为矩形序列, 因此设计了3*7, 7*3 以及3*3 的卷积核针对不同方向的。为了是不同的卷积核能够以同样大小进行融合, 对特征图像进行了不同的填补 (padding) 使得输出的特征图同样大小, 并进行了逐元素累加融合。同时为了提高特征图像的分辨率。我们进行了Pool-4 和Pool-5 特征的融合, 将Pool-5 特征上采样到和Pool-4 同样大小并进行逐元素求和, 不仅保存了Pool-4 更为细节的特征, 也保留了Pool-5 的高层语义信息。在粗糙检测中所采用的的误差函数为交叉熵, 这种方法将直接输出一个和原图同样大小的热点图, 简单的设置一个阈值就可将粗糙的文本区域分割开来。

2.2 精细的文本区域以及文本线检测

在2.1 中得到的文本区域有很多是多行连接在一起的, 并没有有效的分开, 如图二第二列所示。文本检测的最终目的是输出独立的文本行区域。为了能够准确的定位并且去掉 (1) 中的误检测, 本发明设计了一种基于文本中间线的监督分类器。中间线的区域是由一个高斯分布的函数定义的, 由中间区域逐渐向两边递减, 中间最大值为1, 最小值为0, 高斯分布的半径为0.25*H (H为文本区域最小面积包围盒的高度) 。精细检测中采用的误差函数为sigmoid交叉熵。这样设计不仅能够让文本区域有重叠的文本行分离, 并且可以根据文本行的高度推算出整个文本包围盒的高度。

3 实验

3.1 实验数据

为了满足训练网络要求我们从谷歌街景, 公开数据集的训练集中选取了6611 个训练样本并且选取ICDAR2011 数据库测试集来验证所提出的方法有效性。网络的输入大小为500*500.

3.2 网络训练

运用16 层的VGG网络作为初始化参数, 网络学习率为10-10, 学习率动量为0.99, 粗提取训练网络总共迭代次数为200000 次, 精细提取网络迭代次数为100000 次。

3.3 实验结果

我们用ICDAR2011 公开数据集作为测试数据, 该数据及总共有229 张图像用于训练, 255 张图像用于测试, 在测试集中总共有1189 个待检测词条。图片的大小变化范围很大, 从最小的307*39到最大的1280*960。在最终的测试集中评测精度达到0.88, 词条召回率为0.79, F-measure最终为0.84, 超越了之前基于单字符检测的方法。并且整个系统的运行时间为1.3s。图1 为检测结果图, 从结果中可以看出, 该方法, (1) 有效地利用了更高层的文本序列信息作为监督, 提高了方法的鲁棒性。 (2) 高效的利用了重叠区域的计算资源。利用全卷积网络保留了特征的位置信息。 (3) 解决了在文本检测中的多语言多方向问题, 减少了人为的干预以及启发式参数的设定, 同时省去了复杂的后处理。

4 结论

基于全卷积深度学习网络的方法有效的利用了文本的纹理信息, 并且本文针对该任务的特殊性提出了两种网络内的特征融合方法, 以及文本行的检测使得我们的方法不需要任何后处理, 极大的简化的检测方法, 提高运行效率。

摘要:传统的基于单字符提取的文本检测方法已经无法适应多姿态的、多方向的文本检测任务。本文提出一种两层级联式的基于全卷积网络提取文本行的方法, 不仅充分节省了重叠区域之间的计算资源, 而且利用了文本更高层的序列表征作为监督信息。在公开的文本检测数据库中证明了该方法的有效性

关键词:深度学习,全卷积神经网络,场景文本检测,级联

参考文献

[1]晓青, 郭繁夏.中文OCR技术最新进展[J].电子出版, 1995, 12:18-19.

[2]卢.基于分层检测与空间上下文的自然场景英文文本定位方法研究[D].厦门:厦门大学, 2012.

[3]Long J, Shelhamer E, Darrell T.Fully convolutional networks for semantic segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2015:3431-3440.

网络文本 第5篇

一、作为大众文化的一种

那么,网络游戏究竟是一种怎样的文化呢?对于文化,传统的文化观认为。它是指“智慧、精神和美学的一个总的发展过程”。根据这种“理想的”定义理解,“文化是人类完善的一种状态或过程”。当下人们通常对这类在人类历史进程中沉淀下来的文化精华和记忆,视为是“严肃文化”、“高雅文化”或者“精英文化”。而英国著名文化学者雷蒙•威廉斯说:“(文化)是某种特定的生活方式,无论它是一个民族的,还是一个时期的,或者是一个群体的。”在此,他把“文化”与“生活方式”画上了等号,从这一理解出发,文化分析也就成了是阐明一种特殊生活方式、一种特殊文化隐含或呈现的意义或价值。网络游戏,作为新媒介技术所带来的新的生活方式,从整体上来说并不能给我们提供任何意义上的“完美”或“永恒”,它只是这个日益繁荣的网络时代流行的一种文化现象,是我们在日常生活中寻找快乐的生活策略。

理清文化的范畴,目的在于通过这种理解更好地对其进行相应的文化分析与实践,而事实上,今天对一种文化的性质进行适当的介定已相当困难,当购物中心、酒吧、夜总会响起贝多芬的交响乐时,当于丹把“论语”搬上电视荧屏时,当威廉•莎士比亚的戏剧在普通剧院的舞台上演时,当今我们已不能十分明确地区别高雅文化与通俗文化、精英文化与大众文化的界限。因此,如果一定要对网络游戏作一文化的归类与界定,在避免意识形态与道德论断的基础上,我们可以将它视为是一种新媒介的、普遍的大众性文化,是利用网络创作与操作互动而发展起来的主要流行于青少年上网人群中的“大众文化”。

雷蒙•威廉斯在1976年出版的《关键词》巾认为大众文化有四个主要的特征:首先是“许多人都喜欢的文化”,其次是“难登大雅之堂的文化”,再次是“有意迎合大众口味的文化”。最后是“实际上它是大众自己创作的文化”。从这个层面理解,大众文化是一个复杂的文化复合体,它直接产生于大众的日常生活实践和文化环境,并广泛地摄取其他文化领域的文化元素而由大众参与创造的文化。当代中同学者王一川也在比较综合的基础上给大众文化下了一个简要的操作性定义:“大众文化是以大众传播媒介(机械媒介和电子媒介)为手段,按商品市场规律去运作的。旨在使大量普通市民获得感性愉悦的日常文化形态。”

同时,网络游戏作为利用网络媒介进行快乐和休闲的日常娱乐活动,这种网络时代的大众流行文化现象,无论从游戏的生产者或是欣赏操作者来看。都与其他当下的流行文化一样,其中的精英、经典、大众、粗俗元素兼容并蓄、并行不悖。这种融汇和拼贴,使大众文化的普适性和流行性得到增强,也正是因为这一普适性,也使它在文化市场与商业经济中畅通无阻。但事实是。“大众文化”并非只是粗野简俗,“精英文化”也未必就是高雅精致。众所周知,中国第一部诗歌总集《诗经》的“风”原是民谣俚曲,却成了后世的风雅之师;而曾一时受人推崇的宫廷诗歌、八股文章却成为历史文化的过客。

因此。网络游戏结合消费大众的需求而呈现出来的独特文化表现形式,不断地模糊着传统艺术的分类与雅俗文化的界限,挑战着现代性文化中的文学艺术观念,表现出其作为新媒介文化独特的文本叙述风格。

二、游戏的网络叙事

任何一种文化艺术的表现形式都与其载体有着密不可分的关系,犹如文字之于纸张,影视文化之于荧屏。

传统的文本叙事严格地区分作者(创作者)、文本和读者(接受者)三者间的关系,其中作者提供完整的叙事文本——报刊书籍、广播、电影电视,而读者、听众和观众则被看做是信息的被动接受者。直到网络的兴起,在一定程度上实现了媒介受众从单纯被动的接受者转变为文本叙事过程中的积极参与者,在此,网络游戏制作者只提供了文本叙事的可能性,叙事文本需要在玩家参与的过程中去完成,因而玩家在某种意义上也就成了作品的“创作者”。这种叙事方式颠覆了传统的媒介叙事,是一种互动的超文本叙事方式。

网络游戏里讲述的故事一开始就要求游戏者积极地参与,共同完成故事的开始、发展、高潮、结尾。这种参与不仅要求心智的参与,也要求身体的参与。因为它与其他叙事的最大区别在于:这是一种交互叙事。游戏制作者与游戏者共同进行了叙事行为,而且这是一种地道的个人叙事,不同的游戏者讲述的故事版本是不同的——这并不是我们经常说的“有一千个读者就有一千个哈姆雷特”。

在这个示意图中(表1),圆圈代表一些场景,表示如果游戏者到达这个场景时,将会有一件事情发生,这些是由游戏制作者设定的;箭头代表玩家的游戏过程,他必须由一个场景进入另一个场景,完成某一行为之后进入另一个场景。我们可以简单地认定,圆圈表示游戏设计者,箭头表示游戏者,网络游戏的叙事就在这种互动过程中依次展开。

这种互动叙事的技术基础是由游戏引擎控制的,它决定了对游戏目标、游戏规则、角色以及角色任务的控制。然后通过电脑的输入系统、虚拟模型和输出系统展开游戏——游戏叙事由此开始。这种由玩家通过键盘和鼠标与所扮演角色展开的互动,带来的是许多在传统单向灌输式文化中所不能感受到的快感,包括高度的权力欲、暴力欲等一些在现实中无法实现的欲望。

在网络游戏叙事中,当玩家沿着加粗的线索进行游戏时,游戏会将故事限定在一定的范围内,有的会对不同路径给予不同的回报和奖励,或是设定不同的难度来限定游戏的故事链,这为游戏的叙事提供了多样性。在这个多样性的任务流程中,游戏者在一个人物失败后。不一定会导致游戏的立即结束,而是有可能被导向另一个游戏分支,遭遇不同的战场形势和情节发展。

另一方面,当游戏者选中地图上的某一路径或场景中的某一线索时,其他路径和线索便不在场,对它们的探寻就相应地延缓了下来。这样,游戏的地图结构就成为无限开放的并且是物理上存在的“意指链”,从而创造新的文本空间,并在这文本空间上又创造游戏的无限空间,玩家就有可能会以令人惊讶的痴迷态度去重复玩某一个游戏。如在《三国策OLINE》中玩家进入游戏后,将与另七个玩家选择在一个地图上进行随机的君主,随机安排的城镇,随机出现的将领,使玩家的每一次作战的呈现都完全不同,这让玩家在同一张地图上重复无数次的游戏而不会感到厌烦。

网络文本 第6篇

关键词: 超文本网络技术    高职韩语翻译课程    教学运用

一、引言

伴随信息技术的发展,人类文明进入第三个时期,即超文本化时期(ong  1982)。超文本能够跨越时空,创建和建立两者所没有的表达传递储蓄翻译信息的方法。超文本化时代的到来,为高职高专教育发展带来了新的机遇。目前,高职韩语翻译课程作为高职高专应用韩语专业大三上学期的专业核心课程,着重学生翻译能力、翻译思维的培养。超文本网络技术具有资源共享性、时空广延性、多向互动性、学习协作性、自主选择性等特点。笔者认为,在这种情形下,将超文本网络技术运用到高职韩语课程教学,可以改革现有教学模式,辅助教学,整合资源,全方位培养学生的翻译能力,拓宽翻译思维能力,对现今的高职高专翻译教学具有重要的意义。

二、超文本网络技术的概念

随着科技文化的发展,人类正步入超文本化时期,这一时期是以20世纪90年代后的多媒体网络技术等“超媒体”的发展为物质基础的(胡壮麟,2004a)。超文本(hypertext)一词于1965年由美国人泰得·纳尔逊(TedNelson)首先提出,他将一种利用计算机技术把相关文本组织在一起的方法命名为“超文本(hypertext)”,超文本是一种将信息以非线性的网状结构进行存储、组织、管理和浏览的计算机技术。它包含结点(Node)、链(Link)和网络(Network)三个基本要素,并以结点为单位组织信息,在结点与结点之间通过表示它们之间关系的链加以连接,构成表达特定内容的信息网络。我们所说的超文本技术将自然语言文本和计算机交互式转移和动态显示线性文本的能力用超链接结合,在文档内部和文档间建立非线性的网状结构,使读者在阅读时可以根据所需,超链接到指定位置,同时它可以帮助我们在学生外语时利用联想式查询能力,快速找到自己所需的内容和背景知识。

三、高职韩语翻译教学的超文本网络技术运用

高职高专韩语翻译作为一门综合性的课程,不仅要求学生能够熟练掌握中韩双语技巧,还要求学生熟悉双语文化背景,熟知翻译职业素养,拥有一定的韩语思维能力和熟练掌握、自如转化传输两种语言的翻译实践能力。

高职韩语翻译教学存在困难,高职韩语翻译教学属于非通用语教学,存在韩语翻译教学教学时间短,缺乏实际场景缺乏教学资源等问题。超文本网络技术的发展在一定程度上弥补了这一不足,将超文本网络技术引入翻译教学,将大大拓展翻译教学的发展空间。其特有的网状链接方式和强大的搜索引擎功能,有以下优势:(1)教师和学生提供超出课堂和书本的广阔资源;(2)有效地培养学生利用网络工具辅助翻译的能力;(3)有利于提高学生学习兴趣和学习能力。超文本网络技术深入韩语翻译教学中,可以照顾到差异化学习,在超文本环境下,人的感官可以得到最大限度的开发,找到自己的结合点,从而帮助学习者认识世界、获取知识;(4)有利于翻译教学的拓展。

超文本网络技术对高职韩语翻译教学的辅助运用,主要集中在以下几方面:

(一)优化外部教学环境

传统韩语翻译教学以教师为主依照教材进行讲解,教学环境单一,学生无从体会翻译现场真实情景,教学效果不尽如人意,在一定程度上挫伤学生学习的积极性,不符合高职高专培养高技能人才的培养目标。超文本技术应用于高职韩语翻译教学,多媒体网络技术的多重感官刺激功能,超文本资料及三维图像和声音的感触(如电子报纸、韩剧视频、重大活动翻译现场音频资料,等等),为学习者提供逼真大量的真实韩语资源,优化教学环境,对教学效果的推动是之前的教学手段无法实现的。

在硬件环境方面,高职院校利用网络设施,全面开通(实训中心﹑教师办公室﹑学生宿舍)校园网,教师利用超文本网络手段等丰富课堂,开发特色立体教材,创建翻译教学数据化平台,实现教师和学生、学校和企业线下线上互动协作的翻译教学模式,转变传统课堂中心模式,将课堂教学和课外辅导结合,将学习与实训实习挂钩,使教师的指导作用通过网络延伸,学生的自主学习活动纵观整个学习阶段。

(二)辅助教学模式方面

在以往的教学模式中,单纯是翻译理论和翻译技巧的简单讲解。而今,仅仅依靠某一本教材或介绍某一种理论和技巧,已经无法满足新时期学生理论学习的要求,而超文本网络技术的引人则迅速有效地解决这一难题。目前,超文本网络手段应用教学过程,对教学模式的改革起到促进作用,其指导作用贯穿整个教学过程中。超文本网络技术将网络教学模式介入韩语翻译课堂教学,意义重大。具体体现为:

1.课前准备方面

翻译课或课程实训之前,教师根据本节主题,网上下载搜集各种韩语资源,整理资料,将先期电子资料(包括超文本文档及各种音频、视频、动画资料等)先行通过网络手段和工具(网络翻译平台、QQ、MSN及微信翻译群)与学生共享,让学生提前了解本课的学习任务,熟悉相关翻译背景和翻译素养知识,以便迅速导入课堂教学。作为课前准备,教师可以根据本堂课主题,搜集整理相关翻译资源(如朝鲜日报、各种韩语网站、韩语翻译音像资料,等等),结合教材制作个性化的教学课件,使得学生克服时空和疆域的限制,将语言学习置于色彩声音影像等综合环境中,创造逼真的韩语习得环境,增强学生的求知欲。比如在讲解“致辞”这一主题时,我及时搜集到李明博和朴槿惠“ ”的中韩文语料,对其加以修改并配以朴槿惠总统就职宣誓时的演讲视频,以及结合朴槿惠总统在清华大学的演讲词精华部分编辑制作了多媒体课件,应用到翻译课堂教学中,指导学生翻译,取得很好的教学效果。这些演讲词的翻译训练,使学生接触到鲜活的翻译资料,体验到真实的翻译场景,可见超文本网络技术的引入,不仅有效地训练了学生的翻译能力,激发了学生的学习兴趣,还使翻译教学真正做到资源更新与时俱进,授课内容与社会发展同步。

2.课堂教学过程

超文本网络技术的发展,很大程度上丰富了课堂教学。目前国内网络技术跟翻译教学的结合运用越来越多,利用网络手段对高职韩语翻译课实践教学模式的探讨,有利于提升学生的翻译层次,拓展其翻译和自我学习的能力,为学生的未来职业发展奠定良好的基础。高职韩语翻译教学要求学生不仅要掌握翻译理论知识,还要将其灵活运用于社会交际,准确实现语意传达,关键要有较强的实践翻译能力和社交能力。在实际教学中,采用项目教学法,将授课内容划分成具体的工作任务,组织学生分组翻译模拟。同时利用网络技术和电子工具辅助教学,实现翻译课堂多元化延伸,使学生的自主学习活动纵观整个学习阶段。

超文本网络技术对于韩语翻译课堂的优化,主要体现在运用网络手段、工具对课堂教学的辅助,具体如下:(1)网络电子邮件(E-mail)。用于较复杂译文情况,学生通过电子邮件下载练习文章,给教师发送和上传自己的译文,与实习学生联系交流。(2)翻译群(QQ和MSN和微信)。多采用QQ和MSN微信创建共同翻译群,用于课堂教学翻译过程,方便教师指导及师生讨论,方便发起群聊,探讨翻译问题和技巧,指导实习学生的实习。例如对“”这个词的释疑,鉴于时间有限,教师可以在完成课堂段落的翻译后,在翻译群上传这个词的其他意义,以供同学参考及课下思考。(3)词典、电子辞典,用于翻译过程查找疑难。由于高职学生自身的时间短、学习水平较低,决定学生单凭课堂的学习和教师指导无法自如地完成所有的翻译任务,为拓展学生的翻译能力,高职韩语翻译授课和学习过程中可以采取由教师提供或学生自己购买韩汉辞典和电子辞典“nurian”使用,以查找词汇和听取口译内容。(4)网络检索技术(搜索引擎、在线电子词典、在线翻译软件、博客、论坛)。搜索引擎是一种检索、报道和存储网络信息资源的检索工具。强大的搜索引擎为翻译学习者提供海量的信息,使学生迅速高效地检索和获取网上的专业信息,使得专业术语的翻译对学生来说不再是难事。在韩语翻译课程上,培养学生基本的信息搜索技巧和方法,利用搜索引擎帮助翻译及校改译文。教师还提供常用在线电子词典网址www.Naver.com、韩国百度http://www.daum.net的辞典网页搜索词语的解释。输入韩文搜索,会有详细的韩文词源说明,帮助理解真实含义。韩语思维能力不强,韩语背景知识匮乏是高职韩语翻译教学的关键。网络搜索引擎有助于了解背景信息,帮助学生拓展课堂学习,提高翻译能力。

例如:

本段译文几乎没有什么疑难表达,但学生在翻译时仍往往望文生义,将“ ”直译为”绿色生长”,让讲述经济的整个文章的语义有点不知所谓。经我指导,学生学习利用超文本网络技术,使用搜索引擎辅助翻译。通过检索、查询,学生很快了解上述单词的正确译法“绿色增长”,很快地完成翻译任务,顺利给出译文:

世界华商论坛于2006年9月首次在中国举行,目的是通过世界华商促进经济交流,此后每年举行1次。今年在韩国举行的活动主题为“绿色增长”。周生贤将以“低碳绿色增长”为主题,于15日进行主旨演讲。而尹锡金和LG电子副总裁南镛将在讨论“绿色增长环境、能源”问题的第1次会议上,进行主题发言。韩亚金融集团总裁金胜猷将就“绿色金融”进行主题发言。

由此,超文本网络技术对于课堂教学的辅助性作用可见一斑。(5)翻译数据化平台。高职韩语翻译课程的定位面向了市场,注重技能,其独特性决定了开发职业语料库建立网络数据化平台的必要性,这部分是今后超文本网络技术应用于韩语翻译教学的重点。日常教学考核依托平台展开,还可依托翻译数据平台对学生完成翻译的隐性素养知识如职业道德、职业作风﹑职业态度等的输送(如翻译礼仪、翻译餐桌就餐礼仪和技巧)等。

3.评价机制方面

大多数高职院校韩语翻译教学,采用传统总结性评价方式,无法调动学生的学习积极性。超文本网络技术引入高职韩语翻译课程的评价机制,建立起多层次多维度科学体系的评价机制,有助于肯定学生个性化差异化学习,调动学习积极性。超文本网络技术对课程评价机制的改革主要体现在两点:(1)评价机制多样化,有目标评价机制,即教师根据教学大纲和人才培养目标制定标准;教学过程评价机制,即教学过程与评价紧密结合,成为教学环节中不可缺少的一部分。在整个教学过程中,教师跟踪、监督、检查、指导督促目标实现,将过程评价纳入结果评价中,如摒弃传统纸面试卷的形式,在翻译平台,从翻译题库抽取考试试卷,即时考试,线上交卷,公开评卷。师生共同评价机制,即翻译过程中,师生共同参与、讨论评定,有利于提高学生的参与积极性。(2)校企合作单位及时对实习学生反馈评价,有助于实现师生及校企合作单位的立体互动,评价及时,发现问题,弥补缺陷,确保教学效果。超文本网络技术的辅助,有助于采用多元化考核制度,重视学生的学习能力差异,将教学和实践紧密地结合起来。

现代信息技术发展迅速,网络多媒体手段介入高职韩语翻译教学,改革现行的培养教学模式,转换教师和学生角色,全方位地培养学生的翻译能力,有助于新形势下企校对接机制下高职韩语翻译人才的培养目标的实现。

四、结语

对于高职韩语翻译教学,超文本网络技术只是辅助,是工具,培养高素质高技能的高职韩语翻译人才的关键是教师师资队伍翻译教学水平的提高。因此,对于超文本网络技术的运用,我们需要注意以下几个方面的问题,即杜绝对超文本网络技术的过于依赖,教师加强课堂监管提高职业素养,教师提高信息技术素养和教育技术水平,学校加强对网络技术教学的指导建设,培养具备网络技能的高素质高水平的教师队伍才是高职韩语翻译课程提升的关键。

参考文献:

[1]郭蕾.高专韩语翻译教学[J].天津市经理学院学报,2014(2).

[2]王慧君.讨论式教学法在韩语翻译课中的实践[J].开封教育学院学报,2014(10).

[3]王雪梅,徐璐.国际化复语型人才的内涵与培养模式探索[J].外语与外语教学,2011(1).

[4]王静.网络环境下任务型口译教学模式的设计与实践[J].外语电化教学,2010(5).

[5]文钟哲,金顺姐.韩语专业人才社会需求分析及培养目标设计[J].国际问题研究,2006(1).

[6]杨柳.信息化翻译教学的图景[J].外语与外语教学,2005(11).

网络文化语境中的电视文本理论探析 第7篇

一、网络文化语境简述

(一) 网络文化的产生是基于互联网技术在我国的风靡, 以及电脑的普及, 网络用户覆盖面越来越大, 参与用户疯涨, 又因互联网的虚拟性、高自由度等特点, 使互联网成为了一个拥有巨大消费人群的消费市场, 从而造成了社会生活的各个方面鱼贯而入, 互联网因此成为一个前所未有的社会百相大熔炉。网络文化语境就此产生, 并借其高速传播性和扩张性, 迅速成为社会文化的主流影响因素。

(二) 网络文化语境的特点具有年轻化, 简洁化, 个性化等。网络文化作为一种新的媒体技术, 其接收人群主要是年轻一代, 因而网络文化语境主要反映的是年轻人一代的思想和特征, 网络文化语境呈现年轻化;其次, 高速、快捷是网络文化传播的首要特征, 为适应这一要求, 网络文化语境往往需要以最简洁的词汇加以表达, 甚至以象声词或简洁的比喻等加以代替, 如“高富帅”、“白富美”等等高度概括性的表达;最后, 网络文化的语境表达也反映了年轻一代追求个性、自我的时代特征, 呈现出百花齐放, 各显异彩的景象。

(三) 网络文化的发展趋势呈现出不断扩展, 占领主导地位, 从而影响社会文化的特征。网络文化已经深入到社会生活的各个方面, 传统大众媒体也无法真正排除网络文化的影响, 独立发展, 反而是以积极地吸收网络文化, 适应消费趋势的模式, 促进传统媒体与网络文化的融合, 电视文化中对网络文化的吸收和借鉴就是一个典型的例子。

二、电视文本特点

(一) 文本是指在传播过程中所必须的相应符号及符码所组成的表义结构, 而电视文本就是一个与电视层面相结合的符码网络, 并以一定的形式加以交换和传播。简单而言, 电视文本就是电视媒体所要传达的思想内容的符号载体。电视受众可以通过电视文本获取、接收和吸收文本内容, 同时也可以参与其中, 对文本加以自身的解读和注释, 从而对电视文本进行再创造。

(二) 著名媒体研究学者费斯克提出电视文本应当为生产者式的文本, 其主要特点是开放性和书写性。具体而言, 生产者式的电视文本是指读者可以参与到电视文本中去, 并能对电视文本做出丰富多样的理解, 电视文本应当是一个相对开放的文本, 读者有其适当的阅读空间, 对文本进行创新解读, 附以新的文本结构, 新的意义;同时, 生产者式的文本可以通过文本的通俗性, 实现读者有利于自身的解读方式, 从而电视文本作为电视文化的媒介实现与受众的互动和交流, 避免传统大众传媒中传播方封闭的文本阻断读者思想交换的情形, 实现电视文本传播中读者占买方市场的目的。

三、网络文化语境下电视文本的变化及表现

(一) 通过网络视频观看电视节目的人群越来越大, 通过电视收看的人群日益萎缩。这种观看方式的转移不是传统电视媒体的衰退, 相反, 网络电视的观看方式, 反而促进了电视媒体的发展和繁荣。因为这只是一种电视媒体摄取途径的改变, 网络中议题的根本来源仍然是电视, 而网络文化越是发达, 对电视的议论越是激烈和广泛, 越能够促进电视的发展;另一方面, 网络中对电视的评价和聚焦都会对电视文本产生重大影响, 这是一种电视受众对电视文本的良好回馈, 反映了电视文本生产者式的特点, 同时也因网络中的评论及建议, 以网络文化语境的形式对电视文本产生影响。

(二) 网络文化语境对电视文本的具体影响, 具体从电视节目的不同形式分析。首先, 电视剧是电视文本的主要表现之一, 也是网络对电视文化影响最为深刻的一个方面, 网络文化对电视文本的影响主要通过电视剧文本变现出来。如近年来电视热播的一些青春偶像剧或青春励志剧, 此类以年轻人为主要受众的电视文本, 必然需要适应青年一代的口味, 针对其对网络文化的高度依赖性和接受度, 电视文本则必须结合网络文化的特征予以书写, 同时在文本中也大量运用到网络文化语境。其次, 网络文化语境对电视节目的影响也愈加深刻, 如果说对电视剧的影响是通过文本内容中涉及的间接应用, 电视节目则是对网络文化的直接应用, 尤其是电视娱乐节目, 网络文化的语境逐渐成为电视娱乐节目所必备的技巧和武器, 甚至许多电视节目直接将网络文化语境中的某些部分作为其节目内容加以利用, 电视受众同时也以网络媒体的方式予以反馈, 双方的互动和交流, 一定程度上更加剧了网络文化语境对电视文本的影响。

四、网络文化语境下电视文本的几个层次

网络文化语境下电视文本的分层主要是从电视文本的由产生到传播, 再到受众接受的过程予以划分, 根据费斯克对电视文本的划分, 主要分为三个层次, 即初级、次级和三级文本:

(一) 初级电视文本是电视文本的生成阶段, 它指的是电视文本中所反映的电视内容, 是原始的电视文本创作。

(二) 次级电视文本是经过电视媒体的初级解读, 将电视文本以一种解读方式对电视文本的宣传, 不仅是对电视文本内容的宣传, 还可以通过音乐、杂志、评论等多种形式, 对电视文本的初级解读。

(三) 三级文本是电视文本到达其受众后, 由电视受众从不同角度, 不同方面的理解和解读, 是后期的, 也是终极的文本。

参考文献

[1]汪振城.电视文本的特性——约翰·菲斯克电视文本理论解读[J].文艺争鸣, 2007, (5) .

[2]杨成功.网络文化语境中的电视文本理论探析[J].文艺生活, 2012, (1) .

网络文本 第8篇

中文文本分类还处于在试验研究阶段, 正在逐渐向商业化的软件应用靠拢, 并已经尝试开发了一批自动分类系统, 如何找到合理的应用并且在实践中逐步改善算法, 提高性能成为文本分类算法的当务之急。目前国内外常用的文本分类方法基于文本内容的相似度对文本进行分类。网络内容分类系统大都是基于平面的分类, 即多采用基于词或词串信息的动态聚类方法和基于特征属性的分类技术来实现, 挖掘深度不够, 执行速度慢, 聚类的准确度较低。

为了克服现有技术的不足, 该发明提供一种基于模糊聚类的网络文本数据检测方法, 能够提高网络安全审计中对于文本分类的精度与可靠性, 改善网络内容中目标文本的获得取效率, 实现网络内容的智能检索。

该发明所采用的技术方案是:首先对提取的网络内容进行预处理;其次, 对需要聚类的预处理后网络内容进行特征提取;然后, 对网络内容进行取类, 设定初始聚类数。在聚类过程中, 一个聚类数对应一个隶属度矩阵, 每个隶属度矩阵都有一个平均信息熵值, 平均信息熵基于密度函数选择初始聚类中心, 算法迭代过程中修改聚类数, 当平均信息熵达到最小值时, 所对应的聚类数为最佳聚类数。最后, 将聚类结果返回给用户。

本发明具体包括以下步骤:

(1) 网络内容预处理:如果以原始的网络内容作为特征向量提取的对象, 那么, 网络内容的特征向量维数会相当大, 因此, 必须进行降维的处理。降维的方法采用特征抽取方式, 首先对原始的网络文本进行分词, 然后, 计算每个词出现的频率, 删除所有出现频率超过10的功能词, 从而降低网络内容特征提取时所获取特征向量的维度。由于特征向量维数降低, 不但能加快聚类算法计算的速度, 而且还能提高分类结果的精度和避免重复匹配问题。

(2) 网络内容特征提取:应用向量空间模型作为网络内容特征的表示方法。在该模型中, 网络内容空间被看作是由一组正交词条向量所组成的向量空间。所述的词条向量是指将每次捕获到网络流的网络内容作为一篇网络内容文档, 经过步骤 (1) 的网络内容预处理后, 将网络内容文档中的词条项在整个网络文档中出现的频次作为该词条项的权重, 将所有的词条项以及词条项所占的权重作为网络内容空间的一个特征向量。词条向量表示为V (d) = (ti, wi (d) ;i=1, 2, , n) , 其中, n表示降维和分词后整个网络文档的词条数目, d表示此网络文档, ti为词条项, wi (d) 为词条在此网络内容文档中所占的权重, 被定义为ti在d中出现的频率。

(3) 模糊聚类:现有技术的模糊聚类方法存在对孤立点数据比较敏感, 须预先指定聚类数目和模糊加权指数的缺陷。为降低孤立点对聚类结果的影响, 本发明对数据对象的隶属度增加一个权值, 使隶属度的值高的数据对象对聚类中心位置的影响增大, 隶属度小的数据对象降低它们对聚类中心的影响。

(4) 聚类结果输出。将聚类结果返回给用户, 聚类结果包括聚类中心的数目以及聚类中心。

该发明的效果是:在性能良好的网络内容特征提取技术、基于密度函数获取初始聚类中心技术、优化的隶属度计算技术以及聚类数的评判标准确定技术的基础上研发。与已有的相应技术相比, 该技术具有智能聚类效果, 并且可以根据应用的不同, 调整聚类的精度, 兼顾聚类的速度。

联系人:赵安军

地址:陕西省西安市科技路30号合力紫郡大厦B-2001室

网络文本 第9篇

关键词:分散抵抗,网络集群,跟帖,微博

2010年10月16日晚,一辆黑色轿车在河北大学校园内撞倒两名女生,造成一死一伤。肇事司机被群众截住后,非但不关心伤者,反而口出狂言:“有本领你们告去,我爸是李刚”。经查,该男子的父亲是事发地河北保定某公安分局副局长李刚。该事件迅速引发了巨大的民意反弹,成为了又一个舆论“引爆点”。值得注意的是,和以往的一些网络事件标本,比如“躲猫猫”、“钓鱼执法”所不同的是,网民的关注重心似乎并非事件本身,而是围绕着“我爸是李刚”这句年度流行语,尽情地发挥想象,用游戏、漫画、竞赛等兼具娱乐性的形式抒发着自己在公共事件中的立场。这种意见的抒发象征着网民群体表达方式的创新,代表着网络言论间接性、隐匿性的一面,是一种对于强势权利的抵抗。这种社会转型期特有的抵抗,因其仅仅存在于赛博空间,而容易为人所忽视。探究这种抵抗的形式、原因和意义,有利于更全面地了解大陆互联网生态,从而以更有效的规制维护和谐稳定的网络秩序。

一、网络分散抵抗的主要表现形式

耶鲁大学教授詹姆斯斯科特的理论符合分散抵抗的一般特点。在其代表作《弱者的武器》中,斯科特考察了马来西亚一个村庄中农民的日常行为,总结出了他们对于各种权力集团的持续不断的反抗形式,“包括行动拖沓、假装糊涂、虚假顺从、小偷小摸、装傻卖呆、诽谤、纵火、破坏等。”他认为,这种暗线抵抗“几乎不需要协调或计划,它们通常表现为一种个体的自助形式,避免直接的、象征性地与官方或精英制定的规则相对抗。”[1]所以,社会学家蒂利总结说,斯科特“研究的多数暴力属于分散攻击。”[2]

随着互联网的发展,一种新型的分散抵抗正在悄悄崛起。这种抵抗有两个突出特点:一是以网络为阵地,往往由地理上分散的若干个体率先表达对于公共事件的意见,经由转载等方式,吸引更多素不相识的网民的注意,从而形成对于事件的全包围型关注。二是这种意见表达类似于斯科特笔下农民的反抗,避免了与官方的正面抗衡,是间接的、隐晦的,承载了较多的含蓄意指。在“我爸是李刚”事件中,网民们就采用了多种低姿态的抵抗形式,来表达自己对于社会现状的关注。

(一)引申和重构词汇的意义

李刚事件爆发后,网络上呼声最高的莫过于“我爸是李刚”造句大赛。该比赛一经猫扑网友推广便风靡各大论坛。短短数日内,网络上涌现出“36万多条造句,唐诗、宋词、流行歌曲乃至广告语,无一不被网友们改成李刚版’,众怒引发的创造力,令人惊叹。”[3]

网友对于各种固定语句的改写,是一种文本的再创造。比如被收录进造句精选集中的“假如生活欺骗了你,不要悲伤,我爸是李刚。”将普希金诗句中昂扬向上的乐观态度,置换成荒诞的语义转折。诗歌原有的优雅韵律不见了,代之以直白、残酷的事实呈现。在此,“我爸是李刚”已从一句普通的、不带任何情感色彩的陈述句升级为无耻蛮横的官员权力的化身。正如天涯社区管理员所言:“网民以插科打诨、打擦边球的方式围观,以一种娱乐犬儒化的姿态,表达了对个人权利得不到保护的高度关注。”[4]

(二)设立与更新在线词条

作为Web2.0的成员,以维基百科为代表的在线百科全书网站完全由网友志愿发布和编辑,对应着一种新的“礼品经济”[5]的崛起,是互联网向免费模式进军的重要步骤。自传入中国以来,网友们以极大的热情投入到了词条的编写中。往往一个事件发生不久,有关它的词条已经被挂到了网上,随着事件的进展,还会有更多的内容得到补充和修正。

本次事件也不例外。车祸发生后,维基百科中立即出现了“河北大学10.16交通肇事案”的解释,互动百科中出现了“炫父”与“河大校长抄袭门”等词条,百度百科则出现了“我爸是李刚”词条,甚至词条“李刚”都添加了“李启铭的父亲”这一解释。

截至十月底,也就是事件发生半个月后,百度百科词条“我爸是李刚”已被不同的网友编辑68次,超过15000人次表示了“支持”。互动百科词条“炫父”更是在同样的时间内获得了178886次点击量,登上2010年10月互联网十大热词榜的第二位。[6]地域上散布的网络用户间,由于对真相共同的价值追求而“形成一个自组织的社区。”[7]他们发布的信息与官方既有冲突,也有共识,提供了一种不同于官方通稿的草根智慧。从这种意义上说,各种百科的创建和更新是在用自立概念的方式抵抗官方的一元化说辞。

(三)结合漫画影音等手段

李刚事件中,分散抵抗的媒介已经不仅仅局限于文字上的戏谑,更是结合了多媒体手段,鲜明、直观,给人以更强烈的感官刺激。

最引人注目的是网络歌曲《我爸是李刚我叫小霸王》的发布。作者采用歪唱的形式,正话反说,将事件通过歌词完整呈现。22日在各大论坛走红后,《我爸是李刚》因其超高人气,入选2010年网络十大神曲。[8]

上传事件相关视频也成为一大潮流。2010年11月1日,在百度搜索“我爸是李刚”,可以得到2000多个视频结果。土豆网的视频虽然经过一定的删减,依然保留了近八百个相关结果,除了新闻类的视频外,原创视频的数量超过一百,内容包括“北京欢迎你”版、“海贼王”版甚至美剧版《我爸是李刚》的搞笑MV。

攻击性较小的戏谑文本还在向购物网站蔓延。在淘宝搜索该词条,可以获得500多种不同的商品结果,包括“我爸是李刚”的T恤、车贴、马克杯等。这些商品上有的印制了造句大赛的经典诗句,有的将“我爸是李刚”和兔斯基等漫画人物相结合制成logo,表现形态五花八门。

(四)持续制造新的议程

We b2.0时代,议程设置的权力主体发生了一定程度的转换:从媒体到自媒体,从一个个垄断信息的集团到每一个发布信息的公众。“李刚门”事件中,网民持续制造着新的话题,使舆论热度长时间维持在较高的水平上。

2010年11月16日的百度指数显示,在“我爸是李刚”“横空出世”三天内,网民的关注度上升并不快,直到20日后才到达舆论爆炸点。在22日达到峰值后,网民的视线回落速度也较慢,没有出现垂直下跌,直到11月初360和QQ大战开始后,网民的关注才逐渐转移(图一)。再看平均关注度稍低的“李刚门”词条,在关注峰值后更是出现了一次明显反弹(图二)。原因除了风靡一时的造句大赛,也由于紧接着车祸这个核心事件,更多的附加事件被抖露了出来,加高了用户关注的峰值,延缓了事件淡出的速度:一是方舟子年初曝光河北大学校长王洪瑞的两部著作和博士论文为抄袭,10月22日,他又在微博上称,王曾经要求其删除有关“揭露”文章。二是10月23日,天涯论坛的网帖指出,经过人肉搜索发现,李刚和李启铭名下共有5套房产。这无疑形成了新的舆论风暴眼,集聚起网民更多的愤怒。这两条消息都是由网友而非正规媒体发布的,不论它们是事实还是谣言,它至少反映出一个现象:在义愤未平息之前,网民会利用一切可能手段制造新的议程,来弥补传统媒体的不作为,或者激化网络讨论的强度。

二、分散抵抗兴盛背后的推动力

近年来,因为某条新闻或某个帖子触发的公共事件层出不穷,这不仅意味着大陆互联网在微调中逐步开放,也暗示了它的嬗变与成长给予了分散抵抗新的契机。

(一)跟帖与段子文化

中国人含蓄中庸的民族性格孕育出了独特的段子文化:快书、相声、对联等都是由段子文本组成的。信息社会,当网民们将这种集体智慧运用于相对自由的网络,成就了网上跟帖和段子的兴盛。

跟帖文化的首倡者当属于门户网站网易。2003年底,网易的第一条跟帖在其办公室诞生。2008年底,网易在年终策划中正式提出了“无跟帖,不新闻”的口号,从此,跟帖作为一项网民的集体创造物,正式受到了网络媒体的重视。几年来,网易跟帖常现精彩之作,那些讥诮锋利,嬉笑怒骂又不与权威直接对抗的段子式跟帖最易受到大家的欢迎。原因一是网民出于自身安全和前途的考量,往往不敢冒直接对抗官方言论的风险,而倾向于采取旁敲侧击的方式。二是对抗性强的帖子存活率较低,往往突破不了网络把关人的筛选和过滤。就网易跟帖来说,虽然网友可以就新闻事件自由发表言论,但是管理员始终控制着跟帖的发布,决定哪些条目可以被显示。“特别是对于涉及到公共权力部门的实践作为报道对象的新闻话题,网民参与讨论的积极性与其实现网络表达的公开性、自主性之间存在较大的反差”[9]。三是有一定趣味性艺术性的言论本身就容易引起人的注意,激发人的创作热情,所以网易跟帖多次出现精彩的“盖楼”现象:后来的网友不断地引用之前网友的发言,或是改写或是批判,在视觉上形成了一排高高的跟帖大楼。

(二)不断壮大的即时平台

2008年以来,各类公共事件不断激起舆论的轩然大波,微博的出现和近乎病毒式的传播功不可没。比如2010年下半年发生的方舟子遇袭事件、宜黄拆迁事件等,均得益于微博平台上的信息接力才成为传统媒体报道的焦点。

作为即时信息交流平台,微博鼓励用户发表看法,相互争论。在微博出现之前,人们如果要发表独立的见解,往往依赖于博客。由于博客的书写不是一两分钟就能完成的,需要作者的构思和修改,所以哪怕想法再多,坚持每天更新博客的人还是极少数。微博时代,一篇微博就是一个几十个汉字组成的段子,不需要经过周密的逻辑推演就能够发布。理性也好冲动也好,网友可以更方便地对每时每刻的新鲜事发表评论,当他们想要表达不满的时候,也就有了更大的勇气。更重要的是,由于信息更新和转发速度极快,网友们可以用最短的时间、最低的成本在线上集结起来,形成临时的意见流。由于这种集结是完全自发的,当用户不想再涉足其中时,可以随时随地退出讨论,这给予了用户极大的自由度。

(三)手机上网功能的普及和完善

分散抵抗局面之所以形成气候,技术的进步不可小觑。最显著的进步即手机上网功能的完善。目前,很多智能机都配备了界面友好的上网浏览器,一些微博和SNS社区还有专门的客户端,保证了用户随时随地可以浏览和发布信息。

具有LBS (Location Based Services),即基于位置的服务的网站异军突起,也促进了手机上网用户的增加。2009年3月,第一个LBS网站Fours quare在美国上线,截至2010年8月用户已超300万,增长势头比当年的Twitter还要强劲。2010年5月,模仿Foursquare的街旁网成立,将“地点”这一新维度引入大陆社交网络。用户使用有GPS移动定位服务的手机进行“签到”时,能在发布状态的同时,显示自己当时所处的地理位置。虽然LBS在大陆还处于试水阶段,但随着它的走俏,更多的人将习惯于通过手机发布所思所想。在种种外在条件的刺激下,调查机构尼尔森的数据显示,“目前中国有38%的手机用户使用手机上网,占4.2亿网民总数的65.9%。”[10]未来十年,上网资费将进一步下降,手机将成为更便捷的信息发布平台,使得网络言论更加波动多变,不受时间地点的限制。

三、分散抵抗的意义与危机

从上述事例可以看出,中国互联网的分散抵抗主要表现在两个层面:一是不经过事先的商议和群集,也没有固定的意见领袖,地理位置分散的网民通过加入讨论组的形式,临时组成温和的抵抗战线;二是发布的文本内容往往不直接抨击社会弊端,而是采用段子、歪唱、顶帖等攻击性较弱的手段。

分散抵抗的特点赋予了其独特的意义:首先,通过嘉年华式的表达,网民愤怒的情绪得到了暂时的缓解,公共参与愿望得到了满足,一部分网民得以静下心来更加理性地看待整个事件。其次,官方可以通过网民娱乐犬儒化的行动,了解到民意所向,从而适时地披露真相,调整议程,用疏导网络集群行为来避免现实中集群行为的出现。再者,分散抵抗本身就是在审查的夹缝中求生存的一种迂回策略。通过比喻、借代、双关等文学加工手段,录制、剪辑、后期制作等多媒体手段,网络词汇得到大大扩充,汉语的丰富性得到进一步挖掘,互联网文化以其鲜明的时代性继续向社会生活各领域渗透。然而,网络文本的分散抵抗也暴露出了目前网络公共空间构建的危机。

一方面,从李刚事件可以发现,网民对于“我爸是李刚”这句话的关注远远多于关注河北大学车祸事件本身。对比图一和图三的峰值数据可以发现,前者的频数是后者的十倍有余,整整相差一个数量级。很多积极参与“我爸是李刚”造句大赛的网友并不清楚整个事件的来龙去脉,只是由于舆论的热炒而加入了民意的狂欢。他们“以网络为实验场,将现实生活中所积蓄的压力,以破坏性、解构性方式释放。”[11]这造成了一种言论井喷下的集体无意识:“我爸是李刚”似乎不再是一个严肃的社会议题,而是一种特定时期的赶集行为,众人蜂拥而上抢占道德的制高点,唯恐落在潮流之后。最终的结果是时髦掩盖事实,娱乐大过讨论,恶搞湮没真相。

另一方面,处在社会转型期的中国面临着前所未有的社会矛盾。网民容易将自己的预设立场投射到事件中,从而使公共讨论简化为道德声讨甚至网络暴力。李刚事件中,网民们虽然采用了不同的抵抗形式,但其矛头却是高度一致的:即批判以李刚父子为首的官员与官二代嚣张的气焰。批判精神值得鼓励,但不断重复的、单一的声讨不仅激化了草根与官方,民众与官员的对立,也无助于实际问题的解决。从“我爸是李刚”造成的舆论蝴蝶效应,到网民的视线被新的舆论热点所拉走,车祸的受害者们始终没有得到同等的关注。网民执着于向强者投掷臭鸡蛋,却忘记了给予弱者应有的支持。

分散抵抗中暴露出的问题警示我们,先出声后思考,一味把宣泄当成解药的人,追求的仅仅是许知远笔下“庸众的胜利”,不利于网络讨论在一个公开公正的平台上进行。

总而言之,网络文本的分散抵抗散见于中国互联网的方方面面,大多数情况下处于隐蔽状态,只有通过特殊的公共事件才被激发成为网络集群行为。然而分散抵抗的力量绝对不应该被忽视。斯科特把个体的分散抵抗比喻成珊瑚礁:成千上万的以个体形式出现的不服从与逃避行动构建了其自身的政治或经济屏障当国家的航船搁浅在这些礁石上时,人们的注意力被典型地吸引到船只失事本身,而不会看到正是这些微不足道的行动的大量聚集才是造成失事的原因。[1]网民戏谑的言辞、恶搞的影像背后,是他们对于现状的无奈、抗争与反思。在冲决秩序的愤怒引爆之前,信息的公开与处理的公正必须得到推行。

不管是普通网民,还是管理者、决策层,推动互联网言论的开放理性是双方共同的目标。分散抵抗所起到的公众知晓、舆论监督的正功能应该得到发扬,其潜在的负面效应,则应当通过传媒、公众、法律三者的合力得以弱化。借用韦伯的话,这是“一件用力而缓慢穿透硬木板的工作”,任何自欺欺人的掩盖和急功近利的砍杀都是适得其反的。

参考文献

[1][12]詹姆斯.C.斯科特.弱者的武器[M].南京:凤凰出版社, 2007:35, 43.

[2]查尔斯.蒂利.集体暴力的政治[M].上海:上海世纪出版集团, 2006:165.

[3]“我爸是李刚”被恶搞网络出现36万多条“造句”[EB/OL]. (2010-10-25) [2010-11-01].http://www.chinanews.com.cn/cul/2010/10-25/2609652.shtml.

[4]一周舆情综述 (10月20日—10月26日) :网民以犬儒化的娱乐关注正义[EB/OL]. (2010-10-28) [2010-11-01].http://yq.people.com.cn/htmlArt/Art809.htm.

[5]克里斯.安德森.免费[M].北京:中信出版社, 2009:23.

[6]互动百科公布10月互联网十大热词[EB/OL]. (2010-10-28) [2010-11-01].http://ent.sina.com.cn/x/2010-10-28/22253129321.shtml.

[7]胡泳.众声喧哗:网络时代的个人表达与公共讨论[M].桂林:广西师范大学出版社, 2008:99.

[8]网友评2010年网络十大神曲《我爸是李刚》上榜[EB/OL]. (2010-11-04) [2010-11-05].http://news.sohu.com/20101104/n277159934.shtml.

[9]曹丹.从“新闻跟帖”看门户网站的公共性建构[J].现代视听, 2009 (10) :34.

[10]手机上网用户过半移动互联网日趋流行[EB/OL]. (2010-08-12) [2010-11-01].http://tech.163.com/mobile/10/0812/13/6DT1G88100112K8E.html.

移动IP化网络文本分类聚类模型 第10篇

随着移动运营商网络IP化改造日益深入, 运营商内部积累了大量跟IP化网络相关的文本, 而如果移动IP化网络文本无法快速、准确地进行分类, 将会直接造成网络维护工作无章可循, 进而影响到网络的安全性。现有处理移动IP化网络文本的方法一般是采用人工分类归档的方式, 这种手工的方法有很多不尽如人意的地方, 因此, 迫切需要人们研究出相关工具以对大规模的文本信息进行有效的过滤并进行自动分类组织。

本文在基于文本分类[1,3]、聚类算法的基础上实现了一种建立移动IP化网络文本组织框架的方法, 提出了一套完备且可完善的文本组织框架:采用人工聚类与机器聚类相结合的方式得到了一套科学合理的文本组织方法;采用重复分类训练学习过程及定期重复框架聚类过程的方式实现了该套文本组织框架的动态完善;将移动IP化网络文本进行系统化管理, 网管人员可随时根据需要从文本库中搜索和查询所需要的文本, 获取相关知识。对文本分类聚类模型进行测试, 结果显示, 多聚类算法得出的第二文本框架与专家分类框架具有很大区分特征[8,9,10,11], 文本分类的正确率达到了70%以上, 基于内容的索引搜索效率很高, 提高了文本管理人员查找文本的效率。系统的部署与应用, 改变了中国移动在开展IP化过程中缺乏智能化分析系统的现状, 提高了网络维护的针对性、主动性和前瞻性。

二、文本分类聚类技术模型设计

2.1现有文本处理方式存在的问题

现有处理移动IP化网络文本的方法一般是采用人工分类归档的方式, 网管人员通过查看一定数量的移动IP化网络文本的全部内容、摘要或关键字根据个人的工作经验、理解预先建立移动IP化网络文本组织框架, 然后根据建立的移动IP化网络文本组织框架以及新的移动IP化网络文本中包含的相关内容, 对该新文本进行手工分类归档, 并通过不定期的检查和整理的方式维护分类归档的移动IP化网络文本。当需要查询IP化网络相关文本时, 输入相关搜索特征词, 系统从移动IP化网络文本组织框架的相应分类中查询特征词对应的文本, 并输出给查询人员。

有上述可见, 现有移动IP化网络文本 (以下简称为文本) 处理方式存在以下缺点: (1) 文本组织框架缺乏科学性及一致性。现有的文本处理方式属于粗放式的文档管理方式, 文本组织框架以及文档的整理分类完全取决于网管人员的专业知识水平、业务能力及工作态度, 分类的方式受个人主观因素影响较大, 不同的人有不同的看法, 在这样的方式下, 很难保证各个网管人员构建的文本组织框架采用统一客观的分类标准, 缺乏科学合理性。 (2) 效率较低, 准确率不能保证。人工归档的方式需要消耗较多的时间, 尤其在文本数量较大的情况下, 不能实现较高的处理效率;并且这种人工归档的分类方式还会受到一些个人因素的影响, 如专业知识水平、人为判断的失误等的影响, 使得分类准确率不高[2]。 (3) 不利于网管人员的检索、利用现有文本知识。采用现有的处理方式处理移动IP化网络文本, 即网管人员按照自身已经建立的文本组织框架以及阅读文本后的理解来对文本分类, 使得不同专业人员的分类方式存在偏差。由于未能采用统一客观的分类标准, 从而使得相应的网管人员对该文本的搜索、查询与利用变得十分困难, 致使文本知识的利用率低下, 而且, 检索得到的文本出现重复, 也增加了检索所需的时间, 浪费了系统资源。

2.2文本分类聚类模型的设计思路

该模型的主要理论基础是文件聚类和文本分类算法, 前者的基础是先把文本进行分词[4]和向量化表示[5,6], 即预处理过程, 之后根据一定的聚类算法把具有相似性质的文本归为一类, 以此为基础可形成文本组织框架;分类的过程则是在已有文本框架的基础上进行数据的训练过程, 形成一定的分类器模型, 当有新文本进来时可以自动根据文本内容进行文本分类。具体过程如图1所示。

为了改变目前IP化网络文本管理过程中的不足, 本文在对文本挖掘进行较为广泛的探索与研究的基础上, 结合人工分类及基于统计方法的文本聚类与文本分类方法, 设计了一种面向IP化网络文本挖掘算法模型。该模型充分利用了IP化网络中专业术语较多的特点, 通过总结归纳这些术语, 形成分词库, 抽取文本的特征词[8,9,10,11], 计算文本特征向量[8,9,10,11], 实现文本聚类及文本分类算法的应用。

2.3文本分类聚类模型

对文本数据的建模和处理思路如图2所示。

(1) 模型数据源

IP承载网建设与维护相关OA文、维护管理办法、建设文档等。核心网VOIP改造相关OA文、维护管理办法、建设文档等。

(2) 模型大致流程

首先为保证所形成的文本组织框架的质量, 需要选择精度高、适应性强的聚类算法作为聚类工具, 在流程的开始阶段需要进行小样本的数据实验, 对K-means[7]、模糊C、蚁群以及层次聚类算法所形成的文本框架进行比较, 并结合人工分类框架进行评估, 最后选出蚁群算法这种最适合IP化网络安全文本的聚类算法作为后续流程的主要聚类算法。

在选出最优的聚类算法之后开始使用该算法对全部的文本集进行聚类, 形成初步的文本组织框架;该框架作为分类的先验知识进行分类的训练形成分类器, 训练方法有很多, 本文采用了支撑向量机 (SVM[6]) 和KNN[7]两种方法进行训练, 通过比较发现前者较优。

分类器形成之后, 当有新的文本进来时, 分类器会自动根据文本内容对其进行分类, 并将文本归入相应的文件夹下。每周一段时间可以结合专家知识对误判率进行计算和评估, 如果误判率高于临界值, 就说明原来的文本框架已经不再适用于新的文本集, 需要对现有的全部文本集进行重新聚类形成新的文本分类框架, 这样就实现了文本组织框架的更新和完善过程。基于所形成的文本框架, 网络安全维护人员可以进行方便快捷的检索和学习。

(3) 模型预期效果

(1) 可优选一种与人工分类结果较为接近的文本聚类算法, 可实现大数据量文本的准确聚类; (2) 可对新增文本进行较为准确的分类, 减轻网管人员进行文本管理的压力; (3) 可实现对文本的多为搜索, 帮忙网管人员更为精确地找到所需要的文本。

三、文本分类聚类技术模型的实现

3.1文本分类聚类技术模型实现概述

所述的数据输入模块用于采集IP化网络安全文本数据;所述的数据分析模型用于接收数据输入模块传递来的数据, 并且对接收到的数据进行挖掘分析, 形成四个数据分析子模块;所述的分析结果输出模块用于把数据分析模块分析的结果结合输出要求呈现给输出端;在模型中, 所述的移动IP化网络文本数据包括设备指标文本、IP承载网文本、交换设备文本、全网业务文本及安全管理与网管支撑文本;所述的数据分析模块中的四个数据分析子模块分别是:专家处理子模块、多聚类算法子模块、文本分类及文本框架完善子模块和文本组织框架合成模块。具体如图3所示。

本文同时提供上述文本数据分析模型的实现方法, 具体步骤如图4所示。

下面结合实例给予说明:

1. 数据输入步骤:

通过数据输入模块导入IP化网络文本数据, IP化网络文本数据包括集团公司、省公司、地市公司的很多发文、管理办法和不同地方网络维护案例文本及不同部门交流文本数据。

2. 数据分析步骤:

A.专家处理子模块步骤:本文的方法以IP化网络文本数据为基础, 先通过专家处理子模块让专家对现有小样本的文本数据进行整理, 得出IP化网络文本数据的分类框架。比如框架第一层氛围分为指标类材料、IP承载网类材料、交换设备类材料、全网业务材料、安全管理与网管支撑材料五大类, 每一大类都又分为不同子类。如表1所示。

B.多聚类算法处理子模块:通过聚类算法子模块采用不同的聚类算法对小样本的IP化网络文本数据进行分析, 得出不同的分类结果;比如通过k-means聚类算法、模糊c均值聚类算法、蚁群聚类算法、层次聚类算法等不同聚类方法进行聚类计算, 并输出聚类结果。通过对小数据样本聚类得出的结果作为评价来选出适合IP化网络文本的聚类算法, 当遇到大的数据样本时, 应用已经选出的聚类算法进行挖掘。比如小样本中蚁群聚类算法结果最为贴近专家分类结果, 后面的聚类方法就都采用蚁群聚类算法来进行挖掘。

C.文本组织框架合成模块:把聚类算法子模块输出的分类结果和专家分类结果比对, 采用专家分类结果作为文本数据分类的框架, 将小样本的专家分类结果作为指导, 将和专家分类结果最相近的聚类算法的聚类结果填入专家分类结果中, 实现全部文本数据的合理分类。

D.文本分类及文本框架完善子模块:新的文本进来, 文本分类及文本框架完善模块会依据现有合理的文本组织通过文本分类算法对新进入的文本进行分类, 专家判断错误率到达了多少, 如果错误率高于阈值, 就会记录为误判, 把所有的数据用在阶段最优的算法重新进行聚类计算, 然后通过文本组织框架合成模块合成新的文本组织框架;具体的逻辑框架图如图5所示。

3. 分析结果输出步骤:

在数据分析结果输出模块, 用户可以根据自己的需求通过树形框架结构找到自己想要的文本, 也可以通过关键词搜索, 得到最相关的搜索结果。大大提高对公司现有文本资源的利用效率。

3.2文本分类聚类技术模型的具体实现

本模型是一种建立移动IP化网络文本组织框架的方法。该方法根据预先设定的样本量建立第一文本组织框架, 应用多聚类算法对所述预先设定的样本量进行聚类, 选定与所述建立的第一文本组织框架最为相似的聚类算法建立的第二文本组织框架, 根据所述第一文本组织框架和所述第二文本组织框架建立文本组织框架。本模型在实现过程中具体流程如图6所示。

步骤1:根据预先设定的样本量建立第一文本组织框架。本步骤中, 预先设定的样本量为一定数量的IP化网络文本, 本实验中, 预先设定的样本量为小样本量, IP化网络领域内的专业技术人员根据已有的专业技术框架、自身的工作过程中积累的经验及对文本的理解来实现IP化网络文本组织框架的制定, 比如, 根据各文本的文本特征向量[8,9,10,11], 建立五大类的IP化网络文本组织框架, 即文本组织框架包括:指标类材料、IP承载网类材料、交换设备类材料、全网业务材料及安全管理与网管支撑材料, 并计算每类对应的分类文本特征向量[8,9,10,11]。当然, 实际应用中, 也可以根据实际的需要, 按照文本特征向量[8,9,10,11]构造其他类型的IP化网络文本组织框架, 比如, 将IP化网络文本按照集团公司、省公司、地市公司的发文、管理办法、不同地方网络维护案例文本及不同部门交流文本数据进行划分, 构造相应类别的IP化网络文本组织框架。

在模型实现过程中, 对于IP化网络文本组织框架下的每个大类, 又可以分为不同的子类并设置每个子类对应的子分类文本特征向量[8,9,10,11], 比如, 将IP化承载网类材料分为五大子类, 分别为:设备建设方案、日常维护管理办法、安全评估与巡检、省际IP承载网相关文件、网络改造与调整;交换设备类材料分为工程建设方案及管理办法、专项提升活动等子类;全网业务材料分为网络运行维护实施、应急处理与重大故障等子类;安全管理与网管支撑材料分为账号与口令安全管理办法、其他安全管理办法及文件等子类。请参见表2所示的IP化网络文本组织框架示例。

本步骤中, 由于专业技术人员具有良好的专业技术水平及丰富的经验, 对文本的理解较为全面、准确, 使得对文本进行分类的准确性高, 描述各个分类的文本特征向量[8,9,10,11]恰当、准确性高。从而使得建立的文本组织框架科学性强、可信度高, 可作为优选聚类算法的主要依据;同时, 由于预先设定的样本数量不会太多, 分类、归档所需的时间较少, 属于在人工可处理的范围内。

步骤2:应用多聚类算法对预先设定的样本量进行聚类, 选定与所述建立的第一文本组织框架最为相似的聚类算法作为优选聚类算法。

该优选聚类算法将在第一文本组织框架已无法进行准确分类的情况下, 启动计算, 得出第二文本组织框架, 用于文本分类。

本步骤中, 多聚类算法 (文本挖掘算法) 包括:k-means[7]聚类算法 (k-means Clustering Algorithm) 、模糊c均值聚类算法 (Fuzzy C-means Clustering Algorithm) 、蚁群聚类算法 (Ant Colony Optimization Algorithm) 、层次聚类算法 (Hierarchical Clustering Algorithm) 等。各算法及对文本的聚类流程属于现有技术, 其详细描述请参见相关技术文献, 在此不再累赘。

实际应用中, 由于不同的聚类算法对相同数量的样本进行聚类时, 其聚类结果可能存在较大的差别, 且各聚类算法的聚类结果真实可靠性也无从评估, 因而, 采用不同的聚类算法将对聚类结果产生实质性的影响。本示例中, 通过选用不同的聚类算法对预先设定的相同数量的样本进行聚类, 对聚类结果 (文本组织框架) 与第一步中建立的IP化网络文本组织框架进行比较, 选取与人工分类结果的相近程度最好的聚类算法结果对应的聚类算法, 作为优选聚类算法。

步骤3:以第一为文本组织框架作为文本分类依据。本步骤中, 在得到第一文本组织框架及优选的聚类算法的基础。

步骤4:根据所述文本组织框架, 对新文本进行分类。本步骤中, 导入IP化网络文本数据后, 按照每个样本包含的内容, 抽取文本中的关键词, 构造各文本的文本特征向量[8,9,10,11], 以文本组织框架为依据, 将新文本的文本特征值与文本组织框架中各类包含的文本特征值进行匹配, 将该新文本分类至文本组织框架中相应的类别中。

被分类的样本经过预处理, 抽取文本中的特征词[8,9,10,11], 获取各文本的文本特征向量, 与文本组织框架中各子类包含的文本特征向量进行匹配, 将各文本分类到文本组织框架中相应的子类;于此同时, 抽取新增的部分文本进行人工分类, 比较人工分类与自动分类的误差, 当误差超过阈值时, 启动已选出的优选聚类算法建立的第二文本组织将文本分类, 比如, 上述示例第二步中, 假设蚁群聚类算法对预先设定的样本的算法结果 (第二文本组织框架) 最为贴近建立的第一文本框架。当误差超过阈值时, 重新启动蚁群聚类算法计算第二文本组织框架。

本模型实现过程中, 还可以利用文本分类结果, 对所建立的文本组织框架进行调整, 参见步骤5。

步骤5:从新的文本中, 选取一定数量的文本, 根据第一文本组织框架进行人工分类;本步骤中, 选取的这一定数量的文本, 在步骤4中已进行了自动分类, 将自动分类结果与人工分类结果进行比较。

步骤6:将自动分类结果与人工分类结果进行比较, 如果自动分类结果误差大于预先设定的阈值, 启动优选聚类算法, 计算新文本组织框架, 作为第二文本组织框架, 代替第一文本组织框架。本步骤中, 预先设定的阈值可以是自动分类结果与人工分类结果中包含的相异的文本个数与人工分类结果包含的文本个数之比。如果没有超出该阈值, 表明当前建立的文本组织框架运行良好, 可靠性高;如果超出该阈值, 需要按照人工分类结果调整文本组织框架中各大类相应子类对应的文本特征向量[8,9,10,11], 或者重新应用前述优选的聚类算法对所有文本 (新旧文本) 进行聚类, 得到新的文本组织框架, 用该新的文本组织框架代替原有的文本组织框架, 当自动分类结果误差大于预先设定的阈值时, 重新启动优选的聚类算法进行聚类得到新的文本组织框架。

实际应用中, 上述对所建立的文本组织框架进行调整, 主要是在利用第一文本组织框架对新文本分类时, 由于建立的第一文本组织框架是基于有限的样本量, 因而, 在大样本量的情况下, 可能存在一定的分类误差, 而且随着样本量的不断增大, 其误差可能也越来越大, 因而, 通过人工评估, 当误差超出预先设定的阈值时, 可以用前述的优选文本聚类算法结合人工评估结果重新生成文本组织框架, 以替换该第一文本组织框架。

当然, 在建立文本组织框架后, 网管人员就可以利用该文本组织框架进行搜索和查询, 获取所需的文本, 例如, 网管人员可以输入搜索特征词, 文本组织框架查询关键词对应的文本特征值[8,9,10,11], 将该文本特征值所属的搜索结果 (文本概述等信息以及文本所属的大类及子类) 输出给网管人员, 这样, 与传统的关键词的搜索方式不同, 由于可根据文本特征值进行搜索, 搜索情况更接近文本的内容, 每个文本可供搜索的内容更多, 使用文本搜索更贴近文本内容。

四、测试与分析

通过模块层次图和数据流图的进一步设计, 基于VC编程环境, 本研究将设计的模型进一步在机器上实现, 开发出IP化文本分类组织框架和基于文本内容的搜索。测试结果表明多聚类算法得出的第二文本组织框架与专家分类框架具有很大区分特征[8,9,10,11], 文本分类的正确率达到了70%以上, 基于内容的索引搜索效率很高, 提高了文本管理人员查找文本的效率。

4.1测试系统

对于中国运营商来说, 3G的日益临近, 网络IP化成为一种不可逆转的趋势。通过对现有网络进行IP化的改造来实现多网融合最终完成3G网络的建设已经成为国内外各大运营商的共识, IP化网络在核心网的比重越来越大。目前, 对计算机IP网络的评估已经有一些研究成果及应用系统。但是, 针对运营商中IP化网络具体特点, 建立科学、可行的安全评估模型但成了摆在中国运营商面前的一个重要的问题, 同时也是在地市公司在从事具体维护工作中不得不去思考的一个问题。

目前, 对于IP网络的评估方法一般需要一些先验知识, 如威胁出现的概率、无形资产赋值等, 而准备获得这些数据是存在困难的, 为此, 已有的模糊、神经网络等方法建立的安全估计模型只能对于局部系统进行评价, 且多局限的理论的说明, 未能有一些全面的, 可行的安全评估模型及可投入使用的评估系统的产生。因此, 本产品希望从移动运营商IP化网络的运营实际出发, 从技术、管理、安全意识等更加宏观的层面来审视安全评估问题, 并依托省网管已经建立的“网络运营支撑平台”, 建立基于粗糙集的IP化网络安全评估系统。

对于地市公司公司来说, 随着公司网络集中化建设的进行, 地市公司对IP网络的维护权限多停留在设备的维护方面, 维护行为也多以被动实施为主, 往往缺乏对自身网络安全性的科学及客观的把握。为此, 该系统所采用的模型也从地市公司IP化网络的具体建设及维护实践出发, 采用粗糙集的理论来建立网络的安全模型、采用粗糙集理论来分析网络各项安全因素的轻重关系, 输出决策规则, 建立IP网络下客户感知及网络质量的共同提升模型, 从而建立起一套科学完善的IP网络评估算法, 从而为地市公司从事IP化网络的建设和维护提供指导, 变被动为主动, 全面提升IP化网络建设与维护的有效性。

本文设计的文本挖掘模块作为该系统中重要的一个组成部分, 对于IP化安全文的深入挖掘, 实现IP化网络的安全保障起着重要的作用。对于粗糙集实现网络安全评估方面因为不是论文的主要内容。因此不作主要描述。本文重点描述了一种面向IP化网络文本挖掘模型在系统中的具体实现。

文本模块从文本导入、文本框架导入、聚类方法选择、文本聚类、文本分类、文本搜索和浏览等方面把模型中的主要功能分别在不同模块中实施。其中聚类方法选择模块中集成了K-means聚类算法、模糊C聚类算法、分层聚类算法和蚁群聚类算法, 是模块中的核心部分。系统的模块层次如图7所示。

在系统的模型层次图的基础上, 进一步设计研究了系统的数据流图, 从数据输入层、数据预处理层、核心算法层、用户使用层等层面围绕文本组织框架为核心全面铺开。找出系统输入、处理、输出过程中的关键数据存储和逻辑处理, 理清了内部逻辑的相互关系。系统的数据流图如图8所示。

4.2系统相关模块的功能说明

在系统实现过程中, 主要实现了如下几个模块:IP化网络安全文本数据导入模块、第一文本组织框架处理模块、多聚类算法模块、聚类结果匹配模块、以及文本组织框架生成模块, 各模型具体功能如下: (1) IP化网络安全文本数据导入模块:用于导入IP化网络安全文本数据, 分别输出至第一文本组织框架处理模块和多聚类算法模块; (2) 第一文本组织框架处理模块:用于对接收的文本进行分类整理, 建立第一移动IP化网络文本组织框架, 并将建立的第一移动IP化网络文本组织框架信息分别输出至聚类结果匹配模块及文本组织框架生成模块; (3) 多聚类算法模块:用于根据预先设置的多聚类算法对接收的文本进行聚类, 向聚类结果匹配模块输出聚类结果; (4) 聚类结果匹配模块:用于根据接收的第一移动IP化网络文本组织框架信息匹配来自多聚类算法模块的聚类结果, 将与第一文本组织框架最为相似的聚类算法的聚类结果信息输出至文本组织框架生成模块; (5) 文本组织框架生成模块:用于根据接收的第一移动IP化网络文本组织框架信息以及聚类结果信息建立文本组织框架。

IP化网络安全文本数据导入模块、第一文本组织框架处理模块、多聚类算法模块、聚类结果匹配模块、以及文本组织框架生成模块等5模块具体逻辑关系如图9所示。

在实现过程中, 该模块可以进一步包括如下可扩展模块: (1) 文本分类模块, 用于依据文本组织框架生成模块中存储的文本组织框架信息, 对来自IP化网络文本数据导入模块的文本进行自动分类。 (2) 文本组织框架调整模块, 用于接收来自文本分类模块的自动分类结果、以及来自第一文本组织框架处理模块对同批量文本的人工分类结果并进行比较, 如果自动分类结果误差大于预先设定的阈值, 按照人工分类结果调整文本组织框架生成模块存储的文本组织框架信息。 (3) 搜索和查询模块, 用于接收来自外部的搜索关键词, 发送至文本组织框架生成模块, 将文本组织框架生成模块根据存储的文本组织框架信息查询得到的关键词对应的文本信息进行输出。

系统中各模块相互协同共同完成模型所要求的功能, 流程如下: (1) IP化网络文本数据导入模块、第一文本组织框架处理模块、多聚类算法模块、聚类结果匹配模块、以及文本组织框架生成模块, 其中, IP化网络文本数据导入模块, 用于导入IP化网络文本数据, 分别输出至第一文本组织框架处理模块和多聚类算法模块; (2) 第一文本组织框架处理模块, 主要有领域专家来完成, 领域专家通过人工的方式来获取接收的文本信息中包含的关键词, 根据关键词构造各文本的文本特征向量[8,9,10,11], 利用文本特征向量对所述预先设定的样本量的IP化网络文本进行分类整理, 建立第一IP化网络文本组织框架, 并将建立的第一IP化网络文本组织框架信息分别输出至聚类结果匹配模块及文本组织框架生成模块; (3) 多聚类算法处理模块, 用于根据预先设置的多聚类算法对接收的文本进行聚类, 向聚类结果匹配模块输出聚类结果;聚类结果匹配模块, 用于根据接收的第一IP化网络文本组织框架信息匹配来自多聚类算法模块的聚类结果, 将与第一文本组织框架最为相似的聚类算法的聚类结果信息输出至文本组织框架生成模块; (4) 文本组织框架生成模块, 用于根据接收的第一IP化网络文本组织框架信息以及聚类结果信息建立文本组织框架。

4.3系统相关模块的功能说明

通过移动公司的IP化网络文本测试了本研究设计的功能模块, 测试结果显示文本框架与专家分类框架具有很大区分特征, 文本分类的正确率达到70%以上, 基于内容的索引搜索效率很高, 提高了文本管理人员查找文本的效率。

4.3.1文本聚类测试结果分析

该部分通过文本聚类实现文本框架的形成。系统提供四种聚类方法的实现:K-means[7]、模糊C聚类、层次聚类、蚁群聚类算法;每种聚类之后, 都将在下方的显示框中展示聚类的结果, 也即文本组织框架。之后通过比较不同聚类的聚类结果, 选出最优的聚类算法。

K-means[7]聚类算法可以调整三个参数:聚类数目、最大迭代次数、文档向量维数。现有文本专家聚类分为3类:IP承载网、全网业务、安全管理与网管支撑。

模糊C均值聚类算法可以调整五个参数:聚类数目、误差限、参数m、最大迭代次数、文档向量维数。其中参数m的调整范围为1.5~2.5。如图10所示。

其中K-means[7]聚类算法将文本通过迭代1000次, 采用100个特征词提取出文档向量, 分出第一类的文本数量为67, 第二类的文本数量为2, 第三类文本数量为1。如图11所示。

4.3.2文本分类测试结果分析

该部分暂时无需选择路径, 仅采用样本数据实现, 因为专家分类文档没有经过聚类算法, 提取不出特征值, 无法作为分类;此环节耗时较长, 可能需2-3分钟, 各机器性能不一可能略有差别。

本部分工作的基础是使用上一步骤选取最优的聚类算法对所有文本进行聚类形成合理的文本组织框架并训练形成分类器。分类器形成后, 就可以对新进入的文本进行分类, 一般分类正确率在70%以上。

图12展示了对实验数据进行分类的结果, 对34个文本进行分类, 分类正确率达到80%。证明该文本框架所形成的分类器具有较好的分类能力。图中标红的文本本分到了错误的类别中了, 其余是被正确分类的文本;分完后可以查看通过上面的选择查看单个文本分类情况, 如图13。

4.3.3文本搜索测试结果分析

本部分是基于前述文本组织框架的文本搜索模块, 目前系统可供使用的检索词包括发文单位 (集团、省公司、使公司) 、文本类别 (通知、申请、报告、自查报告、紧急通知等) 、文件名 (输入要找的关键词, 系统将使用该关键词在所有文本的文件名中进行检索) 、发文时间等。系统正在实现的功能是基于特征词的检索, 在文本分词阶段每一个文本都被分成若干特征词所表示的向量, 输入特征词就可以实现基于内容的检索, 大大提高了检索的效率和准确度。

其中基于内容的特征词的搜索是一个创新, 通过文本训练, 提取出所有搜索范围内的文本的特征词, 通过特征词的频率来确定不同文本的区别, 如100维特征词的训练结果就将不同文本通过挑选出来的100个文本特征词的频率来表示, 实现文本的向量化, 如果某一特征词在文本中没有出现, 则向量这个点上的取值为0。训练后的文本集就形成了一张二维表, 一个维度是文本, 一个维度是特征词, 这个二维表是基于文本内容训练出来的, 通过此二维表的特征词来搜索文本比其他几个维度效率更好, 效果更好。

如图14所示, 搜索范围选择IP化安全管理系统文件夹中的clusters文件夹 (因为要基于特征词搜索需要有能提供特征词的文件夹) 。

查询得到的文本可直接在检索结果栏中打开阅读。如图15所示。

五、结束语

本文主要围绕运营商内部积累的数量惊人的IP化网络安全相关文本的智能化处理这一问题展开讨论。针对人工处理的方式迅速慢、准确率低, 耗时长, 不利共享这一难题, 创造性地将文本聚类与文本分类算法用于该问题的解决。

参考文献

[1]Sparck J K, Willett P, etal.Readings of information retrieval.San Mateo, US:Morgan Kaufmann, 1997

[2]Sebastiani F.A tutorial on automated text categorization.In:Proceedings of Argentinian Symposium Artificial Intelligence (ASAI-99, 1st) Buenos Aires, 1999:7-35

[3]Cheng Ying, Shi Jiu-Lin.Research on the automatic classification:present situation and prospects.Journal of the China Society for Scientific and Technical Information, 1999, 1:20-27

[4]成颖, 史九林.自动分类研究现状与展望.情报学报, 1999, 1:20-27

[5]龚汉明, 周长胜.汉语分词技术综述.北京机械工业学院学报, 2004

[6]柯慧燕.Web文本分类研究及应用:[硕士学位论文].武汉:武汉理工大学, 2006

[7]WLi, J Han, J pei.CMAR.Accurate and Efficient Classification Based on Multiple Classification Rules[C]//Proc of the 2001 IEEE International Conference on Data Mining.California:ICDM, 2001

[8]Yang YM, Liu X.A re-examination of text categorization methods.[C]//Proc of the 22nd Annual Int’I ACM SIGIR Conf on Research and Development in Information Retrival.NewYork:ACM, 1999:42-49

[9]David W Aha, and Richard L Bankert.A comparative evaluation of sequential feature selection algorithms.In:Proceedings of the 5th International Workshop on Artificial Intelligence and Statistics, 1995:1-7

[10]Ron Kohavi, and George H John.Wrappers for feature subset selection.Artificial Intelligence Journal.Special Issue on Relevance, 1997:273-324

[11]Tao Liu, Shengping Liu, Zheng Chen, et al.An evaluation on feature selection for text clustering, In:Proceedings of the 20th International Conference on Machine Learning (ICML-03) , 2003.488-495

网络文本 第11篇

随着信息技术的飞速发展特别是互联网的广泛普及,网络文本以指数级别增长,网络文本成为人们进行信息交流的重要方式。如何对浩如烟海的文档、资料和数据进行自动分类、组织、挖掘和管理,已经成为一个具有重要用途的研究课题。文本分类是在预定义的体系下与一个或者多个类别相关联的过程。文本分类作为信息检索和数据挖掘的基础技术和研究热点,从上个世纪50年代至今,已经取得长足发展。广泛应用于邮件分类、自动文摘、信息过滤、电话会议等。特征选择(Feature Selection,FC)作为文本分类的关键一步,具有降低向量空间维数、简化计算、以及去除噪声等作用,征提取的好坏将直接影响着文本分类的准确率和效率。特征选择一般是通过构造一个特征评分函数,把测量空间的数据投影到特征空间,得到在特征空间的值,然后根据特征空间中的值对每个特征进行评估,特征选择就成了选择值最高的若干个特征。常用的特征选择方法(如信息增益、互信息)采用统计方法处理词语与类别,忽略特征词之间的语义关系。本文提出一种基于上下文的词汇相关度的特征选择方法,通过计算词语与类别关键词词汇相关度,设定相关度阀值,进行特征取舍,降低特征空间的高维性,并有效减少噪声,得出最优特征空间,从而提高了分类精度和算法效率。

1 网络文本分类流程及相关技术

网络文本作为一种结构化的特殊文本,除了文本信息之外,还有其他描述信息,如标题、页面描述和超链接等标签(tag)。所以文本分类具有特殊性。一般包含如下几个重要的步骤,每个步骤都涉及各自相关技术。

预处理包括两个具体步骤:第一步将网络文本的所有标签(tag)去除,转化为一般文本;第二步去除停用词,既去除高频词和情感词。

预处理之后,进行中文分词。中文文本不像英语等,中文词与词之间没有显示标志。因此中文分词成为处理计算机处理中文时面临的首要基础性工作。常用的分词工具有很多,比如:中科院的ICTCLAS中文分词工具、IK Analyzer等。

文本表示模型常用的是向量空间模型(VSM),其他常用模型还有词组表示法、概念特征表示法。

传统的特征选择方法主要有:基于文档频率(document frequency,DF)法、信息增益(information gain,IG)法、互信息(mutual information,MI)法。

特征权重是衡量某个特征项在文档表示中的重要程度。权重计算方法一般有绝对词频(TF)、倒排序文档频率(IDF)、TF-IDF等。

分类器是相当重要的一个步骤,常用的分类算法包括:朴素贝叶斯分类法、基于支持向量机、k-最近邻法、神经网络法、决策树法、Rocchio分类法和Boosting算法。

2 基于词汇相关度的分类算法

2.1 词汇相关度计算

词汇相关性计算在很多领域中都有广泛应用,例如信息检索、信息抽取、文本分类等等。词汇相关性计算的两种基本方法是基于世界知识(Ontology)或某种分类体系(Taxonomy)的方法和基于上下文统计的方法。这两种方法各有优缺点。

基于上下文统计的方法计算词汇相关度假设:两个词经常共同出现在文档的同一窗口单元(如一句话、一个自然段等),则认为这两个词在意义上是相互关联的,并且,共现的概率越高,其相互关联越紧密。

本文采用的Jaccard系数计算两个词语的词汇相关度是一种基于上下文统计的方法。

Jaccard系数计算公式如下:

P和Q是代表文档中的两个词汇;H(P)代表P在窗口出现的次数,H(Q)代表Q在窗口出现的次数,H(P⌒Q)则代表P和Q一起出现的次数。

2.2 改进后的文本分类算法

详细步骤如下:

(1)确定领域,确定需要分类文本的所属领域,经济、政治、等等。既是语料库所包含的文本的类别;

(2)自定义一个语义范围,根据《知网》对每个领域确定好类别关键词,建立1-10的相关度。例如:经济领域,我们选取出资人、收入、股票、货物、商人、贸易、公司、商业、金融、经济;

(3)对文本进行预处理;

(4)分词;

(5)将训练文本中的词汇与类别关键词用1式进行相关计算。形式如下:Jaccard(类别关键词,待选词汇);设定阀值,进行特征选择,得出最终特征集合;

(6)选择文本表示模型;

(7)选择文本分类器;

(8)对测试文本,用特征集,进行文本表示;

(9)测试评估,动态调整算法。

3 实验结果

我们在Weka平台上,进行对比试验(如表1)。在特征权重选用TF-IDF,分类器用KNN算法,朴素贝叶斯算法。用搜狗2008迷你版语料库分为训练文本和测试文本,其包含军事、文化等十个为本类别,每个类别分别有100篇文档,是一个平衡语料库。将本方法与信息增益、互信息法进行比较。我们采用了查准率(Precision,p)和算法时间(Time,T)作为评价指标。

经过实验结果,我们得出基于词汇相关性的特征选择比传统的特征选择方法在分类精度和算法运行时间均有稳定的提高。

4 结论

文本分类是信息检索、信息过滤和搜索引擎工作的技术基础。文本特征的高维性是影响分类精度和效率的一个重要因素,如何进行有效的特征降维成为文本分类的一个研究热点。本文采用词汇相似度进行特征选择改进文本分类算法,有效地提高了分类精度和算法效率。

摘要:传统文本分类算法,在特征选择这一阶段,采用统计观点和方法机械处理词语与类别的联系,假定词语之间相互独立,忽略特征关键词之间的语义关系。本文提出一种新的特征选择方法,用基于上下文统计的词汇相关度方法,计算特征词之间的词汇相关度,设定相关度阀值,进行特征选择。降低了特征空间的高维稀疏性,并有效的减少噪声,提高了分类精度和算法效率。

关键词:文本分类,特征选择,词汇相关度

参考文献

[1]宗成庆.统计自然语言处理[M].北京:清华大学出版社.2008.

[2]申红,吕宝粮,内山将夫,井佐原均.文本分类的特征提取方法比较与改进[J].计算机仿真.2006.

[3]刘群,李素建.基于《知网》的词汇语义相似度算[J].Computational Linguistics and Chinese Language Processing.2002.

[4]张燕平,史科,徐庆鹏,谢飞.基于词共现模型的垃圾邮件过滤方法研究[J].中文信息学报.2009.

相关文章
创新公共服务范文

创新公共服务范文

创新公共服务范文(精选12篇)创新公共服务 第1篇科学技术是第一生产力,科技公共服务平台对国家或区域的技术创新具有巨大的推动作用。科技...

3
2025-10-24
匆匆中学生读后有感

匆匆中学生读后有感

匆匆中学生读后有感(精选9篇)匆匆中学生读后有感 第1篇匆匆读后感500字_读《匆匆》有感当细细地品读完一本名著后,大家心中一定有不少感...

1
2025-10-24
草莓教学范文

草莓教学范文

草莓教学范文(精选17篇)草莓教学 第1篇“风儿轻轻吹,彩蝶翩翩飞,有位小姑娘上山摘草莓,一串串哟红草莓,好像……”优美的歌词,动听...

3
2025-10-24
仓储类课程范文

仓储类课程范文

仓储类课程范文(精选7篇)仓储类课程 第1篇物流产业是复合型产业,发达的物流能加速传统运输、仓储和零售等行业向现代物流服务领域延伸。...

1
2025-10-24
创造性批评:解说与解读

创造性批评:解说与解读

创造性批评:解说与解读(精选8篇)创造性批评:解说与解读 第1篇创造性批评:解说与解读作为诗性文化重要组成部分的审美批评,同文学艺术实践...

2
2025-10-24
初二地理试卷分析

初二地理试卷分析

初二地理试卷分析(精选6篇)初二地理试卷分析 第1篇莲山 课件 w ww.5 YK J.COM 4 初二地理试卷分析二、试题所体现的新课程理念和...

3
2025-10-24
常州市河海中学文明班小结

常州市河海中学文明班小结

常州市河海中学文明班小结(精选2篇)常州市河海中学文明班小结 第1篇常州市河海中学2008~2009学年第一学期 八(1)班创 文 明 班 ...

2
2025-10-24
财务负责人身份证明

财务负责人身份证明

财务负责人身份证明(精选14篇)财务负责人身份证明 第1篇财务负责人身份证明及签字样本兹证明为我公司财务负责人。特此证明。身份证复印...

1
2025-10-24
付费阅读
确认删除?
回到顶部