评论特征范文-盘古文库

评论特征范文

来源：开心麻花

作者：开心麻花

2025-09-19

评论特征范文（精选8篇）

评论特征第1篇

关键词：体育新闻,评论特征,受众心理

新闻媒体为体育新闻评论提供了一个固定而广泛的生存空间。科技的发展使新闻媒体进一步跟进了体育新闻媒体评论, 体育新闻评论员的队伍在不断壮大, 而且体育新闻评论的数量和质量都在不断的发展和进步之中。而随着体育新闻评论的发展、受众对体育新闻评论要求的提高, 体育新闻评论的写作和评论的风格都需要做出相应的调整, 以适应读者的阅读习惯和观众的审美情趣, 体育新闻同时也展现出了其新的发展路线。

体育新闻评论的类型

现在的体育新闻评论类型大致有“专业化”和“平民化”两种。体育新闻评论最初是为体育专业人员设计的, 而随着体育事业的发展壮大, 世界人民开始关注体育, 为满足国人的需求, 产生了专业化和平民化两种不同的体育新闻评论类型。

体育新闻的传播增强了世界人民对体育的认识和相关方面的体育知识, 也就是说, 现在的新闻媒体面对的新闻受众越来越趋于成熟, 新闻媒体群也越来越多, 对体育新闻评论的要求也就越来越高。专业化的评论需要专家型的评论人员, 也是现在各个媒体的呼吁, 专家型的评论人员将体育新闻评论的专业化提高了, 从而为体育新闻媒体树立了品牌。平民化是体育新闻评论的另一特色。不同的评论类型吸引着不同的受众群, 且评论所要传播的目的不尽相同。专家型的评论针对的是体育界从业人员和资深体育迷, 目的是为了体现专业媒体的水平, 以此扩大媒体的知名度。而平民化的体育新闻评论, 主要关注的是普通大众人群, 目的是为了打开更广阔的受众市场, 向人们普及体育知识, 在娱乐受众的同时, 还可以增加新闻评论的趣味性, 改变人们陈旧的新闻观念, 发掘体育新闻多样化的价值。所以, 大部分新闻媒体都会策划体育新闻传播的风格, 以满足不同层次受众的需求。

体育新闻评论的特征

体育新闻是新闻的一种, 和新闻有着共同的特征, 也是靠新闻媒介传播发展的。科技的进步使新闻媒介的传播手段和途径有了很大的转变, 新闻信息传播速度迅猛增长, 体现了体育新闻中新闻性的特征。新闻化的评论, 建立在新闻的基础上, 可以使新闻与评论互为补充、互相深化, 同时增加了报道的内容, 起到了一定的宣传效果, 使更多的人来关注体育新闻。体育新闻评论的特征主要有以下几点:

追求及时性。新闻的本质特征就是实时性, 而传统新闻只要求新闻价值在有效时间实现价值的保留, 而体育新闻的特点要求体育新闻评论和体育新闻一样, 追求时效性。

当今社会, 由于科学技术的进步, 新闻媒体和媒介的传播手段和途径都有了很大的发展, 这使得体育新闻传播的及时性特点逐渐凸显出来。体育新闻评论自产生以来就一直影响着人们的思想和行为, 体育新闻评论的及时性是体育新闻评论的重要支柱。所以, 体育新闻评论传播和发展的关键在于其评论的及时性, 它的及时性是吸引新闻受众群体的重要武器, 也已经成为各类体育媒体相互竞争的主要目标。

综观目前各类新闻媒体, 网络媒体以惊人的速度迅速发展, 使得体育媒体在新时期更加重视体育新闻评论的及时性。因此, 许多体育新闻媒体利用媒介开辟了体育新闻评论的栏目和板块, 加强了新闻的及时性和有效性。这些栏目和板块专门为近期或正在发生的体育新闻事件的经过、结果等问题进行讨论, 以便新闻和评论能同步进行。网络媒体在体育新闻评论发展中的作用尤为突出, 在比赛进行时, 网络媒体的编辑就可以边看比赛边写评论, 且不受媒体时间和传播空间的限制。

讲究针对性。现在新闻传播的方式已经不再单一化, 新闻媒介之间的竞争激烈, 从原有的独家新闻到后来的独家观点和角度, 新闻评论已经成为提升媒体品位的工具, 以致新闻媒体开始打造属于自己的传媒竞争力, 体育新闻评论也是如此。像一些市场化的报纸就产生了一些针对性的评论, 取得了良好的成效。体育新闻评论要具有评论的现实性和客观性, 值得注意的是, 体育新闻评论的价值和作用在于它与现实社会生活联系的紧密程度。新闻受众是新闻评论的接收者, 要了解新闻受众的兴趣所在, 而不是天马行空地进行报道, 要针对现实社会中存在的新鲜的、敏感的新闻话题, 能与大众关心的体育事件联系起来的话题进行评论。而随着社会和政治的发展变化, 社会新闻现象开始向复杂性和价值观的多元化发展。新闻受众要想了解新闻背后缘由的具体变化, 就需要新闻媒体去发现真相、宣传真相, 帮助受众了解体育新闻, 客观地分析体育事件, 有针对性地进行新闻评论。

新闻信息与评论的结合。社会的发展影响着新闻观念的发展变化, 体育新闻报道和体育新闻评论从各自独立发展开始慢慢走向结合, 相互传播、相互渗透, 把新闻评论和新闻信息有机地结合在一起。首先从板块制作上看, 一般来说, 体育新闻和体育新闻评论有自己独立的板块, 在媒介传播时, 同时出现在媒介版面, 突破了以往新闻信息在前、新闻评论在后的新闻观。新闻信息和评论的相互影响与相互作用, 使得体育新闻评论逐渐被人们重视起来, 并呈现出不同的发展趋势。部分体育新闻是依靠体育新闻评论而产生的报道, 如时评、评论员文章、按语等, 以发掘体育新闻背后的深层价值和意义, 从而提高体育新闻传播的影响力。另外, 从写作方式上看, 一些体育新闻评论者会在写作时, 将新闻信息和事实直接发表出来, 并将此作为立论的依据, 而后引起受众的热议。比如体育新闻评论会采用夹叙夹议的手法, 所以有时会很难区分是体育新闻稿件还是体育新闻评论。

体育新闻评论的现状

总体而言, 体育新闻评论已经开始有了多元化的发展, 并涉及社会的各个层面。

新闻话题的扩大化, 评论人员的多元化。浏览现在媒介所传播的体育新闻评论和发展, 体育新闻评论的话题不再局限于体育赛事, 一些评论者将社会的经济、文化、政治和法律等内容用于事例的比较或引用中。而关注体育新闻的人员也不仅仅是体育界人士, 涉及了社会各方面的人才。除专业学者和被评论者外, 还会邀请名人或对体育相当关注的业余评论者撰写, 以吸引体育新闻受众为目标, 使评论人员也向多元化发展。

从不同角度提出不同的意见。评论者的思维方式和想法都是不一样的, 评论者会选出受众比较关注的话题并进行讨论。当然同一话题, 评论者所站的角度不一样, 提出的见解也不一样。在评论中, 有解释说明的, 也有建议和深度研究的评论, 多种思想的融合呈现出多元化的观念, 从而满足受众不同方面的需求。

体育新闻评论的深化发展

体育新闻评论最初以传播为主, 来增加体育新闻的关注度。而随着评论的深化, 媒介开始引导受众独立解读。简单来说, 就是受众对发展的事件进行分析、解释并阐述自己的观点。比如, 对最近正在发生的新闻事件、现象进行分析性的解读, 并要求提出独家见解作为立论。随着现阶段体育新闻的发展, 将提出立论和深层解读结合起来, 成为新时期新闻评论的特点, 例如, “对艾冬梅出售体现自己人生价值的奖牌一事, 公众普遍表示了同情。不出意外, 艾冬梅将能赚到她所预计的租个柜台卖童装的启动资金”。

此事给人们带来了沉重的思考。目前我国注册的专业运动员约5万人, 在非奥运年有近万名运动员退役, 退役规模很大, 但得到“妥善安置”的却仅有千人左右。其他都只能进行所谓“一次性补偿”, 补偿金额由各地方体育局自己做主。可以说, 艾冬梅的境遇很有代表性。许多运动员在“举国体制”下也面临着同样的困难。这篇评论以运动员为线索, 延伸到我国体育体制的研究, 将事件发生的原因与社会的时代背景结合起来, 评论的观点明确而独特, 引起了社会的广泛关注。

当今我国体育新闻评论的发展势不可挡, 关键在于评论的力量。理性是评论的主要力量, 在理性的基础上加上明确而独特的观点, 就是一篇有价值的、成功的评论。在信息发展的时代, 体育新闻评论不仅要与新闻竞争, 还要扩展自己的覆盖范围, 为受众提供属于自身的独特观点和见解, 从而促进我国体育新闻评论的健康理性发展。

参考文献

[1]杜宏宇.体育评论的平民意识[J].记者摇篮, 2005 (6) .[1]杜宏宇.体育评论的平民意识[J].记者摇篮, 2005 (6) .

[2]郭超人.体育新闻选[M].北京:新华出版社, 1999.[2]郭超人.体育新闻选[M].北京:新华出版社, 1999.

广告评论广告词评论广告语评论第2篇

最垃圾的广告：电视直销广告

广告越来越多，其中不乏精彩之作，令人在十多秒钟中尽享视觉快感，但电视直销广告却反其道而行，冗长而乏

味，不但毫无创意，而且喋喋不休。乐邦利更因频频出镜而招致网民齐声讨伐;形象甜美的陈红做了一个减肥器直销

广告，差点成了最不受欢迎的广告明星。直销广告被讨厌的程度已经到了“声音太大了”的地步。

最东施效颦的广告：喜之郎的泰坦尼克号篇

什么东西都有抄袭或模仿的，广告当然不能幸免。犹记当年，一个说“长城电扇，电扇长城”，另一个便鹦鹉学舌说

“凤凰音响，音响凤凰”。《泰坦尼克号》在中国火了一把之后，众多广告人便打起了主意，有人要注册泰坦尼克号

商标;赵丽蓉更逗，还唱着《泰坦尼克号》主题曲在春节晚上露了一把脸。但这些都比不上喜之郎的“水晶之恋

泰坦尼克号篇”模仿得彻底而庸俗。甜俗的恋人形象，虚假的布景，整个感觉非常廉价。也许不是不能摹仿，只是难

以掌握分寸。

最令人感动的广告：沟通就是理解

这些年来广告不少，但真正让人感动的并不多。张艺谋在为爱立信拍了一条广告，一个年轻男孩儿从外地

回到家里，对父亲说要出去与朋友一起开心，父亲默默地点了点头。当男孩走到楼下时无意抬头，却见老爸正站在窗

前默默地观望着他。男孩儿轻轻地走了回去，对父亲说：今天我陪你吃顿饭。这段广告有三句广告词，细细琢磨都能

让人感动：“沟通就是爱”、“沟通就是理解”、“沟通就是关怀”。这对我们嚷着与父辈有“代沟”的新生代而言

，何尝不是一种震聋发馈的声音。

最让人“捏一把汗”的广告：摩托罗拉之飞跃无限

摩托罗拉以高空飞人来诠释跨越时空、“飞跃无限”理念的这一条广告真可以算得上是“以险取胜”的`典范。

一个胆气过人、沉着自信的白领在数百米高空抓住秋千大幅度摆动真有一种凌空出世、飞越天堑的潇洒豪迈之感

。该广告创意独特、诉求明确，且极好地调动了人们的心理感受，险则险矣，但非常到位。

最令人开心的广告：麦当劳的婴儿篇

让人在开心一笑中接受广告传递的信息，可谓成功之作。麦当劳在这方面得心应手。一个摇篮内的BB随着若隐若

现的麦当劳标志，时哭时笑，那份童真令人忍俊不禁。小孩用鱼来诱惑小猫，小猫就用薯条来诱惑小孩，也令人莞尔

。国内的许多广告也想让人开心，挖空心思想招，请笑星来做广告是最常见的，可惜陈佩斯的立白洗衣粉广告，赵本

山的“泄痢停”，赵丽蓉的“骨痛贴膏”广告，都让人笑不出来。

最令人愤怒的广告：菲利浦长城篇

前年，在上海的许多地铁站口，都矗立着这样一幅菲利浦手机广告，一个男人拿着菲利浦手机坐在长城上，男人

与手机之大、与长城之小形成对比。杭州一位经理看到后拍案而起，长城是中国的象征，这不是在糟蹋咱中国人吗?他

一状告到了上海工商局，菲利浦广告遭到查封。

在所有的广告中，再没有比伤害民族感情的广告更令中国人愤怒的了。通常国外商家也深知这一点，像万宝路、可口

基于商品评论信息的特征挖掘第3篇

关键词：LDA模型,挖掘,特征

引言

随着信息的进步和互联网的快速发展, 互联网上包括电子商务网站、社交网站、论坛、音/视频分享网站等也得到了迅速的发展, 使得大量的用户随时随地的进行短文本信息的更新、分享和评论。在各种各样的信息中, 评论信息是十分重要经典的一类。电子商务作为Web2.0时代兴起的一种互联网购物平台, 以其方便快捷的特性风靡全球。电子商务的快速发展也带动了越来越多的用户习惯在网站上购物消费, 购物网站也推出了为消费者提供发表评论的平台。用户在购物的过程中, 他们会对产品进行评论, 这些评论信息对商家和用户都显得十分重要, 一方面商家通过收集用户对商品的评论信息进行分析, 获取用户对产品质量及客服服务水平的相关信息, 帮助他们改进产品质量, 改变销售策略等, 满足用户喜好, 促进产品销售。另一方面为潜在的用户提供购物经验, 用户可以在购物之前可以通过浏览评论信息来决定是否购物。但是, 随着电子商务的蓬勃发展, 商品的评论信息数量飞速增长, 使得信息内容的非常庞杂, 以至于用户往往被庞大的评论信息淹没。因此, 迫切需要一种有效地技术手段来这一过程变得准确而便捷。

本文针对此问题提出一种对商品的评论信息中特征进行挖掘的方法。利用LDA[1,2,3] (Latent Dirichlet Allocation) 主题模型对评论信息进行特征挖掘, 实验表明, 该方法能够有效地对评论信息的特征进行挖掘出。

1. 相关工作

LDA模型是全概率生成模型, 是一种挖掘文本主题的方法, 可以识别大规模文档集 (document collection) 或语料库 (corpus) 中潜藏的主题信息。LDA模型采用了词袋 (bag of words) 假设方法, 即每一篇文档内的单词可以交换次序而不影响模型的训练结果, 从而将文本信息转化为了易于建模的数字信息。LDA模型在自然语言处理中受到了越来越多的关注, 目前已有研究将LDA模型应用到主题挖掘和情感分析中。

张晨逸等人[4]在LDA基础上提出了一种新的模型MB-LDA模型, 主要工作是对微博中潜在的主题进行挖掘, 实验结果表明效果很好。陈文涛等人[5]在构建用户兴趣上比较了三种不同的主题模型的性能, 此文的主要思想是定义用户下某个主题的生成概率反映了用户对该主题的喜好程度, 实验结果表明Twitter LDA适用于新文档或新用户的预测, Author LDA产生的主题具有较高的区分度, 而User LDA和Author LDA能更好地反映出用户的社交网络关系。孙艳等人[6]提出一种无监督的主题情感混合模型 (UTSU) , 并应用于文本情感分类中, 虽然孙艳等人用实验证明了在无监督分类中效果不错, 但在有监督分类中就很差。施乾坤等[7]提出了基于LDA模型挖掘招聘信息的技术主题, 主要针对招聘信息进行主题挖掘, 使用LDA模型与SVM相结合的方法对技术主题进行挖掘, 实验结果表明该方法能够有效的挖掘出招聘信息技术主题。基于此, 本文提出利用LDA模型进行建模对评论信息中的特征进行挖掘, 实验表明方法有效, 能够很好的挖掘评论信息中的特征。

2.LDA模型

LDA模型采用概率的产生式模型来对文本进行建模, 它的主要理论是每个文档都可以用一系列主题的混合分布表示;同时每个主题用所有单词概率分布表示。LDA可以用一个贝叶斯网络图表示[8], 如图1所示。LDA共有三层, 包含文档、主题和词三层结构。文档到主题服从Dirichlet分布, 主题到词服从Multinomial分布。

1文档层:对主题层而言, 文档集可以表示成M= (θ1, θ2, ..., θM) , 其中每一篇文档有一个向量θM= (zm, 1, zm, 2, ..., zm, k) 表示, zm, k表示主题k在文档m中生成的概率。

2 主题层:主题集θ= (z1, z2, ..., zk) 中zk都是一个基于单词集V的概率多项分布。

3 单词层:单词集V= (w1, w2, ..., wv) , 是从预料库中提取的单词。

根据LDA图模型很容易得到语料概率值如公式1所示。

LDA模型生成过程描述如下所示。

(1) 对主题采样φk, φk服从Dirichlet (β) 分布。φk代表主题k中词项概率分布。

(2) 对语料库中的第m个文档m∈[1, M]

(1) 采样θm, θm服从Dirichlet (α) 分布, θm代表的是主题发生的概率。

(2) 采样文档长度N服从Poiss (ξ)

(3) 对文档m中第n个单词n∈[1, N]:

a) 选择主题zm, n, zm, n服从Multinomid (θm) , zm, n代表当前选择主题。

b) 生成wm, n, wm, n服从Multinomial (φzm, n) , wm, n代表当前生成的单词。

3. 特征挖掘

本文为了获得评论信息中的特征, 首先需要对评论信息进行预处理, 然后对LDA模型进行建模挖掘出评论信息中的特征, 流程图如图2所示:

3.1 数据预处理

下载的数据是原始数据, 在做实验前必须做一项工作:数据预处理。首先对评论信息剔除停用词。停用词是一些代词和语气助词等常用词, 它们频繁出现但对特征挖掘没有帮助, 本文利用停用词典来进行剔除停用词。然后, 对评论信息进行中文分词, 统计文档-词的信息。最后, 修正评论信息的格式满足LDA模型的输入标准。

3.2 特征挖掘

将处理后的评论信息作为LDA的输入。通过LDA模型建模后, 可以得到评论信息的主题-词之间的分布关系, 通过词的分布就可以得到评论信息中的特征。通过分析用户关注的评论特征就可以做出更好的决策。

4. 实验结果与分析

本文采用的数据集来源于数据堂网站[9], 下载了2000篇分别关于酒店和电脑的评论数据作为实验语料集。本文选用的中文分词工具是ICTCLAS[10], LDA模型的参数设置:超参数α=50/k, β=0.1, 以上参数均为经验最优, 主题数k=10。

4.1 特征挖掘

根据LDA模型建模可以生成主题-词项分布, 就可以挖掘出评论信息中主题下最具有代表性的相关词项。限于空间, 只列出了部分主题词表, 关于酒店和电脑的主题-词。如图表1、2。从图表1、2上可以看到用户关注的特征。

1) 用户对酒店评论信息关注的特征包括房间、服务、床位价格、位置、环境等。

2) 用户对计算机评论信息的关注的特征包含屏幕、键盘、电池、散热、配置、无线信号等。

总体来说本文取得了不错的效果, 从LDA模型生成主题词表上观察各个相关的特征词, 可以更好地决策商家对产品的改善和走向。

5 结束语

本文对评论信息中隐含的信的特征词, 提出了一种利用LDA模型建模对评论信息进行挖掘的方法。通过LDA模型进行建模生成本文需要的相关特征词。

在以后的工作中将对评论信息的褒贬与特征关联起来进行研究。

参考文献

[1]Blei M, Lafferty J.Text Mining:Theory and App lic-ations[M].Chapter Topic Models, Taylor and Francis, London, 2009.

[2]Blei D M, Ng A Y, Jordan M I.Latent Dirchlet[J].Journal of Machine Learning Research, 2003, 3 (4/5) :993-1022.

[3]Steyvers M, Griffiths T, Probabilistic Topic Models[M].Latent Semantic Analysis:A Road to Meaning, Laurence Erlbaum, 2005.

[4]张晨逸, 孙建伶, 丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展, 2011 (10) :1795-1802.

[5]陈文涛, 张小明, 李舟军.构建微博用户兴趣模型的主题模型的分析[J].计算机科学, 2013, 4 (4) :127-135.

[6]孙艳, 周学广, 付伟.基于主题混合模型的无监督文本情感分析[J].北京大学自然学报, 2013, 1 (1) 102-108.

[7]施乾坤, 梁正友.基于LDA模型挖掘招聘信息的技术主题[J].计算机与现代化, 2013 (9) 46-49.

[8]Koller D, Friedman N.Probabilistic Gra-phical Modles:Pri-nciples and Techniques[M].MIT Press, 2009.

[9]数据堂.数据堂页面[EB/OL].http://data.com/2015-3-6.

评论特征第4篇

鍚勪綅浜茬埍鐨勫晢涓氳瘎璁虹綉浼氬憳锛岀敱浜庝腑绉嬪亣鏈熻皟鏁达紝HBR涓嬪崍鑼?鏈堟殏鍋滀竴娆★紝鏁鏈熷緟10鏈堟椿鍔紒

娉ㄥ唽鍟嗕笟璇勮缃戯紝璧犻€併€婃渚嬬簿閫夐泦銆?

闅忎究鐪嬬湅 | 鍏嶈垂娉ㄥ唽

鐢? 鎴凤細璁颁綇鎴?

瀵? 鐮侊細蹇樿瀵嗙爜鐧?褰?鎵炬枃绔?

鎸夊鍚? 鎸夎涓? 鎸夎亴浣?鎵惧崥鏂?鎵惧崥涓?鎼滀功绫?鎼滅櫨绉?鎼滈棶绛?棣栭〉

鍏徃瑙傚療

绠＄悊浜虹墿

鍟嗕笟鐜

鍘嗗彶浜烘枃

棰嗗鍔?

鎴樼暐

鍒涙柊

浜哄姏璧勬簮

閿€鍞笌钀ラ攢

鏇村

杩愯惀绠＄悊

閲戣瀺涓庢湇鍔?

淇℃伅鎶€鏈?

鏈嶅姟绠＄悊

鍒涗笟

缁勭粐琛屼负

鍙橀潻绠＄悊

鑷垜绠＄悊

浼佷笟绀句細璐ｄ换

缁煎悎绠＄悊

妗堜緥鍒嗘瀽

璇讳功

绠＄悊涓撴爮

绀惧尯

鐧剧

闂瓟

褰撳墠浣嶇疆锛?棣栭〉 >鍟嗕笟璇勮> 鏂囩珷

鍍忎箶甯冩柉涓€鏍峰幓婕旇

2浜哄垎浜鏂?浣滆€?鏉ㄦ緧鍙戣〃浜?2010-08-17

鍔犲叆鏀惰棌鐢甸偖缁欐湅鍙?鎵撳嵃鏂囩珷鍐欎俊缁欑紪杈?

鑻规灉绮変笣涔熸湁涓嶄拱鑻规灉甯愮殑鏃跺€欍€?009骞磋嫻鏋滃叕鍙哥殑骞村害Macworld澶т細灏遍伃鍒扮矇涓濈殑鎶楄锛岃姹傞€€绁紝鍘熷洜鏄嫻鏋滃叕鍙稿甯冧箶甯冩柉灏嗙己甯粬鎸佺画澶氬勾鐨勪富棰樻紨璁层€?

鈥滄垜杩樿寰?007骞达紝鏈変竴澶╂垜璺熷鐢ユ墦浜嗕竴涓嬪崍鐞冿紝鐒跺悗浠栬揩涓嶅強寰呭湴瑕佸洖鑷繁瀹讹紝鎷掔粷浜嗘垜璇蜂粬鍚冮キ鐨勯個璇枫€備粬閭ｆ椂鍊欏垰浠庨珮涓瘯涓氾紝鎴戞兂浠栨槸涓嶆槸绾︿簡鏈嬪弸瑕佸幓闂查€涖€傛垜鐚滀腑浜嗕竴閮ㄥ垎锛屼粬鐨勭‘绾︿簡鏈嬪弸鍘婚棽閫涳紝涓嶈繃閫涚殑鍦版柟灏卞湪鑻规灉鍟嗗簵闂ㄥ彛锛屼粬浠粨浼村湪閭ｉ噷鎺掗槦绛夌潃iPhone鍙戝敭銆傗€濅箶甯冩柉鐨勮嫻鏋滃紩鐖嗕簡鍏ㄤ笘鐣屾嫢瓒稿績涓寔缁殑鐑儏锛岃€岄珮娼鏄粠閭ｆ琚崱杩堟仼鈥ㄪ姞娲涚О涓衡€滄渶妫掔殑涔斿竷鏂紨璁测€濆紑濮嬬殑銆?

鈥滃鏋滀綘鎯崇湅闈炲嚒鐨勬紨绀猴紝閭ｅ氨搴旇鐪嬮偅娆Phone鍙戝竷浼氫笂鐨勪箶甯冩柉銆傛垜鍦ㄤ功涓杩欎竴閮ㄥ垎鍋氫簡寰堝叏闈ㄬ殑鍒嗘瀽锛岄偅娆″睍绀虹殑鍗庡僵閮ㄥ垎鍦ㄤ簬涔斿竷鏂iPhone鍑哄満鐨勪粙缁嶃€傗€濆姞娲涘叴濂嬪湴璇淬€傚湪鍙戝竷浼氫笂锛屼箶甯冩柉骞舵病鏈夎崏鑽夊甫杩囧紑鍦衡€斺€斺€滅幇鍦ㄦ垜浠湁浜嗕竴閮ㄤ护浜烘縺鍔ㄧ殑鐢佃瘽锛屾垜鐜板湪鍚戝ぇ瀹朵粙缁嶏紝杩欏氨鏄??鈥濃€斺€旂劧鍚庣洿濂攊Phone鐨勫姛鑳戒粙缁嶏紝鑰屼笖璐瑰敖绗斿ⅷ浠ュ彇鎮﹀惉浼椼€備箶甯冩柉璇达細鈥滄垜浠鍚戝ぇ瀹朵粙缁嶄笁娆鹃潻鍛芥€х殑浜у搧锛氫竴涓柊鐨刬Pod锛屼竴閮ㄧ數璇濓紝杩樻湁涓€鍙扮綉缁滀氦娴佽澶囥€傛槑鐧藉悧?杩欐槸涓€涓澶囷紝鎴戜滑鎶婂畠绉颁箣涓篿Phone銆傗€濆湪鍦虹殑鍚紬鍙戝嚭娆ㄪ懠澹帮紝鍔犳礇璇达細鈥滀箶甯冩柉婊￠潰绗戝锛屼粬褰诲簳璧ㄪ緱浜嗗惉浼楋紝杩欐槸澶氫箞娆ｆ叞鍜岃嚜璞殑浜嬫儏銆傗€?

鍔犳礇鏇炬槸涓€鍚嶇數瑙嗘柊闂诲伐浣滆€呫€傗€滃湪UCLA鍜岃タ鍖楀ぇ瀛﹀畬鎴愬涓氫互鍚庯紝鎴戝綋浜?5骞寸殑鐢佃鑺傜洰涓绘寔浜猴紝涔嬪悗鍋氫簡CNN鐨勮储缁忔柊闂昏鑰呫€傗€濆姞娲涚儹鐖卞獟浣撳伐浣滐紝鈥滀絾鏄仛濯掍綋涓嶈兘閲婃斁鎴戞墍鏈夌殑鐑儏锛屼笌鎶ラ亾涓€瀹跺叕鍙哥浉姣旓紝鎴戞洿鎯宠嚜宸卞幓杩愪綔涓€瀹跺叕鍙搞€傗€濅綔涓哄獟浣撹鑰咃紝鍔犳礇鍙戠幇锛屼竴閮ㄥ垎鍙備笌鑺傜洰褰曞埗鐨勪紒涓氶珮绠″拰璁胯皥鍢夊鎬绘槸浼氳閲嶅閭€璇凤紝鈥滀粬浠殑鍏卞悓鐐规槸锛岄兘寰堝

杽浜庤鏁呬簨锛屼竴浠朵簨鎯呯粡杩囦粬浠殑鎻忚堪寰€寰€鍙樺緱娓呮銆佹槑鐧斤紝鑳藉敜璧峰惉浼楃殑鐑儏銆傗€濆姞娲涘紑濮嬩簡鈥滃獟浣撹缁冣€濈殑瀹炶返锛屽紑濮嬩负浼佷笟楂樼鎺ュ彈濯掍綋璁块棶鍋氬煿璁€傗€滃獟浣撹缁冩槸鎴戞墍浠庝簨鐨勫伐浣滅殑寰堝皬涓€閮ㄥ垎锛屼絾鏄叾涓殑寰堝鎶€宸ф槸閫傜敤浜庢墍鏈夊晢鍔℃矡閫氱殑銆傗€?

鍏跺疄鍔犳礇浠?005骞村氨寮€濮嬬爺绌朵箶甯冩柉鐨勬紨璁叉妧宸с€傗€?007骞达紝鍦ㄤ粬鐨刬Phone婕旇涔嬪悗锛屾垜娣卞彈闇囧姩銆傚鏋滆1984骞寸殑涔斿竷鏂湁闈炲嚒鐨勫彿鍙姏锛岄偅涔?007骞碝acworld澶т細涓婄殑涔斿竷鏂凡鐒舵垚涓轰竴浣嶅畬缇庣殑婕旇鑰呫€傛垜缁欍€婂晢涓氬懆鍒娿€嬪啓浜嗕竴绡囨枃绔狅紝鍚庢潵鍙堝氨鍚屼竴涓瘽棰樺啓浜嗕竴绯诲垪鐨勬枃绔狅紝鏂囩珷鍙嶅搷涓嶉敊锛屾垜鍙戠幇浜轰滑瀵硅繖鏂归潰鐨勫唴瀹瑰緢鎰熷叴瓒ｏ紝閭ｄ簺鏄庣櫧鍏舵剰涔夌殑浜烘兂鎴愪负鏇村嚭鑹茬殑婕旇鑰咃紝涓轰粈涔堜笉浠庡仛寰楁渶濂界殑浜洪偅閲屽鍛?涔斿竷鏂槸鍏ㄤ笘鐣屼紒涓氬涓渶浼氳鏁呬簨鐨勪汉銆傚湪杩囧幓鐨?0骞撮噷锛屼粬宸茬粡鎶婁骇鍝佸彂甯冨拰灞曠ず鍙戝睍鎴愪负涓€闂ㄨ壓鏈€傛墍浠ユ垜鍐冲畾鍦?009骞村啓涓€鏈功銆傗€? 婕旇鎶€宸у凡缁忔垚涓虹幇瀹炵殑鍟嗗姟娌熼€氬伐鍏凤紝婕旇瓒婄簿褰╋紝缁欏鎴峰拰鍚屼簨鐣欎笅鐨勫嵃璞′篃灏辫秺娣便€傗€滄垜璁板緱鎴戞浘缁忕湅杩囦竴鏈珺ill Lane鍐欑殑涔︼紝浠栨槸鍓岹E

CEO鏉板厠鈥ㄮ煢灏斿鐨勮绋垮啓鎵嬨€備粬璇村湪闊﹀皵濂囧甯冮€€浼戜箣鍚庯紝鏈€缁堟垚涓篊EO鍊欓€変汉鐨勯兘鏄湪GE鍏鐨勬紨璁查珮鎵嬨€傗€?

鍔犳礇鍥為【鑷繁鐨勮亴涓氱敓娑紝瀵逛簬浠栬嚜宸卞苟娌℃湁浠€涔堝嵃璞＄壒鍒繁鍒荤殑浜嬫儏锛屽摢鎬曟槸鏇剧粡鑾峰緱缇庡浗鐢佃鑹剧編濂栵紝鍙嶈€屾槸閭ｄ簺鏇剧粡浜ゆ祦鐨勫槈瀹俱€佹紨璁茶€呯粰浠栫暀涓嬩簡娣卞埢鐨勫嵃璞°€傗€滀粬浠腑寰堝浜洪兘鏄矡閫氫氦娴佺殑琛屽閲屾墜锛屼粬浠墍鐢ㄧ殑璇嶆眹浠ュ強缁勭粐璇嶆眹鐨勬柟寮忛兘浠ゆ垜婵€璧忥紝涔斿竷鏂氨鏄粬浠叾涓殑涓€浣嶃€傗€?

鈥滀箶甯冩柉鐨勬紨璁插儚涓€鍑烘垙鍓ф€х殑琛ㄦ紨鈥?

鈥滀紭绉€鐨勫皬璇村涓嶄細鍦ㄥ皬璇村紑濮嬬殑绗竴椤靛氨娉勯湶鍏ㄩ儴鐨勬儏鑺傚拰缁撳眬锛屼粬浼氶€氳繃鎱ㄫ參鍫嗙Н绱犳潗銆佸偓鍖栨儏缁潵瀹炵幇銆傗€濆姞娲涜銆備箶甯冩柉鐨勬紨璁插線寰€鏄粠鍥為【鍜岃瘎浠疯嫻鏋滃凡缁忓垱閫犲嚭鐨勨€滈潻鍛芥€р€濅骇鍝佸紑濮嬶紝瀵逛粬鏉ヨ锛屸€滈潻鍛芥€х殑浜у搧鎬绘槸缁撲即鍚岃锛岀浉缁у埌鏉ャ€傝嫻鏋滃叕鍙稿緢骞歌繍锛屽凡缁忎负杩欎釜涓栫晫鍒涢€犱簡瀹冧滑褰撲腑鐨勪竴閮ㄥ垎銆傗€濆湪2001骞磇Pod鐨勫彂甯冧細涓婏紝涔斿竷鏂洖椤句簡1984骞磋嫻鏋滄帹鍑洪害閲戞墭浠€鐢佃剳锛屽畠鏀瑰彉浜嗘暣涓數鑴戣涓?鑰宨Pod鐨勫嚭鐜板垯鏀瑰彉鏁翠釜闊充箰浜т笟銆?

鍦ㄨ儗鏅殑閾洪檲涔嬪悗锛屼箶甯冩柉鐢ㄤ竴绉嶆垙璋戠殑鏂瑰紡鏉ュ悐鍚紬鐨勮儍鍙ｃ€傗€滃氨鍍忎粬鍦ㄥ彂甯僫Phone鏃舵墍鍋氱殑閭ｆ牱锛屼粬璋冧緝鍚紬锛岃缃偓蹇碉紝鏈€缁堝嚭鐜扮殑iPhone褰诲簳棰犺浜嗗ぇ瀹剁殑棰勬湡銆傗€濆綋澶у睆骞曚笂鍑虹幇iPhone鐨勫浘鐗囷紝涔斿竷鏂锛屼粖澶╄嫻鏋滈噸鏂板彂鏄庝簡鎵嬫満銆傗€滀箶甯冩柉鍍忛┚椹竴鏀氦鍝嶄箰闃熶竴鏍锋帶鍒舵紨璁茬殑鑺傚锛屾湁璧蜂紡锛屾湁娓愬彉锛屾湁楂樻疆锛屾渶鍚庝负鍚紬鍒涢€犱竴涓剰鏂欎箣澶栫殑缁撴灉銆傗€?

涓嶄粎鏄紨璁茬殑鍐呭锛屼箶甯冩柉閫氳繃鑷繁澹伴煶鐨勬姂鎵】鎸紝鎺屾帶鐫€鍚紬鐨勫叴濂嬬偣銆傗€滆繖鏄竴涓紭绉€鐨勬紨璁茶€呭繀椤诲叿澶囩殑鎶€宸э紝鑷鍦板彉鍖栬閫燂紝鍦ㄦ伆褰撶殑鏃堕棿鎻愰珮鎴栬€呴檷浣庡０璋冦€傗€濆綋浠栧洖椤捐繃鍘诲紑鍦虹殑鏃跺€欙紝璇€熸參锛屽０闊充綆锛岀敋鑷虫槸浠ヤ竴绉嶈唉鍗戠殑璇皵鍦ㄨ璇濓紝杩欐牱鐨勫０璋冧竴鐩村欢缁埌浠栧鍛奿Phone鐨勮癁鐢熴€?

鈥滀竴寮犲够鐏€佷竴涓鐐癸紝杩欐槸鏈€鏈夊姏鐨勬柟寮忋€傗€濆姞娲涜銆備箶甯冩柉鍦ㄤ粙缁嶉偅涓夋鈥滄棤涓敓鏈夆€濈殑浜у搧鏃讹紝骞舵病鏈夌敤涓€寮犲够鐏睍绀哄嚭涓夌浜у搧锛屼粬涓烘瘡涓骇鍝侀兘鍒朵綔浜嗕竴寮犲够鐏紝瀹藉睆iPod銆佹墜鏈恒€佺綉缁滀氦娴佽澶囷紝姣忓紶骞荤伅涓婂嚭鐜颁竴绉嶄骇鍝佺殑鍥剧墖銆傗€滅湡姝ｆ湁鏁堢殑婕旇骞荤伅锛屾瘡寮犲彧浼犺揪涓€涓俊鎭€傚浜庣湡瀹炵殑淇℃伅鏄繖鏍凤紝瀵逛簬閭ｄ簺鏈夋剰鍒堕€犳晥鏋溿€佹覆鏌撴皵姘涚殑淇℃伅涔熶竴鏍枫€傗€濆姞娲涜銆傚浜庡够鐏墖鎵€灞曠ず鐨勫唴瀹癸紝涔斿竷鏂篃鏋佸敖绠€鍖栵紝娌℃湁瑕佺偣鎻愮ず锛屼篃涓嶇敤鍐楅暱鐨勬暟鎹紝灏藉彲鑳藉彂鎸ュ浘鐗囩殑瑙嗚浣滅敤銆傗€滀汉鏇村杽浜庡浘鐗囪蹇嗭紝鑰岀畝鍖栫殑鍐呭鏇村鏄撹鍚紬鍏虫敞婕旇鑰呮墍璇寸殑璇濄€傚お澶氭枃鏈細鍒嗘暎鍚紬鐨勬敞鎰忓姏锛屾墍浠ユ紨璁茶€呭湪鍑嗗骞荤伅鐗囨椂搴旇鏄浘鐗囧鍚戯紝涓撴敞鍏抽敭鐐广€傗€?

鍦╥Phone鍙戝竷鐨勬椂鍊欙紝涔斿竷鏂娇鐢ㄤ簡澶ч噺鐨勫舰瀹硅瘝鏉ユ弿杩拌繖涓€鏂颁骇鍝侊紝鍖呮嫭鈥滈潪鍑＄殑鈥濄€佲€滈潻鍛芥€х殑鈥濄€佲€滈叿鐨勨€濓紝瀵硅Е灞忔妧鏈紝浠栫敋鑷充娇鐢ㄤ簡鈥滈瓟骞讳箣浣溾€濈殑璇存硶銆傚姞娲涜锛氣€滃鏋滀綘鐩镐俊浣犵殑鐙壒浜у搧鍜屾湇鍔′細鏀瑰彉涓栫晫锛岄偅灏辩洿鎺ヨ鍑烘潵銆傚緢澶氭紨璁茶€呴兘瀹虫€曞湪浠嬬粛鑷繁浜у搧鐨勬椂鍊欏お澶稿紶锛屽彉鎴愯嚜鍚硅嚜鎿傦紝浜庢槸浠栦滑璧板埌浜嗗彟涓€涓瀬绔紝璁╂紨璁查潪甯告棤瓒ｃ€備綘涓轰綘鐨勪骇鍝併€佹湇鍔°€佷紒涓氭縺鍔ㄥ叴濂嬶紝閭ｅ氨鐩存帴鍛婅瘔浣犵殑鍚紬銆備綘瑕佸厑璁歌嚜宸遍噴鏀捐繖鏍风殑鐑儏锛岃〃杈惧嚭鏉ヤ负鑷繁鎵句箰銆傗€?

鈥滀箶甯冩柉涔熸槸缁冨嚭鏉ョ殑鈥?

涔斿竷鏂苟娌℃湁鎶婃紨璁茬殑鎴愬姛褰撳仛鎯冲綋鐒剁殑浜嬶紝浜嬪疄涓婏紝闀挎椂闂寸殑鎺掔粌鎵嶆崲鏉ユ紨璁茶繃绋嬩腑琛ㄩ潰涓婅交鏉俱€佷笉鎷樺皬鑺傚拰浜插拰鍔涖€備箶甯冩柉閫氬父鎻愬墠鍑犱釜鏄熸湡灏卞紑濮嬩负婕旇鍋氬噯澶囷紝妫€鏌ヨ灞曠ず鐨勪骇鍝佸拰鎶€鏈€傗€滀竴涓師鑻规灉鍏徃鐨勫憳宸ユ浘缁忓洖蹇嗚锛岃繖浜涙紨璁茬湅涓婂幓鍙槸涓€涓韩绌块粦鑹蹭笂琛ｅ拰钃濊壊鐗涗粩瑁ょ殑浜哄湪璋堣鏂扮殑鎶€鏈骇鍝侊紝鐪熷疄鎯呭喌鏄瘡鍦烘紨璁查兘鍖呭惈浜嗕竴鏁村澶嶆潅銆佺簿缁嗙殑鍟嗗搧瀹ｄ紶銆佷骇鍝佸睍绀恒€備负浜?鍒嗛挓鐨勮垶鍙版紨绀猴紝浠栫殑鍥ㄮ槦鏇剧粡鑺变簡鏁扮櫨涓皬鏃跺仛鍑嗗銆傗€濆姞娲涜銆傛紨璁插墠锛屼箶甯冩柉鐢ㄦ暣鏁翠袱澶╃殑鏃堕棿鍙嶅褰╂帓锛屽挩璇ㄪ湪鍦轰骇鍝佺粡鐞嗙殑鎰忚銆傚湪骞荤伅鐗囧埗浣滄柟闈紝浠栦翰鑷挵鍐欏苟璁捐浜嗗ぇ閮ㄥ垎鍐呭銆傜浉鍙嶅湴锛屸€滄垜鑳藉垪涓惧嚭涓€澶у爢浼佷笟CEO銆侀珮绠★紝浠栦滑闈掔潗鍗冲叴婕旇銆傝繖璁╂垜寰堝鎬紝浼佷笟鐨勯瀵艰€呰姳璐瑰ぇ閲忕殑閲戦挶鏉ヨ璁′骇鍝佸彂甯冦€佹妧鏈紨绀猴紝浣嗘槸鍦ㄤ复闂ㄤ竴鑴氱殑鏃跺€欙紝浠栦滑鍗存病鏈夋椂闂村僵鎺掋€傗€?

褰撳勾涔斿竷鏂鍦ㄤ负鍙戝竷iMac杩涜褰╂帓锛屾寜鐓ц璁★紝浠栬瘽闊充竴钀斤紝鏂版鐨刬Mac浠庝竴鍧楅粦鑹插箷甯冨悗闈ㄫ粦鍑恒€備箶甯冩柉瀵瑰綋鏃剁殑鐓ф槑鐘跺喌涓嶆弧鎰忥紝浠栧笇鏈涘厜绾挎洿浜竴浜涳紝鍑虹幇寰楁洿蹇竴鐐广€傜収鏄庢紨绀虹殑宸ヤ綔浜哄憳涓€閬嶅張涓€閬嶈皟璇曪紝濮嬬粓涓嶈兘璁╀箶甯冩柉婊℃剰锛岃€屼粬鐨勬儏缁篃瓒婃潵瓒婄碂銆傛渶鍚庣粓浜庤皟璇曞ソ浜嗭紝涔斿竷鏂湪绀煎爞閲屽叴濂嬪緱鐙傚彨銆傗€滃鍚屼箶甯冩柉鐨勬湅鍙嬫墍璇达紝浠栬拷姹傚搧璐ㄧ殑鎬佸害杩戜箮绁炵粡璐ㄣ€傛垜浠簲璇ユ兂涓€鎯筹紝鏈€鍚庝竴娆′负鍑嗗婕旇杩涜绛嬬柌鍔涘敖鐨勬帓缁冩槸浠€涔堟椂鍊?绛旀涔熻鏄紝浠庢潵娌℃湁銆傗€濆姞娲涜銆? 鏈枃鏉ユ簮銆婂晢瀛﹂櫌銆嬫潅蹇楀師鍒涙枃绔狅紙.cn锛夈€傛湰鏂囬鍙戝湴鍧€锛堝師鏂囬摼鎺ワ級锛歨ttp://bmr.cb.com.cn/1635916/20100806/142201_2.html

[鏍囩锛?鑻规灉涔斿竷鏂?婕旇鎶€宸?]

鍒嗕韩杩欑瘒鏂囩珷锛?

2浜哄垎浜鏂?澹版槑锛氭湰鏂囩敱

鍟嗕笟璇勮缃慼ttp://锛堣浆杞借淇濈暀锛夋嫢鏈夌増鏉冩垨鐢卞唴瀹瑰悎浣滀紮浼存巿鏉冩彁渚涳紝鏈粡鍟嗕笟璇勮缃戜功闈ㄭ鍙紝瀵逛簬鍟嗕笟璇勮缃戞嫢鏈夌増鏉冨拰/鎴栧叾浠栫煡璇嗕骇鏉冪殑浠讳綍鍐呭锛屼换浣曚汉锛堝寘鎷崥瀹ㄪ強涓汉绌洪棿锛変笉寰楀鍒躲€佽浆杞姐€佹憳缂栨垨鍦ㄥ晢涓氳瘎璁虹綉鎵€灞炵殑鏈嶅姟鍣ㄤ笂鍋氶暅鍍忔垨浠ュ叾浠栦换浣曟柟寮忚繘琛屼娇鐢ㄣ€?

鐩稿叧鏂囩珷

鍍忎箶甯冩柉涓€鏍峰幓婕旇 濡備綍鍦ㄦ紨璁叉椂涓嶇揣寮狅紵椹簯锛氬鍟嗕汉婕旇鐨勬妧宸?闄嗗厠鏂囧叧浜庢眽瀛︾殑婕旇 涔斿竷鏂細鑷浉鐭涚浘鐨勮嫻鏋滅伒榄?涔斿竷鏂€掗獋鑳屽悗锛氳嫻鏋滀笌Google鐨勬垬浜?

鑻规灉鐨勬垚鍔熸ā寮?鑶滄嫓iPhone涔斿竷鏂祼缁欒嫻鏋滄暀寰掓柊鍥捐吘鏋勬兂銆佹斂绛栬惤瀹炵殑鎶€宸?浜ゆ湅鍙嬬殑11涓皬鎶€宸?鏉庡帤闇栵細鍒涗笟璺笂濡備綍淇偧蹇冪伒鑻规灉鐨勪笅涓€娆￠潻鍛?鐩稿叧鍗氭枃

绱ㄬ綏鏂紨璁诧細鏈潵鐨勮矾涓€浣嶆禉澶ф暀鎺堜护浜哄瘨蹇冪殑婕旇锛氫絾璇村嚭浜嗙湡璇濓紒鍟嗕笟鎬濈淮锛氶粍鑰佸笀鐨勬紨璁?鏂囧寲绔炰簤鍔涒攢鈹€閭甸殕鍥惧厛鐢熷湪鏄嗗北鏂囧寲鎺ㄤ粙浼氫笂鐨勬紨璁?

濡備綍閫傚簲涓€涓柊浼佷笟鈥斺€斿湪鏂板憳宸ュ煿璁細涓婄殑婕旇 鏈卞ぇ鍙紨璁茬锛氶粦鑹叉剰蹇楃殑鑳滃埄姊﹀紑濮嬬殑鍦版柟銆愬湪09骞村叕鍙稿勾涓細璁笂鐨勬紨璁层€?浠庝箶甯冩柉鍋ュ悍闂鍙嶈鑻规灉鍝佺墝绐樺

鏈辨＃鏂囨紨璁茬2009骞?[杞浇]鏈辨＃鏂囧湪鍝堜經澶у姣曚笟鍏哥ぜ涓婄殑婕旇 濂ュ反椹湪鏃ユ湰涓滀含鐨勬紨璁?濯掍綋璐拱璋堝垽鎶€宸?

鍏?浜鸿俯杩囨湰鏂囷紝浠栦滑鏄細

鐭虫槸鐭?

鏌ョ湅娆℃暟锛?985 娆?韪╀竴鑴?

璇昏€呰瘎璁?锛堣瘎璁哄唴瀹逛负缃戝弸閽堝鏈瘝鏉″睍寮€鐨勮璁猴紝涓庢湰缃戠珯鐨勮鐐圭珛鍦烘棤鍏炽€傦級

1/11

鎴戞潵璇勮

鎮ㄨ繕娌℃湁鐧诲綍锛岃鐧诲綍鍚庡彂琛ㄨ瘎璁恒€?

鐢? 鎴?璁颁綇鎴?

瀵? 鐮?鐧?褰?

蹇樿瀵嗙爜 |鍏嶈垂娉ㄥ唽銆婂晢瀛﹂櫌銆?

璇ュ叕鍙稿叾浠栬鐐?

鑻辩壒灏旂殑璺ㄧ晫钀ラ攢涔嬬瓥

鏉ㄥ浗瀹夛細鍙疯剦缁勭粐鑳藉姏寰堝叧閿?

濡備綍璺熸暟瀛楁柊涓栦唬鎵撲氦閬?

褰撴秷璐硅€呬笉鍐嶅睘浜庝綘

TCL锛氳瘖鏂拰娌荤枟鈥滃ぇ浼佷笟鐥呪€?

鐑棬鏍囩

鐧惧害鍒涙柊鐢佃鏈嶅姟绠＄悊缁忔祹缁忕悊鑱旂郴浼佷笟娣卞湷甯傚満淇?

闆呰檸涓氬姟钀ラ攢鎴樼暐涓浗鍜ㄨ

濂芥枃鎴戞潵鎺?

闆ㄤ腑鏇?鎺ㄨ崘鍗氭枃锛氫竴鐢熶笉鍙皯鐨勫叓绉嶆湅鍙?[杞琞

闆ㄤ腑鏇?鎺ㄨ崘鍗氭枃锛氬樊鍒吹璐变箣婧?

闆ㄤ腑鏇?鎺ㄨ崘鍗氭枃锛氫汉鐢熺殑鎰忎箟

liaoyi 鎺ㄨ崘鍗氭枃锛氬埄浠栫珵浜夊姏

闆ㄤ腑鏇?鎺ㄨ崘鍟嗕笟璇勮鏂囩珷锛氭湁鍏宠鍩轰簹鏂颁换CEO鐨勪簲澶х枒闂?

鐩稿叧涔︾睄

涔斿竷鏂殑榄斿姏婕旇

杞绘澗鍋氭紨璁?

娲荤潃灏变负鏀瑰彉涓栫晫锛氬彶钂傚か路涔斿竷鏂紶

鍍忓反鑿茬壒涓€鏍蜂氦鏄?

鑻规灉浼犲锛堢2鐗堬級

鍏充簬鎴戜滑鑱旂郴鎴戜滑鏈嶅姟鏉℃ 骞垮憡涓氬姟鐗堟潈澹版槑缃戠珯鍦板浘鍙嬫儏閾炬帴鍔犲叆鎴戜滑|

鍚堜綔浼欎即锛?涓浗浼佷笟瀹剁綉缁忕悊涓栫晫缃?鍗氬涓浗缃?浠峰€间腑鍥界綉缁忔祹瑙傚療缃?鑻辨墠鏉傚織姣忔棩缁忔祹鏂伴椈鍜岃缃?鐣呬韩缃?鎶曡祫涓浗缃?銆婃姇璧勪笌鍚堜綔銆?鏃朵唬鍛ㄦ姤

鍒涗笟瀹剁綉澶栨哗鐢绘姤涓浗闆呰檸璐ㄫ柊缃?鐜悆浼佷笟瀹?鍒舵収缃?21涓栫邯缃?鑻ラ偦缃?鎼滅嫄璐ㄬ粡缃戞槗璐ㄬ粡涓浗缁忚惀缃?涓€璐ㄬ綉缇庨€氱綉(浜氭床)鍒涗笟閭?

鍖椾含涓浼佷笟浜哄姏璧勬簮鍗忎細 CNBC涓枃缃?瀛﹀尯鎴跨綉缁忕悊浜哄垎浜珯銆婂煿璁€嬫潅蹇?

基于潜在特征的汽车评论要素挖掘第5篇

随着互联网和信息行业的发展,数据已经渗透到当今每个行业和业务职能领域,成为重要的生产因素,与此同时,汽车行业作为已有百年历史的传统产业,也在“互联网+”的时代趋势下进行着新一轮的产业革新。本文将对网络采集的汽车评论数据,利用文本挖掘技术进行分析。

当前,各汽车垂直网站中的评论数据多为文本数据,数据量大,结构复杂,并且包涵了众多无效信息。事实上,对于汽车评价数据的不同维度,人们更多关注其中真正有价值的部分,即一段评论的评论要素。现有的汽车评论要素识别方法考虑的特征有限,本文通过将评论要素挖掘建模为序列标注问题,综合考虑多个特征,提出基于潜在特征的挖掘模型识别评论要素。

2 相关工作

2.1 评论要素概述

评论要素包括评价对象与评价词,评价对象是每一评论文本中的主题,评价词为评价对象所对应的描述。如在汽车的评论数据中,有:“外观沉稳大气,空间够宽敞,价格刚好在接受范围之内。”

该评论共有三个分句,主题分别为“外观”、“空间”、“价格”,即可作为该评论的三个评价对象,评价对象能够与各自对应的评价词构成<“外观”,“沉稳大气”>、<“空间”,“够宽敞”>、<“价格”,“刚好在接受范围之内”>的<评价对象,评价词>的二元组。本文的目标是提出一种基于潜在特征的模型,挖掘文本评论数据中的评论要素。

2.2 评论要素识别方法

2.2.1 基于规则的评论要素识别方法

在研究初期,评论要素的抽取主要是基于规则的方法,这些规则的制定通常需要借助包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注在内的自然语言处理技术。

Hu和Liu[1]标注待分析文本中的名词,通过Apriori算法发现其中词频较高的为评价对象,再确定评价对象临近的形容词为其评价词。

Popescu和Etzioni[2]对算法进行了进一步地优化,通过定义句式结构标识词来计算名词短语与这些标识词间的互信息(PMI),PMI可以表示词间的共现关系,PMI较小则词间共现次数较低,即该名词短语为评价对象的可能性较低,过滤这些非评价对象的名词在一定程度上可以提升算法的准确度。

Blair-Goldensohn等[3]考虑了文本中频繁出现的名词短语,对文本的不同语句标以不同权重,统计这些名词短语的出现频率并对其进行权重排序,仅抽取权重较高的部分作为评价对象。

Scaffidi等[4]通过比较名词短语在待分析文本中出现的频率与在普通语料库出现的频率,识别真正有意义的评价对象。

基于规则的方法本质在于计算频率,虽然较为简单,但可以有效地识别出频繁细粒度评论要素;然而该方法过于依赖规则,具有一定的局限性,并且规则的覆盖范围难以掌握,评论要素的抽取效果在多种情况下难以保证全局最优。

2.2.2 基于机器学习的评论要素识别方法

基于机器学习的方法需要事先标注训练语料,但准确率高且泛化能力强。目前的主流算法包括条件随机场(CRF)和隐马尔可夫模型(Hidden Markov Model,HMM)。序列标注模型通常采用HMM,但HMM中存在两个假设:输出独立性假设和马尔可夫性假设。其中,输出独立性假设要求序列数据严格相互独立,而事实上大多数序列数据不能被表示成一系列独立事件。相较而言,CRF则无需非常严格的独立性假设,能够有效解决标注偏置的问题,而且可以灵活引入多种特征,所有特征进行全局归一化,最终实现更好的抽取效果。

CRF是典型的判别式模型,线性链CRF模型如图1所示:

其中X=(x1,x2,…,xn)表示观察序列,Y=(y1,y2,…,yn)表示状态序列,通过训练模型可以得到状态序列的条件概率。在评价对象预测实例中,文本数据分词得到的w1,w2,…,wn作为观察序列输入CRF模型,输出对应的状态序列l1,l2,…,ln,以B、I、O形式的标签表示。B为预测评论要素的开头部分,I为中间部分,O为其他部分。

Jakob和Gurevych[5]将评价对象抽取问题建模成序列标注问题,引入词性、依存句法、意见句等特征,在不同领域训练CRF模型,以得到更独立的训练结果。

徐冰[6][7]等先后采用了N-gram、词性、词典特征及词、词性、上下文特征、位置特征、浅层句法特征对COAE2008评价对象抽取任务的语料进行抽取。

王中卿[8]等考虑了词、词性、依存关系等特征,最终在COAE2011评价搭配抽取任务中F值排位第一。

基于机器学习的方法在训练数据充足的情况下可以取得较好的结果,但训练数据所耗费的代价较大。本文设计了潜在特征来训练模型,在保证模型可靠性的原则上降低了训练成本。

3 基于潜在特征的评论要素挖掘模型

3.1 评论要素的特征

3.1.1 序列特征

评论要素以序列形式排布在评论数据中,具有序列特征。如在评论文本“大排量好费油”中,包括评价对象“排量”及其评价词“大”与“好费油”。然而由于分词的不同,可分为“大排量/好费油”,“大排量好/费油”,不同的序列切分导致了不同的语义,因此,本文将评论要素的识别建模成一个序列标注问题。

3.1.2 语境特征

评论数据中的上下文形成语境,语境对评论要素的识别有重要影响。一方面,不同语境中相同的词可能在评价对象与评价词的识别中互相转换;另一方面,评价对象与评价词的关联关系对于同时识别评价对象和评价词有重要作用。如“空间大”中评价对象“空间”的语境是“大”,评价词“大”的语境是“空间”,当确定“大”是评价词时,很容易找到相应的评价对象“空间”。本文将利用语境特征同时识别评价对象与评价词。

3.1.3 语义特征

传统的评论要素识别方法通常定义较高频的名词和名词短语作为评价对象,定义其附近的形容词和形容词短语作为评价词[1][2]。本文统计了汽车之家网站的1000条评价数据,分析得到词性与评价要素间的关系,如表1所示:

结果表明在评价对象中名词占比最高,达79.65%;评价词中动词占比24.75%,部分形容词短语被拆分成形容词与其他词性如副词,联合占比69.78%。由此可见词性一定程度上可以体现评论要素的语义特征,但不能仅依靠词性标注规则大概率地正确识别评论要素,因此本文引入了潜在特征这一概念,模型将利用潜在特征进行学习。除词性外,命名实体、语义角色、句法分析、情感分析等自然语言处理方法也常用来理解文本语义,本文将选取上述所有特征来共同描述评论要素的语义特征。

3.1.4 情感特征

评论数据中包含了用户的情感倾向,如好评词“给力”、“很好”、“不错”等,中评词“一般”、“可以”等,差评词“差”、“不好”等。在文本挖掘早期,研究者通过人工构建评价词词典来进行情感分析。虽然随着电子商务和社交网络的快速发展,新型评价词层出不穷,但早期研究仍为评价词的识别提供了有利的基础。本文将同时在模型和特征中考虑情感特性,抽取情感特征,并在模型中学习词汇的不同情感倾向。

3.2 评论要素挖掘的定义

定义:给定一个产品的评论文本集合D,其中x=(x1,x2,…,xn)为D中一个评论文本序列,m为文本长度,从所有可能的序列标注中选择最有可能的序列标注y=(y1,y2,…,ym),标注y中以TB开头以连续TI结尾的词或短语为评价对象T,以PB开头以连续PI结尾的词或短语为评价词P,识别其中|T|个评论表达的对象(评价对象)和|P|个情感表达的词(评价词)作为评论要素。

从解得的标签序列y中可以知道该评论文本是否包含评价对象或评价词。本文中以“TB”来代表产品评价对象的开头边界,“TI”来表示产品评价对象的内部,“PB”来代表产品评价词的开头边界,“PI”来表示产品评价词的内部,而其他背景词则标记为“O”,如表2所示:

3.3 评论要素挖掘模型的结构

与多数序列标注模型一样,本节假设评论文本具有马尔可夫特性,即当前词只与当前词及前一个词相关。综合考虑评论要素中的序列特征、语境特征、语义特征、情感特征等,构建潜在特征层,提出基于潜在特征的评论要素识别模型,如图1所示:

1)考虑评论要素的序列特征,将评论要素识别任务构建为序列识别模型,输入序列特征X,通过训练学习H层,并输出序列预测结果Y。

2)考虑评论要素的语境特征,采用联合学习方式,同时学习和预测评价对象和评价词,构建当前词与前一个词间的语境变化特征函数,如图中hi与xi-1和xi所示。

3)考虑评论要素的语义特征,抽取词性标注、句法分析、语义角色分析、实体识别等语义特征,通过潜在特征H层学习评论要素中不同类型的语义特征函数,如图中hi+2与xi+2所示。

4)考虑评论要素的情感特征,抽取情感特征,并通过潜在状态H层学习评论要素中不同情感倾向的情感特征函数,如图中hi+2与xi+2所示。

5)考虑评论要素潜在特征层与标注间的关系,根据评论要素中不同类型特征学习其中的映射关系,如图2中H与Y的关系所示。

本文模型在条件随机场模型的基础上,构建了潜在特征H层,同时考虑了细粒度的多种特征,及不同特征的潜在特征与动态组合特征。在真实数据集上的实验表明,所改进的模型经t检验具有较为显著的提高。

4 实验结果

4.1 实验语料

本次实验采集了汽车之家网站的用户评论并加以整理,随机抽取2000条评论数据作为实验语料,进行特征选取及标签(TB、TI、PB、PI、O)标注。

4.2 评价维度及评价指标

4.2.1 评价维度

本次实验共设6个评价维度,分别是:

1)精细的评价对象;

2)粗糙的评价对象;

3)精细的评价词;

4)粗糙的评价词;

5)精细的评价对象+评价词;

6)粗糙的评价对象+评价词。

其中“精细”的定义为标注结果与预测结果完全相同视为预测正确;“粗糙”定义为评价对象(评价词)不区分开头边界与内部,即标注结果与预测结果属同一类则视为预测正确。

4.2.2 评价指标

tp:预测出需求的评价维度并预测正确的数量;

fp:预测出需求的评价维度但预测错误的数量;

tn:没有预测出需求的评价维度但预测正确的数量;

fn:没有预测出需求的评价维度且预测错误的数量;1

模型的P,R,F1值的计算公式分别为:

实际实验中对数据进行了五折交叉验证,即将标注数据五等分,以其中四份作为训练集,一份作为测试集进行交叉计算,平均五个P,R,F1值得到模型最终的P,R,F1值。这样的结果可以更为客观全面地检测模型的性能指标。

4.3 考虑不同特征对模型结果的影响

实验使用了基于三种不同特征的模型对评论预料进行要素挖掘,分别是本文提出的基于潜在特征方法的评论要素挖掘模型(记作WOMM_combine)、基于语义特征的评论要素挖掘模型(记作WOMM_baseline)、基于词语特征的评论要素挖掘模型(记作WOMM_word),模型结果分别如下表所示:

通过上表可见,在基于精细的评价对象、粗糙的评价对象、精细的评价词、粗糙的评价词、精细的评价对象+评价词、粗糙的评价对象+评级词六个评价维度的实验中,WOMM_word模型平均F1值为75%,WOMM_baseline模型平均F1值为79%,本文所提出的WOMM_combine模型的平均F1值为81%,高于基于词语特征的WOMM_word模型6%,高于基于语义特征的WOMM_baseline模型2%,并且在六个评价维度下的个P,R,F1值相较均有明显提高,表明潜在特征对于评论要素挖掘模型的准确率有所提升。

5 总结

本文针对网络采集的消费者评论数据,以文本挖掘的方法为基础,提出了基于潜在特征的评论要素挖掘模型,该模型对于预测文本数据标注具有良好的效果。在当前研究成果的基础上,下一步我们考虑利用向量方法对评价要素匹配及情感分析领域进行相关研究。

参考文献

[1]Hu Minqing,Liu Bing.Mining and Summarizing Customer Re-views.In:Proceedings of the Tenth ACM SIGKDD Internation-al Conference on Knowledge Discovery and Data Mining,2004.168-177.

[2]Ana-Maria Popesc,Oren Etzioni.Extracting Product Featuresand Opinions from Reviews.In:Proceedings of the conferenceon Human Language Technology and Empirical Methods inNatural Language Processing(HLT/ACL2005),2005:339-346.

[3]Blair-Goldensohn Sasha,Hannan Kerry,and Mc Donald Ryan,etc.Building a sentiment summarizer for local service reviews.In:WWW Workshop on NLP in the Information ExplosionEra,2008.14.

[4]Scaffidi Christopher,Bierhoff Kevin,and Chang Eric,etc.RedOpal:product-feature scoring from reviews.In:Proceedings ofthe 8th ACM conference on Electronic commerce.ACM,2007.182-191.

[5]Jakob N.and I.Gurevych.2010.Extracting Opinion Targetsin a Single and Cross-Domain Setting with Conditional Ran-dom Fields.In Proceedings of EMNLP-10.1035-1045.

[6]徐冰,王山雨.句子级文本倾向性分析评测报告[C]//第二届中文倾向性分析评测会议(COAE2009)论文集,2009:69-73.

[7]徐冰,赵铁军,王山雨,等.基于浅层句法特征的评价对象抽取研究[J].自动化学报,2011(10):1241-1247.

评论特征第6篇

新闻评论是对在传播媒体中发表的评论性文章的总称。它是新闻性期刊、广播、电视等新闻媒介的旗帜和灵魂, 是新闻媒介反映和引导舆论必不可少的重要手段。新闻评论这种特殊语篇, 是对重要事件或问题进行解释和评论, 以表明媒体的态度和立场, 起到感染和说服公众的作用。主位结构具有很强的交际动力, 英语新闻评论汉译是否能有效完成语篇功能, 关键在于主位结构的选择。

一、英语新闻评论中的主位结构

语篇分析中将小句分为主位结构, 主位为小句中第一成分, 说明已知信息, 表达主题;余下成分为述位, 传说明新信息, 表达观点。英语新闻评论具有时效性、论题广、多元化、大众化等特点, 其主位结构也展现出多元特征。

1、主位为主语:

句子中主位即为主语, 与谓语构成直接关系, 直观说明主题, 引发主观论述。如“Iwas stationed in Moscow for The Associated Press and I ordered an Apple IIc.”这句话是个并列结构, 由两个小句构成。前小句中的第一个成分, 第一人称代词单数, “I”, 为小句的主位, 是小句的语法主语, 与谓语动词“was stationed”构成受事关系, 表明作者被美联社安排在莫斯科这一情况。后小句中第一个成分, 第一人称代词单数, “I”, 为小句的主位, 是小句的逻辑主语, 与谓语动词“ordered”构成施动关系, 表达作者订购Apple IIc的行为, 同时与并列结构前小句构成连贯语篇。

2、主位为状语:

句子中主位做状语, 表达时间、地点、原因、条件等信息, 为读者铺垫主题内容或背景时事, 与下文评论构成逻辑关系, 满足作者说理需求。如:“When I heard the news that Steve Jobs had died, my mind flashed back to 1985, when I began my love affair with computers.”这句话的第一个成分为“when I heard the news that Steve Jobs had died”, 在句中作时间状语, 交代乔布斯逝世的背景时事, 为后文作者发表自身感受做好铺垫。在听到发生了这件事后, 作者的思绪飞回到了1985年, 与计算机的情缘时光。主题和感受相辅相成, 符合作者的叙述顺序和读者的期待原则, 颠倒或缺失都会造成意义含糊和逻辑混乱。

3、主位为宾语:

句子中主位作宾语, 是动作的接受者或目标, 与主语构成对比关系, 进而达到强调突出的作用。这种用法通常带有主观色彩。如:“Where is the computer, ’one asked.”这句话的第一个成分为直接引语小句“Where is the computer”, 在句中作“ask”的宾语, 表达询问的内容, 与主语代词“one”构成对比, 将询问内容作为主题, 忽略询问主体的身份, 凸显询问内容的重要性, 紧扣全文主题, 构成语篇连贯, 同时直接引语作主位加强直观感受, 能有效感染读者。

4、主位为连接成分:

句子中主位为连接成分, 如, 连词, 与上下文构成逻辑关系, 为下文说理服务。如“But visionaries like Mr.Jobs had no intention of settling forat the time’.’”这句话的第一个成分为连词“but”, 为语篇主位, 连贯上下文, 表达转折关系。

由以上主位结构分析得知, 现代新闻评论除具备时效性和广泛性之外, 句子结构呈现多元化发展, 陈述句, 祈使句, 问句等多种句型的使用, 使得新闻评论更加贴近百姓日常生活, 满足读者期待, 从而更有效的发挥表达立场、说服读者和引导舆论的功能。

二、英语新闻评论中主位结构的翻译

虽然英语新闻评论中句子呈现多元性, 多种主位结构各放异彩, 但其功能都只为表达态度感染读者, 只有完成了这种功能才实现了新闻评论的交际目的。因此, 译者在翻译英语新闻评论时, 应充分考虑主位结构和交际作用, 同时要考虑上下文连贯和汉语新闻语言的表达习惯。

1、主位为主语的翻译

例1:“I was stationed in Moscow for The Associated Press and I ordered an Apple IIc.”该并列句中两小句的主位“I”都是主语, 前小句为是施动者, 后小句为受动者, 与谓语动词直接相关, 可汉译成主语:“那时我被社里安排在莫斯科。”和“那时我预定了一台Apple IIc。”由于并列句中前后两小句关系承接, 主语相同, 为避免重复, 通常可省略相同主语。而后小句与全文主题一致, 表达作者与计算机的渊源, 应给予强调, 故省略前小句主语:“那时被社里安排在莫斯科, 我预定了一台Apple IIc。”

例2:“The K.G.B.officers at the Soviet customs desk at Leningrad Station were annoyed.”该句的主位“the K.G.B.officers at the Soviet customs desk at Leningrad Station”即主语, 为一个名词词组加两个介词词组结构, 介词词组修饰名词词组, 翻译时应按照汉语表达习惯, 将介词词组译为前置定语:“在列宁格勒车站里前苏联海关办公桌旁的国家安全局官员们恼羞成怒了。”

主位结构作主语通常有两种情况, 单位主语, 即代词或名词, 复合主语, 一般为名词词组, 即核心名词加其他修饰成分, 汉译时, 单位主语直接翻译, 复合主语则需要考虑核心名词和修饰成分之间的关系以及汉语表达习惯, 对词序进行调整, 才能有效传达信息, 表明作者立场。

2、主位为状语的翻译

例3:“When I heard the news that Steve Jobs had died, my mind flashed back to 1985, when I began my love affair with computers.”该句的主位为状语, “when I heard the news that Steve Jobs had died”, 表明时事背景, 可直接汉译为时间状语, “当我听到乔布斯去世的消息, 思绪飞回到了1985年, 那段我和计算机的情缘时光。”

主位结构作状语是直接汉译成表达时间、地点、原因、条件等状语, 同时应该考虑主位和主语之间的逻辑关系, 对句序加以调整, 才能合理有序的表达观点, 达到感染读者情绪的作用。

3、主位为宾语的翻译

例4:“Where is the computer, ’one asked.”该句的主位为直接引语“where is the computer”, 做宾语, 强调询问的内容。又考虑到英汉语新闻中会话语言的表达习惯不同, 英语中会话内容前置或后置于谓语动词亦可, 而汉语中会话内容通常后置, 汉译时需调整成正常语序:有人问:“电脑在哪?”

主位结构作宾语通常用于会话情景, 强调会话内容, 复合英语会话表达习惯, 汉译时需考虑汉语读者的接受习惯, 参照汉语会话表达方式, 调整成正常语序, 以避免突兀。

4、主位结构作连接成分的翻译

例5:“But visionaries like Mr.Jobs had no intention of settling forat the time.’”该句的主位为连词“but”, 表示转折, 引出下文, 使上下文连贯, 汉译时直接翻译成连词“但那时像乔布斯先生这样的远见者是不会满足于当时’的”。

综上所诉, 英语新闻评论句子中的主位结构具有多元性, 并非所有的主位结构都可以直接翻译成汉语中的主语, 需要考虑到句子结构和汉语习惯以及读者阅读习惯来调整句型, 才能完成新闻评论的交际目的。

结论

根据上述研究, 英语新闻评论的主位结构翻译可参照以下方法, 首先分析英语新闻评论句子的主位结构成分, 然后根据主位结构在句中的充当的成分汉译成相应的成分, 但是由于英汉语的差异和新闻评论的特殊目的, 英语新闻评论中的主位结构汉译时需要根据汉语读者的语言习惯和接受方式予以调整句序, 增减词等处理, 才能准确合理的表达媒体的态度和立场, 有效的感染和引导读者, 做到时效性、说理性和大众性的有效统一。由此可见, 主位结构是英汉翻译研究的一个重点, 也是新闻评论研究中至关重要的因素。

摘要：随着全球一体化进程的加快和网络媒体的迅速发展, 新闻评论作为时代特征的传播形式和舆论引导方法, 其重要性日益凸显。本文将语篇分析中的主位结构运用于英汉翻译研究, 描写了英语新闻评论主位结构的汉译现象, 讨论了英语新闻评论小句中主位结构的特征, 并就这些类别结合新闻评论的交际功能, 讨论了英语新闻评论汉译中主位结构的转换现象。

关键词：新闻评论,主位结构,英汉翻译

参考文献

[1]翁玉莲:《新闻评论主语“话题化”功能分析》, 《福建师范大学学报》, 2007 (4) 。

[2]杨雪燕:《社论英语的文体研究》, 《外语教学与研究》, 2001 (5) 。

评论特征第7篇

Web 2.0的到来极大地改变了人与人之间交流的方式,人们可以在各种社交平台上发表自己的观点。Web 2.0网络应用中,电子商务是发展最快的领域之一。因此,网上购物越来越受到人们的欢迎。消费者在购买商品之前,通常会阅读与此产品相关的评论,根据评论的好坏再决定是否购买。但是,不是所有的评论都是真实的,一些虚假评论者在利益的诱引下写下虚假评论以误导消费者。所以,虚假评论者的识别对于电子商务的发展有很重要的意义。

在网上购物时,评论信息可以直接影响消费者的购买决策。因此,在利益的驱动下,一些商家雇人为自己的商品发布一些不切实际的正面评论以提高信誉,或者为了诋毁竞争对手而发布一些恶意的负面评论。这些虚假评论者严重影响了电商平台上的正常竞争。通过总结之前研究者对虚假评论者的认识,本文将虚假评论者分为以下2类:

1)类型1(欺骗性评论发布者):蓄意发布一些正面评论以提高商家名声,或者故意写下恶意评论破坏商家声誉。

2)类型2(破坏性评论发布者):发布一些与商品无关的评论、广告。

因为人们可以很容易地识别破坏性评论,所以破坏性发布者的危害不大。但是欺骗性评论发布者可以刻意地掩饰自己所发表的虚假评论,使其与正常评论看似没有差别,即使是人工识别方法也难以检测。而且,到目前为止,欺骗性评论者的检测方法不是很多,且效果不好。本文主要面向于这种识别难度更大的欺骗性虚假评论者的研究,创新性地采用了评论者之间情感方面的差异来构建特征模型,并结合用户之间的关系构造出一种多边图的模型,最后计算出用户不可靠分数来识别虚假评论者。

1 相关研究

最近几年,虚假评论者的识别已经成为数据挖掘领域最为活跃的研究之一。相关研究者提出了许多新颖的方法,但是仍然有许多问题存在。由于在很多情况下,正常用户也无法识别一个评论是否为虚假评论,从而造成标注数据不足以及难以评估检测效果,这也是虚假评论者识别研究中所面临的最大问题之一。

自从Jindal等人提出虚假评论的广泛存在[1],研究者已经提出了许多识别技术。其中一个主要的是有监督的学习方法。Jindal、Liu通过提取评论文本、评论者和商品的特征进行建模来区分重复评论和非重复评论[1,2]。Li等人[4]利用评论和评论者的特征提出一种双视图、联合训练的半监督学习方法,取得了很好的效果。

由于缺乏标注数据,无监督的学习方法也被提出识别虚假评论者。Jindal等利用一种基于用户行为的无监督方法识别那些操纵特定商品评分等级的虚假评论者。Lai等人[5]根据高阶概念关联的挖掘方法提供一种基本术语关联知识的无监督识别方法。Wang等人[6]通过捕捉评论者、评论和商家之间的关系提出一种基于关系图的无监督方法。Mukherjee等人[7]发现了评论者之间不同的行为分布,总结出9类用户行为特征。Liang等人[8]将用户之间关系和用户特征结合起来,识别准确率取得了很大的提高。

由于虚假评论者团体可以很轻松地提高或破坏特定商品的声誉,虚假评论者团体的识别成了近几年研究的热点。Liu等人[9]首次提出通过计算虚假评论指标值来检测虚假评论者,然后他们又构造了一种团体、个人评论者以及他们所评论商品之间的关系模型[10]。

2 用户情感分析及特征定义

2.1 用户情感分析

传统的评论文本分析大多基于客观的要素,而忽略了其中所蕴含的主观要素,比如用户的情感信息、心理特征等。近年来,对评论文本的情感分析成为信息科学研究的热点,心理学关于情感的研究成果也对分析网络信息具有重要的参考价值。由于虚假评论是蓄意发布以提高或破坏产品名声,虚假评论者在写评论时的情绪、情感等心理特征和正常评论者必然存在一定差异。因此,本文创新性的在建模过程中加入了用户的情感特征。

2.2 特征定义

根据先前研究者对特征定义和构建的方法[2],并结合用户心理语言学知识以及情感极性的分析,本文总结了以下8个特征。每个特征的取值范围为[0,1],特征值越大,该用户为虚假评论者的可能性就越大。表1列出了相关符号的定义。

2.2.1 商品属性词提及度

商品属性词汇量是指评论中描述商品各项属性的词的个数。如果评论中商品属性词出现频率越高,评论内容与商品的相关度就越大,该用户为垃圾评论者的可能性就越小,反之可能性就越大。本文采用评论中属性词所占总词汇的比重作为商品属性词提及度。

因为设定的特征值得分越高,越可能为虚假评论者,因此定义此特征为:

2.2.2 第一人称代词词频

在评论中使用第一人称代词可以把评论者置于显现的位置从而增强评论的真实性和亲切感。所以本文认为虚假评论者应会更多地使用第一人称代词,以加强评论的可信性。

2.2.3 词汇的多样性

词汇的多样性是指句子中使用不同词语的比例。其中形容词和副词可以更准确地表达评论者的情感。本文认为虚假评论者使用词汇的多样性少于正常评论者。这里采用形容词和副词的占总词汇的比例代表词汇的多样性。

2.2.4 用户活跃度

虚假评论者一般不是某一网站的长期用户[10],然而真实的用户会经常使用自己账户购买东西并发表相关评论。这里通过计算用户第一次评论与最后一次评论之间时间间隔来判定评论者的活跃度,评论时间间隔越久,评论者为虚假评论者的可疑性就越高。

其中ζ为时间间隔阈值,本文根据下文所构建的数据集,利用启发式的方法设定阈值,此处ζ设定为60天。

2.2.5 用户积极性

用户在网上购买商品时往往依赖于该商品靠前面的评论来抉择是否购买。因此,虚假评论者会尽量抢占评论靠前的位置以迷惑消费者[4]。本文通过计算评论者对某商品的评论时间与该商品第一条评论之间的时间间隔来判断评论者的积极性。

其中β为时间阈值,此处设定β为150天。当用户评论时间与该商品第一条评论时间间隔小于150天时,我们认为此用户可能为虚假评论者。间隔时间越短,该用户的可疑度就越大。

2.2.6 用户极端评分

虚假评论者更容易给出极端的评分(5分或1分)以最大限度地提高或损害商品的名声。当用户评分为5分或1分时,我们设定此特征值为1,其他评分时则设置特征值为0。

2.2.7 情感表达强度

情感是人对客观现实的一种特殊反映形式。因此,用户对产品的使用体会越深刻,在评论中所表达的情感的显性程度越大。而虚假评论者往往没有商品体验经历,情感表达强度会偏低。本文通过建立情感词典,并计算情感词占总词汇的比例来代表情感表达强度。

2.2.8 平均评分的偏差

虚假评论者通常是给质量不好的商品以好的评价,而给质量好的商品以差的评价。因此,虚假评论者的平均评分和总的用户平均评分有一定偏差。本文认为偏差越大,该用户为虚假评论者的可能性就越大。

2.3 特征组合

我们将前面总结的8个特征组合在一起,并根据实验和经验对每个特征赋予一定的权重,来计算用户的特征初始得分,这一步对识别虚假评论者很关键。首先分别计算每个评论者的这8个特征值,然后根据式(11)得出该用户得分的初始值。得分越高,该用户为虚假评论者的可能性就越大。

3 用户关系模型构建

3.1 用户关系分析

虚假评论者是被商家雇佣以促进自己商品销售或中伤竞争对手的商品。因此,评论者、评论和商品之间必然存在着一定的联系:

1)虚假评论者通常对于目标商品会给出一样或者相似的评分,而与真实评论者的评分却有一定的偏差。

2)虚假评论者通常被信誉不好的商家所雇佣以促进自己商品的销售,而信誉好的商家一般不会。

3)评论的真实性取决于所评论商品的可靠性以及与该商品其他评论的一致性。

4)商品的可靠性取决于信誉高的评论者所给出的评分。

3.2 模型构建

为了说明评论者、评论和商品之间存在的联系,本文构建了一个异构图的模型,如图1所示。图中有三种类型节点:评论者、评论和商品。同时,图中有两种类型的边:(i)评论者节点与他所发表的评论节点之间的边。(ii)评论节点指向其所评论商品节点的边。

由图1可知,不同评论者对于商品有着相同或相反的评论。例如用户1给商品1差评,而用户2给商品1好评,评分相反;用户2给商品3好评,用户3也给商品3好评,评分相同。为了更好地阐述他们之间的关系,本文根据图1构建了用户之间关系的多边图的模型,如图2所示。图中每个节点代表一个评论者,两个节点之间的边代表评论者之间的关系。在此模型中定义了两种类型的边:

“支持边”:如果两个评论者对于商品评价相同或相似,两个节点之间添加一条“支持边”。如评论者2与评论者3对于商品3的评价相同,因此他们之间就添加一条关于商品3的“支持边”。

“反对边”:如果两个评论者对于商品评价相反或相差很大,两个节点之间添加一条“反对边”。如评论者1与评论者2关于商品1的评价不同,在他们之间添加一条关于商品1“反对边”。

4 虚假评论者识别

4.1 数据集构建

本文采用httpclient模拟浏览器从亚马逊购物网站上(http://www.amazon.cn/)获取了关于日用商品的一些评论信息。每个评论信息包含以下属性:用户编号、商品编号、商品评分、评论日期以及评论文本。通过对评论信息的一些预处理操作,最后获得5961条评论、2342位评论者以及412个商品作为实验数据集。然后根据以上据数据集构建了评论者之间的关系模型,其中有21 675条同意边以及10 184条反对边。

4.2 用户不可靠分数

本文基于TrustRank[11]方法,并结合上文所构造的用户关系模型和特征工程计算评论者不可靠分数。我们根据以下准则计算用户的不可靠分数:

1)评论者的不可靠分数不是根据所评论的数量多少,而是根据所评论的真实性。虚假评论越多,评论者不可靠分数越高,该评论者为虚假评论者的可疑度就越大。

2)评论者的分数应当增加/减少如果和其他评论者之间有同意边/反对边,因为虚假评论者通常都协同合作,对特定商品给一样或相似的评价。

3)不可靠分数由评论者特征初始值和用户之间关系共同决定。

因此,我们定义用户的不可靠分数的计算方法为:

其中score(r)由式(11)所得,表示用户的特征初始值,本文α设定为0.2。此公式采用了以e为底的指数函数作为削减函数。由公式可知,当有其他评论者支持该用户评论时,不可靠分数会增加;反之,当有其他评论者反对此评论时,该用户的不可靠分数会相应减少。特别的,如果当前用户没有相关联的支持边,公式的第一项值为0,不可靠分数则由用户特征初始值决定。

4.3 虚假评论者识别

本文采用的识别虚假评论者的方法既考虑了评论者的情感特征又考虑了评论者之间的关系。具体步骤如下:

输入:用户、评论、商品数据集合

输出:虚假评论者候选集合

步骤1构建评论者之间的关系图。

步骤2根据式(11)计算所有用户的特征初始值。

步骤3归纳用户相对应的支持边与反对边的集合。

步骤4根据式(12)计算用户最终的不可靠分数。

步骤5将用户不可靠分数按照降序排列,排名越靠前的用户放入虚假评论者的候选集合。

5 实验结果评估与分析

5.1 评估策略

本文采用基于信息检索的评估策略,首先选取不可靠分数排名靠前的用户作为虚假评论者的候选。然后我们邀请三位标记人对候选者进行人工标记,以判断候选者是否为虚假评论者。相似的评估方法在之前的研究中已经被广泛运用了[2,4],因此这是一个完善的评估方法。具体评估流程如下:

(1)选择候选集合

我们选择得分最高的100个最有可能为虚假评论者的用户,把他们放入候选集合之中。然后将他们随机排序,这样他们的顺序和不可靠分数就没有关联。

(2)对候选者进行人工识别

由于在评论信息中没有虚假评论者的标签,因此采用人工评估是必要的。我们的标记人为计算机专业学生并且拥有丰富的网上购物经验。人工识别虚假评论者是一项非常复杂的工作,不仅要研究评论者所发表的评论,而且要查看所评价的商品和商家的其他评论以及他们的品质和信誉。在识别过程中还可能受到主观和直觉因素的影响,因此我们制定了一些虚假评论者的识别准则:

经常与其他大多数评论者评论相反。

经常发布重复或者相似的评论。

经常给声誉不好的商家以正面评论。

经常是某些特定商品的前排评论者。

经常夸张地赞扬某商品完全没有任何缺点。

5.2 实验结果

在选取的候选集合中,3位标记人根据自己的经验以及上文制定的准则独立的进行标记。一个用户如果同时被2位及以上的标记人标记为虚假评论者,则该用户被认为是虚假评论者。最终,61个用户被标记为虚假评论者(49个用户得到3票,12个用户得到2票),准确率为61%,对于49%的准确率有很大的提高[1]。表2给出了标记结果以及标记人之间的一致度。

5.3 结果分析

根据表2,我们可以看出3位标记人分别标记了57、59、68个虚假评论者。标记人1与标记人2有52个相同结果与标记人3有56个相同结果;标记人2与标记人3有58个相同结果。为了研究标记人之间的一致性,我们采用Fleiss’kappa[12]方法,得到本次的标记信度为62.4%,达到了实质上一致性的区间[0.61,0.80],证明了本次人工标记的有效性。

6 结语

本文基于用户在情感极性方面的差异,总结了用户情感特征。并结合用户之间复杂的关系创新性的构造了评论者之间多边图模型,提出一种无监督虚假评论者的识别方法。最后通过实验证明了该方法的有效性。

目前此方法仍有一些不足,如对用户情感特征分析不是很全面,人工标记存在一定的偏差,影响实验结果的评估。未来将更透彻分析不同用户之间情感差别,并将用户更多主观特征加入特征集构建中。为了更好地评估方法效果,改进评估策略也是本文下一步的工作。

摘要：随着电子商务的迅速发展,人们越来越亲睐于网上购物。在网上购物之前,消费者往往会参考该产品相关的评价以决定是否购买。因此虚假评论者的识别具有非常重要的意义。基于虚假评论者和真实评论者在情感极性上存在的差异,在特征建模过程中增加了评论文本的情感特征,并结合用户之间对于特定商品之间的关系,创建了一个多边图的模型并提出了一种识别虚假评论者的方法。实验结果验证了该算法的有效性。

关键词：电子商务,虚假评论者,情感特征,用户关系

参考文献

[1]Jindal N,Liu B.Review spam detection[C]//Proceedings of the 16th international conference on World Wide Web,Banff,AB,Canada,May08-12,2007.New York,NY,USA:ACM,2007:1189-1190.

[2]Jindal N,Liu B.Opinion spam and analysis[C]//Proceedings of the international conference on Web search and web data mining,California,USA,Feb 11-12,2008.New York,NY,USA:ACM,2008:219-230.

[3]Li F,Huang M,Yang Y,et al.Learning to identify review spam[C]//Proceedings of the 22nd international joint conference on Artificial Intelligence,Barcelona,Spain,Jul 16-22,2011.Palo Alto,CA,USA:AAAI,2011:2488-2493.

[4]Lim E,Nguyen V,Jindal N,et al.Detecting product review spammers using rating behaviors[C]//Proceedings of the 19th ACM international conference on Information and knowledge management,Toronto,ON,Canada,October 26-30,2010.New York,NY,USA:ACM,2010:939-948.

[5]Lai C,Xu K,Lau R,et al.High-order concept associations mining and inferential language modeling for online review spam detection[C]//Data Mining Workshops(ICDMW),2010 IEEE International Conference,Sydney,NSW,Australia,Dec 13-13,2010.Washington,DC,USA:IEEE,2010:1120-1127.

[6]Wang G,Xie S H,Liu B,et al.Review Graph Based Online Store Review Spammer Detection[C]//Proceedings of the 11th International Conference on Data Mining,Mesa,Arizona,USA,April 28-30,2011.Washington,DC,USA:IEEE,2011:1242-1247.

[7]Mukherjee A,Kumar A,Liu B,et al.Spotting opinion spammers using behavioral footprints[C]//Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining,Chicago,IL,USA,August 11-14,2013.New York,NY,USA:ACM,2013:632-640.

[8]Liang D X,Liu X Y,Shen H.Detecting Spam Reviewers by Combing Reviewer Feature and Relationship[C]//Informative and Cybernetics for Computational Social Systems(ICCSS),2014 International Conference,Qingdao,Shandong,China,Oct 9-10 2014.Washington,DC,USA:IEEE,2014:102-107.

[9]Mukherjee A,Liu B,Wang J,et al.Detecting group review spam[C]//Proceedings of the 20th international conference companion on World wide web,Hyderabad,India,March 28-April 01,2011.New York,NY,USA:ACM,2011:93-94.

[10]Mukherjee A,Liu B,Glance N.Spotting fake reviewer groups in consumer reviews[C]//Proceedings of the 21st international conference on World Wide Web,Lyon,France April 16-20,2012.New York,NY,USA:ACM,2012:191-200.

[11]Gyngyi Z,Garcia Molina H,Pedersen J.Combating web spam with TrustRank[C]//Proceedings of the Thirtieth international conference on Very large data bases,Toronto,Canada,August 31-September 3 2004.San Fransisco,CA 94104,USA:Morgan Kaufmann,2004:576-587.

评论特征第8篇

国内多数电子商务销售平台的用户可以对商品及服务发表评价。商品评论信息对商家及购物者都很重要,会影响潜在消费者的购买。通过对商品评论文本的采集分析可以得知用户对商品的褒贬程度,有助于商家改进生产及销售策略。随着电商平台用户和商品的不断增长,针对各种商品的评论文本信息数量激增,要求能够根据评论情感倾向及时、准确地自动进行分类,统计好评和差评程度是电商平台需要考虑解决的问题。情感分析语义计算可用于分析商品评论文本的褒贬性。该方法基于情感词典匹配,适用的语料范围较广,无论是手机、电脑这些商品,还是书评、影评都有相应语料。但是词典匹配需要深入到词语、句子、语法这些层面,分类结果会由于语义表达的丰富性而出现较大误差[1]。监督机器学习方法也可用于商品评论文本情感分析。朴素贝叶斯分类算法是常用的统计学习分类方法,需要人工标注训练文本,将训练文本分句分词,如果直接将分词作为原始特征进行分类学习,会大幅度增加分类器的训练时间,而且由于分类效果依赖于训练文本和测试文本之间的相关性,会引入噪声特征,影响分类性能[2]。文献[3,4]研究比较了中文文本分类中文档频率、χ2(Chi-Square,CHI)统计等特征选取方法对分类效果的影响。由于针对选定的训练文本进行训练,可能会筛选掉包含着重要判断信息的情感特征词,或保留一些无法体现情感倾向的特征词,而且待测文本需参与较复杂的特征选择运算,不利于大规模在线评论统计分类。

本文提出语义分析和监督分类相结合的方法,为不同类别商品根据评论语料构建领域情感词典。将评论文本与情感词典集匹配提取情感特征,构建低维数的情感特征向量空间模型SF-VSM,结合改进的多项式朴素贝叶斯分类算法构建分类器。采集国内某电商平台的三份商品评论文本集作为分析样本,分别与基于原始特征、χ2特征选择向量空间模型的朴素贝叶斯分类算法进行了实验对比。

1 相关知识

语义分析算法在分析商品评论文本情感倾向时,首先需读取某条评论文本并进行分句;然后查找分句的情感词并赋予相应分值,查找程度词、否定词和感叹号并赋予相应权重,统计该分句的好评分值p1和差评分值n1,统计所有分句的好评分值和差评分值;最后计算得到该条评论的好评均值pm和方差pv,以及差评均值nm和方差nv,从而可以得到该条评论的褒贬程度[5]。评论文本分词后需要和情感词典比对确定情感倾向,情感词典包括基础情感词典、拓展情感词典。基础情感词典包括了一些被广泛认同的如“好”、“差”等这些情感词,通常把知网提供的正面/负面评价词语、正面/负面情感词语和台湾大学简体中文情感极性词典的positive/negative词典消重之后组合在一起,构成基础积极/消极情感词典,同时需要对知网提供的程度级别词语进行权值的设置。将基础情感词典通过同义词词典找到情感词的同义词,这样就拓展了基础情感词典,称为拓展情感词典[6]。

机器学习方法分类商品评论文本情感时,需先选出一部分表达积极情感的文本和一部分表达消极情感的文本,用概率统计方法进行训练,获得一个情感分类器。通过情感分类器对所有文本进行积极和消极的二分分类[7],最终的分类可以为评论文本给出好评/1或差评/0这样的类别,也可以给出好评或差评的概率值。文本分类最常用的文本特征表示模型是向量空间模型VSM,向量空间模型假设文本中词条对文本类别所起的作用是相互独立的,把文本看作一系列无序词条的集合[8]。如果分类算法直接将训练文本分词作为特征,则特征项空间维数太大,会产生稀疏问题和增加计算复杂度;如果仅限于对分类的训练文本进行特征选择,将可能会保留一些无情感倾向的无用特征或剔除一些在特定领域有情感倾向的有用特征。本文考虑构建不同类型商品的领域情感词典,结合基础和拓展情感词典,分析提取商品评论文本中的立场、情绪等情感特征,构建相应的情感特征向量空间模型,降低特征向量空间维数,以达到改善分类精度和提高分类速度的目的。

2 基于情感特征向量空间模型的中文商品评论情感倾向分类算法

2.1 情感特征向量空间模型

在特定的领域,有些并非基础的情感词也有情感倾向,比如“此款手机很耐摔,还防水,挺好!”耐摔、防水是在手机商品这个领域有积极情绪的词。为确保文本情感特征提取的全面准确,需要针对不同类别的商品构建领域情感词典。采用基于领域语料的逐点互信息PMI(Point-wise Mutual Information)[9]计算法构建领域情感词典,在相应的语料库中循环统计特征词、特征词与积极基础情感词和特征词与消极基础情感词分别出现的数量。利用这些数据计算积极互信息和消极互信息,求两个互信息之差,差为正则积极、为负则消极。重复计算不同词的互信息之差,最后选分值高的特征词组成领域情感词,计算方法如下:

其中word表示被测词,SO-PMI(word)表示积极互信息和消极互信息之差,Pwords和Nwords分别表示基础情感词典中的积极和消极基准词,PMI计算如下式:

其中p(w1,w2)表示被测词w1与基础情感词w2同时出现的概率,p(wi)表示wi出现的概率。设N为语料库所有文本数,df(wi)为词wi在语料库出现的文本频率,p(wi)计算如下:

为不同类型商品构建的领域情感词典会有所不同。如通过对手机评论语料库的统计分析,能够获取“流畅、轻薄、模糊”等情感词,而服装类商品则有“合身、得体、褶皱”等情感词。类别不同而具有相似属性的商品,如手机、笔记本电脑等IT商品,分别为它们构建的领域情感词典会出现部分相同的情感词。

基础情感词典、拓展情感词典与领域情感词典组合而成的情感词典(L)用三元组描述[10]:

其中C代表情感关键词集,N代表否定词集,M代表修饰词集,这些词汇均可从词典中自动获取。给定一条评论文本R,分词表示为:

借助情感词典从R中提取特征词,得到情感特征词集合:

每条评论文本被提取的所有情感特征构成一个特征向量,所有评论文本中的全部情感特征构成空间向量模型SF-VSM,其每一维对应一个情感特征,定义如下:

其中VSi表示第i条评论文本所对应的情感特征向量,fji表示第j个情感特征。SF-VSM模型主要考虑情感词特征表示,避免噪声干扰,维数较低,以便解决数据稀疏问题。

若为某类商品评论构建的原始特征向量空间维数记为DV,构建的情感特征向量空间SF-VSM维数记为DS,则通过(DV-DS)/DV×100%可以计算得到降维程度。

2.2 改进的多项式模型朴素贝叶斯分类算法

需利用分类算法基于SF-VSM模型训练出分类规则,然后根据分类规则判定未知文本的类别。朴素贝叶斯分类是一种常用的文本分类方法,将表示成为向量的待分类文本Di(x1,x2,…,xn)归到类别集合C={C1,C2,…,Cm}中的某一类。其中Di(x1,x2,…,xn)为待分类文本Di的特征向量,C={C1,C2,…,Cm}为给定的文本类别集合,即求解向量Di(x1,x2,…,xn)属于给定类别C1,C2,…,Cm的概率值(p1,p2,…,pm),其中pj为Di(x1,x2,…,xn)属于Cj的概率,则max(p1,p2,…,pm)所对应的类别就是文本Di所属的类别。假设Di为一任意文本,文本Di属于Cj的概率为:

其中P(x1,x2,…,xn)对应所有类值是相同的,所以只需估算P(Cj)P(x1,x2,…,xn|Cj),式(8)可转化为如下公式:

朴素贝叶斯分类假设在给定的文本类别下,文本特征项是相互独立的,则有:

式(9)可简化为:

根据P(Di|Cj)计算方式的不同,朴素贝叶斯分类主要有多变量伯努利模型MBM(Multivariate Bernoulli Model)、多项式模型MM(Multinomial Model)等模型[11]。由于多项式模型考虑了特征项在文本中出现的次数,该信息决定一个文本的类别时具有重要的价值,所以本文采用了多项式模式朴素贝叶斯分类方法。文本属于类Cj时特征词xi出现一次的概率为P(xi|Cj),出现nk次的概率为P(xi|Cj)nk,假定共有n个词,则n=n1+n2+…+nk,则有:

P(xi|Cj)采用词频估算:

其中表示特征项xi在类Cj的各文本中出现的次数之和,为类Cj中所有特征项的总次数。

为了避免数据稀疏引起的零概率问题,一般会引入laplace平滑因子[12],如下式:

式中V是训练样本的特征词表。如果训练集中某类别包含的特征词量较大,而其他类别包含的特征词量相对少,利用式(14)计算可能会造成较大的估计偏差。提出采用修正的平滑因子λ,λ取特征项xi在所有类中出现的概率,即λ=P(xi|C),式(14)调整为下式:

先验概率P(Cj)计算如下:

对于给定的待测文本Di,通过式(11)、式(15)和式(16)表示的模型计算后验概率分布,将后验概率最大的类作为Di的类输出。

2.3 算法描述

提出的中文商品评论文本情感倾向分类算法主要步骤描述如下:

(1)针对要处理的某类商品,利用2.1节式(1)-式(3)基于相应评论语料库构建领域情感词典;

(2)将该类中文商品评论集预处理,人工标注文本所属类别,标注每条评论属于好评或差评;

(3)采用交叉验证方法,将标注文本分为训练文本和测试文本;

(4)将训练文本分句、分词,去除停用词和高频词,构成初始文本向量;

(5)将初始文本向量与基础情感词典、拓展情感词典和领域情感词典,提取情感词特征,根据2.1节式(4)-式(7)构建SF-VSM;

(6)基于SF-VSM和式(15)计算每个情感特征项对类别进行划分的条件概率,记录结果;

(7)根据式(16)计算好评和差评两个类别在训练文本集中出现的频率,记录结果;

(8)输入测试文本,依据(4)、(5)步生成测试文本情感特征向量;

(9)利用式(7)计算测试文本情感特征向量分别属于两个类的概率,将测试文本分配到概率最大的类别中,记录分配结果;

(10)针对所有测试文本,重复(8)、(9)步,统计所有测试文本分配结果和实际标注的类别一致次数,计算分类准确率;

(11)重复(3)-(10)步,多次迭代计算分类平均准确率;

(12)输入待分类评论文本,依据(4)、(5)步生成待分类评论文本情感特征向量;

(13)利用式(7)计算待分类评论文本情感特征向量分别属于两个类的概率,将待分类评论文本分配到概率最大的类别中,输出结果,算法结束。

算法步骤中(4)-(7)步生成分类器,(8)-(11)步测试分类准确率,(12)、(13)步完成待分类评论文本的分类。

3 实验

实验比较三种算法对中文商品评论文本情感倾向的分类效果。算法一是文中提出的基于情感特征向量空间模型的改进多项式模型朴素贝叶斯分类算法。算法二是基于原始特征向量空间模型的多项式模型朴素贝叶斯分类算法,该算法直接将评论文本分词作为特征项。算法三是基于χ2特征选择向量空间模型的多项式模型朴素贝叶斯分类算法[13]。χ2统计方法假设词条和文本类别之间符合具有一阶自由度的χ2分布,通过衡量词条与文本类别之间的相关程度选择特征以降低特征空间的维数。

3.1 实验数据与评价指标

实验数据采集自国内某电商平台指定型号的数码相机、手机、笔记本的用户评论,其中数码相机评论7067条,手机评论11 125条,笔记本评论23 379条。鉴于评论分类是二分类问题,将三份评论进行剔除保留处理,人工分类标注,得到数码相机评论好评和差评均为2409条,手机评论好评和差评均为4742条,笔记本评论好评和差评均为8653条。

算法一使用的基础情感词典由知网提供的情感词语和台湾大学简体中文情感极性词典消重组合在一起,拓展情感词典采用哈工大信息检索研究中心同义词词林扩展版。从http://www.datatang.com下载关于数码相机、手机、笔记本相应的评论语料库。根据2.1节提出的方法分别构建数码相机、手机、笔记本对应的领域情感词典,其中数码相机领域情感词典中有502个褒义词、170个贬义词,手机领域情感词典中有810个褒义词、352个贬义词,笔记本领域情感词典中有838个褒义词、368个贬义词。

查准率(precision)、召回率(recall)和微平均(F1)作为评价分类效果的指标[14]。查准率是指算法正确分类到某个类别的评论文本数与算法分类到该类别的评论文本数的比率;召回率是算法正确分类到某个类别的评论文本数与人工分类到该类别的评论文本数的比率;F1微平均值综合考虑了查准率和召回率两个指标,计算公式如下:

3.2 实验结果与分析

程序用Java语言实现,采用10折交叉验证法进行训练和测试,每次分配训练文本和测试文本后,交给三种算法运算处理,记录训练时间和测试时间,计算评价指标值,并重复10次取平均值。程序在Intel pentium4 3.2 GHz的CPU,内存4 GB的PC机,Windows 7操作系统上运行测试。

实验中统计对比得到,针对数码相机评论,相比于算法二为其构建的原始特征向量空间,算法一为其构建的情感特征向量空间维数下降了53.4%。而手机评论特征空间维数下降了51.7%,笔记本评论特征空间维数下降了52.3%。三种算法的分类效果如图1所示。

从实验结果可以看出,算法一的分类精度高于算法二和算法三。当对笔记本评论分类时算法二分类效果最差,说明特征向量维数过高造成噪声数据过多,影响了分类精度。当对数码相机评论分类时,由于训练文本较少,算法三保留了过多的低频词,这些低频词并非情感特征,大都是噪音词,不应作为特征,相比于算法二,分类效果提升并不明显。由于实验目的是识别评论属于好评或差评,应主要考虑文本情感特征,而中文商品评论文本的情感特征比较丰富,情感词与评价对象之间的对应关系比较清晰。算法一能够较准确地提取情感特征,空间维数相比算法二和算法三都低,而且在计算条件概率时采用了修正的平滑因子,计算准确率较高。当对笔记本评论分类时精度有所下降,但不是特别明显,说明算法分类性能比较稳定。

鉴于算法需实际运用于电商平台在线评论分类系统,3种算法的训练文本训练时间和测试文本分类时间需要测试,时间开销如表1所示。

算法二将所有分词作为特征项,随着评论文本的增加,词汇增多,特征向量维数远高于算法一和算法三,增加了分类计算复杂度,计算耗时最长。算法三根据χ2分布提取特征的计算复杂度为O(n2),同一类别生成的特征向量维数仍比算法一要高。算法一分词匹配提取情感特征的计算复杂度为O(m×n),生成的SF-VSM维数均低于算法二和算法三,训练时间开销较小,测试文本分类时间短,满足在线评论分类要求。

3.3 存在的问题

针对不同类别商品的中文评论文本,提出的算法在情感倾向分类之前,需要完成相关预备工作,即收集整理不同类别商品评论语料库,并通过语义分析方法构建领域情感词典。整理并定期更新完善各类别语料库,是算法能够有效运行的前提条件,并且对在线商品评论情感倾向分类时,需要将情感词典集作为模块集成到分类程序中,同时需要经常更新领域情感词典。

4 结语

基于SF-VSM模型结合改进的多项式朴素贝叶斯算法,能够快速有效地将中文商品评论文本分类为好评或差评,分类得到的结果可以为推荐系统提供帮助。差评度较高的商品将不会被推荐给用户,也可以为在线广告投放系统提供帮助,好评程度较高的商品相关广告可以被投放。针对差评度较高的商品,需要深入分析挖掘差评评论文本,提取意见较大的商品属性或服务项目,这样有助于生产企业改进商品和销售企业改进服务,这也是进一步的研究方向。

摘要：为了能够快速有效地将中文商品评论识别为好评或差评,提出一种算法。针对不同类别的商品,预先根据其评论语料构建领域情感词典,评论文本与情感词典集匹配提取情感特征,构建情感特征向量空间模型SF-VSM(Sentiment Feature Vector Space Model),解决传统的特征向量空间模型维数较高及特征选择误差问题。然后基于该模型结合改进的多项式朴素贝叶斯方法对评论进行情感倾向分类。实验结果表明,相比分别基于原始特征和基于χ2特征选取的朴素贝叶斯分类算法,该算法分类精度较高且分类速度快。