作者与读者:社会媒体情感分析作者和读者的观点_作者与读者国外研究

读后感 时间:2020-02-27 09:26:28 收藏本文下载本文
【www.daodoc.com - 读后感】

作者与读者:社会媒体情感分析作者和读者的观点由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“作者与读者国外研究”。

作家与读者:社会媒体情感分析作者和读者的观点

摘要:这篇介绍了情感分析的小说研究的作家和读者的观点。一个挑战是缺乏一个语料库标注作者和读者的情感。我们解决这个问题通过在线作者情感语料库和在线读者情感语料库。然后要进行统计分析在这个新生成的语料库,发现作者和读者情感之间确实存在着关系。关键词:作者情感分析;读者情感分析 1 介绍

文字是人们传达的情绪媒体之一。但是,作家和读者总是共享相同的感情吗?如果不是,是作者和读者之间的关系情绪完全随机的,或有重复出现的模式吗?这些是我们正在解决的问题。

大规模语料库标注作者和读者情绪很难找到和极其费力从头开始构建。因此,我们寻找一个替代方法创建一个注释作家和读者的情感的语料库。

我们观察到都是现成的语料库都仅是只包含作者的情感或者只有读者的情感。例如,作者情感可以通过许多很大的博客网站获得,例如雅虎奇摩博客1,允许博客作者通过使用表情符号在他们的作品中表达他们的情感。读者情感集也是可用。由于最近流行的Web 2.0,某些新闻网站,例如雅虎奇摩新闻2,通过Web 2.0技术让读者表达自己对新闻文章的情感。采取语料库的可用性,我们整合创建作者与读者这两种类型的情感语料库标注。

在本文中,我们使用雅虎奇摩博客作为作者情感语料库,和雅虎奇摩新闻作为读者情感语料库。为了产生一个注释与作者和读者的情感的数据集,我们通过使用雅虎奇摩新闻语料库构造一个文档级读者情感分类器,并在雅虎奇摩的博客文集上使用生成的分类器。通过这种方式,一个新的标注作者和读者的情感的博客语料库就获得了。

在新创建的语料库上执行分析。我们把一个博客帖子用读者对帖子的情感作为飞机的一个点。之后,文章的读者情感信息覆盖在一个平面上,检查结果图和模式识别。我们进一步将博客基于他们的主题分为16组(如。、政治和体育),分别分析每组作家情绪对读者情绪的影响。结果表明,当阅读博客,读者对相同的作家的情感反应因不同主题的变化而不同。2 语料

A 读者情感语料

读者情感语料库由中国新闻文章从雅虎检索奇摩新闻。雅虎奇摩新闻为用户提供一个选择的投票的8种情绪向新闻表达他们对新闻的感觉。投票后,读者可以看到一个选票的分布,它显示了其他读者对相同的新闻文章的感受。

雅虎提供的奇摩新闻的8种情绪很棒的、感人的、有用的、快乐的、令人震惊的、难过的、无聊和生气。有用的并不是一个真正的情感。这意味着一篇文章包含实用信息。我们读者情感语料库的新闻文章从2007年1月24日至8月7日收集了总共18651年新闻文章。我们收集出版一个星期后的每一个新闻文章,以确保其情感投票数已经稳定。B 作者情感语料

作者情感语料库包括来自从雅虎奇摩的中国的博客文章。雅虎允许博客作家通过4十个不同表情符号表达自己的情感,表情图片代表的情绪状态。在写一篇博文,一个作家可以在博客文本的任何地方添加这些表情符号。每个博客属于由雅虎奇摩的博客定义的16个主题之一。博客的主题根据文章的内容选择。主题是母亲和婴儿、俱乐部、生活方式、消费电子产品、形象创建、宠物旅行,爱好、金融、政治、创意写作、个人成长、艺术评论、科学、体育和视听。雅虎需要博客作家手动选择一个博客的主题之后提交一篇文章。

图1 Valence-arousal图。纵轴是唤醒水平。水平轴是价水平。的两个轴是原点。两轴范围(1,1)。图上的位置代表作家的情感。颜色代表读者的情感。

图2 每个读者的情感与作者情感象限相关联

博客数据集包含从2005年11月1日至2007年8月20日的帖子。因为我们仅分析情绪,博客文章应该包含至少一个表情符号。2764202个数据集的所有帖子至少有一个表情符号。我们进一步使用的算法来减少带注释的文章的表情符号的数量至776107。这样做是保持每个博客类别最多70000个博客。3 博客帖子的读者情感

虽然可以在雅虎奇摩博客上用表情符号来传达作者的情感,文章的读者情绪仍是未知的。我们利用分类器对这些博客文章进行读者情感分类。分类过程细节介绍如下。在[1],林,杨和陈使用雅虎的新闻文章奇摩新闻建立读者情感分类器。他们的分类器将文档按雅虎奇摩新闻定义的读者情感分为8大类。分类的目的是将新闻文章的情感定义为一个新闻文章的最主要的情感。林,杨和陈使用五种特性:中文字符二元组、中文词、新闻元数据、词缀相似性和情感词的情感信息来训练SVM(支持向量机)分类器。

我们采用林,杨和陈的分类方案建立对博客文章按读者情感进行分类到雅虎的8个读者情感类别的分类器。我们的读者情感分类器在雅虎奇摩新闻与前面描述的语料库中训练。获得读者情感分类器的一个迹象性能,我们进行training-testing雅虎新闻语料库。2007年6月1日之前的文章(13035篇文章)作为训练数据。剩下的文章(5616篇文章)作为测试数据。我们得到的准确性是0.7803。相比之下,通过林,陈杨和过滤新闻语料库的最高精度是0.7688。我们最后在所有的训练18651个新闻语料库对读者情感分类器。这个分类器适用于所有雅虎奇摩的博客语料库。在这个过程之后,雅虎博客文集注释作者和读者的情感。4 读者与作者情感

A 构建Valence-Arousal图

在他的作品中,Ruell提出代表情感信息的一个二维图[2]。在Ruell的图中,横轴代表价水平,纵轴代表了唤醒水平。价水平的定义是一种情感的极性(即积极的或负面的)。唤醒水平定义为的强度情感。在他们的研究中,Ruell的杨,陈和林适用valence-arousal图概念到雅虎奇摩的博客文章[3]。他们分配的每一个表情符号到4个之一象限图。杨、林、陈将表情符号分为4类,然后作为类博客分类的句子。我们采用杨,林和陈的博客表情符号映射到象valence-arousal图。绘制博客帖子到valence-arousal图中的步骤如下,给定一个博客b,将E b作为b的每个表情符号组。每一个表情符号是与二维位移矢量的基础上表情符号的象限valence-arousal图相对应的。表情符号在象限I,II,III,IV位移向量,,和。在valence-arousal图中b的坐标定义如下

其中u(b)是valence-arousal中b的坐标,de是表情符号e的位移矢量,|Eb |是Eb的基数。|E b|确保的规格化因素价和唤起坐标范围(-1,1)。

使用雅虎奇摩博客语料的博客帖子,我们构建一个valence-arousal图充满了代表作家情感的博客文章。

下一步是覆盖在同一读者情绪图。我们为每个读者情感,分配不同的颜色和为每个博客点根据文章的读者情感定义颜色。通过这种方式,我们获得每一个博客点在valence-arousal图上的颜色。如果有不止一个博客文章具有相同的点坐标,然后定义颜色读者情感最常发生在这些博客点被选中点的颜色。现在我们有一个valence-arousal图表达作家的和读者的情感。

图3 16个博客主题的4个Valence-arousal图。这些图与图1是相同的格式。作者和读者之间的关联的情感2 到16个博客主题。当读者情感在一个轴,这意味着t表示读者情感不偏离的象限轴的分离

并不是在valence-arousal图中所有的坐标都充满点,因为不是图上所有的位置在博客语料中都是相连的。为了减少稀疏并获得一个通用模式,我们在图中应用了一种平滑技术。平滑的算法是基于3-nearest-neighbor分类。对于图上的每个位置,不管一个博客是否贴在那个位置,我们发现最近的三个博客点位置,其中包括的点定位是否有博客点位置。那么多读者情感颜色选择颜色的位置。图1是3-nearest-neighbor平滑的valence-arousal图。B 全局情感模式

查看图1,我们注意到颜色都不是图上的随机分布。取而代之的是可见的模式。例如,第一象限是橙色和第4象限是绿色,而主要是绿色的和蓝色。这些观察结果告诉我们,很可能点位置和颜色之间有一个关系。这反过来意味着一个作者和读者的情绪之间的关系。获得作者和读者的情绪之间关系的具体证据,进行统计分析。我们第一次调查读者情绪与作家的情感之间的联系。要做到这一点,我们比较读者情绪发生的条件概率价轴的积极和消极的方面。换句话说,我们比较P(r | v +)和P(r | v-),r是一个读者情感、v +代表价轴的积极的一面,和v-代表了负面的价轴。如果P(r | v +)> P(r | v-),然后读者情感r有更高发生概率价的积极一面的轴。在这种情况下,我们会将r与积极的作家的情绪。如果实际情况是相反的,即P(r | v +)

在B +的博客文章在整个博客文集有一个积极的价坐标方程(1),b和hb是读者情感分类器决定的博客b的读者情绪。P(r | v-)定义类似地,在B-所取代B +,这是整个博客文集有负价坐标博客集。

所有读者情绪的P(r | v +)和P(r | v-)比较的结果表明感人的、有用的和快乐的读者情绪与积极作家的情感。也就是说,这4个读者的情感的P(r | v +)> P(r | v-)。相反,令人震惊、悲伤、愤怒与消极的作家的情感。所有的价值差异P(r | v+)和P(r | v-)统计重要的假定值

C 博客主题的情感模式 我们已经分析了作家和读者在整个语料库中的情感关系。在这分段,我们调查每个16个博客主题的关系。图3显示了valence-arousal图的16个博客主题中的4个。检查这些图,我们注意到它们的颜色模式是不同的。此外,这些颜色从全球图形模式与图1也是不同。我们已经看到,博客主题可能会影响读者如何应对情感作家的情感。

统计在每个博客主题上确定作家和读者的情绪之间的关系,我们比较P(r | c、v+)和P(r | c、v-),和P(r | c+)和P(r |c-),c代表了一个地方博客的主题。结果表明,作家和读者的情绪之间的关系确实不同的博客有不同的看法的话题。

图4显示了作者和读者之间的关系情绪的两个博客主题。我们观察到不同于彼此。这也适用于所有16个博客主题。也就是说,所有图形都是独一无二的。16个博客主题中的8个,图表不展览模式类似于一个全球图形的价的水平。为这8的博客主题,太棒了,感人的,有用的,并不总是快乐的情绪与积极的价水平,令人震惊,伤心,无聊和愤怒的情绪并不总是联系在一起的负价水平。至于唤醒水平,每一个16个博客主题有不同的映射读者的情感积极和消极方面的觉醒轴。

总之,分析博客的价点valence-arousal图使用整个语料库作为一个整体告诉我们,博客主题的读者和作家情感倾向于同意他们的极性。然而,通过博客主题这样一个关系并不总是当我们分析博客文章。这意味着有一个博客主题影响读者如何应对作家的情感。4 相关工作

许多研究已经完成情感的主题分析。他们要么处理作者意见要么处理读者的意见。大多数是关注作者的。工作开始早在2002年,当时彭,李和Vaithyanathan基于电影评论的分类为积极的和消极的情绪[4]发布他们的论文。彭的小组发现,比起unigram、统计、词性、词的位置和形容词的功能,使用英语unigram词功能达到更好的精度。从那以后,更多的研究已经完成提高分类精度。马伦和科利尔[5],和胡等[6]采用词情感特性提高分类精度。文本的作者情感分析不仅限于分析文档的水平。Wiebe调查的主观性形容词[7]。哈曼和Szpakowicz手动标签短语与情感类别[8]。在[9],苏等发现的单词和情绪之间的关系。由于他们日益普及,博客已经成为一个流行的作者情感语料来源。工作已经通过Mishne分类博客条目到37的情感类[10]。杨、林、陈博客文章归类为4作家情感类别[3]。科恩等人研究灾难发生中博客作家的情感变化 [11]。

在[12],周和Chaovalit执行主题独立的极性分析。

更少的新领域的研究已经完成读者情感分析。林、陈和杨将雅虎新闻文章分类成8情感[1]。在2007年,semeval-2007年组织了一个无人管理的任务新闻标题的注释情绪[13]。5 结论

在本文中,我们从分析作者和读者的角度来看进行情感分类的新研究课题。我们结合作者情感博客语料与读者情感新闻语料库。当映射每个博客上的一个点到valence-arousal图,发现读者的情感相关联的某些象限图。博客语料库作为一个整体,往往是积极的读者的情绪与积极的作家的情感联系在一起。然而,这样的现象对个人博客的主题并不总是保持一致。因此,文本的主题是一个影响读者对作家情感的重要因素。6 参考文献 [1] Lin,K.,Yang, C.,and Chen, H.-H.Emotion Claification of Online News Articles from the Reader's Perspective.In Proc.of 2008 International Conference on Web Intelligence.IEEE, Sydney,AU,2008.[2] Ruels,J.A Circumplex Model of an Affect,Journal of Personality and Social Psychology,1980.[3] Yang,C., Lin,K.,and Chen, H.-H.Building Emotion Lexicon from Weblog Corpora.In Proc.of 45th Annual Meeting of Aociation for Computational Linguistics,133-136.ACL,Prague,CZ,2007.[4] Pang,B.,Lee L., and Vaithyanathan,S.Thumbs up? Sen-timent Claification Using Machine Learning Techniques.In Proc.of 2002 Conference on Empirical Methods in Natural Language Proceing,79-86.ACL,Philadelphia,US,2002.[5] Mullen,T.,and Collier,N.Sentiment Analysis Using Support Vector Machines with Diverse Information Sources.In Proc.of 2004 Conference on Empirical Methods in Natural Language Proceing.ACL, Barcelon,ES,2004.[6] Hu,Y.,Duan J.,Chen,X.,Pei,B., and Lu, R.A New Method for Sentiment Claification in Text Retrieval.In Proc.of 2nd International Joint Conference on Natural Language Proceing,1-9.Jeju Island,KR,2005.[7] Wiebe, J.Learning Subjective Adjectives from Corpora.In Proc.Of 17th Conference of the American Aociation for Artificial Intelligence,735-740.AAAI,Austin, US, 2000.[8] Aman,S., and Szpakowicz,S.Identifying Expreions of Emotion in Text.In Proc.of 10th International Conference on Text,Speech and Dialogue,Lecture Notes in Computer Science 4629,196-205.Springer,Plzeň,CZ,2007.[9] Su,Q.Xu,X., Guo.,H.,Guo.,Z.,Wu.,X., Zhang, X., Swen,B.,and Su,Z.Hidden Sentiment Aociation in Chinese Web Opinion Mining.In Proc.of 17th International www.daodoc.com,2008.[10] Mishne,G.Experiments with Mood Claification in Blog Posts.In Proc.of Style 2005 in 28th ACM SIGIR Conference.Salvador,BR,2005.[11] Cohn,M.,Mehl,M., and Pennebaker,J.Linguistic Markers of Psychological Change Surrounding September 11, 2001.Psychological Science, 2004.[12] Zhou,L.,and Chaovalit,P.Ontology-Supported Opinion Mining.Journal of the American Society for Information Science and Technology,2008.[13] Strapparava,C.,and Mihalcea,R.SemEval-2007 Task 14: Affective Text.In Proc.of 4th International Workshop on Semantic Evaluations.Prague,CZ,2007.

作者与读者的关系的心得

刀豆文库小编为你整合推荐8篇作者与读者的关系的心得,也许这些就是您需要的文章,但愿刀豆文库能带给您一些学习、工作上的帮助。......

关于作者与读者的关系的心得

关于作者与读者的关系的心得自古以来有读者手持的书刊必然就有出版书刊的作者,而有作者创作的地方却未必会有读者的身影。其实读者和作者之间的关系,如同鱼水;读者是水,作者则是......

关于作者与读者的关系的心得

自古以来有读者手持的书刊必然就有出版书刊的作者,而有作者创作的地方却未必会有读者的身影。其实读者和作者之间的关系,如同鱼水;读者是水,作者则是鱼,水无鱼则无味,鱼无水则难活......

作者致读者的一封道歉信

刀豆文库小编为你整合推荐6篇作者致读者的一封道歉信,也许这些就是您需要的文章,但愿刀豆文库能带给您一些学习、工作上的帮助。......

作者致读者的一封道歉信

作者致读者的一封道歉信修罗武神的读者们:你们好,我是善良的蜜蜂。首先我要说句抱歉,这段时间这两个字,真的说了好多遍。 为什么要说抱歉,是因为我一次又一次的让你们失望,我真的......

下载作者与读者:社会媒体情感分析作者和读者的观点word格式文档
下载作者与读者:社会媒体情感分析作者和读者的观点.doc
将本文档下载到自己电脑,方便修改和收藏。
点此处下载文档

文档为doc格式

热门文章
点击下载本文