论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>硕士论文>范文阅读
快捷分类: 文学评论期刊 商业评论杂志 文艺评论杂志 文学评论杂志 外国文学评论期刊 教育评论杂志 法学评论投稿 论诉题评论文化大革命 商业评论杂志订阅 文学评论方向的学年论文 评论文章写得好 北大商业评论杂志

评论方面有关论文如何怎么撰写 与基于TF-IDF算法和K-means聚类的商品评论和波动相关性以ThinkPad电脑为例类函授毕业论文范文

分类:硕士论文 原创主题:评论论文 发表时间: 2024-01-28

基于TF-IDF算法和K-means聚类的商品评论和波动相关性以ThinkPad电脑为例,该文是评论方面有关本科论文范文跟IDF算法和算法相关参考文献格式范文.

摘 要:随着电子商务产业的发展和电商平台的涌现,消费者逐渐习惯了通过电商平台比对货物和购买商品.相关产品主页上的评论和评分成为了消费者决策的重要参照,同时商家也把评论和评分作为调整的重要依据.以ThinkPad E570c电脑为例,运用TFIDF算法、Kmeans聚类和SPSS统计分析,发现在仅考虑评论属性的前提下,评论中的带图数量与波动具有关联性.在同时考虑评论属性和内容的情况下,评论中关性能的内容是消费者的主要关注点.研究结果对商家制定定价策略与合理管理在线评论具有一定的实用意义.

关键词:在线评论;文本内容倾向性;TFIDF

中图分类号:F713.55;F724.6

文献标识码:A

doi:10.3969/j.issn.16722272.2018.07.011

0引言

随着Web2.0互联网模式时代的开启,电子商务产业的发展成为了当下公众关注的热点.借此契机,电商纷纷开启了线上线下布局,消费者也借助着这些平台的移动客户端或网页选购商品.因此,各种赋予消费者发表其独特观点的在线评论网站迅猛发展.由于通常情况下消费者在交易过程中处于信息不对称的不利位置,因此在购买前浏览商品主页上的评分和其他买家的评论成为消费者消除潜在风险的主要手段.对于商家,评论中消费者对于商品的关注点也成为他们分析市场需求和制定的重要参照.所以,是否能够高效获取商品在线评论中的有效信息对买卖双方都是极其重要的.

当前研究在评论参数的选择上主要有评分、评论数量、长度、时效性和评论内容等,研究这些变量与波动、销量或预定量增减的关系.王文君等(2016)选择了评论数量、负面评论、评论长度和时效性这4个维度,使用多元回归分析法研究其对销量的相关性.结果发现前两者与销量呈负向相关,后两者呈正向相关.杨弦(2014)支持评论属性(如评论数量)对销量关联性高的观点,并进一步指出评分对消费者决策的影响大于评论内容.一项以研究对象为优盘的调查从线评论的评论数量、产品销量排名、优惠、商品评分和在线评论情感(好评率)这5个维度进行分析,发现评论数量与销量之间的相关性最高,而优惠、商品评分和好评率与销量无显著关性.施晓彦(2017)不局限于评论属性,加入了评论文本内容的分析对木质玩具的在线评论和销量进行了研究,构建了产品的质量分类模型.

方法上,TFIDF算法、聚类和SPSS统计成为了普遍采用的研究方法.Ali等(2017)则通过TFIDF算法对信息进行提取,提升了归类的效率,简化了后续的查询工作.周海晨(2017)运用TFIDF算法中的jieba分词对985高校微信公众号文本内容进行提取,了解学生在不同时期所需要推送的主题内容.考虑到单一使用TFIDF算法对文本内容进行挖掘在词义统计上存在缺陷,有研究认为在主题词或关键词的抽取上,可借助共现词、Kmeans聚类等方法,提高主题词的抽取准确度.与之相似的是,另有研究通过Web文本挖掘对其中中文词条的特征词进行提取,之后利用层次聚类,得到结论.还有研究通过SPSS统计词频,提取研究中的热门文本主题.

然而,目前对在线评论的分析中,尚存在一些不足.例如,在评论属性参数的选择上,有些研究仅仅考虑评论属性对于波动的影响,或只是对评论内容进行挖掘,在属性的选择上没有引入新变量.也有研究仅仅采用半定量的数据来分析和观察指标之间的关系.从文本挖掘的方法上,不仅要准确筛选出关键词,更要将其归类,确定倾向性,以便准确了解消费者对商品的关注点.为克服目前评论对象选取和研究方法上的这些缺陷,本文以在线评论对于商品定价的影响为研究方向,选择作为大学生学习和实习的必需品—手提电脑(ThinkPad E570c)为研究对象,引入带图数量这一新属性参数,同时考虑属性和内容对商品波动的共同影响,结合TFIDF算法和Kmeans聚类两种方法进行研究,分析商品评论中消费者的主要关注点、评论内容对商家策略制定的影响并提出建议,优化定价策略.

1研究方法

1.1研究对象

本文选择ThinkPad E570c手提电脑为研究对象,在观察了购物党网站上所有的评论内容和推送时间后,本文将时间范围限定在2017年1-6月,在该范围内,有所波动,评论数量较集中,适合进行研究.

1.2研究变量的确定

评分是商品评价最为直观的体现,消费者甚至不需要仔细阅读评论内容仅从评分或好评率上就能对商品的质量和服务有总体上的把握.国内外研究结果都显示评分,尤其是正面评价会对销量产生积极影响.而另有研究更进一步指出负面评价的出现带来的影响比正面评价更大.所以,消费者的评分在本文中被确定为变量之一.

第二,评论数量.直观感觉上评论的多少也可以给消费者造成一定的冲击力.国内外很多研究都在各自的研究中将评论数量作为变量,并得出了其对销量的增长相关性较高的结论.如有人认为当评论较多,商品评论中有关商品或服务的信息量越大时,观望中的消费者更倾向于选择购买,评论数量是影响销量的最重要因素.基于此,评论数量也成为本文的研究变量之一.

第三,相对较为细节的评论长度(字数)和评论回复数.王文君等(2014)和王君珺(2016)在各自独立的研究中指出了评论长度的重要性,即评论字数越多,评价内容更具体,潜在消费者越有可能选择购买.在本研究中,除了纳入评论长度(字数)外,还将评论下属的评论回复和追加评论一并纳入统计范围内,不单纯局限于一条独立的评论,这样使研究的考虑更为全面,数据更为丰富.

最后,评论的带图数量.带图评论的兴起得益于当前科学技术的进步和人们生活习惯的改变.过去受到网络条件、设备、概念上的局限,之前的研究未意识到或鲜有将带图评论作为变量进行分析.从目前为数不多的将带图评论纳入考虑范围的研究中,其优于传统变量,能够提供更直观信息,从而提升评论效用的重要意义得到了挖掘与验证.因此,本文也将带图评论数量作为研究变量.

1.3获得原始数据的方法

首先通过网络爬虫Python代码抓取购物党上ThinkPad E570c相关评论的作者、时间和文本内容,录入数据库.在完成评论抓取后,对文本内容做了甄别和筛选.剔除了所有重复性很高、完全复制粘贴的评论,更改错别字,对一些未加标点符号的语句做了断句.使用Python中的jieba分词包完成评论文本分词,从而获得完整的研究数据.评论属性上,结合采集到的数据,进而以天为单位,统计每一天商品、每一条评论的字数,录入数据库,计算每一天新增评论数量、评论平均长度、平均评分、平均回复数量和平均带图数量.

2结果

2.1评论属性对波动的影响

Pearson分析显示,与评论属性有关的变量与的关系:评论数量(r等于0.187;P等于0.046)、评论长度(r等于0.199;P等于0.037)、带图数量(r等于0.225;P等于0.021)与显著相关,而评分(r等于0.044;P等于0.346)和回复数(r等于-0.07;P等于0.266)与无关.

为进一步了解这3个因素中哪一个是影响的决定因素,再进行多元逐步回归(逐步引入-剔除法)分析.结果显示,在这些变量中,只有平均带图数量(B等于26.777,SE等于12.983,β等于0.225;P等于0.042)进入回归方程.从这一结果看,在仅考虑评论属性的前提下,在线评论对波动的影响因素有且仅有评论的平均带图数量.

2.2消费者主要关注点

在分析了评论属性与的关系后,本研究将焦点集中于评论文本内容,以TFIDF算法确定评论中消费者的主要关注点.使用Python中的jieba分词对抓取的评论进行分词并计算字词的TFIDF值,结果如图1:

图1可以直观地看出评论中消费者最关心的8种核心要素分别是轻巧、好看、配送、服务态度等.之后根据评论中每一个字和词的TFIDF值,为评论形成评论的词频矩阵,本文试图对这八大因素使用Kmeans聚类对评论进行归类,但聚类结果并没有把它们完全分开(见图2).对这种情况的一个解释是,消费者习惯在自己的评论中以不同角度发表观点,即评论内容存在交叉性.而且在汉语语境下,一次多义也普遍存在,例如“蛮快”一词,即可指配送也可指电脑性能.因此,算法在不考虑词义的前提下无法对词进行准确归类.为克服这一技术问题,本文对评论内容进行人工辅助分类,再一次行聚类分析.结果发现,评论内容主要涉及性能、服务和外观三大方面(见图3).

2.3评论属性和内容对波动的共同影响

在明确评论内容倾向性有三大类后,结合上文统计的评论属性对商品进行相关性分析.自变量结合评论属性和内容倾向性,包括评论平均数量、评论平均长度、平均评分、平均评论回复数、平均带图数量、外观相关内容、服务相关内容和性能相关内容,应变量为变动后的:

p等于a+bx1+cx2+dx3+ex4+fx5+

gx6+hx7+ix8+ε(2)

p:变动后;

x1:评论平均数量;

x2:评论平均长度;

x3:平均评分;

x4:平均评论回复数;

x5:平均带图数量;

x6:外观相关内容;

x7:服务相关内容;

x8:性能相关内容.

在变量确定后,继续使用Pearson相关性分析,结果如表2所示,可以看到在评论内容方面,对性能的关注度与有显著正相关关系(r等于0.319,P等于0.002),而对外观(r等于0.144,P等于0.099)和服务(r等于-0.121,P等于0.138)的评论与无关.

表2评论属性和内容与相关性分析结果

评论属性评论内容

数量长度评分回复数带图数量外观服务性能

0.187*0.199*0.044-0.0700.225*0.144-0.1210.319+

*:P<0.05 +:P<0.01

综上,在涉及评论属性和评论内容对变动的各种因素中,与变动直接相关的因素除了评论数量、评论长度和带图数量外,性能相关内容也成为了关联因素之一,其与的相关系数也是各变量中最大的.为确定这些因素中哪一个是最核心因素,本文进行多元逐步回归分析.结果如表3所示,在考虑全部评论属性和文本内容的前提下,在线评论对波动的影响因素有且仅有性能这一变量,即消费者对电脑性能的关注度是导致波动的主要因素.其多元逐步回归方程为:

p等于4 229.667+259.731x8(3)

x8:性能相关内容

BSEβP

性能259.73186.3610.3190.004

3讨论

本文的研究首先引入了带图数量这一全新的参数,在仅考虑评论属性的条件下,观察评论属性变量对波动的关系,发现评论中平均带图数量对波动产生影响.再将评论所有属性和内容倾向性共同引入作为自变量后,得到对产品性能的评论是影响波动的决定性因素.

在该领域的较早期的研究中发现,评论属性(如评论数量、字数和评分等)是销量变化或导致产品波动的重要因素.目前,带图评论成为了流行的趋势,正如本研究发现的,带图数量成为了所有评论属性中和波动相关性最高的变量,也是具有决定性的变量.

然而,消费者在浏览商品时不仅会关注评论数量的多少和是否带图,更会关注评论的具体内容.本研究在归类了评论文字的倾向性后,得到外观、服务和性能是评论内容的三大方面.将其与评论属性共同作为自变量进行多元逐步回归分析,发现评论中有关ThinkPad E570c电脑性能方面内容提及的多少成为了最为重要的因素,取代了之前评论平均带图数量.这说明在当前的环境下,消费者在评论中对电脑性能的关注程度是影响商品波动的最核心因素.类似结论在其他研究中也有体现.潜在消费者在浏览商品时,会关注评论中谈及有关商品材料和功能等方面的具体内容,而不仅仅通过评论长度或评分等属性进行决策.

本研究的结果具有一定的实用价值.首先,随着科技的发展,带图评论已经成为了感知有用性最高的评论属性,本文也发现带图评论是在评论数量、评论长度、评分和评论回复数这些评论属性中与关系最密切的因素.因此,网络平台可以通过适当的激励措施,鼓励消费者进行带图评论,提供更为客观的商品评论和建议.奖励可以包括但不仅限于:积分赠送、返现、折扣优惠券等.其次,基于本研究的结果,即撰写评论的消费者较愿意从产品的外观、服务和性能上切入,我们建议商家在设计评分时,不妨请消费者从这三个方面分别打分,使评分更为精准、指向性更为明确.第三,也是最重要的,由于对产品性能的评论与有决定性的关系,因此在评论管理上,商家应对消费者的反馈予以积极回应,特别是性能方面的问题做好及时沟通和解决.本研究还注意到,虽然该商品的好评率高达98.4%,但依旧存在给出1分和2分的消费者,正如Yin等(2016)指出的,低分评论对的影响甚至在某种程度上要超过正面评论,这些人的抱怨可能对潜在效果的购买意愿产生不利影响,所以解决好这些消费者提出的问题非常重要.

4结语

本文以ThinkPad E570c电脑为例,对评论的文本内容进行挖掘.使用TFIDF和Kmeans聚类法,计算并筛选出评论中的关键词,将评论中的内容倾向性归为外观、服务和性能3个方面.在完成评论量化的基础上,以评论属性和内容为自变量,分析与的相关性,得出评论中有关性能内容的描述对波动具有决定性的影响.

今后的研究可以增加样本量,扩大获取评论的时间跨度,使研究结果更具普遍意义.进一步拓展研究范围,引入不同的在线交易平台,或在评论内容的分析上加入文本情感分析,以直观体现消费者的态度,将更进一步提升研究的准确性和实用性.

参考文献

1中国电子商务研究中心.2017(上)中国网络零售市场数据监测报告\[EB/OL\].http://www.100ec.cn/zt/upload_data/17wllsbg1.pdf. 2017.

2王秋文,郑建明.Web2.0环境下网络信息消费行为模式研究[J].新世纪图书馆,2012(5):2326+1.

3郝媛媛,叶强,军.基于影评数据的在线评论有用性影响因素研究[J].管理科学学报,2010,13(8):7888.

4ZHANG JURUI, LIU YONG, CHEN YUBO. Social Learning in Networks of Friends versus Strangers[J]. Social Science Electronic Publishing, 2016,34(4):573589.

5王文君,张静中.电子商务网站在线评论对手机销量影响的实证研究[J].河南工业科技,2016(3):188193.

6杨弦.客户评论对产品口碑及销售的影响研究[D].大连:大连理工大学,2014.

7赵志阳.交易网站在线评论对商品销售的影响研究[D].北京:北京邮电大学,2013.

8施晓彦,曹喆岫,陈超,等.基于大数据的电商产品质量评价研究—以儿童木制玩具为例[J].广西财经学院学报,2017(5):6483.

9MOSTAFA ALI, YASSER MOHAMED. A method for clustering unlabeled BIM objects using entropy and TFIDF with RDF encoding[J]. Elsevier journal, 2017(8):154163.

10周海晨.基于爬虫与文本挖掘的“985”高校图书馆微信公众号的调研[D].合肥:安徽大学,2017.

11张雷.基于word2vec和TFIDF算法实现酒店评论的个性化推送[J].电脑与信息技术,2017(6):811.

12公冶小燕,林培光,任威隆,等.基于改进的TFIDF算法及共现词的主题词抽取算法[J].南京大学学报:自然科学,2017(6):10721080.

13张建伟.基于WEB文本挖掘的电子商务网站个性化推荐研究[D].淮南:安徽理工大学,2014.

14潘若愚,姚浩浩,朱克毓.基于词频统计分析国内外文本挖掘的研究热点[C].中国管理现代化研究会会议论文集,2017.

15ERIC K CLEMONS, GUODONG GAO, LORIN M HIT. When Online Reviews[J]. Journal of Management Information System, 2006(23):149171.

16CHEVALIER J A, MAYZLIN. The effort of word of mouth on sales: Online book reviews[J]. Journal of Marketing Research, 2006,43(3):345354.

17GUODONG GAO, BIN GU, MINGFENG LIN. The dynamics of online consumer reviews[J]. Workshop on information Systems and Economics, 2006.

18王君珺.不同热度产品的在线评论对销量影响的实证研究[D].北京:北京邮电大学,2014.

19CHRYSANTOS DELLAROCAS. Building trust online: the design of robust reputation reporting mechanis for online trading communitites[J].Information society or information economy, 2004.

20张艳丰,李贺,翟倩,等.基于模糊TOPSIS分析的在线评论有用性排序过滤模型研究——以亚马逊手机评论为例[J].图书情报工作,2016(13):109117+125.

21张颖.在线酒店评论对消费者预订决策影响研究[D].石家庄:河北师范大学,2015.

22杨梦霞.四种网购评论类型的有用性感知研究[J].商场现代化,2017(11):6566.

23DEZHI YIN, SABYASACHI MITRA, HAN ZHANG. Research Note—When Do Consumers Value Positive vs. Negative Reviews? An Empirical Investigation of Confirmation Bias in Online Word of Mouth[J]. Information Systems Research, 2016,27(1):131144.

综上而言:本文是关于评论方面的大学硕士和本科毕业论文以及IDF算法和算法相关评论论文开题报告范文和职称论文写作参考文献资料.

参考文献:

1、 基于ARFM模型和K均值算法的理财客户价值分析 中国银行软件中心 徐福昌 李雪飞 李红杰 马成伴随着经济社会的稳步发展,客户已经越来越成为决定企业发展的关键力量 现代营销学之父菲利普·科特勒指出在一个产品泛滥而客户短缺的世界里,以客户.

2、 基于形态学标记青贮玉米自交系的聚类分析 收稿日期20161119基金项目20132014黑龙江省财政厅自拟课题(XZNKT5);20132015齐齐哈尔市科学技术计划指导性项目 作者简介柴华(1985),男,汉族,黑龙江齐齐哈尔人,硕士,助.

3、 云南省各州市旅游投融资分析基于SPSS聚类分析法 谢宗运,朱晓辉(云南财经大学旅游文化产业研究院,云南昆明650221)摘要利用云南“十二五”期间各州市不同的旅游项目类型中的投融资额,采用聚类分析法,分析各地州市的旅游投融资项.

4、 聚类算法概述和应用 【摘要】 聚类算法在数据挖掘技术中有着十分重要的应用,在数据分类操作中能够达到良好的效果 本文对划分聚类、层次聚类、密度聚类、网格聚类算法的主要思想及内容进行简单概述,并根据其各自特点分析每种聚类在处.

5、 技术决定论视域下今日头条算法模式的现实困境和 摘要人民网2017年曾发表多篇评论文章,矛头直指以今日头条为代表的单纯靠算法推荐模式的问题,从技术的表象特征入手,深挖隐藏在背后的内涵,随即在学界和业界掀起了一股针对技术创新目前存在的现实困境的讨论狂.

6、 海内外专家齐聚烟台论道医药 “创新好药,烟台制造” 2018 医药创新与发展国际会议暨国家“千人计划”专家联谊会生物医药与生命科学专业委员会2018 年年会近日在山东烟台举行,此次.