论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>毕业论文>范文阅读
快捷分类: 马哲论文 青马班结业论文 亚马逊毕业论文 亚马逊杂志订阅 亚马逊物流本科论文 鲁滨逊漂流记赏析论文 亚投行形势和政策论文 马云论文题目

亚马逊相关专升本论文范文 跟基于R语言的线上家居用品网购评论文本挖掘以亚马逊为例类本科毕业论文范文

分类:毕业论文 原创主题:亚马逊论文 发表时间: 2024-03-26

基于R语言的线上家居用品网购评论文本挖掘以亚马逊为例,本文是亚马逊类论文范文素材和亚马逊和家居用品和R语言方面论文范文素材.

摘 要:在网购平台的用户评论中利用R语言对文本进行挖掘,联系划分利用词云与TF-IDF权重分析来交叉比对好评与差评,筛选出在用户评论文本中的有效信息,不再局限于词频分析,使网购评论的解释度获得提高,使得到的分析结果更为充分.

关键词:文本挖掘;用户评论;亚马逊

课题来源:

“ 泛在环境下的信息与交互设计类课程多维教学模式研究与实践” 江苏省教育厅研究生重点教改课题(编号:JGZZ17_020)

一、用户评论获取

第一步,用户评论获取.要分析网购用户评论,首先要在网页中获取用户评论.现阶段国内许多在线购物网站都防止爬虫,同时也做了很多反爬虫工作,而R语言在爬虫这点并不是很有力的工具,但是亚马逊的网页评论可以用R语言获取.在获取评论的过程中,需要注意有两点:(1)如何获取网购用户的ID;(2)怎样在网页的编码中获取网购用户评论的精确定位.选择的对象是近三年内国人购买相对较多的某品牌保温罐,分析的只针对一种商品,所以只需要考虑具体的用户评论结果.

二、词库构建与分词处理

1.词库构建与文本降噪

在得到评论文件后首先对评论进行第一步预处理.逐条检查进行错别字检查,以方便之后进行的操作.

在对评论文本进行了整理后,我们发现分词结果对评论的解释度并不够高,例如“后来发现右上角有一个坑”被分成了“后来”、“发现”、“右上角”、“有”、“一个”、“坑” ;若用此分词结果,进行分析后会遗失很多关键的信息.所以需要先进行词库建立,利用词库对信息筛选.

在词库构建过程中首先需要对评论进行分析,观察用户评论中对产品的需求或对商家的服务、物流等提出的意见或建议.词库的建立利用了短句的方式.首先对评论语句进行解读,对其中的信息进行筛选,找到差评中的关键信息如“包装太差”、“质量不好”、“物流缓慢”、“态度恶劣”等,并且对文本中的长句变为短句,联系上下文中的含义,其次对不必要的语气词,叹词等在断句中进行剔除,获得更为纯净的文本语句.依照此思路对好评与差评分别建立词库.

在词库的建立的过程中,需要尽可能的筛选出有用信息,因为本次研究所用的评论较少,所以使用的方法为逐条筛选;如果使用大批量的评论则需要使用构建语料库,建立测试集等方法来进行评论分词与筛选.在利用词库后对文本进行分词后得到的结果比之前理想很多.

得到分词结果后,需要对分词进行进一步处理.在此过程中我们进行了以下步骤.

2.分词结果预处理

在获得比较理想的分词结果后,还需要在之后进行下一步处理之前需要对文本进行一些其他的处理.第一,降低词频处理.主要是保留词条长度大于2的词条.第二,符号、空格去除.

3.词频权重处理

TF-IDF(term frequency–inverse document frequency)词频--反转文件频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度.在R语言“jiebaR”函数中可以提取出文本中的关键词及其在评论文本中所占的权重.将好评与差评中分别提取5个关键词并获得权重,得到结果如表2.3.1所示.词频权重分析会在之后的结果分析部分占大部分作用.

三、实验结果分析

1.词云分析

"词云"就是对网络文本中出现频率较高的"关键词"予以视觉上的突出,形成"关键词云层"或"关键词渲染",从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨.

在好评词云中(图3.1.1),我们可以看到“保温效果很好”、“保温效果好”、“等积极词汇占了大多数,剩下的则有“made”、“China”、“包装简单”等词汇,“包装简单”说明有部分购买者在购买后对包装存在不满;“made”、“China”则说明了购买者对从美国亚马逊进行海外购够得的产品产品还是本国产不满,存有购买后的心理落差.因此在好评中还有意见,好评中可能还是会有商品意见与对商家提出的建议,可能会有隐藏信息,需要进行进一步分析.

在差评词云中(图3.1.2),我们看到“保温效果好”竟然也会出现,可以进一步说明商品的质量在保温效果这一块是比较优秀的,同时也说明了差评中也存在正向词汇;“保温杯”“很失望”“发邮件”等词汇则说明了差评中购买者的主要态度,“发邮件”说明亚马逊在与客户沟通的时候的不便.

2.词频权重分析

词频权重在表2.3.1中已经给出.如图3.2.1所示的差评的直方图显示(左),关键词包装占了最大部分权重,剩下的四个关键词所占权重基本一致,由此可知差评的点主要集中在包装上.其余关键词的权重差别不大.

在得出的差评的分词文件中查找关键词的词条数,差评分词文件词条共计344条,我们由包装开始找出差评主体的问题.在35条包装评论中,只有一条提到包装不错,剩余的都在说包装简陋,简单等.在15条杯子评论中,提到杯子有损坏、产地,杯子有或多或少的问题.在保温这项则是对杯子保温效果的评论居多,值得一提的是,很多人买这款产品作为焖烧杯使用,而非作为保温杯使用,在试用过认为保温效果不好时将其作为保温杯使用,只有一条评论对保温效果提出了肯定.

好评词条分词权重如.好评词条总计1012条.同上述差评分析过程中发现在高权重位的“保温”和“效果”两个关键词的词条中出现重复的概览很高,通过R进行权重比对后,发现绝大多数用户肯定保温效果.在关键词“不错”中,大多数用户认为保温效果不错,剩余用户对购买体验与产品质量表示肯定.关键词“亚马逊”用户都认为亚马逊值得信赖,对亚马逊的购物体验表示很好.关键词“包装”中,半数购买者认为包装不错,半数购买者则认为包装过于简单.

结合词语分析与权重分析两种,我们可以得知,很大部分用户对产品的保温效果给予肯定,在词云和权重中都出现了保温效果好的词条;否定保温效果用户可以由商家跟踪服务调查,找出保温效果降低的原因.对于商家的包装,绝大多数的用户给予了否定,即使在好评中也出现了很多不满意包装的用户,主要存在于杯子包装质量不好在运输过程中造成了不同程度损伤.一个关键词出现在好评与差评中是具有交叉性质的,在好评中有可能否定,而在差评中却是肯定.因此,需要结合好评与差评中的同一个关键词对文本进行分析.

四、结语

本文通过对亚马逊上一件产品的评论进行了文本挖掘,筛选有效信息,获得了用户对一件商品评价的分析.通过对文本进行分词处理,建立了适用于本产品的评论词库,为的是将单体产品的评论中的信息解释度提高,完整上下文,不是只局限于对词频分析.单一的词频分析有时并不能作为文本挖掘的主要结果,有时候会受到文本噪点的影响而忽略部分有效信息.词频分析与权重分析相结合可以得出较为准确的结果.因为本次分析的用户评论量较少,所以使用了人工校准与建立词库,所得的结果相对比较准确,在使用手动建立词库的时候也可以在分词过程中省略去停词的过程,因为商品的好评与差评形成了鲜明的对比,用户评论在情感分析方面具有一定的先天优势.因此,两种方法结合进行分析可以让分析结果更为鲜明与准确,也能让设计师、企业看到自身的优点,同时完善自己缺点.

参考文献:

[1]邓远飞,林晓伟.Web文本挖掘及可视化[J].价值工程,2018,37(14):216-218.

[2]陈义. 文本挖掘在网购用户评论中的应用研究[D].浙江工商大学,2018.

[3]张俊伟,杨柳,王硕宁,王忠建.基于文本挖掘的商品推荐[J].哈尔滨商业大学学报(自然科学版),2017,33(04):463-468.

[4]任新宇,王倩.论绿色产品设计的特征及策略[J].设计,2018(08):108-110.

[5]李若辉.基于“互联网+”的设计专业课程教学改革途径研究[J].设计,2018(13):94-95.

[6]赵寅.居家养老产品设计研究[J].大众文艺,2018(06):46-47.

作者简介:

孙昊夫(1992- ),南京林业大学研究生.

郁舒兰(1969- ),南京林业大学设计学科教授,主要研究方向:数据可视化,用户体验设计等.

括而言之,这是关于对不知道怎么写亚马逊和家居用品和R语言论文范文课题研究的大学硕士、亚马逊本科毕业论文亚马逊论文开题报告范文和文献综述及职称论文的作为参考文献资料.

参考文献:

1、 李陀:冷冰川的线语言 怎么看冷冰川的艺术很多评论都肯定了冷冰川是一个有个性、有创造性的艺术家,但是论及他的创造性的时候,我觉得这些研究和评论都忽略了冷冰川在艺术探索上的一个重要方面,那就是这位艺术家不全是在“风.

2、 线的形式语言在中国意象油画中的应用 摘要线是一种造型手段和形式语言 线的形式语言是中国意象油画创作的核心,在经营位置、塑造具有意境美的形体、表现时间的延续和空间的层次感、增加画面的视觉冲力和表现内心情感……方面具有重要作用 中国意象油画.

3、 东西方肢体语言碰撞一定要谨慎做这些手势 语言是人类交流的重要手段,但是人类借以交流的不仅仅只有言语 许多时候,肢体语言更能起到此时无声胜有声的效果 通过一个人的手势、肢体动作我们可以了解到对方的思想意识、情绪变化………… 比如,许多亚洲人在.

4、 线上线下融合提升用户体验 在电子商务渠道到来之前,销售均是围绕线下渠道开展,如国美、苏宁、红星美凯龙,以及品牌专卖店…… 后来随着电子商务的发展,家电企业基本上从天猫、京东的旗舰店切入做电子商务 就是因为这样的切入方式,使得很.

5、 前沿探测的效标关联效度:基于自然语言处理 研究前沿探测的效标关联效度研究基于自然语言处理周文杰(1 西北师范大学商学院甘肃兰州730070)摘要文章应用自然语言处理,以Sci2所识别的研究热点为效标,分别对基于题名、摘要、关键词和全文探测到的.