论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>硕士论文>范文阅读
快捷分类: 中国学术期刊网络出版总库 网络安全论文 网络营销论文 计算机网络毕业设计 网络营销相关论文 网络论文 网络舆情方面参考文献 网络舆情和社会的论文提纲 网络舆情突发事件开题报告 网络舆情参考文献 网络舆情文献综述 关于网络舆情的参考文献

关于网络舆情类论文范本 跟数据挖掘在高校自媒体平台网络舆情管理中的应用有关硕士毕业论文范文

分类:硕士论文 原创主题:网络舆情论文 发表时间: 2024-04-20

数据挖掘在高校自媒体平台网络舆情管理中的应用,该文是网络舆情方面有关毕业论文范文跟数据挖掘和应用探索和舆情方面毕业论文开题报告范文.

“三微一端”新媒体的兴起,迅速打破了人与人之间的信息障碍,信息传播呈现指数级的爆炸式扩散,传统舆情应对手段捉襟见肘,大数据挖掘成为研究的热点方向.但是监控管理体量巨大,本身还在快速增长的数据,试图从众多无关数据中,挖掘出有用信息,以一所高校的体量不论是资源还是技术,都不具备实现条件.更为可行的做法是高校主动拥抱新生事物,迎合学生喜好,搭建受学生欢迎的自媒体平台,将学生平时的意见和建议引导到平台上,降低学生与学校的沟通成本,提高学生满意度.高校自建平台用户基数小,用户群体单一,信息传播初始速度慢,惯性小,使舆情管理更为主动.但是自建平台用户相关性高,舆件容易发酵,管理不当引发的后果对学校声誉影响更为恶劣,这也给管理者带来了更高的挑战.

文章使用Python 爬虫抓取厦门理工学院公众号厦理工E 起来上的小吐槽板块数据,使用Snownlp 模块对数据进行情感分析处理,通过跟踪用户阅读数据、点赞行为,判断事件演化逻辑进程,为平台管理者提供判断依据.

一、数据抓取和清洗

使用网络爬虫技术进行数据抓取,通过定时访问小吐槽板块,获取最新发帖主题和相关内容信息,并逐一对帖子内容和回复进行访问,抓取到完整的数据.首先通过访问URL地址向Web 服务器端请求数据并得到应答,解析得到首页的数据,分离出来最新的发帖主题和帖子链接.请求模块通过帖子链接再次向Web 服务器端请求帖子页面,之后解析模块对请求模块获取到的网页源代码进行解析,去除源代码中的JS 脚本标签、HTML 标签、CSS 代码等无用信息.最后保存模块将获取到的帖子主体内容,回复内容,阅读量,点赞数等信息存入MySQL 数据库,用于后续分析.

为了实现更好的视觉效果,帖子和回复的内容主体并非单纯的文本,而是存在HTML 标签、表情包等无用内容的脏数据,需要进行数据清洗.网页文本格式相对固定统一,使用Python 的正则表达方法,将无用的信息匹配消除,即可获得纯文本信息.

二、数据挖掘分析

(一)分词挖掘

中文分词是中文文本挖掘和信息处理的基础环节,“结巴”分词是Python 社区开源的分词项目.停用词是在语言文本中出现频率很高,但是本身却没有表达实质内容,如一些标点符号,数字以及如“的”、“非常”、“我”等词汇,停用词本身不表达什么实际意义,增加了文本挖掘难度.“结巴”分词带有停用词库功能,文章从网络搜集了1893 个常用的停用词加载到“结巴”分词的停用词库,在分词过程中过滤掉待分析文本的停用词,减少干扰项,提高分词的准确性.

文章抓取了2018 年9 月1 日到2018 年10 月31 日历时两个月的数据,抓取到有效贴子数据1486 条,回帖数据4311 条,用户数据2713 条,期间新增活跃用户数据710 条.扣除停用词,可以发现高频出现的词汇及其对应的点赞率结果如图1 所示.

垃圾作为最高频词汇源自于厦门理工学院一直以来倡导的“两课”教育,即“课前30 秒,课后一分钟”,课前不迟到,用30 秒的时间快速进入上课状态,课后花一分钟,整理并带走自己产生的垃圾.当学生上课时发现教室座位有上一节课同学留下的垃圾时,便到平台发帖进行“吐槽”,该活动已经持续多年,新生的加入使得针对残留垃圾现象的吐槽明显增多,同时其不高的点赞率也表明同学对此类话题的参与度不高.

排在“垃圾”之后的“军训”、“学长”、“学姐”和“新生”都同属一个话题,即2018 级新生入学军训,2017 级新生参加冬训,2018 级新生参加夏训,使得2018 级新生多有抱怨,同时由于一名新生和老生产生误会进而引发矛盾,使得“这届新生不能吃苦”的话题在平台被广泛讨论,时间跨度上持续了整个军训,因此出现频率高居榜单,从点赞率来看,学生对事件有较高热情,特别是老生,对吐槽新生的话题点赞更多,带有“新生”词汇的内容点赞率高.

关键词“啦啦操”由于超高的点赞率特别加以说明,10月中旬开始,各学院组织新生进行啦啦操训练,由于场地有限,部分队伍训练地点靠近教学楼,外放的音响影响到在教学楼自习的同学,短短几天迅速升高的出现频次和超高的点赞率都体现了受影响学生的人数,这也很快受到了平台管理员的重视.

(二)情感极性分析

现阶段收到广泛应用的情感分析方法分为基于词典的方法和基于机器学习的方法,前者通过制定情感倾向词典,对分析文本进行分词拆解,然后根据出现的词汇的情感值描绘出文本整体的态度倾向.后者又称为基于深度学习的方法,即现在得到各界广泛关注的人工智能技术,通过大量收集样本,以人工方式对文本进行情感倾向标定,然后将素材作为样本进行有监督的机器学习过程.

基于机器学习方法的Snownlp 是Python 社区的一个开源项目,文章通过网络搜集的评论类短文本素材作为样本训练,然后用于对平台的文本进行情感详情分析,情感极性区间为[0,1],其中0.5 为中性,大于0.5 则属于积极情感,小于0.5则属于负面消极情感.在啦啦操事件中,发帖和回帖文本的情感极性分析结果如图2 所示.

从图2 可以看出来,受到啦啦操训练干扰的同学,发帖和回帖内容情感上都偏向消极,甚至有部分同学的发帖中出现“不客气”“不要欺人太甚”等偏激词汇.后来这一现象受到平台管理者重视,在学校协调开放两个操场并布置灯光供参与啦啦赛的团队训练,之后再无有关帖子出现.

三、结语

较小的用户基数和相对集中的数据,使高校在有限资源下对自媒体平台进行数据挖掘成为可能.通过对Python 社区开源项目进行有针对性的调整,并且在实践中逐渐改进,可以在投入较小的情况下,实现对自媒体平台有效的管理.

评论:本文论述了适合数据挖掘和应用探索和舆情论文写作的大学硕士及关于网络舆情本科毕业论文,相关网络舆情开题报告范文和学术职称论文参考文献.

参考文献:

1、 政府网络舆情管理 摘要网络舆情已经成为我国社会各个阶层、群体社会态度和感受的关键反映 新媒体技术的快速发展,不但转变了以往的信息传播方式,同样给政府网络舆论管理发起了巨大的挑战 本文对当前政府网络舆情管理中存在的问题进.

2、 新媒体时代网络舆情变化与舆论引导探析 互联网裂变式的技术发展对当下的网络舆情治理以及媒介生态带来了诸多新的变化和新的挑战 如何提高新媒体时代网络舆情的应对能力,如何有效地开展正面新闻宣传,这个问题尤其值得我们媒体人思考和探索 近年来我因为.

3、 基于数据挖掘的橙光扶农平台用户细分模块设计 摘要数据挖掘技术是电子商务领域未来应用空间最大的一种新技术 橙光扶农平台为了以最快的速度和效率推广滞销农产品,需要迅速找出潜藏于大量客户群体中可以发展为爱心公益推广使者的志愿者 因此,平台利用数据挖掘.

4、 大数据时代下高校网络舆情管理机制的路径探究 摘 要大数据时代的到来使高校网络舆情呈现出诸多复杂的特征,影响高校网络舆情研判的及时性和准确性 高校网络舆情对学生的身心发展有着重大影响,高校作为学生价值观形成的关键场所,必须创新管理机制,善于利用数.

5、 大数据时代高校网络舆情管理 【摘要】大数据时代,高校网络舆情管理挑战与机遇并存 一方面,要进一步加强内容创新,强化网络舆情大数据基础设施建设,利用大数据提升网络舆情管理工作效力 另一方面,要充分发挥大数据的技术推动作用,加快更新.

6、 新时代背景下高校网络舆情管理 摘 要在“新时代”背景下,高校网络舆情新增设备移动化、环境复杂化、主体积极化……特点 为应对新的变化,必须通过强化舆情预警、提高内在联动的高效性、建设专业化队伍……形式,加强高.