你好,欢迎进入北京舆情监测大数据服务有限公司官网!

致力于网络舆情监测

Committed to online public opinion monitoring

010-80700019

客服服务时间:9:00-18:00

当前位置: 首页>案例展示

原创:舆情监控系统,董事长说要

发布时间:2023-01-09

浏览次数:20

舆情监控系统,董事长说来一套。

你好,我是鱼大,想讲讲你们可能不熟悉的AI场景。
可能很多人都不了解舆情,这里我粘贴一下定义:舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。
我们举个大家了解的例子,大家喜欢看微博,因为微博里喜欢爆料,看的最过瘾的就是八卦新闻,比如哪位明星大咖爆出一个什么丑闻,或者哪个学校出了一件不公正的事情引起网友热议。要是网传某位明星可能做了伤风败俗的事情,如果还没有实锤,第一时间能够很好的处理,那这位明星还能继续风风光光。弄的好带来的是流量,弄得不好,演员被封杀。很多艺人都有公关团队,处理八卦新闻,或者也做点“蹭流量”的新闻。
只要是有利益在,就有人关注它,明星如此,那我今天讲的是企业。

上市企业,受各位大股东的关注,也被很多未来股东关注着。企业的行动,企业改革方向会影响到它的股价,公司新闻舆论的发酵也会有摧毁企业的风险。所以,很多上市企业董事长不仅在公司方向上进行把控,公司的形象也开始重视提升。
如何提升的呢?正常的操作我就不多说了,比如开始重视宣传,公布公司新战略,关于公司新项目新合作,公司新技术,公司新订单,企业获奖等等都可以以新闻或者简报的形式公布于众。
那还有一方面可以努力就是避免坏的舆论出现,达到保公司平安。企业监控坏新闻,然后想办法“抹掉”,这里公关部会出马,平时他们会与各大媒体平台有着紧密的联系,同样也认识一些水军头目,能够撤销一些评论和文章以起到降低负面影响。
那如何才能监控坏消息,负面消息,这个就是我今天要引出的AI场景。
网络新闻,论坛话题在信息时代如黄河之水滔滔不绝,用人的眼睛去搜索往往辛苦且不及时。

那AI是怎么做的呢?我们聊聊大致的步骤
(1)第一步整理关键词
什么才是和公司有关的信息呢,很明显公司的名字存在的标题和文章内容肯定是的,公司名称包括外界昵称,比如某语音识别独角兽公司=科大讯飞。另外,一些企业的董事长或者总经理也是非常有名的,创业经历比较神话,他们的名字跟公司名誉是强绑定的。我们还记得陈欧吧,当年的聚美优品为自己代言,其实就是在为企业代言。
(2)第二步整理新闻来源
知道了关键词,这个时候你要知道怎么去找这些文章或者是新闻,我们最常见的就是搜索引擎,比如百度,360,谷歌等。通过这些搜索引擎,我们输入关键词就容易搜出很多相关内容。但是,搜索引擎不是所有的新闻文章都收录了,有时候收录是需要几天以后,我们还需要关注特定的一些媒体平台,如凤凰新闻,财经类,贴吧,微博,公众号等等,有多少整理多少。
(3)第三步爬虫
知道新闻在哪里我们不可能一个网站一个关键词去翻,想省事就需要爬虫机器人分布式爬取相关关键词的新闻汇总到一起。至于怎么爬,当然用Python。爬虫中怎么换ip,怎么合规爬虫这个需要更专业的研究,我也不细说了,有很多相关书籍和教程可以学习参考。
(4)第四步正负面分类
爬来的东西很多,汇总后还需要分类整理,好的坏的要分门别类。这个时候我们需要有一个模型能够分辨新闻的情感,这个模型好做吗,后面我单独说。
(5)第五步显示
该收集的我们收集了,好的坏的我们也分出来了,那我们该需要一个前端展示了,一个web页面或者是小程序,还是手机客户端其实都可以。我们可以做的漂亮一点,解决交互问题。我们在搜集的文章中让其他普通用户可以继续做关键词组合筛选和热点统计分析。加上报警的功能,当比较严重的负面新闻爆出后需要及时提醒企业关公部。

好了基本的一套舆情监控系统算是简单介绍了,那我们说说这个模型吧,这个模型容易吗。
我认为是不容易的,而且太难了。
如果没有数据,我们怎么做正负面情感分析,我们自然语言处理领域有个色彩库,当然有公开的也有自己建的词汇库,比如“下跌”、“破产”、“下滑”、“欠薪”这类词汇被归结于负面词库,像“大涨”、“突破”、“改善”归于正面词库。我们只需要进行关键词匹配就还能获得一些效果,事实上也是很有效的。
那我们想用上深度学习,或者说机器学习该怎么办呢?不容易,那些市场上的舆情监控系统也做不到非常精准。
目前一些比较大的云计算公司或者大厂都有其AI平台,AI附能提供付费接口或者私有化部署方案。像腾讯,阿里,百度在NLP领域都有情感分析的接口,一共有三个标签,正、负和中性。每个接口有最大的输入字数,一般是小于256个。

那我们如何去做训练样本呢?
我们的新闻,一般由标题加正文,正文又有几段来描述,多则几千字少则一两百。
我们标注是每一句去标注还是以段落和文章去标注呢?作为公关部,他们更关注整篇文章的定型。按照道理讲应该标注的时候一篇文章一个标签才好。可这就很难了,模型训练也是有输入限制的,几乎做不到通篇作为输入。可以对于每一段进行标注先,让模型学会对每一段打标签。每一段的标签有“正、负、中”三种,必须得标记准确。
还有一点,标签怎么定义这是真困难的。对于公关部门来说,我只关心和本公司有关的负面新闻,那别人家的负面新闻其实不是负面新闻,只能算中性,这个涉及到语句主体识别。
一句话中,我们可能还是很好识别主语和宾语在哪。但是几句放一起后,诸如“前者”、“后者”,甚至很隐晦的方式来个“我司”,这简直要了AI的命。
标注的标签规定是非常模糊的,我们算法人员或者标注工程师一定要与业务需求部门来定这个规则。如果做不到他们的参与和大力,工作容易越有越陷进去,推翻重来非常耗时耗精力。
文本的标注工作是很辛苦的,对于文本非客观理解的标注工作一般还不好外包,很多时候得辛苦自己公司的工程师。
本人也在其中体会到中文语言的博大精深,比如双引号,疑问句容易让人琢磨到底是什么意思,几个否定加在一起还能不能理清楚本意。文本情感的标注有如高考语文阅读理解中心思想的提炼。这种困难对标注工程师非常有挑战。
关于模型的选择,目前比较常用,也很好用的语言模型是BERT,网传的GPT3还不实用。
模型对每一段或者每一句做了分类后,如何实现一篇文章的总标签的归类,这个有很多方式,对每一段的类别一个权重,比如包含企业名字的权重要高,这个要结合业务部门整理的关键词做处理。
我们要牢牢记住单纯的模型训练是绝对无法完美解决真实需求,必须还有结合逻辑直接干预。
关于模型,就简单聊这么多,非常多的坑要跳过去。希望有经验的工程师们可以与我交流,下方有我的二维码。
这篇文章,我提到了基本舆情监控系统构造步骤,也说到了很多技术点,每一部分都需要我们专研,希望能给还不了解这个场景的朋友一点认识。非常欢迎相关在做舆情监控的朋友与我交流。另外,真心希望有董事长能看到这篇不太优秀的文章,AI一定程度能为你们的公司保驾护航。

原创不容易,希望对你们认知有些许帮助,你们的鼓励是我前进的动力。

010-80700019

微信二维码