发布时间:2022-12-29
浏览次数:23
作为一个从事品牌舆情行业多年的老人闲谈一下。
舆情监测,无可避免的就是大数据,所以舆情分析实际上是从几个维度来看。
1、基础层:数据维度,数据量大、范围广,筛选能力强。也就是时效性高、定位能力强。
2、业务层:理解客户需求,抓住分析目标,找准定位。随着互联网数据量级规模的大幅度提升,从海量数据中定位是一件越来越难的事情。无论如何使用搜索技术、知识图谱技术、人工智能技术(主要是NLP),都很难逃离一个BUG,那就是技术对业务痛点难以支持。
下面直接谈干货:
首先分析客户需要的是什么,大部分情况下表面是个报告,实际则大都有其他的想法,舆情产品经理需要揣摩客户真实的内心以及舆论环境对他们的影响。
比如企业,是领导出现了负面新闻,还是产品出现了负面新闻。客户是要分析报告然后安排公关公司处理,还是要一条龙服务?是负面公关压制、SEO处理、发文洗白,还是其他处理方式?是截止到目前时间点的一次性报告,还是持续追踪,还是要明确给出可执行的处置方案?
比如政府相关部门,客户想要的是什么?(该内容我就不在此阐述了)。
如果不是负面公关事件,而是营销活动要分析什么?整个舆情事件是需要数据多一些,还是要把前因后果、各种脉络摸清,像讲故事一样写成报告给客户?
当把这些问题尽量问清楚、搞清楚之后,很多疑问就可以解决了。
真正的分析,或者掏钱多的分析,是一定要加入人工分析的,这也是为什么舆情分析师的岗位一直有存在的价值,而不是被自动化机器所替代。
分析的时候,要从事件本身的发展脉络、网络传播数据、社会影响及网民观点等几个维度来分析。此时,还需要注意数据的假象问题。比如我们发现了一个舆情事件,舆情系统目前主要的定位方式是关键词组合。从语言学角度来说,一个事件的定义是主题词 + 地点 + 特定称呼或形容词 + 人物 + 公司或组织。但这对NLP的技术要求很高,地名有通用列表,但是别名以及地域上下级关系需要自动发现,和人工标注的方法来提高识别准确率。而人名则必须是一个基于AI技术的识别模型,不管是用深度学习还是别的技术。机构和组织名除了可以用已有的库以外,还需要识别模型。当这些关键的实体都能被识别出来之后,一篇文章的大部分关键要素就能被识别出来了,但是描述关系仍然需要通过句法识别以及词性标注来优化,还需要新词发现系统来发现一些特殊的描述,尤其是网民对某个特殊事件起的特定“外号”。
综上所述,一个合格的NLP系统会把一篇文章以上要素和结构都识别出来,然后再做高阶处理。比如一篇文章出现了多个地名,那么这篇文章到底说的是哪个地方?这需要算法识别出核心地点。比如检索关联文章的时候,要发现该地域范围内的所有文章,而不是只盯着某个地名,比如我们要找的是北京市的某个事件,但实际发生地是在朝阳区,甚至是某个小区,这个关联关系也要被发现。除此之外,人物在文中的地域描述、职位描述、形容词以及和其他人的句法描述关系,都可以提取出来,形成网状结构,其实这就是知识图谱的雏形。所以舆情监测的高级阶段肯定是知识图谱化的,分析角度和维度也可以更自由,可以很快发现特殊的网民观点、特殊的人物关联关系等等。
上文中谈了很多维度,但实际上我更喜欢从产品和技术的角度,探讨舆情以及大数据产品。我是品牌营销和舆情监测方向多年的市场负责人,欢迎大家交流。
关注头条号,输入【 舆情 】,1对1 咨询。
Copyright © 2022 北京舆情大数据服务公司 All Rights Reserved.
010-80700019
微信二维码