AI加持,KOL影响力不再靠“猜”

发布时间:2021-12-09作者:DataStory 数说故事

继小红书和抖音KOL影响力预测研究结果取得品牌方积极反响后,数说故事的商业专家和香港城市大学的研究人员针对KOL影响力预测,进行了第二阶段研究:从大量互联网数据中采集分析,微博、微信和b站的KOL影响力有什么差异,如何把握KOL影响力进行最大化营销?



数说故事与香港城市大学共建的“AI联合实验室”(下面简称“AI联合实验室”),突破传统统计分析的能力边界,基于数说故事丰富海量的社媒互联网数据,利用人工智能大数据挖掘分析、算法等技术,研究如何预测KOL品牌推广影响力。AI加持,让KOL影响力不再靠“猜”


研究说明:

“AI联合实验室”本次研究的样本由微博、微信和b站社媒互联网数据,接近2000个KOL账号超过10万条笔记视频组成。利用机器学习技术和算法模型,对三个平台中的KOL粉丝数、粉丝量级、关注数、性别、还有内容和视频的相关互联网数据,如评论数、点赞数、收藏数、投币数、阅读数等进行研究。同时,“AI联合实验室”对KOL进行聚类分析,利用文本和视频分析技术,将同类KOL的每一条文章及视频内容进行词频分析。


-微博研究篇-

使用KOL特征和历史互动数据

可预测未来发文互动量


基于目前的数据能力,假设KOL发文互动量(评论数、点赞数、转发数三者合)越大,对其未来发文起到的互动影响就越大。因此,在研究实验中,“AI联合实验室”把KOL发文互动量特征作为因变量Y,将其他影响因素作为自变量X,利用机器学习,测试优选最佳算法模型,使用最佳算法模型进一步分析不同因素对互动量的影响。自变量X_i由该KOL本身的特征指标组成,如粉丝数、关注数等构成。基于微博研究的KOL互联网数据结构较单一,复杂模型容易过拟合,最终“AI联合实验室”测试优选出线性回归模型,来进行测试合训练。


研究变量一 :KOL粉丝量、关注数

KOL粉丝数与关注数同样重要


我们把粉丝数和关注数分别进行训练,研究其作为发文数据特征,对KOL发文互动量有何影响。在线性回归模型中,根据粉丝数和关注数的显著性系数’0.0001’和‘0.6332’都为正数,表明粉丝数与关注数,对KOL的发文影响都成正相关,两者同样重要。值得一提的是,该训练结果与抖音平台一致,与小红书平台则不同。因此广告主在不同平台投放,还是要依据平台的流量推送规则,择优选择KOL。



研究变量二 :评论、转发、点赞分析

"赞""评">"转"?!


将历史前5天的评论、转发、收藏互联网数据作为自变量,分析他们对于因变量第6天互动量的回归结果是否显著,以及观察系数来确定“赞”、“评”、“转”的正负影响。通过线性回归模型输出的结果,我们发现不管正向或者负向,使用历史点赞、收藏、评论对未来互动量进行预测的效果是显著。从P值(右红框)可以看出,除了15个变量均显著。整体上,评论和点赞对于互动量的影响相差不大,在对数据经过归一化后,发现历史评论对应的特征系数(x1,x4,x7,x10,x13)和历史点赞对应的系数(x3,x6,x9,x12,x15)要显著高于历史转发对应的系数。因此得出结论:评论和点赞要高于转发对于互动量的影响。



KOL历史发文内容

预测未来发文互动量


KOL的影响力除了其本身特征数据和互动数据外,发文内容也是影响要素之一。为了区分不同群组、不同粉丝量对内容的干扰。我们对KOL进行聚类分析,将自身特征相似的KOL放在一起分析内容,一方面可以减少不同群组KOL间的差异,排除其他因素的干扰。另一方面,也可以提升每类KOL的发文数量,提高统计分析的精确性。然后,从每类KOL的高互动内容中提取关键词及其重要性,使用关键词及其重要性预测互动量,寻找显著的关键词。最后按照品类、成分、内容形式等细分方面具体分析不同的关键词。


以KOL的粉丝数量作为聚类的互联网数据源,根据下图,可以看到智能区分了3类KOL,从分组统计的特征值来看,其刚好可以表示头、腰、尾三部分KOL。



采集到了文本互联网数据后,如何才能找到其中最有价值的关键词呢?又该如何构建文本特征呢?延续第一阶段的成功研究成果,我们依旧使用关键词提取TF-IDF算法,使用高频词来区分当前帖子,得出一下几点研究成果:


研究成果一

 不同类别的KOL,关键词重要性不一样 


“AI联合实验室”利用TF-IDF算法提取所有KOL发文内容的关键词,结合KOL的聚类结果,对KOL发文内容中关键词及其重要性得分提取后,会把KOL发帖内容中的关键词标记为特征向量X,去预测这些发帖最后的互动量y,并分析在这个过程中对预测起显著作用的维度及其对应的词语,这样就得到了对该类KOL而言,能提高发文互动量的相关词语。


在微博的结果中,不同类别KOL发文主要的词语差异集中在品类和品牌这两方面,如在品类方面,头部KOL的优势品类有发带、外套等,而腰部KOL的优势品类有卫衣、睡衣、T恤等,尾部KOL则擅长口红方面的产品营销。


与第一阶段研究成果对比发现,微博平台的KOL的发文显著性关键词均包含很多明星名字,且所有KOL的发文显著性关键词均包含品牌名称。统计微博平台的品牌大数据营销发现,相比于小红书、抖音更频繁,因此微博这个社媒平台拥有更多的品牌和粉丝关注,广告主可以依据AI算法,结合自身产品定位,选择合适的推广渠道、合适的类别KOL去进行大数据营销行为。



研究成果二

 不同类别的KOL关键词表现不一样的趋势


在平台方和营销节点的引导下,所有KOL呈现相同的场景变化趋势,但在同一时期,不同类型的KOL的高互动量关键词也表现出明显的差异。例如,在今年上半年,如果从品类分类去看,“美妆、底妆”等词可以为头部KOL带来更高的互动量;“彩妆、香水、洗护”等词则为腰部KOL带来更高的互动量;“水乳、项链”等词则为尾部KOL带来更高的互动量。



虽然不同级别的KOL发文趋势不同,但本次研究中,数说故事发现“国潮”一词,在各类别KOL的发文趋势中都带来了正向趋势。可见今年国潮流行趋势,势不可挡,同时也给品牌方提供新的大数据营销方向。但如果从场景上看,同样也是2月的时间里,头部和腰部KOL的重要性关键词比较一致,对尾部KOL的互动量重要性更高的关键词与头部和腰部相比,差异就很大了。



想知道微信、b站的研究结果与微博有什么不一样吗?请填写表单,获取数说故事完整的互联网数据研究报告吧!



微信扫描二维码

微博扫描二维码