发布时间:2020-11-17作者:DataStory
第十四届全国知识图谱与语义计算大会(CCKS 2020) 11 月 12 日至 15 日在江西南昌举行,CCKS(China Conference on Knowledge Graph and Semantic Computing)是由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议,CCKS 已经成为国内知识图谱、语义技术、语言理解和知识计算等领域的核心会议。
数说故事创始人兼CEO徐亚波博士受邀来到CCKS 2020并带来以《商业知识图谱 – 从开放性图谱构建到商业应用》为主题的分享。
如需获取完整版《商业知识图谱 – 从开放性图谱构建到商业应用》PPT,请下滑至文末。以下是分享内容精选:
现如今,消费者偏好快速变换,品类边界不断打破,新品牌层出不穷。以零食为例,过往它们是为了填补消费者寂寞的嘴,而今层出不穷的能量零食为消费者提供了更多选择空间,同时也消除了消费者吃零食的罪恶感。
行业内大家最想分析的无非就是“消费者在哪里?”、“场景是什么?”、“什么品类正在崛起?分别来自哪些品牌?”、“触达消费者的内容和媒介是什么?”,这些问题串联起来就是一个知识图谱。实体包括人、场景、品类、品牌、内容和媒介,数说故事训练机器分析不同实体之间的关系,并将它们串联起来形成知识图谱。
数说故事的终极目标是要构建人机协作商业大脑,从购买报告渐进式过渡到购买交互式Dashboard,训练机器学会思考商业问题,给出策略,进而学会预测,推动智能商业决策。
为了应对快速的变化和数据智能的困难,数说故事大数据中心于去年启动开放型商业知识图谱搭建项目,基于数说故事多年积累的亿万级数据库,构建开放型商业知识图谱和开放性实体属性挖掘系统Mamba Search。将商业场景中的各种知识以一种更加智能的方式呈现,通过不断挖掘将知识索引。
畅想虽然美好,但在实际应用中,开放型知识图谱的搭建往往面临着层层阻碍:
◾ 社媒文本不规范
◾ 实体关系复杂、缺失严重
◾ 海量实体、大量新增实体
◾ 如何有效地解析利用?(知识提取)
◾ 如何有效地表示、使用?
(Knowledge Graph Embedding)
◾ 如何有效地归类、使用?(实体类型推断)
那么数说故事是如何应对这些问题的呢?
社媒文本中,省略主语、乱用标点、主语混乱的情况多见,难以同时提取主谓宾知识三元组。数说故事提出NER+二元组提取的方案,以NER结果连同原文作为输入,提取出以NER结果为主语的(谓语,宾语)二元组。
如下图所示,蓝色代表模型需要提出实体和关系,在提取三元组的方案中,对于这样的复杂文本,模型很难发掘主语到谓语之间的关系,而在数说故事的方案中,黄色代表可以作为主语输入到模型的NER结果,模型只需发掘相关谓语和宾语即可,降低了任务的复杂性。经测试,可在准确率不变的情况下,召回率提升8.5%。
商业知识图谱中大量存在一对多、对称、反对称的关系,相对于传统的TransE模型,最近两年先出现的RefE等模型的数学工具(复变函数等)更能适应复杂的关系指向。
Graph Embedding,目前比较主流的Knowledge Graph Embedding方法为:Translation Model、复数空间类(RotatE)、双曲空间类(RefH[1])。在文献中,我们发现RefH的模型在Embedding维度较小,如200维时效果显著好于其他,但是在更大的空间上只是稍微好一点。经过测试,在我们的场景实体推断的任务中,RefH的模型取得了最好的效果。
具体落到不同的商业场景中,知识图谱能做些什么呢?
◾ 快速行业纵览
将行业内的不同讯息打通、链接;以阿里巴巴为例,从下图知识图谱就可以看到阿里巴巴和淘宝、天猫、腾讯、优酷、高德地图、咸鱼等等实体之间错综复杂的关系,用一张图纵览行业。
◾ 行业趋势检测
通过从文本中挖掘KOL、专家对行业内不同品牌和产品的描述标签内容和提及次数,根据这些声量,我们能够近实时地检测行业趋势并解析市场变化。
◾ 黑马品牌发掘
我们对黑马品牌的挖掘分为检测和预测两个部分,通过从文本中挖掘KOL、专家对品牌的描述标签,当品牌开始出现被描述为黑马、新锐的声量时,我们能够近实时地检测并解析到知识图谱的标签中;在知识图谱中我们构建了一个关系网络,可以通过关联趋势的变化,预测品牌在后续发展中的增长情况。
◾ 品牌竞品发掘
每天都有无数的新锐品牌在诞生,其中不少品牌正在默默成长为行业内不可忽视的新兴力量,如何才能快速发现这些竞品?通过实体间关系度计算可以实现:
◾ 产品研发创新
互联网的发展产生大量新品数据,包括各种KOL的新品测评、行业分析、用户的真实评价和自发分享、商家的上新推广等等。数说故事采集全网数据,并以知识图谱赋能海量数据处理,挖掘出产品相关的新原料、成分、颜色、技术趋势。
旗下数说雷达根据“趋势”在不同生命周期的数据特征,将不同的“趋势”划分为“萌芽期、上升期和火热期”三个阶段,为品牌产品创新提供基于大数据的实时趋势发现。
未来,数说故事将在知识图谱的领域持续深耕,带来更多元化的发展:
1、知识图谱本身技术的发展
现在的知识图谱是一个静态的不包含时间属性的图谱,我们需要将实体和关系随着时间变化的属性也加入到知识图谱的表示中,这样能够赋予知识图谱更加强大的解读能力。
2、赋予知识图谱以商业逻辑
让知识图谱能够直接对图谱里面包含的商业实体(品牌、明星)做商业价值判断。
3、知识图谱与事理图谱的结合
基础级别知识图谱应用已经比较普遍,当前整个学术领域最热的就是因果图谱、事理图谱等,核心是发现事物之间的因果关系,以形成更高层级的推理能力,辅助我们做更强大的商业逻辑推断。
4、商业问答引擎
在底层已经有了海量的知识,并且能够做商业逻辑推导后,我们为知识图谱赋予上层的自然语言查询引擎,使用者只需要提问,就可以形成商业价值判断。
让我们一起期待未来知识图谱带来的商业价值放大!
如您感兴趣,需要申请《商业知识图谱 – 从开放性图谱构建到商业应用》完整版PPT,请扫描下方二维码,填写表单。
微信扫描二维码
微博扫描二维码