发布时间:2021-11-12作者:DataStory 数说故事
2021年,粤港澳大湾区数字经济研究院(IDEA)CTO Labs计划正式启动,数说故事作为大数据领域的独角兽企业,率先加入并携手IDEA共建IDEA数说故事实验室(IDEA DataStory AI Lab),致力于知识图谱赋能商业分析与决策研究。
数说故事创始人兼CEO徐亚波博士受聘为IDEA数字经济研究院“双聘研究员”,并于iTalk栏目发布演讲,分享了如何在千头万绪的商业信息中寻找出一个可靠的“成功公式”。
在中国,每天都有各种各样的商业品牌出来,有各种各样的品牌死去。我们的大数据采集平台发现,现在中国每年新出现的消费品牌大概是100万个,但是真正能跑出来的只有大约1%。想要成为1%,需要做很多的商业调查。
DataStory发展起来一个很重要的原因是因为今天的消费在不断变化。元气森林都喝过了吧,江小白都算老牌了,泡泡玛特也上市了……中国消费升级的浪潮里面,消费者偏好在不停地变化,品类的边界在不停地被打破,甚至出现了专门放化妆品的冰箱。每天有各种各样的新东西出来,让各大品牌公司感觉非常焦虑。我跟这些品牌商坐在一起聊天,他们提的问题无非就是:今天消费者是什么样的?消费者在什么样的场景下、有哪些需求还没有被满足?我们在哪个品类里面会有巨大的机会?有哪些新奇品牌?我能不能做这件事情?如果我自己也做,要怎么去解决内容媒介的问题?
聊到后来,我们发现它就是一个个的商业问题。这些商业问题它可以被清晰的break成一条一条小问题,就是我们要梳理的东西。
品牌商内,尤其是大型的组织里面,不同层次的人有不同层次的商业分析需求。比如说商业leader角色,他关心的是自己要如何判断某一领域值不值得做?这个问题背后是很大一笔钱,可能他前一天晚上睡前说“我一定要做!”,到了第二天早上起来就变成“我能不能做?”——正如沈院长所说,这是我们智能数据公司最恰当的销售时机。Leader们除了关心品类能不能做,还关心这个品类主要竞争对手有哪些?应该选择什么样的群体进入?这群体是什么样的人?喜欢什么东西?该用什么样的KOL去影响他们?……所以说我们在做的事情,本质上就是用大量的数据去帮助品牌商们去高效地回答这些问题。我们要在海量的、原始的异构数据里面去做处理,从里面把有用的信息提取出来,转化为可推进工作的知识。
最开始我们就好像血汗工厂。首先我们收集各种各样的信息,建立一个全量库,然后根据客户的需求,将数据分成一个一个小的Database,从中抽取出客户想要的信息,在Data上做Processing。我们前三年的时候立志要做一家非常高效率的工厂,可能技术不一定要那么强,但是我觉得工厂的效率要非常高,客户需求来了之后,能够流水线一样地生产出来。所以那个时候我们infrastructure的建设就是不停地建设ETL流程,把信息很快处理出来让客户用。这其实就是工厂模式,大概做了两三年后,我们觉得这样好像不行对吧?我们也要产业升级呀。
这也是现实和理想间的矛盾,我作为学术出身,当年还是做了很多高大上的算法的,来到商业界后发现这些算法,居然还没有血汗工厂的模式效率高。我觉得不行,我们还是要去尝试做出改变。所以从大概三四年前开始,我们开始有个大胆的想法:能不能摆脱这种工厂模式,也就重新升级产品架构,让它更智能。这些智能的东西能够把各个项目需求统一在一个框架下面,不用太多人力干涉,它自动用算法解决需求,能节省很多人力。
所以我们在公司内掀起“One platform, One Data”运动,不要再做重复的项目开发,转而去做低代码开发平台(这类平台后来被阿里称为中台)。从前,我们的业务人员需要和程序员大量沟通如何提取数据和建设ETL,花费大量人力,变身全自动化工厂后,业务人员可以不需要程序员就将应用生产出来。这个运动也导致了一些恐慌:
程序员想,“我们以后是不是就没有用了?”
业务人员想,“我们以后是不是要去学程序了?”
在这种碰撞中我们坚持了两三年,渐渐地所有人都改变了想法。真的实现了“One platform, One Data”时,开发效率提升了大约4倍,代码量减少了70%,从单体的项目架构走向了微服务、云平台,现在我们也适配很多云原生的平台,公司架构提升到了全新的水平,我们变成了一个Platform公司,所有的事情都是可接口化的。
我更多地学习了Amazon的Jeff Bezos,是他在做Quantum Computing之前向全公司强势提出了 API化。我们公司也一样,所有处理数据的工作流程都要被API化,然后用一个工作流引擎串起来。所以当时我们把项目里的所有东西都一层一层解耦掉,花了两三年时间,做成了一个比较智能化的工厂。
下一个技术难题,提升这个智能化的水平——我们的梦想是解决跨品类的问题。这是服务商业的公司所面临的共同难题,就是解决不了跨行业的问题。有些只服务金融,有些只服务汽车,有些只服务快消……跨商业领域很难。我们就想说,能不能把人脑里这些知识变成基础设施,不需要太多人力干涉就能支撑面向各行各业的服务。于是我们开发新商业知识服务引擎,希望把所有数据放到引擎里去,根据各行各业的需求去把核心知识提炼出来,帮助我们变成行业专家,同时又能够比较自动化地去服务客户。
这里需要解决三个核心问题,第一个你要有大量的数据来训练各行业的知识。第二个就是你要理解每各行各业的商业的逻辑,使得机器能够按他的商业逻辑把知识给抽取出来,把它组合起来。第三个就是算法能不能做到更好的水平。
“Why DataStory”?一一解答、解决这些问题的过程,也是我们逐渐建立起自己护城河的过程。首先,我们有非常强的数据基础。在我们做了三四年之后,公司现在大概有1000多台服务器,存储着我们认为有商业价值的信息。什么叫有商业价值?就是我们认为这个数据能够包含一些商业信息,比如说哪个公司发出一些新产品,哪类消费者表达了对于我们商品的喜欢……总之是围绕商业这件事情,跟核心公司、品牌、品类、消费者场景相关的我们都认为有价值。
其次就是商业逻辑,我们已经服务了很多家商业公司(500多家大型公司,很多消费品公司)数据合作伙伴也越来越多。包括像各大运营商、BAT、各种各样的垂类行业的数据,我们都谈了很多数据和商业合作,同时也为他们提供数字化转型方案。(这个地方需要强调,我们不做个人信息,我们主要做商业信息,而且尤其是公开的商业信息。)
2015年公司成立,我们用继续学习的技术做各种各样的实体识别,2017年我们就开始做限定领域的知识图谱,前后不过三四年,我们累积了很多垂直领域的商业知识。恰好这个时候预训练模型出来了,它提供了NLP领域很多基础性任务的技术支持,而且我们发现它很适合拿来做跨领域的数据训练,因为它相当于把Scheme变成Open Scheme,可以不限定类型领域,只要在语言中发现知识性的pattern,就可以直接从里抽取出商业知识,搭建起知识网络。
我们告诉客户,虽然数据还不准确,但我们的确可以跨领域了,客户都很欢迎。我想这也是技术的一种信仰力,它使人们相信,我们能搞定这件事。
我们第一款产品叫数说小智,它是一个还不完美的知识图谱,大概有3000多万个实体、一亿多个关系(把品牌、商业事件、商品、人等等都变成节点,构建知识网络)。第二版叫数说千象,“象”是包罗万象的“象”,意指把商业公司所关心的商业对象全部网罗在一张关系图谱中。我想它可能会给IDEA带来一些挑战,因为我们要共同把商业关系的提取提高到一个新的水平。
这是一个真实、迫切的需求,因为站在掌舵人的角度,最关心的一定是landscape,商业公司们会非常愿意为此买单。举个例子,我做数据分析的,我想知道中国有多少家做数据分析的公司?这个问题背后的答案一定不是几千家数据公司,不是说在同行业就能叫竞品的——真正在行业里和我们数说厮杀的就两三家。如何准确找出这两三家?这就是数据服务公司的核心竞争力所在,所以我的技术需要有能力能够在最短的时间内去分析出答案,并不停地去提高技术预测的准确度。
除了全品类消费品行业知识引擎、品牌&行业知识快速纵览、竞品挖掘,我们还有黑马品牌挖掘、产品趋势机会发现,以及组合趋势推荐模型等很受欢迎的功能。
我们想和IDEA合作的方面有三,也可以说是三个问题,一是随着数据复杂度加大,我们有了一个技术的准确率无法提升的问题,我们希望能够实现一个大幅度提升。二是开放,我们希望这个数据涉及的领域能够在行业和即时性上更加开放。三是挖掘更多事件与事件之间的联系,我们终极逻辑是把一家公司所有的核心的event都结构化,然后形成一个串联,届时任何一家公司,走到哪一步,我们都可以给出下一步动作的数据支持,或者给出答案。我们想和IDEA共同把这件事做好,冲击商业版的AI助手,将它放在每一张商业公司的办公桌上。
关于 IDEA DataStory AI Lab
IDEA DataStory AI Lab由数说故事携手IDEA共建,基于数说故事“大数据+AI”丰富的技术栈积累和平台化能力,结合IDEA国际TOP50的超级计算集群优势,将联合国内外顶尖高校和科研院所,围绕AI知识图谱、下一代动态海量事理图谱技术等领域展开国际一流的研究和产业化落地。
CTO Labs 计划是什么?
IDEA研究院创新性提出的CTO Labs计划,与全世界顶尖的技术型独角兽企业CTO,或具有资深技术背景的CEO,携手设立CTO工作室,旨在解决研产脱轨问题的合作计划。
IDEA与合作方在深圳市福田区布局CTO工作室的同时,还将共同推动具有核心研发能力的重点人才聘为IDEA“双聘研究员”,双方将共享科研资源,共育优秀人才,共创技术成果,共同为大湾区带来人才增量、技术增量、产业增量,推动大湾区科技发展与产业升级,携手构建协同创新生态。
未来,CTO Labs计划将不断发展和创新,力求吸引一大批全球优秀的新兴科技企业研发总部落地粤港澳大湾区,构建紧密围绕研究院相关产业方向的生态集群,持续为大湾区吸引产业化人才。
微信扫描二维码
微博扫描二维码