一张图,揭秘人货场大数据清洗整合全流程

发布时间:2020-08-21作者:DataStory

上篇文章《100万品牌数据!最fancy的人货场数据在这里大集合》点击了解更多),展示了数说睿见强大的数据整合能力,但从各个渠道采集获取的源数据并不能直接使用,还需要经过层层AI质检有效性验证,才能成为可利用的优质数据。优质的数据是一切有效分析的前提,也是渠道大数据平台——数说睿见最坚实的底层基础资产。

一起来看看,数说睿见是如何一步步对人货场数据进行AI质检:




质检映射+融合去重


在不同路径通过爬虫抓取的数据,包括地图数据、OTO数据、品牌门店数据、第三方专业数据供应商提供的数据,这些数据由于表述形式不同、地点更名等原因,同一经纬度的POI在不同渠道上显示的名字并不统一。


例如,“中山大学”在高德地图显示的是“中山大学广州校区南校园”,在其他路径上显示的则可能是“中大南校园”、“广州中大南校园”等名字,它们都指代同一个地点,但由于名称不统一,导致不同渠道的信息无法对齐汇总。


数说睿见,针对数据进行分类映射、品牌映射、标签映射、源数据质检,完成同一经纬度POI的映射。完成质检映射后,数说睿见进一步将重复的数据信息融合、去重,对临值/可疑数据进行核验,确保每一条数据真实有效。



AI数据质检


◾ 不同路径的源数据存在经纬度不同的问题,根据字段需求,数说睿见通过对经纬度进行标准化转换根据经纬度匹配出相应的栅格ID,以及栅格经纬度(包括栅格中心点经纬度、栅格右上角和左下角的经纬度)。


◾ 获取的数据,由于不同数据源的行政区/县市数据存在差异,在质量核查阶段,数说睿见根据地址和名称来进行匹配确定最新的行政区和编码

◾ 部分数据源存在命名不规范等问题,数说睿见针对名称等字段进行标准化算法处理,规范每个数据源的等字段内容,确保数据还原真实情况。

经过数说睿见的层层AI数据质检,将无效数据删除后,便可进入下一轮清洗。



数据补充


在完成上述步骤之后,数说睿见的数据库已初见雏形,通过进一步对有缺失的字段进行补充,增加数据的有效性


有效性验证


为了保证数据最终的准确率,数说睿见反复进行人工核查,包括实地验证、线上活跃度验证、Probe活跃度验证,对平台的呈现进行复查统计核查数据的完备率,夯实数据基础。



基于海量人货场数据,数说睿见进一步进行数据清洗与整合,帮助客户通过高度自定义维度组合甄选潜力城市、商圈及地理栅格,锁定消费质量最高、客群质量最好的商业地段,助力品牌以最低成本实现最优业绩商业布局,抢占线下生意先机。

关于渠道的商业潜力评估模型,下期推文小编将继续为你详细介绍。

扫码填写表单,抢先了解更多,申请免费试用!


微信扫描二维码

微博扫描二维码