一站式用电服务商

服务热线: 0755-23005185

当前位置: 首页 - 公司动态

大数据管理平台功能有哪些特征使用应提供哪些功能

2023-03-03

丰富的特征数据、有序的特征体系、统一的元数据管理体系便捷、稳定的在线服务便捷、可靠的离线特征仓库实验迭代

  1. 商业DMP定位

  首先,结合我们的需求,介绍下商业DMP定位,这里介绍的商业DMP主要是指我们商业站内的,主要提供特征挖掘和特征数据服务的能力。

  对于开发者,特征挖掘平台提供了简洁、易用的开发SDK,屏蔽实时计算、批量计算、海量存储、高并发服务、各底层分布式系统部署等细节。提供TB级别(N天)行为数据挖掘和秒级别延时实时特征挖掘,支持特征挖掘实验、水平扩展。

  对于特征数据服务平台,提供丰富的特征数据(TB级别)和元数据管理,能够提供在线和离线特征数据服务。对于在线,提供稳定的在线特征数据服务,支撑在线推荐系统;对于离线,提供灵活的多维查询,支持按人群特征进行营销活动。

  2. 平台业务架构

  从数据的产生到标签的加工再到业务应用,在这完整的数据流中,DMP平台其实是起着承上启下的作用,可以把它看做是一个数据工厂,对数据特征进行统一、清洗、加工、转化、提炼,再对外提供相应的数据服务。DMP平台主要包括特征挖掘平台、dmp service、标签元数据管理、监控等模块。

  3. 平台逻辑架构

  平台逻辑架构主要分为数据层、存储层、计算层、服务层和监控层。

  数据层:提供Kafka、ESB、HDFS、Api等多种异构数据源,通过importer层将数据进行统一的清洗转化,对下形成统一的数据源,从而屏蔽底层的异构数据源。

  存储层:我们实现了存储接口、序列化模块、压缩模块。由于在线推荐特征挖掘提供基于KV键值存储就能满足需求,故底层存储主要提供Redis和自研的wtable等。

  计算层:提供了storm、spark、sparkstreaming、flink等多种计算引擎。在operator模块提供让特征挖掘用户自己实现对应的SDK即可,简便高效,同时对于用户来说屏蔽掉了异构计算。

  服务层:主要提供IDMapping、路由、实验、process四个模块。IDMapping主要是为了打通数据孤岛;路由模块主要是解决流量分发问题;实验模块主要是进行分流实验;process模块主要是提供业务解耦能力。

  监控层:对服务、任务、存储等进行监控,对多环节快速发现定位并解决问题。

  4. 平台功能

  平台目前提供行为引入、特征存储、特征挖掘和特征服务四大模块。

  行为引入:提供ID-Mapping服务、实验分流、统一Behavior结构,支持Behavior结构实时离线复用和兼容,支持实时批量导出Behavior数据。

  特征挖掘:支持实时挖掘和批量挖掘,并支持在线加工,统一特征和属性结构,为解析用户行为提供相应的SDK。

  特征存储:支持随机和批量的高并发读写,提供TB级别的特征存储能力,同时提供实时特征和历史特征的融合,支持多版本的特征迭代。

  特征服务:对外提供统一的访问接口,权限控制,元数据管理和实验分流。

  5. 元数据管理

  商业DMP标签体系主要分为C端标签和B端标签两类。C端主要是流量相关的标签,可以给予人口属性、行业标签、地理位置等做进一步细分。B端主要是广告主相关的标签。

  6. 特征挖掘流程

  特征挖掘主要分实时特征挖掘和离线特征挖掘两大块。我们提供了Importer(对数据源的解析)和Operator SDK(融合数据挖掘的接口),可以对用户提供SDK开放接口,达到一处编写,多处执行的能力,并且支持插件化部署,利于服务解耦和维护。

  离线特征挖掘的场景是一般基于单日行为的批量挖掘,再向前回溯n日的特征,然后进行多日特征合并。首次进行全量导入特征库,后续每日做增量特征导入,是通过当日全量与昨日全量做特征diff,然后得到增量特征在导入特征库。实时特征挖掘是通过Importer和解析用户挖掘的SDK在写入实时特征库,最后在DMP服务会对实时特征库和离线特征库进行合并,再对外提供服务。

  标签:大数据管理平台功能


手机二维码 扫描二维码
微信公众号 扫描二维码

2020 北翔电力能源管理(深圳)有限公司 版权所有 |