数据模型构建

芒果数
芒果数
芒果数
4
文章
0
评论
2020-08-0813:08:00 评论 878 1796字
摘要

当业务体量到了一定程度,业务模型有了一定的稳定度,数仓的构建就显得尤为重要,是保证数据口径统一、提升数据质量的核心,是后续快速高效迭代支持更复杂数据应用场景的基石,其中数据模型的构建当然是核心的核心了。

当业务体量到了一定程度,业务模型有了一定的稳定度,数仓的构建就显得尤为重要,是保证数据口径统一、提升数据质量的核心,是后续快速高效迭代支持更复杂数据应用场景的基石,其中数据模型的构建当然是核心的核心了。

那作为数据产品这样一个角色,应该如何搬砖呢?

01 确定模型主题

业务由很多场景组合而成,数据模型的构建需根据业务场景进行主题分类,所以如何确定主题分类呢,可参考如下几个原则

  • 每个主题都是最底层的原始主题,即衍生的指标都是基于这些主题域的数据计算得来的
  • 企业经营的业务组成模块可作为参考
  • 主题之间有一定的交叉衔接关联,但是呢,又需各领风骚,各自独立
  • 主题之间有依附关系,有些主题是基于更基础的主题衍生得来的

如有线上线下的零售行业,可拆分销售模型、商品模型、会员模型、流量模型、营销模型、配送模型等等,其中配送需用到销售主题的数据、会员需用到流量和销售主题的数据、商品需用到销售主题的数据等等,主题间会有一定的依附关系,但在其所属的主题域内,又可作为最基础的数据

02 基于确定的主题,梳理需求

需求梳理是核心,做好需求的梳理是很关键的,要做到以下几点

  • 已经发生的数据需求场景需全部囊括,记住是全部哦
  • 未来可能会有哪些场景发生呢,亦需囊括。好吧!未来,未来是什么呢?要死好多脑细胞的样纸!

那我们如何可以做好呢?

有些方法是可以让这个结果更完美:

  • 常用报表,整理已经产生过的所有报表需求,记住是所有哦所有哦所有哦!
  • 临时数据,整理已经产生过的所有临时需求,记住是所有哦所有哦所有哦!
  • SOP流程,SOP流程是梳理需求的灵魂,掌握这个,是所有工作的核心,但如何把这个利用好呢,有个小技巧,把流程中每个环节可能需要看数据的度量值、维度全都穷举出来,记住是所有哦所有哦所有哦!

基于以上三步,整理出全部需要看数据的场景,再进行完整的系统性的梳理。

BUT,如何完整的系统性的梳理呢?

哈哈哈

可从两个角度

  • 维度,整理出所有可能用到的维度,以及维度的枚举值,如日期、时段、省、市、门店、渠道
  • 度量值,整理出所有可能用的度量值,注意,此处的度量值是指最细粒度的值,不是二次计算衍生的数据指标哦!!如原始度量值是销售额,二次衍生的销售额同比增长;如原始度量值是订单ID,二次衍生是成交单量;如原始是毛利额,衍生指标是毛利同比增长和毛利率

看,是不是发现其实也没那么难的了!

03 数据计算规则

这个环节是最最最需要细心和耐心的,一旦错误,整个数据价值就大打折扣

要做好,有几个难点

  • 杂:业务系统复杂多源,比如有营销系统、库存系统、结算系统等等
  • 多:数据来源表很多很多,多到抓狂,一个数据指标,需要用到A表、B表、C表、...还有什么表!!
  • 乱:表之间的关联关系,是的,这个可以有很多莫名其妙的关系!!
  • 像:同一个指标,如损耗,在A系统和B系统都有,听起来貌似都是我们要的,那我们到底应该宠幸哪个呢?他们各自都有啥特色呢?

OMG,好南哦!!怎么能介个样子呢!!

好吧,那我们怎么可以做好呢?不好意思,没有捷径没有捷径没有捷径,只有死磕到底!!

BUT怎么磕才能更好呢?小编我一般用这几个办法,仅供参考哈

  • 搬起小板凳,把对应专题的数据开发搞定,带着TA一起奔向业务开发,围绕在TA周围,随时随地沟通,此时只能开启产品的厚脸皮和诚恳乖乖模式
  • 疑问处,确认确认再确认!

当然了,上面两步的前提是我们自己得做足功课先,把业务的场景逻辑弄清楚,把需求和场景的结合弄的门清,有了这样的金盾护体,在和开发的哥哥姐姐们沟通时,就不容易被diss了,甚至可能会产生更强的信任哦,咦,这个产品挺靠谱的吗,就配合的会更好的了!!

你们都懂的,哈哈哈哈!!

04 数据验证

好了,终于来到这一步了,不好意思,关于这个,之前耗费了我万千心血掉了无数根头发,终于打造好的一篇"干货十足"的长文,欢迎移步阅读了,《如何做好数据测试呢?》不好意思,一不小心做了一次老文推广,哈哈哈哈!

好了,以上都是本人总结的关于数据模型构建过程中,数据产品可以如何开工的心得,很多细节是都可以做的更完美,一文表达不了完整,如有兴趣,可后台留言,找我进一步沟通交流哦。。欢迎欢迎

笔芯笔芯!

End.

爱数据网专栏作者:芒果数

作者简介:零售业的数据从业者,负责过团队,做过从0到1的数据产品,深入业务团队数据工作,完成了数据职业闭环

个人微信公众号:芒果数(ID:DataMama2020)

爱数据网专栏作者原创文章,如转载请微信公号后台与作者联系

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: