场景描述:(1)统计前 N 天的销售额的平均值;(2)统计 TOP N 商品;(3)随机分组。
数据分析中的连续性问题
对于 APP 的使用来说,活跃度是我们制定上线活动策略的非常重要的指标;对于快递小哥来说,如何判断他的工作的努力程度的,我们可以使用一个星期或者一个月的连续出勤天数来衡量。上面的这...
数据仓库之血缘关系
我们如果想做数仓的话,我们需要先梳理清楚计算各个指标、维度的时候利用到那些业务的表,也就是 ods 仓和 dw、dm 层的字段关系映射表,这个映射表其实就构成了表与表之间的血缘关系...
Hive 的几个优化参数
总结几个简单并且有效的原则:了解并掌握热点数据现状。从业务逻辑上去优化,先降维,单独处理热点数据;从模型设计或者说解决方案设计之初,考虑复用、降维、最小集合的原则;在表有分区的情况...
至今指标总结
本文首先向大家介绍什么是至今指标,包括年至今、月至今、周至今指标。在掌握至今指标的概念后,本文将对如何对至今指标进行计算,以及对不同的计算方法(全量、增量)的优缺点进行分析总结。
数据开发的工具箱
作为大数据工程师,天天要和 Linux 打交道,所以行走 Linux 江湖,要有一个趁手的家伙。下面这几个神兵利器,总有一款适合你。
正则表达式——文本处理的”东风导弹”
整合之前学习成果:1.evernote、youdaonode 里面的东西;2.探索 Linux 里面的正则表达式;3.python 里面的正则表达式;4.Java 里面的正则表达式...
大数据调度脚本中的常见问题
日期处理是关于如何获取日期以及格式化日期,举个最常见的例子,销售类报表是领导一定都要看的。假如每天十点之前要给领导递交昨天的销售数据,假设和领导约定要在每天上午的十点,你是怎么处理...
5个通俗易懂的大数据常见概念
Shell 就是控制计算机为我们做事情,把服务器类比电饭煲,我的电饭煲能调米饭的口味,还可以选炖肉,好多功能,shell 就是电饭煲上的功能按键。
评论