我们前面学的数据清洗都是在原数据上进行整理,将脏的数据处理成为适合我们分析的数据。
在数据分析实践中,常常还需要在原数据上进行扩展加工出辅助的列,最常的需求是加入新的列。
今天向大家介绍 Power Query 丰富的添加列功能。
一、重复列与添加索引列
重复列
PowerQuery 没有复制黏贴操作。复制一列的数据需要使用「重复列」功能。
选中城市列,点击「添加列」>「重复列」
索引列
添加索引列可以理解为给每一行添加序号,「索引列」的序号可以从 0 或 1 开始。
「添加列」>「索引列」>「从 1」
二、添加自定义列
PQ 的查询编辑器包含了非常丰富的功能,我们需要的数据清洗或者丰富的功能,它基本上都已经内置了。除了我们之前学过的数据清洗十招和本篇文章讲的添加列,还有诸如替换值、提取、填充等。
但总会有一些场景,PQ 是没有提供内置处理功能的,这时候就需要用到「自定义列」。
创建自定义列
我们知道销售单价及预测利润率,预测利润 = 销售单价 × 预测利润率。
这里计算预测利润需要用到自定义列。
可以看到自定义列语法和 Excel 公式有点类似。只有我们引用的不是单元格,而是列名。在自定义列对话框中同样可以输入函数进行计算。PowerQuery 使用的函数叫 M 函数 。M 函数并不是直接延续 Excel 中的函数,因此学习 M函数基本等于重新掌握一门语言。
我们在讲解合并文件夹时,使用了自定义列和 M函数 Excel.Workbook() 函数。
三、添加条件列
「 条件列」和 Excel 里的 IF 函数一样,都是实现条件判断功能。
PQ 条件列在实现复杂的嵌套条件时,比使用 IF 函数更加直观、易于理解。
单条件
假设我们需要将广州地区的销售折扣设置为 0.5,可以按以下设置条件列参数:
多条件嵌套
点击「添加子句」可以增加判断条件。
将广州地区八月份预销售的小米手机折扣设置为 0.5。
以上条件判断如果使用 IF 函数将要嵌套三层,大多数人已经很难弄清楚判断逻辑了。而使用条件列,判断逻辑层层深入,有助于我们捋清逻辑。
End.爱数据网专栏作者:JaryYuan专栏名称:Power BI 自动化与可视化专栏简介:Excel、Power BI、Python等学习交流园地。Excel黑科技挖掘,Python小技巧。致力于办公自动化、职场效率提升、数据分析及可视化设计个人公众号:JaryYuan
- 我的微信公众号
- 微信扫一扫
- 我的微信公众号
- 微信扫一扫
评论