今天给大家介绍 Excel 及 Power BI 中都存在的从示例提取数据的方法。同时展示 Power BI 的网页数据抓取功能。
一、网页抓取时,使用示例添加表
从网页抓取数据时,如果数据在网页本身就是以表格的形式存储,通过简单的选择就可以爬取。当数据在网页中存储方式不是表格,而是以清单式存储,并且是超链接文本时,可以试试智能的「使用示例添加表」
以抓取豆瓣最受关注图书榜为例,我们需要从以下页面中抓取榜单的书名、作者、价格和评分。
https://book.douban.com/chart?icn=index-topchart-nonfiction
1、点击「获取数据」 >「Web」,在弹出的对话框中输入网址,点击「确定」
2、在弹出的「导航器」对话框中,选择左下角的「使用示例添加表」
3、接下来需要做的就是在表格中提供我们需要提取的数据的示例了。
以抓取书名为例,可以看到当我们提供了两个书名以后,Power BI 自动给我们抓取了其余的书名。
4、使用同样的方法将我们需要的其他字段分别抓取进来。
点击「确定」 >「转换数据」,我们就成功的将数据抓取到 Power Query 查询编辑器里了。
二、Power Query 中添加「示例中的列」
上面抓取进来的数据除了 [ 作者 ] 和 [ 评分 ] 列是正确的,其他列都包含无用的信息。Power Query提供了丰富的数据清洗功能,能够帮助我们从杂乱的数据中提取信息。
其中「示例中的列」,能根据用户提供的示例提取信息。
1、选中 [ 作者 ] 列,点击「添加列」 >「示例中的列」左下角的小三角符号,从弹出的下拉选项中选择「从所选内容」
2、在 [ 列1 ] 中提供示例,Power BI 就会智能识别我们需要的数据了
点击右上角的「确定」以后,作者名字就提取到新的列里了。
三、Excel 中的智能填充「Ctrl + E」
Excel 中也能实现根据用户提供的示例智能提取数据的功能。以提取榜单数据中价格列的数字为例。使用「Ctrl + E」快捷键就能从包含文字和数字的列中提取出数字。
End.爱数据网专栏作者:JaryYuan专栏名称:Power BI 自动化与可视化专栏简介:Excel、Power BI、Python等学习交流园地。Excel黑科技挖掘,Python小技巧。致力于办公自动化、职场效率提升、数据分析及可视化设计个人公众号:JaryYuan
- 我的微信公众号
- 微信扫一扫
- 我的微信公众号
- 微信扫一扫
评论