智能提取数据的三种玩法,一定有你想知道的技巧

JaryYuan
JaryYuan
JaryYuan
40
文章
0
评论
2020-10-2113:10:00 评论 12,815 953字
摘要

今天给大家介绍 Excel 及 Power BI 中都存在的从示例提取数据的方法。同时展示 Power BI 的网页数据抓取功能。

今天给大家介绍 Excel 及 Power BI 中都存在的从示例提取数据的方法。同时展示 Power BI 的网页数据抓取功能。

一、网页抓取时,使用示例添加表

从网页抓取数据时,如果数据在网页本身就是以表格的形式存储,通过简单的选择就可以爬取。当数据在网页中存储方式不是表格,而是以清单式存储,并且是超链接文本时,可以试试智能的「使用示例添加表」

以抓取豆瓣最受关注图书榜为例,我们需要从以下页面中抓取榜单的书名、作者、价格和评分。

https://book.douban.com/chart?icn=index-topchart-nonfiction

智能提取数据的三种玩法,一定有你想知道的技巧

1、点击「获取数据」 >「Web」,在弹出的对话框中输入网址,点击「确定」

智能提取数据的三种玩法,一定有你想知道的技巧

2、在弹出的「导航器」对话框中,选择左下角的「使用示例添加表」

智能提取数据的三种玩法,一定有你想知道的技巧

3、接下来需要做的就是在表格中提供我们需要提取的数据的示例了。

以抓取书名为例,可以看到当我们提供了两个书名以后,Power BI 自动给我们抓取了其余的书名。

智能提取数据的三种玩法,一定有你想知道的技巧

智能提取数据的三种玩法,一定有你想知道的技巧

4、使用同样的方法将我们需要的其他字段分别抓取进来。

智能提取数据的三种玩法,一定有你想知道的技巧

智能提取数据的三种玩法,一定有你想知道的技巧

点击「确定」 >「转换数据」,我们就成功的将数据抓取到 Power Query 查询编辑器里了。

智能提取数据的三种玩法,一定有你想知道的技巧

二、Power Query 中添加「示例中的列」

上面抓取进来的数据除了 [ 作者 ] 和 [ 评分 ] 列是正确的,其他列都包含无用的信息。Power Query提供了丰富的数据清洗功能,能够帮助我们从杂乱的数据中提取信息。

其中「示例中的列」,能根据用户提供的示例提取信息。

1、选中 [ 作者 ] 列,点击「添加列」 >「示例中的列」左下角的小三角符号,从弹出的下拉选项中选择「从所选内容」

智能提取数据的三种玩法,一定有你想知道的技巧

2、在 [ 列1 ] 中提供示例,Power BI 就会智能识别我们需要的数据了

智能提取数据的三种玩法,一定有你想知道的技巧

智能提取数据的三种玩法,一定有你想知道的技巧

点击右上角的「确定」以后,作者名字就提取到新的列里了。

三、Excel 中的智能填充「Ctrl + E」

Excel 中也能实现根据用户提供的示例智能提取数据的功能。以提取榜单数据中价格列的数字为例。使用「Ctrl + E」快捷键就能从包含文字和数字的列中提取出数字。

智能提取数据的三种玩法,一定有你想知道的技巧

智能提取数据的三种玩法,一定有你想知道的技巧

End.爱数据网专栏作者:JaryYuan专栏名称:Power BI 自动化与可视化专栏简介:Excel、Power BI、Python等学习交流园地。Excel黑科技挖掘,Python小技巧。致力于办公自动化、职场效率提升、数据分析及可视化设计个人公众号:JaryYuan

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: