Pandas:最常用的金融数据分析工具包

尾巴
尾巴
尾巴
46
文章
0
评论
2020-04-1803:05:00 评论 1,255 927字
摘要

金融交易中产生的数据往往是”时间序列”,就像一张列column信息固定、行row随时间增加的表格。特点是数据量大,单次运算往往要处理GB级。

常见的表格处理工具比如Excel、SQL数据库等,并非专门为处理这类数据而设计,性能力不从心,对科学计算支持也不足。

最常用的金融数据分析工具包之一:Pandas

Pandas作为专门用于金融数据分析的Python库,为时间序列分析提供了极好的支持。Pandas是AQR Capital Management于2008年发布,并于2009年底开源。

Pandas的名称来自于面板数据(Panel Data)和Python数据分析(dataanalysis),主要作者是Wes McKinney。

Wes目前是LambdaFoundry,Inc.的CTO和联合创始人。他毕业于麻省理工数学系,杜克大学统计学博士在读。Wes从2007年开始在AQR做宏观研究。在2010-2012年期间,他是一些对冲基金和银行(交易部门)的Python顾问,同时做Pandas的开发。

在量化时代,初学者选择一套合适的工具框架很重要。Pandas有多流行?国内外几乎所有的交易数据接口都支持Pandas。交易员可以以最短的时间、最低的学习成本进行实际的数据分析、得到结果。而且用的人越多,案例和交流就越多,遇到问题就能更快的解决。

Pandas的数据结构简介

首先,整个Pandas是基于Numpy的

Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。

DataFrame:二维的表格型数据结构,可以理解成Series的容器。。

Panel:三维数组,可以理解成DataFrame的容器。

Python框架性能如何

这个话题展开了可以说很多。不必抠技术细节,有个整体的认知即可,结论是完全够用。当然,如果追求极致速度的实时分析、实时交易,那也远远不仅仅是软件层面的事情,甚至不完全是量化数据处理的范畴。

A股市场每天大概产生1-10GB的数据(视成交量大小浮动)。其中3秒快照大概是1440万行,逐笔数据大概也差不多规模。如果盘后用python框架做逐条回放,只需几分钟就能跑完。

End.

来源:量化交易员

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: