常见的表格处理工具比如Excel、SQL数据库等,并非专门为处理这类数据而设计,性能力不从心,对科学计算支持也不足。
最常用的金融数据分析工具包之一:Pandas
Pandas作为专门用于金融数据分析的Python库,为时间序列分析提供了极好的支持。Pandas是AQR Capital Management于2008年发布,并于2009年底开源。
Pandas的名称来自于面板数据(Panel Data)和Python数据分析(dataanalysis),主要作者是Wes McKinney。
Wes目前是LambdaFoundry,Inc.的CTO和联合创始人。他毕业于麻省理工数学系,杜克大学统计学博士在读。Wes从2007年开始在AQR做宏观研究。在2010-2012年期间,他是一些对冲基金和银行(交易部门)的Python顾问,同时做Pandas的开发。
在量化时代,初学者选择一套合适的工具框架很重要。Pandas有多流行?国内外几乎所有的交易数据接口都支持Pandas。交易员可以以最短的时间、最低的学习成本进行实际的数据分析、得到结果。而且用的人越多,案例和交流就越多,遇到问题就能更快的解决。
Pandas的数据结构简介
首先,整个Pandas是基于Numpy的
Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。
DataFrame:二维的表格型数据结构,可以理解成Series的容器。。
Panel:三维数组,可以理解成DataFrame的容器。
Python框架性能如何
这个话题展开了可以说很多。不必抠技术细节,有个整体的认知即可,结论是完全够用。当然,如果追求极致速度的实时分析、实时交易,那也远远不仅仅是软件层面的事情,甚至不完全是量化数据处理的范畴。
A股市场每天大概产生1-10GB的数据(视成交量大小浮动)。其中3秒快照大概是1440万行,逐笔数据大概也差不多规模。如果盘后用python框架做逐条回放,只需几分钟就能跑完。
End.
来源:量化交易员
- 我的微信公众号
- 微信扫一扫
-
- 我的微信公众号
- 微信扫一扫
-
评论