Pandas 是一个BSD许可下的开源库,为python提供高性能的易于使用的数据结构和数据分析工具。用python做量化投资离不开pandas,对pandas越熟悉,做量化分析就会越得心应手。

下面关于pandas的特性翻译自官网:http://pandas.pydata.org/

1.提供快速高效的DataFrame对象对数据进行整合和索引;

2.提供读取和写入数据到内存中的工具,适应不同的格式:CSV和纯文本、Excel、SQL数据库以及HDF5格式;

3.智能数据对齐和集成的缺失数据的处理:增益计算中自动基于标签的对齐方式,方便地操作混乱数据到有序形式;

4.灵活的对数据集进行重塑和旋转;

5.智能的基于标签的切片、索引,和提取大型数据集的子集;

6.可以插入和删除列,大小易变的数据结构;

7.通过强大的group by引擎聚合或转换数据,提供数据集的化整为零操作;

8.高性能合并和连接数据集;

9.分层轴索引为在低维数据结构下处理高维度数据引提供了一个直观的工作方式;

10.时间序列功能:生成日期范围和频率转换,移动窗口统计,移动窗口线性回归日期移和滞后。甚至创建特定于域的时间偏移量和加入时间序列,且不会丢失数据;

11.高度优化的性能,与Cython或C代码紧密结合。

12.Python结合pandas使用在各种各样的学术和商业领域,包括金融、神经科学、经济学、统计学、广告、网站分析,以及更多。

官网上面提供了一个十分钟的入门教程,英语好的可以看看:

http://pandas.pydata.org/pandas-docs/stable/10min.html

同时,我对该教程进行了翻译以及小小的改良,放在下面,以利于大家观摩学习: