《量化投资:以python为工具》第二部分笔记
通过分析有限样本数据来推测总体的特征是统计推断要解决的主要问题,也是整个统计分析的精髓所在。
数据分为定性数据和定量数据。
数据的位置
算术平均数:所有数据相加后除以数据量。
几何平均数:所有数据相乘后开n次方。
中位数:数据排序后位于中间的数值,若为偶数个,则为中间两个数的平均数。
众数:数据中数量最多的数。
百分位数:数据中相应百分比的数小于该数。
数据的离散度
极差:最大值与最小值之差。
平均绝对偏差:数据与平均值的差的绝对值的平均值。
方差:数据与均值之差的平方的平均值(但除以n-1而不是除以n)。
标准差:方差的平方根。
可以用numpy的random模块中的choice()来生成特定的服从特定概率质量函数的随机数。
随机变量的期望值是随机变量所有可能值之乘积,是总体的中心位置。方差则是随机变量与期望之差的平方的期望值。
伯努利分布:np.random.binomial进行多次伯努利实验的结果。
正态分布:正态分布变量的线性变换仍然符合正态分布。np.random.normal来生成。
卡方分布:n个独立的正态分布变量的平方之和符合卡方分布。n为自由度。卡方分布为偏态分布,以0为起点,非对称的。
t分布:以0为中心,对称分布,自由度越小,分布越分散。
F分布:非对称分布。
联合概率分布:两个变量分别取值时的概率。期望值也类似。变量的独立性:联合概率值等于两个变量分别的概率值之积时,两变量独立。
两变量之间的关系可以用协方差来衡量,描述两随机变量与各自期望值之差的共同变动状况。若为正,两变量同方向变动,反之则两变量向相反方向变动。但协方差受比例的影响,不能直接衡量两变量之间相关性的强弱。引入相关系数,用协方差除以两变量的标准差之积。取值范围为[-1,1]。绝对值越大线性相关性越强,为0代表线性不相关,但也有可能有非线性相关。
推断统计包括参数估计和假设检验。
参数估计是用样本数据来估计变量的概率分布。参数估计有点估计和区间估计两种形式。
点估计更加直观,但与真实值有偏差。区间估计往往包含准确值,但没那么直观。
假设检验的着重点在于检验参数的取值是否等于某个目标值。两个隐含的思想:小概率事件和反证法。
t检验:标准差未知,服从正态分布的总体的均值。常用的有单样本t检验,配对样本t检验,独立样本t检验。
多个变量之间的定性分析——方差分析,其重点不在预测,而在于分析和比较各组间的差异。
python用statsmodel中的anova来实现方差分析。
回归分析,当一个连续型变量变化时,另一个连续型变量会变多少。python拟合线性模型用statsmodels中的ols类完成。
总结一下:概率统计学主要是三个部分,统计描述用来对数据进行描述,主要是描述数据的集中和离散情况,随机变量分布情况。统计推断,对变量的情况进行推断,包括参数估计和假设检验。还有回归分析,研究变量之间的相关关系。具体的用到再说。
本章代码:https://github.com/zwdnet/MyQuant/tree/master/08
我发文章的四个地方,欢迎大家在朋友圈等地方分享,欢迎点“在看”。
我的个人博客地址:https://zwdnet.github.io
我的博客园博客地址: https://www.cnblogs.com/zwdnet/
我的知乎文章地址: https://www.zhihu.com/people/zhao-you-min/posts
我的微信个人订阅号:赵瑜敏的口腔医学学习园地