Reading 9 普通概率分布
概率分布是随机变量的可能的概率取值。
随机变量分为离散随机变量和连续随机变量。前者变量可取的数量是可数的,后者是不可数的。
有两种看待概率分布的方式,第一种是概率函数。对离散随机变量,概率函数的取值为随机变量为该值时的概率,对连续变量,概率函数称为概率密度(pdf)。概率函数的性质:①值域为[0,1]。②所有概率的值之和(离散)或积分(连续)为1。第二种方式是看概率范围,即累积分布函数(cdf)。函数取值为随机变量小于等于该值的概率之和或积分。
离散均匀分布
最简单的概率分布。所有变量的概率相等。
二项式分布(Binomial Distribution)
由伯努利随机变量构成,只有两种结果。如果一个事件概率为p,则另一个事件的概率为1-p。伯努利变量是进行n次伯努利实验成功的次数。所有实验的成功概率是一样的,实验之间相互独立。X ~ B(n,p)
p(x) = nCx×p^x(1-p)^(n-x)
均值:np, 方差np(1-np)
连续随机变量
连续均匀分布:在定义域[a, b]之间,f(x)=1/(b-a),取其它值时,f(x)=0。在某一区间内的概率用定积分计算。
正态分布(The Normal Distribution)
是最常用的概率分布。原因是由大量随机变量之和符合正态分布(中心极限定理)。钟形曲线的定义域范围是无穷的。由均值和方差两个参数决定。X ~ N(μ, σ2)
正态分布是无偏的,对称的。正态分布随机变量之和也符合正态分布。根据变量的数量又分为单变量正态分布和多变量正态分布。
均数为0,方差为1的正态分布称为标准正态分布或单位正态分布。
正态分布是证券收益的一个很好的模型。然而却不是证券价格的一个很好的模型,因为正态随机变量没有一个最低值,而证券价格最低就是0了。(这可未必,比如原油宝)
对于正态分布,有50%的值在2/3个标准差之内,68%的值在一个标准差之内,95%的值在两个标准差之内,99%的值在三个标准差之内。
我们往往需要用样本的均数和标准差的观察值来估计总体的均值和标准差。
将一个正态分布转化为标准正态分布分两步:用变量减去均值,然后用标准差来除以差值。Z = (X-μ)/σ
正态分布的应用
现代投资组合理论(Modern portfolio theory, MPT)应用了均值-方差分析(Mean-variance analysis)。观察值可能大于或小于均值。安全第一法则关注于缩小风险,即在一定时间内投资组合的价值缩水到可接受的最小程度以下的可能。
假设投资者认为任何收益低于RL的情况是不可接受的。安全第一法则能使优化的投资组合的收益率Rp低于RL的概率最小化。当投资组合的收益率是呈正态分布时,可以用预期收益E(Rp),使E(Rp) - RL最大的投资组合使得P(Rp < RL)的方差最小。因此安全第一优化投资组合能使安全第一比例(safety-first ratio, SFRatio)最大。
SFRatio = [E(Rp) - RL]/σp
选择投资组合的步骤就是:①计算每个投资组合的SFRatio;②选择SFRatio最高的投资组合。
如果把RL用无风险收益RF代替,那SFRatio公式就变成了夏普比例的公式。当我们用夏普比例评估投资组合时,有最高夏普比例的投资组合是收益跌到无风险收益以下的概率最低的投资组合。
对数正态分布
一个变量Y的自然对数符合正态分布,则Y是对数正态分布。反过来也成立,如果一个变量Y是正态分布,则其自然对数符合自然对数分布。两个特征:它的最低值是0,它是偏态的,右边有长尾。很多金融证券的价格分布符合对数正态分布。
对数正态分布由其相关的正态分布的均值和方差决定。
蒙特卡洛模拟
用计算机随机生成大量的遵循特定随机分布的样本,可以让我们在真正行动以前测试自己的想法。
Reading 10 采样和估计(Sampling and Estimation)
样本是总体的子集,用样本的信息进行的任何统计计算,都是对总体的估计。
采样(Sampling)
采用样本数据进行统计学定量计算来估计关于总体的某个参数的过程。进行采样的两个原因,是我们往往无法检查某个总体的所有组成成分,或者这么做的成本是我们无法接受的。
简单随机采样
采样比普查要经济,但采样会引入错误。首先要制定采样计划(sampling plan),即一系列进行采样的规则。
①定义简单随机样本:一个简单随机样本是一个大的总体中创建的子集,总体中的每个元素有相同的概率被抽中。符合简单随机样本定义的采样过程称为简单随机采样。对于元素数量有限的总体,常用的方法是用随机数。对于不能编码(甚至不能定义)所有元素的总体,采用系统采样(systematic sampling)。每隔k个元素采样一个,直到样本数量达到要求。样本均值与总体均值的差异称为采样误差。
②采样误差的定义:指一个统计量的观察值与其要评估的量之间的差异。一个样本的统计量是一个随机变量,其分布被称为统计量的抽样分布(sampling distribution)。
③统计量的抽样分布的定义:指从同一个总体随机进行多次抽样所得的统计参数的值的分布。
分层随机抽样(Stratified Random Sampling)
基于一个或多个分类标准将总体分为数层,按每层在总体中的比重在每层分别进行简单随机抽样。所有样本再组合成为一个分层随机样本。分层随机抽样保留了总体的层次关系,更加精确。在投资中的应用就是指数基金了。
时间序列和交叉节段数据(Cross-Sectional Data)
时间序列数据是按相等时间间隔收集的离散数据。交叉节段数据(横断数据吧?)是在某个单独时间点的数据。如某年的纽交所所有上市公司的股价。
经济和金融理论对选择长周期或短周期进行采样没有偏好。我们必须自己寻找微妙的线索。
计算夏普比例(Sharpe ratio):常被用来评估投资组合的表现。是用超过无风险收益的平均收益除以收益的标准差。它表示每单位收益偏差获得的超额收益。
两个如下的投资组合的超额收益(已经减去了无风险收益后的)
用python算吧
1 | # coding:utf-8 |
结果
1 | 0.010000000000000002 0.04000000000000001 |
有差异。
夏普比例越大越好(即每个单位的风险有更多的收益),大于0说明优于无风险收益。现在要把两年的数据合并起来算总的夏普比例。
两年的平均额外收益率为0.025,标准差为0.1176, 夏普值为0.2126。
问题是,第一年的收益分布也许不同于第二年。违反了从同一个总体中采样的规则。
当从横断面数据中取样时,必须符合一些假设。无论是时间序列数据还是横断面数据,我们必须确保有一个能够代表我们要研究的总体的随机样本。
样本均数的分布
中心极限定理:符合任何分布的一个总体,进行样本容量为n的采样,当n很大时,其样本均数的采样分布符合均数总体均数,方差为总体方差除以n的正态分布。中心极限定理可以使我们能用样本均数来估计总体均数,不管总体符合什么分布。通常n大于等于30就行了。
样本均数的标准差 = 总体的标准差/样本规模的平方根。
当不知道总体标准差时,用样本标准差来代替,除以(样本规模-1)的平方根。
总体均数的值与区间估计。
统计推断包括假设检验和参数估计两个部分。用样本的数据对总体的参数进行一个值的估计,称为点估计。点估计的性质:无偏性、有效性、持续性。
总体均值的区间估计。即总体的均值有1-α的概率在该区间内。
点估计值±相对因子×标准差
t分布,自由度等内容,pass了。
样本大小的选择
样本均数的标准误差(标准误)= 样本标准差/样本容量的平方根。
关于采样的其它问题:
数据挖掘偏倚:对数据的误用。
样本选择偏倚:部分数据被排除。
往前看偏倚(Look-Ahead Bias,使用未来数据吧):使用了在采样时不能获得的信息。
时间周期偏倚(Time-Period Bias):基于特定时间周期的分析。
Reading 11 假设检验(Hypothesis Testing)
假设检验是统计推断的一部分,是用一个小的带有偏倚的样本对一个大的总体进行判断的过程。它为做出可用的证据是否支持假设的结论提供了客观依据。
假设的概念与科学方法有关。科学方法始于观察,并形成一个可以解释观察结果的理论。我们通过用理论进行预测来检验理论是否正确。如果预测是正确的,我们接受理论作为观察结果的一个正确的解释。当观察结果的风险是一个考虑因素时,例如在金融中那样,我们只能尝试做出无偏倚的,基于概率的,关于新数据是否支持预测的判断。当概率是一个重要因素时,统计假设检验有很重要的作用。
假设检验的步骤:
①陈述假设。
②确定合适的检验统计量,以及其概率分布。
③确定检验水平(significance level)。
④陈述决策规则。
⑤收集数据,计算检验统计量。
⑥做出统计推测。
⑦做出经济或投资决策。
首先是做出假设,有两种假设:无效假设(null hypothesis, H0),和备择假设(alternative hypothesis, Hα)。无效假设就是要被检验的假设。它被认为是真的,除非计算的统计量显示它是假的。备择假设是当拒绝无效假设后所接受的假设。
如果我们的统计量是θ,相关的节点的参数是θ0,可以形成假设。
如
H0:θ = θ0 Hα:θ ≠ θ0
H0:θ ≤ θ0 Hα:θ > θ0
H0:θ ≥ θ0 Hα:θ < θ0
第一个式子是双侧假设检验,其它两个式子是单侧(一侧)假设检验。
接着构造统计量,是一个定量的,基于样本计算的量,其值决定我们是否拒绝无效假设。还有统计量的概率分布,如t分布,z分布,卡方分布(X^2),F分布等。
接着确定检验水平。在检验一个无效假设的时候会有几种情况:
①拒绝了假的无效假设,是对的。
②拒绝了真的无效假设,犯了第一类错误(拒真)。
③接受了假的无效假设,犯了第二类错误(纳假)。
④接受了真的无效假设,是对的。
在假设检验中犯第一类错误的概率记为α,被称为检验的显著性水平。犯第二类错误的概率记为β。控制两类错误的概率需要一个权衡。如果降低了α,会升高β。反之一样。同时降低α和β的方法是增大样本容量。检验的效力是正确的拒绝无效假设的概率。常用的显著性水平,0.10, 0.05, 0.01。如果我们在0.05的水平下拒绝了无效检验,我们有强烈的信心认为无效假设是假的。如果我们在0.01的水平下拒绝了无效检验,我们有非常强烈的信心认为无效假设是假的。
显著性水平要事先设定好。即确定假设检验的拒绝点(关键值)。注意是单侧还是双侧检验,拒绝点不一样的。
最后就是根据统计值和拒绝点做出判断,并指导决策。
p值是拒绝无效假设的最低显著性水平。p值越小,我们越有信心拒绝无效假设。
检验一个样本的均值是否与总体均值一致——单变量t检验。
检验两个独立样本的总体的均值是否一致——双变量t检验。
两个成对的样本的总体的均值是否有差异——配对t检验。
差异和相关性的假设检验
单变量的方差的检验——卡方检验
检验两个变量的方差是否相等/不等——F检验。
相关性的检验——t检验(自由度为2)
非参数推断
使用场景:数据不符合相应检验的分布假设,数据是等级数据,假设不涉及一个参数。
我发文章的三个地方,欢迎大家在朋友圈等地方分享,欢迎点“在看”。
我的个人博客地址:https://zwdnet.github.io
我的知乎文章地址: https://www.zhihu.com/people/zhao-you-min/posts
我的微信个人订阅号:赵瑜敏的口腔医学学习园地