量化投资学习笔记14——机器学习:基础知识

先学习基础知识，这部分主要参考阿里大学的在线课程《机器学习算法详解》。
机器学习的一般过程为:
①从输入数据中进行特征工程，提取特征。输入数据与特征之间可能不是一一对应，比如将连续型数值数据转化为分类数据或等级数据。
②对于特征数据运用各种方法建模。
③检验模型的正确性。
④将模型运用于新的数据，预测其输出值。
⑤改进模型。
输入数据的集合称为输入空间，输出的集合称为输出空间。整个机器学习的过程就是寻找一个由输入空间到输出空间的映射的过程。
机器学习的三要素是:模型、策略和算法。
模型是从输入空间到输入空间的映射。
策略是从假设空间中找到最适合输入数据的模型的规则或学习标准。
算法是学习模型的具体计算方法。
要确定解决的问题，属于哪种类型，在找相应的模型。
策略要解决的问题:评估模型对单个样本数据，整个训练集以及包含二者的所有数据的预测效果。
指标:损失函数，风险函数。
基本策略:经验风险最小，结构风险最小。
损失函数:预测结果与真实结果的差值。为非负实值函数。记为L(Y, f(x))
①0-1函数，若预测值与实际值相同，没有损失，记为0。否则为有损失，记为1。
这要求过于严格，可采用差值小于某一阈值则为无损失。
绝对值损失函数，预测值与实际值差的绝对值，简单易懂，计算不变。
平方损失函数，预测值与实际值差的平方。非负，对于大误差的惩罚大于小误差。计算方便，导数为一次函数。
对数损失函数，可以将乘法转换为加法，简化计算。
指数损失函数，越接近正确结果损失越小。
折叶损失函数(铰链损失)，对于判定边界附近的点的惩罚力度较大，常用于SVM。
不同的损失函数适用于不同的模型和场景。
经验风险:衡量整个训练集的预测值与真实值的差异，整个训练集所有损失函数值之和。越小说明模型对训练集拟合程度越好。
风险函数又称期望风险、期望损失，为所有数据集(包括训练集和预测集)的损失函数的期望值。
后者是对全局数据，前者是对局部数据。后者常无法计算，前者可以计算。训练集足够大时，前者可以代替后者。样本过小时，只关注经验风险有过拟合的风险。
结构风险:在经验风险的基础上增加一个正则项或惩罚项，该项等于一个大于0的系数乘以算法的复杂度。
经验风险越小，越容易产生过拟合现象。为防止过拟合，要降低模型的复杂度。需要同时保证风险函数与模型决策函数的复杂度都最小化。将二者结合为结构风险函数并使其最小。
惩罚项常用模型的参数向量的范数。
L0范数，非零元素个数。
L1范数，各个元素绝对值之和。
L2范数，各元素平方和求平方根。
模型的误差指模型预测值与真实值的差距。主要有过拟合与欠拟合两种情况。过拟合指过度拟合训练集，而在真实数据上表现较差。欠拟合指在训练集上表现较差。通过训练集得到模型的过程称为训练或学习。将模型应用于训练集以外的数据中。由于往往无法获得数据全集，常使用测试集来检测模型的误差。留取测试集有各种方法，原则是保证训练集与测试集无交叉，且二者分布相同。
不同的模型有不同的评价指标。
常用假设检验来检验模型。
偏差指根据样本得到的模型的预测值与样本真实值的差异。
方差指模型每次输出值与模型输出期望值之间的误差，即模型的稳定性。
模型越复杂，偏差越小，容易过拟合。模型越简单，方差越小，欠拟合。

我发文章的四个地方，欢迎大家在朋友圈等地方分享，欢迎点“在看”。
我的个人博客地址：https://zwdnet.github.io
我的知乎文章地址： https://www.zhihu.com/people/zhao-you-min/posts
我的博客园博客地址： https://www.cnblogs.com/zwdnet/
我的微信个人订阅号：赵瑜敏的口腔医学学习园地