量化投资学习笔记26——机器学习算法概览

之前一段时间学习了线性回归，逻辑回归，支持向量机和朴素贝叶斯几个机器学习的算法，并用kaggle的泰坦尼克号问题做了实操。
我很早就想学习机器学习了，因为是非专业人士，一直畏难没有开始学习。拜疫情“所赐”，终于开始动手了。几个算法学下来，感觉并没有我想象那么难，当然那些数学推导我很多都没有看懂，但关键是知道每种算法的应用场景，会根据问题和数据类型选择合适的算法。背后的数学原理很重要，尤其在需要自己改进模型的时候，但未必要一开始学习就掌握。
再听一门阿里云上的机器学习概览的课程吧。
网址:https://edu.aliyun.com/course/838?spm=5176.10731491.list.3.53f55de7g0aYF5
人工智能:会学习的计算机程序。
弱人工智能:在某一领域超过人类(alpha go)
强人工智能:在多个领域达到或超过人类。
超人工智能:全方位碾压人类。
机器学习:不直接针对问题编程而具有学习能力的计算机程序。
机器学习算法分类
按学习方式:有监督学习和无监督学习。
有监督学习:学习样本中有结果标记。
无监督学习:学习样本中无结果标记。如聚类。
半监督学习:学习样本中有部分结果标记。
有监督学习算法
特点:训练数据均有明确的结果标识。
①分类:通过对输入数据学习得到模型f，将每个样本数据x映射到目标属性y上，其中y是离散的。(若为连续的则使用回归。)
按原理分类:
基于统计的:贝叶斯分类。
基于规则的:决策树算法。
基于神经网络的:神经网络算法。
基于距离的:KNN(k最近邻)
KNN算法:其核心思想是如果离某一个样本最近的k个样本大多属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。可以预测分类，也可以做回归分析(预测值)。
决策树算法:准备-选择特征-创建分支-是否终止-生成结果。ID3算法:构建过程中用熵和最大增益来选择最佳特征。还有C4.5算法，C50算法，CART等算法。
朴素贝叶斯(NB)算法。
支持向量机(SVM)算法。
②回归
线性回归
逻辑回归
岭回归
拉索回归
无监督学习算法
输入数据不存在明显的标签或结论，常见为聚类。即发现隐藏的模式或者对数据进行分组。
①聚类:将相似的事物聚集在一起，将不相似的事物划分到不同类别的过程。使用的方法不同，结果往往不同。
层次聚类
划分聚类
基于密度的聚类
K-Means算法:根据初始化聚类中心信息，计算每个样本到这些中心的距离，可以判断每个样本均归属于某个类簇，更新聚簇中心信息，重新计算每个样本到聚类中心的距离，重新划分样本到每个聚类中心对应的类中，重复进行，直到达到终止条件。
DBScan
最大期望
降维:PCA(主成分分析),PLS(偏最小二乘回归),MDS(多维尺度分析)
②关联规则:事物之间存在关联或相关性，根据某个事物预测其他事物。
Apriori
Eclat
其它学习算法
①半监督学习:首先需要学习数据的内在结构。
有半监督分类，半监督回归，半监督聚类，半监督降维等。
②集成学习:针对同一数据集，训练不同的学习器来解决同一问题。有Bagging,Bosting,Stacking,随机树森林等
③深度学习
受限玻尔兹曼机(RBM)
深度信念网络(DBN)
卷积网络
栈式自编码
④增强学习:没有历史数据，自己找或制造数据(比如自己跟自己下棋)。
Q-Learning
时间差学习
⑤迁移学习
已训练好的模型参数迁移到新的模型中。
画个思维导图吧

接着，找一门完整的课程学习吧。

我发文章的四个地方，欢迎大家在朋友圈等地方分享，欢迎点“在看”。
我的个人博客地址：https://zwdnet.github.io
我的知乎文章地址： https://www.zhihu.com/people/zhao-you-min/posts
我的博客园博客地址： https://www.cnblogs.com/zwdnet/
我的微信个人订阅号：赵瑜敏的口腔医学学习园地