量化投资学习笔记91——机器学习A-Z课程笔记03：聚类

k均值算法。
能做什么?对数据分类。两个问题:确定分几个类;确定每个类的元素。
流程:
①选择要分类的数量k。
②随机选择k个点，作为聚类的中心。不一定要在数据集中。
③计算数据集中每个点与k个聚类中心的距离，距离最短的聚类中心即为该数据点的分类。形成k个类别。
④重新计算每个分类的中心。
⑤将每个数据点按新的分类中心进行分类。如果有数据不在原来的分类中，进行步骤④。否则就结束。
随机初始中心点陷阱:初始中心点位置不同会形成不同的聚类结果。
用非随机的方法选择聚类中心。
确定最佳分组个数。
计算组内平方和，即每组内数据点与聚类中心的距离的平方之和的总和。分组越多，组内平方和越小。
手肘法则 the elbow method:最佳的分类个数是组内平方和曲线拐点最剧烈(变化速率变化最大的点)时的分类个数。
下面实操，先用数据按分成1-10个聚类画组内平方和图形。

可以看到最佳组数为5。
进行聚类，并画出各组中心点。

关联规则学习
略
强化学习
开始时没有数据，自己不断尝试产生数据并从中学习。
实操吧。