k均值算法。
能做什么?对数据分类。两个问题:确定分几个类;确定每个类的元素。
流程:
①选择要分类的数量k。
②随机选择k个点,作为聚类的中心。不一定要在数据集中。
③计算数据集中每个点与k个聚类中心的距离,距离最短的聚类中心即为该数据点的分类。形成k个类别。
④重新计算每个分类的中心。
⑤将每个数据点按新的分类中心进行分类。如果有数据不在原来的分类中,进行步骤④。否则就结束。
随机初始中心点陷阱:初始中心点位置不同会形成不同的聚类结果。
用非随机的方法选择聚类中心。
确定最佳分组个数。
计算组内平方和,即每组内数据点与聚类中心的距离的平方之和的总和。分组越多,组内平方和越小。
手肘法则 the elbow method:最佳的分类个数是组内平方和曲线拐点最剧烈(变化速率变化最大的点)时的分类个数。
下面实操,先用数据按分成1-10个聚类画组内平方和图形。
可以看到最佳组数为5。
进行聚类,并画出各组中心点。
关联规则学习
略
强化学习
开始时没有数据,自己不断尝试产生数据并从中学习。
实操吧。
代码:https://github.com/zwdnet/MyQuant/tree/master/49
我发文章的三个地方,欢迎大家在朋友圈等地方分享,欢迎点“在看”。
我的个人博客地址:https://zwdnet.github.io
我的知乎文章地址: https://www.zhihu.com/people/zhao-you-min/posts
我的微信个人订阅号:赵瑜敏的口腔医学学习园地