An open API service indexing awesome lists of open source software.

https://github.com/budali/mechine_learn

参照贪心学院课程大纲学习
https://github.com/budali/mechine_learn

Last synced: 10 months ago
JSON representation

参照贪心学院课程大纲学习

Awesome Lists containing this project

README

          

参照贪心学院 机器学习高阶课程大纲 进行学习

资金充足的情况下鼓励大家报名参加专业的培训~

学习时要把参考资料仔细过一下哦,不重要的部分只要了解就好啦

## 一.机器学习基础与凸优化
#### 1.1 kNN和Weighted kNN
参考资料:
https://blog.csdn.net/qq_43416572/article/details/100582970
https://www.cnblogs.com/bigmonkey/p/7387943.html
https://www.cnblogs.com/jyroy/p/9427977.html
学习要求:
1.简述knn算法的流程
对于一个未知的数据,从已知数据集中求出每个数据与其的"距离",取其中最接近的k个,然后通过多数表决的形式,即统计k个数据中种类最多的一个类,
我们认为这个未知数据为该类别。
2.训练集和测试集是什么?
训练集可以理解为已知的带有标签的数据,测试集理解为未知数据。
3.k值大小有什么影响?什么值最合适?
k值太小不具备抗干扰性 可能最近的几个k值中有噪音
k值太大不具备代表性 相当于较大领域中训练 近似误差较大
一般的k取值不会超过20,上限是n的开方,理论上训练集越大,k值越大。
4.有哪些常用的度量距离呢?
欧氏距离,余弦值,相关度,曼哈顿距离(城市街区距离)。
5.加权knn? 加的什么权?
反比例函数加权,高斯加权等等。个人感觉不必了解过多。
假如k=3
三个类别分别为A、A、B
一般来讲,A有2个,B有1个,那么判别结果为A
加权情况下,三个邻近的权重分别为A(0.8),A(0.6),B(0.5)
相当于最后有0.8+0.6=1.4(个)A,0.5(个)B,所以最后选A。

#通过结合KNN本身的分类算法以及对前k个距离加权,来达到分类的目的 wk-nnc算法是对经典knn算法的改进,
# 这种方法是对k个近邻的样本按照他们距离待分类样本的远近给一个权值w w(i) = (h(k) - h(i)) / (h(k) - h(1))
w(i)是第i个近邻的权值,其中1