https://github.com/budali/mechine_learn
参照贪心学院课程大纲学习
https://github.com/budali/mechine_learn
Last synced: 10 months ago
JSON representation
参照贪心学院课程大纲学习
- Host: GitHub
- URL: https://github.com/budali/mechine_learn
- Owner: budaLi
- Created: 2020-08-04T06:47:00.000Z (almost 6 years ago)
- Default Branch: master
- Last Pushed: 2020-08-07T01:32:24.000Z (almost 6 years ago)
- Last Synced: 2025-03-05T13:25:50.518Z (over 1 year ago)
- Language: Python
- Size: 609 KB
- Stars: 1
- Watchers: 2
- Forks: 1
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
参照贪心学院 机器学习高阶课程大纲 进行学习
资金充足的情况下鼓励大家报名参加专业的培训~
学习时要把参考资料仔细过一下哦,不重要的部分只要了解就好啦
## 一.机器学习基础与凸优化
#### 1.1 kNN和Weighted kNN
参考资料:
https://blog.csdn.net/qq_43416572/article/details/100582970
https://www.cnblogs.com/bigmonkey/p/7387943.html
https://www.cnblogs.com/jyroy/p/9427977.html
学习要求:
1.简述knn算法的流程
对于一个未知的数据,从已知数据集中求出每个数据与其的"距离",取其中最接近的k个,然后通过多数表决的形式,即统计k个数据中种类最多的一个类,
我们认为这个未知数据为该类别。
2.训练集和测试集是什么?
训练集可以理解为已知的带有标签的数据,测试集理解为未知数据。
3.k值大小有什么影响?什么值最合适?
k值太小不具备抗干扰性 可能最近的几个k值中有噪音
k值太大不具备代表性 相当于较大领域中训练 近似误差较大
一般的k取值不会超过20,上限是n的开方,理论上训练集越大,k值越大。
4.有哪些常用的度量距离呢?
欧氏距离,余弦值,相关度,曼哈顿距离(城市街区距离)。
5.加权knn? 加的什么权?
反比例函数加权,高斯加权等等。个人感觉不必了解过多。
假如k=3
三个类别分别为A、A、B
一般来讲,A有2个,B有1个,那么判别结果为A
加权情况下,三个邻近的权重分别为A(0.8),A(0.6),B(0.5)
相当于最后有0.8+0.6=1.4(个)A,0.5(个)B,所以最后选A。
#通过结合KNN本身的分类算法以及对前k个距离加权,来达到分类的目的 wk-nnc算法是对经典knn算法的改进,
# 这种方法是对k个近邻的样本按照他们距离待分类样本的远近给一个权值w w(i) = (h(k) - h(i)) / (h(k) - h(1))
w(i)是第i个近邻的权值,其中1