【机器学习】KNN(K近邻)算法

可可卷

1410人浏览 · 2021-12-05 21:26:50

可可卷 · 2021-12-05 21:26:50 发布

KNN即k近邻法，k-nearest neighbor，是1967年由Cover T和Hart P提出的一种基本分类与回归方法，也是机器学习的基础算法之一。

KNN算法原理

在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似数据(最近邻)的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

因此也可以说，KNN算法实际上没有进行训练，即它的训练复杂度为0；KNN近邻算法是用相似性来判断类别的，你和谁更像，那就认为你是哪种人。

KNN适用于数值型和标称型的数据，其优点是精度高、对异常值不敏感、无数据输入假定，但是缺点也很明显，我们每次使用都需要遍历整个训练集，计算复杂度和空间复杂度都很高。

KNN代码模板

1.导入依赖

import numpy as np
from collections import Counter

2.生成样本

def createDateSet():
    group = np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group,labels

3.KNN算法

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = np.tile(inX, (dataSetSize,1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis = 1)
    distances = sqDistances**0.5
    sortedDistIndicies = np.argsort(distances)

    voteIlabel = np.array(labels)[sortedDistIndicies[:k]]
    return Counter(voteIlabel).most_common(1)[0][0]

4.主函数

def main():
    k = 3
    test=[0,0]
    group,labels = createDateSet()
    result = classify0(test, group ,labels,k)
    print(result)

if __name__ == '__main__':
    main()

KNN步步推进

仿jupyter，第一个代码框为In[ ]，第二个代码框为Out[ ]
KNN的实现很简单，但利用numpy实现会很很神奇

1.获取样本数量
group = np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels = ['A','A','B','B']
dataSetSize = group.shape[0]
dataSetSize
4

2.获取inX与样本的坐标差值
test=[0,0]
diffMat = np.tile(test, (dataSetSize,1)) - group
diffMat
array([[-1. , -1.1],
    [-1. , -1. ],
    [ 0. ,  0. ],
    [ 0. , -0.1]])
可以发现，利用np.tile(）重复test，一次性求出test与每个样本的坐标差值

3.获取距离
sqDiffMat = diffMat**2
sqDistances = sqDiffMat.sum(axis = 1)
sqDistances
array([2.21, 2.  , 0.  , 0.01])
注意sum求和时轴的方向

4.排序取索引
sortedDistIndicies = np.argsort(distances)
sortedDistIndicies
array([2, 3, 1, 0], dtype=int64)
5.获取前K个相邻点的标签
k=3
voteIlabel = np.array(labels)[sortedDistIndicies[:k]]
voteIlabel
array(['B', 'B', 'A'], dtype='<U1')
label原为列表类型，先转化成ndarray

6.统计，返回数量最多的标签
from collections import Counter
cnt=Counter(voteIlabel)
cnt.most_common(1)
[('B', 2)]

KNN实战讲解

约会大作战：

海伦小姐提供了一份她以前相亲经历的所有案例，总共有1000场，现在希望通过机器学习分析一下这些数据，让她以后不用见面就能先大致知道对方属于自己心目中的哪一类人。

海伦小姐总共考察了三个指标，分别是：

每年获得的飞行常客里程数
玩视频游戏所耗时间百分比
每周消费的冰淇淋公升数

那么怎样通过KNN来分类呢？

获取数据

def getDateSet():
    df = pd.read_excel('date.xlsx')
    labels = np.array(df['label'])
    df.drop('label', axis=1, inplace=True)
    data = np.array(df)
    return data, labels

标准化

因为有的特征数值绝对值特别大，因此要对数据进行归一化处理

def normalization(data):
    min_val = data.min(0)
    max_val = data.max(0)
    ranges = max_val - min_val  # 极差
    norm_data = (data - min_val) / ranges
    return norm_data

也可以利用sklearn进行归一化：

data = MinMaxScaler().fit_transform(data)

KNN算法

与前文一致。

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = np.tile(inX, (dataSetSize,1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis = 1)
    distances = sqDistances**0.5
    sortedDistIndicies = np.argsort(distances)

    voteIlabel = np.array(labels)[sortedDistIndicies[:k]]
    return Counter(voteIlabel).most_common(1)[0][0]

主函数

def main():
    data,labels = getDateSet()
    norm_data = normalization(data)
    test=np.array([26052, 1.441871, 0.805124])
    norm_test=normalization(test)

    result = classify0(norm_test, norm_data ,labels,k=5)
    print(result)

结果为1，说明是一个极具魅力的男性。

KNN调包能手

在手码一遍KNN以后，其实对其原理已经有了充分的认识，那么以后就可以调包了【狗头】

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

def getDateSet():
    df = pd.read_excel('date.xlsx')
    labels = np.array(df['label'])
    df.drop('label', axis=1, inplace=True)
    data = np.array(df)
    return data, labels

data,labels = getDateSet()

# 按7:3 划分训练集与测试集
x_train, x_test , y_train, y_test = train_test_split(data, labels, test_size = 0.3)

# k=3
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(x_train, y_train)
error_index = np.nonzero(knn.predict(x_test) - y_test)[0]
print(f'预测准确率为: {100*(1 - len(error_index) / len(data))}%')

简单的训练之后，即可达到94%的准确率。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

SerpBase vs PhantomBuster：原始 SERP 数据 vs 现成自动化工作流

摘要： SerpBase和PhantomBuster定位不同，前者是SERP数据接口（低延迟、低成本，适合开发者），后者是增长自动化平台（支持多平台串联，适合非技术岗）。核心差异：SerpBase提供原始JSON数据，单价$0.30/1k次，延迟0.65秒；PhantomBuster通过云端机器人执行任务，适合低频高价值场景（如LinkedIn/Twitter自动化），但延迟高（分钟级）、成本贵1