[Python][sklearn] 使用from sklearn.neighbors import NearestNeighbors计算相似度

代码如下：from sklearn.neighbors import NearestNeighborsimport numpy as npX = np.array([[-1,-1],[-2,-1],[-3,-1],[1,1],[2,1],[3,2]])nbrs = NearestNeighbors(n_neighbor

让我安静会

3592人浏览 · 2022-01-26 20:03:37

让我安静会 · 2022-01-26 20:03:37 发布

代码如下：

from sklearn.neighbors import NearestNeighbors
import numpy as np

X = np.array([[-1,-1],
              [-2,-1],
              [-3,-1],
              [1,1],
              [2,1],
              [3,2]
              ])

nbrs = NearestNeighbors(n_neighbors=3, algorithm="ball_tree").fit(X)
distances, indices = nbrs.kneighbors(X)
print(distances)
print(indices)

上述代码，数据X尺寸为(6,2)，为6行2列的数据，
n_neighbors确定希望找到的邻居数，这里设置为3。
algorithm为希望使用的搜索算法（有很多，可以换别的）
nbrs.kneighbors(X)指X和X比较，找相似的；也可以nbrs.kneighbors(Y)，即Y和X比较，找相似的，Y的行数可以与X不同，但是Y的列应该与X相同。
（可以理解为，X和Y两个数据，找其中最相似的几行数据，每行数据的特征是不同的，每行比较的时候，需要保证每行的特征数是相同的。）
可以得到距离和相似的3个点（越靠前越相似）。

输出结果为：

[[0.         1.         2.        ]
 [0.         1.         1.        ]
 [0.         1.         2.        ]
 [0.         1.         2.23606798]
 [0.         1.         1.41421356]
 [0.         1.41421356 2.23606798]]
[[0 1 2]
 [1 2 0]
 [2 1 0]
 [3 4 5]
 [4 3 5]
 [5 4 3]]

距离（distance），输出第几个数据和该行数据的距离，输出前top3.
标签（indices），第几个数据和该行的数据最相似，输出前top3.
如果是自己和自己比较，因为每行的数据都与自己最相似，所以，距离第一列都是0；所以，标签第一列都是自己；如果不是自己和自己比较，距离第一列就不都是0了。

参考：

sklearn.neighbors_Nearest Neighbors：https://blog.csdn.net/qq_40570795/article/details/78655825

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

从 C 语言过渡到 Python：给 C 程序员的快速入门教程

创建文件tools.py创建文件main.py如果你已经会 C 语言，学习 Python 并不难。C 语言让你理解计算机底层Python 让你快速解决实际问题二者不是替代关系，而是互补关系。C 语言适合打基础、做底层、追求性能Python 适合做工具、做数据、做自动化、快速开发底层理解能力工程实现能力快速开发能力工具自动化能力数据处理能力这对于嵌入式开发、机器人开发、AI 应用、自动化测试、后端开