[Python][sklearn] 使用from sklearn.neighbors import NearestNeighbors计算相似度
代码如下:from sklearn.neighbors import NearestNeighborsimport numpy as npX = np.array([[-1,-1],[-2,-1],[-3,-1],[1,1],[2,1],[3,2]])nbrs = NearestNeighbors(n_neighbor
·
代码如下:
from sklearn.neighbors import NearestNeighbors
import numpy as np
X = np.array([[-1,-1],
[-2,-1],
[-3,-1],
[1,1],
[2,1],
[3,2]
])
nbrs = NearestNeighbors(n_neighbors=3, algorithm="ball_tree").fit(X)
distances, indices = nbrs.kneighbors(X)
print(distances)
print(indices)
上述代码,数据X尺寸为(6,2),为6行2列的数据,n_neighbors
确定希望找到的邻居数,这里设置为3。algorithm
为希望使用的搜索算法(有很多,可以换别的)
nbrs.kneighbors(X)指X和X比较,找相似的;也可以nbrs.kneighbors(Y),即Y和X比较,找相似的,Y的行数可以与X不同,但是Y的列应该与X相同。
(可以理解为,X和Y两个数据,找其中最相似的几行数据,每行数据的特征是不同的,每行比较的时候,需要保证每行的特征数是相同的。)
可以得到距离和相似的3个点(越靠前越相似)。
输出结果为:
[[0. 1. 2. ]
[0. 1. 1. ]
[0. 1. 2. ]
[0. 1. 2.23606798]
[0. 1. 1.41421356]
[0. 1.41421356 2.23606798]]
[[0 1 2]
[1 2 0]
[2 1 0]
[3 4 5]
[4 3 5]
[5 4 3]]
距离(distance),输出第几个数据和该行数据的距离,输出前top3.
标签(indices),第几个数据和该行的数据最相似,输出前top3.
如果是自己和自己比较,因为每行的数据都与自己最相似,所以,距离第一列都是0;所以,标签第一列都是自己;如果不是自己和自己比较,距离第一列就不都是0了。
参考:
- sklearn.neighbors_Nearest Neighbors:https://blog.csdn.net/qq_40570795/article/details/78655825

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)