图像分割应用：KMeans++算法Python实现

KMeans++是KMeans聚类算法的改进版本，它通过一种更加智能化的初始中心点选择策略，提高了聚类的效果和效率。在本章中，我们将详细介绍KMeans++算法的基本原理，并探讨其相较于传统KMeans算法的主要优势。KMeans++算法的原理是基于加权随机采样的过程。算法首先随机选择一个点作为初始中心点，然后对于每一个未被选取的点，根据其与最近已选中心点的距离，计算被选为下一个中心点的概率。距离

或困

399人浏览 · 2025-06-12 15:11:30

或困 · 2025-06-12 15:11:30 发布

本文还有配套的精品资源，点击获取

简介：KMeans++算法，作为K-Means聚类算法的改进版，通过优化初始质心选择提高了聚类效果，特别适用于图像分割。本项目展示了如何在Python环境中，结合NumPy、Scikit-learn、PIL或OpenCV以及matplotlib库实现KMeans++进行图像分割。该过程包括加载图片、数据预处理、迭代执行算法、性能评估等步骤，旨在通过实践提升开发者在图像处理、Python编程和数据分析方面的能力。

1. KMeans++算法介绍

KMeans++是KMeans聚类算法的改进版本，它通过一种更加智能化的初始中心点选择策略，提高了聚类的效果和效率。在本章中，我们将详细介绍KMeans++算法的基本原理，并探讨其相较于传统KMeans算法的主要优势。

1.1 KMeans++算法起源与应用

KMeans++算法由Arthur和Vassilvitskii在2007年提出，用以解决原始KMeans算法在选择初始中心点时可能产生的不足。KMeans++在初始化中心点时引入了一种新的机制，即每个点成为中心点的概率与其到已选中心点集合的距离成正比，这大大提高了聚类的准确度和稳定度。

1.2 KMeans++与传统KMeans的区别

在传统KMeans算法中，中心点是随机选取的，这可能会导致聚类结果对初始值敏感，出现局部最优解的情况。而KMeans++算法通过智能选择初始中心点，显著提高了聚类质量，减少了算法迭代次数，最终得到的聚类结果通常更加稳定和准确。

1.3 KMeans++算法原理概述

KMeans++算法的原理是基于加权随机采样的过程。算法首先随机选择一个点作为初始中心点，然后对于每一个未被选取的点，根据其与最近已选中心点的距离，计算被选为下一个中心点的概率。距离越远的点，被选中的概率越高。通过这种方式，KMeans++保证了中心点之间的距离较远，从而提高了算法的收敛速度和聚类效果。

以上是KMeans++算法的基本概念和它的优势所在。后续章节中，我们将进一步探讨KMeans++算法在图像分割等实际应用中的具体实现和优化过程。

2. 图像分割应用

2.1 图像分割的概念和重要性

2.1.1 图像分割的定义

图像分割是图像处理的一个基础步骤，它的目标是将图像划分为多个部分或对象，每个部分在特征上具有一定的相似性，而不同部分之间具有一定的差异性。这些差异性可以基于颜色、纹理、亮度等视觉特征。在分割后，每个图像区域可以被进一步处理和分析，以提取出感兴趣的物体，识别场景，或用于其他高级的计算机视觉任务。

图像分割的结果对整个图像分析的后续步骤至关重要，因为这些后续步骤依赖于准确地识别和提取图像中的目标对象。例如，在医学图像分析中，准确的分割可以用于肿瘤检测和疾病的诊断。在自动驾驶汽车的视觉系统中，图像分割可以帮助车辆识别道路、行人、其他车辆和各种路标。

2.1.2 图像分割的应用领域

图像分割的应用领域非常广泛，几乎所有需要图像理解和分析的领域都离不开图像分割。在医疗领域，图像分割用于分析和识别X光、CT扫描和MRI等医学影像中的结构和异常。在工业领域，图像分割被用于质量控制，通过检测产品的表面缺陷来保证产品的质量标准。在交通监控领域，图像分割用于识别和跟踪道路上的车辆、行人等目标。在农业领域，图像分割可以用于作物病害的检测和分析。

此外，在社交媒体、在线广告、内容推荐等方面，图像分割的应用也在不断增长。例如，在社交媒体平台上，通过自动检测和标记用户上传的照片中的面部，可以增强用户体验并提供更精准的个性化服务。广告商可以利用图像分割技术分析用户的活动和兴趣，以提高广告的目标性和效率。

2.2 KMeans++算法在图像分割中的作用

2.2.1 KMeans++算法的选取理由

KMeans++算法是KMeans算法的一个变种，它通过一个更为智能的初始中心点选择机制来提高最终聚类的质量。在图像分割中选择KMeans++算法的理由有多方面：

计算效率 ：与传统的KMeans算法相比，KMeans++算法能够更快地收敛，减少迭代次数，提高图像处理的速度。
聚类质量 ：KMeans++算法通过初始中心点的智能选择机制，能够获得更好的聚类结果，减少聚类的重叠，这对于图像分割尤为重要。
易于实现 ：KMeans++算法在理论和实践中都被证明是高效且可靠的，它的实现相对简单，非常适合在图像处理中使用。

2.2.2 算法与传统KMeans的区别

KMeans++算法与传统的KMeans算法主要有以下几点区别：

初始中心点的选择 ：在KMeans算法中，初始中心点通常是随机选择的，而在KMeans++算法中，初始中心点的选择考虑了样本点到已有中心点的距离，这种策略使得初始中心点的分布更均匀。
收敛速度和稳定性 ：由于KMeans++选择的初始中心点更合理，它通常能够更快地收敛到稳定状态，并且这种状态通常对应于更好的聚类质量。
对初始值敏感性 ：由于KMeans对初始中心点选择的敏感性较高，KMeans++通过智能选择初始中心点，能够减少KMeans的这种敏感性，从而提供更为稳定的结果。

import numpy as np

def kmeans_plus_plus(X, n_clusters, n_init=10):
    # 初始化第一个中心点
    centers = [X[np.random.choice(range(len(X)))]]
    for _ in range(1, n_clusters):
        # 计算所有点到最近中心的距离平方和
        distances = np.array([min([np.inner(c-x, c-x) for c in centers]) for x in X])
        # 转换成概率分布并选择新的中心点
        probabilities = distances / distances.sum()
        cumprobs = probabilities.cumsum()
        r = np.random.rand()
        for j, p in enumerate(cumprobs):
            if r < p:
                i = j
                break
        centers.append(X[i])

    # 返回初始化的中心点
    return np.array(centers)

# 假设X是一个图像的像素点矩阵
# 下面代码将计算KMeans++算法的初始中心点
initial_centers = kmeans_plus_plus(X, n_clusters=3)

上面的代码定义了KMeans++算法中智能选择初始中心点的过程。通过这段代码我们可以看到，初始中心点的选择考虑到了每个样本点到已有中心点的距离，这使得初始中心点更有可能位于数据分布的不同区域，从而避免了随机选择可能带来的问题。通过这种方式，KMeans++算法能够比传统的KMeans算法更快地收敛，并且获得更好的聚类结果。

3. Python实现流程

3.1 Python编程语言概述

3.1.1 Python在数据科学中的地位

Python语言以其简洁、易读、易用的特性，迅速成为数据科学、机器学习和人工智能领域的首选语言。它丰富的第三方库和框架，如NumPy、Pandas、Scikit-learn、TensorFlow等，为数据处理、分析和算法实现提供了强大的支持。Python的灵活性使得它能够适用于从简单的脚本编写到复杂的应用开发。

3.1.2 安装Python和相关开发环境

在开始Python编程之前，我们需要确保Python环境已经安装并配置好。对于数据科学的实现，常用的集成开发环境（IDE）有Anaconda、Jupyter Notebook和PyCharm等。Anaconda是一个开源的Python发行版本，它为科学计算专门优化，包含了数据科学、机器学习所需的大部分库。安装Anaconda后，可以使用其内置的Jupyter Notebook，这是一种易于使用的Web应用，可以创建和共享包含代码、可视化和说明文档的文档。

以下是Python安装步骤：

下载Anaconda安装包：访问Anaconda官网下载适合你操作系统的安装程序。
安装Anaconda：运行下载的安装程序并遵循安装向导的指示。
验证安装：打开Anaconda Prompt或者终端，输入 python 或 python --version 来检查Python是否正确安装。
配置环境变量（可选）：某些情况下可能需要手动设置环境变量，确保系统能识别 python 命令。

3.2 KMeans++算法的Python实现基础

3.2.1 Python中的函数和模块

Python中的函数是组织好的、可重复使用的、用来实现单一或相关联功能的代码段。函数提供了代码的模块性，和代码重用的便利性。使用函数可以提高代码的可读性，并降低维护成本。模块是包含Python定义和语句的文件，可以被别的Python程序导入并使用。

下面是一个简单的Python函数示例：

def simple_function():
    print("Hello from the simple_function!")

simple_function()  # 调用函数输出 Hello from the simple_function!

一个模块可以包含可执行的语句和函数定义。我们可以通过 import 语句来导入整个模块，也可以从模块中导入特定的函数或变量。例如， import math 可以导入标准库中的math模块。

3.2.2 算法实现的步骤和思路

在实现KMeans++算法时，我们首先需要明确算法的目标是将数据点分为k个簇。这通常涉及以下步骤：

随机选择一个数据点作为第一个中心点。
为每个数据点计算到最近中心点的距离的平方，然后按照概率选择下一个中心点（概率与距离平方成正比）。
对于每个数据点，计算它到已选中心点的最短距离，并更新这些距离。
当所有中心点被选完后，根据最短距离将数据点分配到最近的中心点所在的簇。
重复以上步骤，每次迭代计算并更新中心点，直到中心点不再发生变化，或者达到预定的迭代次数。

在Python中，我们可以使用NumPy库来处理向量和矩阵运算，这将大大简化算法的实现。下面是一个实现KMeans++算法的伪代码示例：

import numpy as np

def initialize_centers(data, k):
    # 初始化中心点的逻辑代码
    pass

def assign_clusters(data, centers):
    # 分配数据点到最近中心点的逻辑代码
    pass

def update_centers(data, clusters):
    # 更新中心点的逻辑代码
    pass

def kmeans_plus_plus(data, k, max_iters):
    centers = initialize_centers(data, k)
    for _ in range(max_iters):
        clusters = assign_clusters(data, centers)
        old_centers = centers
        centers = update_centers(data, clusters)
        if np.all(old_centers == centers):
            break
    return centers, clusters

通过这个伪代码框架，我们可以看到算法实现的大致思路。在接下来的章节中，我们将具体实现每个函数，并最终完成KMeans++算法。

4. 使用NumPy和Scikit-learn库

4.1 NumPy库的作用与应用

4.1.1 NumPy库的安装和导入

NumPy（Numerical Python的简称）是一个开源的Python库，它提供了高性能的多维数组对象以及相关工具来处理这些数组。NumPy在科学计算领域尤其重要，因为它的数组结构比Python原生的列表结构更高效，更易于进行数学运算。

安装NumPy库很简单，可以通过pip工具安装：

pip install numpy

在Python脚本中导入NumPy库的常用方法是：

import numpy as np

这行代码会导入NumPy库，并将别名 np 赋给它，这样做可以简化代码中的引用。

4.1.2 NumPy在数组操作中的优势

NumPy的主要优势在于其高效的数组操作能力，这主要得益于以下几个方面：

统一的数据类型 ：NumPy数组中所有元素的类型都是相同的，这使得内部优化成为可能，例如利用SIMD（单指令多数据）指令集，而Python原生列表则允许包含不同类型的元素。
广播机制 ：NumPy的广播功能可以自动扩展较小的数组，以匹配较大数组的形状进行算术运算，这极大地简化了代码。
向量化操作 ：NumPy内部进行了向量化处理，很多操作都是在底层的C语言级别实现，因此执行速度比纯Python快得多。
多维数组 ：NumPy支持多维数组（也称为矩阵），这对于图像处理、线性代数等应用非常有用。

以下是一个使用NumPy创建和操作数组的例子：

# 创建一个一维数组
array1 = np.array([1, 2, 3, 4])

# 创建一个二维数组
array2 = np.array([[1, 2], [3, 4]])

# 计算两个数组的和
result = array1 + array2
print(result)

输出结果将是：

[[2 4]
 [4 6]]

在这个简单的例子中，NumPy通过其内部优化简化了数组操作，使得代码更加简洁且运行效率更高。

4.2 Scikit-learn库在机器学习中的应用

4.2.1 Scikit-learn库的安装和导入

Scikit-learn是一个功能强大的开源机器学习库，它提供了许多常用的算法实现，包括分类、回归、聚类和降维等。由于其简单易用，已经成为机器学习领域的事实标准。

安装Scikit-learn库同样可以通过pip完成：

pip install scikit-learn

导入Scikit-learn库：

import sklearn

或者导入特定模块，如聚类模块：

from sklearn.cluster import KMeans

4.2.2 Scikit-learn中的聚类模块简介

Scikit-learn的聚类模块包含了多种聚类算法的实现，比如KMeans、DBSCAN、层次聚类等。其中，KMeans聚类是最常用的聚类算法之一，它适用于将数据分成k个集合，并使得集合内部距离最小化。

Scikit-learn提供的 KMeans 类使得实现KMeans聚类变得非常容易，下面是一个简单的例子：

from sklearn.cluster import KMeans

# 假设有一个数据集X
X = np.array([[1, 2], [1, 4], [1, 0],
              [10, 2], [10, 4], [10, 0]])

# 使用KMeans聚类算法进行聚类
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)

# 输出聚类中心和标签
print(kmeans.cluster_centers_)
print(kmeans.labels_)

输出结果会包含聚类中心的坐标和每个数据点的聚类标签。使用Scikit-learn的 KMeans 类，可以方便地实现KMeans++算法的初始化策略，来提高聚类的质量和效率。这里， n_clusters 参数表示聚类的数目， random_state 用于初始化过程的随机数种子，以保证结果的可复现性。

综上，NumPy和Scikit-learn库是进行科学计算和机器学习任务中不可或缺的工具，它们的高性能和易用性使得数据科学家能够更高效地解决实际问题。

5. 加载和预处理图像数据

在本章中，我们将详细介绍如何使用Python加载图像数据以及对这些数据进行预处理，这是应用KMeans++算法进行图像分割之前的必要步骤。我们将展示如何利用图像处理库来获取和处理数据，确保它们适合用于后续的图像分析和机器学习任务。

5.1 图像数据的加载

为了进行图像分割，我们首先需要能够读取和加载图像数据。Python中存在多个强大的图像处理库，包括但不限于OpenCV、Pillow和imageio等。在本小节中，我们主要关注Pillow库，因为它的功能强大且易于使用。

5.1.1 Python中的图像处理库介绍

Pillow是Python图像处理库的一个分支，它提供了一个简单且直观的API，以及大量的图像操作功能。Pillow库支持多种格式的图像文件，包括常见的JPEG、PNG、GIF等，并可以执行如裁剪、旋转、滤波、颜色转换、绘制图形等基本操作。

5.1.2 使用Pillow库加载图像

from PIL import Image

# 打开图像文件
image_path = 'example.jpg'
image = Image.open(image_path)

# 显示图像
image.show()

在上述代码中，我们首先导入了Pillow库中的Image模块，然后使用 Image.open() 方法打开一个图像文件。此代码块的功能为打开存储在本地的图像文件，并显示它。 image.show() 方法会调用默认的图像查看器打开图像。

5.2 图像数据的预处理

在加载图像后，图像数据往往需要预处理才能被KMeans++算法正确地用于图像分割。这通常包括将图像转换成一个合适的格式，如灰度图像或特定尺寸的数组，以及进行归一化处理。

5.2.1 转换图像格式

为了简化计算和提高算法效率，有时需要将图像从彩色转换为灰度。灰度图像只包含亮度信息，而不包含色彩信息，这样可以减少后续处理的数据量。

# 将图像转换为灰度格式
gray_image = image.convert('L')

# 显示灰度图像
gray_image.show()

上述代码段通过调用 convert() 方法，并传递字符串'L'作为参数，将打开的图像转换为灰度图像。这一步是图像处理中常见的预处理步骤，尤其在需要减少图像数据维度时。

5.2.2 图像的归一化处理

图像数据通常需要进行归一化处理，以确保数据值在0到1之间，这样可以提高算法的收敛速度和稳定性。归一化通常是对图像数组中的每个像素值进行缩放，使其满足上述范围。

import numpy as np

# 将图像转换为数组
image_array = np.array(gray_image)

# 归一化处理
normalized_image = image_array / 255.0

# 将归一化后的图像数组转换回图像对象
normalized_image = Image.fromarray((normalized_image * 255).astype('uint8'))

以上代码首先将灰度图像转换为NumPy数组，然后将其归一化到0到1之间。通过将数组中的每个像素值除以255.0（因为图像像素值通常在0到255之间），完成了归一化。最后，为了可视化或进一步处理，我们将归一化的数组转换回Pillow图像对象。

表格：图像预处理步骤比较

| 预处理步骤 | 作用 | 方法示例 | |-------------------|------------------------------|------------------------------------| | 加载图像 | 读取图像文件 | Image.open('example.jpg') | | 转换为灰度图像 | 减少数据量，简化计算 | gray_image = image.convert('L') | | 归一化处理 | 缩放数据范围，提高算法效率 | normalized_image = image_array / 255.0 |

mermaid流程图：图像预处理流程

graph LR
A[开始] --> B[加载图像]
B --> C[转换为灰度图像]
C --> D[归一化处理]
D --> E[结束]

图像预处理是图像分割以及进一步应用KMeans++算法之前的非常重要的步骤。它不仅影响着分割的效果，同时决定了后续算法处理的准确度和效率。通过本节介绍的方法，我们可以确保输入到算法中的数据是正确、规范和优化的。

总结而言，本章内容详细介绍了如何加载和预处理图像数据，这是使用KMeans++算法进行图像分割的前期必要步骤。使用Python和Pillow库，我们可以高效地完成这些任务，为后续的图像分析打下坚实的基础。在下一章中，我们将介绍如何通过KMeans++算法的Python实现来进行图像的聚类处理。

6. KMeans++算法步骤详解

6.1 算法初始化

6.1.1 选择初始中心点的方法

在KMeans++算法中，初始化步骤是至关重要的，因为它决定了算法的收敛速度和最终聚类结果的质量。不同于传统的KMeans算法随机选择初始中心点的方法，KMeans++通过引入一种更加智能化的策略来选择初始中心点，从而提高聚类的质量。

KMeans++的初始化策略核心思想是“加权抽样”，即初始中心点的选择带有概率性，这个概率与点到其它已经选择的中心点的距离成正比。具体步骤如下：

随机选择数据集中的一个点作为第一个初始中心点。
对于每个未被选为初始中心点的数据点，计算它与最近的已选中心点的距离。
根据距离计算每个点被选为下一个中心点的概率，距离越远的概率越大。
根据上述概率进行加权抽样，选择下一个中心点。
重复步骤2到步骤4，直到选出K个初始中心点。

加权抽样的具体公式为：

[ P(x_i) = \frac{D(x_i)^2}{\sum_{x \in X} D(x)^2} ]

其中，(P(x_i)) 是点 (x_i) 被选为新中心点的概率，(D(x_i)) 是点 (x_i) 到最近的已选中心点的距离，(X) 是所有未被选为初始中心点的点集合。

6.1.2 确定聚类中心数目的准则

选择合适的聚类数目 (K) 是另一个对KMeans++算法性能产生重大影响的决策。没有明确的理论指导告诉我们最佳的 (K) 值是多少，通常这需要依赖一些启发式方法或领域知识。

一种简单常用的方法是肘部法则（Elbow Method），其原理如下：

对于不同的 (K) 值，计算每个点到其最近中心点的平均距离（总成本）。
将这些成本绘制在图表上，横轴为 (K) 值，纵轴为总成本。
通常，随着 (K) 的增加，总成本会逐渐降低。但在某个点之后，成本的降低速率会显著减慢，此时的 (K) 值类似于“肘部”形状的顶点，因此得名“肘部法则”。

下表是一个 (K) 值对应总成本的示例数据：

| (K) 值 | 总成本 | |---------|--------| | 2 | 70 | | 3 | 50 | | 4 | 45 | | 5 | 42 | | 6 | 40 | | ... | ... |

使用肘部法则的Python代码示例：

from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

inertia = []
K_range = range(1, 11)

for K in K_range:
    kmeans = KMeans(n_clusters=K, max_iter=300, init='k-means++', random_state=0).fit(data)
    inertia.append(kmeans.inertia_)

plt.plot(K_range, inertia, 'bx-')
plt.xlabel('K')
plt.ylabel('Total within-cluster sum of squares')
plt.title('The Elbow Method')
plt.show()

在上述代码中，我们使用了 KMeans 类从 sklearn.cluster 库中，并迭代了1到10的 (K) 值，为每个 (K) 值拟合了一个模型，并将每个 (K) 值的成本存储在 inertia 列表中。最后，我们用折线图绘制了成本与 (K) 值之间的关系，以寻找“肘部”点。

6.2 算法迭代过程

6.2.1 计算距离和分配点到最近中心

在初始化中心点后，KMeans++算法将进入迭代过程。这个过程是迭代地重复以下步骤，直到中心点不再变化或达到设定的迭代次数。

计算距离： 对于数据集中的每一个点，计算它与所有已选中心点之间的距离。这个距离通常使用欧几里得距离。

import numpy as np

def euclidean_distance(x1, x2):
    return np.sqrt(np.sum((x1 - x2) ** 2))

分配到最近中心： 根据计算出的距离，将每个点分配到与其距离最近的中心点所在的簇中。

def assign_points_to_closest_centers(points, centers):
    clusters = {}
    for point in points:
        distances = [euclidean_distance(point, center) for center in centers]
        closest_center = centers[np.argmin(distances)]
        if closest_center not in clusters:
            clusters[closest_center] = []
        clusters[closest_center].append(point)
    return clusters

在上面的Python代码中， assign_points_to_closest_centers 函数接收数据点集合和中心点集合，返回一个字典，其中的键是中心点，值是被分配到该中心点的点的集合。

6.2.2 更新中心点和收敛判定

在分配所有点之后，对每个簇中的点计算新的中心点。更新中心点的公式为：

[ \bar{x} j = \frac{1}{|S_j|}\sum {x_i \in S_j} x_i ]

其中，(\bar{x}_j) 表示第 (j) 个簇的新中心点，(S_j) 是属于簇 (j) 的所有点的集合。

更新中心点后，算法需要检查是否收敛。如果新的中心点与上一次迭代的中心点完全相同，或者变化很小，则认为算法已经收敛；否则，返回到“计算距离和分配点到最近中心”步骤。

判断收敛的代码示例：

def has_converged(old_centers, new_centers, threshold=1e-5):
    distances = [euclidean_distance(old_centers[i], new_centers[i]) for i in range(len(old_centers))]
    return np.max(distances) < threshold

在此代码中， has_converged 函数检查新的中心点和旧的中心点之间距离的最大值是否小于设定的阈值（1e-5），如果是则返回 True ，表示算法已经收敛。

迭代过程的伪代码如下：

old_centers = initial_centers
new_centers = None

while not has_converged(old_centers, new_centers):
    clusters = assign_points_to_closest_centers(points, old_centers)
    new_centers = [np.mean(cluster, axis=0) for cluster in clusters.values()]
    old_centers = new_centers

# 执行结束，输出最终的簇和中心点

最终，KMeans++算法返回的是在收敛后分配到各个簇的数据点以及最终的中心点位置，它们可以用于进一步的数据分析或可视化展示。

7. 使用matplotlib展示和保存结果

在数据科学和机器学习的项目中，一旦我们完成了算法的实现和数据处理，接下来的一个重要步骤就是结果的展示与保存。对于聚类算法来说，可视化的结果可以让我们直观地理解模型的聚类效果。Python中的matplotlib库是一个非常强大的绘图工具，可以帮助我们轻松完成这项任务。本章将详细介绍如何使用matplotlib库来展示和保存KMeans++算法的聚类结果。

7.1 matplotlib库基础

7.1.1 安装和导入matplotlib库

matplotlib库并非Python的标准库，因此需要单独安装。我们可以使用pip命令来安装matplotlib库：

pip install matplotlib

安装完成后，在Python脚本中导入matplotlib库非常简单：

import matplotlib.pyplot as plt

7.1.2 matplotlib绘制基础图形的方法

matplotlib提供了一系列简单直观的函数来绘制基础图形。例如，我们可以使用 plt.plot() 来绘制线图， plt.bar() 来绘制柱状图，以及 plt.scatter() 来绘制散点图等。

这里我们关注的是散点图，因为它是展示聚类结果最直观的方式之一。

7.2 结果展示与保存

7.2.1 绘制聚类结果图像

假设我们已经对图像数据完成了聚类，并得到了聚类的标签和中心点坐标。现在我们来绘制聚类结果图像。

import matplotlib.pyplot as plt

# 假设 cluster_labels 是包含聚类标签的列表
# 假设 coordinates 是包含数据点坐标的列表

# 创建散点图
plt.scatter(coordinates[:, 0], coordinates[:, 1], c=cluster_labels, cmap='viridis')

# 添加聚类中心点
centers = ... # 确定聚类中心点的坐标
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=300, alpha=0.5)

# 添加图例和标题
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('KMeans++ Clustering Results')
plt.legend(['Centroids', 'Cluster 1', 'Cluster 2', ...])

# 显示图像
plt.show()

7.2.2 保存处理后的图像和数据

为了方便以后查看或者用于报告，我们可能需要将绘图结果保存下来。matplotlib库同样提供了保存图像的简单方法。

# 保存图像
plt.savefig('kmeans_clustering_result.png')

# 如果需要保存数据
import numpy as np

# 创建一个numpy数组来保存坐标数据
coordinates = np.array(coordinates)

# 保存坐标数据到CSV文件
np.savetxt('coordinates.csv', coordinates, delimiter=',', fmt='%f')

通过上述步骤，我们不仅能够通过散点图清晰地展示聚类结果，还可以将图像和相关数据保存下来，便于后续的分析和分享。

在这一章节，我们学习了如何使用matplotlib库来绘制和保存图像。下一章节，我们将探讨如何评估聚类算法的性能，并对模型进行优化。

本文还有配套的精品资源，点击获取