vLLM-v0.17.1开源实践：为vLLM添加自定义Metrics上报Prometheus

聚合收藏

50人浏览 · 2026-03-26 05:35:14

聚合收藏 · 2026-03-26 05:35:14 发布

vLLM-v0.17.1开源实践：为vLLM添加自定义Metrics上报Prometheus

1. vLLM框架简介

vLLM是一个专注于大语言模型(LLM)推理和服务的高性能开源库。这个项目最初由加州大学伯克利分校的天空计算实验室开发，现在已经发展成为一个活跃的社区驱动项目，吸引了来自学术界和工业界的众多贡献者。

vLLM的核心优势在于其出色的推理性能和服务能力：

高效内存管理：采用PagedAttention技术，智能管理注意力机制中的键值对内存
请求处理优化：支持连续批处理传入请求，最大化GPU利用率
执行加速：利用CUDA/HIP图实现模型快速执行
量化支持：提供多种量化方案，包括GPTQ、AWQ以及INT4/INT8/FP8等精度
内核优化：集成FlashAttention和FlashInfer等先进技术

在实际使用中，vLLM展现出极高的灵活性和易用性：

与HuggingFace模型无缝集成
支持多种解码算法，包括并行采样和束搜索
提供分布式推理能力，支持张量并行和流水线并行
内置OpenAI兼容的API服务器
跨平台支持，涵盖NVIDIA/AMD/Intel等多种硬件

2. 监控需求与Prometheus集成方案

2.1 为什么需要自定义Metrics

在大规模部署vLLM服务时，仅依靠基础的性能指标往往难以全面掌握系统运行状态。自定义Metrics可以帮助我们：

实时监控关键业务指标
快速定位性能瓶颈
基于数据进行容量规划
实现智能化的自动扩缩容

2.2 Prometheus监控体系

Prometheus作为云原生领域的主流监控方案，具有以下特点：

多维数据模型（时间序列由指标名称和键值对标识）
灵活的查询语言PromQL
不依赖分布式存储，单个服务器节点自治
通过HTTP拉取时间序列数据
支持推送时间序列的网关
通过服务发现或静态配置发现目标
多种图形和仪表板支持模式

3. 实现自定义Metrics上报

3.1 代码实现步骤

以下是为vLLM添加Prometheus Metrics上报的核心代码实现：

from prometheus_client import start_http_server, Gauge, Counter
import time

# 初始化Metrics
REQUEST_COUNTER = Counter('vllm_requests_total', 'Total number of requests')
LATENCY_GAUGE = Gauge('vllm_request_latency_seconds', 'Request latency in seconds')
QUEUE_SIZE_GAUGE = Gauge('vllm_queue_size', 'Current request queue size')
TOKEN_COUNTER = Counter('vllm_tokens_generated_total', 'Total tokens generated')

class PrometheusMetrics:
    def __init__(self, port=8000):
        self.port = port
        start_http_server(port)
        
    def record_request(self):
        REQUEST_COUNTER.inc()
        
    def record_latency(self, latency):
        LATENCY_GAUGE.set(latency)
        
    def record_queue_size(self, size):
        QUEUE_SIZE_GAUGE.set(size)
        
    def record_tokens(self, count):
        TOKEN_COUNTER.inc(count)

3.2 集成到vLLM服务

将监控组件集成到vLLM的API服务器中：

from fastapi import Request
from fastapi.middleware import Middleware
from fastapi.middleware.base import BaseHTTPMiddleware

class MetricsMiddleware(BaseHTTPMiddleware):
    def __init__(self, app, metrics):
        super().__init__(app)
        self.metrics = metrics
        
    async def dispatch(self, request: Request, call_next):
        start_time = time.time()
        self.metrics.record_queue_size(get_current_queue_size())
        
        response = await call_next(request)
        
        latency = time.time() - start_time
        self.metrics.record_latency(latency)
        self.metrics.record_request()
        
        if hasattr(response, 'token_count'):
            self.metrics.record_tokens(response.token_count)
            
        return response

# 在启动时初始化
metrics = PrometheusMetrics(port=8000)
app.add_middleware(MetricsMiddleware, metrics=metrics)

4. 部署与验证

4.1 配置Prometheus采集

在Prometheus的配置文件中添加vLLM的监控目标：

scrape_configs:
  - job_name: 'vllm'
    static_configs:
      - targets: ['vllm-service:8000']
    metrics_path: '/metrics'
    scrape_interval: 15s

4.2 验证Metrics上报

启动服务后，可以通过以下方式验证：

直接访问Metrics端点：

curl http://localhost:8000/metrics

在Prometheus UI中查询指标：

rate(vllm_requests_total[1m])

配置Grafana仪表板，可视化关键指标

4.3 推荐的监控指标

指标类别	具体指标	监控意义
吞吐量	vllm_requests_total	服务请求总量
性能	vllm_request_latency_seconds	请求处理延迟
资源	vllm_queue_size	当前排队请求数
效率	vllm_tokens_generated_total	生成token总数
错误	vllm_errors_total	错误请求计数