从混乱到有序：Drain3 手把手教你把日志 “变” 成结构化数据

Drain3 是一个用于日志解析的开源库，专注于从非结构化或半结构化日志中提取结构化信息，其核心思想是通过聚类算法识别日志模板，进而提取变量部分。以下是基于 Drain3 的示例，帮助理解其基本用法和功能。

sashimi1984xp1

358人浏览 · 2025-07-07 18:07:56

sashimi1984xp1 · 2025-07-07 18:07:56 发布

一、安装 Drain3

首先需要安装 Drain3 库，可通过 pip 安装：

pip install drain3

二、基础示例：日志解析流程

下面示例展示如何使用 Drain3 对一组日志进行解析，识别模板并提取变量。

代码示例：

from drain3 import TemplateMiner
from drain3.file_persistence import FilePersistence

# 1. 初始化模板挖掘器（使用文件持久化存储模板，避免重复训练）
persistence = FilePersistence("drain3_state.bin")  # 存储模板状态的文件
config = TemplateMinerConfig()
# 设置最大聚类数为 1000，并添加额外的分隔符（如逗号、冒号、等号）来帮助解析日志。
config.drain_max_clusters = 1000
config.drain_extra_delimiters = [",", ":", "="]
#关闭了性能分析功能
config.profiling_enabled = False

template_miner = TemplateMiner(
    persistence, config
)

# 2. 待解析的日志列表（模拟不同场景的日志）
logs = [
    "User 123 logged in from 192.168.1.1",
    "User 456 logged in from 10.0.0.2",
    "User 789 logged in from 172.16.0.3",
    "Error: Connection timeout for user 567 at 2023-10-01 12:00:00",
    "Error: Connection timeout for user 890 at 2023-10-01 12:05:00",
    "File /data/report.txt uploaded by user 123",
    "File /tmp/logs.log uploaded by user 456"
]

# 3. 逐个解析日志，更新模板并输出结果
for log in logs:
    # 解析单条日志，返回解析结果
    result = template_miner.add_log_message(log)
    # 输出解析信息
    print(f"日志: {log}")
    print(f"模板: {result['template_mined']}")  # 识别到的模板
    # 提取变量
    template = result["template_mined"]
    params = template_miner.extract_parameters(template, log)
    print(f"变量: {params}")
    print(f"当前模板总数: {len(template_miner.drain.clusters)}")
    print("---")

输出结果：

日志: User 123 logged in from 192.168.1.1
模板: User <NUM> logged in from <IP>
变量: {'<NUM>': ['123'], '<IP>': ['192.168.1.1']}
当前模板总数: 1
---
日志: User 456 logged in from 10.0.0.2
模板: User <NUM> logged in from <IP>
变量: {'<NUM>': ['456'], '<IP>': ['10.0.0.2']}
当前模板总数: 1
---
日志: User 789 logged in from 172.16.0.3
模板: User <NUM> logged in from <IP>
变量: {'<NUM>': ['789'], '<IP>': ['172.16.0.3']}
当前模板总数: 1
---
日志: Error: Connection timeout for user 567 at 2023-10-01 12:00:00
模板: Error: Connection timeout for user <NUM> at <TIME>
变量: {'<NUM>': ['567'], '<TIME>': ['2023-10-01 12:00:00']}
当前模板总数: 2
---
日志: Error: Connection timeout for user 890 at 2023-10-01 12:05:00
模板: Error: Connection timeout for user <NUM> at <TIME>
变量: {'<NUM>': ['890'], '<TIME>': ['2023-10-01 12:05:00']}
当前模板总数: 2
---
日志: File /data/report.txt uploaded by user 123
模板: File <PATH> uploaded by user <NUM>
变量: {'<PATH>': ['/data/report.txt'], '<NUM>': ['123']}
当前模板总数: 3
---
日志: File /tmp/logs.log uploaded by user 456
模板: File <PATH> uploaded by user <NUM>
变量: {'<PATH>': ['/tmp/logs.log'], '<NUM>': ['456']}
当前模板总数: 3
---

三、关键参数说明

Drain3 的 TemplateMiner 有多个参数可调整，以适应不同日志格式，核心参数包括：

persistence：模板持久化方式（如 FilePersistence 或 InMemoryPersistence），用于保存训练好的模板，下次运行可直接加载。
param_strategy：变量提取策略：
- cluster：通过聚类自动识别变量（如数字、IP、路径等）。
- fixed：将所有非模板部分视为变量（用 <*> 表示）。
max_depth：解析树的最大深度（默认 4），深度越大，对复杂日志的区分度越高，但计算成本增加。
extra_delimiters：额外的分隔符（如逗号、冒号），用于分割日志中的字段。

四、进阶用法：自定义变量识别

Drain3 支持通过正则表达式自定义变量类型（如邮箱、UUID等），示例如下：

from drain3 import TemplateMiner
from drain3.file_persistence import FilePersistence
import re

# 自定义变量类型：邮箱（通过正则匹配）
custom_variants = {
    "EMAIL": re.compile(r"[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+")
}

# 初始化模板挖掘器，添加自定义变量
template_miner = TemplateMiner(
    persistence=FilePersistence("drain3_state.bin"),
    param_strategy="cluster",
    custom_variants=custom_variants  # 传入自定义变量
)

# 解析包含邮箱的日志
log = "Send email to user@example.com successfully"
result = template_miner.add_log_message(log)
print(f"模板: {result['template_mined']}")  # 输出：Send email to <EMAIL> successfully
print(f"变量: {result['parameters']}")  # 输出：{'<EMAIL>': ['user@example.com']}