建议收藏！120+开源工具助你轻松构建大模型全流程，开启AI开发之旅！

随着大模型在自然语言处理及跨模态任务中的广泛应用，构建、训练、部署和监控这些模型已成为当前 AI 工程的重要组成部分。为帮助开发者快速定位和使用各类工具，从模型预训练与微调、应用开发、推理服务到数据抽取与生成、评估、监控等环节，一份涵盖 120 多个开源库的工具箱应运而生,内容有点多建议收藏。

猿类崛起@

1773人浏览 · 2025-06-13 16:41:04

猿类崛起@ · 2025-06-13 16:41:04 发布

快速链接概览

LLM 训练与微调

包括主流的预训练、监督微调、参数高效微调（例如 LoRA、QLoRA）等，并支持强化学习与调优（如 PPO、DPO）的方案。
LLM 应用开发

提供如 LangChain、Llama Index、Haystack 等构建端到端大模型应用的开发框架和工具。
LLM RAG（检索增强生成）

整合语义搜索、文档索引及问答生成，支持搭建检索增强生成系统（RAG）的流程和调优。
LLM 推理与服务

集中于模型推理加速、API 封装、批处理与流式响应等服务化工具，降低硬件要求并优化响应速度。
LLM 数据抽取与生成

提供用于网页爬取、文档解析和合成数据生成的工具，助力业务数据预处理和知识构建。
LLM 代理与评估

支持多代理协同、实时反馈和精细评价方案，帮助开发者在模型部署过程中保证质量与安全。
其他辅助工具

如缓存、低代码平台、结构化输出工具、以及安全防护库等，构成了 LLM 工程全链路支持的生态体系。

各模块详细分类

1. LLM 训练与微调

unsloth

描述：利用创新架构快速微调 LLM，训练速度提升 2 倍且内存占用大幅降低。

链接：https://github.com/unslothai/unsloth
PEFT

描述：基于参数高效微调（PEFT）方法，仅调整核心参数即可获得接近全模型微调的效果，节省计算资源。

链接：https://github.com/huggingface/peft
TRL

描述：通过强化学习对 Transformer 模型进行后训练，支持多策略和大规模分布式训练。

链接：https://github.com/huggingface/trl
Transformers

描述：支持文本、图像、音频及多模态任务的预训练模型库，兼容 PyTorch、TensorFlow 和 JAX。

链接：https://github.com/huggingface/transformers
Axolotl

描述：简化各种 AI 模型的后训练流程，支持全模型微调、LoRA 和 QLoRA 等技术，采用 YAML 配置方式。

链接：https://github.com/axolotl-ai-cloud/axolotl/
LLMBox

描述：提供统一的大语言模型训练管道和评估工具，适用于多种训练策略与实验管理。

链接：https://github.com/RUCAIBox/LLMBox
LitGPT

描述：轻量级工具，支持快速微调 LLM，代码简洁且经过性能优化。

链接：https://github.com/Lightning-AI/litgpt
Mergoo

描述：专注于合并不同领域专家模型，并高效训练合并后的模型，适合领域知识整合。

链接：https://github.com/Leeroo-AI/mergoo
LLaMA-Factory

描述：支持 CLI 与 Web UI 的 LLM 微调平台，实现 100+ 模型的统一高效微调。

链接：https://github.com/hiyouga/LLaMA-Factory
Ludwig

描述：低代码开发框架，帮助用户快速构建和训练自定义的深度学习模型。

链接：https://github.com/ludwig-ai/ludwig
Txtinstruct

描述：专注于指令调优模型训练的框架，助力构建高质量指令型 LLM。

链接：https://github.com/neuml/txtinstruct
Lamini

描述：集成 LLM 调优与推理的平台，适合企业级大语言模型部署。

链接：https://github.com/lamini-ai/lamini
XTuring

描述：简单快速地微调开源 LLM（如 Mistral、LLaMA、GPT-J 等），降低开发成本。

链接：https://github.com/stochasticai/xTuring
RL4LMs

描述：模块化强化学习库，支持通过人类偏好调整大模型表现。

链接：https://github.com/allenai/RL4LMs
DeepSpeed

描述：高效分布式训练与推理优化库，适用于大规模 LLM 调优和加速。

链接：https://github.com/deepspeedai/DeepSpeed
torchtune

描述：基于 PyTorch 的专用微调工具库，针对大语言模型进行高效调优。

链接：https://github.com/pytorch/torchtune
PyTorch Lightning

描述：使用高级 API 简化预训练和微调流程，适合各种规模的开发者。

链接：https://github.com/Lightning-AI/pytorch-lightning

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

2. LLM 应用开发

LangChain

描述：构建基于 LLM 的对话、问答和生成应用的框架，简化应用逻辑与数据交互。

链接：https://github.com/langchain-ai/langchain
Llama Index

描述：为 LLM 应用提供高效的数据管理与索引解决方案，支持灵活的数据检索。

链接：https://github.com/run-llama/llama_index
Haystack

描述：提供端到端的大语言模型解决方案，整合向量检索、文档处理和问答生成。

链接：https://github.com/deepset-ai/haystack
Prompt flow

描述：支持构建完整 LLM 应用开发周期的工具套件，由微软开发。

链接：https://github.com/microsoft/promptflow
Griptape

描述：模块化 Python 框架，专为搭建多任务 AI 应用的流程设计。

链接：https://github.com/griptape-ai/griptape
Weave

描述：用于构建生成式 AI 应用的工具包，注重数据可视化与交互体验。

链接：https://github.com/wandb/weave
Llama Stack

描述：针对 LLM 应用开发的全套工具集，促进项目标准化与快速迭代。

链接：https://github.com/meta-llama/llama-stack

3. 数据准备与 API 多接口支持

Data Prep Kit

描述：用于加速非结构化数据预处理的工具，支持清洗、转换和数据融合。

链接：https://github.com/data-prep-kit/data-prep-kit
LiteLLM

描述：统一接口库，便于调用 100+ LLM API，简化跨平台开发。

链接：https://github.com/BerriAI/litellm
AI Gateway

描述：高速 AI 网关，集成多个 LLM 调用接口与安全策略，保障服务稳定。

链接：https://github.com/Portkey-AI/gateway

4. 推理与服务

LLM Compressor

描述：基于多种压缩算法减少模型部署所需资源，兼容 Transformer 模型。

链接：https://github.com/vllm-project/llm-compressor
LightLLM

描述：轻量级 LLM 推理与服务框架，兼顾易用性和扩展性。

链接：https://github.com/ModelTC/lightllm
vLLM

描述：高吞吐量、内存高效的 LLM 推理引擎，大幅提升响应速度。

链接：https://github.com/vllm-project/vllm
torchchat

描述：支持服务器、桌面和移动设备的 PyTorch LLM 推理，实现跨平台部署。

链接：https://github.com/pytorch/torchchat
TensorRT-LLM

描述：NVIDIA 提供的模型优化工具，为 TensorRT 环境下的 LLM 专门设计。

链接：https://github.com/NVIDIA/TensorRT-LLM
WebLLM

描述：在浏览器端实现高性能 LLM 推理，适用于前端交互式部署。

链接：https://github.com/mlc-ai/web-llm
Langcorn

描述：基于 FastAPI 构建的 LLM 服务平台，支持自动扩展和流式响应。

链接：https://github.com/msoedov/langcorn
LitServe

描述：结合 FastAPI 的快速 AI 模型服务引擎，支持批量处理与 GPU 自动扩缩。

链接：https://github.com/Lightning-AI/LitServe

5. 数据抽取与生成

Crawl4AI

描述：专为 LLM 应用设计的网页爬虫和数据采集工具，支持多种格式数据抓取。

链接：https://github.com/unclecode/crawl4ai
ScrapeGraphAI

描述：融合 LLM 与图结构逻辑的网页及文档数据抓取工具。

链接：https://github.com/ScrapeGraphAI/Scrapegraph-ai
Docling

描述：快速解析多种格式文档，导出适用于 LLM 任务的文本数据。

链接：https://github.com/DS4SD/docling
Llama Parse

描述：专为 LLM 使用场景设计的文档解析工具，支持复杂数据结构提取。

链接：https://github.com/run-llama/llama_cloud_services
PyMuPDF4LLM

描述：简化 PDF 内容提取的工具，便于转化为 LLM 可用文本。

链接：https://pymupdf.readthedocs.io/en/latest/pymupdf4llm/
Crawlee

描述：网页抓取及浏览器自动化库，高效实现数据抽取任务。

链接：https://github.com/apify/crawlee-python
MegaParse

描述：通用型文档解析工具，兼容 XML、HTML、JSON、Markdown 等多种格式。

链接：https://github.com/quivrhq/megaparse
ExtractThinker

描述：智能文档解析库，自动将非结构化文本转化为结构化信息。

链接：https://github.com/enoch3712/ExtractThinker
DataDreamer

描述：用于提示生成、合成数据及训练数据集构建的开源 Python 工具。

链接：https://github.com/datadreamer-dev/DataDreamer
fabricator

描述：灵活的数据生成框架，通过 LLM 自动生成高质量训练样本。

链接：https://github.com/flairNLP/fabricator
Promptwright

描述：辅助生成多样 NLP 任务提示的工具，助力构建多样化训练数据。

链接：https://github.com/stacklok/promptwright
EasyInstruct

描述：简单易用的指令数据生成平台，通过 LLM 自动生成优质训练指令。

链接：https://github.com/zjunlp/EasyInstruct

6. LLM agent

CrewAI

描述：专为角色扮演和自治 AI 代理设计的框架，支持多 agent 协同工作。

链接：https://github.com/crewAIInc/crewAI
LangGraph

描述：基于图结构构建的 LLM 代理系统，实现复杂任务的多级协作。

链接：https://github.com/langchain-ai/langgraph
Agno

描述：提供具备记忆、知识和推理能力的 AI 代理，界面直观、交互便捷。

链接：https://github.com/agno-agi/agno
Agents SDK

描述：OpenAI 官方的 LLM 代理开发工具包，助力构建多任务代理系统。

链接：https://platform.openai.com/docs/guides/agents-sdk
AutoGen

描述：支持构建智能 AI 代理系统的开源框架，满足多场景应用需求。

链接：https://github.com/microsoft/autogen
Smolagents

描述：极简 API 的代理构建库，仅需少量代码即可生成高效 LLM 代理。

链接：https://github.com/huggingface/smolagents
Pydantic AI

描述：基于 Pydantic 的代理开发框架，便于构建稳健的生产级 AI 应用。

链接：https://ai.pydantic.dev/
BeeAI

描述：企业级多代理系统工具集，支持复杂任务分工与安全管理。

链接：https://github.com/i-am-bee/beeai-framework/tree/main/python
gradio-tools

描述：将 Gradio 应用转换为 API 工具，让 LLM 代理能够高效调用网络服务。

链接：https://github.com/freddyaboulton/gradio-tools
Composio

描述：面向生产环境的 AI 代理工具包，用于任务调度和高效集成。

链接：https://github.com/ComposioHQ/composio
Atomic Agents

描述：轻量级框架，支持原子化构建与协同执行 AI 代理任务。

链接：https://github.com/BrainBlend-AI/atomic-agents
Memary

描述：为 AI 代理提供短期与长期记忆支持，提升决策与推理能力。

链接：https://github.com/kingjulio8238/Memary
Browser Use

描述：辅助代理实现网页访问与数据抓取，拓展代理工作边界。

链接：https://github.com/browser-use/browser-use
OpenWebAgent

描述：实现跨站点检索与交互的 LLM 网络代理工具箱。

链接：https://github.com/THUDM/OpenWebAgent/
Lagent

描述：针对 LLM 应用设计的轻量级代理框架，实现高效任务执行。

链接：https://github.com/InternLM/lagent
LazyLLM

描述：低代码平台，帮助快速构建和管理多代理 LLM 应用，降低开发门槛。

链接：https://github.com/LazyAGI/LazyLLM
Swarms

描述：面向企业级多代理编排的框架，实现大规模协同任务。

链接：https://github.com/kyegomez/swarms
ChatArena

描述：提供多代理语言游戏环境，便于研究代理间的交互与社交行为。

链接：https://github.com/Farama-Foundation/chatarena
Swarm

描述：轻量级多代理协作框架，适合教学和小型项目。

链接：https://github.com/openai/swarm
AgentStack

描述：构建稳健 AI 代理的工具包，支持快速集成与任务调度。

链接：https://github.com/AgentOps-AI/AgentStack
Archgw

描述：智能代理网关，用于代理任务的路由和管理。

链接：https://github.com/katanemo/archgw
Flow

描述：轻量级任务引擎，专为 LLM 代理及其流程优化而设计。

链接：https://github.com/lmnr-ai/flow
AgentOps

描述：提供 AI 代理监控功能的 Python SDK，便于追踪代理性能指标。

链接：https://github.com/AgentOps-AI/agentops
Langroid

描述：支持多代理协作的系统框架，拓展复杂任务的调度与管理。

链接：https://github.com/langroid/langroid
Agentarium

描述：仿真平台用于管理和监控大量 AI 代理，支持综合环境创建。

链接：https://github.com/Thytu/Agentarium
Upsonic

描述：支持多通信协议和任务管理的 AI 代理框架，确保高可靠性运行。

链接：https://github.com/upsonic/upsonic

7. LLM 评估

Ragas

描述：综合评估工具，用于细粒度分析和优化大模型整体表现。

链接：https://github.com/explodinggradients/ragas
Giskard

描述：开源评测平台，监控模型准确性、鲁棒性以及公平性。

链接：https://github.com/Giskard-AI/giskard
DeepEval

描述：专为 LLM 定制的评估框架，涵盖多种任务和评价指标。

链接：https://github.com/confident-ai/deepeval
Lighteval

描述：一站式 LLM 评估工具箱，便于快速获取模型性能数据。

链接：https://github.com/huggingface/lighteval
Trulens

描述：用于追踪 LLM 实验与评估数据，支持可视化和对比分析。

链接：https://github.com/truera/trulens
PromptBench

描述：统一评测框架，为 LLM 提供标准化基准测试环境。

链接：https://github.com/microsoft/promptbench
LangTest

描述：提供多种测试方法，全面评估 LLM 的准确性、偏见和鲁棒性。

链接：https://github.com/JohnSnowLabs/langtest
EvalPlus

描述：针对代码生成任务设计的评估框架，测试 LLM4Code 性能效果。

链接：https://github.com/evalplus/evalplus
FastChat

描述：开放平台，用于训练、部署和评估基于 LLM 的对话系统。

链接：https://github.com/lm-sys/FastChat
judges

描述：轻量级评判工具库，用于自动评价 LLM 输出内容质量。

链接：https://github.com/quotient-ai/judges
Evals

描述：OpenAI 提供的评估框架，附带公开基准测试集，实现标准化测试。

链接：https://github.com/openai/evals
AgentEvals

描述：针对多任务代理系统表现的评估工具，帮助量化代理性能。

链接：https://github.com/langchain-ai/agentevals
LLMBox

描述：除训练功能外，还支持对大模型进行全面评估与测试。

链接：https://github.com/RUCAIBox/LLMBox
Opik

描述：端到端 LLM 开发平台，集成评估、监控和实验管理功能。

链接：https://github.com/comet-ml/opik

8. LLM 监控

MLflow

描述：全流程 MLOps 平台，用于记录、监控和管理 LLM 应用训练与推理。

链接：https://github.com/mlflow/mlflow
Opik

描述：集成评估与监控功能的端到端 LLM 开发平台。

链接：https://github.com/comet-ml/opik
LangSmith

描述：日志记录与性能监控工具，助力持续优化已部署模型。

链接：https://github.com/langchain-ai/langsmith-sdk
Weights & Biases

描述：流行的实验跟踪平台，用于全面收集和监控 LLM 训练数据。

链接：https://github.com/wandb/wandb
Helicone

描述：开源 LLM 可观测性平台，一行代码即可实现详细监控与指标追踪。

链接：https://github.com/Helicone/helicone
Evidently

描述：实时监控和异常检测工具，专为机器学习和 LLM 应用设计。

链接：https://github.com/evidentlyai/evidently
Phoenix

描述：AI 观察平台，用于实验评估和故障诊断。

链接：https://github.com/Arize-ai/phoenix
Observers

描述：轻量级库，用于追踪模型运行时的各项性能指标。

链接：https://github.com/cfahlgren1/observers

9. LLM Prompts

PCToolkit

描述：提示压缩工具，降低 LLM 提示传输成本并提升响应速度。

链接：https://github.com/3DAgentWorld/Toolkit-for-Prompt-Compression
Selective Context

描述：智能选择和压缩提示上下文，使 LLM 能处理更多输入信息。

链接：https://pypi.org/project/selective-context/
LLMLingua

描述：提示压缩与优化工具，为加速 LLM 推理过程而设计。

链接：https://github.com/microsoft/LLMLingua
betterprompt

描述：测试并优化 LLM 提示的工具套件，确保生成效果达到生产标准。

链接：https://github.com/stjordanis/betterprompt
Promptify

描述：生成多样 NLP 任务提示的框架，支持多种生成模型。

链接：https://github.com/promptslab/Promptify
PromptSource

描述：提示模板工具包，便于创建、共享和使用自然语言提示。

链接：https://pypi.org/project/promptsource/
DSPy

描述：由斯坦福 NLP 团队开发的提示编程框架，使 LLM 提示设计更高效。

链接：https://github.com/stanfordnlp/dspy
Py-priompt

描述：专注于提示设计与生成的库，提供直观易用的 API。

链接：https://github.com/zenbase-ai/py-priompt
Promptimizer

描述：自动优化 LLM 提示结构的工具，提升生成效果和效率。

链接：https://github.com/hinthornw/promptimizer

10. LLM Structured Outputs

Instructor

描述：基于 Pydantic 的框架，简化 LLM 生成结构化输出的流程。

链接：https://github.com/instructor-ai/instructor
XGrammar

描述：高效灵活的结构化生成工具，支持导出 JSON、表格等多种数据格式。

链接：https://github.com/mlc-ai/xgrammar
Outlines

描述：专为生成稳定结构化文本（如报告和文档）设计的工具。

链接：https://github.com/dottxt-ai/outlines
Guidance

描述：采用引导式编程方式控制 LLM 输出流程，适合复杂场景。

链接：https://github.com/guidance-ai/guidance
LMQL

描述：约束导向型 LLM 编程语言，使生成过程更受控，便于定制化应用。

链接：https://github.com/eth-sri/lmql
Jsonformer

描述：专为生成结构化 JSON 输出设计的工具，确保格式准确一致。

链接：https://github.com/1rgs/jsonformer

11. LLM 安全与防护

JailbreakEval

描述：自动化评估工具，检测并防范 LLM 越权生成（jailbreak）尝试。

链接：https://github.com/ThuCCSLab/JailbreakEval
EasyJailbreak

描述：简单易用的对抗性提示生成框架，测试并强化模型安全性。

链接：https://github.com/EasyJailbreak/EasyJailbreak
Guardrails

描述：为 LLM 添加安全边界的工具，防止不当输出风险。

链接：https://github.com/guardrails-ai/guardrails
LLM Guard

描述：专注于 LLM 交互安全的工具箱，提供防护及安全提示机制。

链接：https://github.com/protectai/llm-guard
AuditNLG

描述：生成内容风险审计工具，帮助控制输出内容质量和风险。

链接：https://github.com/salesforce/AuditNLG
NeMo Guardrails

描述：由 NVIDIA 开源的工具，快速为 LLM 聊天系统添加安全防护措施。

链接：https://github.com/NVIDIA/NeMo-Guardrails
Garak

描述：LLM 漏洞扫描器，用于检测并修复潜在安全隐患。

链接：https://github.com/NVIDIA/garak
DeepTeam

描述：LLM 红队测试框架，检验模型在实际部署中的安全性。

链接：https://github.com/confident-ai/deepteam

12. LLM Embedding 模型

Sentence-Transformers

描述：由 UKP Lab 提供，构建高质量文本嵌入，广泛用于语义搜索等任务。

链接：https://github.com/UKPLab/sentence-transformers
Model2Vec

描述：快速生成静态文本嵌入的工具库，适用于多种文本处理场景。

链接：https://github.com/MinishLab/model2vec
Text Embedding Inference

描述：Hugging Face 推出的快速文本嵌入推理解决方案，支持多种嵌入模型。

链接：https://github.com/huggingface/text-embeddings-inference

13. 其他辅助工具

Text Machina

描述：模块化扩展框架，用于生成高质量无偏数据集，适用于 MGT 相关任务。

链接：https://github.com/Genaios/TextMachina
LLM Reasoners

描述：高级 LLM 推理工具，旨在提升模型逻辑能力和思维深度。

链接：https://github.com/maitrix-org/llm-reasoners
EasyEdit

描述：知识编辑框架，方便对 LLM 输出内容进行调整和改进。

链接：https://github.com/zjunlp/EasyEdit
CodeTF

描述：用于代码生成的 Transformer 库，适用于代码理解与生成任务。

链接：https://github.com/salesforce/CodeTF
spacy-llm

描述：将大语言模型集成进 spaCy，支持将非结构化文本转为结构化输出。

链接：https://github.com/explosion/spacy-llm
pandas-ai

描述：支持与 SQL、CSV、pandas、polars 及 MongoDB 等各类结构化数据交互的工具。

链接：https://github.com/Sinaptik-AI/pandas-ai
LLM Transparency Tool

描述：Facebook Research 出品的交互式工具，用于分析 Transformer 模型内部工作机制。

链接：https://github.com/facebookresearch/llm-transparency-tool
Vanna

描述：通过 RAG 实现高精度文本到 SQL 转换，便于数据库查询。

链接：https://github.com/vanna-ai/vanna
mergekit

描述：工具集合并预训练大语言模型，助力知识共享和模型整合。

链接：https://github.com/arcee-ai/MergeKit
MarkLLM

描述：开源 LLM 水印工具，确保生成内容具备可溯源性与安全性。

链接：https://github.com/THU-BPM/MarkLLM
LLMSanitize

描述：检测训练数据污染风险的工具，为 LLM 训练提供数据质量保障。

链接：https://github.com/ntunlp/LLMSanitize
Annotateai

描述：利用 LLM 自动标注科研论文和文献，提高文献综述效率。

链接：https://github.com/neuml/annotateai
LLM-Reasoner

描述：使任意 LLM 模型具备推理和思维能力的工具，类似于 OpenAI o1 与 DeepSeek R1。

链接：https://github.com/harishsg993010/LLM-Reasoner

总结

这份 LLM 工程师工具箱涵盖了从数据预处理、模型训练、应用开发、部署服务到安全监控和评估系统的全方位工具。无论你是初学者还是在大企业中构建生产级 AI 应用的专家，这一工具箱都能为你提供高效、灵活且易于扩展的解决方案。我们鼓励开发者利用这些资源，加速 LLM 相关应用的研发和创新，并不断探索新技术以推动整个领域的进步。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】