LightRAG 系列 9：实战项目——构建内部知识库问答机器人

import pdfplumber
import os

def extract_text_from_pdf(pdf_path: str) -> str:
    text = ""
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            # 保留换行与结构
            page_text = page.extract_text(layout=True, keep_blank_chars=True)
            if page_text:
                text += page_text + "\n\n"
    return text

# 批量处理
for filename in os.listdir("./faqs"):
    if filename.endswith(".pdf"):
        raw_text = extract_text_from_pdf(f"./faqs/{filename}")
        with open(f"./texts/{filename}.txt", "w", encoding="utf-8") as f:
            f.write(raw_text)

✅ 最佳实践：

若 PDF 为扫描件，先用 OCRmyPDF 转为可搜索版

长文档建议按章节拆分，避免单 chunk 过大

在这里插入图片描述

步骤 2：使用 LightRAG 构建本地向量库

关键决策（架构视角）

决策项	推荐选择	理由
Embedding 模型	`BAAI/bge-small-zh-v1.5`	中文优化、开源、本地运行
是否启用图	✅ 是	支持“多跳问题”（如“谁负责报销？”）
是否启用重排序	✅ 是	提升首条准确率

初始化与注入（`build_kb.py`）

from lightrag import LightRAG
import glob

# 初始化（首次运行会下载模型）
rag = LightRAG(
    working_dir="./internal_kb",
    embedding_model="BAAI/bge-small-zh-v1.5",
    llm_model_func=None  # 使用默认本地 LLM
)

# 批量注入文本
for txt_file in glob.glob("./texts/*.txt"):
    with open(txt_file, "r", encoding="utf-8") as f:
        content = f.read()
    rag.insert(content, meta={"source": os.path.basename(txt_file)})
    print(f"✅ 已注入 {txt_file}")

⚠️ 注意：

首次运行需 5–10 分钟（模型下载 + 索引构建）

working_dir 包含：向量索引、图数据、原始文本副本

在这里插入图片描述

步骤 3：通过 FastAPI 暴露 `/ask` 接口

设计目标

支持 Local/Global 自动路由
返回答案 + 引用来源
兼容前端、Slack Bot、企微机器人

服务代码（`api.py`）

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
from lightrag import LightRAG, QueryParam
import asyncio
import logging

# 初始化（全局单例）
rag = LightRAG(working_dir="./internal_kb")

app = FastAPI(title="Internal KB Bot")

class AskRequest(BaseModel):
    query: str
    mode: str = "auto"  # "local", "global", or "auto"

def route_mode(query: str) -> str:
    if any(kw in query for kw in ["怎么", "是否", "多少", "步骤"]):
        return "local"
    return "global"

@app.post("/ask")
async def ask(req: AskRequest):
    try:
        mode = route_mode(req.query) if req.mode == "auto" else req.mode
        
        loop = asyncio.get_event_loop()
        result = await loop.run_in_executor(
            None,
            lambda: rag.query(
                req.query,
                param=QueryParam(
                    mode=mode,
                    top_k=3,
                    rerank=True  # 启用重排序提升精度
                )
            )
        )
        
        return {
            "answer": result["response"],
            "sources": [
                {"content": ref["content"], "source": ref.get("source", "unknown")}
                for ref in result.get("references", [])
            ],
            "mode_used": mode
        }
    except Exception as e:
        logging.error(f"Query failed: {e}")
        raise HTTPException(status_code=500, detail="Internal error")

启动服务

uvicorn api:app --host 0.0.0.0 --port 8000 --reload

调用示例

curl -X POST http://localhost:8000/ask \
  -H "Content-Type: application/json" \
  -d '{"query": "如何申请年假？"}'

响应：

{
  "answer": "员工需在 HR 系统提交年假申请，直属领导审批后生效。",
  "sources": [
    {
      "content": "年假申请流程：登录 HR 系统 → 填写日期 → 提交审批",
      "source": "hr_policy_2025.txt"
    }
  ],
  "mode_used": "local"
}

进阶建议：迈向生产就绪

能力	实现方式
自动同步 Confluence	定时任务调用 API → 生成文本 → `rag.insert()`
前端界面	Streamlit/Vue 快速搭建聊天 UI
权限控制	FastAPI 集成企业 LDAP/OAuth2
可观测性	记录 query 日志，分析“未命中问题”
容器化部署	Dockerfile，挂载 `./internal_kb` 为持久卷

在这里插入图片描述

结语：让知识流动起来

这个项目虽小，却完整覆盖了数据→知识→服务的闭环。更重要的是，它完全在您的掌控之下——无数据泄露风险，无 API 费用，无黑盒模型。

下一步，您可以：

将 ./internal_kb 目录纳入 Git（仅元数据，不含敏感内容）
添加每日增量更新脚本
接入企业通讯工具（如飞书机器人）

真正的智能，始于让已有知识变得可问、可信、可用。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

ABB工业机器人编程基础（十二）RobTarget 数据详解

DAMO开发者矩阵

自然语言处理实践

从智能客服到机器翻译，从情感分析到文本生成，NLP技术正深刻改变着我们的生活和工作方式。本文将带您走进NLP的实践世界，探索其背后的技术逻辑与应用场景，为读者揭开这一领域的神秘面纱。例如，电商平台利用文本分类对用户评论进行情感分析，快速识别正面或负面评价，从而优化产品服务。实际应用中，企业常定制专属对话机器人，集成知识图谱以提升专业领域应答能力，例如医疗咨询或法律助手。随着多模态技术和伦理框架的完

DAMO开发者矩阵

行业瞩目！慕尼黑国产连接器展台，中国星坤重磅亮相！

立足本届慕尼黑展会规模领先的国产连接器特装展台，中国星坤将持续以自主创新为内核，打磨高可靠互连产品，稳步拓宽全球市场版图，助力国产元器件品牌站上世界产业舞台中央，与广大合作伙伴携手共赢智能互连新时代。适配 800V 高压整车平台，展出电池包连接器、车载高压接插件、充电互连组件，具备耐高温、抗震动、高绝缘、高安全防护特性，支持整车轻量化专属定制开发。重载防水连接器、端子台、浮动板对板、储能 PACK