【大模型LLM面试合集】RAG(Retrieval-Augmented Generation)技术全面解析
(2025–2026 面试高频版,覆盖从基础到前沿,适合大厂/算法岗/应用落地岗)

RAG 是当前 LLM 应用落地最核心、最实用的技术,几乎 90% 的企业级 GenAI 项目(企业知识库、客服机器人、法律/金融问答、代码助手等)都会用到。它直接解决了 LLM 两大硬伤:

  • 知识时效性:模型训练截止日期后知识无法更新
  • 幻觉(Hallucination):凭空编造事实

核心一句话
RAG = Retriever(检索) + Generator(生成)
在生成答案前,先从外部知识库检索相关文档 → 把文档作为上下文拼接进 Prompt → 再让 LLM 生成。

1. RAG 发展阶段(面试必背时间线)

阶段 时间 代表论文/工作 核心改进点 典型场景
Naive RAG 2020 Lewis et al. (Facebook) 简单检索+拼接 早期原型
Advanced RAG 2023–2024 LlamaIndex、LangChain 优化 Chunking + Metadata + Rerank + Query Rewrite 生产主流
Modular RAG 2024–2025 Microsoft, Alibaba 等 模块化、可插拔(Routing、Fusion、Verification) 复杂多源知识库
Graph RAG 2024– Microsoft GraphRAG 知识图谱 + 社区摘要 长文档、企业全量知识
Agentic RAG 2025– CrewAI、LangGraph、AutoGen 多 Agent 协作(Planner + Retriever + Critic) 复杂推理任务
Corrective RAG (CRAG) / Self-RAG 2024– 自纠正、自反思检索 检索质量评估 + 迭代检索 高可靠性场景

2. 经典 Naive RAG 完整流程(画图必备)

用户 Query
    ↓
Query Rewrite / HyDE(可选:生成假设文档)
    ↓
Embedding(双向编码器:BGE、E5、text-embedding-3-large 等)
    ↓
Vector DB 检索(Top-K:FAISS / Chroma / Milvus / Pinecone / Weaviate)
    ↓
(可选)Reranker(Cross-Encoder:bge-reranker、Cohere Rerank)
    ↓
Context 组装(Chunk 拼接 + Metadata + 排序)
    ↓
Prompt 构建(System + Few-shot + Context + Query)
    ↓
LLM 生成(GPT-4o / Claude-3.5 / Qwen2.5 / DeepSeek-R1 等)
    ↓
(可选)Post-process:Fact Check / Citation / Answer Verification

3. 关键技术组件详解(面试高频考点)

(1)Chunking 策略(最容易被问到)

  • 固定长度(500–1000 token)
  • 递归字符分割 + Semantic Chunking(基于 embedding 相似度)
  • 按标题/段落/表格结构分割(MarkdownHeaderTextSplitter)
  • 小 Chunk + Parent Document(LlamaIndex 经典)
  • 最佳实践:Chunk Size = 512~1024,Overlap = 100~200

(2)检索方式对比

类型 方法 优点 缺点 推荐场景
Sparse BM25 / TF-IDF 关键词精确 语义不理解 法律/代码
Dense Embedding 向量检索 语义理解强 计算量大 通用
Hybrid BM25 + Dense + Reciprocal Rank Fusion (RRF) 最稳 融合权重调参 生产首选
Multi-Query 生成多个 Query 检索 覆盖不同角度 延迟增加 模糊问题
Graph 知识图谱实体+关系 长上下文结构化 构建成本高 企业知识图谱

(3)Reranker
Cross-Encoder 比 Embedding 更准,但慢 10–100 倍 → 常用两阶段:先召回 Top-50,再重排 Top-10。

(4)Prompt 模板(必背)

你是一个专业助手。请严格基于以下上下文回答问题。
如果上下文无法回答,请说“根据提供的信息无法回答”。

上下文:
{context}

问题:{question}

答案:

4. 主流开源框架对比(2026 年最新)

框架 优势 劣势 适合人群
LangChain 生态最全、Agent 强 抽象层太深、调试难 快速原型
LlamaIndex RAG 专精、索引管理最强 Agent 较弱 知识库项目
Haystack 生产级、Pipeline 可视化 学习曲线陡 大规模部署
LangGraph Agentic RAG / 多 Agent 状态机 较新 复杂工作流
CrewAI 角色式多 Agent 控制力稍弱 自动化流程

5. 生产落地关键问题(大厂面试必问)

  • 如何解决检索噪声?→ Metadata Filtering + Rerank + Self-RAG
  • 知识更新?→ Incremental Indexing + Delete+Insert + Vector DB 的 upsert
  • 延迟优化?→ Cache(Query Cache + Embedding Cache)+ Async Retrieval + Quantized Embedding
  • 成本控制?→ 小模型 Embedding(BGE-small)+ 稀疏检索 + 只在必要时调用大模型
  • 评估指标(必须能说清楚):
    • Retrieval:Recall@K、NDCG、MRR
    • Generation:Faithfulness(事实一致性)、Answer Relevance、Context Relevance
    • 端到端:RAGAS、ARES、TruLens

RAGAS 核心公式(面试常问):
Faithfulness = 由 LLM 判断生成的句子中能被上下文支持的比例

6. 面试高频问题 Top 15(附简答)

  1. RAG 和 Fine-tuning 有什么区别?
    RAG:实时知识注入,低成本、可解释;Fine-tuning:领域能力内化,高成本、难更新。

  2. 为什么需要 Reranker?
    Embedding 是双塔模型,语义匹配但不精确;Cross-Encoder 是单塔,更准但慢。

  3. Chunk 太小/太大各有什么问题?
    太小:丢失上下文;太大:超过上下文窗口 + 稀释相关信息。

  4. 如何做多模态 RAG?
    ColPali / LLaVA + 多模态 Embedding + 图文联合检索。

  5. GraphRAG 和 Naive RAG 区别?
    GraphRAG 对整个知识库构建图谱 → 生成社区摘要 → 检索摘要而非原始 Chunk,适合全局理解。

  6. 如何防止 RAG 还是幻觉?
    Self-RAG / CRAG / Citation + LLM-as-Judge 后验校验。

7. 推荐学习路径(1 周速成面试)

  • Day 1–2:LangChain/LlamaIndex 官方 RAG 教程 + 跑通本地 PDF 问答
  • Day 3:读《Retrieval-Augmented Generation for Large Language Models: A Survey》(2024 最新综述)
  • Day 4:实现 Hybrid Search + Rerank
  • Day 5:GraphRAG 官方 Demo
  • Day 6:RAGAS 评估 + TruLens 可视化
  • Day 7:刷 LeetCode-style RAG 题 + 准备上面 15 个问题

想看完整代码(LangChain + BGE + Milvus + Rerank 的生产模板)、GraphRAG 详细实现RAG vs Fine-tuning 成本对比表2025 年最新论文解读,或者某个具体框架的深度拆解,直接告诉我,我立刻给你补全!

面试加油,你已经比 80% 的人准备得更充分了!🚀

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐