LLM 系统设计面试指南
2025 年,高级 AI 职位的"系统设计"面试环节已经远超简单的负载均衡器和数据库设计。面试官现在期望你在保持生产级可靠性和低延迟的同时,设计能处理大型语言模型(LLM)非确定性特性的系统。
挑战不仅仅在于"调用一个 API"——而在于围绕它构建整个基础设施。
2025 年 AI 架构技术栈
现代 LLM 系统设计聚焦于三个核心支柱:推理优化、检索策略和可观测性。
需要精通的核心组件
- 向量存储编排: 不只是选择数据库,你还必须讨论索引策略(HNSW vs. IVF)以及混合搜索(语义 + 关键词)。
- 上下文管理: 如何在不导致成本飙升的情况下处理长上下文窗口?讨论滑动窗口和摘要层是关键。
- Agentic 工作流: 从线性 RAG 转向多智能体循环,让模型能够使用工具并自我纠正。
对比:Web 系统设计 vs. LLM 系统设计
| 维度 | 经典 Web 系统设计 | LLM 系统设计(2025) |
|---|---|---|
| 瓶颈 | 网络 I/O / 数据库锁 | GPU 内存 / 推理延迟 |
| 数据流 | 结构化 CRUD 操作 | 非结构化嵌入与 RAG |
| 可扩展性 | 水平 Pod 自动扩缩 | 基于 Token 的速率限制与 KV 缓存 |
| 可靠性 | 99.99% 正常运行时间(心跳检测) | 基础性验证与幻觉检查 |
| 成本模型 | 带宽与存储 | Token 使用量与模型分级 |
关键设计模式:“护栏"层
2025 年,设计 AI 系统离不开安全与质量层。在面试中,明确提出一个位于 LLM 与用户之间的"护栏服务”。