LLM 如何根据产品需求选择数据库 —— 以及常见失败原因

Q: 我应把 LLM 的数据库推荐视为最终决定吗？

把它当作一个 假设 和用来加速头脑风暴的工具。用它来揭示权衡点、遗漏的需求和第一轮候选清单——然后和团队、真实约束以及快速概念验证一起验证。

Q: 为什么 LLM 给出的数据库选择听起来很自信即便并不确定？

因为你的提示通常缺少硬约束。模型常会： - 推断（或猜测）流量、延迟和数据规模 - 将“扩展”或“实时”等关键词映射到流行模式 - 即便假设未明确说明，也会使用自信的措辞 在它给出具体数据库前，要求它明确列出假设。

Q: 我在提示中应该包含哪些输入才能得到有用的推荐？

提供 数字和示例 ，不要只用形容词： - 峰值/平均读写 QPS - p95/p99 延迟目标（读和写的区别） - 当前数据集大小、增长率、保留策略 - 5–10 个代表性查询和写入模式 - 一致性/事务需求（哪些操作必须原子性执行？） 如果你不能给出这些，推荐大多是靠猜测。

Q: LLM 在数据库选择中如何发挥作用而不取代工程判断？

把它用来生成需求清单和候选方案，然后 强制做一次基于模式的架构验证 ： 1. 草拟实体与关系（表/集合，主键）。 2. 写出驱动真实工作流的关键查询。 3. 验证数据库能否自然地（无需非常规反范式或多步应用级联）表达这些查询。

Q: “为扩展使用 NoSQL”是个可靠的经验法则吗？

“扩展”不是数据库类型，而是你要扩展的对象。 很多应用遇到瓶颈的原因是： - 缺少索引或低效查询 - 无界的数据保留策略 - 热分区或访问倾斜 - 缓存不当或资源配置不足 一个设计良好的关系型系统在很多场景下能扩展得很远，切换数据库并非总是正确的修复办法。

Q: LLM 建议中最常见的关于一致性/事务的盲点是什么？

它们在建议中常常 规格不足 。 如果你的产品需要多步更新要么全部成功要么全部失败（支付、库存、预订等），你需要明确支持： - 事务/原子性保证 - 并发控制与冲突处理 - 安全的重试与幂等性机制 如果 LLM 没有询问这些问题，请在采纳建议前提出异议。

Q: 我如何及早发现数据模型不匹配（SQL vs 文档等）？

因为数据关系决定查询复杂度。 如果你经常需要跨实体查询（过滤、连接、按多个属性聚合），文档模型可能会迫使你： - 大量反范式（数据重复） - 在应用层模拟连接 这会增加写入放大、导致一致性风险并加重运维复杂性。

Q: 我如何验证像“数据库 X 很快”之类的断言？

性能取决于你的工作负载、模式、索引和并发，而不是品牌名。 做一个小型、面向产品的测试： - 选择 3–5 个关键查询 + 1–2 个写入模式（稳定 + 突发） - 加载足够超过内存的数据并包含倾斜/热键 - 在真实并发下测量 p50/p95/p99 延迟 - 比较不同索引方案并记录写入开销

Q: 什么时候多数据库架构（Postgres + Redis + Elasticsearch + …）才合理？

因为每增加一个数据存储都会成倍增加运维面： - 部署、监控、备份、恢复演练 - 迁移和访问控制 - 跨存储的数据同步、重试与回填 先用一个能覆盖核心事务与报表的通用数据库。只有在能指出当前系统未满足的、可度量的需求时，才考虑添加专用存储。

Q: LLM 常忽略哪些运维与成本细节？

要求包含真实的乘数项： - 存储增长 + 保留策略 - 为 HA/读扩展所需的副本 - IOPS/吞吐量计价与突发限制 - 人员值班、事件响应、支持计划 还需要一份运维计划：备份/恢复步骤、RPO/RTO 目标，以及如何发现慢查询与容量问题。

登录开始使用

LLM 如何根据产品需求选择数据库 —— 以及常见失败原因 | Koder.ai

为什么大家用 LLM 来选数据库

团队之所以请 LLM 推荐数据库，和让它起草邮件或总结需求文档的理由一样：比从零开始快。当你面对一打选择——PostgreSQL、DynamoDB、MongoDB、Elasticsearch、Redis、ClickHouse 等——LLM 可以迅速产出候选清单、列出权衡，并提供一个“足够好”的出发点供团队讨论。

如果使用得当，这也会迫使你把可能会含糊其辞的需求讲清楚。

“从产品需求推断”到底意味着什么

简单来说，你描述产品（“带有列表和聊天的市场”）、数据（“用户、订单、消息”）和约束（“必须扩展到 100 万用户，需要快速搜索，低运维成本”）。LLM 然后将这些需求映射到常见架构模式：

关系型数据 → SQL
灵活的文档 → 文档存储
分析 → 列式仓库
缓存 → 键值存储
全文搜索 → 搜索引擎

在早期，这种映射确实很有用，尤其是替代方案是面对空白页时。

建议 vs 最终架构决策

LLM 的推荐最好被视为一个假设，而不是架构裁决。它能帮助你：

提出需要回答的关键问题
早期识别明显的不匹配
起草一个你会和团队一起完善的决策备忘

但除非你提供详细输入，否则它无法知道你的真实流量形态、数据增长、团队技能、供应商约束或运维容忍度——即便给出这些，它也不会跑生产级别的测试。

可能出错的地方（以及如何降低风险）

LLM 往往以可预测的方式失败：依赖流行的经验法则、猜测缺失的细节、忽视事务与一致性需求、假定性能无需基准测试、低估成本与运维负担。

本文余下部分解析这些失败模式，并给出一份实用检查表，在你决定采用某个栈之前验证任何 LLM 的数据库建议。

LLM 如何把需求变成数据库选择

当你请求 LLM “推荐一个数据库”时，它并不是像工程师那样评估数据库。它把你的提示转换成推断出来的需求，匹配它见过的模式，然后产出一份读起来像决策的答案。

它把哪些当作输入

输入不仅仅是你明确提供的细节（流量、数据规模、一致性需求）。模型还会使用：

你提示的措辞与结构（你强调什么、忽略什么）
你的产品描述（它会把“聊天”、“分析”、“支付”、“物联网”等映射到典型架构）
陈述的约束（云服务商、预算、团队技能、截止时间）
从训练数据学到的“过去模式”（常见栈、流行博客建议、常见组合）

因为很多提示不完整，模型常常带着隐含假设去填补空白——有时正确，有时不然。

它产出的内容

大多数响应落在三层：

一个类别选择（SQL vs NoSQL；关系型 vs 文档型 vs 键值）
具体引擎（PostgreSQL、MySQL、DynamoDB、MongoDB、BigQuery、Redis）
一堆“最佳实践”（索引、缓存、只读副本、分片、事件溯源）

结果会让人觉得是明确的推荐，但通常只是对常规选项的结构化总结。

为什么它听起来很自信却不一定有把握

LLM 会从示例中泛化；它不会运行你的工作负载、检查你的模式或基准查询。如果训练数据把“高扩展”强烈地关联到“NoSQL”，你可能会得到这个答案，即便一个调优良好的 SQL 系统更适合。

自信的措辞是一种风格，不是度量。除非模型明确陈述假设（“我假设主要是追加写入并且可以接受最终一致性”），否则其确定性可能掩盖了真实的不确定性：缺失的输入和未经测试的性能断言。

“产品需求”实际上包含什么

当人们说“根据产品需求选择数据库”时，他们通常指的不仅仅是“我们存用户和订单”。好的数据库选择反映的是产品在做什么、在压力下如何表现，以及团队真实能运行什么。

功能性需求（你要构建什么）

从产品形态开始：核心实体、它们如何关联、哪些查询驱动真实工作流。

你是否需要跨许多属性做临时过滤与报表？是否依赖跨关系的连接？是主要按 ID 读取单条记录，还是按时间范围扫描？这些细节决定 SQL 表、文档模型、宽列模式或搜索索引哪种更合适。

非功能性需求（它必须如何表现）

选择数据库时约束与特性同等重要：

关键用户操作的延迟目标（p95/p99）
可用性与恢复要求（可接受的停机时间是多少？）
读写比例与峰值流量模式
6–24 个月内数据量与流量的增长速率

能容忍几秒延迟的系统，与必须在 200ms 内确认支付的系统，截然不同。

运维需求（你能运行什么）

一个“完美”的数据模型如果运维不匹配也会失败：

备份与恢复演练
迁移与 schema 演进
值班负担与人员配置（是否有 DBA 经验或仅靠通用工程师）
供应商限制：托管配额、区域支持、维护窗口

合规性需求（你必须证明的东西）

合规要求会迅速缩小选择范围：

数据保留与删除保证
审计痕迹（谁在何时更改了什么）
访问控制、加密与职责分离

LLM 常常从模糊的提示中推断这些需求——明确说明这些需求往往是推荐有用与否的分水岭。

LLM 推理何时偏离现实

LLM 常常把几个陈述的需求（“实时”、“可扩展”、“灵活 schema”）映射到熟悉的类别标签（“用 NoSQL”、“用 Postgres”）。这在头脑风暴很有用，但当模型把数据库特性当成产品需求时，推理就会偏离。

特性 ≠ 产品需求

一个特性列表（事务、JSON 支持、全文搜索、分片）听起来很具体，但产品需求通常描述结果：可接受的延迟、正确性规则、可审计性、团队技能、迁移约束与预算。

LLM 可以“勾选”特性却忽视了产品需要可预期的支持工作流、成熟生态或公司允许的托管选项。

检查表无法反映数据与查询的形状

很多建议假设数据库能存储某种数据类型就足够了。更难的部分是数据与查询之间的关系：你如何过滤、连接、排序与聚合——在怎样的规模与更新模式下。

两个都“存储用户事件”的系统会在以下需求不同的情况下表现截然不同：

跨多个维度做临时分析
对单用户时间线有严格排序要求
跨实体约束（如库存不能低于零）

性能是实现细节，不是承诺

LLM 可能会说“数据库 X 很快”，但性能取决于 schema 选择、索引、分区、查询模式与并发。小的改变——比如添加组合索引或避免无界扫描——就能改变结果。在没有代表性数据与查询的情况下，“快”只是猜测。

运维契合度可能胜过纯能力

即便两个数据库技术上都能满足需求，团队更容易可靠运行的那个通常更合适：备份与恢复时间、监控、值班负担、供应商锁定与成本可预测性、合规性。

LLM 往往在没有你明确提供这些信息时低估这些现实因素。

失败模式 1：从流行经验法则过度泛化

LLM 常常用广泛传播的“规则”来回答数据库问题，比如“NoSQL 更易扩展”或“Postgres 无所不能”。这些捷径听起来自信，但把产品的复杂现实扁平化了：你存什么、如何查询、以及出问题时失败的样子。

典型捷径：“为扩展选 NoSQL”

常见模式是，如果你提到增长、高流量或“大数据”，模型就把最安全的选择设为 NoSQL。问题在于“扩展”很少是第一个未解的问题。很多应用的瓶颈源于：

缺少索引或低效查询
无界的数据保留
缓存策略不当
资源配置不足

在这些情况下，换数据库并不能解决根本问题——只是换了工具。

被忽视的：连接、事务与严格正确性

经验法则也会掩盖深刻影响数据库适配性的需求。LLM 可能推荐一个文档存储，同时忽略你需要：

必须全部成功或全部回滚的多步骤更新（事务）
对余额、库存或预订的严格正确性（强一致性）
跨实体拼接数据的报表查询（复杂连接）

这些需求并不自动排除 NoSQL，但会提高门槛：你可能需要精心的 schema 设计、额外的应用逻辑或不同的权衡，而非 LLM 所暗示的简单方案。

为什么这个失败代价高昂

当推荐建立在口号而非你的真实访问模式上时，风险不仅是次优选择——而是日后昂贵的重构。数据迁移、重写查询与团队再培训往往在你最不想要停机的时候发生。

把“规则”当作问题的触发，而非答案。问清楚你在扩展什么（读、写、分析）、什么必须正确，以及哪些查询不可避免。

失败模式 2：缺失或模糊的输入

用规划明确输入

在命名数据库之前，使用规划模式编写需求和关键查询。

试用规划模式

LLM 善于把简短描述变成自信的数据库选择——但它无法凭空创造决定性约束。当输入模糊时，推荐就变成了披着答案外衣的猜测。

“实时”和“高流量”的陷阱

“实时”、“高流量”、“可扩展”或“企业级”这些词并不直接映射到具体数据库。“实时”对某个仪表盘可能意味着“5 秒内更新”，对交易告警可能意味着“端到端 <50ms”。“高流量”可能是每秒 200 次请求，也可能是 20 万次。

没有硬数字，LLM 可能默认流行启发（例如“为扩展用 NoSQL”，“Postgres 适用于一切”），即便真实需求指向别处。

改变答案的缺失数字

如果你不提供以下信息，模型会悄然假设：

读/写 QPS（峰值 vs 平均）
p95/p99 延迟目标（是否同时适用于读和写）
当前数据集大小、增长率、保留策略
对象大小（宽行？大二进制？）与索引基数

你忘记提到的隐藏查询模式

最具破坏性的遗漏通常与查询形状有关：

报表与分析（group-by、按时间分桶）
在许多字段上进行过滤/排序
用于支持与调试的临时查询
回填、重处理，以及“显示某用户的所有内容”这类查询

擅长键值访问的数据库，在产品突然需要灵活过滤和可靠报表时可能举步维艰。

实用提示：在推荐前强制澄清

把“数据库选择”当作两步：先收集约束，再推荐。一个好的提示（或内部检查表）应要求在点名任何引擎前给出数字与示例查询。

失败模式 3：数据模型不匹配

LLM 常犯的错误是推荐一个数据库“类别”（SQL、文档、图、宽列）而不验证产品数据是否真正契合该模型。结果是选择了一个听起来适合但会与信息结构相冲突的存储。

不匹配通常从关系开始

LLM 常常忽略关系深度与基数：一对多 vs 多对多、嵌套拥有、共享实体以及用户在它们间的常见遍历路径。

文档数据库对“用户资料”看起来很自然，但如果你的产品经常做跨实体查询——“过去 7 天内任一成员角色变更的所有项目”或“按合规状态筛选后所有团队的前 20 个标签”——你不再只是取回一个文档，而是在做连接。

当这些连接频繁时，你要么：

在应用层模拟连接（额外往返与复杂性），要么
大量反范式（在文档间复制数据）

反范式的隐性成本

数据复制不是免费的。它增加写放大，使更新更难保持一致，增加审计难度，并可能产生微妙的错误（“哪个副本是事实来源？”）。LLM 有时把反范式推荐当作一次性的建模选择，而非持续的运维负担。

健康检查：候选模式 + 关键查询

在接受 LLM 推荐前，强制做一个快速现实检验：

草拟一个候选模式（表/集合/节点），标明主键和几个关键关系。
写出 5–10 个产品必须支持的“关键查询”（过滤、排序、聚合、跨实体查找）。
问自己：这个数据库能否自然且高效地表达这些查询，而无需奇迹般的反范式或多步应用连接？

如果模型与查询不一致，那这个推荐就是噪声——即便它听起来很自信。

失败模式 4：事务与一致性盲点

通过部署验证性能

部署并运行小规模负载测试，以提前验证 p95 和 p99 指标。

立即部署

LLM 常把“一致性”当成偏好而非产品约束。这会导致看起来合理的建议（“用可扩展的 NoSQL 存储”）在真实用户操作需要原子、多步更新时崩溃。

原子性缺口：必须一起成功的多步更新

很多产品流程不是单次写操作——而是必须全部成功或全部失败的若干写操作。

支付是经典例子：创建收费、标记发票已付、减少账户余额并追加审计记录。如果任何一步在前一步成功后失败，你就制造了不一致，用户和财务会注意到。

库存类似：预留库存、创建订单、更新可用量。没有事务，在高峰期你可能会超卖或遇到部分失败。

最终一致性并不等于“用户不会介意”

LLM 有时把最终一致性等同于“界面可以稍后刷新”。问题是商业动作是否能容忍分叉。

预订冲突就是说明：两个用户同时预订同一时段。如果系统接受了两个并“事后解决”，你并没有提升用户体验——你在制造客服问题和退款流程。

缺失的运作语义：幂等、重试与恰好一次

即便数据库支持事务，外围工作流也需要明确语义：

幂等键，以防“支付”被点击两次造成重复扣费。
可安全重试，在部分失败与超时下不会导致副作用累加。
恰好一次语义（或明确采用“至少一次 + 去重”）用于事件、Webhook 与后台任务。

当 LLM 忽视这些时，它可能会推荐需要专家级分布式系统工程才能达到“正常”产品正确性的架构。

失败模式 5：没有测试的性能假设

LLM 常把某个数据库推荐为“快”，仿佛速度是引擎的固有属性。实际上，性能是工作负载、模式、索引、硬件与运维配置之间的相互作用。

在无工作负载语境下的“快”

如果你没明确是什么需要变快——单行读取的 p99 延迟、批量分析、摄取吞吐、还是首字节时间——LLM 可能会默认流行选择。

两个都声称“低延迟”的产品也可能有截然相反的访问模式：一个是键值查找；另一个是搜索 + 多字段过滤 + 排序。

隐含约束：索引、放大与热点分区

当模型忽略以下问题时，性能建议就会偏离：

索引权衡：二级索引加速读取但增加写入成本和存储。一些系统对复合索引、索引构建时间或在线索引变更有约束。
写放大：基于 LSM 的引擎会把“简单写入”变成大量后端压缩工作，这在持续摄入下会影响稳定性。
热点分区：即便做了分片或分区，如果流量集中在小范围键（如最新租户、今天的日期、一个热门条目），仍会成瓶颈。

缓存行为与查询形状

LLM 可能假设缓存可以救场，但缓存只对可预测的访问模式有效。扫描大范围、按非索引字段排序或临时过滤的查询可能命中不到缓存，从而压垮磁盘/CPU。

查询形状的小改动（例如 OFFSET 分页 vs 基于键的分页）就能翻转性能结果。

一份简短的基准计划（比猜测好）

别信任泛泛的“X 比 Y 快”，做一个轻量、面向产品的测试：

选 3–5 个代表性查询（包括最坏情况的过滤和排序）和 1–2 个写模式（稳定 + 突发）。
使用现实的数据量（至少超过内存；包含倾斜与热点键）。
分别测量 p50/p95/p99 延迟 与读写吞吐。
测试索引变体（无索引、最小索引、“理想”索引）并记录写入开销。
在接近预期峰值的并发下运行，观察 CPU、磁盘、压缩/清理与锁/事务指标。

基准不能预测一切，但能快速揭示 LLM 的性能假设是否贴近现实。

失败模式 6：运维与成本的盲点

LLM 往往在纸面上优化匹配度（数据模型、查询模式、可扩展性流行语），却忽视让数据库在生产中“能活下去”的要素：运维、故障恢复以及你每月要付的真实账单。

隐形工作：备份、恢复与迁移

数据库推荐不完整，除非它回答这些基础问题：如何做一致性备份？恢复速度有多快？跨区域的灾难恢复计划是什么？

LLM 的建议经常跳过这些细节，或假设“内置支持”而未查看细则。

迁移是另一个盲区。后来更换数据库可能昂贵且风险高（schema 变更、双写、回填、查询重写）。如果产品可能演化，"易于起步"不足以令人放心——你需要现实可行的迁移路径。

可观测性是产品的一部分

团队不仅需要一个数据库——他们需要能运维它。

如果建议忽略慢查询日志、指标、仪表盘、追踪钩子与告警，你可能要等到用户抱怨时才发现问题。运维工具在托管与自托管、不同供应商之间差别巨大。

总成本不仅仅是小时费率

LLM 往往低估成本，因为只看了实例大小而忘了乘数：

存储增长与保留策略
IOPS/吞吐定价与突发限制
为读扩展/高可用的副本成本
值班时间、事件响应与支持计划

将数据库与团队匹配

一个“最佳”数据库但你的团队无法自信地运行它，通常不是最优。推荐应与你的团队技能、支持期望与合规需求对齐——否则运维风险会成为主导成本。

失败模式 7：过度复杂的多数据库设计

安全迭代架构

通过快照、回滚和快速迭代，安全地试验迁移。

使用快照

LLM 有时会试图“把所有问题都一次性解决”，给出这样的栈：Postgres 处理事务，Redis 做缓存，Elasticsearch 提供搜索，Kafka + ClickHouse 做分析，再加上一个图数据库“以防万一”。这听上去很厉害，但经常是过早设计，带来比价值更多的工作——尤其在产品早期。

建议出错的原因

多数据库设计看起来像对冲：每个工具在某件事上是“最优”。但隐含成本是：每增加一个数据存储都会增加部署、监控、备份、迁移、访问控制、事故响应与新的故障模式。

团队于是把时间花在维护这些管道上，而不是交付产品功能。

何时多存储是合理的

当且仅当有明确、经过衡量的需求且主库无法在不承受不可接受痛苦的情况下满足时，第二（或第三）数据库才合理，例如：

搜索质量/延迟超出主库能承受的范围
分析工作量显著影响事务性能
扩展模式需要不同的存储或索引模型

如果你不能指出具体查询、延迟目标、成本约束或运维风险驱动分离，那很可能为时过早。

跨存储一致性与复制陷阱

数据一旦生活在多个存储中，你就面对艰难问题：哪个是事实来源？如何在重试、部分失败与回填时保持一致？

数据复制也意味着 Bug 的复制——过时的搜索结果、不一致的用户计数以及“看哪个仪表盘取决于哪个数据源”的会议。

实用决策规则

从一个能处理核心事务与报表的通用数据库开始。只有在你能 (1) 证明当前系统在某个需求上失败并且 (2) 定义好同步、一致性与恢复的归属模型时，才添加专用存储。

保留逃生舱，而不是复杂性。

验证 LLM 数据库建议的实用检查表

LLM 可以帮你生成第一版数据库推荐，但你应把它当成假设。用下面的检查表在承诺投入前验证（或拒绝）该建议。

1) 澄清输入（写下来）

把提示转换成明确的需求。如果你写不清楚，模型很可能是在猜。

产品的核心工作负载是什么：OLTP、分析、搜索、时序、消息？
预期规模：用户数、写/秒、读/秒、存储增长、峰均比。
非功能需求：正常运行时间、多区域、合规、预算、团队技能。

2) 建模数据与关键查询

草拟真实实体与关系（哪怕是草图）。然后列出你的顶级查询与访问模式。

前 10 个读写是什么？
哪些查询必须在峰值时快速响应？
哪些字段必须被索引、连接、聚合或搜索？

3) 定义验收测试（成功标准）

把“要快且可靠”转成可测量的测试。

关键查询的延迟与吞吐目标（p95/p99）
一致性与事务要求（哪些必须原子？）
失败场景：节点丢失、网络分区、区域故障转移、备份/恢复时间

4) 做轻量级概念验证（POC）

使用真实的数据形状和查询混合，而非玩具示例。加载代表性数据集，在负载下运行查询并测量。

如果 LLM 提出多个数据库，先测试最简单的单数据库选项，然后证明为何需要拆分。

一个加速此步骤的实用方法是只对驱动数据库选择的那一片产品进行原型化（几个核心实体 + 关键端点 + 重要查询）。平台像 Koder.ai 可以在这里帮助：你可以在聊天中描述工作流，生成一个可运行的 web/后端应用（常见为 React + Go + PostgreSQL），并在细化模式、索引与查询形态时快速迭代。类似规划模式、快照与回滚的功能在实验数据模型与迁移时非常有用。

5) 记录决策与“触发变更”的指标

写一段简短理由：为什么该数据库适合该工作负载、你接受了哪些权衡，以及哪些指标会触发后续重新评估（例如：持续写入增长、新的查询类型、多区域需求、成本阈值）。

常见问题

我应把 LLM 的数据库推荐视为最终决定吗？

把它当作一个假设和用来加速头脑风暴的工具。用它来揭示权衡点、遗漏的需求和第一轮候选清单——然后和团队、真实约束以及快速概念验证一起验证。

为什么 LLM 给出的数据库选择听起来很自信即便并不确定？

因为你的提示通常缺少硬约束。模型常会：

推断（或猜测）流量、延迟和数据规模
将“扩展”或“实时”等关键词映射到流行模式
即便假设未明确说明，也会使用自信的措辞

在它给出具体数据库前，要求它明确列出假设。

我在提示中应该包含哪些输入才能得到有用的推荐？

提供数字和示例，不要只用形容词：

峰值/平均读写 QPS
p95/p99 延迟目标（读和写的区别）
当前数据集大小、增长率、保留策略
5–10 个代表性查询和写入模式
一致性/事务需求（哪些操作必须原子性执行？）

如果你不能给出这些，推荐大多是靠猜测。

LLM 在数据库选择中如何发挥作用而不取代工程判断？

把它用来生成需求清单和候选方案，然后强制做一次基于模式的架构验证：

草拟实体与关系（表/集合，主键）。
写出驱动真实工作流的关键查询。
验证数据库能否自然地（无需非常规反范式或多步应用级联）表达这些查询。

“为扩展使用 NoSQL”是个可靠的经验法则吗？

“扩展”不是数据库类型，而是你要扩展的对象。

很多应用遇到瓶颈的原因是：

缺少索引或低效查询
无界的数据保留策略
热分区或访问倾斜
缓存不当或资源配置不足

一个设计良好的关系型系统在很多场景下能扩展得很远，切换数据库并非总是正确的修复办法。

LLM 建议中最常见的关于一致性/事务的盲点是什么？

它们在建议中常常规格不足。

如果你的产品需要多步更新要么全部成功要么全部失败（支付、库存、预订等），你需要明确支持：

事务/原子性保证
并发控制与冲突处理
安全的重试与幂等性机制

如果 LLM 没有询问这些问题，请在采纳建议前提出异议。

我如何及早发现数据模型不匹配（SQL vs 文档等）？

因为数据关系决定查询复杂度。

如果你经常需要跨实体查询（过滤、连接、按多个属性聚合），文档模型可能会迫使你：

大量反范式（数据重复）
在应用层模拟连接

这会增加写入放大、导致一致性风险并加重运维复杂性。

我如何验证像“数据库 X 很快”之类的断言？

性能取决于你的工作负载、模式、索引和并发，而不是品牌名。

做一个小型、面向产品的测试：

选择 3–5 个关键查询 + 1–2 个写入模式（稳定 + 突发）
加载足够超过内存的数据并包含倾斜/热键
在真实并发下测量 p50/p95/p99 延迟
比较不同索引方案并记录写入开销

什么时候多数据库架构（Postgres + Redis + Elasticsearch + …）才合理？

因为每增加一个数据存储都会成倍增加运维面：

部署、监控、备份、恢复演练
迁移和访问控制
跨存储的数据同步、重试与回填

先用一个能覆盖核心事务与报表的通用数据库。只有在能指出当前系统未满足的、可度量的需求时，才考虑添加专用存储。

LLM 常忽略哪些运维与成本细节？

要求包含真实的乘数项：

存储增长 + 保留策略
为 HA/读扩展所需的副本
IOPS/吞吐量计价与突发限制
人员值班、事件响应、支持计划