PinnedPinnedPrivate
motherduck.com

MotherDuck:大数据已死

“大数据”被夸大成了普遍问题,真实的数据工作多数受限于组织、建模和工作负载,而不是数据规模。十多年来,供应商用数据爆炸叙事推动企业购买可横向扩展的系统,但大量企业的数据仓库其实小于 1TB,许多活跃客户的数据量甚至只有几十 GB。数据规模呈幂律分布,少数巨头拥有 PB 级数据,并不能代表大多数组织。更关键的是,存储增长不等于计算需求增长:历史数据会不断累积,但分析通常只看最近时间段或聚合结果,查询的大多是小表、小窗口和小样本。云平台把存储与计算分离后,企业更容易把旧数据都留在对象存储里,于是存储量暴涨,却不意味着每次分析都需要分布式计算。真正的问题往往是数据是否清晰、业务问题是否明确、查询是否服务决策。把所有困难都归因于“大”,会让团队忽视更普通也更重要的事实:多数分析任务用简单、单机、低摩擦的工具已经足够。