自省 自行 自醒

PG 家族的另一面:Greenplum 生态的裂变与传承

Word count: 1.2kReading time: 4 min
2025/10/24
loading

前言

由于 PostgreSQL 协议开放、生态繁荣、架构优雅,全球范围内涌现出了大量基于 PostgreSQL 衍生的数据库产品,国内也有大量国产数据库基于 PG 高屋建瓴,开枝散叶。2025 年初,Broadcom 宣布 Greenplum 不再完全开源,一石激起千层浪,在社区中引起了强烈反响,这也直接催生了多个继任者项目和国产替代路线的加速发展。Greenplum 生态虽因闭源而一度受挫,但它的思想与架构早已渗透进全球无数数据仓库系统中。正如 PostgreSQL 是关系数据库的坚实基石,Greenplum 也已成为 MPP 数仓的思想源泉。最近正好也在折腾,简单整理总结一下,以下内容为笔者一家之词,请理想看待,不喜勿喷。

国内版图

在国内,基于 Greenplum 的产品数量挺多。按照产品性质,我将其分为如下几类:

  1. 完全托管型
  2. 行业化定制型
  3. 自主演化型
  4. 云原生再造型

承接与兼容类

  • Apache Cloudberry:基于 GP7 分叉而来,目标是与原版 Greenplum 保持原生兼容,成为社区接棒者。Cloudberry 目前正在 Apache 基金会孵化,社区非常活跃,也已有国内中文交流群与不定期的技术分享直播,笔者一直关注中。官网:https://cloudberrydb.org/
  • AnalyticDB for PG:全托管版 Greenplum,结合流计算与湖仓一体,创新性地实现了 Multi-Master 架构,解决了原生 GP 单点瓶颈问题。目前已成为阿里云核心分析型数据库产品之一。

行业定制型

  • LightDB-AP:恒生电子系,金金融场景专用 MPP 数据库,兼容 Oracle 与 Greenplum SQL,强化安全性与审计能力。常见于证券、基金等交易数据分析系统。
  • QianBaseMPP:贵州易鲸捷,面向金融与政务市场的 MPP 数据库,强调分布式事务和多副本高可用
  • SeaSQL DWS:海盒 MPP 数据库,SeaboxMPP,在政企行业项目中被广泛采用

云原生与混合数仓型

  • FusionDB:百度智能云,基于开源 Greenplum 架构开发,结合自研 Fengine 执行引擎与 GP 优化器,支持 OLAP + ML 混合负载
  • HashData:北京酷克,云原生重构版本,采用存算分离与容器化调度架构,早期从 GP 迁移而来,是国内最早实现云上 Greenplum 化的团队之一
  • PieCloudDB:杭州拓数派,云虚拟数仓,提供 SaaS 化 MPP 能力,核心理念是”数据仓库上云虚拟化”,兼容 Greenplum SQL 与生态工具

自主演化型

  • YMatrix:定位为“下一代超融合数仓”,融合 时序 + 事务 + AP + TP + AI。源自 Greenplum 架构,但进行了深度内核重构:引入行列混存、TDE 加密、Mars3 压缩引擎、pgvector 支持、MXGate 多源访问、独立 HA 子系统等。可视为国内 Greenplum 生态的深度演化代表。
  • OushuDB:最早由 HAWQ(Greenplum on Hadoop)衍生而来,进一步演化为云原生分布式 SQL 引擎
  • KADB:早期 MPP 方向探索版,演进为自有产品
  • FUMUDB:基于 Greenplum 的政企行业 MPP 产品,据公开资料介绍具备强分析性能

国外版图

国外的 Greenplum 生态主要沿着两条路径发展:社区延续线 (从开源 GP 分叉) 和 商业强化线 (企业定制版)。

社区延续线

  • Broadcom Greenplum (原版):由 VMware / Pivotal / Broadcom 维护。2025 年起闭源转向商业发行,标志开源时代的结束
  • WarehousePG(EDB):由 EnterpriseDB 于 2025 年发布的官方 Greenplum 分叉。定位为现代化开源数据仓库,基于 Greenplum 与 PostgreSQL,Apache 2.0 许可。官网:https://warehouse-pg.io
  • ArenadataDB:来自俄罗斯的商业版 Greenplum,拥有商业与社区双版本。适用于 PB 级数据仓储场景。最新版本仍基于 GP6 系,7.x 产品更新缓慢。
  • Greengage Database:开源社区版,面向大数据分析场景,特点是”基于 PostgreSQL + GP 优化器”的 MPP 执行引擎。最近在与国际友人聊天的时候,知悉了其架构和发展理念,笔者也挺关注,GitHub:https://github.com/GreengageDB/greengage

总结与趋势

Greenplum 作为 PostgreSQL 家族中最具代表性的分布式 MPP 架构,其生态已经在全球形成了”闭源收缩、国产崛起、社区重生”的三重趋势:

  1. 闭源收缩 (Broadcom):原版 Greenplum 商业化后,社区代码冻结,引发全球替代与分叉浪潮
  2. 社区重生 (Cloudberry / WarehousePG / Greengage):新一代开源分支正在接棒,目标是延续 Greenplum 的技术路线与生态兼容性
  3. 国产崛起 (YMatrix / HashData / FusionDB 等):在 MPP 与 HTAP 路线上不断演进

参考

https://www.aliyun.com/product/apsaradb/gpdb

https://github.com/GreengageDB/greengage

https://github.com/apache/cloudberry

CATALOG
  1. 1. 前言
  2. 2. 国内版图
    1. 2.1. 承接与兼容类
    2. 2.2. 行业定制型
    3. 2.3. 云原生与混合数仓型
    4. 2.4. 自主演化型
  3. 3. 国外版图
    1. 3.1. 社区延续线
  4. 4. 总结与趋势
  5. 5. 参考