中国场景推动分布式数据库立新标

发布时间:2024-12-31 04:16:39 来源: sp20241231

  购物、出行、旅游……人们产生的每一条数据,都存储在数据库里。数据库和芯片、操作系统并列现代信息技术领域的三大核心基础。“数字时代,数据是生存要素,数据库是基础支撑。”11月16日,在OceanBase2023年度发布会上,中国工程院院士沈昌祥表示,数据库的安全、稳定、可靠、性能、容量等对国计民生有根本性影响,也直接影响数字经济发展和数字化转型进程。

  在OceanBase2023年度发布会上,OceanBase CEO杨冰推出了分布式数据库性能新标准、容灾新标准、高可用新标准及架构新标准这四项新标准。

  OceanBase是由蚂蚁集团完全自主研发的国产原生分布式数据库,始创于2010年。根据《2022—2023中国平台软件市场研究年度报告》,在平台软件需求增长最快的金融行业,OceanBase在国产分布式数据库市场占有率上位列第一。“唯有完全自研才能真正掌握核心代码,主导产品发展,建成国际一流的数据库系统。”OceanBase首席科学家阳振坤表示。

  需求牵引OceanBase自主研发

  作为技术开发的重要领域,数据库具有诸多细分类别:关系型数据库、非关系型数据库、分布式数据库等。“数据库本身是一个场景驱动的技术。使用场景上没有形成代际跃迁的变化,也就无法对现有数据库的能力提升和架构升级产生太大推动力。”杨冰解释道。

  在中国,移动互联网技术的发展带来前所未有的海量数据和高并发场景。这催生了国内对分布式数据库的巨大需求,也为科技企业创造了打磨数据库产品的机会。

  时间回到2009年,“双十一”开幕,指数级增长的成交额给支撑用户抢购的交易系统带来了严峻的压力。这要求数据库不仅需要应对流量峰值、保障系统平稳运行,更要在降本增效的同时服务业务发展。当时,支付宝原本的集中式数据库系统已不足以应对上述情况,自研一款弹性伸缩、高可用的分布式数据库迫在眉睫。

  2010年,OceanBase研发项目正式启动。这个为支撑“双十一”爆炸式增长的海量数据而生的数据库,在十三年的自研过程中不断优化增强,在性能、高可用、性价比和单机分布式一体化架构上达到技术新高度。

  2022年,OceanBase发布业内首个单机分布式一体化架构的数据库——小鱼,这意味着用户不再需要在集中式和分布式数据库中“二选一”。小到个人站点、大到银行核心系统、巨型电商网站,用户都可以在业务发展的不同阶段选择适配自身的高性价比数据库方案。

  杨冰回忆,2020年是OceanBase商业化的第一年,那时,OceanBase只有18个客户。现在,70%的千亿资产规模以上的银行、75%的头部证券机构、65%的头部保险机构、45%的头部基金公司都选择了OceanBase进行核心系统升级。

  同时,OceanBase的应用场景也从金融行业向千行百业迈进。2021年12月28日,江西省成为全国首个接入养老保险全国统筹信息系统的省份,这背后就有OceanBase核心数据库的支撑。如今,江西省全省机关养老、企业养老、工伤保险等都在OceanBase上稳定运行。

  标准助推数据库能力升级

  “我们正在迈向基于数据的智能时代。这个过程中,数据的业务化是核心,数据库升级是关键。”国际数据公司(IDC)中国副总裁兼首席分析师武连峰表示。他分享了一组数据:到2027年全球新产生的数据将达到291ZB,80%的企业要管理10种类型的数据,全球每年因数据丢失和宕机导致的损失达到2万亿美元,100%的企业遇到数据库转移兼容问题……在武连峰看来,对下一代数据库至少有七大方面要求:弹性扩展、稳定可靠、极致性能、融合分析、平滑迁移、多模能力、AI融合。

  杨冰表示,中国数字经济的蓬勃发展催生了对分布式数据库的强大需求。这种需求牵引了OceanBase的自主研发,从而推动四项新标准的树立,以满足中国场景对分布式数据库的需求。

  在性能标准方面,OceanBase通过技术创新,使得数据库发生故障时的恢复时间短于8秒,让故障恢复进入秒级时代,并且能够做到数据不丢失。

  在容灾标准方面,OceanBase通过“三地五中心”的模式(即在三座城市部署五个机房,一旦其中一个或两个机房发生故障,底层技术系统会将故障城市的流量全部切换到运行正常的机房),可以在一分钟内自动恢复任意机房/城市级故障,做到零数据丢失。

  在高可用标准方面,OceanBase可以在高并发场景下按需实现不停机、不改应用的扩缩容和性能的线性增长,同时实现一份数据同时支持事务处理与实时分析。据了解,OceanBase也是首个刷新TPC-C、TPC-H“数据库世界杯”测试纪录的分布式数据库。

  在架构标准方面,OceanBase首创的单机分布式一体化架构,可使数据库满足用户在不同阶段的需求,减轻企业在业务发展过程中切换数据库的麻烦,一个数据库用到底。

  在数字化热潮中迎来新机遇

  在数据库的实际应用中,用户往往面临着业务规模增长、业务场景变多、IT架构应用日益复杂的情况,这会造成数据库越用越多、越用越复杂的后果。而一体化设计的数据库有望解决相关问题。

  杨冰介绍,一体化设计追求的是数据库在分布式架构下的极致性能与最佳成本。这种设计下的数据库,既能在同等硬件条件下拥有比主流单机数据库更好的性能,也能在分布式架构下达到事务处理和实时分析的最佳性能。此外,统一的技术栈也大大降低了管理、架构、存储、运维等成本。

  从2010年起,OceanBase就在逐步进行工程一体化、单机分布式一体化等一体化设计。现在,OceanBase可满足用户80%的数据库场景需求。OceanBase2023年度发布会上,OceanBase还发布了一体化数据库的首个长期支持版本OceanBase4.2.1LTS,这标志着OceanBase一体化数据库进入可规模化上线使用的长期支持阶段。

  国际咨询机构Forrester在《OceanBase总体经济影响报告》中发布的数据显示,采用OceanBase后,企业数据存储空间可节省约70%、服务器资源可节省约85%、平均每注册用户数据库成本可节省约50%。

  始于20世纪末的中国数据库产业,在近十年快速发展,并伴随数字化热潮迎来新机遇。《数据库发展研究报告(2023年)》显示,从市场来看,2022年全球数据库市场规模为833亿美元,其中中国数据库市场规模为59.7亿美元,折合人民币约为403.6亿元,占全球的7.2%。

  当下,人工智能爆火,海量数据价值的挖掘和应用,成为推动创新的重要力量。这对数据存储和计算的性能成本提出更高要求。

  “数据库既要功能强大,又要简单好用,还要有可扩展性。当然,最重要的是稳定,最好还能兼容。”在武连峰看来,基于数据的智能时代对数据库的要求越来越苛刻,这对国内数据库产品和数字科技企业来说既是挑战,更是前所未有的发展机遇。(科技日报记者 崔 爽) 【编辑:田博群】