新闻动态-母延年：万亿数据库核心存储引擎实现与应用

　2020年12月21日~12月23日，由 IT168 旗下 ITPUB 企业社区平台主办的第十一届中国数据库技术大会(DTCC2020)在北京隆重召开。作为本届大会的演讲嘉宾，录信数软 CTO母延年以《万亿数据库核心存储引擎实现与应用》为主题进行了精彩的议题分享，并在议题分享后接受了IT168小编的采访。

　　从新浪、酷六到阿里、腾讯再到自主创业创办录信数软，作为一名在数据领域摸爬滚打了十数年的“老兵”，母延年对于大数据相关技术有着痴迷般的热爱，其中Lucene不仅仅是其最为喜爱的搜索引擎之一，更是其公司“录信”的名称由来。

　　致力打造日破万亿级别数据库产品

　　“录信整体定位是想做一个行业通用的数据库产品，该数据库主要的特点是能承担特别巨大的数据量，预期每天可以破万亿级别，目前生产系统中已达到每天迁移增量。”母延年在接受采访时如是说。

　　此外母延年表示，更希望录信的数据库是一个全栈的数据库，根据母延年介绍，目前大家在使用一个数据库系统时，往往需要搭建七八种大数据系统，每种产品擅长一个方向，由此造成整体维护成本、数据存储成本相应增多。录信作为一家靠索引创立的公司，希望通过大数据中各式各样的索引来满足不同的业务场景。

　　浅析海量数据检索分析

　　对于成立仅仅两年多的录信来讲，想要做到日破万亿级别的数据库产品又谈何容易。当谈及海量数据的检索分析时，母延年认为当前主要面临有几个痛点问题：

　　首先是并发能力层面,目前很多OLAP场景的数据库，其闭环能力不够（比如Spark闭环能力很低，只能达到几十上百个），而很多业务场景更倾向于更高的并发，这类系统只能做一些线下业务，录信希望将来的系统除了做线下以外能更适合线上的业务，线上业务意味需要高并发的支持检索、统计等功能的查询，譬如可以支持每秒上千万甚至上亿的并发查询；

　　此外，其节点一定要具备很好的弹性。面对海量的数据，目前的数据库一般采用分库分表的方式，比如在起初设计时分为10个分片来承担每天10亿的数据规模，但当数据量达到100亿时，这些分片无法自动分裂向下扩展，而是需要将原来的数据重新导一遍。母延年表示，一开始数据量很少时可能只有一个分片，当数据量增多时可以分成10个，特别多时可以变为100个，当数据完成一个生命周期需要清理，数据量极具减少时，又会回归到最初的一个分片，他认为这种弹性的能力对于数据库来说比较重要。

　　随后，母延年也对录信数据库架构进行了简单介绍。根据他的介绍，录信数据库结构主要具备两大核心特点：

　　●第一，录信数据库带有各种各样的索引，譬如检索型索引、分析型索引等，录信数据库能够通过这些索引来对整体性能进行提升；

　　●第二，录信数据库所有的数据存储在分布式文件系统之上。录信认为因为只有将数据存储在分布式文件系统之上，才可能支撑规模特别巨大的数据量。如果将数据存储在本地，会面临很多问题。譬如数据在每个存储盘的负载不均衡导致有的盘负载极高，但有的盘可能非常空闲几乎没有用到，但使用分布式文件系统，这种问题就迎刃而解。而鉴于分布式文件系统比较慢的弊端问题，录信也基于分布式文件系统做了优化，通过这些优化可以让速度做得很快。

　　数据库，要做就做规模最大的！

　　作为国内数据库领域的新秀，录信数软并不满足于当前的成绩。在2020年4月份疫情期间录信数软获得了首轮投资，录信在拿到该笔投资后全部投入在产品的研发中，母延年表示目前录信的新品基本研发框架已经完成，并进入测试阶段，预计在2021年3-5月之间获将以免费的模式正式对外提供。

　　谈到未来，母延年认为未来行业将更加倾向于更全面的全栈数据库，此外随着5G技术的发展，基础设施建设的不断完善，数据库行业可能会有较大转变，未来两三年后可能会出现数据爆炸式的增长。他表示这次增长对于录信来讲是一个机遇，录信做数据库，要做就做一个规模最大的！

母延年：万亿数据库核心存储引擎实现与应用
2021-01-20 1429

南京录信软件技术有限公司

产品目录

解决方案及案例

关于录信

母延年：万亿数据库核心存储引擎实现与应用 2021-01-20 1429

南京录信软件技术有限公司

产品目录

解决方案及案例

关于录信

母延年：万亿数据库核心存储引擎实现与应用
2021-01-20 1429