南京录信软件技术有限公司

下载试用

新闻动态

News

公益直播:超万亿规模的大数据实时搜索与统计

2021-02-19 1167

为深入实施大数据发展行动计划,推动数字经济和实体经济深度融合,以“强化云数网链支撑,助力企业复工复产”为宗旨,在江苏省工业与信息化厅大数据产业处指导下,江苏省大数据联盟理事长单位南京大学数据科学研究中心/南京南数数据运筹科学研究院牵头组织省
为深入实施大数据发展行动计划,推动数字经济和实体经济深度融合,以“强化云数网链支撑,助力企业复工复产”为宗旨,在江苏省工业与信息化厅大数据产业处指导下,江苏省大数据联盟理事长单位南京大学数据科学研究中心/南京南数数据运筹科学研究院牵头组织省内专业研究机构举办数字经济公益直播课堂。


522日晚730,南京录信软件技术有限公司创始人兼CTO母延年作为“数字经济公益直播课堂”的第六期嘉宾亮相直播间,为在线的各个行业的人员分享了支撑超万亿数据规模下大数据的实时搜索与统计服务的技术亮点。直播间开课后,上线人数不断攀升过千,课程中在线人员近2000人。


母总在讲课时提出问题:“随着近年来数据规模的爆炸式提升,传统关系型数据库已无法支撑海量数据检索。而业界对于大数据检索分析的各种场景,需多套大数据系统组合使用,数据膨胀率高,运营维护难度极大。如此巨大的数据带来了诸多问题,数据量、性能、灵活性三者不可兼得。此时我们迫切需要一款新型数据库满足全栈需求:一套系统、一份数据、一种接口。为实时搜索与统计需求做强有力的支撑。

0522_超万亿规模的大数据实时搜索与统计_06.png
母总认为要实现以上系统,核心思路在于搜索系统、计算框架、存储引擎、KV系统的选型。搜索系统选型Lucene,成熟稳定;计算框架选型Spark,过千节点案例较多;存储引擎选型HDFSKV系统选型HBase。并针对上述选型,实现了一系列重构及优化。

0522_超万亿规模的大数据实时搜索与统计_08.png


母总介绍了上述新型数据库在万亿大数据上面的几个典型应用。举例全文检索,对Lucene的倒排表进行重构,使无序变为有序。针对金融交易系统查的快,查的准,万亿数据可以做到秒级响应;举例统计分析业务,预先干预数据排序分布,针对多列建立联合索引,实现秒级的即席多维统计;举例地理位置检索业务,抛弃原生Lucene Docvalues方式的二次验证与剪切,针对临近数据采取临近存储的方式存储数据,在此基础上进行二次验证,减低磁盘负载的同时大幅提升查询响应的速度。

0522_超万亿规模的大数据实时搜索与统计_31.png



除此之外,母总还对上述系统和业内同类产品的性能做了实测比较,对比结果可以发现:新型数据库性能相较于其他产品,在单列检索、多列检索、模糊匹配、范围查询、单列统计、多列统计、时序检索等方面都有很大优势。这也佐证了新型数据库能够更好的支撑未来超万亿大数据实时搜索与统计业务。