南京录信软件技术有限公司

下载试用

解决方案及案例

Solutions and cases

某省公安厅大数据项目

2019-03-22 1514

单表数据量超过10万亿,单集群规模超过1000节点,日增数据量上千亿条,数据实时接入2-3分钟可查全文检索,多维统计分析,响应时间小于5秒。

1.案例背景

某省厅公安需要建设一个综合性平台,对散布在各业务部门信息资源进行整合,实现公安信息资源的最大化共享和利用。

平台底层通过接入公安、网吧、酒店、交通等行业数据,以及互联网记录和通讯记录,实时将数据汇总到数据平台,对业务层提供接口,满足业务的查询、统计、分析的需求。

大致架构如下图所示:



公安案例原构架.png


  • 数据特点

数据规模大:单日数据在500亿条以上,历史数据已经超过万亿规模;

数据类型复杂:不同渠道获取的数据格式差别极大,既有结构化数据,又有非结构化数据;

数据使用场景丰富:不同业务对数据的使用需求不同,需要存储多份数据。

 

  • 痛点

1.万亿数据,响应时间太慢,无法满足业务需求;

2.不同业务需要存储不同格式的数据,数据膨胀率大;

3.多种集群需要不同团队进行维护,学习使用成本高。

 

2.解决方案:

针对于客户数据规模庞大、数据类型复杂、响应延迟的问题,需要对数据库结构进行简化。为此,我们采用自研的LSQL检索分析型数据库替代客户原先的数据库架构,借助LSQL的分布式构架,实现了对超万亿数据的秒级检索,同时涵盖了多维即席分析的功能,可以快速高效的进行统计分析和计算。同时LSQL的提供较为简单的JDBC/HTTP接口,上手容易,客户只需底层存储一份数据,就可以满足上层不同业务的检索、统计和分析的需求。

在导入LSQL软件后,对客户的平台构架进行了简化,大大提升了数据的响应速度。

公安案例新构架.png

除此之外,LSQL还可以满足以下几个方面的场景需求:


  • 全文检索业务

LSQL底层基于lucene框架,利用倒排索引,天生适合全文检索类的业务。加上录信自研的切词法和压缩算法,大提高了检索响应速度。可以实现万亿数据,秒级响应。

  • 综合查询业务

LSQL上层提供了统一的SQL接口,可以实现类似传统数据库的查询功能。对于结构化数据的查询业务,支持各种条件组合过滤查询。标准SQL的语法,也让业务层可以快速上手,降低了学习成本。

  • 时空轨迹碰撞

基于LSQL的地理位置检索功能,可以实现轨迹快速匹配。

 

3.项目效果:

(1)使用和运维成本大幅降低

-    集群数量从原先的多个,降为一个LSQL集群,释放了数百台机器;

-    LSQL支持异构存储,不需要全SSD存储,极大地降低了存储成本;

-    LSQL提供了类SQL的接口,降低学习和维护成本。


(2)项目稳定性得到进一步提升

系统目前已经稳定运行两年,集群规模经过扩容已经扩大到上千台节点,仍然稳定高效运作。


(3)系统数据吞吐上限显著提升

单表数据规模已经超过10万亿,每日数据增量1000亿以上。


(4)系统响应速度大幅提高

每日请求上百万次,90%以上的查询响应时间<5秒。

 

上一篇:第一篇

下一篇:某交通部门大数据平台项目