基于HBase的工业大数据存储实战物品can通讯报文含义解析

基于HBase的工业大数据存储实战物品can通讯报文含义解析

随着工业4.0时代的到来,工业互联网和企业的智能化、信息化都将不断推进,传统的工业实时数据库和关系数据库已经难以完全胜任工业大数据的存储,以HBase为代表的NoSQL数据库正在蓬勃发展,其完全分布式特征、高性能、多副本和灵活的动态扩展等特点,使得HBase在工业大数据的存储上拥有强大的优势。打破了流程工业生产中的数据壁垒效应瓶颈,可以促进工业生产水平和生产管理水平提高。本期格物汇,就来给大家介绍HBase数据库及格创东智相关实战案例。

了解HBase

HBase是一个高可靠性、高性能、面向列、可伸缩的大规模分布式存储系统。它利用Hadoop HDFS作为其文件存储系统,通过MapReduce来处理海量数据,并且使用ZooKeeper作为协调服务。与传统数据库相比,HBASE具备多重优势:线性扩展,可以通过节点扩展进行支撑;数据存储在hdfs上,备份机制健全;通过zookeeper协调查找数据,访问速度快。

HBase实战案例

为了更好地介绍HBase在人工智能场景下的使用,我们以某半导体显示企业为案例,对于如何利用HBase设计出一个快速查找面板特征系统进行分析。

该公司业务场景中有很多面板相关特征数据,每张面板数据大概3.2k,这些面板又被分成很多组,每个面板特征属于某个组。现有的业务需求主要有两类:根据组id查找该组下面的所有面板,以及根据组id+面板id查找某个具体面的panel-data。

原方案是MySQL+OSS,但是由于每个face-group包含玻璃数范围从1到10000,而每一行MySQL表只能包含少量字段,所以需要将同一group内大量face-id对应关系保存在多行表中,从而导致查询过程复杂且耗时长。

解决方案是采用了基于MOB(Medium-Sized Object)功能设计新的表结构,将所有glass-tables合并至单一table“glass”,打开MOB功能,在创建表的时候设置:

create 'glass', {NAME=>'c', IS_MOB=>true, MOB_THRESHOLD=>2048}

这样可以有效解决之前的问题,因为MOB支持小文件存储(即小于或等于2K字节),对于我们的case来说非常适用。在这个新设计中,只需一次Get操作就能获取整个group内所有face-data。这项改进极大地简化了查询过程,并显著提升了查询速度,从10秒降至几毫秒级别,为满足当前快速发展需求提供了坚实基础。