基于HBase的工业大数据存储实战现场总线技术论文在物品管理中的应用

基于HBase的工业大数据存储实战现场总线技术论文在物品管理中的应用

随着工业4.0时代的到来,工业互联网和企业的智能化、信息化都将不断推进,传统的工业实时数据库和关系数据库已经难以完全胜任工业大数据的存储,以HBase为代表的NoSQL数据库正在蓬勃发展,其完全分布式特征、高性能、多副本和灵活的动态扩展等特点,使得HBase在工业大数据的存储上拥有强大的优势,打破了流程工业生产中的数据壁垒效应,促进了生产水平和管理水平的大幅提升。本期格物汇,就来给大家介绍HBase数据库及格创东智相关实战案例。

了解HBase

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。它利用Hadoop HDFS作为其文件存储系统,将海量数据处理能力通过MapReduce框架实现。与传统数据库相比,HBASE具备多重优势:线性扩展,可以根据需求增加节点;数据存储在hdfs上,有健全备份机制;通过zookeeper协调服务,可以快速访问。

HBase实战案例

为了更好地理解如何利用HBase进行实际应用,本文以某半导体显示企业为案例分析了如何设计一个快速查找面板特征系统。

业务场景与现有方案

该公司业务场景中包含大量面板相关特征数据,每张面板约3.2k字节。这些面板被分组,每个面板属于一个或几个组。现有的业务需求主要包括:

根据组id查找该组下所有面的panel;

根据组id + panel id查找某个具体panel;

原有方案问题

MySQL+OSS设计存在两个问题:

同一条原始内容无法完整保存到单行中,因而后续查询需要访问两个不同的存储系统。

MySQL不支持动态列,这导致同一群面的panel被拆分成多行保存。

HBase解决方案

针对这两个问题,由格创东智的大数据团队提出使用HBase进行优化:

动态列:支持万亿行数百万列数。

版本控制:所有修改记录在Hbase中,便于追踪历史变迁。

MOB(Medium-Sized Object):适合小文件(1k~10MB),提供低延迟读写、一致性检索能力,以及易于扩展等关键功能。

结合应用场景两大查询需求,将face_id作为Rowkey,并创建表时打开MOB功能:

create 'glass', {NAME=>'c', IS_MOB=>true, MOB_THRESHOLD=>2048}

这里,我们创建了一张名为“glass”的表,在创建表时开启了MOB功能,并设定了阈值为2048字节,即当文件大小超过2048字节时,该字段会被视作小文件处理。这就避免了直接使用OSS对象存储,因为对于小对象来说,Hbase模型具有更好的建模能力以及查询性能,而且成本方面也更加合理。此外,由于采用的是按流量计费模式,对于高并发、高吞吐量场景,更能降低成本。而对于访问频率较低的情况,也能保持良好的扩展性。

最后,我们可以看到只需要使用一张表就替换掉之前三张表,从而简化了复杂度,同时提高了操作效率。在用户需要根据group_id获取所有face_data时,可以简单地执行Get操作即可获得所需结果。