基于HBase的工业大数据存储实战现场总线在物品追踪中的应用

基于HBase的工业大数据存储实战现场总线在物品追踪中的应用

随着工业4.0时代的到来,工业互联网和企业的智能化、信息化都将不断推进,传统的工业实时数据库和关系数据库已经难以完全胜任工业大数据的存储,以HBase为代表的NoSQL数据库正在蓬勃发展,其完全分布式特征、高性能、多副本和灵活的动态扩展等特点,使得HBase在工业大数据的存储上拥有强大的优势,打破了流程工业生产中的数据壁垒效应,促进了生产水平和管理水平的大幅提升。本期格物汇,就来给大家介绍HBase数据库及格创东智相关实战案例。

了解HBase

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。它利用Hadoop HDFS作为其文件存储系统,将海量数据处理能力通过MapReduce框架实现。与传统数据库相比,HBASE具备多重优势:线性扩展,可以根据需求增加节点;数据存储在hdfs上,有健全备份机制;通过zookeeper协调服务,可以快速访问。

HBase实战案例

为了更好地理解如何利用HBase进行实际应用,我们可以看一个半导体显示企业如何使用它设计出一个快速查找面板特征系统。在这个企业中,每张面板对应一组特征,这些特征是以二进制格式保存在3.2k大小的小文件中。由于每个组可能包含1至10000张面板,这种情况下传统关系型数据库会导致查询效率低下,因为需要扫描大量行才能找到所需信息。

解决方案是采用基于面板组ID创建表,并打开MOB(Medium-Sized Object)功能。这允许我们将小文件(如图片或视频)以较低延迟读写,并保持强一致性,同时支持检索能力强且易于扩展。此外,由于每个面板通常只有少数几条记录,因此可以有效减少I/O操作,从而提高查询速度。

性能测试对比

对象存储云与HBase建模有K/V键值对、表格、稀疏表以及SQL查询能力,但是在复杂查询场景下,比对象存储有10倍以上性能提升。在高并发、高吞吐量场景成本也更低,对于访问频率低的情况适用。而对于小对象(<10MB),使用Hbase MOB功能具有更好的延迟表现,更适合用于这类场景。

总结

通过分析现有的MySQL+OSS方案存在的问题,如同一条数据被拆分成多行,以及无法满足业务快速增长需求,我们发现这些问题正好契合了NoSQL尤其是基于GoogleBigtable开源实现——Apache HBASE的一个典型应用场景。利用动态列支持万亿行百万列,同时提供版本控制功能,以及引入MOB技术支持小文件,大幅度提高了整个系统的查询效率和处理能力,为公司带来了显著经济效益。

因此,在选择合适的大规模结构化数据仓库时,不仅要考虑到简单的一般性的属性,还应该深入思考是否能够满足未来业务发展所需,而不是单纯追求短期内的一些优点。