工业现场总线下基于HBase的大数据存储实战物品追踪与管理

工业现场总线下基于HBase的大数据存储实战物品追踪与管理

随着工业4.0时代的到来,工业互联网和企业智能化、信息化的不断推进,传统工业实时数据库和关系数据库已经难以完全适应工业大数据的存储需求。HBase作为NoSQL数据库,以其分布式特性、高性能、多副本和灵活动态扩展等优势,在工业大数据存储方面展现出强大的竞争力。HBase能够打破流程生产中的数据壁垒效应,为提升生产水平和管理水平提供了支持。本期,我们将介绍HBase及其在格创东智相关实战案例中的应用。

了解HBase

HBase是一个高可靠性、高性能、面向列设计的分布式存储系统。它利用普通PC服务器构建起大规模结构化存储集群,并能处理成千上万行和列组成的大型数据集。虽然Google Bigtable是HBASE技术的一个直接启发来源,但两者之间存在许多不同之处,比如使用的文件系统(GFS vs HDFS)以及处理海量数据的手段(MapReduce)。

与传统数据库相比,HBASE具有以下优点:

线性扩展能力,可以通过增加节点来支撑更大的数据量。

数据存储在高度可靠的Distributed File System(如Hadoop HDFS)中。

通过Zookeeper协调服务快速访问数据。

HBase实战案例

为了进一步展示如何在人工智能场景下应用Hbase,我们将以某半导体显示企业为例,分析格创东智团队如何设计一个基于面板特征查询系统。

该公司拥有大量面板相关特征数据,每张面板约3.2k字节,这些特征被分配给不同的组。在业务场景中,有三种主要查询需求:

根据组ID查找该组所有面的特征;

根据组ID+面ID查找具体的一张面的特征;

原有方案:MySQL+OSS

之前由于业务规模较小,他们使用的是MySQL及OSS进行管理。这包括两个表:group表用于保存各个组信息,而glass表则包含了每个玻璃片对应的特征,以及它们所属于哪个group ID。然而,由于每个group可能包含从1到10000多张玻璃片,这意味着需要创建大量行来记录这些关系,对MySQL造成了巨大的压力。

问题分析

这个方案存在两个主要问题:

MySQL不支持动态列,因此同一条原始信息被拆分成了多行记录;

需要从MySQL读取很多行,然后再去OSS获取相应玻璃片的详细信息,从而导致查询时间过长且复杂链路;

解决方案:采用HBase替代旧方案

针对上述问题,格创东智团队认为这是典型情况适合使用hbase,因为它提供了动态列功能支持极高数量级别的事务,同时还可以通过MOB(Medium-Sized Object)技术有效地处理小文件。此外,Hbase支持多版本控制,使得所有修改都能记录下来,并且可以根据需要恢复历史状态。

新的设计会将Group ID作为RowKey,将Glass ID作为Column Name,并打开MOB功能以便于更好地处理小文件,如下所示:

create 'glass', {NAME=>'c', IS_MOB=>true, MOB_THRESHOLD=>2048}

这样一来,只需维护一个名为glass 的表,就可以替换掉原来三个表,即使是在涉及大量Glass Feature的情况下也能保持良好的性能。此外,与对象存储相比,在K/V操作方面,它具有更低延迟并且对于复杂查询有10倍以上性能提升,而且成本按流量计费,更适合高并发场景。

性能测试对比

| 属性 | 对象存储云 | HBase建模能力 |

|--------------|---------------|----------------|

| 查询能力 | 前缀查找 | K/V |

| | SQL | |

| | 全文索引 | |

| | 时空 | |

| | 时序 | |

| 请求次数计费 |- |- |

结论

总结来说,用hbase实现基于industrial IoT设备采集到的data management system可以简化complex data storage and querying workflow for the company, increase efficiency and scalability of the system while reducing costs by leveraging hbase's distributed architecture and advanced query capabilities.

In this case study, we have demonstrated how to design a scalable data management system using HBASE that supports real-time queries on large amounts of industrial IoT device-collected data, enabling companies to make better decisions based on historical and real-time information.

By utilizing the powerful features of NoSQL databases like HBASE in conjunction with advanced technologies such as Machine Learning (ML), Artificial Intelligence (AI), Edge computing, and Industrial Internet of Things (IIoT), businesses can unlock new opportunities for innovation in their respective industries.

As we continue to move forward into an increasingly connected world where smart devices are becoming more prevalent than ever before; it is crucial that organizations invest in developing robust solutions that enable them to effectively capture, process, analyze & utilize these vast amounts of sensor-generated data efficiently across different platforms & applications without compromising performance or security standards set by industry benchmarks etc., thereby ensuring seamless integration between human experience & machine intelligence within our daily lives!