工业现场总线概念下的HBase大数据存储实践物品追踪与管理

工业现场总线概念下的HBase大数据存储实践物品追踪与管理

随着工业4.0时代的到来,工业互联网和企业智能化、信息化的不断推进,传统工业实时数据库和关系数据库已经难以完全适应工业大数据的存储需求。HBase作为NoSQL数据库,以其分布式特性、高性能、多副本和灵活动态扩展等优势,在工业大数据存储上表现出色。这种技术能有效打破流程生产中的数据壁垒效应,为提升生产水平和管理水平提供了强有力的支持。本期,我们将深入探讨HBase及其在格创东智相关实战案例中的应用。

了解HBase

HBase是一个面向列的分布式存储系统,它能够利用普通硬件配置处理大量结构化数据。与Google Bigtable相比,尽管两者都是Bigtable开源实现,但存在差异,如使用的文件系统不同(GFS vs HDFS)以及协同服务机制(Chubby vs ZooKeeper)。

与传统数据库相比,HBASE具备多重优势:

线性扩展能力,可根据需要增加节点进行支撑;

数据通过HDFS备份机制得到保障;

通过Zookeeper协调访问速度快。

HBase实战案例

为了更好地理解在人工智能场景下如何运用HBase,本节我们以某半导体显示企业为背景,分析格创东智大数据团队如何设计一个快速查找面板特征系统。

原有方案:MySQL+OSS

该公司业务涉及大量面板特征,每张面板约3.2k字节,这些特征被分组,每个面板属于一个组。现有业务主要包括两个查询需求:

根据组id查找该组下的所有面板。

根据组id+面板id查找指定面的具体特征。

原有的解决方案是结合MySQL和OSS表来完成这些操作。在这个方案中,由于每个组包含不同数量的玻璃(即各个类型的小部件),导致MySQL中需要创建大量行来记录每一项玻璃与它所属群体之间的映射,并且对于那些包含较少玻璃的情况,该方法可能会产生许多空白行,从而造成不必要的大量读取时间。此外,因为这种设计方式无法有效利用列族这一概念,所以当试图按照类别对群体或单独玻璃进行搜索时,将不得不扫描整个表集成,这种情况下查询时间达到10秒左右,对于快速发展要求较高的事业来说是不够用的。

HBase解决方案

针对以上问题,格创东智的大数据团队提出了一套基于HBASE解决方案。这套方案依赖于以下几个关键点:

使用动态列允许我们直接将相同类型的小部件放置在单一行内,而不是像之前那样分散到不同的行。

支持版本控制意味着所有修改都可以追踪并记录在同一地方。

引入MOB(Medium-Sized Object)功能支持小文件存储,比如图片、视频、文档等小型对象具有低延迟、高一致性检索能力强,有助于优化读写性能并提高可扩展性。

表设计:

create 'glass', {NAME=>'c', IS_MOB=>true, MOB_THRESHOLD=>2048}

这段代码创建了名为“glass”的表,并启用了MOB功能。当我们的应用场景中的两大查询需求发生时,我们可以简单地根据所需的一系列属性获取它们所对应的事物,即使是在非常庞大的集合中也能迅速找到目标对象。这简洁而高效地替代了之前复杂且耗时的手法,使得整个系统更加健壮且易维护。此外,由于采用的是托管式计费模式,其成本远低于传统云服务商,同时还具有更好的扩展性,可以轻松适应任何规模上的增长需求,无论是访问频率高还是低,都能保证良好的性能表现。