基于HBase的工业大数据存储实战物品追踪系统中的CAN总线通信协议实例

基于HBase的工业大数据存储实战物品追踪系统中的CAN总线通信协议实例

随着工业4.0时代的到来,工业互联网和企业的智能化、信息化都将不断推进,传统的工业实时数据库和关系数据库已经难以完全胜任工业大数据的存储,以HBase为代表的NoSQL数据库正在蓬勃发展,其完全分布式特征、高性能、多副本和灵活的动态扩展等特点,使得HBase在工业大数据的存储上拥有强大的优势,打破了流程工业生产中的数据壁垒效应,促进了生产水平和管理水平的大幅提升。本期格物汇,就来给大家介绍HBase数据库及格创东智相关实战案例。

了解HBase

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。它利用Hadoop HDFS作为其文件存储系统,将海量数据处理成结构化格式,从而实现快速查询与高效分析。与Google Bigtable相比,虽然两者都是基于Bigtable设计,但有显著差异:前者采用Chubby协同服务,而后者则使用Zookeeper;前者运行MAPREDUCE处理海量数据,而后者也采用相同技术进行处理。此外,HBASE通过线性扩展支持大量增长,无需预先规划硬件配置,便于应对突发需求。

HBase在人工智能场景下的应用

为了更好地理解如何运用HBase,我们将以某半导体显示企业为例,探讨如何利用该技术设计一个快速查找面板特征系统。在这个公司中,有大量关于面板特征数据,每张面板约3.2k字节,这些面板被分组,每个面板属于一个或几个组。我们需要根据组id或组id+面板id来查找具体面的数据。

原有方案:MySQL + OSS

过去由于业务规模较小,用的是MySQL配合OSS(对象存储)解决方案。这些表主要包括group表用于记录每个分组,以及glass表用于保存每个玻璃片及其对应特征。然而,由于各个分组内玻璃片数量不一致(1~10000),现有的设计导致了两个问题:

MySQL不支持动态列,因此必须拆分为多行。

查询过程涉及跨越两个不同的存储系统,即MySQL和OSS,这会增加链路长度并影响查询速度。

改良方案:使用HBASE

针对上述问题,大型团队采纳了以下措施:

利用HBASE提供动态列功能,对同一群体内部所有玻璃片进行整合。

通过MOB(Medium-Sized Object)功能优化小文件操作,如图片或文档等。

通过ZooKeeper协调机制提高访问速度。

新建表时开启MOB功能:

CREATE 'glass', {NAME=>'c', IS_MOB=>TRUE, MOB_THRESHOLD=>2048}

这样做可以减少从不同来源检索必要步骤,并且能够极大提升查询效率。这项改进使得整个项目更加经济高效,同时满足不断增长业务需求所需更快捷响应时间。

总结

此次探索揭示了在现代智能制造背景下,NoSQL解决方案如Apache Hbase提供的一系列优势以及它们如何帮助企业克服传统DBMS限制。在未来的文章中,我们还将详细讨论更多实际应用案例以及这些技术创新带来的具体商业价值。