基于HBase的工业大数据存储实战现场总线技术及其在物品追踪中的应用

基于HBase的工业大数据存储实战现场总线技术及其在物品追踪中的应用

随着工业4.0时代的到来,工业互联网和企业的智能化、信息化都将不断推进,传统的工业实时数据库和关系数据库已经难以完全胜任工业大数据的存储,以HBase为代表的NoSQL数据库正在蓬勃发展,其完全分布式特征、高性能、多副本和灵活的动态扩展等特点,使得HBase在工业大数据的存储上拥有强大的优势。今天,我们就来详细介绍HBase数据库及其在物品追踪中的应用。

了解HBase

HBase是一个高可靠性、高性能、面向列、可伸缩的大规模分布式存储系统。它利用普通PC服务器构建成一个分布式计算平台,可以处理海量结构化数据。与Google Bigtable不同,虽然两者都是基于Bigtable设计,但它们在技术实现上有所差异。在使用过程中,我们可以通过MapReduce来处理海量数据,并且可以利用ZooKeeper作为协同服务。

与传统数据库相比,HBASE具备多重优势:

线性扩展:随着数据量增多,可以通过节点扩展进行支撑。

数据存储在hdfs上:备份机制健全。

通过zookeeper协调查找数据:访问速度快。

HBase实战案例

为了更好地理解如何使用HBase进行物品追踪,本期格物汇将以某半导体显示企业为案例分析格创东智大数据团队是如何利用HBase设计出一个快速查找面板特征系统。

该公司业务场景涉及大量面板相关特征,每张面板数据约为3.2k字节,这些面板又被分组,每个面板特征属于某个组。现有的业务需求主要包括根据组ID查找所有相关面的panel,以及根据组ID和panelID查找具体面的data。

原有方案是结合MySQL和OSS(对象存储)但由于每个group包含了大量不同的faces,因此这导致了查询效率低下,即使优化也无法满足业务需求增长要求。此时,大型制造业开始寻求更有效率地管理这些复杂关系并提供即时响应能力,以便于对市场变化做出迅速反应。

解决方案:采用基于MOB(Medium-Sized Object)的表结构

针对这个问题,格创东智的大数据团队重新设计了表结构,将其转换为适用于小文件存储的小型对象模式。这允许我们更有效地管理庞大的数量级别上的未知数量大小文件,同时保持高性能查询功能。具体来说,他们创建了名为glass的一个表,并打开MOB功能:

create 'glass', {NAME=>'c', IS_MOB=>true, MOB_THRESHOLD=>2048}

这样一来,我们就能很容易地按照group_id检索到所有相关faces,而不需要扫描整个MySQL表或从OSS中逐一检索每个face。这极大提升了查询效率,从而能够支持更多复杂性的搜索请求,更快地获取结果,为用户提供更加流畅体验。此外,这种方法还降低了成本,因为它减少了对主机资源以及网络带宽的需求,从而提高整体运维效率。

总结

本文阐述了一种基于NoSQL Hbase技术的大规模物品追踪解决方案,该解决方案旨在改善现有的传统关系型数据库不足之处,如慢速响应时间、过度压力以及成本限制。本文展示了一种新的架构,它结合无模式列族模型与小文件(MOB)概念,以适应各种尺寸的小文件类型,比如图片或视频等,同时保持高度的一致性读写操作,以及水平可伸缩性的优势,最终达到了高速查询能力及较低成本运行目标,为现代制造业提供了一套完善且灵活的人工智能工具集。在未来,由于持续创新技术发展,无疑会看到更多类似的替代方案出现,以进一步优化当前行业标准,对抗挑战,并促进数字经济转型升级。