基于HBase的工业大数据存储实战如何利用现场总线技术优化物品跟踪与管理
随着工业4.0时代的到来,工业互联网和企业的智能化、信息化都将不断推进,传统的工业实时数据库和关系数据库已经难以完全胜任工业大数据的存储,以HBase为代表的NoSQL数据库正在蓬勃发展,其完全分布式特征、高性能、多副本和灵活的动态扩展等特点,使得HBase在工业大数据的存储上拥有强大的优势,打破了流程工业生产中的数据壁垒效应,促进了生产水平和管理水平的大幅提升。本期格物汇,就来给大家介绍HBase数据库及格创东智相关实战案例。
了解HBase
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。它利用普通硬件配置就能处理由成千上万行和列组成的大型数据。与Google Bigtable有很多不同之处,比如使用的是Hadoop HDFS而不是GFS,以及通过MapReduce来处理海量数据,而不是Chubby协同服务。
与传统数据库相比,HBASE具备多重优势:
线性扩展,可以根据需求增加节点。
数据存储在hdfs上,有健全备份机制。
通过zookeeper协调访问速度快。
HBase实战案例
为了更好地展示如何利用现场总线技术优化物品跟踪与管理,我们将以某半导体显示企业为案例,分析格创东智大数据团队如何设计一个快速查找面板特征系统。
该公司业务场景中含有大量面板相关特征,每张面板约3.2k字节,这些面板又被分组,每个面板属于某个组。现有的业务需求主要包括两类:根据组id查找所有面的数据;根据组id+面板id查找某个面的具体数据。原有方案采用MySQL+OSS,但由于每个群体包含玻璃数量极其不均(1~10000),导致MySQL表中需要创建大量行记录。此外,由于查询过程涉及链路较长,对于需要查询较多玻璃的情况下可能耗时10秒以上,不符合当前业务快速发展要求。
HBase解决方案
针对这些问题,大数据团队选择了使用Hbase进行改进。这是因为:
Hbase支持动态列,可以支持万亿行百万列。
支持多版本记录所有修改情况。
Hbase 2.0引入MOB(Medium-Sized Object)功能,可用于小文件存储,如图片或视频等,这样可以提供低延迟读写能力以及检索能力,同时易于扩展。
基于这三个功能重新设计方案,将每个玻璃ID作为RowKey,并打开MOB功能,在创建表时设置MOB_THRESHOLD=2048字节,即当文件大小超过2048字节后视为小文件进行处理。在实际操作中,只需一次put操作即可完成整个表更新,无需考虑对象分割的问题。此外,因为使用了单一表结构,没有复杂查询时间消耗,因此整体性能显著提高,对比直接使用对象存储云,还有一定的成本优势。此举不仅简化了系统架构,而且降低了维护成本,为客户带来了更多便利。