基于HBase的工业大数据存储实战物品追踪系统中的CAN总线与485总线选择
随着工业4.0时代的到来,工业互联网和企业的智能化、信息化都将不断推进,传统的工业实时数据库和关系数据库已经难以完全胜任工业大数据的存储,以HBase为代表的NoSQL数据库正在蓬勃发展,其完全分布式特征、高性能、多副本和灵活的动态扩展等特点,使得HBase在工业大数据的存储上拥有强大的优势,打破了流程工业生产中的数据壁垒效应,促进了生产水平和管理水平的大幅提升。本期格物汇,就来给大家介绍HBase数据库及格创东智相关实战案例。
了解HBase
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。它利用普通硬件配置就能处理由成千上万行和列组成的大型数据。与Google Bigtable有很多不同之处,比如使用的是Hadoop HDFS而不是GFS,以及通过MapReduce来处理海量数据,而不是Chubby协同服务。
与传统数据库相比,HBASE具备多重优势:
线性扩展,可以根据需求增加节点。
数据存储在hdfs上,备份机制健全。
通过zookeeper协调访问速度快。
HBase实战案例
为了更好地展示如何利用HBase在人工智能场景下进行应用,我们将以某半导体显示企业为例,分析格创东智大数据团队是如何设计出一个快速查找面板特征系统。
案例背景
该公司业务场景中含有大量面板相关特征,每张面板约3.2k字节,并且被分组,每个面板属于某个组。具体分配如下:43%左右包含1张面板;47%左右包含2-9张;剩余包括10-10000张。这两类业务需求主要包括:
根据组id查找该组下的所有面板。
根据组id+faceId查找指定面的具体数据。
原方案分析
之前使用MySQL+OSS解决方案,由于每个群体内玻璃数量差异巨大(1~10000),需要将每一行保存完整结构,但这导致查询过程复杂且耗时长,从MySQL读取大量行后再从OSS获取特征,这导致链路长度极长,最终查询时间达到了10秒,对现有快速增长业务造成了限制。
HBase解决方案
针对以上问题,我们采用了以下几点优化策略:
使用动态列支持万亿行百万列。
多版本控制记录所有修改历史。
MOB(Medium-Sized Object)支持小文件存储,如图片短视频文档等具有低延迟读写强一致检索能力强易扩展等关键能力。
结论
最终,我们成功地替换了原来的三张表,只用了一张表实现功能,同时减少了复杂度并提高了查询效率。对于用户来说,无需改变应用代码即可享受更好的性能。此外,该案例也证明了一旦选定合适技术架构,即使是在复杂场景下,也可以通过合理设计实现高效稳定的解决方案,为企业提供更多可能性。