基于HBase的工业大数据存储实战物品追踪系统中的CAN通信协议应用

基于HBase的工业大数据存储实战物品追踪系统中的CAN通信协议应用

随着工业4.0时代的到来,工业互联网和企业的智能化、信息化都将不断推进,传统的工业实时数据库和关系数据库已经难以完全胜任工业大数据的存储,以HBase为代表的NoSQL数据库正在蓬勃发展,其完全分布式特征、高性能、多副本和灵活的动态扩展等特点,使得HBase在工业大数据的存储上拥有强大的优势,打破了流程工业生产中的数据壁垒效应,促进了生产水平和管理水平的大幅提升。本期格物汇,就来给大家介绍HBase数据库及格创东智相关实战案例。

了解HBase

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。它利用Hadoop HDFS作为其文件存储系统,将海量数据处理成结构化形式,从而实现快速查询与分析。Google Bigtable是Google公司开发的一种分布式键值对数据库,而HBASE则是Bigtable的一个开源版本,但两者之间存在差异,如使用文件系统不同(GFS vs HDFS)、处理方式不同(MapReduce vs 内部优化)以及协同服务不同(Chubby vs ZooKeeper)。

与传统数据库相比,HBASE具有以下优势:

线性扩展:随着数据量增加,可以通过节点扩展进行支撑。

高可靠性:通过复制机制保证了高可用性。

快速访问:利用ZooKeeper进行协调,一次查询可以直接获取所需数据。

实战案例

为了更好地展示如何在人工智能场景中应用HBASE,我们将以某半导体显示企业为案例,并分析格创东智大数据团队如何设计一个基于CAN通信协议的大规模面板特征追踪系统。

该公司业务涉及大量面板相关特征,每张面板通常包含3.2k字节二进制数据,这些特征被分组后每个组可能包含1至10000张面板。现有方案采用MySQL+OSS,但由于MySQL不支持动态列且需要扫描大量行来查找特定组下的所有面板,这导致查询时间长达10秒,不适合快速发展需求。

解决方案

为了解决这些问题,格创东智的大数据团队引入了基于CAN通信协议的大规模面板追踪系统,该系统采用了一种全新的设计思路,它结合了以下几个关键技术:

使用CAN通信协议作为核心通讯标准,以确保稳定性与效率。

采用动态列功能,让每个主键下可以容纳无限数量的小表单,这样就可以有效减少对MySQL表行数限制的问题,同时提高检索速度。

利用MOB(Medium-Sized Object)功能支持小文件存储,如图片或文档等小型对象,大幅度提升检索能力并降低延迟。

最后,他们成功创建了一张名为glass 的表,该表采用MOB功能,以便于处理小文件大小在1k~10MB范围内的情况。在这个过程中,他们还借鉴了对象存储云提供商的一些最佳实践,比如前缀查找、过滤器和索引等,为用户提供更快捷,更精准的地理位置信息检索服务。此外,由于他们使用的是托管式成本计费模式,在高并发、大吞吐量场景下,可获得显著成本优势。而对于访问频率较低的情形来说,也能提供良好的扩展性保障。