基于HBase的工业大数据存储实战如何分析物品can报文ID

基于HBase的工业大数据存储实战如何分析物品can报文ID

随着工业4.0时代的到来,工业互联网和企业的智能化、信息化都将不断推进,传统的工业实时数据库和关系数据库已经难以完全胜任工业大数据的存储,以HBase为代表的NoSQL数据库正在蓬勃发展,其完全分布式特征、高性能、多副本和灵活的动态扩展等特点,使得HBase在工业大数据的存储上拥有强大的优势,打破了流程工业生产中的数据壁垒效应的瓶颈,可以促进工业生产水平和生产管理水平的提高。本期格物汇,就来给大家介绍HBase数据库及格创东智相关实战案例。

了解HBase

HBase是一个高可靠性、高性能、面向列、可伸缩的大型分布式存储系统。它利用Hadoop HDFS作为其文件存储系统,并且通过MapReduce进行海量数据处理。与传统关系型数据库不同,HBASE提供了类似于Google Bigtable风格的一致性模型,它支持行级别的事务控制,但不支持跨行的事务控制。

HBase与传统数据库对比

1 线性扩展:随着数据量增加可以通过节点扩展进行支撑。

2 数据存储在hdfs上,备份机制健全。

3 通过zookeeper协调查找数据,访问速度快。

HBase实战案例分析

为了更好地介绍如何利用HBase设计出一个快速查找面板特征系统,我们以某半导体显示企业为案例,将采用以下步骤:

面板组表结构优化

现有方案中,每个面板组包含大量(1~10000)张面板,因此使用MySQL+OSS方案存在两个问题:

MySQL不支持动态列,这导致同一条记录被拆分成多行存储。

查询时需要从MySQL中读取大量行,然后再从OSS中获取特征数据,这导致查询时间过长。

使用HBASE解决方案

为了解决这些问题,我们可以使用以下方法:

将每个面的ID作为Rowkey,在创建表的时候打开MOB功能,以便更高效地处理小文件。

使用Put对象插入新值,同时保持旧值,便于实现版本控制。

由于每个面的ID是唯一标识符,所以我们只需要按照这个ID查询即可,而不是扫描整个表,从而极大地提升查询效率。

性能测试对比

最后,我们还会比较基于对象存储云服务和基于HBASE建模能力之间的一些关键属性,如K/V键值对查询能力、前缀查找能力以及索引性能等,以确保我们的选择符合实际需求。