基于HBase的工业大数据存储实战fieldbus总线在物品追踪中的应用
随着工业4.0时代的到来,工业互联网和企业的智能化、信息化都将不断推进,传统的工业实时数据库和关系数据库已经难以完全胜任工业大数据的存储,以HBase为代表的NoSQL数据库正在蓬勃发展,其完全分布式特征、高性能、多副本和灵活的动态扩展等特点,使得HBase在工业大数据的存储上拥有强大的优势,打破了流程工业生产中的数据壁垒效应的瓶颈,可以促进工业生产水平和生产管理水平的提高。本期格物汇,就来给大家介绍HBase数据库及格创东智相关实战案例。
了解HBase
HBase是一个高可靠性、高性能、面向列、可伸缩的大型分布式存储系统,它利用Hadoop Distributed File System (HDFS)作为底层文件存储系统。与Google Bigtable不同的是,HBase使用MapReduce进行海量数据处理,而不是直接使用Bigtable提供的一些工具。
与传统数据库相比,HBASE具备多重优势:
线性扩展,可以通过增加节点来支持更多数据。
数据存储在hdfs上,有良好的备份机制。
通过zookeeper协调服务可以快速访问数据。
HBase实战案例
为了更好地展示如何利用HBase解决实际问题,我们将以一个半导体显示企业为例,分析如何设计一个快速查找面板特征系统。该公司需要根据组id查询所有面板,并且根据组id+面板id查询某个具体面的板数据。原有的方案是使用MySQL+OSS,但是这种设计存在两个主要问题:一是每个面板组包含数量不一致的大量行;二是无法有效利用动态列,这限制了其适用范围。
HBase解决方案
针对这两个问题,我们采用了以下策略:
使用动态列(column families)代替固定列数结构,这样可以灵活地添加或删除新特征,不必预先定义所有可能出现的情况。
利用MOB(Medium-Sized Object)功能支持小文件存储,即使是在单行中也能轻松处理较大的二进制特征文件,大大减少了对OSS对象分割的问题。
采用全局唯一RowKey作为主键,同时结合group_id作为前缀实现基于group_id进行快速定位并获取全部相关face_data。
性能测试对比
我们还进行了一系列性能测试,将相同场景下的对象存储云与构建于这些基础上的表格进行比较。在复杂查询场景下,比如前缀查找、大规模过滤器操作以及索引检索等情况下,由于其优越的地理位置布局、高级别的事务管理能力以及丰富的一致性模型选择,该系统在请求延迟方面有显著提升。此外,在成本效益方面,由于按流量计费而非按请求数量计费,该平台对于高并发、高吞吐率场景具有更低成本。这使得它成为适合访问频率低但所需读写速度高的小型对象最佳选择。此外,它能够非常容易地扩展,以满足未来增长需求,从而提供了最高级别的心理安全感,对通用的10MB以下大小的小型对象来说尤其如此。