基于HBase的工业大数据存储实战物品追踪管理系统中的CAN总线介绍
随着工业4.0时代的到来,工业互联网和企业的智能化、信息化都将不断推进,传统的工业实时数据库和关系数据库已经难以完全胜任工业大数据的存储,以HBase为代表的NoSQL数据库正在蓬勃发展,其完全分布式特征、高性能、多副本和灵活的动态扩展等特点,使得HBase在工业大数据的存储上拥有强大的优势,打破了流程工业生产中的数据壁垒效应,促进了生产水平和管理水平的大幅提升。本期格物汇,就来给大家介绍HBase数据库及格创东智相关实战案例。
了解HBase
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。它利用Hadoop HDFS作为其文件存储系统,将海量数据处理由MapReduce进行。与Google Bigtable相比,它使用Zookeeper作为协同服务,而不是Chubby。在传统数据库中,HBASE具备线性扩展能力,即随着数据量增多可以通过节点扩展进行支撑;其次,它把数据存储在hdfs上,有健全备份机制;最后,它通过zookeeper协调访问速度快。
HBase实战案例
为了更好地展示如何利用HBase在人工智能场景下运作,我们选取了一家半导体显示企业作为案例。该公司需要设计一个快速查找面板特征系统。在这个业务场景中,每个面板对应3.2k二进制特征,这些特征被分组成不同的集合,每个集合内可能包含1至10000张面板。这导致现有方案(MySQL+OSS)无法满足需求,因为查询时间长达10秒。
解决方案:采用HBASE
由于MySQL+OSS存在两个问题——一是因为每条原始内容过大而不能合并到单行中,所以后续查询需要访问两个不同系统;二是因为不支持动态列,因此属于同一组面的所有内容被拆分成多行存入表中。这些都是典型使用场景于NO SQL 数据库如 Hbase 的情况:
万亿行数:支持大量记录。
百万列数:允许大量字段。
版本控制:能够记录所有修改操作。
MOB(Medium-Sized Object)功能:适用于小文件,如图片或文档,这些通常大小在1K至10MB之间,可以提供低延迟读写,并且具有检索能力强以及易于水平扩展等优点。
因此,大数据团队采用了这三个功能重新设计原有方案。在新的设计中,将面板组ID设定为Rowkey,并打开MOB功能,同时设置MOB_THRESHOLD为2048字节,以便小文件处理。此外,还根据应用场景中的两大查询需求重新构建表结构,使得用户能根据面板组ID获取所有相关面的信息,同时也能够快速找到指定面的具体数据。
总结
通过分析实际应用中的挑战,我们发现传统数据库无法有效地管理复杂的大规模结构化存储任务,而NoSQL技术特别是基于Bigtable开源实现版本——Apache Hbase,则提供了一种更加高效灵活解决方法。我们详细探讨了如何将这种技术集成到实际项目中,以及它如何帮助改善业务流程与提高客户满意度。如果你对此类话题感兴趣,请继续关注我们的文章系列,在那里你会获得更多关于如何最大限度发挥你的IT投资以及成功实施现代软件架构策略的一般指导。