用户登录

还没有账号?立即注册

注册免费试用

忘记密码

修改密码

分布式数据储存

发布时间:2021-04-18

Google 公司提出的GFS、MapReduce, BigTable等技术是分布式数据处理技术的具体实现﹐是Google搜索引擎系统三大核心技术。此后﹐Apache软件基金会推出了开放源码 Hadoop和 HBase 系统﹐实现了MapReduce编程模型、分布式文件系统和分布式列簇数据库。Hadoop系统在 Yahoo ! 、IBM、百度、Facebook等公司得到了大量应用和快速的发展。但作为一个新兴的技术体系﹐分布式数据处理技术在支持大规模网络信息处理及应用等大数据计算应用方面还存在着很多不足。

行存储(Row-Store)和列存储(Column-Store)是两种典型的数据库物理存储策略。行存储方式较为传统﹐它在磁盘中依次保存每条记录,比较适合事务操作;列存储方式垂直划分关系表,以列为单位存储数据﹐列存储还具有数据压缩(Compression)、延期物化(Late Materialization)、块循环( Blocklteration)等特性。由于数据分析任务往往仅使用较少字段,因此列存储方式的效率更高。数据分析任务在大数据应用中更为常见,因此许多系统尽管无法完全实现列存储的所有特性,但也或多或少地借鉴了相关概念,包括Big Table、HBase等。提出了行列混合式数据存储结构(RCFile)以解决海量数据快速加载﹑缩短查询响应时间﹑磁盘空间高效利用等问题(如图所示)。RCFile融合了行存储和列存储的优点,通过行组划分降低数据加载开销,通过列数据压缩提高存储空间利用率.国际上应用最广泛的两大分布式数据分析系统Hive和Pig均集成了RCFile技术。RCFile已经成为分布式离线数据分析系统中数据存储结构的事实标准。

RCFile数据存储结构示例.png

RCFile数据存储结构示例

分布式数据存储是网络大数据应用的一个重环节。但目前的研究工作仍存在一些局限性。针对量数据存储和处理所面临的数据总量超大规模、少理速度要求高和数据类型异质多样等难题,需要)发支持高可扩展、深度处理的PB级以上分布式多据存储框架﹐同时需要研究适应数据布局分布的i储结构优化方法,以提高网络大数据存储和处理率﹐降低系统建设成本﹐从而实现高效﹑高可用的F络大数据分布式存储。


QQ客服

扫描二维码添加QQ

微信客服

扫描二维码添加微信

公司电话

公司电话

17316289114