加入收藏 | 设为首页 | 会员中心 | 我要投稿 网站开发网_马鞍山站长网 (https://www.0555zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

81个开源大数据处理工具汇总(上),包括查询引擎/流式计算/存储

发布时间:2021-02-27 06:15:32 所属栏目:大数据 来源:网络整理
导读:副标题#e# 本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考。下面是第一部分。 查询引擎 一、Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发

HyperDex是一个分布式、可搜索的键值存储系统,特性如下:

  • 分布式KV存储,系统性能能够随节点数目线性扩展
  • 吞吐和延时都能秒杀现在风头正劲的MonogDB,吞吐甚至强于Redis
  • 使用了hyperspace hashing技术,使得对存储的K-V的任意属性进行查询成为可能

官网:http://hyperdex.org/

四、TokyoCabinet

81个开源大数据处理工具汇总(上),包括查询引擎/流式计算/存储

日本人Mikio?Hirabayashi(平林干雄)开发的一款DBM数据库。Tokyo Cabinet 是一个DBM的实现。这里的数据库由一系列key-value对的记录构成。key和value都可以是任意长度的字节序列,既可以是二进制也可以是字符串。这里没有数据类型和数据表的概念。

当 做为Hash表数据库使用时,每个key必须是不同的,因此无法存储两个key相同的值。提供了以下访问方法:提供key,value参数来存储,按 key删除记录,按key来读取记录,另外,遍历key也被支持,虽然顺序是任意的不能被保证。这些方法跟Unix标准的DBM,例如GDBM,NDBM 等等是相同的,但是比它们的性能要好得多(因此可以替代它们) 。下一代KV存储系统,支持strings、integers、floats、lists、maps和sets等丰富的数据类型。

TokyoCabinet官方网站>>>

五、Voldemort

81个开源大数据处理工具汇总(上),包括查询引擎/流式计算/存储

Voldemort是一个分布式键值存储系统,是Amazon’s Dynamo的一个开源克隆。特性如下:

  • 支持自动复制数据到多个服务器上。
  • 支持数据自动分割所以每个服务器只包含总数据的一个子集。
  • 提供服务器故障透明处理功能。
  • 支持可拨插的序化支持,以实现复杂的键-值存储,它能够很好的5.集成常用的序化框架如:Protocol Buffers、Thrift、Avro和Java Serialization。
  • 数据项都被标识版本能够在发生故障时尽量保持数据的完整性而不会影响系统的可用性。
  • 每个节点相互独立,互不影响。
  • 支持可插拔的数据放置策略

官网:http://project-voldemort.com/

六、Amazon?Dynamo

贡献者:亚马逊

简介:Amazon Dynamo 是一个经典的分布式Key-Value 存储系统,具备去中心化,高可用性,高扩展性的特点,但是为了达到这个目标在很多场景中牺牲了一致性。Dynamo在Amazon中得到了成功的应用,能够跨数据中心部署于上万个结点上提供服务,它的设计思想也被后续的许多分布式系统借鉴。如近来火热的Cassandra,实际上就是基本照搬了Dynamo的P2P架构,同时融合了BigTable的数据模型及存储算法。

Amazon Dynamo官方网站>>>

七、Tair

贡献者:淘宝

简介:tair 是淘宝自己开发的一个分布式 key/value 存储引擎. tair 分为持久化和非持久化两种使用方式. 非持久化的 tair 可以看成是一个分布式缓存. 持久化的 tair 将数据存放于磁盘中. 为了解决磁盘损坏导致数据丢失,tair 可以配置数据的备份数目,tair 自动将一份数据的不同备份放到不同的主机上,当有主机发生异常,无法正常提供服务的时候,其于的备份会继续提供服务.tair 的总体结构

81个开源大数据处理工具汇总(上),包括查询引擎/流式计算/存储

tair 作为一个分布式系统,是由一个中心控制节点和一系列的服务节点组成. 我们称中心控制节点为config server. 服务节点是data server. config server 负责管理所有的data server,维护data server的状态信息. data server 对外提供各种数据服务,并以心跳的形式将自身状况汇报给config server. config server是控制点,而且是单点,目前采用一主一备的形式来保证其可靠性. 所有的 data server 地位都是等价的.

八、Apache?Accumulo

81个开源大数据处理工具汇总(上),包括查询引擎/流式计算/存储

Apache Accumulo 是一个可靠的、可伸缩的、高性能的排序分布式的 Key-Value 存储解决方案,基于单元访问控制以及可定制的服务器端处理。Accumulo使用 Google BigTable 设计思路,基于 Apache Hadoop、Zookeeper 和 Thrift 构建。

?

官网:http://accumulo.apache.org/

九、Redis

81个开源大数据处理工具汇总(上),包括查询引擎/流式计算/存储

Redis是一个高性能的key-value存储系统,和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)和zset(有序集合)。与memcached一样,为了保证效率,数据都是缓存在内存中,区别的是Redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了主从同步。

Redis的出现,很大程度补偿了memcached这类key/value存储的不足,在部分场合可以对关系数据库起到很好的补充作用。它提供了Python、Ruby、Erlang、PHP客户端,使用很方便。

官网:http://redis.io/

?

表格存储

?一、OceanBase

贡献者:阿里巴巴

相关文章:26页PPT解密支撑支付宝交易的分布式数据库系统——OceanBase

(编辑:网站开发网_马鞍山站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!