钱唯の个人博客

佳思忽来，书能下酒；侠情一往，云可赠人。

大数据生态圈技术总结（持续补充）

更新于 2016-05-27 | 分类于大数据 |

分布式文件系统

磁盘
- HDFS
- S3
- Ceph
- NFS
- Gluster FS
内存
- Tachyon
- Spark

分布式数据库

磁盘
- Cassandra
- HBase
- MongoDB
内存
- Redis
- Memcached

分布式计算

批处理
- Hadoop MapReduce
- Spark(支持迭代)
- Flink(支持迭代)
流式计算
- Storm
- Samza
- Spark Streaming
- Flink
即席查询(ad-hoc)
- Hive
- SparkSQL
- Presto(Facebook)
- Impala
- Drill(Google Dremel的开源实现)

资源调度与管理

ZooKeeper
YARN
Mesos

分布式消息系统

StormMQ
RabbitMQ
ZeroMQ
Apache ActiveMQ
Jafka(LinkedIn)
Kafka(LinkedIn)

RPC框架

Apache Avro
Thrift(Facebook)
Kyro

集群监控

Zabbix
Ganglia
Nagios
Ambari()

数据收集

Flume
Scribe(Facebook)
Logstash
Kafka

图计算框架

Spark Graphx
PowerGraph
Giraph
Neo4j

大规模机器学习

Spark MLlib
Mahout
PredictionIO

搜索引擎

Lucene
Solr
ElasticSearch
Sphinx
SenseiDB

IaaS

OpenStack
Docker
Kubernetes(容器调度管理)

基础结构

LevelDB
SSTable(BigTable基础)
RecordIO(文件格式)
Flat Buffer(Google, 高效、跨平台的序列化库)
ProtocolBuffers(Google, 数据描述语言，类似于XML能够将结构化数据序列化，可用于数据存储、通信协议等方面)
Consistent Hashing
Netty(提供异步的、事件驱动的网络应用程序框架和工具，用以快速开发高性能、高可靠性的网络服务器和客户端程序)
BloomFilter

参考

http://www.36dsj.com/archives/25042
http://www.csdn.net/article/2015-09-11/2825674