hadoop的发展历史
2004年—曾经在的版本(现在称作hdfs和mapreduce)由dougcutting和mikecafarella开始率先实施。
2005年12月—nutch移植到到新的框架,hadoop在20个节点上稳定运行。
2006年1月—dougcutting参加雅虎。
2006年2月—apachehadoop项目开始正常启动以意见mapreduce和hdfs的独立发展。
2006年2月—雅虎的网格计算团队按结构hadoop。
2006年4月—标准排序(10gb每个节点)在188个节点上运行程序47.9个小时。
…………
hadoop的工作原理是:
hadoop由许多元素构成。其最底部是hadoopdistributedfilesystem(hdfs),它存储文件hadoop集群中所有存储节点上的文件。hdfs(对此本文)的上一层是mapreduce引擎,该引擎由jobtrackers和tasktrackers排成。………
hadoop各高端点版本的介绍
apachehadoop2.0版本,有200以内模块:hadoop通用模块,意见其他hadoop模块的通用工具集hadoop分布式文件系统(hdfs),意见对应用数据高吞吐量ftp连接的分布式文件系统hadoopyarn,主要用于作业调度和集群资源管理的框架hadoopmapreduce,设计和实现yarn的大数据并行处理系统。hadoop目前除了社区版,也有各大厂商的发行版本。
cloudera:最成型的发行版本,具备至少的部署案例能提供强大的部署、管理和监控工具。开发并杰出贡献了可动态实时如何处理大数据的impala项目。
hortonworks:100%开源的apachehadoop仅有提供给商。hortonworks是第一家建议使用了apachehcatalog的元数据服务特性的需要提供商。但,他们的stinger如此大地优化系统了hive项目。hortonworks为人们提供了一个非常好的、易于使用的沙盒。hortonworks开发完毕了很多可以提高特性并并提交至核心主干,这也让apachehadoop能够在包括windowsservers和windowsazure在内的microsoftwindows平台上本地运行。
mapr:与竞争者比起,它使用了一些相同的概念,特别是就是为了资源更好的性能和