13518219792

建站动态

根据您的个性需求进行定制 先人一步 抢占小程序红利时代

创新互联Hadoop教程:Hadoop关于

主要记录了Hadoop各个组件的基本原理,处理过程和关键的知识点等,包括HDFS、YARN、MapReduce等。

本教程内容来源于 PennyWong

更新日期 更新内容
2015-5-7Hadoop文档

铺垫

硬件问题:复制数据解决(RAID)

分析需要从不同的硬盘读取数据:MapReduce

而Hadoop提供了

1.可靠的共享存储(分布式存储) 2.抽象的分析接口(分布式分析)

大数据

概念

不能使用一台机器进行处理的数据

大数据的核心是样本=总体

特性

关键技术

1.数据分布在多台机器

可靠性:每个数据块都复制到多个节点

性能:多个节点同时处理数据

2.计算随数据走

网络IO速度 << 本地磁盘IO速度,大数据系统会尽量地将任务分配到离数据最近的机器上运行(程序运行时,将程序及其依赖包都复制到数据所在的机器运行)

代码向数据迁移,避免大规模数据时,造成大量数据迁移的情况,尽量让一段数据的计算发生在同一台机器上

3.串行IO取代随机IO

传输时间 << 寻道时间,一般数据写入后不再修改


网页题目:创新互联Hadoop教程:Hadoop关于
标题链接:http://cdbrznjsb.com/article/dhecodp.html

其他资讯

让你的专属顾问为你服务