首页 › 分类存档 › hadoop

大数据存储之分布式文件系统

1.Google文件系统(GFS)

使用一堆廉价的商用计算机支撑大规模数据处理。

GFSClient: 应用程序的访问接口

Master(主控服务器):管理节点,在逻辑上只有一个(还有一台“影子服务器“,在主控服务器失效时提供元数据,但并不是完整的热备服务器),保存系统的元[......]

Read more

MapReduce初级案例

1、数据去重

数据去重“主要是为了掌握和利用并行化思想来对数据进行有意义筛选统计大数据集上的数据种类个数从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。

1.1 实例描述

对数据文件中的数据进行去重。数据文件中的每行都是一个数[......]

Read more

Hadoop示例程序WordCount详解及实例

1.图解MapReduce

MapReduce整体流程图

并行读取文本中的内容,然后进行MapReduce操作

Map过程:并行读取三行,对读取的单词进行map操作,每个词都以<key,value>形式生成

reduce操作是对map的结果进行排序,合并,最后得出词频[......]

Read more