hadoop（14） Map Reduce
排序、合并

发表于 2019-12-09 | 分类于 hadoop ， map-reduce ， sort

| 字数统计: 2k 字 | 阅读时长 ≈ 9 分钟

排序，是 MapReduce 中最重要的操作之一。默认的排序方式是 字典排序，且实现此排序的方式是 快速排序。

MapTask 和 MapReduce 均会对数据按照 key 进行排序，该操作属于 Hadoop 的默认操作。任何程序中的数据均会被排序，不论逻辑上是否需要。

阅读全文 »

hadoop（13） Map Reduce
工作流程、Shuffle

发表于 2019-12-05 | 分类于 hadoop ， map-reduce ， shuffle

| 字数统计: 1.1k 字 | 阅读时长 ≈ 4 分钟

在了解了常见的 InputFormat，及其处理分片的方式后，通过集成 FileInputFormat 自实现了一个自定义的 InputFormat，并通过自实现的 InputFormat，完成了一个对小文件的汇总合并工作。

那么此时，就需要深入了解一下 MapReduce 的具体工作流程

阅读全文 »

hadoop（12） Map Reduce
MapReduce 框架原理：InputFormat（二）

发表于 2019-12-05 | 分类于 hadoop ， map-reduce ， input-format

| 字数统计: 2.1k 字 | 阅读时长 ≈ 8 分钟

此前了解了 InputFormat 运行时，需要参考的 MapTask 并行度决定机制，以及任务提交的流程，那么接下来就需要深入分析 InputFormat 机制。

阅读全文 »

hadoop（11） Map Reduce
MapReduce 框架原理：InputFormat（一）
MapTask 并行度决定机制

发表于 2019-12-04 | 分类于 hadoop ， map-reduce ， input-format

| 字数统计: 1.7k 字 | 阅读时长 ≈ 7 分钟

在了解了 Hadoop 的序列化操作，实现了基本的 Bean 序列化的一个 demo，接下来分析一下 MapReduce 的框架原理。

阅读全文 »

hadoop（10） Map Reduce
序列化

发表于 2019-12-04 | 分类于 hadoop ， map-reduce

| 字数统计: 1.1k 字 | 阅读时长 ≈ 4 分钟

在 MapReduce 的数据序列化类型中，介绍了几种常见的 Hadoop 序列化类，实现了一个基础的 WordCount Demo，使用到了 Long、String、Integer 对应的序列化类，那么接下来就需要了解一下 Hadoop 具体的怎么序列化的。

阅读全文 »

hadoop（9） Map Reduce
基础概念，WordCount Demo 实现

发表于 2019-12-02 | 分类于 hadoop ， map-reduce

| 字数统计: 2.3k 字 | 阅读时长 ≈ 9 分钟

HDFS、MapReduce、Yarn 是 Hadoop 的三大模块，其中，HDFS 负责存储，MapReduce 负责计算，Yarn 负责资源调度

阅读全文 »

Hadoop（8）
DataNode、小文件存档

发表于 2019-12-02 | 分类于 hadoop ， hdfs

| 字数统计: 2.6k 字 | 阅读时长 ≈ 11 分钟

在了解了 NameNode、SecondaryNameNode 的工作机制、FsImage 与 Edits 数据备份、NameNode 安全机制与多目录后，对 NameNode 有了一些基础了解。在此基础之上，接下来了解一下 DataNode 的工作机制。

阅读全文 »

Hadoop（7）
NameNode 和 SecondaryNameNode、集群安全模式

发表于 2019-11-28 | 分类于 hadoop ， hdfs

| 字数统计: 3.2k 字 | 阅读时长 ≈ 14 分钟

此前通过代码了解了 HDFS API 和 I/O 操作，并了解了 HDFS 读写数据的过程，对 HDFS 整体运行过程有了初步了解。接下来就需要了解一下 NN（NameNode）、2NN（SecondaryNameNode）的区别

阅读全文 »

Hadoop（6）
HDFS API 操作

发表于 2019-11-27 | 分类于 hadoop ， hdfs

| 字数统计: 2k 字 | 阅读时长 ≈ 8 分钟

此前，完成了一个基础的完全分布式集群，并且使用 Java 程序代码实现测试连通了 Hadoop 集群，且在 HDFS 中创建了一个文件夹。由此开始学习 Hadoop 的一些 Java API 操作。

阅读全文 »

Hadoop（5）
HDFS

发表于 2019-09-22 | 分类于 hadoop ， hdfs

| 字数统计: 1.8k 字 | 阅读时长 ≈ 7 分钟

在此前，已经成功启动、测试了 hadoop 集群的功能，了解了部分 hadoop 知识，下面就需要开始针对 hadoop 进行继续深入学习 HDFS、MapReduce 的知识。

阅读全文 »