Laiyy 的个人小站


  • 首页

  • 关于我

  • 标签

  • 分类

  • 归档

  • 搜索

hadoop(14) Map Reduce
排序、合并

发表于 2019-12-09 | 分类于 hadoop , map-reduce , sort
| 字数统计: 2k 字 | 阅读时长 ≈ 9 分钟

排序,是 MapReduce 中最重要的操作之一。默认的排序方式是 字典排序,且实现此排序的方式是 快速排序。

MapTask 和 MapReduce 均会对数据按照 key 进行排序,该操作属于 Hadoop 的默认操作。任何程序中的数据均会被排序,不论逻辑上是否需要。

阅读全文 »

hadoop(13) Map Reduce
工作流程、Shuffle

发表于 2019-12-05 | 分类于 hadoop , map-reduce , shuffle
| 字数统计: 1.1k 字 | 阅读时长 ≈ 4 分钟

在了解了常见的 InputFormat,及其处理分片的方式后,通过集成 FileInputFormat 自实现了一个自定义的 InputFormat,并通过自实现的 InputFormat,完成了一个对小文件的汇总合并工作。

那么此时,就需要深入了解一下 MapReduce 的具体工作流程

阅读全文 »

hadoop(12) Map Reduce
MapReduce 框架原理:InputFormat(二)

发表于 2019-12-05 | 分类于 hadoop , map-reduce , input-format
| 字数统计: 2.1k 字 | 阅读时长 ≈ 8 分钟

此前了解了 InputFormat 运行时,需要参考的 MapTask 并行度决定机制,以及任务提交的流程,那么接下来就需要深入分析 InputFormat 机制。

阅读全文 »

hadoop(11) Map Reduce
MapReduce 框架原理:InputFormat(一)
MapTask 并行度决定机制

发表于 2019-12-04 | 分类于 hadoop , map-reduce , input-format
| 字数统计: 1.7k 字 | 阅读时长 ≈ 7 分钟

在了解了 Hadoop 的序列化操作,实现了基本的 Bean 序列化的一个 demo,接下来分析一下 MapReduce 的框架原理。

阅读全文 »

hadoop(10) Map Reduce
序列化

发表于 2019-12-04 | 分类于 hadoop , map-reduce
| 字数统计: 1.1k 字 | 阅读时长 ≈ 4 分钟

在 MapReduce 的 数据序列化类型 中,介绍了几种常见的 Hadoop 序列化类,实现了一个基础的 WordCount Demo,使用到了 Long、String、Integer 对应的序列化类,那么接下来就需要了解一下 Hadoop 具体的怎么序列化的。

阅读全文 »

hadoop(9) Map Reduce
基础概念,WordCount Demo 实现

发表于 2019-12-02 | 分类于 hadoop , map-reduce
| 字数统计: 2.3k 字 | 阅读时长 ≈ 9 分钟

HDFS、MapReduce、Yarn 是 Hadoop 的三大模块,其中,HDFS 负责存储,MapReduce 负责计算,Yarn 负责资源调度

阅读全文 »

Hadoop(8)
DataNode、小文件存档

发表于 2019-12-02 | 分类于 hadoop , hdfs
| 字数统计: 2.6k 字 | 阅读时长 ≈ 11 分钟

在了解了 NameNode、SecondaryNameNode 的工作机制、FsImage 与 Edits 数据备份、NameNode 安全机制与多目录后,对 NameNode 有了一些基础了解。在此基础之上,接下来了解一下 DataNode 的工作机制。

阅读全文 »

Hadoop(7)
NameNode 和 SecondaryNameNode、集群安全模式

发表于 2019-11-28 | 分类于 hadoop , hdfs
| 字数统计: 3.2k 字 | 阅读时长 ≈ 14 分钟

此前通过代码了解了 HDFS API 和 I/O 操作,并了解了 HDFS 读写数据的过程,对 HDFS 整体运行过程有了初步了解。接下来就需要了解一下 NN(NameNode)、2NN(SecondaryNameNode) 的区别

阅读全文 »

Hadoop(6)
HDFS API 操作

发表于 2019-11-27 | 分类于 hadoop , hdfs
| 字数统计: 2k 字 | 阅读时长 ≈ 8 分钟

此前,完成了一个基础的完全分布式集群,并且使用 Java 程序代码实现测试连通了 Hadoop 集群,且在 HDFS 中创建了一个文件夹。由此开始学习 Hadoop 的一些 Java API 操作。

阅读全文 »

Hadoop(5)
HDFS

发表于 2019-09-22 | 分类于 hadoop , hdfs
| 字数统计: 1.8k 字 | 阅读时长 ≈ 7 分钟

在此前,已经成功启动、测试了 hadoop 集群的功能,了解了部分 hadoop 知识,下面就需要开始针对 hadoop 进行继续深入学习 HDFS、MapReduce 的知识。

阅读全文 »
1234…9
Laiyy

Laiyy

简介

88 日志
19 分类
35 标签
RSS
GitHub E-Mail 简 书
UV:
|
PV:
© 2018 — 2020 laiyy | 网站总字数: 151.9k 字
0%