Laiyy 的个人小站


  • 首页

  • 关于我

  • 标签

  • 分类

  • 归档

  • 搜索

Hive(三)
JDBC 访问、常用命令

发表于 2019-12-26 | 分类于 hive
| 字数统计: 1.3k 字 | 阅读时长 ≈ 6 分钟

Hive 的元数据可以存储在 MySQL 中,解决了 derby 只能单客户端连接的问题。Hive 也可以开启类似 JDBC 的连接查询方式。

阅读全文 »

Hive(二)
本地文件导入 Hive、MySQL 存储元数据

发表于 2019-12-23 | 分类于 hive
| 字数统计: 1.9k 字 | 阅读时长 ≈ 10 分钟

除了使用命令创建表、插入数据外,也可以将本地文件数据导入 Hive。

阅读全文 »

Hive(一)
基础概念、安装、基础命令

发表于 2019-12-20 | 分类于 hive
| 字数统计: 1.8k 字 | 阅读时长 ≈ 8 分钟

Hive 是 Facebook 开源的用于解决 海量结构化日志 的数据统计。
Hive 是基于 Hadoop 的数据仓库地址,可以 将结构化的数据文件映射为一张表,并提供 类似 SQL 的查询功能。
Hive 的本质是将 HQL(Hive Query Language) 转化为 MapReduce。

阅读全文 »

Zookeeper(二)
原理、Java API 操作

发表于 2019-12-20 | 分类于 zookeeper
| 字数统计: 2.2k 字 | 阅读时长 ≈ 9 分钟

 

阅读全文 »

Zookeeper(一)
安装、命令行操作

发表于 2019-12-19 | 分类于 zookeeper
| 字数统计: 3.1k 字 | 阅读时长 ≈ 15 分钟

Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务器的项目。

阅读全文 »

hadoop(19)Map Reduce
多 Job 串联、Top N

发表于 2019-12-18 | 分类于 hadoop , map-reduce
| 字数统计: 897 字 | 阅读时长 ≈ 4 分钟

在之前的示例中,都是单个 Job 执行 MapReduce 程序,如何进行多 Job 串联?

阅读全文 »

hadoop(18) YARN
资源调度器、Hadoop 优化

发表于 2019-12-16 | 分类于 hadoop , yarn
| 字数统计: 3.4k 字 | 阅读时长 ≈ 12 分钟

Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的 操作系统,而 MapReduce 等运算程序相当于 操作系统上的应用程序

阅读全文 »

hadoop(17) Map Reduce
计数器、压缩

发表于 2019-12-13 | 分类于 hadoop , map-reduce
| 字数统计: 3k 字 | 阅读时长 ≈ 12 分钟

Hadoop 为每个作业维护若干个内置计数器,以描述多项指标。
如:记录已处理的字节数和记录数,使用户可以监控已处理的输入数据量和已产生的输出数据量

阅读全文 »

hadoop(16) Map Reduce
ReduceJoin、MapJoin

发表于 2019-12-13 | 分类于 hadoop , map-reduce , map-join
| 字数统计: 1.2k 字 | 阅读时长 ≈ 5 分钟

ReduceJoin 的工作:

Map 端的主要工作:为来自不同表或者文件的 KV 对,打标签以区别不同来源的记录,然后用连接字段作为 key,其余部分和新加的标志位作为 value,最后进行输出。
Reduce 端的主要工作:在 Reduce 端以连接字段作为 key 的分组已经完成,只需要在每个分组中,将那么来源于不同文件的记录分开,最后完成合并即可。

阅读全文 »

hadoop(15) Map Reduce
工作流程、OutputFormat

发表于 2019-12-10 | 分类于 hadoop , map-reduce
| 字数统计: 1.1k 字 | 阅读时长 ≈ 4 分钟

MapTask 流程分为:Read 阶段、Map 阶段、Collect 阶段、溢写阶段、Combine 阶段
ReduceTask 流程分为:Copy 阶段、Merge 阶段、Sort 阶段、Reduce 阶段

阅读全文 »
123…9
Laiyy

Laiyy

简介

88 日志
19 分类
35 标签
RSS
GitHub E-Mail 简 书
UV:
|
PV:
© 2018 — 2020 laiyy | 网站总字数: 151.9k 字
0%