BigData
06
15
Kafka基础 Kafka基础
Kafka概述1.1 定义Kafka是一个分布式的基于发布/订阅模式的消费队列。 1.2 消息队列特点:异步处理,将消息的发送与消息的接收通过消息队列隔离开来。图解如下: 1.2.1 消息队列的两种模式(1)点对点模式(一对一,消费者主动
2022-06-15
11
hive题目 hive题目
蚂蚁金服题目第一题:/*问题:查询user_low_carbon表中每日流水记录,条件为: 用户在2017年,连续三天(或以上)的天数里, 每天减少碳排放(low_carbon)都超过100g的用户低碳流水。 需要查询返回满足以上条件的us
2022-06-11
09
数据倾斜问题(Hive) 数据倾斜问题(Hive)
6大倾斜问题清单 NULL值导致的数据倾斜 大文件不可拆分导致的数据倾斜 小表JOIN大表导致的数据倾斜 统一字段不同数据类型导致的数据倾斜 确实无法减少数据量导致的数据倾斜 数据膨胀导致的数据倾斜 1. 空值导致的数据倾斜原因:key值
2022-06-09
07
MR源码 MR源码
源码解析:Job提交流程源码解析 waitForCompletion() submit(); // 1建立连接 connect(); // 1)创建提交Job的代理 new Cluster
2022-06-07