BigData
06
07
MR源码 MR源码
源码解析:Job提交流程源码解析 waitForCompletion() submit(); // 1建立连接 connect(); // 1)创建提交Job的代理 new Cluster
2022-06-07
04
21
数仓项目-数据准备 数仓项目-数据准备
日志数据的准备在此项目中,由于配置了两个生产者,所以,分别在hadoop101,hadoop102上修改生成数据的时间. # 修改两台机器上的生产者时间为2020-06-16 vim /opt/module/EBDW/applog/appl
2022-04-21
19
理论实战经验汇总 理论实战经验汇总
SparkSparkCoreSpark工作流程图解: 文字解说:1.SparkContext向资源管理器注册并申请资源运行Executor 2.资源管理器分配资源,运行Executor 3.Executor发送心跳至资源管理器 4.Spar
2022-04-19
17
16
15
15
15
14
SparkSQL组件的理解 SparkSQL组件的理解
DataFrame他是一种以RDD为基础的分布式数据集,相当于传统数据库的二维表. 但是,他与RDD的主要区别在于,他包含了schema元信息. 即他为数据提供了schema的视图.具体见下图 然后有以下几点需要理解: 他是包含
2022-04-14
04
2 / 6