我的梦想
不是每个人都应该像我这样去建造一座水晶大教堂,但是每个人都应该拥有自己的梦想,设计自己的梦想,追求自己的梦想,实现自己的梦想。梦想是生命的灵魂,是心灵的灯塔,是引导人走向成功的信仰。有了崇高的梦想,只要矢志不渝地追求,梦想就会成为现实,奋斗就会变成壮举,生命就会创造奇迹。——罗伯·舒乐
  推荐文章
Data Warehouse bigdata

电商数仓-测试与优化

电商数据仓库项目基准测试为什么要做基准测试?在企业中非常关心每天从Java后台拉取过来的数据,需要多久能上传到集群?消费者关心多久能从HDF

阅读更多
spark

Spark性能调优经验总结

常规性能调优资源配置方面 方式 原理 –num-executors 通过提高task并行度提高效率 –executor-cor

阅读更多
java

手撕java集合

讲集合先上图 collection 1.collection对上继承iterable类,所以collection及其子类皆可以调用itera

阅读更多
shell Data Warehouse

shell指令(电商数仓项目)

集群分发脚本#!/bin/bash #使用方法: #第一个参数输入文件路径 #如果只同步到一个服务器上就只要在第二个参数上填写服务器编号

阅读更多
shell

shell脚本中单引号和双引号的区别

‘ ‘里面的东西,不能解析引用e.gexport name = 12 echo ‘$name ‘ 输出的就是$name而echo “$na

阅读更多
机器学习 bigdata

二分K-Means无监督学习实现

Main第一步,对dataframe进行过滤.第二步,对数据类型进行分类第三步,构建模型,添加列第四步,过滤出对应类型的DF,然后进行二分类

阅读更多
Hive

数据倾斜问题(Hive)

6大倾斜问题清单 NULL值导致的数据倾斜 大文件不可拆分导致的数据倾斜 小表JOIN大表导致的数据倾斜 统一字段不同数据类型导致的数据倾斜

阅读更多
Data Warehouse

数仓分成

数据库分层图 数据库各层的功能解析 ODS:元数据层,对于原始数据的一个备份 DWD:数据明细层,对数据的一个清洗(判空过滤,去除脏数据)

阅读更多
二分K-Means无监督学习实现 二分K-Means无监督学习实现
Main第一步,对dataframe进行过滤.第二步,对数据类型进行分类第三步,构建模型,添加列第四步,过滤出对应类型的DF,然后进行二分类计算实现二分K-Means静态变量簇列: scalaval clusterList:mutabl
数仓项目-用户行为数据 数仓项目-用户行为数据
用户行数据的目标数据组成启动数据 启动入口————图标(icon),通知(notification),安装后启动(install) 加载时间————100 开屏广告id————2 广告播放时间————1000 用户跳过广告时间 启动时间
2022-07-22
基本数据库语言 基本数据库语言
DQLselect * from t1 DMLupdateupdate t1 set t1.name = '张珊' where t1.id = 20 deletedelete from t1 [Where] -- 自动增长的列的记录值不
2022-07-20
存储过程 存储过程
概念理解一组SQL数据集,为了完成特定功能。 一次编译,永久有效。用户通过指定存储过程的名字并给出参数来执行它。 数据库中的一个重要对象。 在数据量特别庞大的情况下可以达到倍数的效率提升。 分类1.系统存储过程以**sp_**开头,系统自带
2022-07-20
drop,truncate,delete的区别 drop,truncate,delete的区别
前言对于drop、truncate和delete,虽然简单,但是真要使用或者面试时候问到还是需要有一定的总结,自己也比较懒,前面很多人总结过了,但是并不完善,因此参看多篇文章之后进行一个总结。在此之前先简单了解下什么是DDL和DML。DDL
2022-07-09
Spark金典例题 Spark金典例题
解题方案package com.tzk.sparksql.module import org.apache.spark.SparkConf import org.apache.spark.sql.{Dataset, Enco
2022-07-04
spark读取文件 spark读取文件
CSV文件的读取代码展示方法一 val df1 = spark.read .option("header","false") .option("multiLine","true") .option("
2022-07-04
Kafka基础 Kafka基础
Kafka概述1.1 定义Kafka是一个分布式的基于发布/订阅模式的消费队列。 1.2 消息队列特点:异步处理,将消息的发送与消息的接收通过消息队列隔离开来。图解如下: 1.2.1 消息队列的两种模式(1)点对点模式(一对一,消费者主动
2022-06-15
hive题目 hive题目
蚂蚁金服题目第一题:/*问题:查询user_low_carbon表中每日流水记录,条件为: 用户在2017年,连续三天(或以上)的天数里, 每天减少碳排放(low_carbon)都超过100g的用户低碳流水。 需要查询返回满足以上条件的us
2022-06-11
数据倾斜问题(Hive) 数据倾斜问题(Hive)
6大倾斜问题清单 NULL值导致的数据倾斜 大文件不可拆分导致的数据倾斜 小表JOIN大表导致的数据倾斜 统一字段不同数据类型导致的数据倾斜 确实无法减少数据量导致的数据倾斜 数据膨胀导致的数据倾斜 1. 空值导致的数据倾斜原因:key值
2022-06-09
MR源码 MR源码
源码解析:Job提交流程源码解析 waitForCompletion() submit(); // 1建立连接 connect(); // 1)创建提交Job的代理 new Cluster
2022-06-07
数仓项目-数据准备 数仓项目-数据准备
日志数据的准备在此项目中,由于配置了两个生产者,所以,分别在hadoop101,hadoop102上修改生成数据的时间. # 修改两台机器上的生产者时间为2020-06-16 vim /opt/module/EBDW/applog/appl
2022-04-21
1 / 5