BigData
10
07
07
22
数仓项目-用户行为数据 数仓项目-用户行为数据
用户行数据的目标数据组成启动数据 启动入口————图标(icon),通知(notification),安装后启动(install) 加载时间————100 开屏广告id————2 广告播放时间————1000 用户跳过广告时间 启动时间
2022-07-22
20
20
存储过程 存储过程
概念理解一组SQL数据集,为了完成特定功能。 一次编译,永久有效。用户通过指定存储过程的名字并给出参数来执行它。 数据库中的一个重要对象。 在数据量特别庞大的情况下可以达到倍数的效率提升。 分类1.系统存储过程以**sp_**开头,系统自带
2022-07-20
09
drop,truncate,delete的区别 drop,truncate,delete的区别
前言对于drop、truncate和delete,虽然简单,但是真要使用或者面试时候问到还是需要有一定的总结,自己也比较懒,前面很多人总结过了,但是并不完善,因此参看多篇文章之后进行一个总结。在此之前先简单了解下什么是DDL和DML。DDL
2022-07-09
04
Spark金典例题 Spark金典例题
解题方案package com.tzk.sparksql.module import org.apache.spark.SparkConf import org.apache.spark.sql.{Dataset, Enco
2022-07-04
04
spark读取文件 spark读取文件
CSV文件的读取代码展示方法一 val df1 = spark.read .option("header","false") .option("multiLine","true") .option("
2022-07-04
06
15
Kafka基础 Kafka基础
Kafka概述1.1 定义Kafka是一个分布式的基于发布/订阅模式的消费队列。 1.2 消息队列特点:异步处理,将消息的发送与消息的接收通过消息队列隔离开来。图解如下: 1.2.1 消息队列的两种模式(1)点对点模式(一对一,消费者主动
2022-06-15
11
hive题目 hive题目
蚂蚁金服题目第一题:/*问题:查询user_low_carbon表中每日流水记录,条件为: 用户在2017年,连续三天(或以上)的天数里, 每天减少碳排放(low_carbon)都超过100g的用户低碳流水。 需要查询返回满足以上条件的us
2022-06-11
09
数据倾斜问题(Hive) 数据倾斜问题(Hive)
6大倾斜问题清单 NULL值导致的数据倾斜 大文件不可拆分导致的数据倾斜 小表JOIN大表导致的数据倾斜 统一字段不同数据类型导致的数据倾斜 确实无法减少数据量导致的数据倾斜 数据膨胀导致的数据倾斜 1. 空值导致的数据倾斜原因:key值
2022-06-09
1 / 6