BigData
数仓项目-用户行为数据 数仓项目-用户行为数据
用户行数据的目标数据组成启动数据 启动入口————图标(icon),通知(notification),安装后启动(install) 加载时间————100 开屏广告id————2 广告播放时间————1000 用户跳过广告时间 启动时间
2022-07-22
数仓项目-数据准备 数仓项目-数据准备
日志数据的准备在此项目中,由于配置了两个生产者,所以,分别在hadoop101,hadoop102上修改生成数据的时间. # 修改两台机器上的生产者时间为2020-06-16 vim /opt/module/EBDW/applog/appl
2022-04-21
静态分区和动态分区的sql 静态分区和动态分区的sql
动态分区insert overwrite table dwd_comment_info partition (dt) select id, user_id, sku_id, spu_id,
2021-12-13
维度表和事实表 维度表和事实表
维度表相当于对象 事实表存储维度表外键与度量值(这个事件中除了对象之外的属性) 接下来直接上例子,就很好理解了做一个淘宝的模拟建模:今天小明去淘宝买了一瓶灵泛得乐,花费25块钱 维度表:根据时间,地点,人物理论建模time(时间)s
2021-12-13
数仓分成 数仓分成
数据库分层图 数据库各层的功能解析 ODS:元数据层,对于原始数据的一个备份 DWD:数据明细层,对数据的一个清洗(判空过滤,去除脏数据),保存业务事实明细,一行数据代表用户的一次业务行为。如:一次下单。 ADS:数据应用层,为各种报表
2021-11-17
电商数仓-测试与优化 电商数仓-测试与优化
电商数据仓库项目基准测试为什么要做基准测试?在企业中非常关心每天从Java后台拉取过来的数据,需要多久能上传到集群?消费者关心多久能从HDFS上拉取需要的数据? 为了搞清楚HDFS的读写性能,生产环境上非常需要对集群进行压测。 怎么做 第