tzkTangXS

我的梦想
不是每个人都应该像我这样去建造一座水晶大教堂，但是每个人都应该拥有自己的梦想，设计自己的梦想，追求自己的梦想，实现自己的梦想。梦想是生命的灵魂，是心灵的灯塔，是引导人走向成功的信仰。有了崇高的梦想，只要矢志不渝地追求，梦想就会成为现实，奋斗就会变成壮举，生命就会创造奇迹。——罗伯·舒乐
                            
                            二分K-Means无监督学习实现
                        
                                Main第一步,对dataframe进行过滤.第二步,对数据类型进行分类第三步,构建模型,添加列第四步,过滤出对应类型的DF,然后进行二分类计算实现二分K-Means静态变量簇列:  
scalaval clusterList:mutabl
                            
                                2022-10-07
                            
                                    机器学习
                                
                                    bigdata
                                
                            机器学习
                        
                            数仓项目-用户行为数据
                        
                                用户行数据的目标数据组成启动数据
启动入口————图标(icon),通知(notification),安装后启动(install)
加载时间————100
开屏广告id————2
广告播放时间————1000
用户跳过广告时间
启动时间

                                2022-07-22
                            
                                    Data Warehouse
                                
                            基本数据库语言
                        
                                DQLselect * from t1

DMLupdateupdate t1 set t1.name = '张珊' where t1.id = 20

deletedelete from t1 [Where] -- 自动增长的列的记录值不
                            
                                2022-07-20
                            
                                    MySQL
                                
                            基本数据库语言
                        
                            存储过程
                        
                                概念理解一组SQL数据集，为了完成特定功能。
一次编译，永久有效。用户通过指定存储过程的名字并给出参数来执行它。
数据库中的一个重要对象。
在数据量特别庞大的情况下可以达到倍数的效率提升。
分类1.系统存储过程以**sp_**开头，系统自带
                            
                                2022-07-20
                            
                                    MySQL
                                
                            存储过程
                        
                            drop,truncate,delete的区别
                        
                                前言对于drop、truncate和delete，虽然简单，但是真要使用或者面试时候问到还是需要有一定的总结，自己也比较懒，前面很多人总结过了，但是并不完善，因此参看多篇文章之后进行一个总结。在此之前先简单了解下什么是DDL和DML。DDL
                            
                                2022-07-09
                            
                                    MySQL
                                
                            MySQL基础
                        
                            Spark金典例题
                        
解题方案package com.tzk.sparksql.module

import org.apache.spark.SparkConf
import org.apache.spark.sql.{Dataset, Enco
                            
                                2022-07-04
                            
                                    spark
                                
                            spark
                        
                            spark读取文件
                        
                                CSV文件的读取代码展示方法一
 val df1  = spark.read
      .option("header","false")
      .option("multiLine","true")
      .option("
                            
                                2022-07-04
                            
                                    spark
                                
                            spark
                        
                            Kafka基础
                        
                                Kafka概述1.1 定义Kafka是一个分布式的基于发布/订阅模式的消费队列。
1.2 消息队列特点：异步处理，将消息的发送与消息的接收通过消息队列隔离开来。图解如下：

1.2.1 消息队列的两种模式（1）点对点模式（一对一，消费者主动
                            
                                2022-06-15
                            
                                    Kafka
                                
                            Kafka基础概念
                        
                            hive题目
                        
                                蚂蚁金服题目第一题：/*问题：查询user_low_carbon表中每日流水记录，条件为：
用户在2017年，连续三天（或以上）的天数里，
每天减少碳排放（low_carbon）都超过100g的用户低碳流水。
需要查询返回满足以上条件的us
                            
                                2022-06-11
                            
                                    hive
                                
                            hive
                        
                            数据倾斜问题（Hive）
                        
                                6大倾斜问题清单
NULL值导致的数据倾斜
大文件不可拆分导致的数据倾斜
小表JOIN大表导致的数据倾斜
统一字段不同数据类型导致的数据倾斜
确实无法减少数据量导致的数据倾斜
数据膨胀导致的数据倾斜

1. 空值导致的数据倾斜原因：key值
                            
                                2022-06-09
                            
                                    Hive
                                
                            数据倾斜
                        
                            MR源码
                        
                                源码解析：Job提交流程源码解析
waitForCompletion()

submit();

// 1建立连接
    connect();    
        // 1）创建提交Job的代理
        new Cluster
                            
                                2022-06-07
                            
                                    MapReduce
                                
                            MR
                        
                            数仓项目-数据准备
                        
                                日志数据的准备在此项目中，由于配置了两个生产者，所以，分别在hadoop101,hadoop102上修改生成数据的时间.
# 修改两台机器上的生产者时间为2020-06-16
vim /opt/module/EBDW/applog/appl
                            
                                2022-04-21
                            
                                    Data Warehouse
电商数仓-测试与优化

Spark性能调优经验总结

手撕java集合

shell指令(电商数仓项目)

shell脚本中单引号和双引号的区别

二分K-Means无监督学习实现

数据倾斜问题（Hive）

数仓分成