归档 | tzkTangXS

2022

10

07

二分K-Means无监督学习实现

Main第一步,对dataframe进行过滤.第二步,对数据类型进行分类第三步,构建模型,添加列第四步,过滤出对应类型的DF,然后进行二分类计算实现二分K-Means静态变量簇列: scalaval clusterList:mutabl

2022-10-07 机器学习 bigdata

机器学习

07

22

数仓项目-用户行为数据

用户行数据的目标数据组成启动数据启动入口————图标(icon),通知(notification),安装后启动(install) 加载时间————100 开屏广告id————2 广告播放时间————1000 用户跳过广告时间启动时间

2022-07-22 Data Warehouse

20

基本数据库语言

DQLselect * from t1 DMLupdateupdate t1 set t1.name = '张珊' where t1.id = 20 deletedelete from t1 [Where] -- 自动增长的列的记录值不

2022-07-20 MySQL

基本数据库语言

20

存储过程

概念理解一组SQL数据集，为了完成特定功能。一次编译，永久有效。用户通过指定存储过程的名字并给出参数来执行它。数据库中的一个重要对象。在数据量特别庞大的情况下可以达到倍数的效率提升。分类1.系统存储过程以**sp_**开头，系统自带

2022-07-20 MySQL

存储过程

09

drop,truncate,delete的区别

前言对于drop、truncate和delete，虽然简单，但是真要使用或者面试时候问到还是需要有一定的总结，自己也比较懒，前面很多人总结过了，但是并不完善，因此参看多篇文章之后进行一个总结。在此之前先简单了解下什么是DDL和DML。DDL

2022-07-09 MySQL

MySQL基础

04

Spark金典例题

解题方案package com.tzk.sparksql.module import org.apache.spark.SparkConf import org.apache.spark.sql.{Dataset, Enco

2022-07-04 spark

spark

04

spark读取文件

CSV文件的读取代码展示方法一 val df1 = spark.read .option("header","false") .option("multiLine","true") .option("

2022-07-04 spark

spark

06

15

Kafka基础

Kafka概述1.1 定义Kafka是一个分布式的基于发布/订阅模式的消费队列。 1.2 消息队列特点：异步处理，将消息的发送与消息的接收通过消息队列隔离开来。图解如下： 1.2.1 消息队列的两种模式（1）点对点模式（一对一，消费者主动

2022-06-15 Kafka

Kafka基础概念

11

hive题目

蚂蚁金服题目第一题：/*问题：查询user_low_carbon表中每日流水记录，条件为：用户在2017年，连续三天（或以上）的天数里，每天减少碳排放（low_carbon）都超过100g的用户低碳流水。需要查询返回满足以上条件的us

2022-06-11 hive

hive

09

数据倾斜问题（Hive）

6大倾斜问题清单 NULL值导致的数据倾斜大文件不可拆分导致的数据倾斜小表JOIN大表导致的数据倾斜统一字段不同数据类型导致的数据倾斜确实无法减少数据量导致的数据倾斜数据膨胀导致的数据倾斜 1. 空值导致的数据倾斜原因：key值

2022-06-09 Hive

数据倾斜