二分K-Means无监督学习实现 Main第一步,对dataframe进行过滤.第二步,对数据类型进行分类第三步,构建模型,添加列第四步,过滤出对应类型的DF,然后进行二分类计算实现二分K-Means静态变量簇列: scalaval clusterList:mutabl 2022-10-07 机器学习 bigdata 机器学习 数仓项目-用户行为数据 用户行数据的目标数据组成启动数据 启动入口————图标(icon),通知(notification),安装后启动(install) 加载时间————100 开屏广告id————2 广告播放时间————1000 用户跳过广告时间 启动时间 2022-07-22 Data Warehouse 基本数据库语言 DQLselect * from t1 DMLupdateupdate t1 set t1.name = '张珊' where t1.id = 20 deletedelete from t1 [Where] -- 自动增长的列的记录值不 2022-07-20 MySQL 基本数据库语言 存储过程 概念理解一组SQL数据集,为了完成特定功能。 一次编译,永久有效。用户通过指定存储过程的名字并给出参数来执行它。 数据库中的一个重要对象。 在数据量特别庞大的情况下可以达到倍数的效率提升。 分类1.系统存储过程以**sp_**开头,系统自带 2022-07-20 MySQL 存储过程 drop,truncate,delete的区别 前言对于drop、truncate和delete,虽然简单,但是真要使用或者面试时候问到还是需要有一定的总结,自己也比较懒,前面很多人总结过了,但是并不完善,因此参看多篇文章之后进行一个总结。在此之前先简单了解下什么是DDL和DML。DDL 2022-07-09 MySQL MySQL基础 Spark金典例题 解题方案package com.tzk.sparksql.module import org.apache.spark.SparkConf import org.apache.spark.sql.{Dataset, Enco 2022-07-04 spark spark spark读取文件 CSV文件的读取代码展示方法一 val df1 = spark.read .option("header","false") .option("multiLine","true") .option(" 2022-07-04 spark spark Kafka基础 Kafka概述1.1 定义Kafka是一个分布式的基于发布/订阅模式的消费队列。 1.2 消息队列特点:异步处理,将消息的发送与消息的接收通过消息队列隔离开来。图解如下: 1.2.1 消息队列的两种模式(1)点对点模式(一对一,消费者主动 2022-06-15 Kafka Kafka基础概念 hive题目 蚂蚁金服题目第一题:/*问题:查询user_low_carbon表中每日流水记录,条件为: 用户在2017年,连续三天(或以上)的天数里, 每天减少碳排放(low_carbon)都超过100g的用户低碳流水。 需要查询返回满足以上条件的us 2022-06-11 hive hive 数据倾斜问题(Hive) 6大倾斜问题清单 NULL值导致的数据倾斜 大文件不可拆分导致的数据倾斜 小表JOIN大表导致的数据倾斜 统一字段不同数据类型导致的数据倾斜 确实无法减少数据量导致的数据倾斜 数据膨胀导致的数据倾斜 1. 空值导致的数据倾斜原因:key值 2022-06-09 Hive 数据倾斜 MR源码 源码解析:Job提交流程源码解析 waitForCompletion() submit(); // 1建立连接 connect(); // 1)创建提交Job的代理 new Cluster 2022-06-07 MapReduce MR 数仓项目-数据准备 日志数据的准备在此项目中,由于配置了两个生产者,所以,分别在hadoop101,hadoop102上修改生成数据的时间. # 修改两台机器上的生产者时间为2020-06-16 vim /opt/module/EBDW/applog/appl 2022-04-21 Data Warehouse