BigData
理论实战经验汇总 理论实战经验汇总
SparkSparkCoreSpark工作流程图解: 文字解说:1.SparkContext向资源管理器注册并申请资源运行Executor 2.资源管理器分配资源,运行Executor 3.Executor发送心跳至资源管理器 4.Spar
2022-04-19
SparkSQL小题 SparkSQL小题
数据准备创表语句 click_product_id CREATE TABLE `user_visit_action`( `date` string, `user_id` bigint, `session_id` string, `p
2022-04-17
SparkSQL用户自定义函数 SparkSQL用户自定义函数
UDF package com.tzk.sparksql.udf import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession object UD
2022-04-16
scala读取复杂gson文件 scala读取复杂gson文件
数据{ "RECORDS": [ { "user_id": "10408199", "user_name": "lym20137109", "regist_channel"
2022-04-15
scala集合与java集合的互转 scala集合与java集合的互转
通过隐式转换 import scala.collection.JavaConverters._ //创建scala集合 val list = List(1,2,3) //scala转java val jList = list.asJava
2022-04-15
SparkSQL的基础命令 SparkSQL的基础命令
DF,DS,RDD三者转换 val rdd = sc.makeRDD(List(("张三",23),("李四",22))) // RDD => DF val df = rdd.toDF // RDD => DS // 可以直接转,但是工作
2022-04-15
SparkSQL组件的理解 SparkSQL组件的理解
DataFrame他是一种以RDD为基础的分布式数据集,相当于传统数据库的二维表. 但是,他与RDD的主要区别在于,他包含了schema元信息. 即他为数据提供了schema的视图.具体见下图 然后有以下几点需要理解: 他是包含
2022-04-14
shell脚本中单引号和双引号的区别 shell脚本中单引号和双引号的区别
‘ ‘里面的东西,不能解析引用e.gexport name = 12 echo ‘$name ‘ 输出的就是$name而echo “$name” 输出的是 \12 =====================================
2022-04-04
2022-04-04 tzkTangXS
创建Hive表时,报错Unknown column 'A0.IS_REWRITE_ENABLED' in 'field list' 创建Hive表时,报错Unknown column 'A0.IS_REWRITE_ENABLED' in 'field list'
创建Hive表时,报错Unknown column ‘A0.IS_REWRITE_ENABLED’ in ‘field list’解决方案在hive的元数据(mysql中的metastore数据库中)的TBLS表中添加相应字段比如这次遇到的
2022-03-23
sql联接辨析 sql联接辨析
图解 union 和 union all的异同 相同点首先两表所查询的列数与列的类型顺序都必须相同.(简单点,就是所要查询的列要相同) 区别union去重,而union all不去重 用法:select * from t1 unoin se
2022-02-28
2 / 5