0.写在前面

这个系列记录了自己在大数据方向的学习历程，大致包含几个方面，第一部分是linux和高并发基础知识；第二部分是Hadoop体系相关内容，包括hdfs、MapReduce、hive、hbase和ZK等多个知识模块；第三部分是Spark体系相关知识，包括scala、spark-core、spark-sql、spark-stream和storm等知识模块；第四部分是Flink实时计算相关，包括了Flink基础、Flink SQL和Flink CDC等相关知识；第五部分是数据库相关知识，比如Nosql中的redis，ES等；第六部分是消息队列MQ相关，包括kafka、RocketMQ等；第七部分是数据同步相关；第八部分工作流调度相关。

1.linux和高并发基本知识

1.1 linux操作系统

1.1.1 linux和高并发-linux操作系统-linux虚拟机的安装

1.1.2 linux和高并发-linux操作系统-linux网络配置

1.1.3 linux和高并发-linux操作系统-linux简单命令学习

1.1.4 linux和高并发-linux操作系统-linux文件系统

1.2 linux基本命令

1.2.1 linux和高并发-linux基本命令-linux文件系统命令

1.2.2 linux和高并发-linux基本命令-vi全屏文本编辑器

1.2.3 linux和高并发-linux基本命令-正则表达式

1.2.4 linux和高并发-linux基本命令-文本分析

1.2.5 linux和高并发-linux基本命令-linux用户与权限

1.2.6 linux和高并发-linux基本命令-linux环境变量配置说明

1.3 linux软件安装

1.3.1 linux和高并发-linux软件安装-linux编译安装

1.3.2 linux和高并发-linux软件安装-rpm软件安装

1.3.3 linux和高并发-linux软件安装-yum安装及配置

1.4 shell编程

1.4.1 linux和高并发-shell编程-bash

1.4.2 linux和高并发-shell编程-文本流及重定向

1.4.3 linux和高并发-shell编程-变量

1.4.4 linux和高并发-shell编程-引用和逻辑判断

1.4.5 linux和高并发-shell编程-表达式（算术表达式+条件表达式）

1.4.6 linux和高并发-shell编程-添加用户脚本

1.4.7 linux和高并发-shell编程-流程控制

1.4.8 linux和高并发-shell编程-shell脚本编程总结

1.4.9 linux和高并发-shell编程-shell分发脚本

1.4.10 linux和高并发-shell编程-Zookeeper启动脚本（启动，停止，查看状态）

1.4.11 linux和高并发-shell编程-查看集群进程脚本

1.4.12 linux和高并发-shell编程-ha-hadoop脚本编写

1.5 网络基础知识

1.5.1 linux和高并发-网络基础知识-高并发与负载均衡之理论

1.5.2 linux和高并发-网络基础知识-网络TCP/IP基础知识

1.6 lvs集群和高并发

1.6.1 linux和高并发-lvs集群和高并发-lvs中3种模型推导

1.6.2 linux和高并发-lvs集群和高并发-lvs功能配置介绍

1.6.3 linux和高并发-lvs集群和高并发-lvs中DR模型实验

1.7 nginx集群和高并发

1.7.1 linux和高并发-nginx集群和高并发-反向代理概念

1.7.2 linux和高并发-nginx集群和高并发-Nginx的安装和配置

1.7.3 linux和高并发-nginx集群和高并发-Nginx反向代理和负载均衡实战

1.8 keepalived和单点故障

1.8.1 linux和高并发-keepalived和单点故障-keepalived概念

1.8.2 linux和高并发-keepalived和单点故障-keepalived安装和实验

2.hadoop体系之离线计算

2.1 hdfs分布式文件系统

2.1.0 hadoop体系之离线计算-hdfs分布式文件系统-基本环境配置

2.1.1 hadoop体系之离线计算-hdfs分布式文件系统-hadoop简介

2.1.2 hadoop体系之离线计算-hdfs分布式文件系统-存储模型（hdfs分布式存储系统）

2.1.3 hadoop体系之离线计算-hdfs分布式文件系统-副本机制+node工作机制+HDFS文件读写过程

2.1.4 hadoop体系之离线计算-hdfs分布式文件系统-架构模型

2.1.5 hadoop体系之离线计算-hdfs分布式文件系统-伪分布式安装

2.1.6 hadoop体系之离线计算-hdfs分布式文件系统-全分布式安装

2.1.6 hadoop体系之离线计算-hdfs分布式文件系统-全分布式安装（2）

2.1.6 hadoop体系之离线计算-hdfs分布式文件系统-全分布式安装hadoop2.7.7（3）

2.1.7 hadoop体系之离线计算-hdfs分布式文件系统-hdfs命令行使用和API操作

2.1.8 hadoop体系之离线计算-hdfs分布式文件系统-HA(高可用)-Hadoop集群环境搭建

2.1.9 hadoop体系之离线计算-hdfs分布式文件系统-Hadoop数据压缩

2.2 mapreduce分布式计算

2.2.1 hadoop体系之离线计算-mapreduce分布式计算-mapreduce架构概念

2.2.2 hadoop体系之离线计算-mapreduce分布式计算-WordCount案例

2.2.3 hadoop体系之离线计算-mapreduce分布式计算-MapReduce分区

2.2.4 hadoop体系之离线计算-mapreduce分布式计算-MapReduce序列化和排序

2.2.5 hadoop体系之离线计算-mapreduce分布式计算-MapReduce中的计数器

2.2.6 hadoop体系之离线计算-mapreduce分布式计算-规约Combiner

2.2.7 hadoop体系之离线计算-mapreduce分布式计算-流量统计之统计求和

2.2.8 hadoop体系之离线计算-mapreduce分布式计算-流量统计之上行流量倒序排序（递减排序）

2.2.9 hadoop体系之离线计算-mapreduce分布式计算-流量统计之手机号码分区

2.2.10 hadoop体系之离线计算-mapreduce分布式计算-MapReduce运行机制总结

2.2.11 hadoop体系之离线计算-mapreduce分布式计算-案例：Reduce端实现Join

2.2.12 hadoop体系之离线计算-mapreduce分布式计算-hadoop常见问题总结（hdfs+yarn+mapreduce）

2.3 Hive-数据仓库工具

2.3.1 hadoop体系之离线计算-Hive数据仓库-什么是数据仓库？

2.3.2 hadoop体系之离线计算-Hive数据仓库-Hive基本概念和架构分析

2.3.3 hadoop体系之离线计算-Hive数据仓库-Hive的安装和交互方式

2.3.3 hadoop体系之离线计算-Hive数据仓库-Hive的安装和交互方式(2)

2.3.4 hadoop体系之离线计算-Hive数据仓库-Hive数据库操作

2.3.5 hadoop体系之离线计算-Hive数据仓库-Hive表操作

2.3.6 hadoop体系之离线计算-Hive数据仓库-Hive查询语法

2.3.7 hadoop体系之离线计算-Hive数据仓库-Hive函数

2.3.8 hadoop体系之离线计算-Hive数据仓库-Hive常见问题总结

2.3.9 hadoop体系之离线计算-Hive数据仓库-hql实现wordcount操作

2.3.10 hadoop体系之离线计算-Hive数据仓库-MaxCompute SQL调优

2.3.11 hadoop体系之离线计算-Hive数据仓库-MaxCompute SQL多维聚合求PV和UV

2.3.12 hadoop体系之离线计算-Hive数据仓库-HIVE的严格模式

2.8 Hbase（列存储数据库）-NoSQL数据库

2.8.1 hadoop体系之离线计算-HBase数据库-HBase简介

2.8.2 hadoop体系之离线计算-HBase数据库-HBase安装和配置

2.8.3 hadoop体系之离线计算-HBase数据库-HBase Shell操作

2.8.4 hadoop体系之离线计算-HBase数据库-HBase java_api操作

2.8.5 hadoop体系之离线计算-HBase数据库-HBase高级-详细架构

2.8.6 hadoop体系之离线计算-HBase数据库-HBase高级-HBase写流程

2.8.7 hadoop体系之离线计算-HBase数据库-HBase高级-HBase-数据Flush过程

2.8.8 hadoop体系之离线计算-HBase数据库-HBase高级-HBase读流程

2.8.9 hadoop体系之离线计算-HBase数据库-HBase高级-HBase-StoreFile Compaction合并流程

2.8.10 hadoop体系之离线计算-HBase数据库-HBase高级-HBase-Region Split拆分

2.8.11 hadoop体系之离线计算-HBase数据库-HBase高级-HBase利用MapReduce

2.8.12 hadoop体系之离线计算-HBase数据库-HBase高级-HBase与Hive交互

2.8.13 hadoop体系之离线计算-HBase数据库-HBase的优化

2.8.14 hadoop体系之离线计算-HBase数据库-HBase常见问题总结

2.8.15 hadoop体系之离线计算-HBase数据库-项目实战：微博

2.4 Zookeeper-分布式服务框架

2.4.1 hadoop体系之离线计算-Zookeeper分布式服务框架-初识ZooKeeper

2.4.2 hadoop体系之离线计算-Zookeeper分布式服务框架-单机环境和集群环境搭建

2.4.3 hadoop体系之离线计算-Zookeeper分布式服务框架-解释Zookeeper的选举机制

3.spark体系之分布式计算

3.1 scala分布式计算机开发语言

3.1.1 spark体系之分布式计算-scala编程-scala介绍和安装（win+linux）

3.1.2 spark体系之分布式计算-scala编程-scala基础

3.1.3 spark体系之分布式计算-scala编程-scala函数

3.1.4 spark体系之分布式计算-scala编程-scala字符串

3.1.5 spark体系之分布式计算-scala编程-scala中的集合（数组array、list、set、map、元组）

3.1.6 spark体系之分布式计算-scala编程-scala中trait特性

3.1.7 spark体系之分布式计算-scala编程-scala中模式匹配match

3.2 spark-core之离线计算

3.2.1 spark体系之分布式计算-spark-core之离线计算-初识Spark

3.2.2 spark体系之分布式计算-spark-core之离线计算-Spark-Local模式环境搭建

3.2.3 spark体系之分布式计算-spark-core之离线计算-Spark-Standalone普通模式+HA模式

3.2.4 spark体系之分布式计算-spark-core之离线计算-计算WordCount（java版【eclipse】+scala版本【IDEA】）

3.2.5 spark体系之分布式计算-spark-core之离线计算-HA-Spark集群环境搭建(Yarn模式)

3.3 spark-sql

3.4 spark-stream流式计算

3.5 STORM流式框架

4.Flink-流处理框架

4.1 Flink基础知识

4.1.1 Flink-流处理框架-Flink简介

4.1.2 Flink-流处理框架-wordCount的批处理和流处理

4.1.3 Flink-流处理框架-Flink-Local模式环境搭建

4.1.4 Flink-流处理框架-Flink集群环境搭建(Standalone模式)

4.1.5 Flink-流处理框架-HA-Flink集群环境搭建(Standalone模式)

4.1.6 Flink-流处理框架-HA-Flink集群环境搭建(Yarn模式)

4.1.7 Flink-流处理框架-Flink On Yarn三种部署方式

4.1.8 Flink-流处理框架-Flink运行架构

4.1.9 Flink-流处理框架-Flink流处理API之Environment

4.1.10 Flink-流处理框架-Flink流处理API之Source数据源

4.1.11 Flink-流处理框架-Flink流处理API之Transform转换算子

4.1.12 Flink-流处理框架-Flink流处理API之支持的数据类型总结

4.1.13 Flink-流处理框架-Flink流处理API之实现 UDF 函数（更细粒度的控制流）

4.1.14 Flink-流处理框架-Flink流处理API之数据重分区操作

4.1.15 Flink-流处理框架-Flink流处理API之sink输出操作

4.1.16 Flink-流处理框架-Window API之Windows概述

4.1.17 Flink-流处理框架-Window API之窗口分配器

4.1.18 Flink-流处理框架-Window API之窗口函数window function

4.1.19 Flink-流处理框架-Flink中的时间语义和watermark水位线

4.1.20 Flink-流处理框架-ProcessFunction API（底层 API）

4.1.21 Flink-流处理框架-Flink中的状态管理之算子状态+键控状态

4.1.22 Flink-流处理框架-Flink中的状态管理之状态编程-温度跳变报警

4.1.23 Flink-流处理框架-Flink中的状态管理之状态后端

4.1.24 Flink-流处理框架-Flink中的容错机制之状态一致性级别和端到端的状态一致性

4.1.25 Flink-流处理框架-Flink中的容错机制之Flink+Kafka 端到端状态一致性的保证

4.1.26 Flink-流处理框架-Flink中的容错机制之检查点（checkpoint）

4.1.27 Flink-流处理框架-检查点恢复+flink检查点算法+保存点

4.1.28 Flink-流处理框架-Flink使用Lambda表达式引发了泛型擦除问题

4.2 Table API 和 Flink SQL

4.2.1 Flink-流处理框架-Table API 与 SQL-基本概念和简单实例程序

4.2.2 Flink-流处理框架-Table API 与 SQL-基本程序结构（创建表环境+在 Catalog 中注册表）

4.2.3 Flink-流处理框架-Table API 与 SQL-流转表+表转流+创建临时视图（Temporary View）

4.2.4 Flink-流处理框架-Table API 与 SQL-表的查询

4.2.5 Flink-流处理框架-Table API 与 SQL-表的输出

4.2.6 Flink-流处理框架-Table API 与 SQL-查看表的执行计划

4.2.7 Flink-流处理框架-Table API 与 SQL-流处理中的特殊概念之动态表+持续查询

4.2.8 Flink-流处理框架-Table API 与 SQL-流处理中的特殊概念之时间特性

4.2.9 Flink-流处理框架-Table API 与 SQL-流处理中的特殊概念之窗口（Windows）

4.2.10 Flink-流处理框架-Table API 与 SQL-函数（Functions）之内置函数

4.2.11 Flink-流处理框架-Table API 与 SQL-函数（Functions）之用户自定义函数 UDF

4.3 Flink CDC数据实时数据同步

4.3.1 Flink-流处理框架-Flink CDC数据实时数据同步-何为CDC？

4.3.2 Flink-流处理框架-Flink CDC数据实时数据同步-何为Flink CDC？

4.3.3 Flink-流处理框架-Flink CDC数据实时数据同步-Flink CDC实操-DataStream方式

4.3.4 Flink-流处理框架-Flink CDC数据实时数据同步-Flink CDC实操-DataStream方式-自定义反序列化器实现

4.3.5 Flink-流处理框架-Flink CDC数据实时数据同步-Flink CDC实操-FlinkSQL方式

4.4 Flink实践

4.4.1

5.数据库相关

5.1 NoSQL数据库-Redis（键值key-value）

5.1.1 NoSQL数据库-Redis（键值key-value）-NoSQL概述

5.1.2 NoSQL数据库-Redis（键值key-value）-Redis介绍和安装

5.1.3 NoSQL数据库-Redis（键值key-value）-五大数据类型

5.1.4 NoSQL数据库-Redis（键值key-value）-三种特殊数据类型

5.1.5 NoSQL数据库-Redis（键值key-value）-Redis中的事务操作和监控

5.1.6 NoSQL数据库-Redis（键值key-value）-基础API之Jedis 详解

5.1.7 NoSQL数据库-Redis（键值key-value）-SpringBoot整合Redis

5.1.8 NoSQL数据库-Redis（键值key-value）-Redis配置详解

5.1.9 NoSQL数据库-Redis（键值key-value）-Redis持久化

5.1.10 NoSQL数据库-Redis（键值key-value）-Redis实现发布订阅

5.1.11 NoSQL数据库-Redis（键值key-value）-Redis主从复制

5.1.12 NoSQL数据库-Redis（键值key-value）-Redis哨兵模式

5.1.13 NoSQL数据库-Redis（键值key-value）-Redis缓存穿透、缓存击穿、缓存雪崩

6.消息队列相关

6.1 kafka分布式消息队列

6.1.1 kafka分布式消息队列-Kafka概述

6.1.2 kafka分布式消息队列-Kafka集群环境搭建和命令行操作

6.1.3 kafka分布式消息队列-Kafka架构深入

7.数据同步相关

7.1 Flume-日志收集系统（实时）

7.1.1 hadoop体系之离线计算-Flume日志收集系统-Flume介绍

7.1.1(2) hadoop体系之离线计算-Flume日志收集系统-Flume安装及基本使用

7.1.2 hadoop体系之离线计算-Flume日志收集系统-Flume实战（Telnet案例）

7.1.3 hadoop体系之离线计算-Flume日志收集系统-Flume实战（采集目录+采集日志）

7.1.4 hadoop体系之离线计算-Flume日志收集系统-Agent级联

7.1.5 hadoop体系之离线计算-Flume日志收集系统-Flume高可用方案

7.1.6 hadoop体系之离线计算-Flume日志收集系统-Flume的负载均衡

7.1.7 hadoop体系之离线计算-Flume日志收集系统-Flume案例分析（拦截器）

7.2 DataX-数据同步工具（实时+离线）

7.3 Sqoop-Hadoop和数据库数据迁移工具（离线）

7.3.1 hadoop体系之离线计算-sqoop数据迁移工具-sqoop简介

7.3.2 hadoop体系之离线计算-sqoop数据迁移工具-sqoop安装

7.3.3 hadoop体系之离线计算-sqoop数据迁移工具-sqoop实战（导入+导出）

7.4 Maxwell-数据库同步工具（实时）

7.5 Canal-数据库同步工具（实时）

8.工作流调度相关

8.1 Azkaban-工作流调度系统

8.1.1 hadoop体系之离线计算-Azkaban工作流调度系统-Azkaban介绍

8.1.2 hadoop体系之离线计算-Azkaban工作流调度系统-Azkaban的安装（单服务模式+双服务模式）

8.1.3 hadoop体系之离线计算-Azkaban工作流调度系统-Azkaban多例实战

8.2 Oozie-工作流调度

8.3 DolphinScheduler-工作流任务调度平台

8.4 Airflow-调度和监控的工作流

未完待续

敲代码的乔帮主

https://suyebiubiu.github.io/2021/04/22/da-shu-ju-xue-xi-zhi-lu/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源敲代码的乔帮主 !

大数据

本篇

大数据学习之路

2021-04-22 大数据

大数据

浅谈MaxCompute SQL调优

今天跟大家分享的内容是maxcompute的优化内容，希望能够起到抛砖引玉的作用。我将从三个方面开展这次的主题分享，第一个部分是max和hive的对比；第二部分是调优方法论，主要是想总结一下我们从代码提交到执行结束，都有哪些位置可能会出现问题，一般情况下又是怎么解决的；最后是结合具体案例，对长尾问题的一些思考。

2021-04-21 大数据

MaxCompute SQL SQL优化

大数据学习之路

0.写在前面

1.linux和高并发基本知识

1.1 linux操作系统

1.2 linux基本命令

1.3 linux软件安装

1.4 shell编程

1.5 网络基础知识

1.6 lvs集群和高并发

1.7 nginx集群和高并发

1.8 keepalived和单点故障

2.hadoop体系之离线计算

2.1 hdfs分布式文件系统

2.2 mapreduce分布式计算

2.3 Hive-数据仓库工具

2.8 Hbase（列存储数据库）-NoSQL数据库

2.4 Zookeeper-分布式服务框架

3.spark体系之分布式计算

3.1 scala分布式计算机开发语言

3.2 spark-core之离线计算

3.3 spark-sql

3.4 spark-stream流式计算

3.5 STORM流式框架

4.Flink-流处理框架

4.1 Flink基础知识

4.2 Table API 和 Flink SQL

4.3 Flink CDC数据实时数据同步

4.4 Flink实践

5.数据库相关

5.1 NoSQL数据库-Redis（键值key-value）

6.消息队列相关

6.1 kafka分布式消息队列

7.数据同步相关

7.1 Flume-日志收集系统（实时）

7.2 DataX-数据同步工具（实时+离线）

7.3 Sqoop-Hadoop和数据库数据迁移工具（离线）

7.4 Maxwell-数据库同步工具（实时）

7.5 Canal-数据库同步工具（实时）

8.工作流调度相关

8.1 Azkaban-工作流调度系统

8.2 Oozie-工作流调度

8.3 DolphinScheduler-工作流任务调度平台

8.4 Airflow-调度和监控的工作流

你的赏识是我前进的动力