大数据-马士兵线下训练营

为什么你需要学习大数据？

我们现在处在一个数据的海洋当中

市场激增
政策支持
人才短缺

大数据行业薪资待遇

有前途，更有“钱途”

当今时代，大数据应用的价值已经展露在各行各业中，而大数据人才的供不应求也是目前大数据行业面临的一大困境。 2020年中国大数据行业的人才需求规模达到210万，2025年前大数据人才需求仍将保持30%-40% 的增速，需求总量在2000万人左右。需求大，薪资待遇自然水涨船高。

哪些人适合学习大数据？

有恒心者，事可成

IT技术岗位
希望转岗Hadoop开发工程师、Spark开发工程师、Flink开发工程师、大数据架构师、大数据全栈工程师等岗位
大数据从业人员
工作内容固定，想往大数据更深层次发展，期望跳槽涨薪
计算机相关专业
有Java基础、Python基础以及计算机等相关专业的本科生或者研究生
想转行进入IT行业
非计算机专业群体，迫切期待学习一项有前景、发展好、高薪的计算机技术
大数据爱好者
对大数据具备很高的兴趣爱好，希望从事相关行业或者自己创造相关产品

学习大数据，你是否也碰到了以下问题

切记闭门造车，我在马士兵等你

学习门槛高

零基础入门难，大数据框架种类繁多，学习难度很大且耗费大量时间难以坚持下来

实战案例少

缺少真实项目实战经验，面对实际业务一筹莫展，无法将实际问题转化为数据问题

转行难度大

架构层面经验缺乏，身边无行业大牛指导，提升缓慢，难以入行

技术栈要求高

需要组合流式组件、存储系统、计算组件和可靠性、可扩展性及可运维性要求高

为什么要来马士兵学习大数据？

一个课程，理论+实战+面试，一次全搞定

课程技术体系全覆盖
大数据岗位全覆盖
对标互联网架构师课程设计
一对一技术路线规划
全程面授服务
一对一问题答疑
贴心助教陪伴学习

课程技术体系全覆盖

本套课程包含了EB级架构设计架构底层技术体系、EB级架构设计数据分布式采集体系、EB级架构设计数据中间件技术体系、EB级架构设计数据存储技术体系、EB级架构设计数据处理技术体系、EB级架构设计OLAP生态体系、EB级架构设计稳健架构设计体系、EB级架构设计集群调度管理体系、EB级架构设计数据挖掘体系、EB级架构设计项目架构设计体系课程，包含了大数据技术体系全部内容

实力雄厚的一线师资团队

技术大牛带你学，企业需求实时接轨

大数据全栈开发课程目录

让学员体系化、系统化掌握大数据全栈开发技能

第一阶段Hadoop生态圈架构体系
第二阶段Spark生态架构体系
第三阶段内部经销存系统
第四阶段Flink实时计算系统阶段
第五阶段在线教育实时分析平台
第六阶段机器学习算法与智能推荐系统
第七阶段面试辅导

第一阶段：Hadoop生态圈架构体系

计算机组成原理、Vmware虚拟机与Linux安装
Linux配置、初级命令与文件系统
Linux文本、权限管理、三剑客与同步网络时间
Linux软件安装、Shell脚本与三个节点免密登录
高并发CAP机制、Zookeeper安装与节点操作
算法资源与大数据思维
Hadoop分布式文件系统架构
HDFS数据安全与传输流程
高可用分布式集群搭建与基本操作
Hadoop2.X架构进化（主备、哨兵、日志、脑裂）
Hadoop3.x新特性、高可用与联邦机制
MapReduce计算流程分析（Map ->Shuffle ->Reduce）
Yarn资源管理器、WordCount编写与上线
Split-Map-Shuffle-Reduce源码剖析
MR项目：天气数据分析与好友推荐系统
Hive入门介绍与安装、客户端操作和DDL语句
Hive数据分区分桶、DQL查询语句与执行原理
Hive好友推荐系统、优化原理与Dbeaver连接
Hive SQL面试题讲解
Hbase入门、环境搭建、数据访问和系统架构
Hbase读写流程源码分析与Rowkey设计
Hbase设计优化方案、Hive整合与Phoenix安装访问

第二阶段：Spark生态架构体系

Scala语言六大特性、下载安装、环境配置
IDEA 开发配置、数据类型与类型推断机制、类和对象、循环、判断
基本语法、函数及应用（匿名函数、高阶函数等）、Array 操作
可变数组操作、可变列表操作、Set、Map、元组操作
Scala 样例类、 trait特征特质、伴生类
Scala 伴生对象、模式匹配、 actor通信模型
Spark框架介绍、计算方式、算子五大特性和血统
Spark的行动算子和控制算子、集群搭建、任务提交模式
Spark的多文件转换算子、行动算子、的宽窄依赖
Stage的切割规则和计算模式、资源调度、分区转换算子
分区转换算子、Spark的行动算子、TopN案例练习、Shell使用
SparkUI和Spark高可用搭建、广播变量与累加器、数据的Shuffle、Sort与Bypass
Spark的源码解析、SparkSQL架构介绍、DataFrame概念与实现
DataSet概念与实现、DSL的语法、谓词下推和JDBC
SparkSQL自定义函数、开窗函数、SparkStreaming架构介绍
SparkStreaming的数据计算与Dstream、容错与实时、SparkStreaming算子
SparkStreaming的反压机制与SparkStreaming的事务处理
Spark的调优、数据倾斜、王者荣耀分析案例

第三阶段：内部经销存系统

项目需求分析
项目需求设计
数仓理论：数仓分层、数据集市、范式、建模理论
数仓理论：事实表、维度表、数仓建模（ODS、DWD、DWS、ADS）
数据采集：埋点技术、数据采集方案、Flume简介和Flume安装
Flume使用和知识拓展
Flume任务部署（基础版、优化版）
Flume任务部署（最终版）
业务数据概述、DataX使用和DataX-Web
DataX实现增量导入订单表、DataX抽取任务脚本开发
功能分析：行为域ODS层入仓开发、行为域DWD层需求分析
功能分析：GEOHash编码、GEOHASH字典表开发、IP2Region工具包
功能分析：全局唯一ID生成
功能分析：ETL主程序开发-上
功能分析：ETL主程序开发-下
功能分析：数据质量监控、SQL任务脚本开发、业务数据入仓开发、业务数据DWD开发
功能分析：流量主题分析-上
功能分析：流量主题分析-下
功能分析：多维Cube分析
功能分析：活跃主题分析、新用户留存分析
功能分析：漏斗模型分析、事件归因分析
功能分析：用户画像分析
功能分析：商品主题分析、订单主题分析
功能分析：购物车主题分析、优惠券主题分析
即席查询：Kylin基础概念、安装部署
即席查询：Kylin使用与优化、项目集成Kylin进行即席查询
任务调度：Dolphin Scheduler入门、环境搭建、理解概念
任务调度：项目集成Dolphin Scheduler、可视化展示：Superset
数据治理服务：Promethues介绍、架构、存储、使用以及Grafana集成
数据治理服务：Altas元数据认识、介绍、架构、安装部署、使用
CDH与CM介绍、Clouder入门、CM架构与功能模块、Linux安装与配置
CDH&CM安装Http与Yum源、Server与Anget、组件、集群控制台
CDH搭建平台环境、项目迁移到CDH
Promethues + Grafana监控CDH组件（HDFS等组件）

第四阶段：Flink实时计算系统阶段

Flink简介、架构组成
Flink 开发环境配置、批次处理和流式处理案例
虚拟Key的操作方式、DataSource的创建方式
Transformation 操作符介绍、Sink 操作符使用以及灵活使用AddSink
Flink集群部署角色介绍、Flink on Yarn部署方式（两种）
Flink并行度解析、Flink窗口分类使用
Flink时间类型以及水印、waterMark整体介绍及定义方式
Flink广播变量和累加器的使用、Checkpoint的开启与设置、状态后端存储
SavePoint和CheckPoint区别、操作链使用方式、TaskSlots原理
Historyserver日志服务的配置

第五阶段：在线教育实时分析平台

Kafka Topic、Partition 原理、集群搭建、操作命令
Kafka Topic更改、删除、API操作Kafka
Spark集成Kafka、Flink集成Kafka
项目介绍与日志采集方案一：Nginx+Kafka
日志采集方案二：OpenResty+Flume+Kafka
日志采集方案三：OpenResty + FileBeat + Kafka
业务数据采集：Canal介绍原理和安装使用
数据采集：Flink工具类编写、日志和业务数据接入Flink测试
功能分析：统计新老用户需求分析、统计开发第一版和第二版
功能分析：统计新老用户需求分析、统计开发第三版和第四版
ClickHouse：软件介绍、环境搭建、数据类型
ClickHouse：DDL语句、MergeTree概念上
ClickHouse：MergeTree概念下
ClickHouse：MergeTreeFamily、Engine
功能分析：Flink将统计数据写入ClickHouse
功能分析：直播数据需求分析（累计观众统计、在线观众统计、人气值统计）
功能分析：直播数据优化、侧流数据写入Redis、直播数据写入ClickHouse
功能分析：打赏数据需求分析和指标开发
功能分析：热门商品需求分析、TopN需求开发
功能分析：各分类成交金额统计
功能分析：拼团总金额统计
动态规则引擎：Drools介绍、原理、入门案例
Flink集成Drools
功能开发：根据行为触发优惠券发放功能
项目总结

第六阶段：机器学习算法与智能推荐系统

线性回归算法原理
多元线性回归算法
贝叶斯分类算法
KNN分类算法
Kmeans 算法、 Kmeans++算法
随机森林算法
项目：推荐系统解决的问题和价值
项目：推荐系统的架构和场景分析
项目：推荐系统的埋点和离线召回
项目：协同过滤和推荐系统的在线召回
项目：推荐系统数据准备和离线任务(一)
项目：推荐系统数据准备和离线任务(二)
项目：推荐系统机器学习算法GBDT+LR
项目：推荐系统机器学习算法XGBOOST和pmml部署
项目：推荐系统算法之神经网络
项目：推荐系统深度学习算法之wide&deep
推荐系统总结
推荐系统总结
离线数仓总结：相关概念、数据建模、维度表、事实表建模规范
离线数仓总结：阿里数仓进化与分层规则、ETL工具与操作规范、数仓开发规范与元数据

第七阶段：面试辅导

离线数仓运维：环境搭建规范、综合各类大数据开发软件组件搭建
离线数仓开发：CDH平台进行指标开发
找工作流程：详解找工作流程，面试准备、面试礼仪、如何谈薪和渡过试用期
简历辅导：简历结构、突出个人能力以及美化项目经验
1V1简历修改
1V1找工作规划：个人定岗定薪

五个完整项目带你建立大数据大局观

技术大牛带你学，企业需求实时接轨

01内部经销存系统
02直播实时分析平台
03智慧交通管理平台
04野蛮时代游戏分析

内部经销存系统

项目介绍

内部经销存系统APP上线后，由于业务模式新颖，市场需求量大，经过一段时间的精心运营后，逐渐积累起了上千万用户，以及三四百万的日活量，app的业务功能和产品种类、数量也急速膨胀，所以逐渐出现营销分析断层、产品迭代无法量化、用户运营不精准和全局运营指标监控不实时等问题。为了解决这些问题，我提供一个完整得大数据分析平台，其中集成了包括数据采集平台、功能分析平台、可视化展示平台和服务治理平台，来为内部经销存系统项目组得运营人员、策划人员或分析师来做下一步的决策和优化提供强有力的数据支持。

涉及技术

数据采集传输：Flume、DataX 数据存储：Mysql、HDFS、HBase、Redis 数据计算：Hive、Spark 数据查询：Kylin 数据可视化：Superset 任务调度：DolphinScheduler 集群监控：Prometheus 元数据管理：Atlas

直播实时分析平台

项目介绍

由于4G和5G的时代发展迅速，数据规模和增长速率逐渐上升，离线数据的分析模式逐渐不能完全满足我们的需要。我们更加要求时效性，希望能在非常短的时间内容依靠强有力的数据快速做出下一步的决策，以便我们能够规避风险和抓住机遇。此项目为直播类的实时分析平台，其中包括实时数据采集平台和实时数据分析平台，为运营、策划和分析师作决策提供强有力数据支持，同时也为我们后期的智能推荐铺设道路

开发环境

开发语言：Java8 运行环境：VMware16、Centos7 核心组件：Hadoop3.1.2 消息中间件：Kafka3 计算引擎：Flink1.12 高性能数据库：ClickHouse

涉及技术

数据同步：Flume、Canal 消息中间件：Kafka 数据存储：Redis、ClickHouse 数据计算：Flink、ClickHouse

智慧交通管理平台

项目介绍

从不同维度来分析城市每个卡口，道路，区域的拥堵情况，流量分布情况，以及车辆行驶轨迹等，将结果提供给交警部门使用。项目主要模块有天网搜索、稽查布控、智能研判、统计分析,涉及内容主要包括道路数字化、车辆网联化、车路协同云平台建设和封闭式无人驾驶道路建设等，将新建覆盖示范区的LTE-V和5G网络、将原有路灯杆改造为多功能信息杆柱，并部署由摄像头、激光雷达组成的感知体系，构建边缘计算与云计算协同的数据处理中枢

软件架构

本项目主要以Flume+Kafka+Hive+SparkStreaming+HDFS+Hadoop+Sqoop+MySQL等

涉及技术

1、道路卡口数据通过 Flume 实时传给消息队列 Kafka，Kafka 把消息传递给 SparkStreaming 进行清洗； 2、使用 SparkStreaming 对从 Kafka 获取到的记录与黑名单的车牌号相匹配时进行微批处理，把对应卡口的车牌号和记录的时间，放到设计好的 RowKey 中，并存放到 Hbase 数据库里面； 3、通过对于数据的抽样处理，得到每辆车的列族，然后对于车辆进行按照时间 id 排序，通过 Sqoop 数据迁移放到 Mysql 数据库里面； 4、统计出各个车辆的行驶轨迹，根据车辆的行驶轨迹计算指定卡口的车辆数，得到各个卡口到另一个卡口的车辆数后，统计对应的转化率； 5、使用 SparkSQL 实现，自定义卡口车辆的统计函数，自定义添加散列字段的函数，设置开窗函数； 6、通过 SparkStreaming 从 Kafka 获取实时数据，编写代码实现对道路拥堵的实时预警 ; 7、将分析结果通过 Sqoop 导入 MySQL 供前台展示。

野蛮时代游戏分析

项目介绍

《野蛮时代》是一款拥有皮克斯画风的MMO策略类游戏，也是一款横版动作游戏。建造城市据点，不断扩张领土，和全球玩家一同竞争，打造一个强大的部落。为了增加用户粘性、渠道收益以及玩家付费等一系列重要发展方向有足够的数据支持，引入大数据项目来做数据分析，为战略决策提供有利的数据支持。

开发环境

开发语言：Java8 运行环境：VMware16、Centos7 核心组件：Hadoop3.1.2 计算引擎：Spark3 即席查询：Presto 集成平台：CDH6.3.2

涉及技术

数据采集传输：Flume、DataX 数据存储：Mysql、HDFS、HBase、Redis 数据计算：Hive、Spark 数据查询：Presto 数据可视化：Superset 任务调度：DolphinScheduler 集群监控：Prometheus 元数据管理：Atlas

依赖雄厚的师资力量
以人为本的做事态度，落实私人定制专属服务

建立学籍档案
背景资料，学习计划，开发课程权限，短期规划等录入系统
定制专属学习计划
对学员进行互动了解后做出针对学员的专属学习计划
监督学习进度
学习计划分阶段按时完成作业及笔记，互动查漏补缺
阶段考核评估
根据学习计划中的阶段，对模块知识点进行考核，评估掌握度即时调整学习计划
调整学习计划
个人原因，考核原因，学习中重新调整学习计划

答疑问诊系统
是个问答系统，也是一个知识库，在学习的过程中，将成千上万的程序员连接起来
线下沙龙聚会
邀请分享或参与分享，同时还有BATJ大牛大咖
每日内推机会
群内公告当日更新最新内推招聘信息，课参与内推机会，但需要提前完成简历辅导
N:1简历辅导
找工作钱需要完成简历辅导，待批改通过后可投递，保持互动及时反馈
N:1面试辅导
面试过程中如多次面试未果，面试阻力大，应及时互动，必要时反馈面试录音，提升成功率
推荐喜报奖品
提出内推及反馈就业喜报信息的学员备有一份薄礼

我们为你准备了VIP船票，助你进入大厂

全程面授 封闭式管理，老师面对面讲
授，手把手辅导。
社群讨论 和大牛、同行共处同一社群
切磋与碰撞，成长更迅速
机会内推 马士兵平台为优秀的学员推荐
具有竞争力的工作机会
简历规划 剖析大厂招聘标准
知己知彼提高面试率
有问必答 提供课程相关疑问提问入口
详细答疑，扫清学习障碍
源码开放 全套上线标准的项目代码免费
赠送并且长期迭代维护
核心资料 超实用的思维导图，文档资料覆盖核
心知识、关键技能，方便回溯与拓展
提升作业 知识点融会贯通综合应用，技能
掌握举一反三更牢靠

马士兵结业学员评价

我们说了不算，学过的学员说了才算

虎****
给张富刚老师的一个好评，老师讲课很认真，很耐心。希望学员在课上就可以听懂，消化掉，每次不会的地方会反反复复的讲，直到讲的透彻，在讲算法的时候每次都会用一个小问题去引出接下来要讲的算法，各种小案例搭配上代码理解起来很明了。算法原理+案例代码也很适合初学者。
海****
周老师的hadoop课，讲的通俗易懂，全程没有废话，能完全get到周老师的讲授，尤其是hadoop源码讲解深入透彻，不仅讲how，而且讲why，讲解了大数据技术的一些通用原理，为学习其他大数据技术spark , flink等打下了坚实基础，膜拜周老师！
H****
在马士兵教育这里，我学习到了很多之前都没有接触到的知识，而且很多平时常用的知识也得到了系统性的学习。这里的课程都是满满的干货，老师讲的知识点非常的全面，涵盖面很广。所以来这里真的是赚到了。非常值得推荐！
康****
非重点非计算机专业女，毕业三年，踩过很多坑，在同学推荐下转行IT，抱着对自学能力的迷之自信自学了三个月的Python却感觉更加浑浑噩噩，后知后觉地发现在知识体系庞杂、体量巨大的计算机领域，良师是多么重要。又开始在网上去了解各种培训班，知道了马士兵老师。当时又刚好赶上马士兵教育第一期课程，抱着对马老师的尊敬和信任报了名，在连老师的一对一电话指导后选了java+大数据的组合课程，漫漫修行路开始踏上第一步。周老师的Hadoop , MapReduce , Spark，既有深入且宽广的宏观框架，又充满了企业实战经验；连老师的Hbase , Hive ,Scala，满满干货，知识点密集轰炸，细节满分；刚老师的机器学习，知识讲解清澈通透，节奏很舒服，能吸收得很好，不会跟丢。快到课程到尾声了，收获满满，也是时候认真地写一个评价，希望能帮助其他有一样境遇与困惑的人。一点感悟也分享给后浪：时间才是非常贵的成本；入行非常重要的是老师。一开始学到现在如果说有遗憾就是老师们奉献的知识太多，没有时间多看几遍去学得更扎实，就在实践中学习好啦~而且这只是一个开始，后续还想再接触算法、人工智能方面感兴趣的东西，不过这是后话了。总之，学无止境，加油！还要学现在的自己想在5月份找个工作，让工作生活步入正轨。不知道能不能追评，可以的话，再来反馈~
孙****
刚哥讲大数据，能把每个知识点，揉碎了给大家讲的深入浅出，能把复杂的问题，通过小例子给大家一个一个讲明白，让每个同学都能听的清清楚楚、明明白白，清爽的感觉，每个算法学完都配有代码和案例，并且加以详细讲解，能学以致用。刚哥一口气讲了2个场景的推荐系统项目，能覆盖大多数推荐场景，保证小伙伴能就业，推荐系统从架构设计、数据采集、数据存储、数据预处理、特征工程、模型设计、实时和离线处理、微服务的调用，全链路闭环讲解，每个部分都分析的很到位并配有文档和代码，每一步都带着大家做，从0到1搭建一个完整的推荐系统，每个知识点穿针引线，并在项目中扩展思维和知识点，保证大家收获满满。刚哥人也很好，我们邻家大哥哥，上课有问题，小伙伴都及时和刚哥沟通，都能很好的被解决，小白没听懂，刚哥还能反复讲，好nice的，讲完一个阶段，刚哥还带领小伙伴们一起复习，经常督促我们课后多复习、多总结，在学习的路上，能遇到刚哥我们是幸运的。

IT技术岗位

大数据从业人员

计算机相关专业

想转行进入IT行业

大数据爱好者

学习门槛高

实战案例少

转行难度大

技术栈要求高

课程技术体系全覆盖

第一阶段：Hadoop生态圈架构体系

第二阶段：Spark生态架构体系

第三阶段：内部经销存系统

第四阶段：Flink实时计算系统阶段

第五阶段：在线教育实时分析平台

第六阶段：机器学习算法与智能推荐系统

第七阶段：面试辅导

内部经销存系统

项目介绍

涉及技术

直播实时分析平台

项目介绍

开发环境

涉及技术

智慧交通管理平台

项目介绍

软件架构

涉及技术

野蛮时代游戏分析

项目介绍

开发环境

涉及技术

建立学籍档案

定制专属学习计划

监督学习进度

阶段考核评估

调整学习计划

答疑问诊系统

线下沙龙聚会

每日内推机会

N:1简历辅导

N:1面试辅导

推荐喜报奖品