Spark核心原理与实战学习心得

Spark核心原理与实战学习心得,更多完整内容,一起来学习

Spark核心原理与实战学习心得

MLPipLine:如何通过SparkMLPipLine模式实现模型训练?    

SparkConnecter:Cassandra    

SparkConnecter:ElasticSearch    

SparkConnecter:HDFS及HBase    

SparkConnecter:MongoDB    

SparkConnecter:MySQL及Kafka    

SparkOnYARN:Client模式与Cluster模式    

SparkOnYARN:FIFOScheduler、CapacityScheduler原理和使用    

SparkOnYARN:YARNFairScheduler原理、使用及特点    

SparkRDD实战:Action原理和实战、Spark广播变量原理和使用    

SparkRDD实战:Transformation和Action概念、LazyLoad及SparkFunction的3种实现方式    

SparkRDD实战:常用Transformation原理及实战    

SparkRDD实战:如何利用外部数据集生成RDD?    

SparkRDD原理:RDD抽象及相关概念    

SparkRDD原理:RDD依赖关系、Stage、RDD持久化、SparkPreferredLocation及CheckPoint原理和使用    

SparkSQL、DataFrame、DataSet原理和使用    

SparkSQLJoin操作及SparkSQLFunction    

SparkSQL调优和SparkStreaming调优    

SparkSQL原理和执行过程    

SparkStearming原理及实战:DStream操作、数据持久化及性能优化    

SparkStearming原理及实战:创建一个SparkStreaming应用    

SparkStructuredStearming原理及实战:StreamJoin操作、重复数据处理、多Watermark处理策略、StructuredStearming结果输出    

SparkStructuredStearming原理及实战:StructuredStearming时间窗口操作、水位线和数据更新模式    

SparkStructuredStearming原理及实战:StructuredStearming事件时间、延迟数据处理策略、容错语义和编程模型    

SparkStructuredStearming原理及实战:StructuredStreaming概念、特点、数据模型和应用实战    

Spark常用统计方法:基础统计、相关性分析、数据抽样    

Spark的运行环境安装:Standalone入门实战    

Spark的运行环境安装:YARN入门实战    

Spark机器学习概述:机器学习应用场景、分类和常用算法    

Spark流处理做作业入门Demo    

Spark批处理做作业入门Demo    

Spark数据倾斜问题处理    

Spark文件读写原理    

Spark原理及特点:Spark作业运行流程    

Spark原理及特点:模块概述+特点    

Spark原理及特点:运行模式+集群组角色    

常用数据格式原理和使用:ORC、AVRO在Spark中的使用    

常用数据格式原理和使用:TEXT、CSV、JSON、PARQUET在Spark中的使用    

分类模型:概念与种类、线性回归及逻辑回归原理实现    

分类模型:朴素贝叶斯原理实现、决策树原理实现及协同过滤原理    

机器学习流程:模型训练、模型测试、模型部署与整合、模型监控与反馈及数据探索和可视化    

机器学习流程:数据收集与存储、数据清理与转换    

聚类模型:基于K-Means的聚类算法原理实现    

内存调优:JVM内存调优、堆外内存设置及storageFraction设置    

任务调优:Executor数量内存及CPU配置、设置合理的并行度、Task等待时长调优、Blacklisting调优    

失败重试与黑名单机制、推测式执行、资源申请机制    

数据调优:数据本地性、复用RDD、BroadCast、Kryo序列化和CheckPoint    








首页
社科类
工科类
亲子类
心理情感类
目录
参与学习