Spark 作业提交、分发、执行的大致流程

最新推荐文章于 2025-10-03 12:35:41 发布

原创

最新推荐文章于 2025-10-03 12:35:41 发布 · 1.3k 阅读

收录于

当前文章被以下社区和专栏收录：

Spark on Yarn WordCount的执行流程

本篇内容
Tips

本篇内容

讲述的是Spark2.3.2 on Yarn版本的WordCount的大致执行流程

脚本提交篇

spark的脚本提交流程

SparkSubmit 类的main函数

脚本提交完成后，Spark会调用SparkSubmit类的main函数执行正式的任务提交
SparkSubmit.main

Spark WordCount的用户代码

package spark.wordcount

import org.apache.spark.{SparkConf, SparkContext}

object SparkWordCount {
  def main(args: Array[String]):Unit = {
    val conf = new SparkConf().setAppName("Spark Word Count")
    val sc = new SparkContext(conf)
    val startTime:Long = sc.startTime
    println(startTime)

    val words = sc.textFile("hdfs://bigdatamaster:9000/data/test/")
    val result = words.flatMap(line => line.split("\\s|,"))
      .map(word => (word, 1))
      .reduceByKey(_ + _)
    result.collect().foreach(word => println(word))
  }
}