从零开始学习Spark--第3章 spark的example

最新推荐文章于 2023-06-12 18:35:22 发布

转载最新推荐文章于 2023-06-12 18:35:22 发布 · 367 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

原文链接：https://my.oschina.net/u/3226063/blog/826115

标签

#scala #数据库 #ui

本文深入解析了SparkPi程序，展示了如何使用Spark在本地计算Pi值。通过分析源代码，理解了核心的MapReduce过程，比较了与Hadoop的差异。此外，还介绍了其他Spark示例程序，如LocalPi、BroadcastTest等。

1.1 命令行：

#spark安装在/home/brian/setup/spark-new/spark-0.8.0目录
cd /home/brian/setup/spark-new/spark-0.8.0

#在本地运行计算Pi值的Spark程序，4个工作线程
./run-example org.apache.spark.examples.SparkPi local[4]

1.2 Web UI
在Log里，可以看到 ui.SparkUI: Started Spark Web UI at http://brian-i3.local:4040
在浏览器地址栏输入http://brian-i3.local:4040，回车，可以看到作业执行情况。

1.3 SparkPi.scal的源代码分析

1.3.1 代码在examples/src/main/scala/org/apache/spark/examples目录下

1.3.2 代码内容如下：
package org.apache.spark.examples

import scala.math.random
import org.apache.spark._
import SparkContext._

/** Computes an approximation to pi */
object SparkPi {
def main(args: Array[String]) {
if (args.length == 0) {
System.err.println("Usage: SparkPi <master> [<slices>]")
System.exit(1)
}
val spark = new SparkContext(args(0), "SparkPi",
System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_EXAMPLES_JAR")))
val slices = if (args.length > 1) args(1).toInt else 2
val n = 100000 * slices
val count = spark.parallelize(1 to n, slices).map { i =>
val x = random * 2 - 1
val y = random * 2 - 1
if (x*x + y*y < 1) 1 else 0
}.reduce(_ + _)
println("Pi is roughly " + 4.0 * count / n)
System.exit(0)
}
}

核心的语句是这条：
val count = spark.parallelize(1 to n, slices).map { i =>
val x = random * 2 - 1
val y = random * 2 - 1
if (x*x + y*y < 1) 1 else 0
}.reduce(_ + _)

MapReduce过程一句话搞定，跟Hadoop比起来真是差别太大了，简单到令人泪下，如果用Hadoop的话，上百行代码肯定是有的。

2. LocalPi.scala
在本地计算Pi值，实际上这是一个Scala程序，跟Spark没什么关系。

3. BroadcastTest.scala
测试Broadcast，Broadcast是共享变量的广播变量，只读属性。

4. CassandraTest.scala
测试Cassandra数据库，它是Facebook开发然后开源的，类似google的BigTable。

5. ExceptionHandlingTest.scala
测试抛出异常功能。

6. GroupByTest.scala
测试，根据键值分组。

7. HBaseTest.scala
测试HBase，HBase是Hadoop的数据库，类似Google的BigTable。

8. HdfsTest.scala
测试Hdfs文件系统，Hdfs是Hadoop的文件系统，类似Google的GFS。

9. LocalALS.scala
ALS是交替最小二乘法，通常用于推荐系统的算法。

10. LocalFileLR.scala
逻辑回归算法。

11. LocalKMeans.scala
K-Means聚类算法。

12. LocalLR.scala
逻辑回归算法。

13. LogQuery.scala
以MapReduce的方式，处理Apache log。

14. MultiBroadcastTest.scala
测试多个Broadcast共享变量。

....

其他的代码，多是本地代码的并行版本。

转载于:https://my.oschina.net/u/3226063/blog/826115