Changed scripts to use the conf paramenter on the SparkContext constructor & Removed setLogLevel

Pedro Bernardo · Pedro Bernardo · commit 76f5ccebe5bd · 2017-12-17T11:28:43.000-08:00
diff --git a/pairRdd/aggregation/reducebykey/WordCount.py b/pairRdd/aggregation/reducebykey/WordCount.py
@@ -1,9 +1,8 @@
-from pyspark import SparkContext
+from pyspark import SparkContext, SparkConf
 
 if __name__ == "__main__":
-
-    sc = SparkContext("local", "wordCounts")
-    sc.setLogLevel("ERROR")
+    conf = SparkConf().setAppName("wordCounts").setMaster("local[3]")
+    sc = SparkContext(conf = conf)
 
     lines = sc.textFile("in/word_count.text")
     wordRdd = lines.flatMap(lambda line: line.split(" "))
diff --git a/pairRdd/create/PairRddFromRegularRdd.py b/pairRdd/create/PairRddFromRegularRdd.py
@@ -1,9 +1,8 @@
-from pyspark import SparkContext
+from pyspark import SparkContext, SparkConf
 
 if __name__ == "__main__":
-
-    sc = SparkContext("local", "create")
-    sc.setLogLevel("ERROR")
+    conf = SparkConf().setAppName("create").setMaster("local")
+    sc = SparkContext(conf = conf)
 
     inputStrings = ["Lily 23", "Jack 29", "Mary 29", "James 8"]
     regularRDDs = sc.parallelize(inputStrings)
diff --git a/pairRdd/create/PairRddFromTupleList.py b/pairRdd/create/PairRddFromTupleList.py
@@ -1,9 +1,8 @@
-from pyspark import SparkContext
+from pyspark import SparkContext, SparkConf
 
 if __name__ == "__main__":
-
-    sc = SparkContext("local", "create")
-    sc.setLogLevel("ERROR")
+    conf = SparkConf().setAppName("create").setMaster("local")
+    sc = SparkContext(conf = conf)
 
     tuples = [("Lily", 23), ("Jack", 29), ("Mary", 29), ("James", 8)]
     pairRDD = sc.parallelize(tuples)
diff --git a/pairRdd/groupbykey/GroupByKeyVsReduceByKey.py b/pairRdd/groupbykey/GroupByKeyVsReduceByKey.py
@@ -1,18 +1,21 @@
-from pyspark import SparkContext
+from pyspark import SparkContext, SparkConf
 
 if __name__ == "__main__":
-
-    sc = SparkContext("local", "GroupByKeyVsReduceByKey")
-    sc.setLogLevel("ERROR")
+    conf = SparkConf().setAppName('GroupByKeyVsReduceByKey').setMaster("local[*]") 
+    sc = SparkContext(conf = conf)
 
     words = ["one", "two", "two", "three", "three", "three"]
     wordsPairRdd = sc.parallelize(words).map(lambda word: (word, 1))
 
-    wordCountsWithReduceByKey = wordsPairRdd.reduceByKey(lambda x, y: x + y).collect()
+    wordCountsWithReduceByKey = wordsPairRdd \
+        .reduceByKey(lambda x, y: x + y) \
+        .collect()
     print("wordCountsWithReduceByKey: {}".format(list(wordCountsWithReduceByKey)))
 
     wordCountsWithGroupByKey = wordsPairRdd \
         .groupByKey() \
-        .mapValues(lambda intIterable: len(intIterable)) \
+        .mapValues(len) \
         .collect()
     print("wordCountsWithGroupByKey: {}".format(list(wordCountsWithGroupByKey)))
+
+
diff --git a/pairRdd/join/JoinOperations.py b/pairRdd/join/JoinOperations.py
@@ -1,9 +1,8 @@
-from pyspark import SparkContext
+from pyspark import SparkContext, SparkConf
 
 if __name__ == "__main__":
-
-    sc = SparkContext("local", "JoinOperations")
-    sc.setLogLevel("ERROR")
+    conf = SparkConf().setAppName("JoinOperations").setMaster("local[1]")
+    sc = SparkContext(conf = conf)
     
     ages = sc.parallelize([("Tom", 29), ("John", 22)])
     addresses = sc.parallelize([("James", "USA"), ("John", "UK")])
diff --git a/rdd/WordCount.py b/rdd/WordCount.py
@@ -1,11 +1,15 @@
-import sys
-from pyspark import SparkContext
+from pyspark import SparkContext, SparkConf
 
 if __name__ == "__main__":
-    sc = SparkContext("local", "word count")
-    sc.setLogLevel("ERROR")
+    conf = SparkConf().setAppName("word count").setMaster("local[3]")
+    sc = SparkContext(conf = conf)
+    
     lines = sc.textFile("in/word_count.text")
+    
     words = lines.flatMap(lambda line: line.split(" "))
+    
     wordCounts = words.countByValue()
+    
     for word, count in wordCounts.items():
-        print(word, count)
+        print("{} : {}".format(word, count))
+
diff --git a/rdd/collect/CollectExample.py b/rdd/collect/CollectExample.py
@@ -1,10 +1,15 @@
-from pyspark import SparkContext
+from pyspark import SparkContext, SparkConf
 
 if __name__ == "__main__":
-    sc = SparkContext("local", "collect")
-    sc.setLogLevel("ERROR")
+    conf = SparkConf().setAppName("collect").setMaster("local[*]")
+    sc = SparkContext(conf = conf)
+    
     inputWords = ["spark", "hadoop", "spark", "hive", "pig", "cassandra", "hadoop"]
+    
     wordRdd = sc.parallelize(inputWords)
+    
     words = wordRdd.collect()
+    
     for word in words:
-        print(word)
+        print(word)
+
diff --git a/rdd/count/CountExample.py b/rdd/count/CountExample.py
@@ -1,12 +1,13 @@
-from pyspark import SparkContext
+from pyspark import SparkContext, SparkConf
 
 if __name__ == "__main__":
-    sc = SparkContext("local", "count")
-    sc.setLogLevel("ERROR")
+    conf = SparkConf().setAppName("count").setMaster("local[*]")
+    sc = SparkContext(conf = conf)
     inputWords = ["spark", "hadoop", "spark", "hive", "pig", "cassandra", "hadoop"]
     wordRdd = sc.parallelize(inputWords)
     print("Count: {}".format(wordRdd.count()))
     worldCountByValue = wordRdd.countByValue()
     print("CountByValue: ")
     for word, count in worldCountByValue.items():
         print("{} : {}".format(word, count))
+
diff --git a/rdd/nasaApacheWebLogs/SameHostsSolution.py b/rdd/nasaApacheWebLogs/SameHostsSolution.py
@@ -1,7 +1,8 @@
-from pyspark import SparkContext
+from pyspark import SparkContext, SparkConf
 
 if __name__ == "__main__":
-    sc = SparkContext("local", "sameHosts")
+    conf = SparkConf().setAppName("sameHosts").setMaster("local[1]")
+    sc = SparkContext(conf = conf)
 
     julyFirstLogs = sc.textFile("in/nasa_19950701.tsv")
     augustFirstLogs = sc.textFile("in/nasa_19950801.tsv")
diff --git a/rdd/nasaApacheWebLogs/UnionLogSolutions.py b/rdd/nasaApacheWebLogs/UnionLogSolutions.py
@@ -1,10 +1,11 @@
-from pyspark import SparkContext
+from pyspark import SparkContext, SparkConf
 
 def isNotHeader(line: str):
     return not (line.startswith("host") and "bytes" in line)
 
 if __name__ == "__main__":
-    sc = SparkContext("local", "unionLogs")
+    conf = SparkConf().setAppName("unionLogs").setMaster("local[*]")
+    sc = SparkContext(conf = conf)
 
     julyFirstLogs = sc.textFile("in/nasa_19950701.tsv")
     augustFirstLogs = sc.textFile("in/nasa_19950801.tsv")
@@ -14,4 +15,5 @@ def isNotHeader(line: str):
     cleanLogLines = aggregatedLogLines.filter(isNotHeader)
     sample = cleanLogLines.sample(withReplacement = True, fraction = 0.1)
 
-    sample.saveAsTextFile("out/sample_nasa_logs.csv")
+    sample.saveAsTextFile("out/sample_nasa_logs.csv")
+
diff --git a/rdd/persist/PersistExample.py b/rdd/persist/PersistExample.py
@@ -1,9 +1,14 @@
-from pyspark import SparkContext, StorageLevel
+from pyspark import SparkContext, SparkConf, StorageLevel
 
 if __name__ == "__main__":
-    sc = SparkContext("local", "persist")
+    conf = SparkConf().setAppName("persist").setMaster("local[*]")
+    sc = SparkContext(conf = conf)
+
     inputIntegers = [1, 2, 3, 4, 5]
     integerRdd = sc.parallelize(inputIntegers)
+    
     integerRdd.persist(StorageLevel.MEMORY_ONLY)
+    
     integerRdd.reduce(lambda x, y: x*y)
+    
     integerRdd.count()
diff --git a/rdd/reduce/ReduceExample.py b/rdd/reduce/ReduceExample.py
@@ -1,9 +1,11 @@
-from pyspark import SparkContext
+from pyspark import SparkContext, SparkConf
 
 if __name__ == "__main__":
-    sc = SparkContext("local", "reduce")
-    sc.setLogLevel("ERROR")
+    conf = SparkConf().setAppName("reduce").setMaster("local[*]")
+    sc = SparkContext(conf = conf)
+   
     inputIntegers = [1, 2, 3, 4, 5]
     integerRdd = sc.parallelize(inputIntegers)
+   
     product = integerRdd.reduce(lambda x, y: x * y)
     print("product is :{}".format(product))
diff --git a/rdd/sumOfNumbers/SumOfNumbersSolution.py b/rdd/sumOfNumbers/SumOfNumbersSolution.py
@@ -1,12 +1,15 @@
-import sys
-from pyspark import SparkContext
+from pyspark import SparkContext, SparkConf
 
 if __name__ == "__main__":
-    sc = SparkContext("local", "primeNumbers")
-    sc.setLogLevel("ERROR")
+    conf = SparkConf().setAppName("primeNumbers").setMaster("local[*]")
+    sc = SparkContext(conf = conf)
+    
     lines = sc.textFile("in/prime_nums.text")
     numbers = lines.flatMap(lambda line: line.split("\t"))
+
     validNumbers = numbers.filter(lambda number: number)
+    
     intNumbers = validNumbers.map(lambda number: int(number))
-    print("Sum is: ")
-    print(intNumbers.reduce(lambda x, y: x + y))
+    
+    print("Sum is: {}".format(intNumbers.reduce(lambda x, y: x + y)))
+
diff --git a/rdd/take/TakeExample.py b/rdd/take/TakeExample.py
@@ -1,11 +1,12 @@
-import sys
-from pyspark import SparkContext
+from pyspark import SparkContext, SparkConf
 
 if __name__ == "__main__":
-    sc = SparkContext("local", "take")
-    sc.setLogLevel("ERROR")
+    conf = SparkConf().setAppName("take").setMaster("local[*]")
+    sc = SparkContext(conf = conf)
+    
     inputWords = ["spark", "hadoop", "spark", "hive", "pig", "cassandra", "hadoop"]
     wordRdd = sc.parallelize(inputWords)
+    
     words = wordRdd.take(3)
     for word in words:
         print(word)