Update TypedDataset.scala

jleetutorial · web-flow · commit 0838a866b42c · 2017-09-24T21:40:26.000+01:00
diff --git a/src/main/scala/com/sparkTutorial/sparkSql/TypedDataset.scala b/src/main/scala/com/sparkTutorial/sparkSql/TypedDataset.scala
@@ -12,7 +12,6 @@ object TypedDataset {
   def main(args: Array[String]) {
     Logger.getLogger("org").setLevel(Level.ERROR)
     val session = SparkSession.builder().appName("StackOverFlowSurvey").master("local[*]").getOrCreate()
-    import session.implicits._
 
     val dataFrameReader = session.read
 
@@ -21,12 +20,16 @@ object TypedDataset {
       .option("inferSchema", value = true)
       .csv("in/2016-stack-overflow-survey-responses.csv")
 
-    val responseWithSelectedColumns = responses.withColumn("country", responses.col("country"))
-      .withColumn("ageMidPoint", responses.col("age_midpoint").cast("integer"))
+    val responseWithSelectedColumns = responses.select("country", "age_midpoint", "occupation", "salary_midpoint")
+
+    val responseWithRenamedColumns = responseWithSelectedColumns
+      .withColumn("country", responses.col("country"))
+      .withColumn(AGE_MIDPOINT, responses.col("age_midpoint").cast("integer"))
       .withColumn("occupation", responses.col("occupation"))
-      .withColumn("salaryMidPoint", responses.col("salary_midpoint").cast("integer"))
+      .withColumn(SALARY_MIDPOINT, responses.col("salary_midpoint").cast("integer"))
 
-    val typedDataset = responseWithSelectedColumns.as[Response]
+    import session.implicits._
+    val typedDataset = responseWithRenamedColumns.as[Response]
 
     System.out.println("=== Print out schema ===")
     typedDataset.printSchema()