split TypedDataset

James Lee · James Lee · commit 3be72e8100d4 · 2017-02-20T21:02:18.000Z
diff --git a/src/main/java/com/sparkTutorial/sparkSql/RddToDataset.java b/src/main/java/com/sparkTutorial/sparkSql/RddToDataset.java
@@ -0,0 +1,53 @@
+package com.sparkTutorial.sparkSql;
+
+import org.apache.log4j.Level;
+import org.apache.log4j.Logger;
+import org.apache.spark.SparkConf;
+import org.apache.spark.api.java.JavaRDD;
+import org.apache.spark.api.java.JavaSparkContext;
+import org.apache.spark.sql.Dataset;
+import org.apache.spark.sql.Encoders;
+import org.apache.spark.sql.SparkSession;
+
+public class RddToDataset {
+
+    private static final String COMMA_DELIMITER = ",(?=([^\"]*\"[^\"]*\")*[^\"]*$)";
+
+    public static void main(String[] args) throws Exception {
+
+        Logger.getLogger("org").setLevel(Level.ERROR);
+        SparkConf conf = new SparkConf().setAppName("StackOverFlowSurvey").setMaster("local[1]");
+
+        JavaSparkContext sc = new JavaSparkContext(conf);
+
+        SparkSession session = SparkSession.builder().appName("StackOverFlowSurvey").master("local[1]").getOrCreate();
+
+        JavaRDD<String> lines = sc.textFile("in/2016-stack-overflow-survey-responses.csv");
+
+        JavaRDD<Response> responseRDD = lines
+                .filter(line -> !line.split(COMMA_DELIMITER, -1)[2].equals("country"))
+                .map(line -> {
+                    String[] splits = line.split(COMMA_DELIMITER, -1);
+                    return new Response(splits[2], convertStringToFloat(splits[6]), splits[9], convertStringToFloat(splits[14]));
+                });
+        Dataset<Response> responseDataset = session.createDataset(responseRDD.rdd(), Encoders.bean(Response.class));
+
+        System.out.println("=== Print out schema ===");
+        responseDataset.printSchema();
+
+        System.out.println("=== Print 20 records of responses table ===");
+        responseDataset.show(20);
+
+        JavaRDD<Response> responseJavaRDD = responseDataset.toJavaRDD();
+
+        for (Response response : responseJavaRDD.collect()) {
+            System.out.println(response);
+        }
+
+    }
+
+    private static Integer convertStringToFloat(String split) {
+        return split.isEmpty() ? null : Math.round(Float.valueOf(split));
+    }
+
+}
diff --git a/src/main/java/com/sparkTutorial/sparkSql/Response.java b/src/main/java/com/sparkTutorial/sparkSql/Response.java
@@ -4,11 +4,11 @@
 
 public class Response implements Serializable {
     private String country;
-    private float ageMidPoint;
+    private Integer ageMidPoint;
     private String occupation;
-    private float salaryMidPoint;
+    private Integer salaryMidPoint;
 
-    public Response(String country, float ageMidPoint, String occupation, float salaryMidPoint) {
+    public Response(String country, Integer ageMidPoint, String occupation, Integer salaryMidPoint) {
         this.country = country;
         this.ageMidPoint = ageMidPoint;
         this.occupation = occupation;
@@ -26,11 +26,11 @@ public void setCountry(String country) {
         this.country = country;
     }
 
-    public float getAgeMidPoint() {
+    public Integer getAgeMidPoint() {
         return ageMidPoint;
     }
 
-    public void setAgeMidPoint(float ageMidPoint) {
+    public void setAgeMidPoint(Integer ageMidPoint) {
         this.ageMidPoint = ageMidPoint;
     }
 
@@ -42,11 +42,22 @@ public void setOccupation(String occupation) {
         this.occupation = occupation;
     }
 
-    public float getSalaryMidPoint() {
+    public Integer getSalaryMidPoint() {
         return salaryMidPoint;
     }
 
-    public void setSalaryMidPoint(float salaryMidPoint) {
+    public void setSalaryMidPoint(Integer salaryMidPoint) {
         this.salaryMidPoint = salaryMidPoint;
     }
+
+
+    @Override
+    public String toString() {
+        return "Response{" +
+                "country='" + country + '\'' +
+                ", ageMidPoint=" + ageMidPoint +
+                ", occupation='" + occupation + '\'' +
+                ", salaryMidPoint=" + salaryMidPoint +
+                '}';
+    }
 }
diff --git a/src/main/java/com/sparkTutorial/sparkSql/TypedDataset.java b/src/main/java/com/sparkTutorial/sparkSql/TypedDataset.java
@@ -2,81 +2,61 @@
 
 import org.apache.log4j.Level;
 import org.apache.log4j.Logger;
-import org.apache.spark.SparkConf;
-import org.apache.spark.api.java.JavaRDD;
-import org.apache.spark.api.java.JavaSparkContext;
-import org.apache.spark.sql.Dataset;
-import org.apache.spark.sql.Encoders;
-import org.apache.spark.sql.SparkSession;
+import org.apache.spark.sql.*;
 
 import static org.apache.spark.sql.functions.avg;
+import static org.apache.spark.sql.functions.col;
 import static org.apache.spark.sql.functions.max;
 
 
 public class TypedDataset {
     private static final String AGE_MIDPOINT = "ageMidpoint";
     private static final String SALARY_MIDPOINT = "salaryMidPoint";
     private static final String SALARY_MIDPOINT_BUCKET = "salaryMidpointBucket";
-    private static final float NULL_VALUE = -1.0f;
-    private static final String COMMA_DELIMITER = ",(?=([^\"]*\"[^\"]*\")*[^\"]*$)";
 
     public static void main(String[] args) throws Exception {
 
         Logger.getLogger("org").setLevel(Level.ERROR);
-        SparkConf conf = new SparkConf().setAppName("StackOverFlowSurvey").setMaster("local[1]");
+        SparkSession session = SparkSession.builder().appName("StackOverFlowSurvey").master("local[1]").getOrCreate();
 
-        JavaSparkContext sc = new JavaSparkContext(conf);
+        DataFrameReader dataFrameReader = session.read();
 
-        SparkSession session = SparkSession.builder().appName("StackOverFlowSurvey").master("local[1]").getOrCreate();
+        Dataset<Row> responses = dataFrameReader.option("header","true").csv("in/2016-stack-overflow-survey-responses.csv");
 
-        JavaRDD<String> lines = sc.textFile("in/2016-stack-overflow-survey-responses.csv");
+        Dataset<Row> responseWithSelectedColumns = responses.select(col("country"), col("age_midpoint").as("ageMidPoint").cast("integer"), col("occupation"), col("salary_midpoint").as("salaryMidPoint").cast("integer"));
 
-        JavaRDD<Response> responseRDD = lines
-                .filter(line -> !line.split(COMMA_DELIMITER, -1)[2].equals("country"))
-                .map(line -> {
-                    String[] splits = line.split(COMMA_DELIMITER, -1);
-                    return new Response(splits[2], convertStringToFloat(splits[6]), splits[9], convertStringToFloat(splits[14]));
-                });
-        Dataset<Response> responseDataset = session.createDataset(responseRDD.rdd(), Encoders.bean(Response.class));
+        Dataset<Response> typedDataset = responseWithSelectedColumns.as(Encoders.bean(Response.class));
 
         System.out.println("=== Print out schema ===");
-        responseDataset.printSchema();
+        typedDataset.printSchema();
 
         System.out.println("=== Print 20 records of responses table ===");
-        responseDataset.show(20);
+        typedDataset.show(20);
 
         System.out.println("=== Print records where the response is from Afghanistan ===");
-        responseDataset.filter(response -> response.getCountry().equals("Afghanistan")).show();
+        typedDataset.filter(response -> response.getCountry().equals("Afghanistan")).show();
 
         System.out.println("=== Print the count of occupations ===");
-        responseDataset.groupBy(responseDataset.col("occupation")).count().show();
-
+        typedDataset.groupBy(typedDataset.col("occupation")).count().show();
 
         System.out.println("=== Print records with average mid age less than 20 ===");
-        responseDataset.filter(response -> response.getAgeMidPoint() != NULL_VALUE && response.getAgeMidPoint() < 20).show();
+        typedDataset.filter(response -> response.getAgeMidPoint() !=null && response.getAgeMidPoint() < 20).show();
 
         System.out.println("=== Print the result with salary middle point in descending order ===");
-        responseDataset.orderBy(responseDataset.col(SALARY_MIDPOINT ).desc()).show();
+        typedDataset.orderBy(typedDataset.col(SALARY_MIDPOINT ).desc()).show();
 
         System.out.println("=== Group by country and aggregate by average salary middle point and max age middle point ===");
-        responseDataset
-                .filter(response -> response.getSalaryMidPoint() != NULL_VALUE)
-                .groupBy("country")
-                .agg(avg(SALARY_MIDPOINT), max(AGE_MIDPOINT))
-                .show();
+        typedDataset.filter(response -> response.getSalaryMidPoint() != null)
+                    .groupBy("country")
+                    .agg(avg(SALARY_MIDPOINT), max(AGE_MIDPOINT))
+                    .show();
 
         System.out.println("=== Group by salary bucket ===");
-
-        responseDataset
-                .map(response -> Math.round(response.getSalaryMidPoint()/20000) * 20000, Encoders.INT())
-                .withColumnRenamed("value", SALARY_MIDPOINT_BUCKET)
-                .groupBy(SALARY_MIDPOINT_BUCKET)
-                .count()
-                .orderBy(SALARY_MIDPOINT_BUCKET).show();
+        typedDataset.filter(response -> response.getSalaryMidPoint() != null)
+                    .map(response -> Math.round(response.getSalaryMidPoint()/20000) * 20000, Encoders.INT())
+                    .withColumnRenamed("value", SALARY_MIDPOINT_BUCKET)
+                    .groupBy(SALARY_MIDPOINT_BUCKET)
+                    .count()
+                    .orderBy(SALARY_MIDPOINT_BUCKET).show();
     }
-
-    private static float convertStringToFloat(String split) {
-        return split.isEmpty() ? NULL_VALUE : Float.valueOf(split);
-    }
-
 }