apache
diff --git a/‎hudi-client/hudi-java-client/src/test/java/org/apache/hudi/common/table/read/HoodieFileGroupReaderOnJavaTestBase.java
Lines changed: 105 additions & 0 deletions b/‎hudi-client/hudi-java-client/src/test/java/org/apache/hudi/common/table/read/HoodieFileGroupReaderOnJavaTestBase.java
Lines changed: 105 additions & 0 deletions
diff --git a/‎hudi-client/hudi-java-client/src/test/java/org/apache/hudi/common/table/read/TestHoodieFileGroupReaderOnJava.java
Lines changed: 50 additions & 0 deletions b/‎hudi-client/hudi-java-client/src/test/java/org/apache/hudi/common/table/read/TestHoodieFileGroupReaderOnJava.java
Lines changed: 50 additions & 0 deletions
diff --git a/‎hudi-client/hudi-java-client/src/test/java/org/apache/hudi/hadoop/TestHoodieFileGroupReaderOnHive.java
Lines changed: 4 additions & 157 deletions b/‎hudi-client/hudi-java-client/src/test/java/org/apache/hudi/hadoop/TestHoodieFileGroupReaderOnHive.java
Lines changed: 4 additions & 157 deletions
@@ -0,0 +1,105 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one
+ * or more contributor license agreements.  See the NOTICE file
+ * distributed with this work for additional information
+ * regarding copyright ownership.  The ASF licenses this file
+ * to you under the Apache License, Version 2.0 (the
+ * "License"); you may not use this file except in compliance
+ * with the License.  You may obtain a copy of the License at
+ *
+ *   http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing,
+ * software distributed under the License is distributed on an
+ * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+ * KIND, either express or implied.  See the License for the
+ * specific language governing permissions and limitations
+ * under the License.
+ */
+
+package org.apache.hudi.common.table.read;
+
+import org.apache.hudi.client.HoodieJavaWriteClient;
+import org.apache.hudi.client.common.HoodieJavaEngineContext;
+import org.apache.hudi.common.config.RecordMergeMode;
+import org.apache.hudi.common.engine.EngineType;
+import org.apache.hudi.common.model.HoodieAvroRecord;
+import org.apache.hudi.common.model.HoodieRecord;
+import org.apache.hudi.common.model.HoodieRecordPayload;
+import org.apache.hudi.common.table.HoodieTableMetaClient;
+import org.apache.hudi.common.testutils.HoodieTestDataGenerator;
+import org.apache.hudi.config.HoodieWriteConfig;
+import org.apache.hudi.storage.HoodieStorage;
+import org.apache.hudi.storage.StoragePath;
+import org.apache.hudi.storage.hadoop.HoodieHadoopStorage;
+import org.apache.hudi.testutils.HoodieJavaClientTestHarness;
+
+import java.io.IOException;
+import java.util.ArrayList;
+import java.util.HashMap;
+import java.util.List;
+import java.util.Map;
+
+public abstract class HoodieFileGroupReaderOnJavaTestBase<T> extends TestHoodieFileGroupReaderBase<T> {
+
+  @Override
+  public String getBasePath() {
+    return tempDir.toAbsolutePath() + "/myTable";
+  }
+
+  @Override
+  public String getCustomPayload() {
+    return CustomPayloadForTesting.class.getName();
+  }
+
+  @Override
+  public void commitToTable(List<HoodieRecord> recordList, String operation, Map<String, String> writeConfigs) {
+    HoodieWriteConfig writeConfig = HoodieWriteConfig.newBuilder()
+        .withEngineType(EngineType.JAVA)
+        .withEmbeddedTimelineServerEnabled(false)
+        .withProps(writeConfigs)
+        .withPath(getBasePath())
+        .withSchema(HoodieTestDataGenerator.TRIP_EXAMPLE_SCHEMA)
+        .build();
+
+    HoodieJavaClientTestHarness.TestJavaTaskContextSupplier taskContextSupplier = new HoodieJavaClientTestHarness.TestJavaTaskContextSupplier();
+    HoodieJavaEngineContext context = new HoodieJavaEngineContext(getStorageConf(), taskContextSupplier);
+    //init table if not exists
+    StoragePath basePath = new StoragePath(getBasePath());
+    try (HoodieStorage storage = new HoodieHadoopStorage(basePath, getStorageConf())) {
+      boolean basepathExists = storage.exists(basePath);
+      boolean operationIsInsert = operation.equalsIgnoreCase("insert");
+      if (!basepathExists || operationIsInsert) {
+        if (basepathExists) {
+          storage.deleteDirectory(basePath);
+        }
+        Map<String, Object> initConfigs = new HashMap<>(writeConfigs);
+        HoodieTableMetaClient.TableBuilder builder = HoodieTableMetaClient.newTableBuilder()
+            .setTableType(writeConfigs.getOrDefault("hoodie.datasource.write.table.type", "MERGE_ON_READ"))
+            .setTableName(writeConfigs.get("hoodie.table.name"))
+            .setPartitionFields(writeConfigs.getOrDefault("hoodie.datasource.write.partitionpath.field", ""))
+            .setRecordMergeMode(RecordMergeMode.getValue(writeConfigs.get("hoodie.record.merge.mode")))
+            .set(initConfigs);
+        if (writeConfigs.containsKey("hoodie.datasource.write.payload.class")) {
+          builder = builder.setPayloadClassName(writeConfigs.get("hoodie.datasource.write.payload.class"));
+        }
+        builder.initTable(getStorageConf(), getBasePath());
+      }
+    } catch (IOException e) {
+      throw new RuntimeException(e);
+    }
+
+    try (HoodieJavaWriteClient writeClient = new HoodieJavaWriteClient(context, writeConfig)) {
+      String instantTime = writeClient.createNewInstantTime();
+      writeClient.startCommitWithTime(instantTime);
+      // Make a copy of the records for writing. The writer will clear out the data field.
+      List<HoodieRecord> recordsCopy = new ArrayList<>(recordList.size());
+      recordList.forEach(hoodieRecord -> recordsCopy.add(new HoodieAvroRecord<>(hoodieRecord.getKey(), (HoodieRecordPayload) hoodieRecord.getData())));
+      if (operation.toLowerCase().equals("insert")) {
+        writeClient.insert(recordsCopy, instantTime);
+      } else {
+        writeClient.upsert(recordsCopy, instantTime);
+      }
+    }
+  }
+}
@@ -0,0 +1,50 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one
+ * or more contributor license agreements.  See the NOTICE file
+ * distributed with this work for additional information
+ * regarding copyright ownership.  The ASF licenses this file
+ * to you under the Apache License, Version 2.0 (the
+ * "License"); you may not use this file except in compliance
+ * with the License.  You may obtain a copy of the License at
+ *
+ *   http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing,
+ * software distributed under the License is distributed on an
+ * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+ * KIND, either express or implied.  See the License for the
+ * specific language governing permissions and limitations
+ * under the License.
+ */
+
+package org.apache.hudi.common.table.read;
+
+import org.apache.hudi.avro.HoodieAvroReaderContext;
+import org.apache.hudi.common.engine.HoodieReaderContext;
+import org.apache.hudi.common.table.HoodieTableMetaClient;
+import org.apache.hudi.storage.StorageConfiguration;
+import org.apache.hudi.storage.hadoop.HadoopStorageConfiguration;
+
+import org.apache.avro.Schema;
+import org.apache.avro.generic.IndexedRecord;
+
+import static org.junit.jupiter.api.Assertions.assertEquals;
+
+public class TestHoodieFileGroupReaderOnJava extends HoodieFileGroupReaderOnJavaTestBase<IndexedRecord> {
+  private static final StorageConfiguration<?> STORAGE_CONFIGURATION = new HadoopStorageConfiguration(false);
+
+  @Override
+  public StorageConfiguration<?> getStorageConf() {
+    return STORAGE_CONFIGURATION;
+  }
+
+  @Override
+  public HoodieReaderContext<IndexedRecord> getHoodieReaderContext(String tablePath, Schema avroSchema, StorageConfiguration<?> storageConf, HoodieTableMetaClient metaClient) {
+    return new HoodieAvroReaderContext(storageConf, metaClient.getTableConfig());
+  }
+
+  @Override
+  public void assertRecordsEqual(Schema schema, IndexedRecord expected, IndexedRecord actual) {
+    assertEquals(expected, actual);
+  }
+}
@@ -20,71 +20,38 @@
 package org.apache.hudi.hadoop;
 
 import org.apache.hudi.avro.HoodieAvroUtils;
-import org.apache.hudi.client.HoodieJavaWriteClient;
-import org.apache.hudi.client.common.HoodieJavaEngineContext;
 import org.apache.hudi.common.config.HoodieMemoryConfig;
-import org.apache.hudi.common.config.HoodieReaderConfig;
-import org.apache.hudi.common.config.RecordMergeMode;
-import org.apache.hudi.common.engine.EngineType;
 import org.apache.hudi.common.engine.HoodieReaderContext;
-import org.apache.hudi.common.model.HoodieAvroRecord;
-import org.apache.hudi.common.model.HoodieRecord;
-import org.apache.hudi.common.model.HoodieRecordPayload;
 import org.apache.hudi.common.table.HoodieTableMetaClient;
-import org.apache.hudi.common.table.read.CustomPayloadForTesting;
-import org.apache.hudi.common.table.read.TestHoodieFileGroupReaderBase;
+import org.apache.hudi.common.table.read.HoodieFileGroupReaderOnJavaTestBase;
 import org.apache.hudi.common.testutils.HoodieTestDataGenerator;
 import org.apache.hudi.common.testutils.HoodieTestUtils;
 import org.apache.hudi.common.testutils.minicluster.HdfsTestService;
-import org.apache.hudi.config.HoodieWriteConfig;
-import org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat;
-import org.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFormat;
-import org.apache.hudi.hadoop.realtime.HoodieRealtimeRecordReader;
 import org.apache.hudi.hadoop.utils.ObjectInspectorCache;
 import org.apache.hudi.storage.HoodieStorage;
 import org.apache.hudi.storage.StorageConfiguration;
 import org.apache.hudi.storage.hadoop.HoodieHadoopStorage;
 import org.apache.hudi.testutils.ArrayWritableTestUtil;
-import org.apache.hudi.testutils.HoodieJavaClientTestHarness;
 
 import org.apache.avro.Schema;
 import org.apache.hadoop.conf.Configuration;
 import org.apache.hadoop.fs.FileSystem;
-import org.apache.hadoop.fs.Path;
 import org.apache.hadoop.hive.metastore.api.hive_metastoreConstants;
-import org.apache.hadoop.hive.ql.exec.Utilities;
-import org.apache.hadoop.hive.ql.exec.mr.ExecMapper;
 import org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat;
-import org.apache.hadoop.hive.ql.plan.MapredWork;
-import org.apache.hadoop.hive.ql.plan.PartitionDesc;
-import org.apache.hadoop.hive.ql.plan.TableDesc;
 import org.apache.hadoop.hive.serde2.ColumnProjectionUtils;
 import org.apache.hadoop.io.ArrayWritable;
-import org.apache.hadoop.io.NullWritable;
-import org.apache.hadoop.mapred.FileInputFormat;
-import org.apache.hadoop.mapred.InputSplit;
 import org.apache.hadoop.mapred.JobConf;
-import org.apache.hadoop.mapred.RecordReader;
-import org.apache.hadoop.mapred.Reporter;
 import org.junit.jupiter.api.AfterAll;
 import org.junit.jupiter.api.BeforeAll;
 
 import java.io.IOException;
-import java.util.ArrayList;
-import java.util.Arrays;
-import java.util.HashMap;
-import java.util.LinkedHashMap;
 import java.util.List;
-import java.util.Map;
 import java.util.stream.Collectors;
 
-import static org.apache.hadoop.hive.ql.exec.Utilities.HAS_MAP_WORK;
-import static org.apache.hadoop.hive.ql.exec.Utilities.MAPRED_MAPPER_CLASS;
 import static org.apache.hudi.hadoop.HoodieFileGroupReaderBasedRecordReader.getRecordKeyField;
 import static org.apache.hudi.hadoop.HoodieFileGroupReaderBasedRecordReader.getStoredPartitionFieldNames;
-import static org.junit.jupiter.api.Assertions.assertEquals;
 
-public class TestHoodieFileGroupReaderOnHive extends TestHoodieFileGroupReaderBase<ArrayWritable> {
+public class TestHoodieFileGroupReaderOnHive extends HoodieFileGroupReaderOnJavaTestBase<ArrayWritable> {
 
   private static final String PARTITION_COLUMN = "datestr";
   private static JobConf baseJobConf;
@@ -97,7 +64,7 @@ public class TestHoodieFileGroupReaderOnHive extends TestHoodieFileGroupReaderBa
   private static final boolean USE_FAKE_PARTITION = true;
 
   @BeforeAll
-  public static void setUpClass() throws IOException, InterruptedException {
+  public static void setUpClass() throws IOException {
     // Append is not supported in LocalFileSystem. HDFS needs to be setup.
     hdfsTestService = new HdfsTestService();
     fs = hdfsTestService.start(true).getFileSystem();
@@ -123,140 +90,20 @@ public StorageConfiguration<?> getStorageConf() {
   }
 
   @Override
-  public String getBasePath() {
-    return tempDir.toAbsolutePath() + "/myTable";
-  }
-
-  @Override
-  public HoodieReaderContext<ArrayWritable> getHoodieReaderContext(String tablePath, Schema avroSchema, StorageConfiguration<?> storageConf) {
+  public HoodieReaderContext<ArrayWritable> getHoodieReaderContext(String tablePath, Schema avroSchema, StorageConfiguration<?> storageConf, HoodieTableMetaClient metaClient) {
     HoodieFileGroupReaderBasedRecordReader.HiveReaderCreator readerCreator = (inputSplit, jobConf) -> new MapredParquetInputFormat().getRecordReader(inputSplit, jobConf, null);
-    HoodieTableMetaClient metaClient = HoodieTableMetaClient.builder().setConf(storageConf).setBasePath(tablePath).build();
     JobConf jobConf = new JobConf(storageConf.unwrapAs(Configuration.class));
     setupJobconf(jobConf);
     return new HiveHoodieReaderContext(readerCreator, getRecordKeyField(metaClient),
         getStoredPartitionFieldNames(new JobConf(storageConf.unwrapAs(Configuration.class)), avroSchema),
         new ObjectInspectorCache(avroSchema, jobConf), storageConf);
   }
 
-  @Override
-  public String getCustomPayload() {
-    return CustomPayloadForTesting.class.getName();
-  }
-
-  @Override
-  public void commitToTable(List<HoodieRecord> recordList, String operation, Map<String, String> writeConfigs) {
-    HoodieWriteConfig writeConfig = HoodieWriteConfig.newBuilder()
-        .withEngineType(EngineType.JAVA)
-        .withEmbeddedTimelineServerEnabled(false)
-        .withProps(writeConfigs)
-        .withPath(getBasePath())
-        .withSchema(HoodieTestDataGenerator.TRIP_EXAMPLE_SCHEMA)
-        .build();
-
-    HoodieJavaClientTestHarness.TestJavaTaskContextSupplier taskContextSupplier = new HoodieJavaClientTestHarness.TestJavaTaskContextSupplier();
-    HoodieJavaEngineContext context = new HoodieJavaEngineContext(getStorageConf(), taskContextSupplier);
-    //init table if not exists
-    Path basePath = new Path(getBasePath());
-    try {
-      try (FileSystem lfs = basePath.getFileSystem(baseJobConf)) {
-        boolean basepathExists = lfs.exists(basePath);
-        boolean operationIsInsert = operation.equalsIgnoreCase("insert");
-        if (!basepathExists || operationIsInsert) {
-          if (basepathExists) {
-            lfs.delete(new Path(getBasePath()), true);
-          }
-          Map<String, Object> initConfigs = new HashMap<>(writeConfigs);
-          HoodieTableMetaClient.TableBuilder builder = HoodieTableMetaClient.newTableBuilder()
-              .setTableType(writeConfigs.getOrDefault("hoodie.datasource.write.table.type", "MERGE_ON_READ"))
-              .setTableName(writeConfigs.get("hoodie.table.name"))
-              .setPartitionFields(writeConfigs.getOrDefault("hoodie.datasource.write.partitionpath.field", ""))
-              .setRecordMergeMode(RecordMergeMode.getValue(writeConfigs.get("hoodie.record.merge.mode")))
-              .set(initConfigs);
-          if (writeConfigs.containsKey("hoodie.datasource.write.payload.class")) {
-            builder = builder.setPayloadClassName(writeConfigs.get("hoodie.datasource.write.payload.class"));
-          }
-          builder.initTable(storageConf, getBasePath());
-        }
-      }
-    } catch (IOException e) {
-      throw new RuntimeException(e);
-    }
-
-    try (HoodieJavaWriteClient writeClient = new HoodieJavaWriteClient(context, writeConfig)) {
-      String instantTime = writeClient.createNewInstantTime();
-      writeClient.startCommitWithTime(instantTime);
-      // Make a copy of the records for writing. The writer will clear out the data field.
-      List<HoodieRecord> recordsCopy = new ArrayList<>(recordList.size());
-      recordList.forEach(hoodieRecord -> recordsCopy.add(new HoodieAvroRecord<>(hoodieRecord.getKey(), (HoodieRecordPayload) hoodieRecord.getData())));
-      if (operation.toLowerCase().equals("insert")) {
-        writeClient.insert(recordsCopy, instantTime);
-      } else {
-        writeClient.upsert(recordsCopy, instantTime);
-      }
-    }
-  }
-
   @Override
   public void assertRecordsEqual(Schema schema, ArrayWritable expected, ArrayWritable actual) {
     ArrayWritableTestUtil.assertArrayWritableEqual(schema, expected, actual, false);
   }
 
-  private static boolean isLogFileRec(HoodieReaderContext<ArrayWritable> readerContext, Schema schema, ArrayWritable record) {
-    return !readerContext.getValue(record, schema, HoodieRecord.FILENAME_METADATA_FIELD).toString().contains(".parquet");
-  }
-
-  private static String createUniqueKey(HoodieReaderContext<ArrayWritable> readerContext, Schema schema, ArrayWritable record, boolean isSkipMerge) {
-    if (isSkipMerge) {
-      return readerContext.getRecordKey(record, schema) + "_" + readerContext.getValue(record, schema, HoodieRecord.COMMIT_TIME_METADATA_FIELD).toString();
-    } else {
-      return readerContext.getRecordKey(record, schema);
-    }
-  }
-
-  private RecordReader<NullWritable, ArrayWritable> createRecordReader(String tablePath, boolean isSkipMerge) throws IOException {
-    JobConf jobConf = new JobConf(baseJobConf);
-    jobConf.set(HoodieReaderConfig.FILE_GROUP_READER_ENABLED.key(), "false");
-    jobConf.set(HoodieRealtimeRecordReader.REALTIME_SKIP_MERGE_PROP, String.valueOf(isSkipMerge));
-
-    TableDesc tblDesc = Utilities.defaultTd;
-    // Set the input format
-    tblDesc.setInputFileFormatClass(HoodieParquetRealtimeInputFormat.class);
-    LinkedHashMap<Path, PartitionDesc> pt = new LinkedHashMap<>();
-    LinkedHashMap<Path, ArrayList<String>> talias = new LinkedHashMap<>();
-
-    PartitionDesc partDesc = new PartitionDesc(tblDesc, null);
-
-    pt.put(new Path(tablePath), partDesc);
-
-    ArrayList<String> arrayList = new ArrayList<>();
-    arrayList.add(tablePath);
-    talias.put(new Path(tablePath), arrayList);
-
-    MapredWork mrwork = new MapredWork();
-    mrwork.getMapWork().setPathToPartitionInfo(pt);
-    mrwork.getMapWork().setPathToAliases(talias);
-
-    Path mapWorkPath = new Path(tablePath);
-    Utilities.setMapRedWork(jobConf, mrwork, mapWorkPath);
-
-    // Add three partition path to InputPaths
-    Path[] partitionDirArray = new Path[HoodieTestDataGenerator.DEFAULT_PARTITION_PATHS.length];
-    Arrays.stream(HoodieTestDataGenerator.DEFAULT_PARTITION_PATHS).map(s -> new Path(tablePath, s)).collect(Collectors.toList()).toArray(partitionDirArray);
-    FileInputFormat.setInputPaths(jobConf, partitionDirArray);
-    jobConf.set(HAS_MAP_WORK, "true");
-    // The following config tells Hive to choose ExecMapper to read the MAP_WORK
-    jobConf.set(MAPRED_MAPPER_CLASS, ExecMapper.class.getName());
-    // setting the split size to be 3 to create one split for 3 file groups
-    jobConf.set(org.apache.hadoop.mapreduce.lib.input.FileInputFormat.SPLIT_MAXSIZE, "128000000");
-    setupJobconf(jobConf);
-
-    HoodieCombineHiveInputFormat combineHiveInputFormat = new HoodieCombineHiveInputFormat();
-    InputSplit[] splits = combineHiveInputFormat.getSplits(jobConf, 1);
-
-    assertEquals(1, splits.length);
-    return  combineHiveInputFormat.getRecordReader(splits[0], jobConf, Reporter.NULL);
-  }
-
   private void setupJobconf(JobConf jobConf) {
     Schema schema = HoodieAvroUtils.addMetadataFields(HoodieTestDataGenerator.AVRO_SCHEMA);
     List<Schema.Field> fields = schema.getFields();