Adding ServerlessDataprocSubmitter

sahusanket · sahusanket · commit cac6e15e09ea · 2025-03-26T18:25:40.000+05:30
diff --git a/cdap-spark-core-base/src/main/java/io/cdap/cdap/app/runtime/spark/SparkProgramRunner.java b/cdap-spark-core-base/src/main/java/io/cdap/cdap/app/runtime/spark/SparkProgramRunner.java
@@ -39,6 +39,7 @@
 import io.cdap.cdap.app.runtime.spark.submit.DistributedSparkSubmitter;
 import io.cdap.cdap.app.runtime.spark.submit.LocalSparkSubmitter;
 import io.cdap.cdap.app.runtime.spark.submit.MasterEnvironmentSparkSubmitter;
+import io.cdap.cdap.app.runtime.spark.submit.ServerlessDataprocSubmitter;
 import io.cdap.cdap.app.runtime.spark.submit.SparkSubmitter;
 import io.cdap.cdap.common.conf.CConfiguration;
 import io.cdap.cdap.common.conf.Constants;
@@ -220,7 +221,12 @@ public ProgramController run(Program program, ProgramOptions options) {
       SparkSubmitter submitter;
       // If MasterEnvironment is not available, use non-master env spark submitters
       MasterEnvironment masterEnv = MasterEnvironments.getMasterEnvironment();
-      if (masterEnv != null && cConf.getBoolean(Constants.Environment.PROGRAM_SUBMISSION_MASTER_ENV_ENABLED, true)) {
+      //TODO : figure out that this is serverless
+      if (true) {
+        String schedulerQueue = options.getArguments().getOption(AppFabric.APP_SCHEDULER_QUEUE);
+        submitter = new ServerlessDataprocSubmitter(hConf, locationFactory, host, runtimeContext,
+                                                    schedulerQueue, LaunchMode.CLIENT);
+      } else if (masterEnv != null && cConf.getBoolean(Constants.Environment.PROGRAM_SUBMISSION_MASTER_ENV_ENABLED, true)) {
         submitter = new MasterEnvironmentSparkSubmitter(cConf, locationFactory, host, runtimeContext,
                                                         masterEnv, options);
       } else {
diff --git a/cdap-spark-core-base/src/main/java/io/cdap/cdap/app/runtime/spark/submit/AbstractSparkSubmitter.java b/cdap-spark-core-base/src/main/java/io/cdap/cdap/app/runtime/spark/submit/AbstractSparkSubmitter.java
@@ -45,8 +45,6 @@
 import java.util.concurrent.Executors;
 import java.util.concurrent.TimeUnit;
 import java.util.function.BiConsumer;
-import java.util.regex.Matcher;
-import java.util.regex.Pattern;
 import javax.annotation.Nullable;
 
 /**
@@ -57,8 +55,7 @@ public abstract class AbstractSparkSubmitter implements SparkSubmitter {
   private static final Logger LOG = LoggerFactory.getLogger(AbstractSparkSubmitter.class);
 
   // Transforms LocalizeResource to URI string
-  private static final Function<LocalizeResource, String> RESOURCE_TO_PATH = input ->
-    input.getURI().toString().split("#")[0];
+  private static final Function<LocalizeResource, String> RESOURCE_TO_PATH = input -> input.getURI().toString();
 
   @Override
   public final <V> SparkJobFuture<V> submit(SparkRuntimeContext runtimeContext,
@@ -208,21 +205,7 @@ private void submit(SparkRuntimeContext runtimeContext, String[] args) {
       ClassLoaders.setContextClassLoader(oldClassLoader);
     }
   }
-  private static final Pattern LOCAL_MASTER_PATTERN = Pattern.compile("local\\[([0-9]+|\\*)\\]");
-  protected void addMasterPOC(Map<String, String> configs, ImmutableList.Builder<String> argBuilder) {
-    // Use at least two threads for Spark Streaming
-    String masterArg = "local[2]";
-
-    String master = configs.get("spark.master");
-    if (master != null) {
-      Matcher matcher = LOCAL_MASTER_PATTERN.matcher(master);
-      if (matcher.matches()) {
-        masterArg = "local[" + matcher.group(1) + "]";
-      }
-    }
 
-    argBuilder.add("--master").add(masterArg);
-  }
   /**
    * Creates the list of arguments that will be used for calling {@link SparkSubmit#main(String[])}.
    *
@@ -241,17 +224,10 @@ private List<String> createSubmitArguments(SparkRuntimeContext runtimeContext, M
     Iterable<LocalizeResource> archivesIterable = getArchives(resources);
     Iterable<LocalizeResource> filesIterable = getFiles(resources);
 
-//    addMaster(configs, builder);
-    addMasterPOC(configs, builder);
+    addMaster(configs, builder);
     builder.add("--conf").add("spark.app.name=" + spec.getName());
 
     configs.putAll(generateSubmitConf(configs));
-    // TODO : Error : for distributed spark : $destFile exists and does not match contents
-    configs.put("spark.files","");
-    configs.put("spark.jars","");
-    configs.put("spark.repl.local.jars","");
-    // TODO : Error : DataprocMetricsListener is not a subclass of org.apache.spark.scheduler.SparkListenerInterface
-    configs.put("spark.dataproc.listeners","");
     BiConsumer<String, String> confAdder = (k, v) -> builder.add("--conf").add(k + "=" + v);
     configs.forEach(confAdder);
 
diff --git a/cdap-spark-core-base/src/main/java/io/cdap/cdap/app/runtime/spark/submit/ServerlessDataprocSubmitter.java b/cdap-spark-core-base/src/main/java/io/cdap/cdap/app/runtime/spark/submit/ServerlessDataprocSubmitter.java
@@ -0,0 +1,70 @@
+package io.cdap.cdap.app.runtime.spark.submit;
+
+import com.google.common.base.Function;
+import com.google.common.collect.ImmutableList;
+import io.cdap.cdap.app.runtime.spark.SparkRuntimeContext;
+import io.cdap.cdap.runtime.spi.runtimejob.LaunchMode;
+import org.apache.hadoop.conf.Configuration;
+import org.apache.hadoop.yarn.api.ApplicationConstants;
+import org.apache.twill.filesystem.LocationFactory;
+import org.jetbrains.annotations.Nullable;
+import io.cdap.cdap.internal.app.runtime.distributed.LocalizeResource;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
+import java.util.HashMap;
+import java.util.Map;
+import java.util.regex.Matcher;
+import java.util.regex.Pattern;
+
+public class ServerlessDataprocSubmitter extends DistributedSparkSubmitter {
+
+  private static final Logger LOG = LoggerFactory.getLogger(ServerlessDataprocSubmitter.class);
+
+  private static final Function<LocalizeResource, String> RESOURCE_TO_PATH = input ->
+    input.getURI().toString().split("#")[0];
+  private static final Pattern LOCAL_MASTER_PATTERN = Pattern.compile("local\\[([0-9]+|\\*)\\]");
+
+
+  public ServerlessDataprocSubmitter(Configuration hConf, LocationFactory locationFactory,
+                                     String hostname, SparkRuntimeContext runtimeContext,
+                                     @Nullable String schedulerQueueName, LaunchMode launchMode) {
+    super(hConf, locationFactory, hostname, runtimeContext, schedulerQueueName, launchMode);
+  }
+
+  @Override
+  protected void addMaster(Map<String, String> configs, ImmutableList.Builder<String> argBuilder) {
+    // Use at least two threads for Spark Streaming
+    String masterArg = "local[2]";
+
+    String master = configs.get("spark.master");
+    if (master != null) {
+      Matcher matcher = LOCAL_MASTER_PATTERN.matcher(master);
+      if (matcher.matches()) {
+        masterArg = "local[" + matcher.group(1) + "]";
+      }
+    }
+    argBuilder.add("--master").add(masterArg);
+  }
+
+  @Override
+  protected Map<String, String> generateSubmitConf(Map<String, String> appConf) {
+    Map<String, String> config = new HashMap<>();
+    config.put("spark.executorEnv.CDAP_LOG_DIR", ApplicationConstants.LOG_DIR_EXPANSION_VAR);
+    // TODO : Error : for distributed spark : $destFile exists and does not match contents
+    config.put("spark.files","");
+    config.put("spark.jars","");
+    config.put("spark.repl.local.jars","");
+    // TODO : Error : DataprocMetricsListener is not a subclass of org.apache.spark.scheduler.SparkListenerInterface
+    config.put("spark.dataproc.listeners","");
+
+    // Make Spark UI runs on random port. By default, Spark UI runs on port 4040 and it will do a sequential search
+    // of the next port if 4040 is already occupied. However, during the process, it unnecessarily logs big stacktrace
+    // as WARN, which pollute the logs a lot if there are concurrent Spark job running (e.g. a fork in Workflow).
+    config.put("spark.ui.port", "0");
+
+    return config;
+  }
+
+
+}