airflow.providers.apache.spark.operators.spark_submit¶

Attributes¶

kube_client

Classes¶

`ResumableJobMixin`	Airflow 2 stub — no task_state_store, always submits fresh.
`SparkSubmitOperator`	Wrap the spark-submit binary to kick off a spark-submit job; requires "spark-submit" binary in the PATH.

Module Contents¶

airflow.providers.apache.spark.operators.spark_submit.kube_client = None[source]¶

class airflow.providers.apache.spark.operators.spark_submit.ResumableJobMixin(*, durable=True, **kwargs)[source]¶

Airflow 2 stub — no task_state_store, always submits fresh.

external_id_key: str = 'remote_job_id'[source]¶

durable = True[source]¶

execute_resumable(context)[source]¶

class airflow.providers.apache.spark.operators.spark_submit.SparkSubmitOperator(*, application='', conf=None, conn_id='spark_default', files=None, py_files=None, archives=None, driver_class_path=None, jars=None, java_class=None, packages=None, exclude_packages=None, repositories=None, total_executor_cores=None, executor_cores=None, executor_memory=None, driver_memory=None, keytab=None, principal=None, proxy_user=None, name='arrow-spark', num_executors=None, status_poll_interval=1, application_args=None, env_vars=None, verbose=False, spark_binary=None, properties_file=None, yarn_queue=None, deploy_mode=None, use_krb5ccache=False, post_submit_commands=None, track_driver_via_k8s_api=False, yarn_track_via_rm_api=False, yarn_rm_auth=None, openlineage_inject_parent_job_info=conf.getboolean('openlineage', 'spark_inject_parent_job_info', fallback=False), openlineage_inject_transport_info=conf.getboolean('openlineage', 'spark_inject_transport_info', fallback=False), reconnect_on_retry=None, **kwargs)[source]¶

Bases: airflow.sdk.ResumableJobMixin, airflow.providers.common.compat.sdk.BaseOperator

Wrap the spark-submit binary to kick off a spark-submit job; requires “spark-submit” binary in the PATH.