关于Apache Airflow UI界面的构成

Apache Airflow 是一种工具或平台,用于编排和调度大规模的数据处理和工作流。

Apache Airflow是一款开源的工作流管理工具。它使用有向非循环图(DAG)创建工作流,可以对各种数据的导入、处理等操作进行工作流控制。
此外,像AWS等云服务提供商也提供了Apache Airflow的托管服务,使其成为一款相对容易引入和使用的工具。
在这里,我们将通过AWS的Amazon Managed Workflows for Apache Airflow (MWAA)来确认Apache Airflow 2.2版本的用户界面是什么样的。

关于Apache Airflow UI

Airflow的用户界面主要由名为DAGs的页面组成,您可以在这个页面上管理各种工作流。您可以打开或关闭每个工作流的执行以及查看执行历史记录。我们将在这里介绍常用的页面。
在下面的页面中,只存在一个名为etl_athena_job的工作流。

mwaa-handson-job-5.png

DAG的启用/禁用

点击DAG名称左侧的开关可以进行启用(活动状态)或暂停(已暂停状态)。
下图中的DAG已被启用。

mwaa-handson-job-6.png

每个DAG的界面设计

点击每个DAG可以查看DAG的详细信息。您可以在多个标签中查看DAG的各种信息。

DAG图

点击每个DAG后将转到Graph界面,因此Graph界面经常被参考。在Graph界面中,您可以查看每个任务的详细状态,可以检查每个任务的日志并进行错误后的重试等状态更改。如果点击DAG转到Graph界面,则显示最新执行的状态。如果想要查看过去的执行,则可以通过”Run”来显示过去的执行列表,然后从中进行选择。

mwaa-handson-screen-2.png

DAG的树状结构

在Tree画面中,您可以按照时间顺序查看DAG的执行状态和任务的执行状态。
这个界面对于确认每个任务是否成功或失败,包括过去的执行情况,非常有用。

mwaa-handson-screen-1.png

DAG的日历

在日历界面上,可以查看每天的执行状态。
如果所有执行都成功,它们将以深绿色显示,但如果失败的比例较多,则会显示为接近红色的颜色。

mwaa-handson-screen-3.png

DAG的任务持续时间

任务持续时间——在界面上可以显示每个执行任务的运行时间。
通过该界面可以查看任务持续时间逐渐增长等问题。

mwaa-handson-screen-4.png

DAG的任务尝试

在Task Tries界面上,您可以查看每个任务的重试次数。

mwaa-handson-screen-5.png

DAG的降落时间

在“Landing Times”屏幕上,这是从计划开始执行的时间到实际开始执行的时间之间的差异。
因此,可以检查任务的等待执行时间,以推测Airflow集群资源是否充足。

mwaa-handson-screen-6.png

DAG的甘特图。

在甘特图界面上,您可以通过甘特图查看每个任务的执行时间。
若要查看过去的执行情况,请在“运行”选项下选择过去的执行列表进行选择。

mwaa-handson-screen-7.png

DAG的详细信息 (DAG de

在Details页面中,可以以表格形式查看DAG的配置信息,例如Schedule Interval、Default Args和Task IDs等,这些信息都是在DAG的代码中编写的。

mwaa-handson-screen-8.png

DAG的代码

在Code界面上,可以查看DAG的代码本身。

mwaa-handson-screen-9.png
bannerAds