Apache Airflow 概述

Apache Airflow 2014 年诞生于 Airbnb 公司，最初是为了解决公司内部日益臃肿、难以维护的 Cron 定时任务和复杂的 ETL（抽取、转换、加载）流程。

经过了十余年的深耕细作，Airflow 已从一个 Airbnb 的内部工具成长为 Apache 基金会的顶级项目，成为全球数据工程、自动化运维和任务调度的行业标准。

与之相对应，Crontab 由传奇程序员 Ken Thompson 设计，它仅通过「分、时、日、月、周」五个维度的时间表达式，就优雅地解决了定时任务调度这一核心问题。

下面我们将从多个角度，对比 Cron 与 Airflow 各自的优势与局限。

内置工具

在开发者使用 Crontab 时，如果遇到了需要连接数据库，处理任务超时、封装日志记录时，往往需要自己处理像对应的逻辑。而 Airflow 及其生态则提供了开箱即用的工具支持：

全栈连接器:

内置了对对象存储（S3, OSS）、主流数据库（PostgreSQL, MySQL, Snowflake）、基础设施（Docker, Kubernetes）及消息系统（Kafka, RabbitMQ）的官方算子

Airflow 提供了极为精细的失败处理机制：

这解决了 Crontab 最致命的短板之一就是任务失败不可观察。Airflow 提供了基于 React 开发的现代化 Web 界面：

在 Cron 中，实现任务 B 必须在任务 A 成功后运行非常困难。Airflow 原生支持任务级依赖：

# 极其简洁的依赖表达
task_A >> task_B >> task_C

此外，它支持灵活的触发规则：

这是 Airflow 的杀手锏之一，Crontab 只关心当前时刻，而 Airflow 关心的是数据对应的逻辑时间

横向扩展

Airflow 自身支持多种执行器。小型任务可用 LocalExecutor，大规模集群则可选择 CeleryExecutor 或云原生的 KubernetesExecutor，实现任务的弹性扩缩容

安全与审计

Airflow 支持 RBAC 基于角色的权限访问控制。只需要简单的几步就可以让不同部门的同事只能操作各自的 DAG，且所有手动触发、参数修改行为都有完整的审计日志记录

尽管 Airflow 在功能和扩展性上明显强于 Crontab，但这并不意味着它适用于所有场景。当任务足够简单、无复杂依赖、对可观测性要求不高时，Crontab 往往是更合理且成本更低的选择。毕竟工具的价值，在于解决问题，而不是复杂化问题本身。

接下来，我将通过十篇左右的文章，从不同功能角度系统地介绍 Airflow