ELT 是 ETL的一种替代方案。企业通常有大量数据分散在 CRM、营销、客户支持和产品分析等工具中。虽然访问数据不是问题,但从不同位置和格式的存储数据中获得有意义的分析才是问题。实现这一目标的过程是:“提取、转换、加载”(ETL),这需要在数据到达中央数据仓库之前对数据进行转换。目前还有一种替代方案:“提取、加载、转换”(ELT),允许公司在原始数据进入仓库时按需转换。
Airbyte 是一个用于构建 ELT 管道的开源数据集成平台,整合用户数据仓库、数据湖和数据库中的数据。
Airflow 是用 Python 写的,支持 Python 2/3 两个版本。 传统 Workflow 通常使用 Text Files (json, xml / etc) 来定义 DAG, 然后 Scheduler 解析这些 DAG 文件形成具体的 Task Object 执行;Airflow 没这么干,它直接用 Python 写 DAG definition, 一下子突破了文本文件表达能力的局限,定义 DAG 变得简单。
Fishtown Analytics 是开源“分析工程”工具 Dbt(数据构建工具)背后的公司,该公司更名为 Dbt Labs。Dbt Labs 是开源分析工程工具的开发商,其使命是帮助分析师创建和传播组织知识。分析工程是指在原始数据进入数据仓库后获取原始数据并为分析做准备的过程,这意味着 Dbt 有效地充当了 ELT 中的“T”。
它被称为dbt,即数据构建工具,它是一种非常灵活的命令行数据管道工具,它使我们能够非常快速,非常轻松地收集和转换数据以进行分析!dbt无需完全重新编程您的管道。
dbt仍然像常规数据库一样是基于SQL构建的,但是它具有使用诸如jinja之类的模板引擎在其之上构建的附加功能。这有效地使您能够在SQL中引入更多逻辑(即循环,函数等)以访问,重新排列和组织数据。有点像对数据集进行编程,但具有更大的灵活性和更多选择。