首页 » 文章 » Amazon Athena – 数据分析工具

Amazon Athena – 数据分析工具

分析对于获得清晰的业务洞察力起着关键作用,如果您要分析的数据非常庞大,那么就需要考虑许多参数,即:成本、领域的专业知识、维护、定期升级、并发用户问题等。

Redshift 是 Amazon 提供的完全托管数据仓库解决方案。它是一种高效的数据管理解决方案,但如果需要更多磁盘容量,我们需要通过添加更多节点来增加集群的大小。由于具有水平可扩展性,我们最终可以处理巨大的 Redshift 集群。还有一种更简单的方法。

什么是 Amazon Athena?

Amazon Athena 是一种交互式查询服务,可以使用标准 SQL 轻松地直接从 S3 分析数据。

  1. 无服务器——这意味着没有基础设施、没有实例、没有管理、不需要更新。我们使用端点或直接通过 AWS 控制台与 Athena 通信。
  2. 零启动时间——这意味着我们一登录,就可以提交查询、分析结果或创建表。
  3. 所有幕后发生的升级都是透明的;我们可以在不发生任何停机的情况下获得升级带来的好处。

可以直接从 S3 查询数据;我们不需要在任何外部数据仓库中加载数据。我们可以直接从数据所在位置查询数据。 它支持来自 S3 的各种原始格式的 新加坡电话号码库 数据,可以是文本 CSV、JSON、网络日志、AWS 服务日志。例如,如果我们有一个可以使用正则表达式解析的文本文件,那么我们也可以将正则表达式定义为创建表查询的一部分。

由于数据直接从 S3 流式传输,因此我们还可以利用 S3 的耐用性和可用性。

经济高效 —— 我们仅需为相当便宜的 S3 付费,对外则按查询付费。

每次查询成本——S3 每 TB 扫描 5 美元。

失败的查询和 DDL 查询是免费的。如果我们 如何为节日季创建有效的数字营销活动 在运行时取消查询,则费用将按扫描的数据量计算。同时,有许多优化技术可以降低这种成本,例如在创建表时对数据进行分区,以便表上的查询仅扫描 S3 的一部分。

另外,我们可以选择使用列式存储数据。如果数据存储正确,我们需要扫描的数据就会减少。因此成本会降低。

Presto(任何事物上的 SQL)

Athena 使用 Presto 作为托管服务。Presto 是一种内存分布式 SQL 引擎,由 Facebook 开发。它从任何地方读取数据,并在数据所在位置进行 2017 年国际理论物理中心会议 实际处理;因此可以连接到各种连接器,包括 HDFS、S3、MongoDB、MySQL、Postgres、Redshift、SQL Server。它能够在单个集群上处理数百个并发查询。这意味着我们不必维护复杂的集群。

Presto 将数据与处理分离;Presto 中不存储任何数据,因此它从其他地方读取数据。例如 S3。由于 S3 存储非常便宜,因此将其用作 Datalake 的存储非常有意义。因此,数据驻留在 S3 中,我们在其上创建元数据,该元数据存储在 AWS Glue Catalog Metastore 中,所有处理都在内存中,结果直接流式传输到控制台(也可以自定义到输出存储桶),我们也可以直接从控制台下载 CSV 格式的数据。

在内部,它会自动并行化查询,因此与 Hive 相比,Hive 在 Hadoop 中出色地使用了 Java MapAndReduce,并行执行七个 Hive 命令需要几个小时,而 Presto 的表现却非常出色。这是 Facebook 创建并改用 Presto 的原因之一,Presto 进一步增强了 Amazon Athena [阅读更多来源链接]

滚动至顶部