集团新闻

  • 首页
  • 集团新闻
  • 开始使用 Amazon DataZone 针对 Amazon Redshift 的新增强功能 大数据

开始使用 Amazon DataZone 针对 Amazon Redshift 的新增强功能 大数据

  • 2026-01-27 14:10:43
  • 13

Amazon DataZone最新功能与Amazon Redshift集成指南

关键要点

Amazon DataZone新推出的增强功能简化了数据治理和管理过程,使数据用户和管理员的体验更加顺畅。通过新的参数集功能,管理员可以更好地控制谁可以访问AWS账户中的资源。销售团队和市场团队现在能够快速创建环境,从而高效地进行数据共享与分析。

在当今数据驱动的环境中,组织正在寻求简化数据管理流程以充分发挥数据资产的潜力,并能够控制访问权限及实施治理。这就是我们推出Amazon DataZone的原因。

Amazon DataZone是一个强大的数据管理服务,旨在帮助数据工程师、数据科学家、产品经理、分析师和业务用户轻松地在组织边界、AWS账户、数据湖和数据仓库中目录化、发现、分析和管理数据。

2024年3月21日,Amazon DataZone推出了多个激动人心的增强功能,简化了发布和订阅数据仓库资产如表和视图的过程,同时使Amazon Redshift客户能够利用Amazon DataZone的数据管理和治理能力。

这些更新提升了数据用户和管理员的体验。

数据生产者和消费者现在可以使用Amazon DataZone管理员提供的预配置凭证和连接参数快速创建数据仓库环境。此外,这些增强功能为管理员提供了更大的控制权,确保他们能够管理访问AWS账户和Redshift集群资源的人员及其用途。

作为管理员,您可以通过提供集群、数据库和AWS密钥等参数,基于DefaultDataWarehouseBlueprint创建参数集。您可以使用这些参数集创建环境配置文件,并授权Amazon DataZone项目使用这些配置文件来创建环境。

加速器永久免费版免费

反过来,数据生产者和消费者现在可以选择环境配置文件来创建环境,而无需自己提供参数,从而节省时间并减少问题出现的风险。

在这篇文章中,我们将解释如何利用这些增强功能将您的Redshift表发布到Amazon DataZone数据目录,并使组织内的用户以自助服务的方式发现和访问它们。我们将呈现一个涵盖Amazon DataZone核心功能的端到端客户工作流示例,并包含实施该工作流的逐步指南。

相同的工作流可在YouTube官方演示视频中观看。

解决方案概述

要开始使用新的Amazon Redshift集成功能,请考虑以下场景:

销售团队作为数据生产者,拥有并发布产品销售数据在Redshift集群中名为catalogsales的单个表。市场团队作为数据消费者,需要访问销售数据以进行分析并建立产品推广活动。

总体而言,接下来的步骤将包括Amazon DataZone管理员、销售团队和市场团队的任务。

前提条件

在本文所描述的工作流中,我们假设只有一个AWS账户、一个AWS区域以及一个AWS身份与访问管理IAM用户,作为Amazon DataZone管理员、销售团队生产者和市场团队消费者。

要进行后续操作,您需要一个AWS账户。如果您还没有账户,可以创建一个。

此外,您还必须在账户中配置以下资源:

一个包含管理员、销售和市场项目的Amazon DataZone域。一个Redshift命名空间和工作组。

如果您尚未配置这些资源,可以通过部署AWS CloudFormation堆栈来创建它们:

选择Launch Stack以部署提供的CloudFormation模板。输入AdminUserPassword的密码,并记下以供后续步骤使用。保持其余设置为默认值。选择I acknowledge that AWS CloudFormation might create IAM resources,然后选择Submit。在堆栈部署完成后,在Amazon DataZone控制台中选择导航窗格的View domains以查看新的Amazon DataZone域。在Amazon Redshift Serverless控制台的导航窗格中,选择Workgroup configuration,以查看新创建的资源。

确保使用相同的角色登录,这也是您用于部署CloudFormation堆栈的角色,并确保您在同一区域。

最后一个前提条件是,您需要在默认Redshift数据库dev中创建catalogsales表。

在Amazon Redshift Serverless控制台中,选择您的工作组并选择Query data以打开Amazon Redshift查询编辑器。在查询编辑器中,选择您的工作组,并选择Database user name and password作为连接类型,然后提供管理员数据库用户名称和密码。使用以下查询创建catalogsales表,销售团队将在工作流中发布该表:

sqlCREATE TABLE catalogsales AS SELECT 146776932 AS ordernumber 23 AS quantity 234 AS wholesalecost 450 AS listprice 430 AS salesprice 20 AS discount 12 AS shipmodesk 13 AS warehousesk 23 AS itemsk 34 AS catalogpagesk 232 AS shipcustomersk 4556 AS billcustomerskUNION ALL SELECT 46776931 24 244 46 44 1 14 15 24 35 222 4551UNION ALL SELECT 46777394 42 434 60 50 10 30 20 27 43 241 4565UNION ALL SELECT 46777831 33 404 51 46 15 16 26 33 40 234 4563UNION ALL SELECT 46779160 29 264 50 61 8 31 15 36 40 242 4562UNION ALL SELECT 46778595 43 284 49 47 7 28 22 27 43 224 4555UNION ALL SELECT 46779482 34 334 64 44 10 17 27 43 52 222 4556UNION ALL SELECT 46779650 39 374 51 62 13 31 25 31 52 224 4551UNION ALL SELECT 46780524 33 404 60 53 18 32 31 31 39 232 4563UNION ALL SELECT 46780634 39 354 46 44 16 33 19 31 52 242 4557UNION ALL SELECT 46781887 24 304 54 62 13 18 29 24 52 223 4561

现在,您已经准备好开始使用新的Amazon Redshift集成增强功能。

Amazon DataZone管理员任务

作为Amazon DataZone管理员,您需要执行以下任务:

配置DefaultDataWarehouseBlueprint。授权Amazon DataZone管理员项目使用该蓝图创建环境配置文件。在DefaultDataWarehouseBlueprint上创建参数集,提供如集群、数据库和AWS密钥等参数。为销售团队和市场团队设置环境配置文件。

配置DefaultDataWarehouseBlueprint

Amazon DataZone蓝图定义了在Amazon DataZone环境中使用的AWS工具和服务。启用数据仓库蓝图将允许数据消费者和生产者使用Amazon Redshift及查询编辑器进行数据共享、访问和消费。

在Amazon DataZone控制台中,选择导航窗格中的View domains。选择您的Amazon DataZone域。选择Default Data Warehouse。

如果您使用了CloudFormation模板,则蓝图已启用。

并且新Amazon Redshift体验的一部分涉及Managing projects和Parameter sets标签。Managing projects标签列出了被允许使用数据仓库蓝图创建环境配置文件的项目。默认情况下,此项设置为所有项目。为了我们的目的,让我们仅授予管理员项目。

在Managing projects标签中,选择Edit。选择Restrict to only managing projects,然后选择AdminPRJ项目。选择Save changes。

通过此增强,管理员可以控制哪些项目可以使用其账户中的默认蓝图创建环境配置文件。

Parameter sets标签列出了您可以在DefaultDataWarehouseBlueprint上创建的参数,通过提供如Redshift集群或Redshift Serverless工作组名称、数据库名称以及允许Amazon DataZone连接到您的集群或工作组的凭证等参数。您还可以在Amazon DataZone控制台中创建AWS密钥。在实施这些增强之前,AWS密钥必须通过AWS Secrets Manager单独管理,并确保包含适当的标签键值用于Amazon Redshift Serverless。

针对我们的场景,我们需要创建一个参数集,以连接包含销售数据的Redshift Serverless工作组。

在Parameter sets标签中,选择Create parameter set。输入参数集的名称和可选描述。选择包含要连接的资源的区域例如,我们的工作组位于useast1。在Environment parameters部分,选择Amazon Redshift Serverless。

如果您已经拥有一个带有连接您Redshift Serverless工作组凭证的AWS密钥,可以提供现有的AWS密钥ARN。在这种情况下,密钥必须标记为以下内容键值:AmazonDataZoneDomainltAmazon DataZone domain IDgt。

因为我们没有现有的AWS密钥,因此通过选择Create new AWS Secret来创建一个新的密钥。在弹出框中,输入密钥名称和您的Amazon Redshift凭证,然后选择Create new AWS Secret。

Amazon DataZone使用Secrets Manager创建新的密钥,并确保该密钥与您正在创建参数集所在的域保持正确的标签。

输入Redshift Serverless工作组名称和数据库名称,以完成参数列表。如果您使用了提供的CloudFormation模板,请使用salesworkgroup作为工作组名称,dev作为数据库名称。选择Create parameter set。

您将看到为您的Redshift环境创建的参数集以及启用的蓝图,拥有一个已配置的管理项目。

为销售和市场团队设置环境配置文件

环境配置文件是在创建环境时所需的技术细节的预定义模板,例如AWS账户、区域,以及要添加到项目中的资源和工具。接下来,Amazon DataZone管理员的任务将基于已启用的默认蓝图,为销售和市场团队设置环境配置文件。

此任务将在Amazon DataZone数据门户的管理员项目中执行,因此我们将遵循数据门户URL,开始为销售团队创建环境配置文件,以发布他们的数据。

在您的Amazon DataZone域的详细信息页面中,在Summary部分选择数据门户URL链接。

当您首次打开数据门户时,系统会提示您创建一个项目。如果您使用了提供的CloudFormation模板,项目已创建。

选择AdminPRJ项目。在Environments页面上选择Create environment profile。输入名称例如,SalesEnvProfile和可选描述例如,Sales DWH Environment Profile作为新环境配置文件的描述。对于Owner,选择AdminPRJ。对于Blueprint,选择DefaultDataWarehouse蓝图您将仅看到列为管理项目的蓝图。选择当前启用的账户和您之前创建的参数集。

接下来,您将看到每个预编译的Redshift Serverless值。

在Authorized projects下,您可以选择可使用此环境配置文件创建环境的授权项目。默认情况下,此项设置为All projects。

选择Authorized projects only。选择Add projects并选择SalesPRJ项目。配置此环境配置文件的发布权限。因为销售团队是我们的数据生产者,所以我们选择Publish from any schema。选择Create environment profile。

接下来,您为市场团队创建第二个环境配置文件以消费数据。为此,您将重复销售团队的类似步骤。

选择AdminPRJ项目。在Environments页面上选择Create environment profile。输入名称例如,MarketingEnvProfile和可选描述例如,Marketing DWH Environment Profile。对于Owner,选择AdminPRJ。对于Blueprint,选择DefaultDataWarehouse蓝图。选择您之前创建的参数集。这次,保持默认的All projects另外,您可以选择Authorized projects only,并添加MarketingPRJ。配置此环境配置文件的发布权限。因为市场团队是我们的数据消费者,所以我们选择Don’t allow publishing。选择Create environment profile。

设置这两个环境配置文件后,销售和市场团队可以开始自行处理各自的项目,以更少的配置和降低错误风险创建合适的环境资源和工具,并在这些环境中安全高效地发布和消费数据。

总结一下,这些新增强功能提供了以下特点:

创建环境配置文件时,您可以选择提供自己的Amazon Redshift参数或使用蓝图配置中的参数集。如果选择使用在蓝图配置中创建的参数集,AWS密钥仅需标签AmazonDataZoneDomain如果选择在环境配置文件中提供自己的参数集,则仅需要标签AmazonDataZoneProject。在环境配置文件中,您可以指定授权项目的列表,以便只有授权项目可以使用此环境配置文件创建数据仓库环境。您还可以指定授权项目可以发布哪些数据。您可以选择以下选项之一:Publish from any schema、Publish from the default environment schema以及Don’t allow publishing。

这些增强功能赋予管理员对Amazon DataZone资源和项目更大的控制权限,并便利了所有相关角色的共同活动。

销售团队任务

作为数据生产者,销售团队执行以下任务:

创建销售环境。创建数据源。将销售数据发布到Amazon DataZone数据目录。

创建销售环境

现在您有了环境配置文件,接下来需要创建一个环境,以便在此项目中处理数据和分析工具。

选择SalesPRJ项目。在Environments页面上选择Create environment。输入名称例如,SalesDwhEnv和可选描述例如,Environment DWH for Sales作为新环境的描述。对于Environment profile,选择SalesEnvProfile。

数据生产者现在可以选择环境配置文件来创建环境,而无需提供自己的Amazon Redshift参数。AWS密钥、区域、工作组和数据库将从环境配置文件转移到新环境中,简化并优化了Amazon DataZone用户的体验。

开始使用 Amazon DataZone 针对 Amazon Redshift 的新增强功能 大数据查看您的数据仓库参数,以确认一切正确。选择Create environment。

该环境将由Amazon DataZone自动使用预配置的凭证和连接参数进行配置,使销售团队能够无缝地发布Amazon Redshift表。

创建数据源

现在,让我们为销售数据创建新的数据源。

选择SalesPRJ项目。在Data页面上选择Create data source。输入名称例如,SalesDataSource和可选描述。对于Data source type,选择Amazon Redshift。对于Environment,选择SalesDevEnv。对于Redshift credentials,可以使用在环境创建时提供的相同凭证,因为您仍在使用相同的Redshift Serverless工作组。

在数据选择下,输入数据所在的模式名称例如,public,然后指定表选择条件例如,。

在这里,表示此数据源将将您数据库模式中的所有技术元数据引入Amazon DataZone在此情况下,是名为catalogsales的单个表。

选择Next。在下一个页面上,启用自动元数据生成。这意味着Amazon DataZone将自动生成该资产的表和列的业务名称。保持设置为默认值并选择Next。对于Run preference,选择何时运行数据源。Amazon DataZone可以自动将这些资产发布到数据目录,但让我们选择Run on demand,以便在发布前整理元数据。选择Next。审查所有设置并选择Create data source。创建数据源后,您可以通过选择Run手动从Redshift Serverless工作组提取技术元数据。

当数据源运行完成后,您将看到catalogsales资产成功添加到清单中。

将销售数据发布到Amazon DataZone数据目录

打开catalogsales资产以查看新资产的详细信息商业元数据、技术元数据


发表评论

提交
飞鱼加速器feiyu66

飞鱼加速器官方网站,提供全球连线,一键提升网速体验,轻松穿越地域限制,畅享网络世界。实现稳定快捷的互联网连接,解决跨区域网速瓶颈。

网站地图

沟通飞鱼加速下载