Skip to content

Integrated Data Lake Service

构想

Integrated Data Lake (IDL) 是一个存储库,允许您以原生格式按需存储结构化和非结构化数据。它为那些模式和数据在查询数据前不能确定提供大型数据池。这比传统的数据管理系统提供了更多的灵活性和灵活性。

Integrated Data Lake Service 允许您按原样存储数据,使用仪表板和可视化分析数据,或将其用于大数据处理、实时分析和机器学习。

访问

要访问 Integrated Data Lake Service ,您需要具有在 Data Lake Services 角色和范围中列出相应的角色。

用户只能与租户和子租户中的对象交互。

基础

签名 URL

Integrated Data Lake Service 允许数据上传和下载使用签名的 URL。签名 URL 有一个过期数据和时间,只能由授权的租户用户或服务使用。使用签名 URL上传和下载数据的最大对象为5 GB。

导入时间序列

The Integrated Data Lake Service 允许授权的租户用户或服务将时间序列数据导入数据湖,以支持按需上传分析和机器学习工具的时间序列。

元数据

The Integrated Data Lake Service 为每个对象分配唯一标识符。此外,可以为对象分配一组扩展元数据标记。

数据访问

使用此服务,您可以为特定的租户启用(或禁用)对数据的只读访问。例如,您可以使分析工具直接访问您的数据进行分析,而不必下载数据。这节省了存储空间并消除了常规数据同步的需要。

或者Integrated Data Lake Service 可以生成临时的 STS 令牌,以便对数据进行只读访问。令牌只能由授权的租户用户或服务使用。

使用交叉帐户访问,用户可以使 AWS 帐户访问 MindSphere datalake 中的数据。用户最多可以访问5个交叉帐户。例如,IDL 用户在 AWS 帐户(如 tableau 服务器)上启用了第三方应用程序。 现在用户希望将 tableau 服务器的访问权限授予驻留在 IDL 中的数据。这可以通过使用交叉帐户访问来启用 AWS 帐户并执行所需的用例来轻松实现。 此外还可以通过 API 或 IDL 管理器提供对启用的交叉帐户的读/写和删除访问。
目前用户可以在任何给定的时间提供5个交叉帐户访问。

通知

The Integrated Data Lake Service 提供通知功能。当使用服务接收、更新或删除对象时,该功能将报告相关通知。授权的租户用户或服务可以订阅通知。目前租户用户或服务可以订阅最多15个通知。

功能

Integrated Data Lake Service 公开其 API 来实现以下任务:

  • 导入时间序列数据
  • 生成签名URLs来上传,更新或下载对象
  • 删除对象
  • 添加,更新和删除对象标签
  • 接收通知
  • Cross account access
  • Cross account accesses
  • 子租户支持
  • 批量上传对象

Integrated Data Lake Service 通过 UI 提供以下功能:

  • Cross account access - 支持 AWS 帐户能够从IDL读取数据
  • Cross account accesses - 为已启用的交叉账户提供前缀级访问
  • 时间序列导入功能

限制

  • 所有通过 MindSphere 网关 的请求必须遵循 MindSphere 网关限制.
  • 使用签名 URL 上传和下载对象的对象最大为5 GB。
  • 签名 URL 在两小时后过期。
  • 对象没有版本控制。
  • 在撤销过程中,Bucket 策略将被清空,因此之前启用的交叉帐户访问将按预期停止工作。
  • 在主动令牌退出之前,在过期前它将一直保持可用。
  • 如果活动 S3 在注销之前签署,在过期前它将保持可用性。
  • 所有的批量导入限制对于 IDL 中的时间序列导入功能仍然有效。
  • 在禁用状态下只能创建10个交叉帐户访问。
  • 在任何给定的时间内,只能启用5个交叉帐户访问。
  • 用户只能有最多15个订阅。
  • UTS 的数据可能需要48小时才能更新。
  • 在交叉帐户访问的时间序列导入文件夹中不能提供写访问。
  • 无法创建上传时间序列导入文件夹的预签名 URL。
  • 下载时间序列数据文件时用户路径应该通过时间序列导入预先指定。
  • 用于文件名值的字符必须在字符集 '[a-zA-Z0-9.!*'() _-/=] 中。开头和结尾都不允许有空格。此外,名称中不允许使用连续空格。
  • 使用原生 URL 上传的对象将仅能使用原生 URL 删除。IDL Service URL 不支持删除使用原生 URL 上传的文件。

要获取当前限制列表,请转到发布说明并选择最新日期。 然后转到 "MindAccess Developer Plan Subscribers and MindAccess Operator Plan Subscribers" 并选择您感兴趣的 "IoT service"。

示例场景

一家航空公司的质量保证代表想要将航班数据(2009-2019年)上传到 MindSphere 。因此,他们可以运行分析工具,使数据可用于查询。
他们可以使用Data Lake Service 上传Excel表格,并允许从其他账户访问数据。这允许航空公司集成分析工具(如 AWS Glue)并快速执行查询。例如,他们可以查询“最近10年最受欢迎的机场”或“去年航班取消最多的机场”。


Last update: March 22, 2023