我调查和整理了OSS的数据目录
背景和目标
在以前的”DMBOK数据管理(第12章:元数据管理)”中,我们整理了关于元数据的内容。
现在我们将整理一下世界上存在的用于管理元数据的数据目录的类型有哪些。
总结
以下将整理代表性数据目录的特点。至于TBD部分,在阅读文件后仍不明确,因此我们将在今后通过操作确认。
DataHub は、modern data stack向けのOSSクラウド、ライセンス等Apache License 2.0Apache License 2.0Apache License 2.0Data Discoveryテーブル、トピック、ダッシュボード、パイプライン、およびサービスを検索可能。
配列や構造体などの複雑なデータ型のサポートを含め、アセットとそのコンポーネント (列、グラフなど) の詳細なメタデータをサポートTBDDataHub の統合検索エクスペリエンスは、データベース、データ レイク、BI プラットフォーム、ML 機能ストア、オーケストレーション ツールなどにわたって結果を表示。メタデータの追加テーブル、列、およびその他のアセットに説明とタグを追加可能TBDTBDアクセス制御メタデータ操作の役割ベースのアクセス制御 (RBAC) ポリシーをサポート。TBDエンティティの所有権をユーザーおよびユーザー グループにすばやく簡単に割り当て
・Create Users, Groups, & Access PoliciesData Lineageテーブル、パイプライン、およびダッシュボード全体でデータのパスを追跡する。TBDプラットフォーム、データセット、ETL/ELT パイプライン、チャート、ダッシュボードなどにまたがってリネージを追跡することで、データのエンドツーエンドのジャーニーをすばやく理解可能。Integration・DBT Integration
・Apache Airflow との UI 統合を提供
・Elasticsearch Integration
・Slack統合TBDDataHub で行われた変更をサードパーティ システムに同期。
詳細は別途調査データの信頼性の検証データが完全で、最新で、正確であることを監視するテストを作成して、データに対する信頼を構築TBDTBDユーザビリティ(UIや通知など)UI
・ホーム画面には、データ変更イベントの概要を表示できる変更アクティビティ フィードがある。 このフィードには、最新の変更が一番上に来るように並べ替えられた、データに対するすべての変更が表示される。
・Explore UI を使用すると、重要度に基づいてアセットをフィルタリングできる。
通知
・Webhook インターフェイスを使用すると、API を介して組織内で発生するすべてのデータ変更を受け取るアプリケーションを構築可能。TBDUI
・DataHub の統合検索エクスペリエンスは、データベース、データ レイク、BI プラットフォーム、ML 機能ストア、オーケストレーション ツールなどにわたって結果を表示。
・バッチ メタデータ インジェストを作成、構成、スケジュール、および実行
通知
・DataHub で変更が行われると、組織固有の通知を生成。 (たとえば、「PII」タグがデータ資産に追加されたときに、ガバナンス チームに電子メールを送信する。)
总结
打开元数据
OpenMetadata中有以下信息。
一个集中的平台用于发现、合作和整理数据,解锁数据资产的价值,包括数据发现、治理、数据质量、可观测性以及人员协作的全套元数据管理解决方案。
根据所述,提供了一个全面的元数据管理解决方案,涵盖数据检测、治理、数据质量、可观察性和人员协作等各个环节。
功能
参考 Features 来整理。
所有数据都在一个地方
- OpenMetadata は、さまざまなユース ケースに必要なすべてのデータ コンテキストを 1 か所で提供
数据发现
-
- キーワード検索、データの関連付け (頻繁に結合されるテーブル、系列など)、複雑なクエリなど、さまざまな戦略を使用してデータを発見可能。
-
- テーブル、トピック、ダッシュボード、パイプライン、およびサービスを検索できる。
- 配列や構造体などの複雑なデータ型のサポートを含め、アセットとそのコンポーネント (列、グラフなど) の詳細なメタデータをサポート
动态消息
-
- OpenMetadata ホーム画面には、データ変更イベントの概要を表示できる変更アクティビティ フィードがある。 このフィードには、最新の変更が一番上に来るように並べ替えられた、データに対するすべての変更が表示される。
-
- テーブル、ダッシュボード、チーム名など、アクティビティ フィード内のエンティティはクリック可能であり。次のアクティビティ フィードがある。
すべてのデータ
自分が所有者であるデータ
フォローしているデータ
通过Webhooks和Slack集成进行事件通知
-
- Webhook インターフェイスを使用すると、API を介して組織内で発生するすべてのデータ変更を受け取るアプリケーションを構築可能。
-
- メタデータ イベント通知を受信する URL を登録。
Webhook による Slack 統合は、この機能の多くのアプリケーションの 1 つ。
添加描述性元数据
-
- テーブル、列、およびその他のアセットに説明とタグを追加できる。
- OpenMetadata は、説明、タグ、名前、およびその他のメタデータに基づいてアセットのインデックスを作成し、キーワード、高度な検索、およびフィルタリングを有効にして、組織内のユーザーがデータを発見できるようにする。
复杂数据类型 de
- 配列や構造体などの複雑なデータ型のネストされたフィールドに説明とタグを追加する。 キーワード検索または高度な検索を使用して、これらのアセットを見つける。
已删除的实体元数据
-
- エンティティには、説明、タグ、所有権、階層化など、ユーザーが生成したメタデータが多数ある。 また、データ プロファイラー、使用状況データ、系列、テスト結果、および他のエンティティとのその他のグラフ関係を通じて OpenMetadata によって生成される豊富なメタデータもある。
- エンティティが削除されると、この豊富な情報がすべて失われ、再作成するのは容易ではないが、 OpenMetadata は、UI でのソフト削除と、API でのソフトおよび永久削除をサポートしており、削除されたエンティティのメタデータを維持するかどうかを選択可能。
重要性和所有者
-
- Tier タグを使用すると、他の資産と比較した重要性で資産に注釈を付けることが可能。
-
- Explore UI を使用すると、重要度に基づいてアセットをフィルタリングできる。
- 所有権のメタデータを使用して、関心のあるアセットの主要な連絡先を特定し、質問がある場合にサポートを得ることが可能
基于角色的访问控制
-
- OpenMetadata は、メタデータ操作の役割ベースのアクセス制御 (RBAC) ポリシーをサポート。
-
- 各ユーザーには、1 つまたは複数のロールを割り当てることができる。
- 各ロールには定義済みのポリシーがあり、 ポリシーは一連のルールで構成される。 ルールは、説明、タグ、所有者、系統の更新などのメタデータ操作へのアクセスを許可/拒否する。
数据血缘
- テーブル、パイプライン、およびダッシュボード全体でデータのパスを追跡する。
手动编辑数据血统
-
- リネージを編集して、データの出所をより深く理解できるようにする。
-
- OpenMetadata ノーコード エディターは、ドラッグ アンド ドロップ インターフェイスを提供する。
- テーブル、パイプライン、およびダッシュボードを系列グラフにドロップする。 データ系統をより適切に表すために、新しいエッジを追加したり、既存のエッジを削除することが可能。
DBT整合
-
- DBT モデルは、生データからテーブルを作成する変換ロジックを提供。
-
- リネージは、テーブルがどのデータから生成されたかを広く示す。
-
- DBT モデルは詳細を提供。
- OpenMetadata には DBT の統合が含まれており、テーブルの生成に使用されているモデルを確認可能。
数据可靠性
- データが完全で、最新で、正確であることを監視するテストを作成して、データに対する信頼を構築する。
服务连接器和一键接收管道
-
- データベース、ダッシュボード、メッセージング、およびパイプライン サービスを OpenMetadata と統合する。
-
- OpenMetadata は、取り込み、データ プロファイリング、データ品質、その他の自動化ジョブを実行するためのワークフロー エンジンとして Apache Airflow との UI 統合を提供。
- 管理者は、OpenMetadata パイプラインを実行するサービスを構成し、取り込みスケジュールを追加して、OpenMetadata UI から直接取り込みジョブを自動的に開始できる。
元数据版本控制和事件API
-
- 0.6 以降、OpenMetadata は技術メタデータ (テーブル スキーマなど) とビジネス メタデータ (タグ、所有権、説明など) の両方の変更をエンティティの新しいバージョンとしてキャプチャする。
- メタデータの変更により、どのエンティティが変更されたか、誰が変更したか、どのように変更されたかを示すイベントが生成される。 これらのイベントを使用して、メタデータを他のツールに統合したり、アクションをトリガーする。
Elasticsearch集成
-
- OpenMetadata は、SSL 対応の Elasticsearch (自己署名証明書を含む) をサポートしている。
-
- 以前のバージョンの OpenMetadata では、取り込まれたエンティティを OpenMetadata UI で使用できるようにするために、取り込みワークフローに続いてインデックス作成ワークフローを実行する必要があった。
- 0.7 リリースの時点で、取り込みワークフローを通じて新しいエンティティが追加または更新されると、OpenMetadata はインデックス作成ワークフローを自動的に実行する。
建筑

原文出处:https://docs.open-metadata.org/developers/architecture
阿蒙森
阿蒙森的描述如下。
Amundsen是一种用于改善数据分析师、数据科学家和工程师与数据交互时的工作效率的数据发现和元数据引擎。它通过对数据资源(表格、仪表板、流等)进行索引,并基于使用模式(例如,高频查询的表格显示在较少查询的表格之前)提供类似于PageRank的搜索功能,来实现这一目标。可以将它看作是数据的谷歌搜索。该项目以挪威探险家罗尔德·阿蒙森命名,他是第一个发现南极点的人。
- データのGoogle検索らしいです。
功能
待定。
建筑


数据集中心
在DataHub的GitHub上,有以下的描述。
DataHub 是现代数据堆栈的开源元数据平台。在此处阅读有关不同元数据系统架构以及为何 DataHub 出类拔萃的信息。此外,阅读我们 LinkedIn 工程博客文章,查看我们的 Strata 演示和观看我们的 Crunch Conference Talk。您还应该访问 DataHub 架构,以更好地了解 DataHub 的实现方式。
- DataHub は、modern data stack向けのOSS
功能 –
根据DataHub功能概览进行总结。
搜索与发现 yǔ
-
- Search All Corners of Your Data Stack
DataHub の統合検索エクスペリエンスは、データベース、データ レイク、BI プラットフォーム、ML 機能ストア、オーケストレーション ツールなどにわたって結果を表示。
Trace End-to-End Lineage
プラットフォーム、データセット、ETL/ELT パイプライン、チャート、ダッシュボードなどにまたがってリネージを追跡することで、データのエンドツーエンドのジャーニーをすばやく理解可能。
Understand the Impact of Breaking Changes on Downstream Dependencies
影響分析を使用して、重大な変更によって影響を受ける可能性のあるエンティティを事前に特定。
View Metadata 360 at a Glance
技術メタデータと論理メタデータを組み合わせて、データ エンティティの 360 度ビューを提供。
データセット統計を生成して、データの形状と分布を理解する。
现代数据治理
-
- Govern in Real Time
アクション フレームワークは、次のリアルタイム ユース ケースを強化する。
通知: DataHub で変更が行われると、組織固有の通知を生成。 (たとえば、「PII」タグがデータ資産に追加されたときに、ガバナンス チームに電子メールを送信する。)
ワークフローの統合: DataHub を組織の内部ワークフローに統合。 (たとえば、特定のタグまたは用語がデータセットで提案されたときに Jira チケットを作成する。)
同期: DataHub で行われた変更をサードパーティ システムに同期。 (たとえば、DataHub でのタグ追加を Snowflake に反映する。)
監査: DataHub で誰がどのような変更を行っているかを経時的に監査。
Manage Entity Ownership
エンティティの所有権をユーザーおよびユーザー グループにすばやく簡単に割り当てます。
Govern with Tags, Glossary Terms, and Domains
データ所有者がデータエンティティを管理できるようにするためにの機能は以下の通り。
Tags
検索と発見のためのツール
Glossary Terms
Domains
フォルダ、カテゴリ
数据中心管理
-
- Create Users, Groups, & Access Policies
DataHub 管理者はポリシーを作成して、誰がどのリソースに対してどのアクションを実行できるかを定義できる。
新しいポリシーを作成すると、以下を定義できる。
Policy Type
Resource Type
Privileges
Users and/or Groups
Ingest Metadata from the UI
DataHub ユーザー インターフェイスを使用して、バッチ メタデータ インジェストを作成、構成、スケジュール、および実行できる。
これにより、カスタム統合パイプラインの操作に必要なオーバーヘッドが最小限に抑えられ、DataHub へのメタデータの取り込みが容易になる。
建筑

原文:出典:https://datahubproject.io/docs/architecture/architecture
可能的中文翻译:来源:https://datahubproject.io/docs/architecture/architecture
-
- Schema-first approach to Metadata Modeling
DataHub のメタデータ モデルは、シリアル化に依存しない言語を使用して記述される。
REST と GraphQL API の両方がサポートされている。 さらに、DataHub は、Kafka を介した AVRO ベースの API をサポートして、メタデータの変更を伝達し、それらをサブスクライブする。
※ コードなしのメタデータ モデルの編集をすぐにサポートするマイルストーンが含まれている。()これにより、型付き API のすべての利点を維持しながら、さらに使いやすくなる。)
Stream-based Real-time Metadata Platform
DataHub のメタデータ インフラストラクチャはストリーム指向であり、メタデータの変更を数秒で伝達してプラットフォーム内に反映させることが可能。
また、DataHub のメタデータで発生する変更をサブスクライブして、リアルタイムのメタデータ駆動型システムを構築することも可能。
たとえば、PII を含む新しいスキーマ フィールドを追加して、以前は誰でも読み取り可能なデータセットを観察し、アクセス制御レビューのためにそのデータセットをロックダウンできるアクセス制御システムを構築ができる。
Federated Metadata Serving
DataHub には、オープン ソース リポジトリの一部として単一のメタデータ サービス (gms) が付属している。
ただし、さまざまなチームが所有および運用できるフェデレーション メタデータ サービスもサポートしている。
フェデレーション サービスは、Kafka を使用して中央の検索インデックスおよびグラフと通信し、メタデータの分離された所有権を有効にしながら、グローバルな検索と検出をサポート。
この種のアーキテクチャは、データ メッシュを実装している企業にとって非常に適している。
考察 chá)
-
- ドキュメントを読む限り、OpenMetadataは機能が豊富だと感じました。
- 次回以降、ドキュメントから読み取れない箇所については、実際に動かして試してみたいと思います。
可以看看以下这个: