データマネジメント

できること

データ統合

Databricksは、データレイクとデータウェアハウスのメリットを兼ね備えたデータ基盤「データレイクハウス」を提供します。データレイクハウスを活用することで、データの信頼性と価値を向上させ、コスト効率を改善します。

データレイクハウスとは

データレイクハウスは、データレイクとデータウェアハウスの特長を合わせ持つデータ基盤です。

データレイクハウスとは

データレイクハウスのメリット

  • データ統合を実現することで、データの重複や矛盾を防ぎ、データの信頼性と活用性を高めます
  • データのスケーラビリティとパフォーマンスを最適化することで、データのコストと効率を改善します
  • データの可視化、分析と機械学習を促進することで、データの価値向上とインサイトの創出に寄与します
データレイクハウスのメリット

データウェアハウス

Databricksは各データソースからデータを取得/加工/蓄積し、大規模な統合データを管理/共有するデータウェアハウス(DWH)として利用できます。BIツールやアプリケーションと連携することにより、データ活用を促進します。

大規模データを高速に処理

Databricksは各データソースからデータを取得し、並列分散処理によって大規模データを高速に処理します。データパイプラインを自動的に管理・最適化し、リアルタイムデータのストリーミング処理も可能です。キャッシュ、多次元クラスタリング、データスキップなどの最適化手法により、高速な分析を実現します。

大規模データを高速に処理

BIやSQLによるダッシュボード作成が可能

ノートブックやSQLエディタからデータの可視化を行い、グラフやテキストなどを組み合わせてレポートやインタラクティブなダッシュボードを作成することができます。自然言語によるデータ取得や可視化も可能です。

Power BIやQlikなどのBIツールや、AWSやMicrosoft Azureなどのクラウドサービスからも接続できます。

BIやSQLによるダッシュボード作成が可能

コスト最適化

Databricksはサーバレスなデータウェアハウスであり、インフラの管理や拡張は不要です。コンピュートとストレージが分離しているため、ユースケースに合わせてコンピュートを自動的にスケールすることにより、コストを最適化できます。

コスト最適化

ML&AI

機械学習(ML)のためのデータ準備からモデリング、デプロイと継続的なモデルの監視・改善まで、データサイエンスのライフサイクルをEnd to Endでサポートします。

Databricksで実現するデータサイエンスと機械学習

Databricksは、機械学習のためのデータ準備からモデリング、デプロイと継続的なモデルの監視・改善まで、データサイエンスのライフサイクルをEnd to Endでサポートする機能を備えています。デルタレイク上のデータにアクセスすることで、信頼性の高いデータを分析に利用できます。

Databricksで実現するデータサイエンスと機械学習

使い慣れたNotebookで分析作業が可能

使い慣れたNotebook上でデータ準備やモデリング作業を実施できます。Notebookの実行環境はDatabricksに統合されているため、インフラ管理は必要ありません。バージョン管理、同時参照/編集やコメントなど、コラボレーション機能も豊富で、データサイエンスチームの効率的な分析業務をサポートします。

使い慣れたNotebookで分析作業が可能

特徴量の一元管理と再利用

Databricksの特徴量ストアでは、同じデータセットから生成された全ての特徴量を検索することが可能です。特徴量ストアで管理することにより、特徴量の共有や再利用を容易にします。また、リネージ機能により、MLモデルやエンドポイントがどの特徴量を使用してるか追跡できるため、特徴量を効率的に管理できます。

特徴量の一元管理と再利用

MLOps機能により、MLモデルの一元管理、実験管理と本番化/運用をサポート

機械学習プロジェクトでは、精度向上に向けたパラメータや特徴量の探索に伴う実験やモデル探索の記録、モデルの比較、コードの再現性、モデルのパッケージングとデプロイの標準化などの問題が発生します。Databricksは、MLflowを用いてMLモデルを単一のレポジトリで管理し、実験管理と本番化、運用をサポートします。モデルのトラッキング、レジストリ、プロジェクト、デプロイメントなどの機能を提供し、モデルの再現性と監視性を向上させます。

データマネジメント/ガバナンス

Databricksはデータだけでなく、MLモデルやダッシュボードなど、データに関する全てのアセットを一元的に管理することができます。

Unity Catalogによるデータガバナンス

Unity Catalogは、Databricksに統合されているデータガバナンス機能です。構造化データ、非構造化データだけでなく、MLモデル、ダッシュボード、Notebookなどのデータアセットを一元的に管理します。データアセットに対するアクセス制御を一元化することにより、管理負荷の低減と分析業務の効率化を実現します。

Unity Catalogによるデータガバナンス

データの検索と発見をサポート

利用者はUnity Catalogを通じてデータを探索し、利用し、共有することができます。また、データ利用状況を可視化することで、他の利用者がデータをどのように活用しているかを学ぶことができます。さらに、生成AIによるメタデータの自動生成などによって生産効率を向上させます。

データの検索と発見をサポート

安全でオープンなデータ共有

Delta Sharingというオープンプロトコルを使用し、外部に安全かつ簡単にデータ共有が可能です。データはライブで共有されるため、複製することなく最新データにアクセス可能です。

安全でオープンなデータ共有

データマネジメントに関するお問い合わせ

データマネジメント製品の導入前のご相談やお見積り依頼、トライアル、アセスメント、デモ依頼などお気軽にご連絡ください。

お問い合わせ