日鉄ソリューションズ株式会社

Dataiku 業界別デモ作成アシストエージェント~技術コラム~

タグ コラム

カテゴリ Dataiku 業種・業界共通 業務効率化・業務自動化・業務プロセス改善 コスト削減・コスト最適化・経費削減 データドリブン経営 AI・データ利活用 デジタルソリューション&コンサルティング

昨今ありがたいことに、Dataikuに興味を持ち、「ぜひDataikuについて話を聞きたい」とおっしゃるお客さまが増えてきております。プリセールスとしてご説明する際には、実際にDataikuが動いているデモプロジェクト画面をご覧いただくことが多いのですが、お客様の業界は多岐にわたるため、同じユースケースやプロジェクトを用いるのではなく、業界に合わせたデモプロジェクトを作成したほうが、より興味を持っていただけると感じています。

しかしながら、業界ごとに新たにデータセットを取得したり、ユースケースを検討したり、プロジェクトを作成したりするには、相応の時間と労力が必要です。そこで、2025年12月〜2026年1月に開催されたDataiku社主催のハッカソンにおいて、データセットの調査、ユースケースの創出、デモプロジェクトの提案までを支援するエージェントを作成しました。本コラムでは、その過程と、エージェント構築に活用したDataikuの機能についてご紹介します。

エージェント概要

本エージェントは以下の4工程により構成されています。

最終的にこれらの各工程で構築したエージェント/ツールをAgentHubに登録し、1つのエージェントとしてチャット画面で業界データのピックアップ~Dataikuプロジェクト設計を実行できるようにしました。

プリセールスアシストエージェントの全体フロー(※本画像は、copilotによる画像生成機能を利用して作成したものです。)

業界データのピックアップ:事前に登録した各業界の機械学習で用いられる代表的なデータセットから、データ概要やカラム名を取得・提示

目的と概要

事前に登録した機械学習用データセットからメタデータの効率的な検索・参照を行うことで、デモを作成したいユーザーの要望に応じた業界のデータセットの概要や各カラムの説明を提示します。

■アウトプット

  • ユーザーが要望した業界のデータセットについての概要・各カラムの説明をMarkdown形式で出力します。

■各フローの説明

  • オープンデータ処理フロー
    様々な業界(医療、小売り、製造など)の事前に登録した機械学習用データセットを取り込み、分析可能な形に加工する部分。
  • メタデータRAG構築フロー
    データセットの概要・カラム名をLLMに読み込ませ、検索しやすい形に加工・保存する部分。

【出典】Dataikuプロジェクト:業界データの調査・理解

実装の技術的ポイント

■データセット説明文の自動生成(Prompt Recipe)

  • 仕組み:生のデータセット情報(名前、業界、カラム情報)を入力とし、統一されたフォーマットの説明文を生成させています。
  • プロンプトの工夫:「データセット概要」「各カラムの説明」をMarkdown形式で構造化して出力させており、ユーザーが読みやすい形に整えています。

■ベクトル検索の実装(RAG / Knowledge Bank)

  • 生成された説明文をベクトル化し、Knowledge Bank(知識ベース)として保存することで、自然言語による意味検索(Semantic Search)を可能にしています。

■エージェントツールの定義(Agent Tools)

  • ツール名:デモデータ情報取得ツール(Knowledge Bank Search)
    ※機能:エージェントがユーザーの問いかけ(例:「食品製造業向けの需要予測データはある?」)に対して、Knowledge Bankを検索し、最も関連性の高いデータセット情報を回答として返します。

 

構造化データへの変換(JSON):その後のエージェントで利用しやすいように型名、欠損値の割合などのデータセット詳細をJSON化

目的と概要

後続のユースケースの提示やデモプロジェクトの作成の際に、データセットのメタデータを拡充した上で、LLM(大規模言語モデル)が正確に扱いやすい形式に変換するために、「業界データのピックアップ」で作成したナレッジバンクにカラムの型名や欠損値の割合を追加し、メタデータをJSON形式に変換し出力します。

■アウトプット

  • データセットの概要やカラム名とその型名、欠損値の割合が含まれるJSON形式のメタデータを出力します。

■各フローの説明

  • オープンデータ処理フロー
    事前に登録した機械学習用データセットから、カラムの型名や欠損値の割合を取得する部分。
  • メタデータ抽出(JSON)フロー
    「業界データの検索・参照」で作成したナレッジバンクに追加で、カラムの型名や欠損値の割合をLLMで検索しやすい形に加工・保存する部分。

【出典】Dataikuプロジェクト:構造化データ(JSON)への変換(赤枠部が対象)

実装の技術的ポイント

■データセットの型名や欠損値の割合取得(Pythonレシピ)

  • PythonのDataikuSDKを用いて、データセットの型名や欠損値の割合をルールベースで取得しています。

■ナレッジベースへの型名・欠損値割合の追加(結合レシピ)

  • 「業界データのピックアップ」で作成したナレッジベースの各データセットに型名や欠損値の割合を追加しています。

■メタデータのJSON化(Prepare レシピ)

  • データセットのカラム名と型名・欠損値の割合をユースケース提示・プロジェクト設計エージェントに正確に渡せるように、データセットの概要もまとめてJSONでネストしています。

■JSONデータによるベクトル検索の実装(RAG / Knowledge Bank)

  • JSON化したデータセットの説明をKnowledge Bank(知識ベース)として保存することで、自然言語による意味検索(Semantic Search)を可能にしています。

■エージェントツールの定義(Agent Tools)

  • ツール名:デモデータ情報取得ツール by JSON(Knowledge Bank Search)
    ※機能:エージェントからの業界ごとのデータセット内容取得のリクエストに応じて、Knowledge Bankを検索し、最も関連性の高いJSON化したデータセット情報を回答として返します。

ユースケースの提示:前工程から渡された入力を元にユースケースを作成

目的と概要

データ活用の具体的な方向性を示し、後続のプロジェクト設計や検証に繋げるために、「業界データのピックアップ」と「構造化データへの変換(JSON)」によって取得されたデータセットから、データ分析や機械学習で活用可能なプロジェクトの候補(ユースケース)をユーザーに提示します。

■アウトプット

  • 取得したデータセットの内容に即した、データ分析/機械学習のユースケース案を1件出力します

■実装の技術的ポイント

  • エージェント定義(Visual Agent)
    エージェント名: ユースケース提案エージェント
    機能: Instruction内で目的・出力方針について記述することで、実現可能なデータ分析/機械学習のユースケースや、その際に用いる主なデータ項目などを出力します。 また、デモデータ情報取得ツール by JSONを用いる制約を設けることで、確実に存在するデータセットからユースケース案を作成するように調整しています。

Dataikuプロジェクト設計:前工程から渡されたデータセット情報、ユースケース情報をもとにデモプロジェクトのフローを提案・提示

目的と概要

ユーザーがDataiku DSS上でユースケース案を迅速かつ正確にプロジェクト化できるようにするために、「ユースケースの提示」から受け取ったユースケース案をDataiku DSS上でプロジェクトとして作成する際のフロー案(レシピ種別・主要機能・処理手順の流れを含む)をレファレンスのリンク付きで提示します。

■アウトプット

  • ユースケース案を実現するためのDataiku DSSプロジェクトのフロー案(レシピ種別・主要機能・処理手順の流れを含む)を出力します。

実装の技術的ポイント

■エージェントツールの定義(Agent Tools)

  • ツール名:フロー計画ツール(Inline Python)
    ※機能:ユースケース提案エージェントから受け取ったユースケース案を実現するためのDataiku DSSフローの構造化されたJSONプランを生成します。
  • ツール名:Webサーチツール(Search The Web)
    ※機能:フロー計画ツールで出力されたJSONに含まれるレシピ種別やDataiku機能名を抽出・検索クエリを作成し、Googleを使用してweb検索を行います。そして、さきほどのフローのJSONに公式ドキュメントや関連チュートリアルのwebリンクを紐づけます。
  • ツール名:日本語変換ツール(LLM Mesh Query)
    ※機能:これまでに出力されたフローのJSONや関連ドキュメント、参考手順を日本語でステップごとに整理し、自然な日本語の文章+箇条書きに変換します。また、不足している入力や確認すべき質問、ユーザーの要望によって元のフローJSONを含むこともできます。

【出典】Dataikuプロジェクト設計を支えるエージェントツール群

■エージェント定義(Visual Agent)

  • エージェント名:フロー提案エージェント
    ※機能:入力されたユースケース案をDataiku DSS上でプロジェクトとして作成するために、Instructionsでフロー計画ツール→Webサーチツール→日本語変換ツールの順でツールを呼び出すように動作指針を設定しています。
AIエージェントがDataikuプロジェクトを設計する仕組み(概念図)(※本画像は、copilotによる画像生成機能を利用して作成したものです。)

Agent Hubでのオーケストレーション

ここまで作成した業界データのピックアップ、構造化データへの変換、ユースケースの提示、Dataikuプロジェクト設計のエージェント/ツールをAgentHub上で登録することで、1つのチャットエージェントで業界データのピックアップ~Dataikuプロジェクト設計を実行することができます。

【出典】
左図:Dataikuプロジェクト「業界別デモ作成アシストエージェント」のアクティビティ
 右図:Dataikuプロジェクト「業界別デモ作成アシストエージェント」の実行結果

実際の使用例

今回開発したAIエージェントは、Dataikuでプロジェクトを作成する際の工数削減に大いに貢献すると期待しています。特に、以下の場面で効果が見込まれます。

■プリセールスや社内の啓蒙活動

  • 限られた時間の中でデモプロジェクトの方向性を決める必要がある際、ゼロから考えるのではなく、一定の品質のたたき台を素早く用意できる点は大きな利点です。

■Dataiku購入初期のオンボーディング

  • 「まず何から始めればよいか」「どのような分析が現実的か」といった課題について整理するアシスタントとして活用できます。エージェントが提示した提案をもとにお客様と認識をすり合わせながら進めることで、初期構築のハードルを下げることが可能です。

まとめと今後の展望

本ハッカソンでは、普段のプロジェクトではご一緒しない方々とチームを組むことができ、それぞれの能力やキャラクターを理解する良い機会となりました。会話を重ねる中で、「単なる興味で作るのではなく、作って終わりではなく、今後もアップデートを重ねていくことを前提に、自分たちに利益のあるものを作る」というモットーで企画したのが、今回の『業界別デモ作成アシストエージェント』です。短い期間でしたが作ろうとしていたものを形にできたことを大変誇りに思います。ただし、記載の通り、さらに改善できる点も多々ありました。今後の備忘録として、以下に記載いたします。

■Webからデータをインポートする

  • 今回のハッカソンで作成したプロジェクトでは、既存のデータを収集し、その中から対象業種に該当するものを抽出しています。しかし、このままではデータが限定的であり、未収集の業種データには対応できません。そのため、Webスクレイピング等を活用し、Web上から新たなデータを発掘・インポートできるように今後アップデートを行いたいと考えています。

■プロジェクトの設計を自然言語からレシピ化へ

  • こちらについては、まだ実現可能かどうか検討中ですが、自然言語で設計内容を出力するだけでなく、実際にレシピまで自動生成できないか模索しています。

以上です。本コラムをお読みいただき、誠にありがとうございました。改めて、このような貴重な機会を提供してくださったDataiku社様に心より感謝申し上げます。

本記事では、Dataikuに関する用語や概念の説明において、下記を参照しました。
出典:Dataiku公式ドキュメント https://doc.dataiku.com/(閲覧日:2026年2月3日)

日鉄ソリューションズ 株式会社
日鉄ソリューションズ 株式会社 上平 拓夢

デジタルソリューション&コンサルティング本部
先端技術オファリングセンター
インテリジェントシステム部

日鉄ソリューションズ 株式会社 樋口 義仁

デジタルソリューション&コンサルティング本部
先端技術オファリングセンター
AIソリューション部

お問い合わせ

ソリューション・サービス全般に関するご相談・‍お問い合わせを承っております。
お気軽にご相談ください。

相談する