Azure AI Studio で画像を処理する
Azure AI Studio は、画像処理をサポートするようになりました。これにより、プロンプト フロー内で画像データを使用して、画像を理解し、視覚的なコンテンツに基づいて質問に回答する AI アプリケーションを構築できるようになりました。
目次
はじめに
Azure AI Studio は、大規模言語モデル (LLM) を使用して AI アプリケーションを構築するための強力なツールです。画像処理機能が追加されたことで、Azure AI Studio はマルチモーダル AI アプリケーションの構築を可能にし、より幅広いユースケースに対応できるようになりました。
画像処理は、さまざまな分野で潜在的なメリットを提供します。
- 視覚的なコンテンツの分析: 画像処理は、画像からテキスト、感情、オブジェクト、シーンなどを抽出できます。これにより、顧客のフィードバックを分析したり、製品のレビューを自動的に処理したりできます。
- 画像ベースの質問応答: 画像処理は、画像に関する質問に回答するために使用できます。たとえば、ユーザーが写真に写っているオブジェクトを尋ねたり、画像の内容を説明したりできます。
- 画像認識: 画像処理は、画像内の特定のオブジェクト、顔、またはパターンを識別するために使用できます。これは、セキュリティ、医療、小売など、さまざまな分野で役立ちます。
- 画像生成: 画像処理は、新しい画像を生成するために使用できます。これは、デジタルアート、デザイン、広告など、さまざまな分野で役立ちます。
画像データをプロンプト フローに追加する方法
画像データをプロンプト フローに追加するには、次の手順に従います。
- フロー入力を追加します。
- データ型として「画像」を選択します。
- 画像データのソースを指定します。 これには、次のオプションがあります。
- 画像 URL: 画像への URL を指定します。
- ファイルアップロード: デバイスから画像ファイルをアップロードします。
- 埋め込み画像: 画像データを直接フローに埋め込みます。
プロンプト フロー内で画像データを使用する方法
プロンプト フロー内で画像データを使用するには、次の手順に従います。
- 画像入力ノードを追加します。
- 画像入力ノードに画像データソースを接続します。
- 画像データを使用して、画像分析や画像ベースの質問応答を実行するノードを追加します。
- 画像出力ノードを追加します。
- 画像出力ノードに画像分析や画像ベースの質問応答を実行したノードを接続します。
GPT-4V ツールを使用して画像ベースの質問応答チャットボットを構築する方法
GPT-4V ツールは、画像とテキストの入力を処理できるチャットボットを作成するために使用できます。
手順:
- プロンプト フローを作成します。
- チャット入力ノードを追加します。
- GPT-4V ツールノードを追加します。
- GPT-4V ツールノードにチャット入力ノードを接続します。
- GPT-4V ツールノードに画像入力ノードを追加します。
- GPT-4V ツールノードに画像入力ノードを接続します。
- GPT-4V ツールノードに画像を処理するカスタム Python ノードを追加します。
- GPT-4V ツールノードにカスタム Python ノードを接続します。
- チャット出力ノードを追加します。
- チャット出力ノードにカスタム Python ノードを接続します。
例:
画像に写っているオブジェクトを尋ねると、チャットボットは画像を分析してオブジェクトを識別し、そのオブジェクトの説明を返します。
画像処理機能の利点
画像処理機能は、Azure AI Studio に次の利点をもたらします。
- より柔軟な AI アプリケーション: 画像処理機能により、AI アプリケーションは、テキストだけでなく画像も理解できるようになりました。これにより、幅広いユースケースに対応できるようになりました。
- より強力な AI モデル: 画像処理機能により、AI モデルはより多くのデータでトレーニングできるようになり、より正確で効果的な結果を得られるようになりました。
- より複雑な AI アプリケーション: 画像処理機能により、AI アプリケーションは、画像認識、画像生成、画像ベースの質問応答など、より複雑なタスクを実行できるようになりました。
画像処理の今後の展望
画像処理機能は、Azure AI Studio の将来の開発にとって重要です。
- より高度な画像分析: Azure AI Studio は、より高度な画像分析機能を提供する予定です。これにより、AI アプリケーションは、画像からより多くの情報を抽出できるようになり、より深い洞察を得られるようになります。
- より幅広い画像データソースのサポート: Azure AI Studio は、より幅広い画像データソースをサポートする予定です。これにより、AI アプリケーションは、さまざまなソースから画像データを収集し、処理できるようになります。
- より統合された画像処理ワークフロー: Azure AI Studio は、画像処理ワークフローをより統合するためのツールを提供する予定です。これにより、AI アプリケーションの構築がより簡単になり、より高速で効率的になります。
バッチ実行
画像データをバッチ実行で使用する場合は、画像ファイル、公開画像の URL、Base64 文字列の 3 つの方法があります。
- 画像ファイル: バッチ実行で画像ファイルを使用するには、
data
フォルダーを準備する必要があります。このフォルダーには、ルートディレクトリにあるjsonl
形式のバッチ実行エントリファイルと、同じフォルダーまたはサブフォルダーに格納されているすべての画像ファイルが含まれている必要があります。エントリファイルでは、各画像ファイルを参照する{"data:<mime type>;path": "<image relative path>"}
形式を使用する必要があります。たとえば、{"data:image/png;path": "./images/1.png"}
のようにします。 - 公開画像 URL:
{"data:<mime type>;url": "<image URL>"}
形式を使用して、エントリファイル内の画像 URL を参照することもできます。たとえば、{"data:image/png;url": "https://www.example.com/images/1.png"}
のようにします。 - Base64 文字列: Base64 文字列は、
{"data:<mime type>;base64": "<base64 string>"}
形式を使用してエントリファイルで参照できます。たとえば、{"data:image/png;base64": "iVBORw0KGgoAAAANSUhEUgAAAGQAAABLAQMAAAC81rD0AAAABGdBTUEAALGPC/xhBQAAACBjSFJNAAB6JgAAgIQAAPoAAACA6AAAdTAAAOpgAAA6mAAAF3CculE8AAAABlBMVEUAAP7////DYP5JAAAAAWJLR0QB/wIt3gAAAAlwSFlzAAALEgAACxIB0t1+/AAAAAd0SU1FB+QIGBcKN7/nP/UAAAASSURBVDjLY2AYBaNgFIwCdAAABBoAAaNglfsAAAAZdEVYdGNvbW1lbnQAQ3JlYXRlZCB3aXRoIEdJTVDnr0DLAAAAJXRFWHRkYXRlOmNyZWF0ZQAyMDIwLTA4LTI0VDIzOjEwOjU1KzAzOjAwkHdeuQAAACV0RVh0ZGF0ZTptb2RpZnkAMjAyMC0wOC0yNFQyMzoxMDo1NSswMzowMOEq5gUAAAAASUVORK5CYII="}
のようにします。
オンライン エンドポイント
オンライン エンドポイントで画像データを使用してフローをデプロイするには、{"data:<mime type>;<representation>": "<value>"}
形式を使用して画像を表す必要があります。この場合、<representation>
は url
または base64
のどちらかにできます。
フローで画像出力が生成される場合、base64
形式 (例: {"data:<mime type>;base64": "<base64 string>"}
) で返されます。
まとめ
Azure AI Studio の画像処理機能は、AI アプリケーションの構築方法に革命を起こしています。開発者は、画像データを使用して、視覚的なコンテンツを理解し、質問に回答し、新しい画像を生成する、より強力で柔軟なアプリケーションを構築できるようになりました。この機能は、さまざまな分野で、画像処理アプリケーションの将来に大きな影響を与える可能性を秘めています。