ほぼテク1月5日GPT-4を最大限に活用するための戦略その⑥GPT-4でより良い結果を得るためのプロンプトエンジニアリング戦略!?プロンプト改善の秘訣、包括的テストでパフォーマンスを最大化!

イントロダクション

新しい指示やデザインがシステムに与える影響を正確に評価することは、技術進化の時代において重要です。
この記事では、変更を系統的にテストする戦略の必要性とその具体的な方法について詳しく掘り下げます。

変更テストの実践的必要性

例えば、あるEコマースサイトがユーザーインターフェースを全面的にリニューアルしたとします。
新しいデザインはビジュアル的に魅力的ですが、本当に顧客のショッピング体験を向上させるのでしょうか?

若年層のユーザーには好評でも、年配のユーザーには操作が複雑に感じられる可能性があります。
こうした異なるユーザーグループに与える影響を理解するためには、系統的なテストが不可欠です。

評価手順の実践

良い評価手順は、実世界の使用シナリオを代表するものであり、多様なテストケースを含むべきです。
新しいインターフェースを異なる年齢層、デバイス、インターネット環境のユーザー群に対してテストし、その使用感や満足度を評価します。

評価手順(または「評価」)はシステム設計を最適化するのに役立ちます。
良い評価は以下の特徴を持ちます。

  • 実世界の使用を代表している(または少なくとも多様である)

  • より大きな統計的パワーのために多くのテストケースを含む(下の表をガイドラインとして参照)

  • 自動化または繰り返しやすい

検出するために必要なサンプルサイズ(95%の信頼性のために)

  • 30%の差異を検出するためには約10のサンプル

  • 10%の差異を検出するためには約100のサンプル

  • 3%の差異を検出するためには約1,000のサンプル

  • 1%の差異を検出するためには約10,000のサンプル

テストケースのサンプルサイズとその重要性

新しいインターフェースの導入が購買率に30%の改善をもたらすかどうかを検証するために、少なくとも10人のユーザーを対象にテストを行います。
これにより、95%の信頼性を持つ結果を得ることができます。同様に、10%の改善を検出するには100人、3%の改善を検出するには1000人のテスト参加者が必要です。

出力評価の方法

出力の評価は、客観的基準に基づいてコンピューターによって自動化されることも、人間による主観的な判断が含まれることもあります。
例えば、新しいインターフェースが実際にユーザーにより好まれるかどうかを評価するために、ユーザーアンケートの結果や購買データの分析を行うことができます。

モデルベースの評価の具体例

「ニール・アームストロングが月面を歩いた」という事実に関する質問に対する回答の評価を考えてみましょう。
モデルクエリを使用して、回答にこの事実が含まれているかどうかを数えます。

回答が「ニール・アームストロングは1969年7月21日に月面を歩いた」という内容であれば、この事実を正しく含んでいると評価されます。

OpenAI Evals

テストを実施する際はOpenAI Evalsと呼ばれるフレームワークを使用すると便利です。

OpenAI Evalsは、大規模言語モデル(LLMs)またはLLMsを使用して構築されたシステムを評価するためのフレームワークと、オープンソースのベンチマークレジストリです。

このフレームワークを使用することで、OpenAIのモデルのさまざまな側面をテストし、特定のユースケースに関心がある場合に独自のカスタム評価を作成することができます。
また、公開せずに自分のデータを使ってプライベート評価を構築することも可能です​​。

Evalsの実行には、OpenAI APIキーの設定と指定が必要です。
APIキーを取得した後、OPENAI_API_KEY環境変数を使用して指定します。

APIの使用に関連するコストに注意する必要があります。Python 3.9以上が必要です​​。

EvalsレジストリはGit-LFSを使用して保存されており、LFSをダウンロードしてインストールした後、ローカルのevalsリポジトリ内から評価をフェッチすることができます。また、evalsパッケージをpipを通じてインストールすることもできます​​​​。

Evalsの評価結果をSnowflakeデータベースにログするオプションも提供されており、データベースの設定には環境変数が必要です​​。

新しい評価を作成する際は、evalsリポジトリをGitHubから直接クローンして、必要な要件をインストールします。
独自の評価を作成するプロセスやカスタム評価ロジックの例、独自の完了関数の作成に関するガイドが用意されています​​​​。

OpenAI Evalsの利用イメージについて具体的な例示をもとに解説します。

例えば、ある企業が自社のカスタマーサービスシステムの効率化を目指し、そのために大規模言語モデル(LLM)を導入しようとしているとします。
この企業は、LLMが実際にカスタマーサービスの質問に効果的に回答できるかを評価したいと考えています。

  1. 評価の設定: まず、OpenAI Evalsを用いて、特定のカスタマーサービスのシナリオに基づいた評価を設計します。
    たとえば、顧客からの一般的な問い合わせや技術的な質問に対するLLMの回答の品質を評価するシナリオを想定します。

  2. データの準備: 評価に必要なデータを集め、JSON形式で用意します。
    これには、実際の顧客からの問い合わせや、それに対する理想的な回答の例が含まれます。

  3. 評価の実行: OpenAI Evalsを使用して、LLMがこれらの問い合わせにどのように回答するかをテストします。
    評価は、LLMの回答が顧客の問い合わせにどれだけ適切に応えているかを測定します。

  4. 結果の分析: 評価の結果を分析し、LLMが特定の種類の問い合わせに対してどの程度効果的に応答できるかを評価します。
    これにより、LLMのパフォーマンスの強みと弱みが明らかになります。

  5. 改善策の検討: 評価結果を基に、システムの改善策を検討します。
    たとえば、LLMが苦手とする問い合わせタイプに対するトレーニングを強化する、または人間の介入が必要なケースを特定するなどです。

このようにして、OpenAI Evalsは、企業がLLMを導入する際のリスクを軽減し、システムのパフォーマンスを最適化するための重要なツールとして機能します。

まとめ

新しい技術やデザインを導入する際には、その変更がシステムに与える影響を正確に理解し、評価することが重要です。
系統的なテスト戦略を採用することで、変更がシステムに与える影響をより正確に評価し、最適化されたシステム設計を実現することができます。

今回も最後まで記事をお読みいただきありがとうございました。
また、次回もよろしくお願いします。

※GPTに関するブログ連続投稿254日目

原稿執筆

株式会社GROWTH JAPAN TECHNOLOGIES  我妻裕太

バックナンバー

ほぼテク1月4日AIが創り出す驚異の美!?ChatGPTによるPaperArt風画像ガイド

ほぼテク1月3日ChatGPTで創る、新年の祝福!?AIを活用した書初め風画像の作り方

ほぼテク1月2日ChatGPTをマスターするための究極ガイド!

ほぼテク1月1日新たな年の幕開けに寄せて - 新春のご挨拶

ほぼテク12月31日AIと共に歩んだ2023年!?ほぼテクが振り返るChatGPTの革新とその未来

ほぼテク12月30日ChatGPTで学ぶ!CSSとJavaScriptによるスティッキーヘッダーの魔法

ほぼテク12月29日AI時代の到来!?ChatGPTによる電気通信工事仕様書の革新?本当か??

ほぼテク12月28日ChatGPTでペインティングアートを作成する方法!?デジタル時代の創造性のコツとテクニック

ほぼテク12月26日ChatGPTとQRコード!未来の情報共有へのパスポート?

ほぼテク12月25日映画の時代を旅する!?タイムラインで見る映画史の魅力?

ほぼテク12月24日ChatGPT予測の快挙!?ChatGPTが切り開く、競馬体験の新時代?

ほぼテク12月23日AIによるサンタクロースの画像生成の革命!?

ほぼテク12月21日新人電気工事士の強い味方!?ChatGPTとの初対面!

ほぼテク12月20日建設業界で活躍できるかChatGPT?ChatGPTによる工程表作成と若手スタッフの成長支援!?

ほぼテク12月19日晩ごはんの悩みを解消!ChatGPTの置き換えレシピで新しい魅力に出会う?

ほぼテク12月18日GPT-4を最大限に活用するための戦略その⑤GPT-4でより良い結果を得るためのプロンプトエンジニアリング戦略!?モデルに時間を与えて「考える」

ほぼテク12月17日GPT-4を最大限に活用するための戦略その④GPT-4と外部ツールの効果的な組み合わせ!?新時代のデータ処理と情報検索

ほぼテク12月16日ChatGPTで体験する!?競馬予想と臨場感あふれる?実況!

ほぼテク12月15日GPT-4を最大限に活用するための戦略その③複雑なタスクを単純化する戦略

ほぼテク12月14日GPT-4を最大限に活用するための戦略その②リファレンステキストの効果的な使用!?

ほぼテク12月12日AIと建築設計の融合!?ChatGPTが生み出す未来のアパート

ほぼテク12月11日GPT-4における『明確な指示を書く』戦略の重要性と具体例?

ほぼテク12月7日Googleが革新的なAIモデルGeminiを発表!AIの未来への新たな一歩

ほぼテク11月30日言葉の達人になる!?ChatGPTで効果的に語彙力を伸ばす方法

ほぼテク11月28日ChatGPTが教える!雨の日に家族で試したい5つの室内アクティビティ

ほぼテク11月27日デジタル世代のためのマーケティング!?ChatGPTでGen Zとミレニアルを徹底比較!?

ほぼテク11月26日自宅で簡単!ChatGPTと始める7日間レジスタンス運動プラン!

ほぼテク11月25日ChatGPTの仙台弁挑戦!方言翻訳の限界はどこか!?

ほぼテク11月24日方言対応の限界?ChatGPTが青森弁に挑む

ほぼテク11月23日方言を理解するAI?ChatGPTは地方なまりもマスターできるか?

ほぼテク11月22日OpenAIのサム・アルトマン氏、CEOに復帰!技術業界に動揺をもたらす企業の変革

ほぼテク11月21日OpenAIのCEO Sam Altman解雇からMicrosoftへの移籍まで!AI業界の激動の週末!?

ほぼテク11月20日 速報?サム・アルトマン!OpenAIの共同創設者からマイクロソフトの新たな舵取りへ!?

ほぼテク11月19日 速報?OpenAIの元CEO Sam Altmanの動向!?復帰の可能性と新ベンチャー

ほぼテク11月18日 速報!OpenAI サム・アルトマン氏の解任!

ほぼテク11月12日ChatGPTによるスポーツ予測?データ駆動で変わる観戦の楽しみ!?

ほぼテク11月11日最新ニュースです!X(旧Twitter)上のChatGPT公式アカウントが、ついにデビューポストを行いました。

ほぼテク11月9日OpenAIの最新Pythonライブラリ(バージョン1.2.0)を使用して、GPTのAPIにアクセスする方法!

ほぼテク11月8日AI開発者向け大幅価格改定!? GPT-4 & GPT-3.5 Turboがさらに手頃に!

ほぼテク11月5日ChatGPTの効果的な対話を促進するプロンプトテクニック!?明確な質問の重要性

ほぼテク11月4日ChatGPTのプロンプトテクニック!?具体的なプロンプトと抽象的なプロンプト

ほぼテク11月3日ChatGPTのプロンプトテクニック!?効果的な対話のためのガイド

ほぼテク11月1日ChatGPTのGPTとは一言でいうと「大量のテキストを事前に学習しています。」と捉えると分かりやすいかもしれません!

ほぼテク10月29日ChatGPTで世界を探る!?Webブラウジング機能が開く新しい学習の地平!世界でも最も急成長している都市アラブ編!

ほぼテク10月28日DALL-E3でのプロンプトの書き方?具体的なプロンプトの例と抽象的なプロンプトの例

ほぼテク10月25日DALL-E3解説!次世代AI画像生成技術の全て!?

ほぼテク10月22日ChatGPTで世界を探る!?Webブラウジング機能が開く新しい学習の地平!イスラエルとガザ問題編!

ほぼテク10月21日DALL·E 3の使い方!テキストから高品質な画像を生成する?

ほぼテク10月18日ChatGPTでビジネス戦略とマーケティングを革新する方法!?

ほぼテク10月15日ついに登場!止まらない!ChatGPTの進化!GPT-4Vが衛星写真から災害を見つける!?

ほぼテク10月14日OpenAIのChatGPT(DALL-E3)テキストからビジュアルへの革命的な変換!?

ほぼテク10月11日ChatGPTの効果的なプロンプト作成!?人工知能の力を最大限に引き出す!!

ほぼテク10月9日ChatGPTでパワハラの兆候を検出し、より健全なコミュニケーション環境への道を拓く!

ほぼテク10月8日ChatGPT!日本の東証プライム上場企業の売上高上位5社の売上を調査してください。

ほぼテク10月7日最新情報アップデート!ChatGPTに画像生成機能(DALLE-3)がやってきた!

ほぼテク10月4日ソフトバンク孫さんが毎日やっている?GPTのディベートをやります!

ほぼテク10月1日最新情報アップデート!ChatGPTアプリでインターネット検索がついに追加になりました!?

ほぼテク9月30日GPTで長文を扱うための技術LlamaIndex(ラマインデックス)とは??

ほぼテク9月27日ChatGPTの新機能で音声入力による会話が可能に!世界で先駆けて体験した感動をシェア!!!!!!!!

ほぼテク9月24日開発プロジェクトでのタスク整理!ChatGPTを活用して作業タスクを最適化しよう!

ほぼテク9月23日ChatGPTを用いてデータベーススキーマを効率的に設計する!オンライングッズストア編!

ほぼテク9月21日ChatGPT!弊社の新卒面接時に使用する評価シートを作成しておくれ!

ほぼテク9月18日契約書レビューは大変?ChatGPTで解決!契約書のレビュー!?

ほぼテク9月17日名前に迷ったら?商標選定の新しい風!ChatGPTで課題を解決!?

ほぼテク9月16日ChatGPTと起業するときの理想の社名を見つけてみよう!

ほぼテク9月13日、本のご紹介!人間とGPTの会話で構成された書籍「ChatGPTと語る未来 AIで人間の可能性を最大限に引き出す」

ほぼテク9月10日資格取得の秋?ChatGPTで過去問題を生成してスキルアップできるか実験してみました!ITパスポート編!

ほぼテク9月9日資格取得の秋?ChatGPTで過去問題を生成してスキルアップできるか実験してみました!G検定編!

ほぼテク9月6日資格取得の秋?ChatGPTで過去問題を生成してスキルアップできるか実験してみました!基本情報技術者試験編。

ほぼテク9月3日Webデザインの新時代!?ChatGPTとWebページデザイン!?クレイモーフィズム(Claymorphism)編!

ほぼテク9月2日Webデザインの新時代!?ChatGPTとWebページデザイン!? ニューモーフィズム(Soft UI)編!

ほぼテク8月30日ChatGPT最新情報!ついに登場エンタープライズ版ChatGPT!

ほぼテク8月26日ChatGPTで医師への診察前に体調を整理しよう!

ほぼテク8月19日Webデザインの新時代!?天気アプリのモックアップをChatGPTと考えてみました!

ほぼテク8月17日最近また戻ってきた?ChatGPT新機能を試してみた!

ほぼテク8月16日GPTのライバルになるか?満を持して登場のLINEの「japanese-large-lm(ジャパニーズ ラージ エルエム)」で日本語が得意か実験してみました!

ほぼテク8月15日CodeInterpreterを使い始める前に!?CodeInterpreterの実行環境における制限について!

ほぼテク8月14日ITセキュリティの新時代?ChatGPTによるシステムログのレポート作成!?ワードクラウド編②!

ほぼテク8月13日ITセキュリティの新時代?ChatGPTによるシステムログのレポート作成!?ワードクラウド編①!

ほぼテク8月12日ITセキュリティの新時代?ChatGPTによるシステムログのレポート作成!

ほぼテク8月11日ITセキュリティの新時代?ChatGPTによるシステム異常の自動検出!?改!

ほぼテク8月9日ついに我が家にもGPT-4がやってきた?API利用開始まで1ヵ月かかりました(笑)

ほぼテク8月6日GPTの力で未来を予測!?GPT-4が時系列分析モデルARIMAを構築!

ほぼテク8月5日最新情報アップデート!Metaの生成AI「AudioCraft」とGPTのコラボレーション?

ほぼテク8月2日GPTのライバルになるか?満を持して登場のIBMのwatsonxで日本語が得意か実験してみました!

ほぼテク7月30日GPT-4のCode Interpreterで気象分析にチャレンジしてみた!?

ほぼテク7月29日GPT-4のCode Interpreterで身体を引き締める?ChatGPTをパーソナルトレーナーにする方法!?

ほぼテク7月26日ソフトウェア開発におけるSQL作成の課題をChatGPTが解決!?人間とAIで開発する次世代のソフトウェア開発!?

ほぼテク7月23日ChatGPTが変える業務効率化!ChatGPTを使った次世代のタスク管理!?

ほぼテク7月22日ChatGPTをあなた専用のAIにカスタマイズ!新機能「Custom Instructions」の紹介です!

ほぼテク7月19日GPTのライバルになるか?満を持して登場のMetaのLlama2が先ほど公開されました!

ほぼテク7月17日海の日にちなんで?多様化するDBの波を乗り越えられるかをChatGPTで試してみました。

ほぼテク7月16日GPT-3.5、GoogleBardでシフト管理を考えてみました!

ほぼテク7月15日GPT-4 Code InterpreterでG20の人口成長率を分析してみたら新しい気づきをくれました!

ほぼテク7月12日最新情報アップデート!GPT-4一般公開されたけど、APIで支払い履歴がないと使えないことが分かりましたの件(涙)

ほぼテク7月9日最新機能ChatGPTの「Code Interpreter(コードインタープリター)」を使ってみました!

ほぼテク7月7日SaaSサービスの利用規約のひな型をGPT、Bardで作ってみました!

ほぼテク7月5日BingのGPTの画像認識を解剖?ChatGPTとの違いと画像解析の可能性を探る!

ほぼテク7月2日ChatGPT・GoogleBardを活用したコンテンツモデレーション(投稿監視)!コミュニティの健全性と品質をChatGPT、GoogleBardで保てるか?

ほぼテク7月1日ChatGPTを活用してオンラインショッピングサイトのカスタマーサポートを効率化しよう?

ほぼテク6月28日AIと一緒にダイエット?ChatGPT、GoogleBardに体重データを分析してもらった!なかなか面白いよ(笑)

ほぼテク6月25日GPTの最新機能!「Azure OpenAI Service on your data」を試してみました!

ほぼテク6月24日GPTの活用事例!チャットボット用のQAデータをGPTで作成してみた!

ほぼテク6月21日GPT4の活用事例!生成AI達でAIの教師データを生成してみよう。

ほぼテク6月17日ChatGPTの活用ガイド!AIをあなたのプロジェクトに取り入れる方法徹底解説?

ほぼテク6月14日!ChatGPTを活用するために重要な留意事項13選! AIとのスムーズな対話を実現!

ほぼテク6月11日!ChatGPTでSNSマーケティングを攻略しよう!

ほぼテク6月10日!ChatGPTで情報の抽出をマスターしよう!

ほぼテク6月7日!ChatGPTを使って業務効率化! - データ解析とレポート作成の新たな方法?

ほぼテク6月4日!ChatGPTでマスタ情報を活用した間違い探し!

ほぼテク6月3日!ChatGPTで文法・スペルチェック!

ほぼテク5月31日!ChatGPTでファンタジーは創造できるか?

ほぼテク5月28日!ChatGPTで地元仙台市を分析してみました!

ほぼテク5月27日!ChatGPTでWebサイトから重要な情報を取得できるか試してみました!

ほぼテク5月24日!ChatGPTプラグイン実践編!画像生成のためのプロンプト生成プラグイン!

ほぼテク5月21日!ChatGPTプラグイン実践編!食べログプラグイン!

ほぼテク5月20日!とても面白いChatGPTのプラグイン使ってみました!

ほぼテク5月17日!GPTとの冒険!ファインチューニングで試行錯誤、そして成功へ!

ほぼテク5月14日!ChatGPT Webブラウジング機能がリリースされました!

ほぼテク5月13日!ChatGPTを活用した創作活動の一例!物語のプロットを創ってみた。

ほぼテク5月12日!Bard – Googleの新しい会話型AIが世界デビュー!

ほぼテク5月10日!今、私たちは新たなフロンティア、つまり宇宙へと視野を広げています!

ほぼテク5月7日!Chat GPTの正しい使い方基本プロンプトで会話してみました④

ほぼテク5月6日!Chat GPTの正しい使い方基本プロンプトで会話してみました

ほぼテク5月5日!Chat GPTの正しい使い方基本プロンプトで会話してみました②

ほぼテク5月4日!Chat GPTの正しい使い方基本プロンプトで会話してみました①

ほぼテク5月3日ImageCreatorで生成した画像で展示会?

今更聞ける!ほぼ毎日テック日報(おとなの週末) 4月30日(マイクロソフト画像生成AI「Bing Image Crator」とは?) – テクノロジーが日常にもたらすイノベーション?

今更聞ける!ほぼ毎日テック日報(おとなの週末) 4月29日(完全自動実行AI AutoGPTとは?) – テクノロジーが日常にもたらすイノベーション?

新企画!?「今更聞ける!ほぼ毎日テック日報 - テクノロジーが日常にもたらすイノベーション?」

Previous
Previous

ほぼテク1月6日GPT-4の能力を引き出す!?戦略の総まとめ

Next
Next

ほぼテク1月4日AIが創り出す驚異の美!?ChatGPTによるPaperArt風画像ガイド