ほぼテク1月5日GPT-4を最大限に活用するための戦略その⑥GPT-4でより良い結果を得るためのプロンプトエンジニアリング戦略！？プロンプト改善の秘訣、包括的テストでパフォーマンスを最大化！

GPTChatGPTプロンプトエンジニアリング

1月6日

著者裕太我妻

イントロダクション

新しい指示やデザインがシステムに与える影響を正確に評価することは、技術進化の時代において重要です。
この記事では、変更を系統的にテストする戦略の必要性とその具体的な方法について詳しく掘り下げます。

変更テストの実践的必要性

例えば、あるEコマースサイトがユーザーインターフェースを全面的にリニューアルしたとします。
新しいデザインはビジュアル的に魅力的ですが、本当に顧客のショッピング体験を向上させるのでしょうか？

若年層のユーザーには好評でも、年配のユーザーには操作が複雑に感じられる可能性があります。
こうした異なるユーザーグループに与える影響を理解するためには、系統的なテストが不可欠です。

評価手順の実践

良い評価手順は、実世界の使用シナリオを代表するものであり、多様なテストケースを含むべきです。
新しいインターフェースを異なる年齢層、デバイス、インターネット環境のユーザー群に対してテストし、その使用感や満足度を評価します。

評価手順（または「評価」）はシステム設計を最適化するのに役立ちます。
良い評価は以下の特徴を持ちます。

実世界の使用を代表している（または少なくとも多様である）
より大きな統計的パワーのために多くのテストケースを含む（下の表をガイドラインとして参照）
自動化または繰り返しやすい

検出するために必要なサンプルサイズ（95％の信頼性のために）

30％の差異を検出するためには約10のサンプル
10％の差異を検出するためには約100のサンプル
3％の差異を検出するためには約1,000のサンプル
1％の差異を検出するためには約10,000のサンプル

テストケースのサンプルサイズとその重要性

新しいインターフェースの導入が購買率に30%の改善をもたらすかどうかを検証するために、少なくとも10人のユーザーを対象にテストを行います。
これにより、95％の信頼性を持つ結果を得ることができます。同様に、10%の改善を検出するには100人、3%の改善を検出するには1000人のテスト参加者が必要です。

出力評価の方法

出力の評価は、客観的基準に基づいてコンピューターによって自動化されることも、人間による主観的な判断が含まれることもあります。
例えば、新しいインターフェースが実際にユーザーにより好まれるかどうかを評価するために、ユーザーアンケートの結果や購買データの分析を行うことができます。

モデルベースの評価の具体例

「ニール・アームストロングが月面を歩いた」という事実に関する質問に対する回答の評価を考えてみましょう。
モデルクエリを使用して、回答にこの事実が含まれているかどうかを数えます。

回答が「ニール・アームストロングは1969年7月21日に月面を歩いた」という内容であれば、この事実を正しく含んでいると評価されます。

OpenAI Evals

テストを実施する際はOpenAI Evalsと呼ばれるフレームワークを使用すると便利です。

OpenAI Evalsは、大規模言語モデル（LLMs）またはLLMsを使用して構築されたシステムを評価するためのフレームワークと、オープンソースのベンチマークレジストリです。

このフレームワークを使用することで、OpenAIのモデルのさまざまな側面をテストし、特定のユースケースに関心がある場合に独自のカスタム評価を作成することができます。
また、公開せずに自分のデータを使ってプライベート評価を構築することも可能です。

Evalsの実行には、OpenAI APIキーの設定と指定が必要です。
APIキーを取得した後、OPENAI_API_KEY環境変数を使用して指定します。

APIの使用に関連するコストに注意する必要があります。Python 3.9以上が必要です。

EvalsレジストリはGit-LFSを使用して保存されており、LFSをダウンロードしてインストールした後、ローカルのevalsリポジトリ内から評価をフェッチすることができます。また、evalsパッケージをpipを通じてインストールすることもできます。

Evalsの評価結果をSnowflakeデータベースにログするオプションも提供されており、データベースの設定には環境変数が必要です。

新しい評価を作成する際は、evalsリポジトリをGitHubから直接クローンして、必要な要件をインストールします。
独自の評価を作成するプロセスやカスタム評価ロジックの例、独自の完了関数の作成に関するガイドが用意されています。

OpenAI Evalsの利用イメージについて具体的な例示をもとに解説します。

例えば、ある企業が自社のカスタマーサービスシステムの効率化を目指し、そのために大規模言語モデル（LLM）を導入しようとしているとします。
この企業は、LLMが実際にカスタマーサービスの質問に効果的に回答できるかを評価したいと考えています。

評価の設定：まず、OpenAI Evalsを用いて、特定のカスタマーサービスのシナリオに基づいた評価を設計します。
たとえば、顧客からの一般的な問い合わせや技術的な質問に対するLLMの回答の品質を評価するシナリオを想定します。
データの準備：評価に必要なデータを集め、JSON形式で用意します。
これには、実際の顧客からの問い合わせや、それに対する理想的な回答の例が含まれます。
評価の実行： OpenAI Evalsを使用して、LLMがこれらの問い合わせにどのように回答するかをテストします。
評価は、LLMの回答が顧客の問い合わせにどれだけ適切に応えているかを測定します。
結果の分析：評価の結果を分析し、LLMが特定の種類の問い合わせに対してどの程度効果的に応答できるかを評価します。
これにより、LLMのパフォーマンスの強みと弱みが明らかになります。
改善策の検討：評価結果を基に、システムの改善策を検討します。
たとえば、LLMが苦手とする問い合わせタイプに対するトレーニングを強化する、または人間の介入が必要なケースを特定するなどです。

このようにして、OpenAI Evalsは、企業がLLMを導入する際のリスクを軽減し、システムのパフォーマンスを最適化するための重要なツールとして機能します。