Amazon Bedrockモデル比較|RAG・チャットボット用途での選定ポイントとおすすめモデル
Rewa Tech
技術コラム
システム開発
本記事は2025年11月に実施した検証をベースに、2026年2月時点の最新情報を踏まえて整理したものです。
Amazon Bedrockでは複数のモデルを選択できますが、最適なモデル選びは簡単ではありません。用途に応じて、各モデルの特性を理解することが重要です。
本記事では、AIモデルを各検証観点から比較し、日本語RAG・チャットボット用途における選定ポイントを整理します。あわせて、現時点で有力なモデルの一覧と特徴を紹介します。
Amazon Bedrockとは
Amazon Bedrockは、AWSが提供する生成AIプラットフォームです。
Bedrockの大きな利点として、AnthropicのClaude、OpenAIのgpt-ossなど、複数のモデルプロバイダーのAIを同一の環境から利用できる点があります。これにより、特定のモデルに縛られることなく、用途やコスト、性能に応じた柔軟なモデル選択が可能になります。
各モデルは統一されたAPIインターフェースから利用でき、モデルごとにインフラを個別に管理したり、API仕様の違いを大きく意識する必要がありません。
また、AI基盤をAWS内で完結して構築でき、AWSの既存サービスとスムーズに統合することが可能です。データがモデル学習に使用されないポリシーなど、企業利用を前提としたセキュリティ・ガバナンス面が整備されていることも、Bedrockが注目される理由の一つです。
一方で、多数のモデルが利用可能であることから、「どのモデルを選定すべきか」は導入時の重要な検討ポイントとなります。
モデル選定の観点
生成AIモデルは、要約・質問回答・推論などの生成処理の中心的な役割を担います。しかし、モデルごとに性能や特性が大きく異なるため、ユースケースに応じた選定が重要です。
ここでは、日本語でのRAGやチャットボットでの利用を想定した上で、モデル選定時に注目すべき観点を5つ紹介します。
(1) 入力可能な形式
モデルによって対応可能な入力形式は異なります。多くのモデルはテキスト入力を前提としていますが、画像や動画などの入力に対応したモデルも存在します。
(2) 精度
ビジネス用途では精度が非常に重要な要素となります。
様々な評価要素がありますが、本記事ではRAG・チャットボット利用を前提として、以下の点を重視しました。
- 日本語表現・理解の正確さ
- 質問意図の解釈能力
- 指示への忠実性
- 与えられたコンテキストへの忠実性
一般的にパラメータ数が多いモデルほど高精度とされる傾向があります。
精度が低いモデルは業務利用において利用開始後の不満や品質問題につながる可能性があるため、一定水準以上のモデルから選定することが推奨されます。
(3) 費用
生成AIのコストは、入力・出力トークン数に応じて課金されることが多く、モデルごとに単価が異なります。
一般的に、高性能なモデルほど単価は高くなる傾向があります。
トークンとは、モデルが処理するテキストの単位で、日本語では概ね文字数相当が目安となります。
(4) 応答速度
モデルごとに応答速度は異なります。一般的に、高精度なモデルほど推論時間が長くなる傾向があります。
(5) 制限事項
モデルごとに以下のような利用制限が設定されています。
- 最大入力/出力可能トークン数
- 1分/1日あたりのリクエスト数上限
- 1分/1日あたりのトークン使用量上限
RAGでは長いコンテキストを扱うケースが多いため、最大入出力トークン数やトークン使用量の上限は特に重要な確認ポイントとなります。AWSサポートへの申請により緩和される場合もありますが、現時点では緩和の幅は限定的なケースが多いようです。
モデル評価の結果
ここでは、RAGおよびチャットボット用途を前提として、Amazon Bedrockで利用可能なモデルを比較・評価した結果を記載します。
精度評価においては、2025年11月時点で東京リージョンで利用可能な各モデルに対して日本語で以下のタスクを与えて検証を行いました。
- 要約
- 情報整理
- 論理検証
- 課題抽出
精度を前セクションで挙げた各観点で◯・△・☓の三段階で評価し、☓が1つ以上ついたものは現時点では採用が難しいものとして評価対象外としました。
同一モデルで複数のバージョンが利用可能なものは、最新版のみを対象としました。
なお、検証ではBedrockのプレイグラウンドを利用し、出力トークン数のみパラメータを調整しています。
結果として、2つのモデルファミリーの計4モデルが評価対象となりました。
以下にその結果をまとめます。
| 入力可能な形式 | 精度 | 入力費用(1Mトークン) | 出力費用(1Mトークン) | 応答速度 | 最大入力トークン数 | 最大出力トークン数 | 1分あたりのリクエスト数上限 | 1分あたりの入力トークン数上限 | |
|---|---|---|---|---|---|---|---|---|---|
| Claude Sonnet 4.5 | TEXT, IMAGE | ◯ | $3 | $15 | △ | 200k (1M) | 64k | 1,000 | 5,000k |
| Claude Haiku 4.5 | TEXT, IMAGE | △ | $1 | $5 | ◯ | 200k | 64k | 1,000 | 5,000k |
| gpt-oss-120b | TEXT | ◯ | $0.18 | $0.73 | △ | 128k |
8k | 10,000 | 100,000k |
| gpt-oss-20b | TEXT | ◯ | $0.08 | $0.36 | ◯ | 128k | 8k | 10,000 | 100,000k |
※費用・制限は記事執筆時点のもの。東京リージョン、Claudeはグローバルクロスリージョンのオンデマンドを前提として掲載。
■ Claudeファミリー(Anthropic)
評価対象となったのは以下の2モデルです。
- Claude Sonnet 4.5
- Claude Haiku 4.5
Sonnetはバランス型モデル、Haikuは低コスト・高速モデルになります。
(より高性能なOpusも存在しますが、検証時は東京リージョンで使用可能なモデルがありませんでした)
いずれも、全体的に回答品質が高く、RAGやチャットボット用途において安定した性能を示しました。
利点
- 日本語理解および指示遵守の精度が高い
- 画像入力に対応
- 最大入力・出力トークン数がgpt-ossより大きい
注意点
- Haiku 4.5は、Sonnet 4.5に比べると日本語表現にやや弱さが見られる
- Sonnet 4.5では回答が冗長になり指示から逸脱するケースがある
- gpt-ossより高コスト
- 時間あたりの最大リクエスト数・入力トークン数制限が厳しい
■ gpt-ossファミリー(OpenAI)
評価対象となったのは以下の2モデルです。
- gpt-oss-120b
- gpt-oss-20b
120bは高精度モデル、20bは低コスト・高速モデルになります。
いずれも、全体的に回答品質が高く、低コストかつ高いテキスト生成能力を示しました。
利点
- 日本語理解・指示遵守の精度が高い。特に120bが優秀
- Claudeより低コスト
- 時間あたりの最大リクエスト数・入力トークン数制限が緩い
注意点
- 画像入力に非対応
- 120bでは回答が冗長になり指示から逸脱するケースがある
- 最大入力・出力トークン数がClaudeより小さい
比較結果から見るモデル選択
評価対象とした4モデルはいずれも採用可能であり、要件や用途に応じて使い分けできます。
今回の比較では、画像入力やコンテキストウィンドウを重視する場合はClaude、リクエスト制限やコスト効率を重視する場合はgpt-ossが適した選択肢となりました。
各ファミリー内の、精度重視モデルとコスト・速度重視モデルの選択については、ユースケースやコスト要件、見積もりに応じて選択するとよいでしょう。
評価対象外モデル
今回の精度検証では☓評価があったため、以下のモデルについて現時点で優先度は高くないと判断しました。
- Amazon Novaファミリー
- Qwenファミリー
- DeepSeekファミリー
具体的には、日本語以外の言語が混在する、論理誤り、指示内容や回答フォーマットとの乖離などが確認されました。ただし、AIモデルは進化が著しく、本検証結果も数ヶ月単位で結果が変わっていくことが予想されます。
また、今回は日本語でのRAG・チャットボットに用途を絞りましたが、ユースケースによっては今回評価対象としなかったモデルも十分に活用できる可能性があります。
まとめ
モデル選びはユースケースごとに最適解が異なります。本記事ではRAG・チャットボット用途における検証結果を紹介しました。
生成AIは日進月歩で進化しており、継続的な評価が重要です。本記事がその一助になれば幸いです。
生成AIとRAGによるチャットボットをPoCで構築し
お問い合わせ対応の工数削減の検証を促進
生成AIとRAG(検索拡張生成)を組みあわせることで、投稿された質問に対して高精度かつ自然な文章で回答を自動生成しチャットで返信するPoC環境をご提供します。