導入事例一覧に戻る
LangSmith・Traceloop観測基盤を備えたハイブリッドAgenticRAG
デュアル観測基盤(LangSmith + Traceloop)、12以上のRAGAS 2025評価指標を備えたハイブリッドAgenticRAGシステムを、わずか3週間で本番対応TypeScriptで提供した方法。
Agentic RAGLangSmithTraceloopRAGAS 2025LLM EvaluationOpenTelemetryTypeScript
主な成果
3
新規RAG戦略
既存のベクターにキーワード、RRF-fusion、デュアルツールAgenticを追加
12+
評価指標
RAGAS 2025準拠: 精度、再現率、忠実度、F-score、ペアワイズ
Dual-tool
最適戦略
LLMがクエリタイプに応じて最適な検索手法を賢く選択
課題
クライアントはAIアシスタントに基本的なベクター検索を実装していましたが、代替の検索戦略で結果を改善できるかどうかを検討する必要がありました。既存のアプローチをキーワード検索、RRF-fusion、Agenticデュアルツール手法と比較したいと考えていましたが、それらを体系的に評価する方法がありませんでした。
チームが直面していた重要な質問:
- どの検索戦略がどのクエリタイプに最適か?
- 単純な精度以上にRAGの品質をどう測定するか?
- 本番トレースと合成テストケースの両方をどう評価するか?
- 測定可能な指標で継続的な改善をどう実装するか?
これらの答えがなければ、AIアシスタントの検索レイヤーを自信を持って最適化できませんでした。
ソリューション
包括的なRAG評価と観測基盤システムを提供しました:
ハイブリッドAgenticリトリーバルPOC
- 既存のベクター検索と比較するための3つの新しい検索戦略を構築
- 正確なキーワードマッチングのためのキーワード検索
- RRF-fusion:1回の呼び出しでベクター検索とキーワード検索の両方を実行し、Reciprocal Rank Fusionで結果を融合(例:ベクター優先の7:3比率)
- デュアルツールAgentic:エージェントがベクターとキーワードツールの両方に個別にアクセスし、クエリに基づいてどちらを呼び出すか判断
- 戦略比較のための体系的なA/Bテスト基盤
12以上の評価指標(RAGAS 2025準拠)
| Tier | 指標 | 測定内容 |
|---|---|---|
| 1 - 重要 | ペアワイズ選好 | 全体的な回答品質 |
| 1 - 重要 | コンテキスト再現率 | 取得した関連ドキュメントの割合 |
| 1 - 重要 | 回答関連性 | 回答が質問に答えているか |
| 2 - 診断 | ペアワイズ検索 | 取得コンテキストの品質 |
| 2 - 診断 | コンテキスト精度 | 関連する取得ドキュメントの割合 |
| 2 - 診断 | 忠実度 | 回答がコンテキストに基づいているか |
| 2 - 診断 | RAGスコア | 4つのコア指標の調和平均 |
| 3 - 追加 | F0.5/F1/F2スコア | 精度/再現率トレードオフ |
| 3 - 追加 | ツール使用 | ツール呼び出しの効果 |
| 3 - 追加 | 検索効率 | Agenticマルチステップ RAG用 |
デュアルモードスマートエバリュエーター
- 本番トレース評価:LLM-as-judgeセマンティック分析(再実行なし)
- 合成データセット評価:基準に対するフレッシュワークフロー実行
- 同じエバリュエーターがデータタイプに応じて自動適応
デュアル観測スタック
- 実験追跡とトレース分析のためのLangSmith連携
- Vercel AI SDK OpenTelemetry経由のTraceloop(9つのAI呼び出しを計装)
- 計装の複雑さなしでリアルタイム監視
Loading...
使用技術
TypeScriptLangSmithTraceloopOpenTelemetryVercel AI SDKRAGAS 2025LLM-as-JudgeVector SearchAgentic RAG
成果
Loading...
デュアルツールの動作例
📝事実質問
「APIキーはどこ?」
キーワード検索を選択
💡概念的質問
「認証の仕組みは?」
ベクター検索を選択
🧩複雑なマルチパート
「設定方法と例を教えて」
両方を反復的に使用
| クエリタイプ | 例 | LLMの判断 |
|---|---|---|
📝事実質問 | 「APIキーはどこ?」 | キーワード検索を選択 |
💡概念的質問 | 「認証の仕組みは?」 | ベクター検索を選択 |
🧩複雑なマルチパート | 「設定方法と例を教えて」 | 両方を反復的に使用 |
デュアルツールAgentic戦略が最適な理由
デュアルツールAgenticアプローチは、LLMがクエリの特性に基づいて最適な検索手法をインテリジェントに選択できるため、推奨戦略として浮上しました:
- 適応型インテリジェンス: エージェントが各クエリを分析し、ベクター検索(セマンティック/概念的な質問用)、キーワード検索(完全一致用)、または両方を使用するかを判断
- クエリ認識ルーティング: 複雑なマルチパート質問は反復的なツール選択の恩恵を受け、シンプルな事実質問は直接キーワードマッチング
- 両方の長所: 固定の融合比率とは異なり、エージェントがクエリコンテキストごとに検索を動的に最適化
技術的成果物
- 優先度階層システム付き12以上の評価指標(RAGAS 2025準拠)
- 本番トレースと合成データセット間で適応するスマートエバリュエーター
- 一貫したテストのための合成データセット生成
- RAGスコア計算(調和平均 + F-score)
- 完全なLangSmith実験追跡
- OpenTelemetry経由のTraceloop観測
ビジネスへの影響
- インテリジェントでクエリ認識型の検索戦略
- 継続的改善のための包括的な評価フレームワーク
- 初日から本番対応TypeScriptコード
- 既存インフラとの統合オーバーヘッドゼロ