リアルタイム判断の信頼性をどう担保するか
Responsibility Gatesによる5層品質保証
白鳥まりあ2026/3/1810分で読めますこんにちは。ボンギンカン広報の白鳥まりあです。
AIシステムに経営判断を委ねることへの最大の懸念は「信頼性」です。「間違った判断をしたらどうするのか」「暴走しないのか」。これらは至極当然の疑問です。今回は、CEO Clone OSが判断の信頼性をどのように担保しているかについて、responsibility-gates.ts の実装を中心に解説します。
Fail-Closed設計の哲学
まず設計哲学から説明します。CEO Clone OSの判断エンジンはfail-closed設計を採用しています。これは「判断に自信がないときは判断しない」という原則です。一般的なWebアプリケーションのfail-open(エラー時もサービスを継続する)とは逆のアプローチです。
なぜfail-closedなのか。経営判断のコンテキストでは、「間違った判断を出す」よりも「判断を保留して人間に委ねる」ほうが圧倒的にリスクが低いからです。判断が遅れることのコストと、間違った判断のコストを比較したとき、後者のほうがはるかに深刻です。
5層ゲートの構成
Responsibility Gatesは以下の5つのゲートで構成されています。各ゲートは独立して評価され、いずれかが閾値を下回った場合、判断は人間にエスカレーションされます。
Gate 1: Premise Completeness(前提完全性)。判断に必要な情報が十分に揃っているかを評価します。たとえば投資判断なのに金額情報がない、人事判断なのに候補者の情報が不十分、といった場合に検出されます。評価方法は、判断カテゴリごとに必要な情報フィールドを定義し、入力データのカバー率を算出します。閾値は0.6です。
Gate 2: Stability(安定性)。同じ入力に対して判断が安定しているかを評価します。内部的には、微小な表現の揺れ(同義語への置換など)を加えた複数の変異入力を生成し、それぞれに対する判断の一致率を見ます。一致率が低い場合、判断がコンテキストの微妙な表現に過敏に反応している可能性があり、信頼性が低いと判断します。
Gate 3: Impact times Irreversibility(影響度と不可逆性の積)。判断の影響度と不可逆性を掛け合わせたリスクスコアを算出します。影響度が大きく、かつ不可逆な判断ほど高いスコアになります。このスコアが閾値を超えた場合、自動判断は行わず人間の確認を求めます。
具体的には、財務影響、人的影響、ブランド影響、法的影響の4軸で影響度を評価し、可逆性スコア(0が完全不可逆、1が完全可逆)と組み合わせます。たとえば「少額の備品購入承認」は影響度小かつ可逆なのでスコアは低く、「主要取引先との契約解除」は影響度大かつ不可逆なのでスコアは高くなります。
Gate 4: Philosophy Alignment(哲学的整合性)。判断がCEOの経営哲学や価値観と整合しているかを評価します。Decision Genomeに記録されたCEOの価値観と、今回の判断の方向性をベクトル比較し、乖離度を算出します。CEOが「長期的関係性を重視する」という価値観を持つのに、短期利益を優先する判断が出力された場合、このゲートで検出されます。
Gate 5: Explainability(説明可能性)。判断の理由が明確に説明可能かを評価します。「なぜその判断に至ったか」を構造化された形式で出力できない場合、判断プロセスに不透明な部分がある可能性があります。説明可能性スコアは、判断理由の各要素(根拠となった原則、参照したデータ、考慮した代替案)の充実度で算出します。
ゲート通過後のAutonomy Engine
5層ゲートをすべて通過した判断は、さらにAutonomy Engineによる自律度評価を受けます。ここでは4つのリスク次元(信頼度、準拠度、ポリシーカバー率、財務影響)を総合評価し、3段階の処理を決定します。信頼度85パーセント以上なら自動承認、60-85パーセントなら人間レビュー要、30パーセント未満なら即座に停止です。
この二重のチェック機構により、「ゲートは通過したが総合的な信頼度が低い」ケースも漏れなく捕捉できます。
監査ログとトレーサビリティ
すべての判断過程は agent_adherence_logs テーブルに記録されます。どのゲートでどのスコアだったか、Autonomy Engineの評価結果はどうだったか、最終的にどの判断が出力されたか。このログにより、事後の監査や品質改善が可能になります。
また、CEOが判断結果を確認して修正した場合、その修正内容もログに記録され、Decision Genomeの改善ループにフィードバックされます。
AI判断の品質保証において、皆さまはどのような指標やゲートを重視されていますか?特にfail-closedとfail-openの設計判断について、異なるドメインでの知見があればお聞かせください。