ISO42001:2023 9.1 測りっぱなしは絶対NG! 改善につなげるためにすべきこと

おはようございます!マネジメントオフィスいまむらの今村敦剛です。

ISO42001各箇条解説シリーズ、箇条9.1「監視、測定、分析及び評価」です。AIマネジメントシステムやAIシステムがうまくいっているかどうかを、具体的にどうやってチェックすべきか、そのポイントを解説します。

Loading table of contents...

動画でも解説しています(無料・登録不要)

ISO42001:2023 箇条9.1の位置づけ

まず、今日説明する箇条9.1の位置づけです。

箇条9は「パフォーマンス評価」です。PDCAサイクルでいうと、まさに「C(Check)」の部分にあたります。これまで計画(Plan)を立て、運用(Do)をしてきましたが、それらが計画通りに進んでいるか、狙った成果が出ているかを確認するのが、この箇条9.1の役割です。

「監視」「測定」「分析」「評価」とは何のことか。違いは何か

規格要求事項の解説に入る前に、「監視」「測定」「分析」「評価」という言葉の意味について説明します。これらが具体的にどう違うのか、イメージしづらいですよね。そこで「顧客対応用のAIチャットボット」を運用している場面を想像して、それぞれの違いを整理してみましょう。

まず「監視(Monitoring)」です。これは、システムやプロセスの「状態」を見守ることです。 AIチャットボットで言えば、「サーバーが落ちていないか」「エラーログが大量に出ていないか」「回答生成に時間がかかりすぎていないか」といった、正常に動いているかどうかの状態を常に見張っているイメージです。

次に「測定(Measurement)」です。これは、値を決定すること、つまり「数値化」することです。 例えば、「回答の正確性(Accuracy)は何パーセントか」「ユーザーからの満足度スコアは5点満点中いくつか」「ハルシネーション(もっともらしい嘘)の発生率は何パーセントか」といったように、具体的なデータを取って数値にする作業です。

そして「分析(Analysis)」です。これは、測定したデータを使って、傾向や原因を調べることです。 例えば、「先月に比べて回答精度が落ちているが、特定のトピックの質問に対して弱くなっているようだ」とか、「夜間のアクセスが増えると応答時間が遅くなる傾向がある」といったように、集めた数字から「何が起きているのか」を読み解くプロセスです。

最後に「評価(Evaluation)」です。これは、分析結果をもとに「良し悪し」を判断することです。 例えば、「回答精度95%という目標に対して、実績は96%だったから合格だ」とか、「ハルシネーション率が許容範囲を超えているから、このままでは運用を続けられない、改善が必要だ」といった決断を下すことです。

このように、「状態を見守り(監視)、数値を取り(測定)、傾向を掴み(分析)、目標に対して合格か判断する(評価)」という一連の流れを求めているのが、この箇条9.1です。

ISO42001:2023 箇条9.1の要求事項

それでは、具体的な要求事項に入っていきましょう。箇条9.1は大きく分けて3つのことを求めています。

最初の要求事項は、「何を・どうやって・いつ測るか」を決めることです。 この要求事項では、さらに細かく4つの点について要求されています。これらをあらかじめ具体的に決めなければなりません。

1つ目は「何を監視・測定するか」です。 先ほどのチャットボットの例で言えば、回答の精度や、誤答率、システムのリソース消費量などがあります。監視・測定するのは、AIシステムそのものだけでなく、「リスクアセスメントは計画通り実施できているか」といったマネジメントシステム側の指標も対象になります。

2つ目は「方法」です。ただ測ればいいわけではありません。「妥当な結果」が得られる方法でなければなりません。例えばAIの精度を測る場合でも、どんな質問やデータで評価するのか、採点の基準をどうするのか、誰がどの手順で判定するのかによって、結果は大きく変わります。目的に合った指標と評価手順を決め、同じ条件なら同じ結論になるように、再現性のある方法を選びなさい、ということです。

3つ目は「いつ実行するか」です。 監視と測定を行うタイミングです。リアルタイムで監視するのか、毎月測定するのか、モデルを更新するたびに行うのか、といった頻度を決めます。

4つ目は「いつ分析・評価するか」です。 測ったデータをいつ分析し、いつ評価を行うのか。データを取りっぱなしにせず、例えば「四半期ごとの会議で分析結果を評価する」といったように、振り返りのタイミングを決める必要があります。

次に、2つ目の要求事項です。これは「文書化」についてです。 規格では、「結果の証拠として、文書化した情報を利用可能な状態にする」ことが求められています。 監視や測定、分析評価を行った結果は、必ず記録として残します。これが、「ちゃんと管理している」という証拠になります。

そして最後、3つ目の要求事項は、「パフォーマンスと有効性の評価」です。 AIマネジメントシステムの「パフォーマンス(実績)」と「有効性」(つまり狙い通りの結果がでたかどうか)を評価しなければなりません。

ここで一つ、重要なポイントがあります。 規格がダイレクトに求めているのはAIマネジメントシステムのパフォーマンスと有効性です。つまり「私たちが作ったルールやプロセスが、本当に役に立っているか」を評価するということですね。例えば、「リスクアセスメントは計画通り実施できたか」「教育訓練によってメンバーの力量は上がったか」といった管理の仕組みの話をしています。しかし、この「パフォーマンス」という言葉は、箇条3の用語の定義を見ると、AIマネジメントシステムに関する結果のほか、AIシステムを使って得られた結果の両方を指しています。そのため、AIシステムを使って得られた結果も見ながら、AIマネジメントシステムのパフォーマンスと有効性を評価していく、ということになるでしょう。AIシステムが良い動きをしているか、そしてそれを支える管理の仕組みが機能しているかという両面から評価をして、最終的に「私たちのAI活用はうまくいっている」と結論づける必要がある、ということですね。

まとめ

はい、というわけで、ISO42001箇条9.1「監視、測定、分析及び評価」について解説をしましたがいかがだったでしょうか。今日の解説を一言でまとめると、「状態を見守り、数値を測り、傾向を分析して、良し悪しを評価する。この一連の流れを計画し、記録に残す」ということでしたね。 計画(Plan)や実行(Do)だけで満足せず、しっかりチェック(Check)することが、AIの安全な活用と改善への第一歩です。

この記事を書いた人
代表取締役 今村 敦剛

中小企業診断士/審査員(ISO9001, 14001, 45001)/日本心理学会認定心理士