【PIスキャナー】チューニングの考え方について

はじめに

PIスキャナーは、情報検出のための精度を高めるためにチューニングが必要な製品となっています。チューニングといっても、特に難しいことはありません。ご安心ください。
なお、運用の場面などと併せて検討いただく事項もありますので、例示となる導入場面を想定して解説します。
※文中の図は時間があるときに掲載します。

想定される導入場面(例示)

今回は、校内の内部セグメントと校外へつながる外部セグメントとの間の情報のやり取りに絞って解説します。実際は内部セグメントにおいて、さらに情報の重要性に応じた分割等が行われるものと想像しますが、ここでは特に言及しません。
(ここに図が入ります。ネットワーク分割して、その間を中継しているイメージ)

図.内部セグメントと外部セグメントの関係

ちなみに、外部セグメントから内部セグメントへ情報(ファイル)を送り込む場合には、ファイルの無害化(サニタイザー)を実現することになります。これは、内部セグメントへ取り込むファイルのリスクを排除することが目的です。
一方、内部セグメントから外部セグメントへファイルを送り出す場合、必要なのは無害化ではありません(無害化は送信先の組織で行うべきことです)。重要な情報が承認を得ること無く外部に送出(流出)されないかをチェックすることが求められます。
PIスキャナーは内部セグメントで保有する重要情報を外部セグメントに送り出す場合にその内容をチェックするアプライアンス(システム)です。

重要情報の定義

ここで大切なのは「重要情報とは何か」ということでしょう。学校現場においては、生徒や保護者の個人情報(及び個人情報に紐づけされた機微情報)が重要情報であると考えます。それ以外に、組織として定義した重要情報(契約情報等?)も安易に外部に出すことはできません。
そこでPIスキャナーを導入する際には、保有する情報について重要性分類を行い、それぞれの情報に「重要性分類○」という識別子を付与しておくことが望ましいでしょう。少なくとも今後生成する文書ファイルには重要性分類の識別子を記載する運用は必要です。
今回は内部セグメントで生成される文書ファイルは一旦「重要性分類2」であると定義した上で、文書の余白に「重要性分類2」の識別子を付与しておくことにします。(Word等の文書テンプレートでこの識別子をあらかじめ付加したものを用意しておき、新規文書作成時はそのテンプレートから文書作成する運用を行うとよろしいかと思います)

情報検知の仕組み(重要情報検知)

PIスキャナーの情報検知は次の3つの方法で行います。

マグネットサーチ

キーワードを設定して強制的に該当文字列を検出します。このキーワード設定は他の検出手法よりも優先して適用しますので、「マグネット(磁石)」という比喩を用いています。
PIスキャナーの初期設定では、重要性分類の識別子や一般的な人物名などのマグネットリストを設定しています。最近は人物名に一般的という判断をすることは難しい(言い換えると珍しい名前が増えてきた)ので、運用の段階で、組織内で検知すべき人物名(名前だけでよいです)をリスト化してマグネットリストで管理しておく必要があります。
マグネットサーチはその性質上、偽陽性(本来は検知すべきでない情報を余計に検知してしまう)を生じます。そのため、後に示す他のサーチ手法の運用が確立した段階で少しずつマグネットリストを削っていくべきでしょう。
(あるいは、偽陽性については受容した上でこの運用を継続する方法も有効かと思います。元々外部に送り出す情報は事前に確認するべきというのが、基本的な姿勢です)

コーパスサーチ

PIスキャナーは、内部で日本語コーパス(日本語に関するデータベース)を持っており、この日本語コーパスに基づき文章を分類、識別します。
分類した結果、重要情報(多くは個人情報)に該当するものが含まれているかを検知します。
コーパスサーチも偽陽性を生じやすいですが、苗字を含めた検知が可能ですので、マグネットサーチと組み合わせてお使いください。

AIサーチ

PIスキャナーで通過したファイル、保留になったファイル、さらに保留の結果、取り下げたり、承認したファイルは、その経過が機械学習用に記録され、その後の情報検知処理に影響を与える仕組みになっています。
この仕組みのことをAIサーチと呼んでいます。保留になったファイルの保留レポートを見ると、ファイル中に保護すべき情報が記載されている確率が記されています。これは過去のファイルの傾向から機械学習(人工知能)を行い、その学習モデルを使ってファイルを識別しているのです。
AIサーチはその設計上、保護すべき情報を検知する機能はありません。その代わりにマグネットサーチ、コーパスサーチで検知したファイルの偽陽性の判別を行います。つまり、過去の傾向から誤検知の可能性が高いファイルを除外する機能を持ちます。
この確率のしきい値はパラメータで設定可能です。

情報検知の仕組み(顔情報検知)

PIスキャナーのもう一つの機能として、画像ファイル中にある人物の顔を識別し、外部出力への承認を求めるというものがあります。
顔情報の検知は特に新しい技術ではありません。識別の精度については、パラメータで設定可能です。併せて、ぼかし処理を施す場合の強度についてもパラメータで設定することができます。

オンプレミスへのこだわり

実はこれらの仕組みはインターネット上で提供されるクラウドサービスを使うことで、もう少し高い精度の検知を行う仕組みを構築することも可能です。
しかし、PIスキャナーはオンプレミス(インターネットに繋げない状態)で動作させることにこだわっています。なぜならば、検知のためと言え、該当するファイルを外部に送信することが適当とは思えないためです。
また、PIスキャナーそのものをクラウドサービスとして提供することも、今のところ考えていません。PIスキャナーは自治体、教育機関に対しては製品を無償提供していますので、複数台を導入しても費用的にはさほど変わりません。贅沢にお使いください。

他のソリューションとの併用

PIスキャナーは、単体でもお使いいただけますが、他のソリューションと併用することで利便性が高まります。

ファイル無害化アプライアンス「サニタイザー」

ご存知、私が開発したファイル無害化アプライアンスです。PIスキャナーと構成はほぼ同じなので、システム間連携、拡張など、サニタイザーを構築したテクニックはPIスキャナーでも同じように実現できます。
ネットワーク間の受け渡しソリューションとして、上り(レベル低→高)はサニタイザー、下り(レベル高→低)はPIスキャナーを併用するとよいと思います。

ファイル暗号化ソリューション(各社)

文部科学省からのガイドラインにも「重要情報の暗号化」という記述が見られます。
暗号化を行うことで意図しない情報流出時の被害を抑止が期待できますが、一方で暗号化したまま外部へ情報を送り出すソリューションはその手法が各社まちまちなため、情報の受け取り側に運用上の不便をかけてしまいがちです。
また暗号化しているから外部で送出する情報のチェックを行わなくて良いというわけでもありませんので、これらのソリューションとPIスキャナーは併用することになろうかと思います。
なお、PIスキャナーはMicrosoft RMS(暗号化)やパスワード付きOfficeファイルについて、外見では見分けがつかないものも識別可能(これはサニタイザーの機能と同じ)ですので、誤って復号化しないままファイルを送出するミスを未然に防ぐこともできます。

導入コンサルティング

PIスキャナーの導入に際して、コンサルティングが必要な場合はお声掛けください。
sanitizer.japan[at]gmail.com
まだまだ人工知能に対する誤解も多く、人智を超えた処理をたちどころに行うかのような印象を持たれているかもしれませんが、この種の機械学習は導入先の環境に応じて地道に学習を進めていくことが王道だと思っていますので、導入して気長にお使いいただくことを強くおすすめします。