OpenAI、Privacy FilterをApache 2.0で公開

OpenAIは2026年4月28日、個人情報を自動的に検出・マスキングするオープンソースソフトウェア「Privacy Filter」をApache 2.0ライセンスで公開した。このツールは、画像やテキストデータに含まれる顔、ナンバープレート、氏名、住所、電話番号、メールアドレス、クレジットカード番号といった機密情報をリアルタイムで識別し、自動的にぼかしや黒塗り、置換処理を施すことができる。

Privacy Filterは、深層学習モデルをベースに構築されており、OpenAIがこれまで培ってきた自然言語処理（NLP）とコンピュータビジョンの技術を統合している。具体的には、画像認識には同社のCLIPモデルの派生アーキテクチャを、テキスト処理にはGPTシリーズの軽量版であるGPT-4o miniを利用している。Apache 2.0ライセンスでの公開により、企業や研究機関は商用・非商用を問わず自由に利用、改変、再配布が可能だ。

このツールの最大の特徴は、エッジデバイス上での動作を前提とした軽量設計にある。Privacy Filterは、TensorFlow LiteとONNX Runtimeに対応しており、スマートフォンやIoTデバイスといった限られた計算リソースでもリアルタイム処理が可能だ。OpenAIは公式ブログで、医療画像の匿名化、監視カメラ映像のプライバシー保護、顧客データのクレンジングといったユースケースを想定していると説明している。

実際の性能として、公開されたベンチマークによれば、顔認識による個人特定を99.2%の精度でブロックし、テキスト中の個人情報検出ではF1スコア0.97を達成している。また、処理速度はNVIDIA Jetson Orin上で毎秒30フレーム、スマートフォン（Snapdragon 8 Gen 3搭載）でも毎秒15フレームと実用的な水準だ。

OpenAIはすでに、自社のAPIサービスであるChatGPT APIやDALL·E 3 APIにおいて、ユーザーがアップロードする画像やテキストのプライバシー保護にPrivacy Filterを内部的に活用している。今回のオープンソース化により、外部の開発者や企業が同様の保護機能を自社のアプリケーションに容易に組み込めるようになった。

また、Privacy Filterは、GDPRやCCPAといった主要なプライバシー規制に対応するための補助ツールとしても有用だ。例えば、個人情報を含むデータセットを学習に利用する前にマスキングを施すことで、規制遵守を支援する。OpenAIは今後のアップデートで、より多言語対応を進め、日本語を含むアジア圏の個人情報フォーマット（日本のマイナンバーや中国の身分証番号など）にも対応する予定であると発表している。

このリリースは、AI業界におけるプライバシー保護の標準化を促進する一歩として注目される。従来、個人情報のマスキングは手作業やルールベースのスクリプトに依存することが多く、コストとエラーの原因になっていた。Privacy FilterはAIによる自動化でこれを解決し、Apache 2.0ライセンスにより誰でも無料で利用できる点で、特にスタートアップや中小企業にとって大きな利点となる。

GitHub上で公開されたリポジトリには、すぐに試せるデモノートブックと、主要なクラウドプラットフォーム（AWS、Google Cloud、Azure）へのデプロイガイドが付属している。OpenAIはコミュニティからのコントリビューションも歓迎しており、今後はコミュニティ主導でプライバシーフィルタの精度向上が進むことが期待される。