機械学習の技術が急速に発達し, その能力はいずれ人間の認知能力や判断能力を凌ぐと言われています. 近い将来, 人間のエキスパートによる判断や意思決定が, 大量データに基づく機械学習に代替されることが期待されます. ただし, 機械学習が重要な意思決定(例えば自動診療, 経営判断, 政策判断など)を担うためには, 人間のエキスパートによる意思決定と同様に,
など, セキュリティ・プライバシ上のリスクに対する安全性を理論的に保証する仕組みが求められます. 私たちの研究室では、以下のようなAIや機械学習アルゴリズムのセキュリティ・プライバシーに関する研究をしています。
一般的に、画像を認識する深層学習モデルは、高次元ベクトルとして表現される画像を高度に抽象化された低次元の特徴ベクトルに変換し、予測・認識を行います。そのため、深層学習モデルは画像から認識結果を与えますが、認識結果からその元となる画像を復元することは不可能であるように見えます。この研究では、攻撃者が深層学習モデルそのものにアクセスできる場合、敵対的生成ネットワークの考え方を用いて、深層学習モデルの学習に用いた画像を再構成可能であることを示しました。この結果は、個人情報や機密情報などを用いて深層学習モデルを学習させたときに、その深層学習モデルそのものから、学習に用いた個人情報や機密情報が復元されるリスクがあることを示しています。以下の図は、顔認識モデルから再構成された顔画像の例を示しています。攻撃者は、標的の顔画像を一切利用せずに、深層学習モデルに標的と認識される顔画像を再構成しています。
この研究は、以下の論文で発表されました.
マルウェアの静的機能解析は多くの人手を要する厄介な作業である。この研究では、マルウェアの実行ファイルを画像化し、これを注意機構付き深層学習モデルで学習させることにより、そのマルウェアを特徴づけている実行ファイル上の箇所を可視化することで、マルウェアの静的機能解析を効率的に支援できることを示した。
下図は画像化されたBackdoor.Win32.Agobot.onと呼ばれるマルウェアの実行ファイルと、これに対する深層学習の注意機構による示唆を表している。このマルウェアファイルはIRCを通じてリモートサーバから送信されるコマンドを実行する他、HTTP/FTP通信をインタラプトし、ログイン情報を取得することが知られている。
画像右側の深層学習の注意機構による示唆において、赤は、IRCサーバへの接続部分のプログラムが、黄色はHTTPによる通信において、 “PAYPAL” “paypal.com”などの文字列が含まれているかをチェックする部分のプログラムが、示唆されている。
この研究は、以下の論文で発表されました.
Hiromu Yakura, Shinnosuke Shinozaki, Reon Nishimura, Yoshihiro Oyama, Jun Sakuma. Malware Analysis of Imaged Binary Samples by Convolutional Neural Network with Attention Mechanism, The 8th ACM Conference on Data and Application Security and Privacy (CODASPY2018), to appear.
矢倉 大夢, 篠崎 慎之介, 西村 礼恩, 大山 恵弘, 佐久間 淳, CNNと注意機構による画像化されたマルウェアの解析手法, コンピュータセキュリティシンポジウム2017論文集, pp. 1381-1388, 2017. (コンピュータセキュリティシンポジウム2017優秀論文賞受賞)
与信,雇用,保険などに関する重要な意思決定においては,その決定が個人のセンシティブな属性(性別,人種など)に依存してしまうと差別的であり,不公平になってしまいます.現実のデータおいては差別の問題は強固に残っており,人間が行なった意思決定は無意識的に差別的になっている可能性があります.このようなデータを解析することによって,機械学習を使って行われる意思決定においても差別が発生することが大きな問題になっています.本研究では,そのようなデータが与えられたとしても,差別を排除できるような機械学習のアルゴリズムの開発を行いました.特に,機械学習のアプリケーションにおいては過去のデータを解析して,その解析結果を基に新しいデータに対する意思決定を行います.このような場合であっても,差別が発生しないことを保証できるということを理論的な解析を通じて示しました.
この研究は、以下の論文で発表されました.
ビッグデータとこれを用いた統計解析は、私たちの生活を支援する画期的なサービスを生み出す源泉となりますが、データが機密情報や個人から取得された情報を含む場合、慎重な取り扱いが必要になります。秘密計算とはデータを暗号化したまま別のサーバに預けてデータ解析を行い、その計算結果だけを返してもらう方法です。暗号化データを預けたサーバには暗号文を解読することができないため、サーバデータの内容を一切明かさずに、データ解析のみを委託することが可能になります。また万が一、サーバからデータが漏洩しても、データは暗号化されているため、復号のための鍵が漏洩しない限り、内容が漏洩することはありません。このような秘密計算をアウトソーシング型秘密計算と呼びます。当研究室では、統計解析や機械学習における様々なアウトソーシング型秘密計算を研究しています.
近年クラウドサービスはは我々の生活のいたるところで用いられています。クラウドにデータを預ける場合、クラウドがそのデータを悪用しないか、あるいは預けたデータが漏洩しないかという点はユーザにとって重要です。そのため多くの場合、データは暗号化された状態でクラウドに預けられています。しかし、クラウドに預けたデータを情報資源を活用したいというニーズも存在し、暗号文を復号することなく演算が可能な準同型暗号を用いることで、二つの要求を同時に満たすことができます。
ニューラルネットワーク技術の急速な発展により、さまざまなオンラインサービスがニューラルネットワークを利用しつつあります。例えば、音声からテキストに変換するサービスを例とすれば、クライアントは自分の話した音声 (X) をオンラインサービスに送信します。サービス側はニューラルネットワーク W を使って音声データ X をテキスト W(X) に変換しその結果をクライドに返信します。クライアントの音声入力 X は無論プライベートなデータであり、またサービス側にとっても音声認識用ニューラルネットワーク W は、保護すべきなビジネス上の機密情報です。秘密ニューラルネットワークの評価では、サービス側は クライアントのXに関する情報を一切知ること無く W(X) を計算することができます。また、クライアントは、Wについての情報を得ることなく、認識結果W(X)を得ることができます。この研究では、このようなサービスを実現するための、新たな forward-backward encoding によるニューラルネットワークの秘密評価手法を構築しました。また、実用的な測度でのニューラルネットワーク評価を目指して研究を行っています。
この研究は、以下の論文で発表されました。
陸 文杰,佐久間 淳. Crypt-CNN(II): Cryptographically Evaluate Non-linear Convolutional Neural Network. コンピュータセキュリティシンポジウム2017論文集, pp. 773-780, 2017. (コンピュータセキュリティシンポジウム2017優秀学生論文賞受賞)
データを暗号化したままの状態で統計量(i.e., 平均、分散、共分散、分位点、分割表、主成分と線形回帰)を計算する技術です。このような技術は複数なパーティ間に分散している情報について、その統計量の計算を互に情報を見せ合うこと無く実行したい時に有用です。例えば、複数の病院間で患者のデータを結合することはプライバシの問題からむずかしいことがありますが、秘密計算によって、プライバシを侵害することなくデータを結合し、より正確な医療データ解析を実現することができます。
この研究は、以下の論文で発表されました。
臨床データと個人ゲノムデータにより算出するカイ二乗値から病気とゲノム間の関連性が調べられます。しかしこのような臨床データやゲノムデータはごくセンシティブなデータであり、外部なクラウド計算資源を使ってカイ二乗値を計算した場合、注意深く扱う必要があります。MDL では準同型暗号で臨床データとゲノムデータを暗号したままカイ二乗値を高速的に計算する技術を開発しました。
この研究は、以下の論文で発表されました。
秘密パターン照合は文字列マッチングにおいて、文字列を相手に知られずに、パターン照合を照合内容やデータを暗号化したまま照合する行う技術です。Aさんは自身が保持するテキストをBさんに知られず、Bさんはどんなパターンについての照合結果を知りたい化をAさんに知られないまま照合結果を得ることができます。このような技術は特許や乗車履歴、ゲノム情報などのデータに対してパターン照合を行いたいときに有用です。 また、この研究では and/or 検索やあいまいなキーワードによる照合の秘密照合可能な手法を開発しました。
この研究は、以下の論文で発表されました。
差分プライバシー(differential privacy)とは多数の個人から個人情報を集めた場合、個人情報保護のため、それらの個人情報を公開することはできませんが、その統計情報を公開することは一般的に行われています。ビッグデータ時代においては、データのサンプル数よりも属性数のほうがずっと多いことは普通にありえることなどから、たとえ統計情報であっても、それを公開することによって、元の個人情報が高い確率で推測されることが起こりえます。差分プライバシーとは、多数の個人情報から求めた統計値を一般に公開したときに、その統計値から、個別の個人情報が推測されないことを保証するための理論です.
多数の検定統計量が算出される多重カイ二乗検定においては,個人データをもとにして算出された検定統計量から個人の機微な情報が推測される可能性が高まります.プライバシー保護指標の一つである差分プライバシーを保証することで,個人のプライバシーを保証し,多重カイ二乗検定が行うことが可能となりますが, 既存の手法では,多重カイ二乗検定を行う帰無仮説集合が事前に既知である必要があり, そのため,逐次的に決定されていく帰無仮説(帰無仮説ストリーム)に対する多重カイ二乗検定においては,適用することが不可能でした.この研究では,カイ二乗検定の幾何的解釈に基づいた新しい差分プライベートなカイ二乗検定法に基づき, 帰無仮説ストリームに対しても適用可能な差分プライベートな多重カイ二乗検定手法を提案し, 個人のプライバシーを保証したまま,帰無仮説ストリームに対して,有用な多重カイ二乗検定が行えることを示しました.
この研究は以下の論文で発表されました.
外れ値検出はデータ解析における重要な問題ですが、特異な値を外れ値として検出することそのものがプライバシ侵害を招きかねず、外れ値検出におけるプライバシ保護の実現は困難な問題です.この研究では、外れ値の個数を検出するクエリに注目し、外れ値の個数を検出するクエリに対して差分プライバシを保証する方法を検討しました。大域敏感度など一般的なメカニズムを用いて差分プライバシを保証した場合、出力結果の有用性を下げてしまいます.この問題を克服するために,大域敏感度の代わりに平滑敏感度を用いる手法を導き、差分プライバシを満たしつつ高い有用性を持つ出力できる手法を構築しました.
この研究は、以下の論文で発表されました.