MDL

Machine Learning
Data Mining
Lab

研究テーマ

AIセキュリティ・プライバシー

機械学習の技術が急速に発達し, その能力はいずれ人間の認知能力や判断能力を凌ぐと言われています. 近い将来, 人間のエキスパートによる判断や意思決定が, 大量データに基づく機械学習に代替されることが期待されます. ただし, 機械学習が重要な意思決定(例えば自動診療, 経営判断, 政策判断など)を担うためには, 人間のエキスパートによる意思決定と同様に,

  • AIによる学習・予測において個人情報・秘密情報が漏えいしない,
  • AIによる予測や意思決定が, 特定の者に有利な意思決定を行うように恣意的に操作されない,
  • AIが非倫理的・差別的な予測や意思決定を行わない

など, セキュリティ・プライバシ上のリスクに対する安全性を理論的に保証する仕組みが求められます. 私たちの研究室では、以下のようなAIや機械学習アルゴリズムのセキュリティ・プライバシーに関する研究をしています。

画像識別用深層学習モデルからの学習画像再構成

一般的に、画像を認識する深層学習モデルは、高次元ベクトルとして表現される画像を高度に抽象化された低次元の特徴ベクトルに変換し、予測・認識を行います。そのため、深層学習モデルは画像から認識結果を与えますが、認識結果からその元となる画像を復元することは不可能であるように見えます。この研究では、攻撃者が深層学習モデルそのものにアクセスできる場合、敵対的生成ネットワークの考え方を用いて、深層学習モデルの学習に用いた画像を再構成可能であることを示しました。この結果は、個人情報や機密情報などを用いて深層学習モデルを学習させたときに、その深層学習モデルそのものから、学習に用いた個人情報や機密情報が復元されるリスクがあることを示しています。以下の図は、顔認識モデルから再構成された顔画像の例を示しています。攻撃者は、標的の顔画像を一切利用せずに、深層学習モデルに標的と認識される顔画像を再構成しています。

alt text

顔画像識別用深層学習モデルからの学習画像再構成の様子 上段はキアヌ・リーブス、下段はブラッド・ピットの顔画像の再構成例

この研究は、以下の論文で発表されました.

  • 草野 光亮, 佐久間 淳, Generative Adversarial Networksを用いた深層学習モデルに対するConcept Extraction攻撃, コンピュータセキュリティシンポジウム2017論文集, pp. 319-326, 2017> (プライバシーワークショップ2017学生論文賞受賞)
  • 草野 光亮,佐久間 淳, Generative Adversarial Networksを用いた確率的識別モデルから訓練データ生成分布の推定第20回情報論理的学習論と機械学習ワークショップ(IBISWS), 信学技報IBISML2017-47, Vol. 117, No. 293, pp. 301-308, 2017.

マルウェア解析支援

マルウェアの静的機能解析は多くの人手を要する厄介な作業である。この研究では、マルウェアの実行ファイルを画像化し、これを注意機構付き深層学習モデルで学習させることにより、そのマルウェアを特徴づけている実行ファイル上の箇所を可視化することで、マルウェアの静的機能解析を効率的に支援できることを示した。

下図は画像化されたBackdoor.Win32.Agobot.onと呼ばれるマルウェアの実行ファイルと、これに対する深層学習の注意機構による示唆を表している。このマルウェアファイルはIRCを通じてリモートサーバから送信されるコマンドを実行する他、HTTP/FTP通信をインタラプトし、ログイン情報を取得することが知られている。

画像右側の深層学習の注意機構による示唆において、赤は、IRCサーバへの接続部分のプログラムが、黄色はHTTPによる通信において、 “PAYPAL” “paypal.com”などの文字列が含まれているかをチェックする部分のプログラムが、示唆されている。

alt text

画像化されたマルウェアの実行ファイル(左)と深層学習の注意機構による示唆(右)

この研究は、以下の論文で発表されました.

  • Hiromu Yakura, Shinnosuke Shinozaki, Reon Nishimura, Yoshihiro Oyama, Jun Sakuma. Malware Analysis of Imaged Binary Samples by Convolutional Neural Network with Attention Mechanism, The 8th ACM Conference on Data and Application Security and Privacy (CODASPY2018), to appear.

  • 矢倉 大夢, 篠崎 慎之介, 西村 礼恩, 大山 恵弘, 佐久間 淳, CNNと注意機構による画像化されたマルウェアの解析手法, コンピュータセキュリティシンポジウム2017論文集, pp. 1381-1388, 2017. (コンピュータセキュリティシンポジウム2017優秀論文賞受賞)

AIの意思決定によって生まれる差別の抑制

与信,雇用,保険などに関する重要な意思決定においては,その決定が個人のセンシティブな属性(性別,人種など)に依存してしまうと差別的であり,不公平になってしまいます.現実のデータおいては差別の問題は強固に残っており,人間が行なった意思決定は無意識的に差別的になっている可能性があります.このようなデータを解析することによって,機械学習を使って行われる意思決定においても差別が発生することが大きな問題になっています.本研究では,そのようなデータが与えられたとしても,差別を排除できるような機械学習のアルゴリズムの開発を行いました.特に,機械学習のアプリケーションにおいては過去のデータを解析して,その解析結果を基に新しいデータに対する意思決定を行います.このような場合であっても,差別が発生しないことを保証できるということを理論的な解析を通じて示しました.

alt text

この研究は、以下の論文で発表されました.

  • Kazuto Fukuchi and Jun Sakuma, “Neutralized Empirical Risk Minimization with Generalization Neutrality Bound”, Proceeding of Machine Learning and Knowledge Discovery in Databases - European Conference, ECML PKDD 2014, Lecture Notes in Computer Science, vol. 8724, Part I, Springer, pp. 418-433, 2014.
  • 福地一斗, 佐久間 淳, “共分散中立性リスクにおける中立経験リスク最小化“, 第18回情報論的学習理論と機械学習(IBISML)研究会, 信学技報, vol. 114, no. 198, IBISML2014-29, pp. 93-100, 2014年.
  • 福地 一斗, 佐久間 淳, “識別における汎化中立性の保証,” 人工知能学会全国大会(第 28 回)論文集, 1G2 機械学習の基礎, 1G2-4, pp. 1-4, 2014年.

暗号

ビッグデータとこれを用いた統計解析は、私たちの生活を支援する画期的なサービスを生み出す源泉となりますが、データが機密情報や個人から取得された情報を含む場合、慎重な取り扱いが必要になります。秘密計算とはデータを暗号化したまま別のサーバに預けてデータ解析を行い、その計算結果だけを返してもらう方法です。暗号化データを預けたサーバには暗号文を解読することができないため、サーバデータの内容を一切明かさずに、データ解析のみを委託することが可能になります。また万が一、サーバからデータが漏洩しても、データは暗号化されているため、復号のための鍵が漏洩しない限り、内容が漏洩することはありません。このような秘密計算をアウトソーシング型秘密計算と呼びます。当研究室では、統計解析や機械学習における様々なアウトソーシング型秘密計算を研究しています.

プライバシ保護クラウドコンピューティング

近年クラウドサービスはは我々の生活のいたるところで用いられています。クラウドにデータを預ける場合、クラウドがそのデータを悪用しないか、あるいは預けたデータが漏洩しないかという点はユーザにとって重要です。そのため多くの場合、データは暗号化された状態でクラウドに預けられています。しかし、クラウドに預けたデータを情報資源を活用したいというニーズも存在し、暗号文を復号することなく演算が可能な準同型暗号を用いることで、二つの要求を同時に満たすことができます。

秘密ニューラルネットワークの評価

ニューラルネットワーク技術の急速な発展により、さまざまなオンラインサービスがニューラルネットワークを利用しつつあります。例えば、音声からテキストに変換するサービスを例とすれば、クライアントは自分の話した音声 (X) をオンラインサービスに送信します。サービス側はニューラルネットワーク W を使って音声データ X をテキスト W(X) に変換しその結果をクライドに返信します。クライアントの音声入力 X は無論プライベートなデータであり、またサービス側にとっても音声認識用ニューラルネットワーク W は、保護すべきなビジネス上の機密情報です。秘密ニューラルネットワークの評価では、サービス側は クライアントのXに関する情報を一切知ること無く W(X) を計算することができます。また、クライアントは、Wについての情報を得ることなく、認識結果W(X)を得ることができます。この研究では、このようなサービスを実現するための、新たな forward-backward encoding によるニューラルネットワークの秘密評価手法を構築しました。また、実用的な測度でのニューラルネットワーク評価を目指して研究を行っています。

alt text

クライアントとモデルの両方のプライバシを保護しつつニューラルネットワークを評価する

この研究は、以下の論文で発表されました。

  • 陸 文杰,佐久間 淳. Crypt-CNN(I): Secure Two-party Computation of Large-scale Matrix-vector Multiplication. コンピュータセキュリティシンポジウム2017論文集, pp. 765-772, 2017.
  • 陸 文杰,佐久間 淳. Crypt-CNN(II): Cryptographically Evaluate Non-linear Convolutional Neural Network. コンピュータセキュリティシンポジウム2017論文集, pp. 773-780, 2017. (コンピュータセキュリティシンポジウム2017優秀学生論文賞受賞)

  • Wen-jie Lu, Jun Sakuma. Faster Multiplication Triplet Generation from Homomorphic Encryption for Practical Privacy-Preserving Machine Learning under a Narrow Bandwidth. ePrint.

秘密計算による統計量計算

データを暗号化したままの状態で統計量(i.e., 平均、分散、共分散、分位点、分割表、主成分と線形回帰)を計算する技術です。このような技術は複数なパーティ間に分散している情報について、その統計量の計算を互に情報を見せ合うこと無く実行したい時に有用です。例えば、複数の病院間で患者のデータを結合することはプライバシの問題からむずかしいことがありますが、秘密計算によって、プライバシを侵害することなくデータを結合し、より正確な医療データ解析を実現することができます。

alt text

データを暗号化の状態で統計量をクラウドで計算する

この研究は、以下の論文で発表されました。

  • Wen-jie Lu, Shouhei Kawasaki, Jun Sakuma. Using Fully Homomorphic Encryption for Statistical Analysis of Categorical, Ordinal and Numerical Data. Network and Distributed System Security Symposium (NDSS). San Diego, CA, USA. February, 2017.
  • 陸文杰, 川崎将平, 佐久間淳. 準同型暗号による統計解析のアウトソーシング I: 記述統計量. コンピュータセキュリティシンポジウム2015論文集, pp. 266-273, 2015.
  • 川崎将平,陸文杰, 佐久間淳. 準同型暗号による統計解析のアウトソーシング II: 予測モデリング. コンピュータセキュリティシンポジウム2015論文集, pp. 274-281, 2015.

秘密カイ二乗値の計算

臨床データと個人ゲノムデータにより算出するカイ二乗値から病気とゲノム間の関連性が調べられます。しかしこのような臨床データやゲノムデータはごくセンシティブなデータであり、外部なクラウド計算資源を使ってカイ二乗値を計算した場合、注意深く扱う必要があります。MDL では準同型暗号で臨床データとゲノムデータを暗号したままカイ二乗値を高速的に計算する技術を開発しました。

この研究は、以下の論文で発表されました。

  • Wenjie Lu, Yoshiji Yamada, Jun Sakuma. Privacy-preserving genome-wide association studies on cloud environment using fully homomorphic encryption. BMC Medical Informatics and Decision Making 2015, 15(Suppl 5):S1. San Jose, CA. May, 2015.
  • Wenjie Lu, Yoshiji Yamada, Jun Sakuma.Efficient Secure Outsourcing of Genome-wide Association Studies. 2nd International Workshop on Genome Privacy and Security (GenoPri’15). pp. 3-6. San Jose, CA. May, 2015.

秘密パターン照合

秘密パターン照合は文字列マッチングにおいて、文字列を相手に知られずに、パターン照合を照合内容やデータを暗号化したまま照合する行う技術です。Aさんは自身が保持するテキストをBさんに知られず、Bさんはどんなパターンについての照合結果を知りたい化をAさんに知られないまま照合結果を得ることができます。このような技術は特許や乗車履歴、ゲノム情報などのデータに対してパターン照合を行いたいときに有用です。 また、この研究では and/or 検索やあいまいなキーワードによる照合の秘密照合可能な手法を開発しました。

img

この研究は、以下の論文で発表されました。

  • Hirohito Sasakawa, Hiroki Harada, David duVerle, Hiroki Arimura, Koji Tsuda,Jun Sakuma. Proceeding WPES ‘14 Proceedings of the 13th Workshop on Privacy in the Electronic Society pp. 21-30. Scottsdale, Arizona, USA, November 03 - 03, 2014.

差分プライバシー

差分プライバシー(differential privacy)とは多数の個人から個人情報を集めた場合、個人情報保護のため、それらの個人情報を公開することはできませんが、その統計情報を公開することは一般的に行われています。ビッグデータ時代においては、データのサンプル数よりも属性数のほうがずっと多いことは普通にありえることなどから、たとえ統計情報であっても、それを公開することによって、元の個人情報が高い確率で推測されることが起こりえます。差分プライバシーとは、多数の個人情報から求めた統計値を一般に公開したときに、その統計値から、個別の個人情報が推測されないことを保証するための理論です.

カイ二乗検定の差分プライバシー

多数の検定統計量が算出される多重カイ二乗検定においては,個人データをもとにして算出された検定統計量から個人の機微な情報が推測される可能性が高まります.プライバシー保護指標の一つである差分プライバシーを保証することで,個人のプライバシーを保証し,多重カイ二乗検定が行うことが可能となりますが, 既存の手法では,多重カイ二乗検定を行う帰無仮説集合が事前に既知である必要があり, そのため,逐次的に決定されていく帰無仮説(帰無仮説ストリーム)に対する多重カイ二乗検定においては,適用することが不可能でした.この研究では,カイ二乗検定の幾何的解釈に基づいた新しい差分プライベートなカイ二乗検定法に基づき, 帰無仮説ストリームに対しても適用可能な差分プライベートな多重カイ二乗検定手法を提案し, 個人のプライバシーを保証したまま,帰無仮説ストリームに対して,有用な多重カイ二乗検定が行えることを示しました.

alt text

カイ二乗検定の幾何学的解釈

この研究は以下の論文で発表されました.

  • Kazuya Kakizaki, Kazuto Fukuchi, Jun Sakuma. Differentially Private Chi-squared Test by Unit Circle Mechanism. International Conference on Machine Learning 2017, pp. 1761-1770, 2017.
  • 柿崎 和也, 福地 一斗, 佐久間 淳, カイ二乗検定の幾何的解釈に基づく差分プライバシーの実現, コンピュータセキュリティシンポジウム2016論文集, pp. 1199 - 1206, 2016. (コンピュータセキュリティシンポジウム2016優秀論文賞受賞)

外れ値検出の差分プライバシー

外れ値検出はデータ解析における重要な問題ですが、特異な値を外れ値として検出することそのものがプライバシ侵害を招きかねず、外れ値検出におけるプライバシ保護の実現は困難な問題です.この研究では、外れ値の個数を検出するクエリに注目し、外れ値の個数を検出するクエリに対して差分プライバシを保証する方法を検討しました。大域敏感度など一般的なメカニズムを用いて差分プライバシを保証した場合、出力結果の有用性を下げてしまいます.この問題を克服するために,大域敏感度の代わりに平滑敏感度を用いる手法を導き、差分プライバシを満たしつつ高い有用性を持つ出力できる手法を構築しました.

alt text

大域的敏感度の上界

この研究は、以下の論文で発表されました.

  • Rina Okada, Kazuto Fukuchi, Jun Sakuma. Differentially Private Analysis of Outliers, Joint European Conference on Machine Learning and Knowledge Discovery in Databases (ECML/PKDD2015), pp. pp 458-473, 2015.
  • 岡田莉奈,福地一斗,佐久間淳,差分プライバシを保証した外れ値検出,日本データベース学会第7回データ工学と情報マネジメントに関するフォーラム,2015年3月.(最優秀論文賞受賞).