研究
この研究室では主にデータセットに潜むバイアスが機械学習のアルゴリズムの出力に与える影響について研究しています.では,バイアスとは何でしょうか?機械学習のアルゴリズムは,データを入力して出力として入力データの統計的な性質を推定・抽出することが可能です.例えば教師あり学習の場合,特徴とラベルのペアの集合がデータとして与えられ,特徴(画像・文書など)とラベル(写っている物体の名前・文章のカテゴリなど)の関係性を特徴を入力としラベルを出力とする関数の形で求めます.この予測器と呼ばれる関数があれば,ラベルが未知の新たな特徴に対してラベルを予測して与えることができます.ここで機械学習のアルゴリズムに入力されるデータが何らかの理由で歪んでしまう可能性があります.このデータが歪むことをここでは,データセットに潜むバイアスと呼んでいます.
公平性
特に多く取り組んでいるデータセットのバイアスの問題として公平性の問題があります.公平性の問題は,データが生成・収集される過程で意識的・無意識的に人間が差別的な振る舞いをしてしまうことによってデータが歪み,それが機械学習のアルゴリズムの結果に反映されて差別的な予測器を出力してしまう問題です.このような差別的な振る舞いは現実に動いている機械学習のアルゴリズムにおいて観測されています.ProPublicaが調査した再犯予測アルゴリズムCOMPASの差別的なバイアスは,その1つの例です.COMPASは被告人の再犯するリスクを10段階で予測する機械学習のアルゴリズムの一種であり,実際にアメリカの裁判で使用されていました.ProPublicaの調査では,再犯していないにもかかわらずリスクが高いと予測された割合がAfrican Americanの方がWhiteの約2倍大きいことに対し,再犯しているにもかかわらずリスクが低いと予測された割合がWhiteの方がAfrican American2倍大きいことがわかりました.これは,COMPASアルゴリズムが白人(White)よりも黒人(African American)を優遇するようなリスク予測になってしまっていることを示します.
公平性の問題に対して,我々の研究室では様々なシチュエーションにおいてバイアスを低減した予測器を学習するためのアルゴリズムの開発などを行っています.具体的な公平性の問題に対する我々の研究の例は以下通りです.
- 人種や性別などの差別の要因となるセンシティブな属性のラベルが少数しか得られないときに公平性を実現するアルゴリズムの研究. (missing reference)
- 公平性を偽証するような状況においてその偽証を検出可能か経験的・理論的に調査した研究. [Fukuchi, Hara, and Maehara(2020)]
- 予測時の公平性を理論的に保証するアルゴリズムの研究. [Fukuchi and Sakuma(2014)]
- センシティブ属性のラベルが予測モデルの形でしか与えられないときに公平性を実現するアルゴリズムの研究. [Fukuchi, Sakuma, and Kamishima(2013), Fukuchi, Kamishima, and Sakuma(2015)]
関連文献
- Faking Fairness via Stealthily Biased Sampling. In The Thirty-Fourth AAAI Conference on Artificial Intelligence, Special Track on AI for Social Impact , Vol.34 , No.01 , pp.412-419 , 2020 . doi: 10.1609/aaai.v34i01.5377. arXiv
- Prediction with Model-Based Neutrality. IEICE Transactions on Information and Systems , Vol.E98.D , No.8 , pp.1503-1516 , 2015 . doi: 10.1587/transinf.2014EDP7367.
- Neutralized Empirical Risk Minimization with Generalization Neutrality Bound. In Machine Learning and Knowledge Discovery in Databases , Vol.8724 , pp.418–433 , 2014 . doi: 10.1007/978-3-662-44848-9_27. arXiv
- Prediction with Model-Based Neutrality. In Machine Learning and Knowledge Discovery in Databases , Vol.8189 , pp.499–514 , 2013 . doi: 10.1007/978-3-642-40991-2_32.