研究

機械学習
データバイアス
公平性 転移学習 外分布汎化
数理統計

本研究室では,数理統計の技術を基盤とし,バイアスのあるデータから機械学習モデルを学習する手法の開発やその理論的性質の解析を行っています.機械学習とは,コンピュータが大量のデータからパターンや規則性を自動的に学習し,未知のデータに対して予測や分類を行う技術です.例えば教師あり学習では,特徴(画像やテキストなど)とラベル(画像に写っている物体の名前や文章のカテゴリなど)のペアがデータとして与えられ,アルゴリズムはこれらの関係性を数理的にモデル化します.学習されたモデル(予測器)は,未知の特徴に対してもラベルを推定できるようになります.機械学習は画像認識や自然言語処理,医療診断など幅広い分野で活用されており,近年ますます重要性が高まっています.

近年の深層学習を基盤としたアルゴリズムは複雑なモデルを用いるため,学習アルゴリズムを設計した段階ではそれがうまく動作するかどうかは明確ではありません.機械学習の研究の多くは,ベンチマークデータセットで学習・評価を行う実験的な検証によって,学習アルゴリズムの性能や性質が評価されてきました.しかし,実験的な検証で確かめられた性質が,同等の性質を持つ他のデータセットでも成り立つとは限りません.機械学習アルゴリズムを数学的に理論解析することで,その性能や振る舞いを正確に把握することが可能です.このような理論的な機械学習アルゴリズムの解析は,数理統計の技術によって行われます.

本研究室では,特に機械学習アルゴリズムがバイアスのあるデータを用いてモデルの訓練を行った際の性能や振る舞いを,数理的に明らかにすることを目指して研究を進めています.では,データバイアスとは何でしょうか.例えば教師あり学習の場合,得られた特徴とラベルのペアにはf(特徴)=ラベルf(特徴)=ラベルという関係があり,データからffを推定することが目的となります.しかし,ffを推定したいにもかかわらず,データが何らかの要因で歪み,別の関係性f(特徴)=ラベルf'(特徴)=ラベルを持っている場合があります.このように,実際に求めたいモデルとデータの性質の間に生じるギャップをデータバイアスと呼んでいます.データバイアスが含まれるデータに対して単純な機械学習アルゴリズムを適用すると,ffではなくff'が得られてしまい,さまざまな問題が生じます.この研究分野では,バイアスが含まれるデータからでもffを推定するための手法の構築を目指しています.

データバイアスに関連したさまざまな機械学習のタスクが存在します.特に本研究室では,以下の機械学習のタスクを研究しています.

以下の節では,それぞれの研究分野について説明します.

公平性 (Fairness)

公平性の問題は,データが生成・収集される過程で,意識的・無意識的に人間が差別的な振る舞いをしてしまうことによってデータが歪み,それが機械学習アルゴリズムの結果に反映されて差別的な予測器を出力してしまう問題です.実際には公平なモデルを学習したいにもかかわらず,実際のデータは不公平になっているため,データバイアスの問題の一種であると考えることができます.

このような差別的な振る舞いは,現実に動いている機械学習アルゴリズムにおいて観測されています.ProPublicaが調査した再犯予測アルゴリズムCOMPASの差別的なバイアスはその1つの例です.COMPASは被告人の再犯するリスクを10段階で予測する機械学習アルゴリズムの一種であり,実際にアメリカの裁判で使用されていました.ProPublicaの調査では,再犯していないにもかかわらずリスクが高いと予測された割合がAfrican Americanの方がWhiteの約2倍大きいことに対し,再犯しているにもかかわらずリスクが低いと予測された割合がWhiteの方がAfrican Americanの約2倍大きいことがわかりました.これは,COMPASアルゴリズムが白人(White)よりも黒人(African American)を不利に扱うようなリスク予測になってしまっていることを示します.

公平性の問題に対して,我々の研究室では,様々なシチュエーションにおいてバイアスを低減した予測器を学習するためのアルゴリズムの数理解析や開発を行っています.具体的な公平性の問題に対する我々の研究の例は以下の通りです.

  • 公平性を満たしつつ最も予測性能の高いアルゴリズムの解明 (K. Fukuchi et al., 2023)
  • 人種や性別などの差別の要因となるセンシティブな属性のラベルが少数しか得られないときに公平性を実現するアルゴリズムの研究 (小路口, 2023)
  • 公平性を偽証するような状況においてその偽証を検出可能か経験的・理論的に調査した研究 (K. Fukuchi et al., 2020)
  • 予測時の公平性を理論的に保証するアルゴリズムの研究 (K. Fukuchi et al., 2014)
  • センシティブ属性のラベルが予測モデルの形でしか与えられないときに公平性を実現するアルゴリズムの研究 (K. Fukuchi et al., 2013; K. Fukuchi et al., 2015)

転移学習 (Transfer Learning)

転移学習は,解きたいタスクのデータが少量しか得られない状況で,大量に得られる別のタスクのデータを活用することによって,解きたいタスクの性能を向上させる技術です.例えば,医療画像に写っている疾患の診断を行うタスクを解きたいとします.しかし,医療画像を取得するためには専門家による専用の計測機器を使った検査が必要であるため,医療画像を大量に用意することができません.一方で,一般的な写真はSNSなどを含むWeb上の媒体から大量に取得することが可能です.この状況において,大量の一般的な写真と少量の医療画像のデータを組み合わせることによって,医療画像に対する疾患診断を高い精度で行うことが転移学習の目標です.このとき,一般的な写真をソースサンプル,医療画像をターゲットサンプルと呼びます.この問題は,ソースサンプルが実際にモデルを構築したいターゲットサンプルとは性質が異なるという意味で,データバイアスの問題の一種になっています.

転移学習のアルゴリズムは,ソースサンプルのみで学習したときの性能に比べて,ターゲットサンプルも合わせて学習したときの性能が上回る場合,成功したと言えます.一方で,どんな状況でも転移学習が成功するわけではなく,逆にターゲットサンプルを使用することによって性能が悪化する負の転移が起こる場合もあります.転移学習アルゴリズムが負の転移を起こさず成功する状況を数理的に明らかにすることが重要です.

本研究室では転移学習アルゴリズムの成功に関する解析に取り組んでいます.転移学習に対する我々の研究は以下の通りです.

外分布汎化 (Out-of-Distribution Generalization)

転移学習においては少量ではありますがターゲットサンプルを取得可能な設定を考えていました.外分布汎化では,ターゲットサンプルが得られない代わりに,ソースサンプルとターゲットサンプルの関係性に関する事前知識を用いることによって,ターゲットサンプルに対する性能を向上させる技術です.どのような関係性を採用するかによってさまざまな外分布汎化のタスクが存在します.その一つであるスプリアス相関では,本質的ではない背景などの情報にラベルが強く依存しており,シンプルな学習アルゴリズムでは背景をもとに予測を行ってしまう問題を考えています.この状況において構築したモデルを背景がラベルに依存していないデータに適用すると予測性能が大幅に低下してしまいます.

本研究室では,スプリアス相関に対する外分布汎化の手法の開発や理論解析の研究に取り組んでいます.外分布汎化に関係する我々の研究は以下の通りです.

  • 視覚言語モデルを元にスプリアス相関を発生させる属性を知らない状況でもスプリアス相関に対処する方法の開発 (下坂, 2024)

参考文献

  1. Kazuto Fukuchi and Jun Sakuma. Demographic Parity Constrained Minimax Optimal Regression under Linear Model. Advances in Neural Information Processing Systems, vol. 36, pp. 8653-8689, 2023.arXiv
  2. Mitsuhiro Fujikawa, Youhei Akimoto, Jun Sakuma, and Kazuto Fukuchi. Harnessing the Power of Vicinity-Informed Analysis for Classification under Covariate Shift. The 28th International Conference on Artificial Intelligence and Statistics, 2025.
  3. 下坂 知広, 福地 一斗. 視覚言語モデルを用いたスプリアス相関の低減における欠損グループへの汎化. 第27回情報論的学習理論ワークショップ (at 情報論的学習理論ワークショップ), vol. IBIS2024, pp. -, 2024 (ポスターのみ).
  4. 藤川 光浩, 秋本 洋平, 佐久間 淳, 福地 一斗. neighbor-transfer-exponentを通した非絶対連続分布間の共変量シフト下での分類誤差解析. 電子情報通信学会技術研究報告, vol. 123, 311, pp. 58-65, 2023.
  5. 小路口 望, 福地 一斗, 秋本 洋平, 佐久間 淳. 少数のセンシティブ属性を用いた公平な学習. 人工知能学会全国大会論文集, vol. JSAI2023, pp. 2D4GS205-2D4GS205, 2023.
  6. 藤川 光浩, 秋本 洋平, 佐久間 淳, 福地 一斗. neighbor-transfer-exponentを用いた非絶対連続分布間の転移学習の誤差解析. yes (at 情報論的学習理論ワークショップ), vol. IBIS2023, pp. -, 2023 (ポスターのみ).
  7. Kazuto Fukuchi, Satoshi Hara, and Takanori Maehara. Faking Fairness via Stealthily Biased Sampling. The Thirty-Fourth AAAI Conference on Artificial Intelligence, Special Track on AI for Social Impact, vol. 34, 01, pp. 412-419, 2020.
  8. Kazuto Fukuchi and Jun Sakuma. Neutralized Empirical Risk Minimization with Generalization Neutrality Bound. Machine Learning and Knowledge Discovery in Databases, vol. 8724, 418–433 pages, 2014.
  9. Kazuto Fukuchi, Toshihiro Kamishima, and Jun Sakuma. Prediction with Model-Based Neutrality. IEICE Transactions on Information and Systems, vol. E98.D, 8, pp. 1503-1516, 2015.
  10. Kazuto Fukuchi, Jun Sakuma, and Toshihiro Kamishima. Prediction with Model-Based Neutrality. Machine Learning and Knowledge Discovery in Databases, vol. 8189, 499–514 pages, 2013.

機械学習/データマイニング研究室
情報理工学位プログラム
筑波大学
総合研究棟B
305-8573 茨城県つくば市天王台1-1-1
029-853-5530 (情報理工学位プログラム)
029-853-2111 (筑波大学)