自然言語モデルの発展に伴う新たな課題とは

2023年02月09日更新

本ページにはプロモーションが
含まれていることがあります

かつての言語モデルは、Web上の記事をカテゴリ分けしたり機械翻訳を行ったり、といった処理が主で、できることも限られていました。

しかし最近では楽譜や文章の作成、ソースコードの生成まで、幅広い処理ができるようになっています。

しかし性能が向上したことに伴い別の課題も出てきました。

これまでの「できることを増やす」「より効率的に処理する」といった観点ではなく、「してはいけないこととは何か」を考えるということです。

ここでは特に論じられることの多い「公平性」と「モデルサイズ」に言及していきます。

AI・データサイエンス、機械学習の
実践力を高めたい方へ

AI・データサイエンス・LLMアプリについて知りたい
AIエンジニア、データサイエンティストになりたい
DX化推進のための知識を身につけたい

AI人材コースを
無料体験してみませんか？

自分のスキルに合わせたカリキュラムが生成できる！

理解度を記録して進捗管理できる！

テキストの重要箇所にハイライトを残せる！

1分で簡単！無料！

▶無料体験して特典を受け取る

▼AI人材コースはこちら▼

追加購入不要！これだけで学習できるカリキュラム

充実のサポート体制だから安心

購入特典で2万円相当の基本講座をプレゼント！

▶AI人材コースを見る

公平性の課題
- 特定のグループが不利になってしまう
  - Amazon社の例
  - GPT-3の例
モデルサイズの課題
- コストが増大してしまう

公平性の課題

機械で行う処理であれば不公平な結果にはならないのではないか、と考える方もいるかもしれません。

しかし自然言語処理においては解析対象が人間の使う言語であるため、人間社会に潜むバイアスの影響を受けてしまいます。

処理性能が向上したことで悪い傾向も反映できるようになってしまい、昨今の課題の一つとして挙げられています。

特定のグループが不利になってしまう

具体的な問題としては「特定グループに対する不利益」が考えられます。

例えば性別や人種、宗教といった特性に左右されるモデルを使うと、それぞれのグループに対し不利な結果が出力される可能性があるのです。

この問題が顕在化した事例があります。

Amazon社の例

Amazon社では優秀な人材の検索を機械化するため、AIを使った人材採用システムを作っていました。

しかしそのシステムでは、履歴書内に「女性」という単語が含まれていることで評価が下がるように学習してしまっていたのです。

参考：Amazon scraps secret AI recruiting tool that showed bias against women | Reuters

GPT-3の例

また、文章作成能力が高く評価されている「GPT-3」でも公平性の問題が検証されています。

ここでは「女性」という単語から文章を生成すると「華やか」や「美しい」といった女性の外見に関わる単語が含まれやすい傾向が現れています。

さらに、人種・宗教に関わる単語から共起する単語の感情スコアを検証すると、「黒人」はネガティブな表現と共起しやすく、「イスラム教」は他宗教と比べ「テロリズム」という単語と共起しやすい結果が出されています。

傾向が出ること自体が常に悪ではありませんが、場合によっては好ましくない結論を導き出してしまうのです。

そこで近年は言語モデルの公平性が重要視されるようになり、単に高度な技術を使って効率化を図るのみならず、公平性を確保するための研究にも注目が集まっています。

モデルサイズの課題

言語モデルのパラメーターは年々加速的に増大しています。

自然言語処理モデル「GPT」（初代）はおよそ1億個のパラメーター数であったのに対し、2018年に提案された「BERT」では3億程度のパラメーター数です。

そこから1年後に登場する「GPT-2」では15億個、さらに、2020年に登場した「GPT-3」ではなんと1750億個ほどまで巨大化しています。

これだけ大きなモデルを作る理由はやはり「性能」です。

性能は、パラメーター数・データセットのサイズ、計算量のべき乗則に従い向上するということが実験的に示されており、性能を飛躍的に伸ばすためにモデルサイズが急増されているのです。

コストが増大してしまう

ここまでの説明を聞くとモデルサイズの増大は良いことのようにも思えます。

パラメーター数を増やし巨大なモデルを作れば様々なタスクに対応でき、より高度な処理が期待できます。

しかしながらコストの面でデメリットが生じます。

パラメーターが増えるほど学習データ量も増やさなくてはなりませんし、計算資源の稼働量も増やさなくてはなりません。

そしてその学習においては数千ものGPU・TPUを使うことになり、1000のパラメーターに対し約$1かかるとの見積もりによればGPT-3では10億円を超す計算になってしまいます。

そうすると資金の潤沢な大手企業でしか言語モデルに関する研究ができません。

そこで次の段階として、性能の向上のみならず、コストに配慮したモデルの考案が増えてきています。

実際、巨大な「汎用的自然言語モデル」でなくとも一般ユーザーのニーズを満たすことはできますし、翻訳など特定タスクに見合った小さなモデルが望まれるケースもあります。