水槽脳の栓を抜け

SF作家 草野原々のブログ

論文日記(1)AIによる人類の意思集結は失敗する!?『理想的アドバイザー説とパーソナルCEV』

今日から読んだ論文を日記にしてまとめることにしました。一週間で二回更新が目安。

原文はここ

 

どういう問題背景?
この論文は、Yudkowskyという人がAIを安全に使うために唱えた『一貫した推測意思Coherent Extraporated Volition/CEV』という方法論をテーマにしたものだ。Yudkowskyは人類を超えたシンギュラリティAIを安全に使うために、『もし、我々がもっと早く思考し、自分がなりたいと思う状態になり、もっとよく協力した』という状況をAIに推測させ、そのときの一貫した意思をベースにAIを動かせばよいと論じている。この説は価値とは理想的な状態に置かれた行為者が非理想的な状態に置かれた行為者へするアドバイスだという理想的アドバイザー説に類似している。しかし、理想的アドバイザー説には強力な批判が存在する。その批判はCEVをも失敗させるのだろうか?

どういう主張?
理想的アドバイザー説は価値についてなんであるかを示す主張(形而上学)であるのに対して、CEVはどのように価値を汲み取ればよいかという主張(認識論)である。また、CEVのあるバージョン(議会モデル)は批判のいくつかをかわすことができる。そのため、理想的アドバイザー説の批判はCEVへの決定的な反論にはならない。

なんでそう主張できるの?
 全人類のCEVを測り取るのには、個人のCEVを測り取らねばならない(前者をグローバルCEV、後者をパーソナルCEVとする)。パーソナルCEVは理想的アドバイザー説に類似する。理想的アドバイザー説への反論は以下の四つである。
第一の反論『多すぎる声』:時間が進むにつれ理想化の状況が刻々と変化していく。このうちあるひとつのバージョンを選ぶのはアドホックである。互いのバージョンは矛盾したアドバイスを与えるだろう。この反論はCEVにも当てはまる。
 第二・第三の反論『アムネシア』:ある人生はその人生を生きる主体の経験でのみ評価できる、またひとつの人生を経験することはバイアスなしで他の人生を評価することを不可能にする。そのため、理想的アドバイザーが人生について助言するにはある人生を生きた後に記憶喪失になって別の人生を生きねばならない。このとき、アドバイザーは単一の評価的基準を持つことが不可能になる。また、記憶喪失プロセスで狂気に陥り理想的な判断ができなくなるだろう。理想的アドバイザーはオリジナルの個人に十分に似てなくてはならないため理想的だから狂気にならないという再反論は無効である。
 第四の反論『死んだほうがマシ』:理想的アドバイザーは思考能力が制限されたオリジナル状態をひどく不憫に思って死んだほうがマシという結論を下すだろう。しかし、この結論はおかしい。
 これらの批判に応えられる可能性を持つCEVのモデルがある。議会モデルだ。このモデルではパーソナルCEVたちが議会を開き議論して投票をする。このモデルでは第一の反論は回避できる。また記憶喪失を利用しないため第二・第三の反論も回避できる。第四の反論に対してははっきりしない。
 議会モデルにおいてはすべての人生を経験できるメンバーはいない。形而上学である理想的アドバイザー説にとっては致命的なことであるが、認識論/方法論であるCEVでは致命的ではない。
 新たな問題は二つ出現する。①すべての生物を参加させると結論がつかないため誰をメンバーにするかという問題が出現する。②パーソナルCEVを作るのに細かなシミュレーションが必要だが、彼女らに道徳的扱いをすることが必要になる。