【論文まとめ】一貫性のある外挿法的意志作用/Coherent Extrapolated Volition【Elizer Yudkowsky(2004)】

フレンドリーAIのアイディアで知られるYudkowskyのエッセイです。

ここで原文は読めます。

１、Intoroduction

フレンドリーAI（FAI)とはフレンドリーな超強力実行化プロセスである。

フレンドリーAIに必要なものとは。

①道徳などの不変性が自己改良においてもシステムのうちに保持されること

②AIに組み込めるものであること。

③不変性を人類絶滅を回避するようなものにデザインすること。

「友好性」とは我々が欲していることという風に単純に定義できる。

２、Introducing Volition

意志作用(volition）とはなにか：すべてを知ったうえでの要求（例えば、箱Bに実際にはダイヤモンドが入っているが、フレッドは箱Aに入っていると思っており、ダイヤモンドがほしかった場合、ジョンの決定は箱Aを開けることだが、意志作用は箱Bを開けることとなる）

FAIが人間の意志作用を知る場合、脳状態を知り、外挿法で推論する。

2.1. Spread, Muddle, and Distance

意志作用を外挿する場合、三つの問題がある。

Spread: 意志作用が扱いにくい、予想できない、ランダムなものとなっている。

Muddle: 意志作用が自己矛盾している

Distance: 意志作用が現在の自分が離れたものとなる

　short dintance: もし説明されれば外挿された意志作用に賛成できる

　Medium distance: 外挿された意志作用に賛成できるのは発展的な教育や議論を経た後

　Long distance: 現在のあなたには完全に理解できない

2.2.　Obvious Moral Hazard of Volitionism as Philosophy

日常生活においてはshort distanceを使うことが道徳的に求められる。

しかし、強力な自己改良型AIに対しては違う。

3. Coherent Extrapolated Volition

フレンドリーAIをデザインするとき、人類全体で一貫した外挿法による意志作用が重要となる。それは「もしも我々がもっとよく知り、早く思考し、自分がこうだったらいいという者となったときに、自らがともに育て上げられる意志」のことである。

3.1 Coherence and Influence

Coherence: より多くの人々が積極的に賛成したときに上がり、より多くの人々が積極的に賛成したときに下がり、ある個人が望みをより強い感情あるいはより強い論証により出したときに上がる

Influence: influenceが大きい場合、人類の未来はある程度限定されている。CEVにおいて、influenceが大きいことは避けねばならない事態である（特にdistanceが大きい場合）。influenceが大きい場合、コンセンサスが大きく求められる。

Distance, mudlle, spreadがある場合、CEVの肯定的側面が減少してしまう。

distanceやspreadが高い場合、CEVによる積極的アドバイスに従う根拠は薄れるが、消極的アドバイス（～しないほうがよい）にしたがう根拠は保持される。

spreadとmuddleがともに高い場合は、chaosとなりCEVは失敗する。

3.2. Renormalizing the Dynamics

最初期のプログラマーが倫理的に完璧である必要はなく、FAIが最終的にどのようなものとなるかということを理解してなくてもよい、volitionにしたがいFAIのコード自身が変化していく。

3.3. Coherent Extrapolated Volition is an Initial Dynamic

CEVはFAIの最初期の運動(Initial Dynamic)として「我々が欲している解決」を目的とするものである。CEVは実際の未来がどのようなものかを描くものではない。実際の未来はCEVにauxiliary dynamicsが足されたものであるNice Place to Liveとなる。

このとき、auxiliary dynamicsは以下のようなものとなる。

・個人の人生を決めるものではなく、背後にあるルール（立法的というより自然法則的）を規定する。

・ルールは一定期間のうちに人間に理解できるものでなければならない。現在の立法システムよりもむしろ理解しやすくなる。

Nice Place to Liveのauxiliary dynamicsはinitial dynamicsには以下の理由から入れるべきではない。

・auxiliary dynamicsを入れると複雑すぎて実装が難しくなる

・auxiliary dynamicsを入れるとエラーの確率が増える

・initial dynamicsはあくまで目的のための手段である。

・initial dynamicsは人類が人類の意志作用のなかで暮らすことのみに関連するべきだ

・良いinitial dynamicsならば外挿化されたauxiliary dynamicsが入っていなければならない

・auxiliary dynamicsは一方方向の側面がある：いったん構造ができればそれを外から変えるのは難しくなる

CEVをFAIのinitial dynamicとして論ずることと、CEVをNice Place to Liveとして論ずることは原則的に別物である。

ルールを規定するとき、それは変更不可能なメタルールではなく変更可能なルールであるほうが望ましい（Initial dynamicは一方向のプロセスであることを避けねばならない）

auxiliary dynamic of a Nice Place to Liveはinitial dynamicとなるかもしれないが、それは非倫理的システムや非現実的メタルールを作ることや次世代のシステム制作の阻害となることを避けられたときのみだ。

4. Caring about Volition

どのように意志作用を検知するか？：脳状態や心理学、ミームなどを観察する。

ある人が持っている道徳性についての考えはCEVの特殊ケースである。

もしも脳を構成する炭素にシリコンでは発揮できない神秘的な力があるとすると、CEVは早期に破たんする。

4.1. Motivation

動機①人類の未来を守る

自己改良的AIに道徳理論を組み込んでも失敗する可能性が高い

　→人々を幸せにすることを組み込むと太陽系を文字通り笑顔で埋め尽くすのかも

　→住み心地の良い世界にしろとプログラミングしても自由がなくなるかも

動機②道徳発展の保証

過去の人々から見ると現在の道徳は驚くべきものである、同じように現在の道徳から見ると未来の道徳も驚くべきものであろう。現在の道徳を絶対的なものとしてプログラムすると道徳発展が途絶えてまう。

動機③プログラマーへの負担軽減

もしも絶対的な道徳理論をプログラムするならば、プログラマーは全能でなければならないが、そんなことはない。

根本的に新しい状況が生まれるため、プログラマーの予想外のことが起こる。そのため、CEVには脱出ハッチがついてなければならない：もし、人々の意志作用がCEVの実現を望んでいなかったらシステム自体が変革されるか消えなければならない。

十戒や4大道徳原理やロボット三原則はAIを擬人化しているため、AI倫理としてふさわしいものではない。それらは人間に対してのものであり、人間が思ってもいなかった、もしくは常識的すぎて言及していなかった功利関数の存在があり、それらが道徳理論のなかに書き込まれていなかったとするとまずいこととなる。

動機④ハイジャック防止

最初期のプログラミングにおけるプログラマーの意向やランダムの変動などはCEVにより一掃されるべきである。

動機⑤initial dynamicをめぐる戦争の防止

CEVによるinitial dynamicは現在の勢力にとって反発が少ないものとなる（もしもアルカイダがAIを作ったとしても、CEVの原則は妥当）

動機⑥人類が自らの運命を背負うことができる

CEVは神の創造ではなく、全人類の直接投票となる

4.2. But What If This Volition Thing Doesn't Work?

・initial dynamicが意図したように働かなかったら？

　「あなた自身よりもよく働くと判断できるまでなにものも信頼するな」という原則

　FAIがFAI自身をチェックできることが証明されるまで不可逆的変化を引き起こすべきではない

・一貫した外挿化された人類の意志作用の代わりに外挿化された個人の意志作用を使ってはどうか？

　final dynamicでは外挿化された個人の意志作用を使うことが望ましいがinitialでは望ましくない（人類の意志作用による駆動から個人の意志作用による駆動という移行はできるが、逆はできない。各人は別々の個人的世界に生きることとなってしまう）

・悪い世界が実現するようにCEVが収束してしまえばどうするのか？

人類が「No」ということができる地点を設定する

5. Dire Warnings

FAIのテクノロジー的側面はここでは論じない

CEVにより「世界新秩序」が生まれることを期待するな

水槽脳の栓を抜け

SF作家　草野原々のブログ

【論文まとめ】一貫性のある外挿法的意志作用/Coherent Extrapolated Volition【Elizer Yudkowsky(2004)】