草野原々公式ブログ

SF作家 草野原々のブログ

【論文まとめ】一貫性のある外挿法的意志作用/Coherent Extrapolated Volition【Elizer Yudkowsky(2004)】

フレンドリーAIのアイディアで知られるYudkowskyのエッセイです。

ここで原文は読めます。

 

1、Intoroduction

フレンドリーAI(FAI)とはフレンドリーな超強力実行化プロセスである。

フレンドリーAIに必要なものとは。

①道徳などの不変性が自己改良においてもシステムのうちに保持されること

②AIに組み込めるものであること。

③不変性を人類絶滅を回避するようなものにデザインすること。

「友好性」とは我々が欲していることという風に単純に定義できる。

 

2、Introducing Volition

意志作用(volition)とはなにか:すべてを知ったうえでの要求(例えば、箱Bに実際にはダイヤモンドが入っているが、フレッドは箱Aに入っていると思っており、ダイヤモンドがほしかった場合、ジョンの決定は箱Aを開けることだが、意志作用は箱Bを開けることとなる)

FAIが人間の意志作用を知る場合、脳状態を知り、外挿法で推論する。

 

2.1. Spread, Muddle, and Distance

意志作用を外挿する場合、三つの問題がある。

Spread: 意志作用が扱いにくい、予想できない、ランダムなものとなっている。

Muddle: 意志作用が自己矛盾している

Distance: 意志作用が現在の自分が離れたものとなる

 short dintance: もし説明されれば外挿された意志作用に賛成できる

 Medium distance: 外挿された意志作用に賛成できるのは発展的な教育や議論を経た後

 Long distance: 現在のあなたには完全に理解できない

 

2.2. Obvious Moral Hazard of Volitionism as Philosophy

日常生活においてはshort distanceを使うことが道徳的に求められる。

しかし、強力な自己改良型AIに対しては違う。

 

3. Coherent Extrapolated Volition

フレンドリーAIをデザインするとき、人類全体で一貫した外挿法による意志作用が重要となる。それは「もしも我々がもっとよく知り、早く思考し、自分がこうだったらいいという者となったときに、自らがともに育て上げられる意志」のことである。

3.1 Coherence and Influence

Coherence: より多くの人々が積極的に賛成したときに上がり、より多くの人々が積極的に賛成したときに下がり、ある個人が望みをより強い感情あるいはより強い論証により出したときに上がる

Influence: influenceが大きい場合、人類の未来はある程度限定されている。CEVにおいて、influenceが大きいことは避けねばならない事態である(特にdistanceが大きい場合)。influenceが大きい場合、コンセンサスが大きく求められる。

 

Distance, mudlle, spreadがある場合、CEVの肯定的側面が減少してしまう。

distanceやspreadが高い場合、CEVによる積極的アドバイスに従う根拠は薄れるが、消極的アドバイス(~しないほうがよい)にしたがう根拠は保持される。

 spreadとmuddleがともに高い場合は、chaosとなりCEVは失敗する。

 

3.2. Renormalizing the Dynamics

最初期のプログラマーが倫理的に完璧である必要はなく、FAIが最終的にどのようなものとなるかということを理解してなくてもよい、volitionにしたがいFAIのコード自身が変化していく。

 

3.3. Coherent Extrapolated Volition is an Initial Dynamic

CEVはFAIの最初期の運動(Initial Dynamic)として「我々が欲している解決」を目的とするものである。CEVは実際の未来がどのようなものかを描くものではない。実際の未来はCEVにauxiliary dynamicsが足されたものであるNice Place to Liveとなる。

このとき、auxiliary dynamicsは以下のようなものとなる。

・個人の人生を決めるものではなく、背後にあるルール(立法的というより自然法則的)を規定する。

・ルールは一定期間のうちに人間に理解できるものでなければならない。現在の立法システムよりもむしろ理解しやすくなる。

Nice Place to Liveのauxiliary dynamicsはinitial dynamicsには以下の理由から入れるべきではない。

・auxiliary dynamicsを入れると複雑すぎて実装が難しくなる

・auxiliary dynamicsを入れるとエラーの確率が増える

・initial dynamicsはあくまで目的のための手段である。

・initial dynamicsは人類が人類の意志作用のなかで暮らすことのみに関連するべきだ

・良いinitial dynamicsならば外挿化されたauxiliary dynamicsが入っていなければならない

・auxiliary dynamicsは一方方向の側面がある:いったん構造ができればそれを外から変えるのは難しくなる

 

CEVをFAIのinitial dynamicとして論ずることと、CEVをNice Place to Liveとして論ずることは原則的に別物である。

ルールを規定するとき、それは変更不可能なメタルールではなく変更可能なルールであるほうが望ましい(Initial dynamicは一方向のプロセスであることを避けねばならない)

auxiliary dynamic of a Nice Place to Liveはinitial dynamicとなるかもしれないが、それは非倫理的システムや非現実的メタルールを作ることや次世代のシステム制作の阻害となることを避けられたときのみだ。

 

4. Caring about Volition

どのように意志作用を検知するか?:脳状態や心理学、ミームなどを観察する。

ある人が持っている道徳性についての考えはCEVの特殊ケースである。

もしも脳を構成する炭素にシリコンでは発揮できない神秘的な力があるとすると、CEVは早期に破たんする。

 

4.1. Motivation

動機①人類の未来を守る

自己改良的AIに道徳理論を組み込んでも失敗する可能性が高い

 →人々を幸せにすることを組み込むと太陽系を文字通り笑顔で埋め尽くすのかも

 →住み心地の良い世界にしろとプログラミングしても自由がなくなるかも

動機②道徳発展の保証

過去の人々から見ると現在の道徳は驚くべきものである、同じように現在の道徳から見ると未来の道徳も驚くべきものであろう。現在の道徳を絶対的なものとしてプログラムすると道徳発展が途絶えてまう。

動機③プログラマーへの負担軽減

もしも絶対的な道徳理論をプログラムするならば、プログラマーは全能でなければならないが、そんなことはない。

根本的に新しい状況が生まれるため、プログラマーの予想外のことが起こる。そのため、CEVには脱出ハッチがついてなければならない:もし、人々の意志作用がCEVの実現を望んでいなかったらシステム自体が変革されるか消えなければならない。

十戒や4大道徳原理やロボット三原則はAIを擬人化しているため、AI倫理としてふさわしいものではない。それらは人間に対してのものであり、人間が思ってもいなかった、もしくは常識的すぎて言及していなかった功利関数の存在があり、それらが道徳理論のなかに書き込まれていなかったとするとまずいこととなる。

動機④ハイジャック防止

最初期のプログラミングにおけるプログラマーの意向やランダムの変動などはCEVにより一掃されるべきである。

動機⑤initial dynamicをめぐる戦争の防止

CEVによるinitial dynamicは現在の勢力にとって反発が少ないものとなる(もしもアルカイダがAIを作ったとしても、CEVの原則は妥当)

動機⑥人類が自らの運命を背負うことができる

CEVは神の創造ではなく、全人類の直接投票となる

 

4.2. But What If This Volition Thing Doesn't Work?

・initial dynamicが意図したように働かなかったら?

 「あなた自身よりもよく働くと判断できるまでなにものも信頼するな」という原則

 FAIがFAI自身をチェックできることが証明されるまで不可逆的変化を引き起こすべきではない

・一貫した外挿化された人類の意志作用の代わりに外挿化された個人の意志作用を使ってはどうか?

 final dynamicでは外挿化された個人の意志作用を使うことが望ましいがinitialでは望ましくない(人類の意志作用による駆動から個人の意志作用による駆動という移行はできるが、逆はできない。各人は別々の個人的世界に生きることとなってしまう)

・悪い世界が実現するようにCEVが収束してしまえばどうするのか?

人類が「No」ということができる地点を設定する

 

5. Dire Warnings

FAIのテクノロジー的側面はここでは論じない

CEVにより「世界新秩序」が生まれることを期待するな

 

 

 

 

 

【まとめ】最近読んだAI倫理関連の論文を三文以内でまとめる①

Luke Muehlhauser, Loutie Helm. 2012. "Intelligence Explosion and Machine Ethics"

倫理理論に対して、『超AIがその理論にしたがったら世界がどうなるか』という観点からテストできる。人間の認知の特性を調べたところ、AI倫理としては、理想的な情報下で理論と人々の直感がどうバランスをとるかを考える『整合性のある外挿的意志作用coherent extrapolated volition』というアプローチが有効だと思われる。

 

Susan Leigh Anderson and Michael Anderson. 2006. "The Consequences for Human Beings of Creating Ethical Robots"

AIに対して倫理を埋め込む利点は①倫理理論の発展、②ロボットが倫理的にふるまうことを保証、③理想的な倫理行為者の誕生というものがある。人間の場合は倫理に感情が必要だが、AIの場合は感情なく倫理法則にしたがうことによりより倫理的になりうる。倫理的AIを製作することは倫理的に求められるかもしれない。

 

Stanford Encyclopedia of Philisophy "Computing and Moral Responsibility"

コンピュータが倫理的責任を持つ条件についてはDennetは高階の信念、Sullinsは十分な意図表現の抽象化とするが、道徳的推論は情報処理で理解できないという反論がある。Moorは倫理AIを倫理性を持つデザインが施されたimplicit ethical agents、倫理的行動をとることができるexplicit ethical agents、倫理的主体とみなされるfull ethical agentsに分けた。Floridi and Sandersはresponsibilityとaccountabilityを分け、ロボットや犬は後者としての責任はあるが前者としての責任はないとした。

 

Ryan S. Tokens "Ethical Implementation: A Challenge for Machine Ethics"

AI倫理はカント的義務論アプローチが有効であるが、カント倫理を基盤とした人工道徳行為者は道徳をプログラムされており自由ではないのでカント的ではない。たとえそれ自身がカント的であろうとも、人口道徳行為者の創造は主体を単なる手段としているためカント的ではない。

劇場版ラブライブ!の『謎の女性シンガー』は誰なのか?――SF的考察

本稿は映画『ラブライブ! the school idol movie』に出てくる『謎の女性シンガー』の正体をSF的に考察したものである。当然のことながらネタバレ注意だ。

続きを読む

【メモ】『コングレス未来学会議』アリ・フォルマン監督×山村浩二さん対談

TOHOシネマ日本橋で行われている東京アニメアワード2015

そこで先行上映された「コングレス未来学会議」に行って来ました。

上映終了後、監督のアリ・フォルマンさんとアニメーション作家の山村浩二さんの対談がありましたので、そのときの様子をメモしたものを載せます。

続きを読む

【まとめ】アイマス・ラブライブ以降の二次元アイドルコンテンツまとめ

現在は多数の二次元アイドルコンテンツが作られています。

その双璧をなす存在として、『アイドルマスター』と『ラブライブ!』が挙げられます。

また、女児アニメの『アイカツ!』と『プリパラ』、新作映画化も決まり勢いに乗っている『WakeUp, Girls!』などのコンテンツも追い上げています。

しかし、世の中にはまだ多数の二次元アイドルコンテンツがあるのです。

今回は、それらのコンテンツをまとめてみました。このなかから将来大ヒットするコンテンツは出てくるのでしょうか?

 

続きを読む

【メモ】分析哲学メモ

●言語論的転換:言語の機構の解明により他の機構を説明しようという方針の転換

人工言語派:日常言語では哲学の諸問題は解決できないので論理学に基づいた言語を作ろう

●日常言語派:日常言語を丁寧に分析していけば哲学的問題に答えられる

●意味のイメージ説:言葉の意味の同一性は言葉に結び付けられたイメージの同一性により支えられるという説。他者のイメージと自分のイメージは共有できないため、意味の客観性が説明できない。また、具体的なイメージからは概念的なイメージが抽出できない。更にイメージからは規則が読み取れない。

●意味の指示対象説:言葉の意味の同一性は言葉が指し示す対象により保証されるという説。抽象的概念を説明しようとするとプラトニズムを持ち出さないといけない。偽の文は何を示すのかという問題がある。

●確定記述句:単一の事物を指す表現は固有名・代名詞・確定記述句がある。これは定冠詞によって記述される句であり、日本語にすれば「あの唯一の」を付けた句。

●ラッセルの記述理論:確定記述句には対象が存在しないことがある(ex現在の日本大統領)。そのようような句はある特定の一人について語ったものではなく、いくつかの文に分解できる。
 「現在の日本大統領は女性である」→「現在の日本の大統領であるものが少なくとも一つある」かつ「現在の日本の大統領であるものは多くても一つである」かつ「現在の日本の大統領であるものすべては女性である」
 また、固有名も省略した確定記述句と見なし、同じような作業で消すことができる。

●ペガサスる:固有名『ペガサス』を述語化するためにクワインが導入した述語。ペガサスであることを分解不可能に示す。「ペガサスは存在しない」という文は、「あらゆるものについて、ペガサスるものは存在しない」と翻訳でき、有意味であることが分かる。全ての存在から述語により検索しているような感じ(実際には、検索できるものが存在である)

●文脈原理:命題に含まれる語の意味は命題の真偽にどう貢献するかによって決まるという原理(フレーゲ)。語単独が意味を持っているのではなく、命題の真偽が決まってはじめて語の意味が決まる。

●「世界は事実の総体であり、ものの総体ではない」:『論理哲学論考』の第一文、「事実」とは真なる命題のことであり、「もの」とは命題の要素のこと。世界は命題と同じ形式で存在しており、命題を語に分解するのと同じように事実をものに分解できる。

●要素命題:分解不可能まで分解された原子的命題、これを論理語によってつなぐことで命題が完成する。

論理実証主義:要素命題は直接的経験に対応し、それを論理語により結びつけた命題のみが有意味であるという考え方。

●意味の検証理論:論理実証主義者が主張する意味の理論。命題の意味とはそれがどんな経験により検証されるかによる。

論理実証主義の問題:全称命題は経験により検証できない。理論語を観察語に翻訳するのは難しい。傾向性を扱うことができない。

デュエムクワインテーゼ:(論理実証主義の主張のように)実験・観察で検証されるのは単独の命題ではなく、多数の命題の集まりである。

全体論ホーリズム):多数の命題がネットワークをなしており、ある経験による命題の変更は一つの命題ではなくネットワーク全体の再調整をもたらす。

●分析的真理と総合的真理の区別:論理実証主義者は観察に基づかない分析的真理と観察に基づく総合的真理が区分されるとしたが、全体論でははっきりした区分はない(再調整されやすいかされにくいかの程度差にすぎない)

●意味の使用説:言葉の意味は言葉の使用にほかならない。言葉そのものには意味はない、言葉を駒にしてある種のゲームが行われているが、その実践が意味となっている(実践の根拠や規則はなにかということを遡ることはできない)。一種の即興ごっこ遊びがそのまま意味・規則となる。我々にできるのは言語ゲームの根拠を探すことではなく、ただ言語ゲームを記述することのみである。

●可能世界意味論:様相的概念(偶然性・必然性)まで述語論理学を広めようとする試み。我々の世界とは違うが論理的に破綻のない可能世界を考える。すべての可能世界で成り立てば必然であり、ある可能世界で成り立てば偶然である。クリプキによれば可能世界は実在しないが、ルイスによれば実在する。

●固定指示詞:全ての可能世界で同一のものを指す名前、クリプキは固有名を固定指示詞だとした。一方、記述句は可能世界を貫いて同じものを指すことはできない(「アリストテレス」は全ての可能世界のアリストテレスを指すが、「プラトンの弟子」はそうではない)

●同一性の必然性:クリプキの考えでは、固定指示詞Aと固定指示詞Bが同一であることがわかれば、その同一性は必然的であることがわかる(すべての可能世界で成り立つ)。「水はH2Oである」は必然的真理である。

●指示の因果説:固有名は最初の命名儀式により個物と結びつき、それが因果的に継承される。クリプキのアイディア

本質主義:本質とは、ある事物がそれが存在する全ての可能世界で持っている性質だが、自然科学的活動はその本質を探し出すものである。

●自然種:一般名のうち固定指示詞の機能を持つもの。「金」「水」などの物質名、「牛」「虎」などの生物種名など。

参考文献
山拓央『分析哲学講義』

【メモ】心の哲学メモ

心の哲学

二元論における二つの問題
 ○心物因果の問題:非物理的原因が物理的原因を動かすのは念力のようなもの
 ○過剰決定の問題:心的状態と物理的状態という二つの原因が身体行動を決定していることとなってしまう。しかし、どちらか単独で十分な原因のはず。

●心脳同一説:各タイプの心の状態は特定のタイプの脳状態と同一である
       例:「カレーが食べたいな」とする心の状態群aは、一連の脳状態群αに他ならない。
       反論:痛み感覚はC繊維興奮タイプと同一だとすると、試験管の中でC繊維を興奮させていたら痛みがあることとなってしまう。

●機能主義:各タイプの心の状態は、特定の機能(どのような因果的役割を果たすか)で定義される状態である。
      例:カレーの香りの知覚は、カレー臭による物理的刺激を原因として、カレーを食べたいとする欲求などを引き起こす機能的状態
      いろいろな種類の物質により同じ機能を果たせる(同じような因果的役割があればよい)

クオリアによる物的一元論批判
 ○クオリア逆転
 ○クオリア欠如 →同じタイプの物理的存在が違うタイプの心的状態になることは可能
  反論:想定可能であるが実際に可能でないことがある(一気圧のとき水が80℃で沸騰することは想定可能であるが、実際には不可能)
  再反論:水の場合は、物理的にあますとこなく書き示せば一気圧のとき80℃で沸騰することが不可能だと分かるが、意識はそうではない

●知識論法による物的一元論批判:全ての物理的知識を知ったとしても、新しい経験的知識を学びえる
 反論:同じ一つの事実を異なるやり方で知ることができる(あるものが1メートルであることを知ったとしても、1,1ヤードであることを新しく知ることができる)

志向性:何かを表したり意味したりする働き、「雨が降っている」という文や富士山の絵は雨や富士山を表すので志向性を持つ

●構文論的構造:どこでも共通に使える構成要素(文脈独立性のある要素)が構成規則(文法)により組み合わされる構造。言語はこの特性を持つ。

●志向的特徴と内在的特徴:表象により表されている特徴が志向的特徴、表象自体に備わる特徴が内在的特徴(「青い」という語において青いということが志向的特徴、二文字でできているなどの性質が内在的特徴)。言語は内在的特徴を共有できるが、絵画は共有できない。

●命題的態度:信念・欲求など「~ということ」と表現できる心の状態。構文論的特徴をもち、言語に類する。
       心脳同一説や機能主義が正しければ、脳状態(脳の機能状態)もまた構文論的特徴を持つはずだ

クオリアの志向説:クオリア志向性の一つとして理解しようという説、クオリアは心の内在的特徴ではなく、心によって表象されている志向的特徴である
          心がどのように対象を表象しているのかが理解できれば、クオリアを物的一元論で理解できるとする。

●物的一元論による志向性の説明:
 ○因果的説明:XがYを表象するのは、YがXの原因であり、その間に安定した関係が存在するとき(知覚の原因が目の前の木であり、目の前の木は安定して知覚と関係すれば知覚は木を表象する)    
    反論:「誤表象問題」悪条件のもとでは、木が幽霊に見え(木が原因で幽霊の知覚が生まれ)、その関係が安定的であることがある。そのとき、因果的説明によると幽霊の知覚は木を表象していることとなる。
 ○目的論的説明:心が信念や知覚を表象しているかどうかは、そのとき実際に欲求を満たす行為が生じるかどうかで決まる(目の前に水があるとき、水があるという信念は水を飲むという行為を満たし、表象は真となるが。目の前に毒物があれば、水を飲むという行為を満たせないため、「水がある」という表象は偽となる) 欲求の表象は進化論的に説明できる。
         反論:自殺したいという進化論的に説明できない欲求がある。進化論的系譜がないロボットなどの表象はどうするのか?スワンプマン問題

●合理性:命題的態度が他の命題的態度や行為を理にかなったものにする関係。合理性を元とする説明を合理的説明(または解釈)と呼ぶ。
 
●機能主義と合理性:機能主義によれば、合理性が成り立てば因果性が成り立つ(機能状態とは合理的な因果関係を成立させる役割である)
          →合理的関係は脳などの因果的関係により成り立っている

●消去主義:脳状態には構文論的構造が存在しないため、命題的態度の実在性を否定する立場。その根拠となるのは脳神経のネットワークは複数のものごとを個別にではなく全体に分散して表象していること(コネクショニズム)。命題的態度はフロギストンのように誤った理論存在である。

●解釈主義:命題的態度の合理性は因果性から自立しているため、脳状態に構文論的特徴がなくとも命題的態度は消去されないという立場。立場では命題的態度の本質は合理性である
      反論:不合理な命題的態度の関係もあるのではないか?

●命題的態度の不合理性:自己欺瞞的な信念と自制を欠いた行為→これらは居所的なものであり、背後に大多数の合理的な関係があり、例外的に不合理的な関係がある。

他我問題:他者に心があることをいかに知ることができるかという問題
      二元論を仮定→直接認識できるのは物理的存在のみであるから解決が難しい
      ○類推説:自分の心と行動には相関関係があるから、それを他者にも適用して他者の心を認識できる。問題:たった一つの事例だけを一般化はできない。
      行動主義を仮定→他者の心とは他者の行動傾向なので心を認識できる。

●心の全体論的性格:行動と結びついているのは単独の心的状態ではなく、複数の心的状態が全体として結びつく(タクシーに手を挙げるのは、タクシーを止めたいという欲求の他に、タクシーが移動手段であるという信念や、タクシーに手を挙げれば止まるという信念やほかたくさんの心的状態と結びつく)。全体論的な行動主義が解釈主義である。

●自己知の問題:他者の心の状態に関しては、証拠がなければ判断できないにもかかわらず、自分の心の状態は証拠に訴えるまでもなく正しくわかるのはなぜか?

●自己知の不可謬性:Sは自分の心の状態がMであると信じていれば、心の状態はMである
●自己知の自己告知性:Sは自分の心の状態がMであれば、自分の心の状態がMであると信じている
  →反例:自己欺瞞

●自己知の直接性:自分の心の状態がMにあるという信念は、他人が自分を見てMにあるとする信念と異なり、直接的に形成される。

●内観:自分の心の状態を非推論的に知覚する能力。他者の行動を知覚することも非推論的過程であるが、他者の信念は知覚を元に推論しなければならない。内観は不可謬だとされる。二元論的な説明のため現在ではあまり支持者はいない。

参考文献
金杉武司『心の哲学入門』