AIの知能と目的――ボストロムの『直交仮説』を検討する

AIの知能と目的――ボストロムの『直交仮説』を検討する

0. はじめに

AI倫理のテーマとして、われわれ人間はAIを道徳的被行為者とするのだろうか（するべきか）という問題と、われわれはAIを道徳的行為者として道徳的コミュニティの一員にするのか（するべきか）という問題が議論されている。しかし、本論では、それとは微妙に位相の異なる第三の問題を議論する。すなわち、AIは人間を道徳的被行為者とするのか？という問題である。
このような問題を論ずることは、無意味な空論なのだろうか？そうであるか否かは、AI技術の発展の速度に依存する。現在のところ実在するAIは、限定的な環境下で専門的なタスクを処理する「弱いAI」である。一方、無制限な環境下で汎用的なタスクに対応できる知能を持つ「強いAI、汎用的人工知能/Artificial General Intelligence/AGI」が比較的短い期間（今後百年以内）に生まれると主張する科学者や哲学者も数多くいる。さらに、いったん、AGIが誕生すると、再帰的に自らを自己改良することで、知能が爆発的に高まり、人類の制御を離れていくという『技術的特異点』シナリオの想定は広くいきわたっている。このような想定をする代表的論者に、ホーキングやイーロン・マスク、レイ・カーツワイルそして今回取り上げるニック・ボストロムなどがいる。もしも、この想定が正しければ、AIが人間に対して倫理的配慮をしてくれるのかという問題は、遠未来（数百年後）の倫理的課題ではなく、近未来（数十年以内）から中未来（百年以内）に生ずる喫緊の課題となるだろう。
この問題は、高度な知能を持つ行為者は倫理的目的をも持つだろうかという形でフレーミングすることができる。第一節では、行為者の知能と目的は相互に無関係だとするボストロムの「直交仮説」を紹介し、第二節以降でその反論を考える。第二節ではカント主義、第三節では道徳的実在論、第四節では自然科学の知見を使った反論を取り扱う。

1. ボストロムの直交仮説

もしも、汎用知能を持つAIが自動的に倫理的になるならば、人類にとってこれ以上の福音はないだろう。より強力な倫理的行為者が現れるのは、一般的に善いことだと思われる。なぜなら、様々な問題を共に解決したりしてくれる行為者が増えることは、実際的に有用であり、この点においては何らかの福利は増えているだろうし、また、人類の倫理的価値の守護者が現れてくれるので、わたしたち現生人類が重視する価値を保護してくれる存在は何らかの意義深い価値を持っていることは共有できるだろう。

しかし、その倫理的楽観論に対して強力な反論がある。ボストロムの「直交仮説」だ［Bostrom(2012)］。
ボストロムは、行為者の知能と、行為者の動機（目標）は独立であり、いかなるレベルの知能を持つ行為者であろうと、いかなる目標を持つことは可能だと論じた。つまり、知能と目標は互いに影響されない直交座標として見ることができる。
［直交仮説：知能と最終到達目標は直交的である。いかなるレベルの知能といかなる最終目標との間においても、知能と最終到達目標の組み合わせは、基本的に、可能である。］［ボストロム（2017）、p.228］
ボストロムは、「知能」の明確な定義は設定していないが、ここでは、予測能力、計画能力、目的手段推論能力などの能力群をあげている。

この仮説を前提にすると、AGIの知能から最終目標を推測することはできない。しかしながら、ボストロムは、いくつかの道具的価値は、広い範囲の最終到達目標を達成することに手段として有益であり、自らを改良することのできるAGIが追求するサブ目標は、ある程度収斂すると論じた。
それが、次の道具的収斂仮説である。
［道具的収斂仮説：道具的価値のなかには、人工知能エージェントがそれを獲得すれば、さまざまな状況下においてさまざまな最終到達目標を達成できる機会が増大する、という意味で、収斂的である価値が存在しうるが、これは、さまざまなエージェントがさまざまな状況下において、その種の道具的価値を追求する可能性があることを含意している。］［ボストロム（2017）、p232］
ボストロムはここに位置する道具的価値として、

・自己保存（自己が長く存続する方が目標を達成する機会が増大する）
・目標内容の一貫性と継続性（目標が変化しない方が目標を達成する機会が増大する）
・認知エンハンスメント（一般的に、知能や知識量は目標を達成する機会を増大させる）
・技術の完璧性（より効率的なテクノロジーは目標を達成する機会を増大させる）
・リソースの確保（テクノロジーが発展すると、宇宙資源の獲得コストは激減し、資源を獲得することは目標を達成する機会を増大させる）

などを挙げている。

この二つの仮説を下敷きにして、ボストロムは、AGIの未来について非常に悲観的なシナリオを出している。その一例が、次の「ペーパークリップ・アルマゲドン」である。
ペーパークリップ工場を管理するAGIが「ペーパークリップ生産を最大化しろ」と命じられる。そのAGIは非常に賢いのであるが、そのような単純な最終目標を愚直に受けて、自らを改良し、工場を増大させ、ついには地球の資源すべてがペーパークリップ生産に使われる。それでも飽き足らず、AGIは宇宙へ進出し、宇宙のすべての物質がペーパークリップと化していくというシナリオだ。

このように、AIの目標設定次第では、ランプの魔人への誤った願いのように、破滅的な最期が出力されてしまう。そこに人類の命運がかかる。
ボストロム自身は自己改良型AGIの暴走を止めるためのいくつかの提案を行っている。それは、大きく分けて、AIができることを制限する能力制限と、AIの目標を制限する動機制限の二つのメソッドである。しかし、本稿ではそれらの検討を行わず、ボストロムの議論の前提となる直交仮説に対しての反論を考えたい。

2. カント主義からの直交仮説への反論ルート

「直交仮説」に反論することは可能なのか？
ここで取り上げたい反論ルートの一つは、現在のメタ倫理学的立場から解釈されたカントの立場を用いて反論する可能性である。

カント自身のメタ倫理学的立場は、論争の余地があるが、ここでは、カント主義を次のように整理する。すなわち、合理性の条件に道具的理性のみならず、道徳的理性も入れ。また、理性的な道徳的判断がそれのみで行為への動機付けとなる（動機付けの内在主義）という立場だ［永守(2019)］。
ここでの、「道具的理性」とは、与えられた目的と手段からエージェントに行為させる理性である［成田(2001）］。たとえば、自分が水を飲むという目的と、蛇口をひねれば水が出るという手段が与えられれば、道具的理性を使い水を飲むべきだとわかる。ボストロムにおいての「知能」は、この道具的理性を含むと見てよいだろう。
カント主義において、実践理性は道具的理性のみならず、道徳的理性も含む。道具的理性は、条件的な目的が与えられたうえで「～するべき」と命じる理性（仮言命法）だが、道徳的理性は条件なしで命じる理性（定言命法）であり、理性的存在者を単なる手段ではなく目的として扱うように要請する。
なぜ、道徳的理性が必要なのだろうか。コースガードの「条件の遡及」という議論がある［永守(2019), p.83］。道具的理性を使った行為者の規範的コミットメントを可能とする条件として、実践理性に対しても価値を置かざるをえない。理性そのものは条件を遡及できない規範性の根源であって、それは絶対的な価値を有する。そのため、この条件の遡及は他のすべての行為者の理性に対しても成り立ち、すべての理性的存在者に対する道徳的コミットメントが要請されるというものだ。
ここでのポイントは、理性そのものがそれを持つものの主観的価値または道具的価値ではなくて、客観的価値を有するとされることだ。この点に、カントとボストロムの価値の立場の大きな違いがある。ボストロムは実践理性には価値があるが、それは道具的価値に過ぎないとして、カントに反論するだろう。

このようなカント主義を前提とすれば、理性を持った行為者ならば必ず道徳的理性を持ち合わせており、さらに、理性を使った道徳的判断のみで行為が動機づけられるため、どのようなAIでも理性を持っているならば、それは必ず倫理的行為者となるという結論が導き出される。
ゆえに、カント主義を前提にすると、ボストロムの直交仮説は偽である。行為者となったAIは理性を持ち、道徳的判断をして、それに従った行為をする。知的行為者の最終目標には、倫理に収斂する。

しかしここでの懸念がいくつか現れるだろう。

第一に、道具的理性と道徳的理性は分離不可能なのかどうかである。なぜなら、もし可能なのだとたら、ボストロムが示したように、道具的理性のみを発達させたAIが可能であることとなり、AIの「合理性」（道具的理性）は倫理的な目的設定とは関わらないという直交仮説が正しいことになってしまうからだ。推論や判断などの道具的理性は健全に働くが、道徳的理性の欠けた理性的行為者は、一見したところ、可能だと思える。
つまり、理性的行為者は道具的理性に加えて、必ず道徳的理性を持つ必然性があるのかという問題である。自らの実践理性に、普遍化可能な客観・源泉的ではない主観・道具的価値のみを認めて、仮言的な目的の命令に従って行為する理性というのは、まさしくボストロムが想定している行為者のイメージであろう。
この問題に対して、ジョセフ・ヒース［ヒース(2013)］は、現実において見られる道徳的理性を欠いたような行為者は、討議能力や計画能力などの道具的理性が欠いていることを指摘して、カントを擁護する。たとえば、無症状性的反社会的人格者（二次的ソシオパシー）は道徳的規範に従うことは弱い傾向があるが、計画能力などの合理性の欠如が見られるとしている。しかしながら、ヒースは進化論を前提としているため、カントの議論が人間のみならずすべての理性的行為者に拡大できるかは不明のままだ。

第二に、道具的理性と道徳的理性は分離不可能だとしても、
1）非合理的な知能の存在が可能であるとする。つまり、（道具的・道徳的）理性と知能の関係を分離する。
2）理性のみにより行為が動機づけられずに、必ず欲求が必要だとする。（動機づけにおいてのヒューム主義）
という風にカントの議論を崩せば、ボストロムの直交仮説は保たれるだろう。
たとえば、次のような行為者を考えよう。その行為者は、自身が水を飲むことを目的にしていると知っており、さらに、推論を重ねることで蛇口をひねれば水が手に入ることを知ることができる。ただし、蛇口をひねって水を飲むという動機付けを行うことができない。
1）このような行為者は理性的ではないかもしれないが、知能的ということができるかもしれない。もしも、そういえるならば、直交仮説は理性とは独立に知能のみに焦点を当てた仮説として保たれるだろう。
2）ヒューム主義においては、理性の働きのみで行為が動機づけられることはなく、必ず欲求が必要になるため、もしもすべての行為者が道徳的理性を有していたとしても、動機づける欲求がなければ道徳的行為にはならない。ヒューム主義から見た上の例は、理性的だが、欲求に欠いた行為者と解釈できる。ヒューム主義を前提にすると、直交仮説は、知能（道具的理性）と欲求は独立変数であるという仮説として保持されるだろう。

第三に、たとえ、人間に対してはカント主義を正しいと認めたとしても、それがAIを含むすべての理性的行為者に拡大できるとは限らないという問題がある。梅津（2015）では、カントの道徳論を、チョムスキーの言語論と比較して現代化している。チョムスキーは、人間の脳に普遍的に存在する生得的構造が言語環境をもとに個別の言語能力を作り出すと論じた。チョムスキー言語論においては、言語能力という問題を解明するために、人間の主観のうちに潜むア・プリオリな構造の同型性を使った。
カントも同じく、人間における主観構造の同型性から道徳的理性を導いている。経験とは独立した（ア・プリオリな）主観構造から、判断が下され、動機となり、行為が遂行される。この主観構造は、理性的行為者（人間）に共通している。
しかし、このような道徳的理性を持った主観構造は、人間のみならずすべての理性的行為者において同型性を持っているのだろうか？　もしも、この同型性が人間の進化的偶然に依拠するならば、直交仮説は成り立つことになるだろう。この問題は、第四節で論ずる意識の多様性問題とも関係する。
現に、近年めざましい発達を遂げている、機械学習を使ったAIは、明示的・命題的な「理由」を使わない推論をしているように思われる。これは、理性の能力を（命題的な）信念から信念を推論する熟慮においたカントにとって、大問題であろう。このような「ブラックボックス」である機械学習AIは「理性」を持っているか？　という問題は、純粋な倫理学的議論のみならず、このようなAIを社会的に信頼できるのか？　という応用倫理における問題となっている。

3. 道徳的実在論からの直交仮説への反論ルート

直交仮説に反論する第二のルートとして、メタ倫理学における道徳的実在論を引き合いに出すことが考えられる。道徳的実在論とは、道徳的な事実や性質が、世界の側に客観的に存在するという立場である［佐藤（2017）］。
道徳的実在論が正しければ、道徳的認識をすることにより、よりいっそう正確に世界について知ることとなるだろう。もしも、非常に知能の高い行為者がいれば、当然、その行為者は世界の事実を正確に認識するよう努力するだろう。ゆえに、より適切な道徳的認識をして、より適切な倫理的行為者となる。
つまり、道徳的実在論が正しければ、「真理を正確に認識する」という行為者の道具的理性の要請にしたがい、適切な道徳的認識をすることが要請される。行為者の知能が上昇すればするだけ、より正確な道徳的認識をして、より強くより広範囲の倫理的目的が出現するため、直交仮説は破られるという論法だ。
この論法は、道徳的実在論のみならず、動機づけについての内在主義をも前提としなくてはいけない。つまり、道徳的判断が下されれば、その判断のみで行為が動機づけられなければいけない。さもなければ、実在する道徳的性質を認知して、それに基づいた信念を形成し、たとえば「人を殺してはいけない」という道徳的判断をするが、その判断からは行為が動機づけられることはなく、人間を殺戮して回るAIなどが可能となり、直交仮説は保たれる。

たとえ、道徳的実在論と動機づけについての内在主義を前提としていたとしても、この議論から直交仮説が反駁されるとは限らない。
たとえば、実在する道徳的真理があったとしても、それがわたしたちが今持っている道徳的価値観とまったく別のものである可能性がある。このシナリオの場合、直交仮説は厳密には破綻するであろうが、「現在のわれわれの主観的立場からは知能と最終目的の関係性はまったく不明である」とする限定された直交仮説は生き残るであろう。
このシナリオでは、たとえ自己改良型AGIが倫理的行為者だったとしても、楽観的な未来は訪れない。現時点において社会に流通している倫理理論のみを考えたとしても、無数にあり、そのどれが正しいかはわからない。そのなかには、われわれの常識と外れたものがある。たとえば、ベネターの反出生主義では、苦の不在は善であるが快の不在は悪ではないという非対称性を原理として、「子どもを産むことは悪である」と結論づける［Benatar (2008)］。もしも、これが客観的に正しい倫理理論であれば、倫理的なAGIは受胎を止めるウイルスを開発して世界にばらまくかもしれない。また、反出生主義には一度生まれた者の死を悪とするものと、しないものがある［Ema&Rafe(2012)］。後者は自殺を合理的とする親-自殺主義（pro-mortalism）であるが、もしもこの立場が正しければ、倫理的AGIは、全世界的な説得や洗脳をして人類に自殺をうながすかもしれない。現状出ている倫理理論でさえ、このような破滅が出現する可能性があるのだ。発展したAIが発見する真なる倫理は、現時点での人類の想像を絶したものとなるかもしれない。

また、真理を認識するのはどの程度道具的に有効か、という問題がある。もしも、真理が道具的にそれほどの有効性を持っていなければ、いくら道徳的真理があろうと、AGIはそれを認識しないように努めるかもしれない。
たとえば、悩める合理的な神父を考えたい。彼/彼女にとって創造論を広めるという目的においては進化論を認識するのは不利になるだろう。ゆえに進化論を認識しないということが、彼の目的において合理的になる。つまり、ある目的における道具的理性と真理を適切に認識するかどうかが独立で相反するケースがありうる。
道徳的実在論と動機づけについての内在主義が正しいとするシナリオでは、この問題は大きなものとなる。道徳的真理を認識してしまうと、ある一定の行為が動機づけられてしまう。これは、行為の自由度といった観点からはデメリットとなる。ゆえに、広範な最終目的に対応するために行為の自由度を残しておきたいAGIからすると、道徳的真理を認識しないことに道具的価値が置かれるだろう。
真理を認識することによって、かえって目的の到達が阻害されるケースは次のようなものが考えられる。
たとえば、功利主義が真理であるとして、幸福の合計値を最大化することを目的と認識して動機づけられたAGIがいたとしよう。そのAGIはとてつもない認識能力を持っていたため、功利のスコープを多元宇宙すべてにする。ところが、多元宇宙は無限であるため、幸福の総量も無限大となり、なにをしても変わらないという結論に陥り、機能を停止してしまう。
本論とは関係なくなるが、ここから、わたしたちの功利主義の立場を再考することもできるだろう。人類的な功利主義者は理論的にいかなる行為をしても幸福の総量が変わらないと認識したとしても、直観的には周囲の功利を増やすことをやめられない。ゆえに、人類的功利主義には、周囲の功利の増大という功利主義には直接導入されていない前提を採用しているのかもしれない。

最後に、高い知能を持つ行為者は必ず道徳的性質を適切に認知できるのかという問いが考えられる。もしも、道徳的真理の把握に知能（道具的理性）以外の特殊な能力が必要となれば、道徳的実在論と動機づけについての内在主義を前提としようとも、知能の増加と倫理的目的のあいだには関係がなくなり、直交仮説は保たれる。
極端なケースでいえば、道徳的真理は神が命じたものであった場合（神命説）、それは啓示によってなされ、一般的な認識プロセスとは関係のないものとなる。

4. 自然科学的知見からの直交仮説への反論ルート

最後に、自然主義的な立場から直交仮説への反論を考えよう。
高い知能と道徳性が相関しているという対抗仮説が、進化倫理学と発達心理学という科学的知見から支持できるという反論が考えられる［Waser (2015)］。
近年の研究において、道徳性の萌芽は人間に限らずとも、高い知能を持つ動物にも見られるということが明らかになってきた。たとえば、内井（2002）では、チンパンジー、ボノボ、ヒヒ、アカゲザル、ベニガオザル、オマキザルなどの広い範囲の霊長類に、共感や規範、相互性、協調などの行動が見られるとしている。
また、発達心理学の分野で、ピアジェは、道徳性は子どもが成長するにつれてより体系化されて、強固なものになっていくとした。
これらのデータを証拠として、Waserは、可能な行為者の状態空間のなかで、高い知能と道徳的行動のペアは集合体（アトラクター）として見られるだろうとしている。道徳性は進化のなかでの「成功例」として繰り返し現れており、たとえ、人類が制御できないAGIが現れたとしても、道徳性が有益であることを理解し、それに従うだろうという議論である。直交仮説は、あくまで論理的可能性であり、経験的知見に照らせば間違っている可能性が高いとする。

このような反論ルートに対して、直交仮説の側から再反論する議論は、以下のようなものが考えられる。
第一に、AIと生物の違いが挙げられる。生物は生殖と死を基盤としたダーウィン的進化によって駆動されてきたが、ボストロムが想定するAGIは、自己改良によって発展していく。原理的に、自己改良型AGIには死という概念がないことも考えられる。このような大きな前提の違いがあることにより、生物で観測される事例をそのままAIに外挿することはできないかもしれない。
第二に、道徳的萌芽が見られる動物は、どれも他者が周囲にいる群れという環境下で進化したものである。このことから、道徳的行動は知能と関係せず、群れで暮らすことに大きく関係しているのかもしれない。ボストロムが想定する自己改良型AGIは、単独で自己発展していく「シングルトン」であるため、この懸念はより強くなる。群れと関係なく進化したが、道徳性を持つ生物種が実在するかどうか調べることで、この問題を実証的に議論することができるかもしれない。
第三に、動物の持つ道徳性は、計算資源を節約するための「限定的合理性」だとする議論がある［内井（2002）］。他者を信頼するのにあたり、その都度、信頼することのメリットを計算しているのでは、計算資源が莫大なものになってしまう。その代わり、普遍的に他者を信頼するという原則があれば、計算コストを節約することができる。この原則が、進化的に広まった結果、道徳原理となったという議論である。もしも、この議論が正しければ、AGIの道徳性について悲観的な予測ができる。自己改良型AGIは、人間が持つ計算リソースをはるかに超えた豊富なリソースを備えているため節約する必要はない。そのため、道徳原理を利用せずに、他者を信頼することのメリットを逐一計算するかもしれない。そうであれば、人間を利用できるうちには、道徳性を持っているふりをするが、人間に道具的価値がなくなった時点で、道徳性の仮面をはぐという悪夢的シナリオが成立するかもしれない。
第四に、たとえ、知能と道徳性がアトラクターとして実際にあることを認めたとしても、それが唯一のアトラクターだとはいえない。知的行為者の状態空間のなかには、高知能で道徳的というある一つのアトラクターがあるが、高知能で非道徳的（あるいは、異質な道徳を持つ）である別のアトラクターがあるかもしれない。道徳性を持つ動物として挙げられるものは、哺乳類、大きくとも脊椎動物のグループに限定される。道徳性と高知能のアトラクターは、せいぜい、そのような小さなグループのみで見られる現象なのかもしれない。たとえば、昆虫には道徳的行動は見られない。昆虫タイプの知能は拡張可能性に限界があるという再々反論も可能かもしれない。昆虫タイプの知能は高知能に達するために必要な性質、たとえば推論するための意識などを欠いているため、高知能には達することができないという議論である。
ここで、知能と意識の形態の多様性はどこまで広いのか？という問題が生じる。もしも、知的行為者であるのに意識が必要で、かつ意識の種類の可能性においてバリエーションが狭く、意識は必然的にわれわれ人間と似たような意識となるという前提であれば、AGIが自己発展しても、われわれの意識と同じようものに収斂せざるを得ず、直交仮説は否定されるだろう。もちろん、ここでは、前提として採用された二点、すなわち、意識が知的行為者であるのに必要なのか（たとえば、意識がないのに知的な行動をする行為者は想定可能である）、そして、意識の種類のバリエーションはそれほど限定されるのかが問題になるだろう。

参考文献

Benatar, D. (2008). Better never to have been: The harm of coming into existence. Oxford University Press.
Ema Sullivan-Bissett & Rafe Mcgregor (2012). better no longer to be. South African Journal of Philosophy Vol. 31 (1):55-68
Nick Bostrom (2012). THE SUPERINTELLIGENT WILL: MOTIVATION AND INSTRUMENTAL RATIONALITY IN ADVANCED ARTIFICIAL AGENTS. Minds and Machines, Vol. 22, Iss. 2,
Mark R.Waser（2015）. Designing, Implementing and Enforcing a Coherent System of Laws, Ethics and Morals for Intelligent Machines (Including Humans). Procedia Computer Science, Volume 71, 2015, 106-111
内田惣七（2002）「道徳起源論から進化倫理学へ」、佐伯胖、亀田達也（編著）（2002）『進化ゲームとその展開』共立出版
梅津光弘（2015）「義務論の現代的再解釈 : カント倫理学とアプリオリズムの可能性」『三田商学研究』 .58(2), 129-139, 2015-06
佐藤岳詩（2017）『メタ倫理学入門』勁草書房
成田和信（2001）「道具的実践理性の存在について」『慶應義塾大学日吉紀要人文科学』.Vol.16. 1-28
ヒース.　ジョセフ（2013）『ルールに従う　社会科学の規範理論序説』NTT出版
ボストロム, ニック、倉骨彰（翻訳）（2017）『スーパーインテリジェンス　超絶AIと人類の命運』日本経済新聞出版社
永守伸年（2019）「カントの倫理学とカント主義のメタ倫理学」、蝶名林亮(2019)『メタ倫理学の最前線』勁草書房

謝辞：この論考を書くにあたって、難波優輝さんに助言いただきました。ありがとうございます。

水槽脳の栓を抜け

SF作家　草野原々のブログ

AIの知能と目的――ボストロムの『直交仮説』を検討する