《智能的理论》全书转至目录

不同AGI的研究路线对比简化版:《AGI(具身智能)路线对比》,欢迎各位参与讨论、批评或建议。

一项研究项目应当有明确具体的定义。尽管这听起来很显而易见,但人工智能(AI)似乎是个例外。在这一领域,人们不仅对解决某一问题的最佳方案存在分歧,而且对问题本身是什么也意见不一。在该领域成立50周年之际,美国人工智能协会(AAAI)主席的演讲仍在提出这样的问题:“人工智能到底是什么?智能又是什么?”(Wang,2008)

自1950年,图灵提出,可以通过观察行为来定义“思维”和“智能”,此后几十年各方人士轮番参与其中的讨论,但到目前为止,大家还是没有达成共识。一个德国研究中心甚至还收集了上百个“智能”的定义(王培,2019a)。因为谁也说服不了谁,所以很多人都觉得这种讨论是在浪费时间。朱纯松他的文章《正本清源》还提出“人工智能就是通过智能的机器,延伸和增强人类在改造自然、治理社会的各项任务中的能力和效率,最终实现一个人与机器和谐共生共存的社会”。简言之,就是对社会有用的就属于人工智能(间接放弃对定义的讨论)。

一.定义人工智能的不同方式

关于人工智能定义的分歧主要可以归纳到下面两维度,一个是基于工作定义,另一个是基于通用性。

1.基于工作定义(Wang,2008)

“工作定义”是指以研究项目作为目标、方法及手段的定义。这个工作定义作为研究工作的纲领,用于指导研究工作。对于“人工智能”这个概念,“人工”的问题不大,公认就是指计算机及机器人这类人造器械,而“智能”就不这么好说了。智能自然是对人类精神能力的某种概括,但概括的程度或角度可能很不一样。因为,人类与机器在构造上的不同,其中一个是碳基,一个是硅基,人工智能与人类智能在某些方面是不同的,否则就是“人造人”了。(王培,2019a)

因此,依据人工智能与人类在哪些方面的相似性或差异,可以划分出不同的人工智能流派或定义。一个智能体内部可以分为3方面 <P,S, A>,其中以感知序列为P=<p0,..., pN>,动作序列A=<a0,...,aN>,内部状态序列为S=<s0,...,sN>。而人工智能(C)与人类智能(H)的异同可以通过这三方面进行评估。基于此,王培列举了人工智能的五大类工作定义:结构取向、行为取向、能力取向、功能取向、原则取向。

(1)结构取向

既然人类智能是人脑的产物,那么似乎“尽可能忠实地模拟人脑结构”就是实现人工智能的最可靠途径了。各种脑模型试图通过构建类似大脑的结构来实现人工智能,这种结构由大量类似神经元的处理单元组合而成。这方面的例子包括模拟大脑新皮层的HTM模型等。按照这种观点,“人工智能和神经科学的最终目标非常相似”。由于两者内部结构相似,所以它们具有相似的感知流和行动流,以及相似的状态转换序列:<PC,SC,AC>≈<PH,SH,AH>。人工智能领域内外有许多人认为,一旦我们对人脑的了解以及可用的计算机技术允许,精确的“大脑建模”将为人工智能提供终极解决方案。

(2)行为取向

行为取向认为,AI应该在外部表现上,尤其在言语行为上,做到与人一致。为了避免在“思维”等复杂问题上的争论不清,图灵建议用一个简单的方法来判断机器是否“能思维”,就是看它的言行是否和人一样,如果能让人分辨不出来,那它就算能思维了,因为思维最后总会表现在行为上。这个最著名的例子就是“图灵测试”。在这类智能体框架中,这意味着C与H应当具有相似的感知流和行动流,其内部结构和状态(S)无关紧要:<PC,AC>≈<PH,AH>。当下的大语言模型代表的正是这一类。

(3)能力取向

对于那些对人工智能的兴趣主要源于其潜在实际应用的人来说,一个系统的智能应以其解决难题的能力来体现。如果一台计算机能够解决此前只有人类才能解决而计算机无法解决的问题,那么这台计算机通常就被认为是智能的。比如,围棋系统“Alpha GO”、自动驾驶、人脸识别、文字识别、(文本)意图识别、机器翻译等任务。在这类系统中,当某些任务与人类相似就能称之为人工智能:<pC,aC>≈<pH,aH>,其中<p,a>表示某项任务或应用。

(4)功能取向

按照功能取向的说法,“智能”就是各种不同“认知功能”的总称,其括表征、搜索、推理、学习、规划、决策、感知、运动、通讯等等。每种认知功能都可以单独研究,用来解决特定类型的问题,并最终形成一个独立的AI技术。Marr的视觉计算模型(9-19:图像识别)就属于这类系统的代表。该系统根据人类视觉的一些特征,提出了机器视觉的3层表象系统,构建出底层视觉信息,并用于后续处理。基于方法的系统将每种认知功能表示为某种函数(f),该函数将输入(感知)映射到输出(行动),这与计算机程序的指定方式相同:即存在时刻i和j使得aCi≈fC(pCi),aHi≈fH(pHi),fC≈fH。从定义可以看出,认知状态由其与感觉输入和动作输入的因果关系确定,与功能主义一致(8-1:心理哲学)。

注:在王培的论文中,这里的功能取向被称为方法派,两者是一个意思,为了与功能主义保持一致,此处改称功能取向。

(5)原则取向

科学始终致力于为复杂多样的现象提供简洁而统一的解释,例如物理学中的大一统理论。基于此,部分人工智能研究人员也在努力探索在普遍层面上既能阐释又能于计算机中复现人类智能的上层原则。例如,王培的NARS系统将智能定义为“在知识和资源相对不足的条件下的适应能力”,而Friston的主动推理将智能定义为“生命有机体认知与行为的方方面面都要遵循一个原则——令主体当前的感知观察与其偏好的感知观察间的差异最小化,而为主体所偏好的感知观察通常关乎身体的完整与生命的维系”(18-9:预测心智)。因为它要求人工智能系统遵循与人类思维类似的上层原则。因此,在这类智能体框架中,这意味着C与H有着相似的原则,而非相似的感知到行动映射:FC≈FH。

2.基于通用性

人工智能也可分为通用人工智能(AGI)和专用人工智能(SAI)。前者(AGI)将“智能”视为一种一般能力,而后者(SAI)则将其视作多种具体能力的松散集合(王培和刘凯,2018)。简单来说,专用智能就是为了解决某一(某几个)特定问题的人工智能的总称,比如自动驾驶、下棋、人脸识别,机器翻译等。“通用” 除了作为“专用”的反面之外,在目前的讨论和研究中,对其的理解主要有下面几种(王培,2023):

(a)能解决所有问题,

(b)能解决所有人能解决的问题,

(c)能解决所有能被某个模型(例如图灵机的可计算问题,8-1:第一代认知:认知计算主义)所描述的问题,

(d)能接受所有在系统感知范围内的问题并尝试解决它们(虽然不保证一定成功)(如Marr的视觉系统(构建一个较为完善的表征,以用于后续的各种任务),ChatGPT(能回答各种问题)等)。

在科学技术领域,提到“通用”,一定是相对的、有条件或在范围内的,“通用”是个程度问题,“通用”和“专用”也是相对而言的。因此除去作为“反面典型”的(a)之外,上述(b)-(d)都可以算作是对“通用系统”的合理解读(至于能否实现则是另一个问题了)。

3.两种维度的结合

这三种“通用”+一种“专用”和前面基于工作定义的五种“人工智能”分别结合一起就能得到不同的组合。

(1)专用智能

对于专用智能,行为取向和能力取向其实别无区别,都是指完成某一任务,而与如何完成的方法无关,结构取向利用某些大脑机制(如计算神经科学)完成特定任务、功能取向利用某种特定认知机制特定任务(如利用转换生成句法完成文本的句法分析)。

(2)通用智能

对于通用智能,“一个完美的类脑模型+机器人本体”(结构取向)能解决所有人能解决的问题<PC,SC,AC>≈<PH,SH,AH>,但目前为止还没这样的系统,而且基于目前神经科学的研究程度,这条路还有很远;基于行为取向的方法,目前大语言模型是唯一且仅最低程度符合通用智能的系统((d)能接受所有在系统感知范围内的问题并尝试解决它们)。这种方法(数据科学)想要通往人类级别的通用性,按照目前的说法还需结合多模态和机器人的具身智能等;基于能力取向的方法,就是集成各种各样的专用能力,比如人类会扫地、做饭、搬砖、写毛笔字、下棋、跳舞,那么把这些能力一项项的赋予机器,当机器拥有的能力与人类拥有的能力相当时,此时机器就是通用智能了;基于功能取向,实现通用智能意味着一个机器系统应具备多种协同工作的认知功能(感知、记忆、推理、学习等)。并且,要实现这么一个机器系统,首先需要从理论层面理解上各认知功能,解决各认知功能如何协同工作,然后作为一个整体被一个算法实现;原则取向则探索在普遍层面上既能阐释又能于计算机中复现人类智能的上层原则。

二.定义复杂性的根源

之所以造成这种局面,我认为主要由于两种原因,其一是语义本身所导致的;其二是,准确的说,研究人员所争论的往往是工作定义而非定义本身。

1.语义方面

(1)问题

自小学起,我们就明白一个词的“定义”决定了其含义,从而为其应用设定了标准。这些定义均收录于字典和词典之中。根据这种词典观,词项的意义包含数量有限的语义特征或描述性说明。比如说,bull的基本意义通常由[雄性的]、[成年的]、[牛科动物]这些语义特征来标记,而排除我们关于这种生物的其他可能的知识(如它们在斗牛与骑术表演中所扮演的角色)。显然,这种定义存在诸多缺陷,比如,比如有时我们也称一些玩具或动画为bull(如指着那个玩具牛说“bull”),这显然并不符合[牛科动物]这个特征...(19-10:认知域)。此外,如果我们定义180为高个子,那么在职业球场上,180显然不符合这个情景下的高个子(19-4:模糊语义)。大哲学家维特根斯坦提出过一个关于游戏的例子,他问到棋盘游戏、纸牌游戏、球赛和体育比赛等等,这些都叫游戏的都有什么共同的特征吗?他举例道,我们能在棋牌中发现很多共同的特征;但到了纸牌游戏,我们可以发现棋牌的一些属性会与纸牌相同,但是另外一些又会丢失;而纸牌游戏与球赛游戏,又有一些相同的和一些不同的。一些游戏是靠技巧,一些游戏靠运气;一些游戏有输赢,一些没有输赢;一些游戏是对抗的,一些游戏是单人的;一些游戏是有趣的,一些游戏是使人有压力的;一些游戏有娱乐成分,一些有竞技成分。但是,却很难发现有所成员共有的属性(19-6:范畴理论),如果没有共同的特征,根据词典观,那拿什么来定义“游戏”这个概念呢?

人工智能的定义问题之所以持续争论,是因为我们习惯以“词典观”的标准去界定它。然而,这种词典观本身存在诸多弊端,例如歧义、含糊和模糊。即便是对bull、高个子、游戏等我们认为定义相对统一的概念,使用词典观也有许多问题难以解决。更何况对于人工智能这种尚在研究初期未达成共识的概念。

(2)解决方案

与之相对的一种观点可隐喻性地表述为百科语义学,为认知语言学家广为接受。按照百科语义观,词项的意义寓于与某类实体相关的浩瀚知识领域的特定通达方式中。不同这些知识可表示为一组同心圆,表明其成分(特征)具有不同程度的中心性(简言之,不同特征对于概念的重要性是不同的,这与词典观的所有特征同等重要的理念相对)。这听起来有点复杂,举个例子来说明一下。根据百科语义学,母亲至少具有5种特征:(a)生殖:生孩子的一方,如生母、代孕母亲;(b)遗传:提供遗传基因的女性,提供卵子的母亲;(c)养育:担当养育任务,如养母;(d)婚姻:是父亲的妻子,如继母;(e)谱系:是孩子最直接的女性长辈,如外祖母。与词典观不同(每个特征权重相同),百科观认为每个特征的中心度并不相同,对于一个孩子而言,母亲这个概念最重要的特征可能是(a)、(b)和(c)。在不同情景或语境下,词的特征的中心度也会发生变化,比如“继母”所凸显的是(d)婚姻特征,当我们说“黄河是母亲河时”,只有(c)养育特征被凸显,而其他特征的中心度会变得很低甚至消失。(19-10:认知域;19-9:理想认知模型)

采用百科观的好处在于,可以根据场景灵活的调整特征的权重,使一些原来必须符合的特征的权重降低,而增加适用于特定场景的特征。比如对于一个玩具牛,“[牛科动物]”这个特征的中心度降为0,从而解决词典观的冲突问题。对于在篮球场上的所谓的“高个子”,“180cm”这个标准的中心度降低,而把“215cm”这个标准的中心度提高。对于“游戏”这个概念,无需归纳一组共有的特征,而只需符合其内部某些特征组合即可。

因此,更为可取的是采取百科语义观,放弃用一组固定标准特征来界定人工智能,转而使用一组可变权重的特征来描述它。对于不同的研究取向、不同侧重点和不同情景,不同特征的中心度也会有所不同,从而允许人工智能可以拥有不同的含义。

2.工作定义方面

(1)问题

工作定义作为研究工作的纲领,用于指导研究工作。而不同的研究者有不同的纲领和路线,因此也造就了不同的工作定义。比如,对于结构取向,根据其工作定义,其研究手段是研究大脑以及为大脑建模,目标是构建一个类脑模型;能力取向是以解决实际问题为主,通过算法解决以前只有人能解决的问题,而不管这些算法是否真的模仿人类的大脑或思维。

对于使用工作定义来定义定义需要分两方面看,一方面,科学史上的一些重大进展恰恰是从对某个常用词汇的重新解释开始的(王培,2015),比如能力取向对于当今AI的繁荣起到了不可磨灭的作用。另一方面,由于不同研究者有不同研究路线,这就造成了人工智能的定义多而混乱。据称,一个德国研究中心收集了几百个对“智能”的定义(王培,2019a)。

在AI历史上,出现了由于实现问题(感觉无法实现这个目标)而数次改动人工智能定义的现象(见下文)。如果实现不了就要彻底否定以前的目标和定义,改变它的工作定义并宣称这就是它的定义,这多少显得有点懦弱,重要的是现在无法完成的任务并不代表将来也无能为力。在古代登月这种事除了在神话可能是无法想象的,但在上个世纪这已成为现实。这充分证明了科技的进步是无止境的,今天的不可能或许在明天就会成为可能。随着科技的不断突破和创新,许多曾经被认为是天方夜谭的梦想都有可能实现。因此,我们不能说不能实现的就不是人工智能的定义,如果有一天有一个在行为上和人完全一致或者认知思维模式上和人完全一致的机器被造出来,我相信没有人会否认这是一个人工智能系统。

(2)解决方案

对于这个问题,一个办法就是,要将工作定义与定义区分开来,且不能轻易的把工作定义与定义画上等号。事实上,工作定义和定义是不同的,工作定义和定义可能有重叠之处,甚至两者所指可能是相同,但是区分它们仍然是重要的。

那人工智能的定义究竟是什么呢?根据索绪尔的符号学理论,需要区分语言和言语。其中,语言是言语活动的社会部分,是人们的大脑中的一套规则,存在于同一语言社团成员大脑中的一种约定俗成的抽象的符号系统,它的存在不取决于具体言语;而言语是言语活动的个人部分,是语言的具体运用,是个人的行为(19-2:符号学)。由于定义属于语言中的意义部分,因此定义是社会或者语言社区约定俗成的,存在于其语言社区之中。因此,人工智能的定义应当是AI领域中人们较为共识的那部分,这分别是AI1“与人有相同认知功能的机器”、AI2“行为表现与人一致的机器”和AI3“能够解决某些过去只有人脑才能解决的问题”(王培和刘凯,2018)。AI3很容易与AI1和AI2区分开来,因为按照这种定义,能实现某个功能就是人工智能。而AI1与AI2的区别在于,前者侧重于其内部功能,后者侧重于的外在行为(王培和刘凯,2018)。AI1和A12具有非对称的关系,当实现了AI1时AI2便实现了,而实现AI2的方式可以有很多(多重可现实性,8-1:心灵哲学),实现AI2时AI1未必能实现。

这并不意味这定义不会改变。索绪尔还认为,语言具有历时性,任何现存的语言都是语言发展过程中的一个阶段,语言是随着时间不断变化的(19-2:符号学)。在《三国志·先主传》中有一句“先主复领益州牧,诸葛亮视为股肱,法正为谋主,关羽、张飞、马超为爪牙”。在现代语境中,“爪牙”多用作贬义,比喻为恶势力效力的党羽或帮凶。这并非三国志在刻意贬低关张超,抓牙在古代文献中常指国家重臣或军事力量,只是经过不同时代的发展才形成当今的意义。在唐代起爪牙渐含贬义,《史记·酷吏列传》已有“刻深吏为爪牙”的负面表述,至明清小说及现代文学中多指反派势力的辅助者(百度百科)。人工智能在发展的过程中,其定义和内涵也在不断发生变化。一开始,由于人们的共识,一些AI成为主流,如同占据在城市的中心,而其他研究者不断拓展这AI的边界,如同占据着城市的郊区。随着认同的人逐渐增多,如同城市的部分郊区逐渐变成了城市的中心。而原来的AI主流,也随着认同的人的变化,如同城市的中心成为城市多个中心的一个,又或没落成城市的郊区。

因此工作定义与定义的联系是,前者侧重于指导工作,后者包含一个相对稳定的被更多人接受的意义。当工作定义被更多人接受时,工作定义就成为了定义。

三.什么是AI的定义

前面说到,一方面,人工智能的定义尚未形成统一的标准,并且其多样性是被允许的;另一方面,人工智能的定义理应是其社区内普遍共识的那部分。这两者之间是否存在矛盾呢?答案是否定的。

1.定义的理论基础

根据相似性范畴理论(19-6:范畴理论),对于某些类别,可能会根据某些突出的范例建立几个子原型中心,这些子原型中心对应于该范畴下的子范畴,而其他样例则根据与这些子原型的距离(这一判断基于属性匹配程度及各属性中心度的加权平均值),计算出样例属于这些子范畴的程度。(根据原型理论,一个类别的原型是由这个类别中各个样例的特征的中心趋势构成的。在范畴化的过程中,被分类事物应该与该范畴中的原型进行相似性判断,如果相似性到达一定程度就将该事物判断为该范畴。例如,鸟类的原型是一个涵盖所有鸟类的特征的抽象集合。通过评估不同鸟类与该原型的相似度,可以判定其归属于鸟类的程度。知更鸟和麻雀与原型最为接近,因此它们属于鸟类的程度最高。相比之下,鹰和鹦鹉属于鸟类的程度居中,而企鹅和蝙蝠则属于鸟类的程度最低。范例范畴理论是将待分类事物与该范畴的一个典型样例进行相似性比较。例如,更知鸟是范畴的一个范例,那么物种属于鸟类的程度可以根据该物质与更知鸟进行相似度匹配的程度而得)

基于这个理论,可以将人工智能的定义解释为,拥有几个子原型中心,每个子原型中心在社区中是属于普遍共识的那部分,而其他定义则根据其与这些子原型中心的距离,判断其属于子人工智能范畴的程度。简单点说,对于不同人工智能定义或系统,它们可能属于不同子人工智能的范畴(AGI或SAI等),并且它们属于这些范畴是一个程度的问题,而不是一个“是”或“不是”的问题。

接下来的问题就是,人工智能有多少共识、子范畴或子原型,并且各定义或系统依据什么来计算它们与这些子原型的距离,或它们属于子AI范畴的程度。

2.子原型

对于人工智能的共识需要从人工智能的历史说起。自17世纪以来,关于思维、机器和生命的哲学辩论一直在进行。但核心困境在于:“思考”本身无法被精确定义,它涉及意识、自我认知、主观体验等难以量化的概念。面对这一困境,图灵采取了“行为主义”的思路:放弃对“思考本质”的追问,转而从“行为表现”判断,既如果一台机器的行为与人类的“智能行为”无法区分(图灵测试),那么就可以认为它具有思考能力。至此,AI1“人工智能是与人有相同认知功能的机器”(通用的结构取向、功能取向和原则取向)与AI2“人工智能是行为表现与人一致的机器”(通用行为取向)成为了AI两条比较有共识的定义。在初始之时,人工智能研究的核心目标是开发出与人类智能具有普遍可比性的计算机系统。这一点在图灵的论文及其他早期AI文献中几乎是显而易见的,因而无需特别强调。历史上曾出现过众多雄心勃勃的研发项目,例如Newell和Simon的“通用问题求解器”以及由日本政府主导的“第五代计算机系统”等。然而,所有针对这一目标的尝试最终均以失败告终。经过深刻的反思,多数AI研究者认为,失败的根本原因在于前辈们过于好高骛远。这促使AI研究者从期望发现一揽子解决方案转向着力于一个一个地解决各种以往只有人能解决的实际问题,或一项一项地再现人的认知功能。得益于各类“专家系统”在众多领域达到甚至超越人类水平,AI终于摆脱了“现代炼金术”的负面标签(即将人工智能比作巫师和术士)。广为人知的例子包括战胜围棋世界冠军的AlphaGo系统,以及近年来在图像、语音识别等领域大放异彩的深度学习技术。因此,主流AI研究者将AI重新诠释为AI3“人工智能应该是能够解决某些过去只有人脑才能解决的问题”(能力取向)。迄今为止,这一新定义已深入人心,成为人工智能领域的主流观念。而对于通用智能系统的研究,则被视为不切实际的幻想,甚至被贬斥为“白日梦”或“伪科学”。尽管AI3取得了引人注目的成就,但业界内外依然有众多人士(相对于AI3,这一群体相当小众)认为,这类系统实际上更偏向于统计计算(或数据科学),而非传统意义上的智能(AI1和AI2)。这也正是二十年前引入通用人工智能(AGI)这一新概念的原因所在,从AI1和A12的含义看,它们与通用人工智能(AGI)相近,且AI1比AI2更加接近;同时,将AI3称为专用人工智能(SAI)。由此,人工智能分裂为AGI和SAI两大类型。近几年,随着大语言模型的兴起,AGI的概念开始流行起来,一部分人认为AGI时代已经到来。如果按照上面的定义,大语言模型的确算是AGI(AI2,行为取向),但它只能算最低限度的AGI,即能接受所有在系统感知范围内的问题并尝试解决它们。(王培,2019b)

AI1和AI2之所以能成为人工智能社区关于AI定义的共识部分,原因之一在于它们与人类智能接近,尤其是人类级的通用,而人类智能无疑是智能的最佳范例。而AI3之所以也能成为定义的共识部分,原因则是当前它给社会带来的巨大价值。

现在来总结一下对AI共识的变迁,最初对人工智能相对共识的部分是AI1和AI2,在上个世纪80年代由于实现难度的问题,转变为AI3,但仍然有小部分人在AI1和AI2的方向上努力。近年来,随着大语言模型的兴趣,AI2有了一定的发展,达到了最低程度的AGI水平。毫无以为,AI3是当今主流,因此属于共识部分。而我将AI1和AI2也列为共识部分原因有三点,首先,原因在于,它们是AI的初心,AI被提出之初就是为了实现它们的;其次,它们只是因为实现问题而掉出主流,我相信如果它们能被实现没人会怀疑它们是AI,定义与工作定义是不同的;第三,当今仍然有不少人在坚持这条道路。

3.距离计算

人工智能定义的共识部分一共有3个,AI1、AI2和AI3,对应概念的3个子原型。那如何计算各定义或系统与它们子原型的距离呢?根据百科观,每种概念的意义都由一组带有不同中心度的特征来表示,其中定义的第i个特征可以表示为fpi,其对应的中心度表示为Ci,iϵ[1,N],N为特征的数量,概念的特征集合可以表示为向量Fp={fp1,fp2,...,fpN},中心度集合也可表示为向量C={C1,C2,...,CN};对应的,每个定义或系统都由相对应的特征构成,每个特征表示为fei,其特征集合表示为向量Fe={fe1,fe2,...,feN}。那么,它们之间的距离计算可以通过余弦相似性获得:

要注意的是,对于一些离散的特征,可以使用0表示没有这个特征,用1表示有这个特征,比如“有翅膀”表示1,“没翅膀”表示0;对于连续特征,需要作一个归一化处理,比如用特征值除以该类特征的最大值(可以以多个样例在这个特征的最大值作为整个范畴的最大值),如人类最高的身高为230cm,而某原型的身高为180,那么归一化操作后为180/230=0.78。当然,具体的操作方法有很多,除了使用余弦相似性计算,也可以使用欧式距离,这里仅说明距离计算的思想。

那么下一个问题是,这些特征都是些什么呢?事实上,每种概念的特征都有非常之多,比如鸟类,只要我想,我可能可以一直列举下去。因此,这里仅列举我认为比较重要的特征。

(a)通用性,通用是一个程度的问题(连续),由上所述,它可以分为人类级通用,某种计算模型级的通用,某类感知范围内的通用以及专用四种层次。这四种通用性逐渐降低;

(b)能力值,除了能力的范围,还应该考虑“每种能力的能力值上限”如何,它同样是一个程度的问题,以行业内顶级的标准为满分100分,而没有这种能力为0分,可用于生产环境为及格“60分”。当然,对于不同要求,这个及格的标准也不同。比如,对于一个机器翻译软件,没有翻译能力为0分,达到母语级翻译能力为100分,而可以辅佐人们读懂为60分,或者错误率低于90%为60分。

以上两个特征足以将AI3和AI1、AI2区分开来。对于AI3,其特征是“专用”和“能力值达到可用或以上”;对于AI1和AI2,其特征是“某类感知范围的通用或以上”和“能力值达到可用或以上”,在某些场景下,大语言模型可以达到这些要求,因此它属于AI2。

每一种概念都是模糊的,AI3也不例外。人类识别、自动驾驶等技术无疑是属于人工智能,但是一些自动化程序有时也被称为人工智能(虽然也有很多人不这么认为)。因此有必要增加一些特征,以区分不同等级的AI3。

(c)特征学习,即智能体是通过特征学习还是通过人工设定解决问题的,这是一个区分智能化还是自动化的特征。一个仅依赖人工设定的智能体属于自动化范畴,例如在充电过程中,当检测到电量已满时,它会自动切断充电。但有时,这种自动化也被称为智能,由于不被所有人视为共识,因此它代表了一种低层次的智能水平。而特征学习是指一个智能体通过学习任务数据中的一些特征,达到解决问题的目的,它属于智能化的范畴。同一个模型通过学习同一类任务的不同数据,学习到不同的数据特征,从而完成同一类型任务的不同子任务。比如,一个专门做图像识别的智能体,当让智能体学习不同的人脸数据时,它学习到的特征可能是不同肤色、不同眼睛形状、嘴巴形状...(现实中这些特征还要更复杂一些,此处仅用于说明问题),因此此时这个智能体能被用于实现人脸识别任务,而不能用作其他图像识别任务(如车牌识别,因为它没这方面的特征)。当让智能体学习不同车牌时,它可能学习到的特征是不同数字的形状,因此此时该智能体能被用于实现车牌识别,而不能用作人脸识别。

通用性是一个非常概况性的特征,仅使用它还不足以描述智能在行为或认知上的类人性。AI1与AI2的区别在于,前者侧重于其内部功能,后者侧重于的外在行为。当内部功能相似时,外部行为也会相似(因为,所有外部行为都是基于其内部机制的)。因此,AI1与人类具有相似的认知功能和相似的外部行为,而AI2与人类有行为上的相似。下面首先描述部分人类在外部行为上的特征,这是AI1和AI2共有的,然后再描述人类在内在认知上的特征,这是AI1仅有的,可以用以区分AI1和AI2。

以下的几项都是能被观察到的行为特征,比如判断是否具有计算灵活性,只需判断智能体在执行任务的过程中是否能灵活调用各种策略,并且是否能根据不同情景安排任务的先后顺序和资源调配。判断策略学习和知识学习,仅须看智能体在没有预设的情况下,是否能学会新策略和新知识解决问题。判断是否有创新能力仅须看智能体在未教育的情况下能否使用全新的策略解决问题。

(d)计算灵活性,计算是指使用某些策略操作知识,这理需要关注的是策略是固定不变的还是拥有灵活多变的潜力(比如计算一道数学题老是用同一种方法,还是可以用不同方法解题)。如果智能体只会用同一种策略,那么它的计算灵活性就为0。例如,假设有一种导航地图,这种导航地图每次只会给出一条最短的路径,而不会根据拥堵情况给出其他选项,那么这种导航地图就是没有灵活性的。拥有若干个策略,并根据实际情况选择合适的策略则属于拥有一定的灵活性。且可供选择的策略越多,灵活性越高。但如果选择策略的方法是固定的,这类智能体拥有一定的计算灵活性,但距离人类级别的灵活性还有一定距离。还如,一个导航地图,在选择目的地后给出多条路径规划,并附带每条路径的通行时间、行驶距离、拥堵情况等,跟根据这些情况给出若干条推荐路径(包括路程最短的路径、时间最短的路径、拥堵路段最短的路径)。如果智能体拥有多种策略,既能用算法式,也能用启发式,并根据实际情况选择相应的策略和切换策略。同时具有自主性,根据轻重缓急、任务的重要性、诱因、需求和动机程度(22-1:概念解释;22-2:需求结构),安排不同事物的优先级,调配注意资源、时间资源,甚至按照自己的意愿选择做什么或不做什么(自由意志(尽管我认为自由意志不存在),8-1:心灵哲学),这是最高级的灵活性,达到人类级别。

(e)策略学习能力,这个能力要从两方面考察,一方面是策略学习的范围,如果智能体的策略是人为设定并且是固定的,那么这种智能体是没有策略学习能力的。例如,在一个快递分拣系统中,包裹一个个的送上传送带,传送带有一个信息读取装置,该装置会根据包裹上的信息将包裹传输到不同的位置,如读取到广东省,那么就将包裹传送到代表广东省的分区,读取到重庆市,就将其传送到代表重庆市的分区。不同分区的包裹将会送往不同的目的地。这种系统的策略就是固定不变的,因此是没有策略学习能力的。更高层级的策略学习能力是学习同一领域的不同方法,比如对于料理同一种食材的方法,即便它此前没有任何烹饪方法,但是通过学习,它先后学会了如何做酱油鸡、盐焗鸡、辣子鸡、冬菇蒸鸡等等,那么它是具有学习该领域策略的能力。除了能学习某一特定领域的不同策略,还能在自身硬件条件的范围内,学习不同领域的策略。人类就具有这种策略学习能力,通过学习,我们能学习游泳、书法、电子游戏、数学、写代码等等。显然,能做什么事受限于其硬件条件或身体条件,比如由于我们没有翅膀,那么我们无论如何都学不会飞。智能体只要能在硬件条件的范围内,学习不同领域的策略,哪怕它能涉及的领域很少,那么也可以认为它具备这种高等级的策略学习能力(要注意策略学习能力和通用性的区别,可以说它没那么通用,但不能认为它策略学习能力低)。另外一方面是策略学习的自主性,非自主的学习是人类通过设置将策略添加进智能体的,而自主的学习是智能体通过观察、模仿、或者媒体(书、视频等)等习得,或者自己在实践中通过归纳总结而得,就像人学习策略一样。显然,自主学习比非自主学习具有更高的通用智能水平。综合这两方面,最高级等策略学习能力是,在自身硬件的范围内,通过自主学习获取不同领域的策略或技能;

(f)知识学习能力,光有策略不行,一个问题的解决几乎离不开相应的知识。比如做一道不需要太咸的菜,那么方法是少放点盐。执行这个动作需要有“盐是会增加咸味”这条知识。不能“只有策略而没有知识”的例子还可以看看三段论(16-1:演绎)。三段论是词项逻辑的一种推理形式(策略),只有策略它只是一副空壳,它必须代入知识,如例1。与策略学习能力一样,知识学习能力具有自主性,自主的学习比非自主的学习具有更高的通用智能水平;

例1:三段论

策略

前提1:a是b;

前提2:b是c;

结论:a是c。

代入知识1

前提1:猫是猫科动物;

前提2:猫科动物是动物;

结论:猫是动物。

代入知识2

前提1:法国国王是秃头的;

前提2:查理是法国国王;

结论:查理是秃头的。

(g)创新能力,除了能够学习和掌握各种不同的策略之外,还能创造新的策略。那些无法进行创新的智能体,其创新能力被评估为零,相反,那些能够达到或接近人类平均水平的智能体,则被认为具备了一定程度的创新能力。在面对新问题时,通过自身的学习和思考,提出并实施全新的解决方案,这种能力使得它们在复杂多变的环境中表现出更强的适应性和灵活性。

(h)具身,即是否具有身体,能感知物理环境和在物理环境中行动。目前,大多数智能系统缺乏实体形态,仅能处理数字世界中的信息,而无法感知和改造物理环境,因而导致其通用性大幅降低。

AI1与AI2的最大区别在于,AI1与人类具有相似的认知模式,因此以下将描述人类在认知方面的特征,以区分与AI2的区别。

(i)基于认知,即是否基于人类的认知来实现AGI。用这种方式实现的AGI系统与人类具有相似的认知模式。这种相似性可以在不同层面实现,结构取向是在神经层面(底层)实现,能力取向是在认知(心理)模型上实现,原则取向则是在抽象(上层)的层面实现。三种方式的目标都是一样的(虽然不一定都能实现)。下面再介绍几条具体的认知特征。

(j)元认知和执行控制:计算灵活性是智能体的外部表现,之所以人类具有最高等级的灵活性,一方面主要是基于元认知(17-5:元认知)和执行控制(17-2:执行功能与认知控制)等认知模块,另一方面是基于需求和动机等自主性模块。但要注意的是,即便没有元认知和执行控制功能,智能体也有可能能展现出极高的灵活性,例如当前的大型语言模型,并能依据人类的特定需求提供相应的回答(例如,在问题末尾附加“请用500字回复”),看上去相当灵活(本质上,它并没有策略上的灵活性,只是看上去像是有而已,下节将作出解释)。

(k)需求和动机,需求动机是智能体自主性的关键要素之一,如果没有动机的存在,智能体就无法展现出真正的自主性。换句话说,动机是智能体能够独立做出决策和行动的基础,没有动机的智能体就如同一个没有灵魂的躯壳,无法自主地进行思考和行动,只能被动地接受指令,成为一个毫无生气的“行尸走肉”。

(l)知识格式,这里所指的知识或信息是策略计算的原材料,其中知识的格式是需要关注的内容。如人类知识的格式是概念(18:概念)(不论是知识还策略,人类都是使用概念存储的),图像的格式是点阵(像素点矩阵)等等。知识格式之所以重要,是因为知识的格式决定了其被计算的方式。以Python为例(一种计算机语言),它的知识格式包括“列表”和“字典”等。其中列表是一个有序集合,可以表示为[a,b,c,d...](a、b、c等是列表的元素,这些元素符号可以是数字,也可以是文字或字母等等,如[1,4]或[我,1,a,!,555,list,这是一个列表];列表的长度等于其元素个数,其长度可任意),对于列表的操作包括根据其序号提取其元素,如例2。与列表不同,Python的字典不是通过顺序找到对应元素,而是通过“键”查询,键与元素的关系就像英语词典的页码与单词的关系。可以通过词典的页码找到对应的单词,Python的字典可以通过“键”找到对应的元素,不同的是一页可能包含多个单词,而一个键只对应一个元素。Python的字典可以表示为{A:a,B:b,C:c,...},其中大写字母表示键符号,小写字母表示元素,其操作方式如例2。因此,如同不同的Python的数据格式有不同的操作方式一样,不同的知识格式有不同的计算方法;

例2(为了不增加复杂性,这是一个不严谨的Python代码的例子,仅为了说明问题)

L=[5,6,hello,666,列表] (一个有5个元素列表)

Item=L[3] (取第3个元素,并将元素赋予到Item)

显示Item的值:hello (可以看出,Item代表hello)

例3

D={6:1,hello:5} (一个有2个元素的列表)

Item1=D[6] (通过键“6”查询对应元素,并将元素赋予到Item1)

显示Item1的值:1 (Item1代表1)

Item2=D[5] (通过键“5”查询对应元素,并将元素赋予到Item2)

显示Item2的值:运行错误 (由于5不是字典“D”的键,因此该操作是一个错误操作)

(m)情感,情感是智能体与人类社会进行有效连接的重要条件。通过情感的表达和理解,智能体能够更好地融入人类社会,与人类进行互动和交流,从而实现更加自然和和谐的人机协作。

4.定义的发展

为了实现这样或那样的目标,不同研究者会提出不同的主张(工作定义),但是定义和工作定义的不同的,当这些工作定义得到了广泛认可并成为共识部分时,才可能成为定义。

5.小结

至此,关于AI定义的大致框架已基本勾勒完毕(当然还能添加很多特征)。AI是一个模糊的概念(当然基本所有概念都是模糊的),根据AI的发展历史,AI社区先后出现过一些共识(尽管并非所有人都完全认同,但这些共识相较于其他理念,获得了更广泛的认可并具备一定的概括性),这些共识被视为AI的子原型,而其他定义或被称为AI的系统根据其特征与子原型的匹配程度及特征的中心度,呈现出接近或偏离这些子原型的状态。当系统特征与子原型高度契合时,可以较为肯定地将其归类为通用人工智能(AGI)或强人工智能(SAI);反之,若特征差异较大,则它们可能不属于或不完全属于AGI、SAI。需要注意的是,“属于”是程度上的问题,而非简单的0或1的二元对立。如例4。

例4:分别判定以下项目属于哪种人工智能,且分析符合程度(为了不使问题复杂化,仅用于说明问题,此处忽略特征的中心度)

项目1:电影《终结者》里由施瓦辛格饰演的T800

特征分析

(a)-(b):完全符合人类级通用水平,能力值顶级。

(c):符合特征学习。

(d)-(h):在各方面的特征都接近AI2的原型,如具有“人类级别的通用性”、“顶级的能力值”、“最高级别的计算灵活性”、“具有自主知识学习能力”等等。

(i)-(m):由于电影并没介绍(或者我没看到)它是基于人类认知构建的,因此无法判定它是否属于AI1。

总结:综合上述特征分析,T800明显符合AGI,但无法确定他是否基于人类认知构建的AI1还是AI2。

项目2:人脸识别系统(以商用)

(a)-(b):由于它只能用于人脸识别,因此它是一个专用系统。并且由于以商业化,因此其能力值至少在及格线或以上。

(c):它显然符合“特征学习”,因为人脸知识无法人工预先设定,只能通过模型习得。

(d)-(h):这些特征都是最低水平的或不符合。比如只能识别人脸没有任何灵活性、不能学习新的策略等。

(i)-(m):同上(这些特征都是最低水平的或不符合)。

总结:它符合(a)的专用性,以及符合(b)-(c),因此达到了AI3的标准,完全符合SAI

项目3:人脸识别系统(效果很差,不能商用)

(a)-(b):由于它只能用于人脸识别,因此它是一个专用系统。并且由于识别效果很差,因此能力值很弱。

(c):同项目2。

(d)-(h):同项目2。

(i)-(m):同项目2。

总结:虽然(a)是专用,(c)符合特征学习,但由于其(b)能力值较低,因此只能说它部分符合SAI。

项目4:一个基于知识图谱或知识库的客服问答系统(以商用)

(a)-(b):它是一个专用系统,并且由于以商业化,因此其能力值至少在及格线以上。

(c):一个问答系统可能有两种方式实现,一种是规则匹配。比如,人工设置一个Python字典{你好:你好,有什么帮到你,单车多少钱:100元,单车润滑油多少钱:10元,...},当用户输入“你好”时,规则匹配系统将输入“你好”作为“键”输入到字典中,查询到键“你好”的元素为“你好,有什么帮到你”,此时将该元素输出。这种方法是通过人工设定的,因此不符合特征学习;另外一种可以用模型方法(如深度学习),这种方法需要使用特征学习。

(d)-(h):它具有(d)“非自主知识学习能力”,因为,首先可以往知识库中不断添加客服回复的知识(如增加Python字典的长度),其次它是人工添加的,所以是非自主的。其他特征((e)-(h))不符合。

(i)-(m):这些特征都是最低水平的或不符合。

总结:首先它符合(a)的专用性和(b);其次,该客服系统可能有两种实现方式。当它使用基于模型的实现方式时,即符合特征学习(c),那么它明显属于SAI。当它使用规则实现时,由于不符合特征学习,它只能算部分属于SAI;最后,由于它具有(d)“非自主知识学习能力”,因此它具有一定程度的通用性,但这个通用性的程度非常低,以至于被忽略不见。

项目5:摩托车报警器(以商用)

(a)-(b):它是一个专用系统,并且由于以商业化,因此其能力值至少在及格线以上。

(c):这个报警器的原理大致是有一个装置检测震动,当出现震动时触发开关。因此它不属于“学习特征”,而是属于“人工设定”的规则。

(d)-(h):这些特征都是最低水平的或不符合。

(i)-(m):这些特征都是最低水平的或不符合。

总结:它符合(a)的专用性和(b),而不符合(c),因此它只能算部分属于SAI。

项目6:ChatGPT

(a)-(b):首先由于它仅能操作文字范围内的信息,因此它部分属于通用系统;尽管有瑕疵(如判定9.9比9.11小),但因其出色的效果,瑕不掩瑜,其能力值至少在及格线以上。

(c):符合特征学习。

(d)-(h):它能使用不同策略,如按照提示词(如“要求500字”、“要求固定的文章结构”、“要求每个解释给出简单例子”)的要求给出相应回答,但是由于该系统没有自主性(不会根据轻重缓急安排不同事物的优先级,没有调配注意资源和时间资源的能力),因此仅部分满足(d);由于没有持续学习能力,因此不满足(e)和(f)(这是目前数据科学的通病);在一定程度上能处理学习数据中没有出现过的问题(基于数据的泛化能力),因此有一定创新能力,符合(g);没有具身性,不符合(h);

(i)-(m):该技术利用的是数据科学的方法,因此这些特征都是最低水平的或不符合。

总结:部分符合(a)的通用性,符合(b)和(c);在评估人类行为相似度的特征上,部分符合(d)和符合(g),但不符合(e)、(f)和(h)。在评估人类认知相似度的特征上,(i)-(m)均不符合。因此ChatGPT虽然部分符合AGI的AI2的标准,但仍有一段距离。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐