徐英瑾:人工智能研究中的"母语意识" 刍议

您所在的位置:网站首页 日语量词和汉语量词 徐英瑾:人工智能研究中的"母语意识" 刍议

徐英瑾:人工智能研究中的"母语意识" 刍议

2024-06-03 08:16:32| 来源: 网络整理| 查看: 265

其三,计算机的语言一般分为“机器语言”“编程语言”与“界面语言”三类。 “机器语言”是机器运作的内部代码,非专业工程师无法理解。“界面语言”即用户所接触到的语言,一般也就是英语、汉语之类的自然语言。至于编程语言,则是编程人员编制计算机程序时所依赖的工具。虽然从原则上说,编程语言是可以与界面语言相互脱节的(就像机器语言几乎是与任何一种界面语言脱节的那样),但为了方便英语国家内部的工作人员,英语世界研发的编程工具往往就是英语的某种简化形式。比如,1972年由美国贝尔实验室研发的“C语言”的标准词汇就包含了大量英文单词,譬如“auto”“double”“int”“struct”“break”等。这显然为英语国家的编程人员学习此类编程语言提供很多便利。需要注意的是,即使是在与符号主义进路不同的神经元网络技术(及其后继者深度学习技术)的研发过程中,其所依赖的编程工具(如Python)依然带有浓郁的“英语词汇的人工简写模式”的色彩,因此形成对英语国家人士更友好的学习界面。

目前华语世界的很多计算机软件产品,其实都是英语世界首发产品的“汉化版”,而与此同时,具有母语意识的产品研发案例,却寥若晨星。至于汉语结构自身的独特性所造成的其与英语表述之间的巨大差异,虽在一定程度上为语言学界所重视,却依然没有得到人工智能学界中的自然语言处理专家们的广泛共鸣,这着实不是一种能令人感到安心的现状。有鉴于如上宏观评估,笔者认为我们有必要从语言哲学与认知语言学的角度,重新考量学界对于一些特定的汉语表达式的技术刻画方式,并通过这种重估进一步揭露“西式思维”对于汉语本真结构的扭曲效应。同时,笔者还希望能够以此为契机,为人工智能研究中母语意识的勃发,提供可行的技术实现路径。

不过,考虑到关于“特定的汉语表达式”的具体案例是如此之多,在一篇篇幅有限的论文中,笔者只能挂一漏万地聚焦于一个能“以小见大”的语言现象,即汉语中的量词现象。

二、被西语思维扭曲的汉语量词现象

受到现代谓词逻辑思维影响的读者,或许误认为本文会讨论诸如“存在量词”“全称量词”这样的“量词”。实际上,这种意义上的“量词”英文叫“quantifier”,而本文所说的量词在英文语法书里叫“classifier”,在日语语法书里则叫“助数词”,与逻辑教科书里说的“量词”不是一回事。说得更直接一点,本文所涉及的是汉语中的量词实例,即诸如“一辆车”中的“辆”字,“一件衣服”中的“件”字,等等。从英语思维的角度看,在被涉及的名词本身是可数名词的情况下,对于此类量词的使用是不可理解的,因此,一种基于英语思维的自然语言处理系统很可能就会转而淡化量词的使用规则的重要性,或将其化约为某种别的可以为英语思维所消化的语言现象。由此所导致的实践后果便是:这样的计算机系统将无法判断“一条狗”是比“一只狗”更为地道的汉语表达,甚至无法判断,比起“一条狗”或“一只狗”来说,“一狗”是一个有待完成的汉语名词表达式。

迷信统计学与大数据的乐天派或许会说:基于海量的网络数据,计算机就可以计算出:在出现“狗”的前提下,在其前面出现“条”的后验概率会远远高于出现“只”的后验概率——由此,系统就可由此判断“一条狗”是比“一只狗”更地道的汉语表达。然而,从哲学角度看,这样的技术进路已经预设了“更地道的汉语表达式就是被更多人所使用的表达式”——但这个预设本身却是经不起推敲的(因为我们完全可以设想这样一种情境:大多数网民在网络上所输入的汉语都是粗糙的,未经打磨的,因此是不值得成为语言范本的)。实际上,当我们将英语“a dog”输入“谷歌翻译”的自动翻译软件,并试图让该软件将其翻译为汉语的话,我们的确只是得到了不那么精妙的“一只狗”,而不是更为生动的“一条狗”。可见,基于统计的自然语言处理机制,已经在量词问题上出了丑。

迷信统计学的技术乐天派或许还会说:我们可以鼓励网民在网络上使用尽量标准的汉语,或者专门为训练机器而输入那些“雅驯”的汉语训练样本。但在笔者看来,即使这些苛刻的前提真的得到了满足,基于统计的自然语言处理机制依然会出丑。其道理非常简单:我们无法肯定在任何一个关于“狗”的地道的汉语表达中,在“狗”字之前的临近位置,一定会出现“条”字。请试想下面这句话:“阿花是一条无忧无虑的,而且老爱跟着河上的船只飞跑的小花狗”——在这句话中,在“条”与“狗”之间隔着21个字,而在“只”与“狗”之间却仅仅隔着6个字。因此,基于统计学原理与“毗邻性原则”的自然语言处理系统,将会有更大的机会将其误判为“一只狗”的变体(而不是“一条狗”的变体),并在这种误判的前提下认定这个句子需要改变量词。这也就是说,只要我们在原有的含有量词的名词表达式中插入更多的语法成分,基于统计学的自然语言处理系统就会立即输出荒谬的处理结果——除非这样的系统具备对于量词真实语法与语义角色的识别能力。

那么,我们又该如何对汉语量词的真实语法以及语义角色作出刻画呢?说到这个问题,我们就无法不提及美国哲学家兼逻辑学家蒯因(W.V.Quine)对于日语中的量词现象的刻画方案(因其特殊的学术地位,蒯因在这个问题上的见解已经成为讨论量词刻画的所有文献都必须引用的对象)。

有过一点日语学习经历的读者可能都知道:与汉语类似,日语中也有比较丰富的量词现象,而这一点不由得让作为美国人的蒯因大感兴趣(顺便说一句,在二战时作为美国海军军官的蒯因,曾为了破译日军密码而学过一点日语)。在战后发表的《本体论相对性与其他》这部论文集中,他特别讨论了日语表达式“三頭の牛”(即汉语“三头牛”)的逻辑结构问题。[3]他提出了两种刻画方案:

方案甲:“牛”是通名,可用来指涉物理时空中的某些离散对象(即具体的牛),而“三”与“头”合在一起扮演了一个“数词”的角色(从某种程度上说,“量词”在日语语法书中的通常称呼“助数词”,就应和了蒯因对于量词的这种看法)。

方案乙:“牛”是通名,但却只指涉类似“水”“气”之类的无法被个体化的连续对象,因此是一种“物质名词”。至于量词“头”的功用,则是将这些本不可被个体化的物质对象加以个体化,由此使得“三”这个数词的使用有了相应的附着点。在这样的情况下,“三”本身就能够在独立于“头”的前提下执行“数词”的功用(不难看出,从某种意义上说,量词在英语语法书中的通常称呼“classifier”——可直译为“分类词”——在某种意义上便是应和了蒯因对于量词的这种看法的)。

蒯因本人并不试图在“甲案”与“乙案”之间选择其一,因为他认为两种解释均可以很好地贴合我们所观察到的语言现象。因此,没有任何一种本体论偏好可以使得我们去偏好一者而抛弃另一者。这也是他为何在“本体论相对性”与“指称不确定性”的大语境中提及此类日语现象的理由——因为从他的哲学立场看来,“甲案”与“乙案”之间的不确定性,恰恰能够为他的“相对主义—实用主义”的本体论观提供某种注解。

然而,从自然语言处理的角度看,蒯因的这种有点不太负责的解释或许会带来非常麻烦的后果。具体而言,“甲案”带来的麻烦是:根据此案,“三条狗”中的“三”与“条”必须联合起来作为一个数词起作用,同理,“三把刀”中的“三”与“把”也必须联合起来作为一个数词起作用——然而,一个没有得到解释的问题是:为何一个数词在一个表达式中需要以“把”为构成要素,而在另一个表达式中需要以“条”为构成要素呢?如果这个问题得不到解答的话,那么,计算机又凭什么判断什么时候可以用“只”,什么时候可以用“把”,什么时候可以用“条”呢?进而言之,任何一个编程专家此时都有权质问:为何所有这些要素不是冗余的,并因此而能够被“约分”呢?

而“乙案”带来的麻烦则是:该方案预设了汉语(或日语)言说者是将“牛”视为类似于“气”这样的不可被个体化的对象的,而如果这种预设是对的话,那么我们就可以预测:汉语(或日语)言说者所使用的每种“量词”——作为一种“个体化手段”——是与每种被个体化的物理对象种类一一对应的,因此不会出现量词改变而物理对象种类却未被改变的情况。但至少在汉语中,“一杯啤酒”与“一瓶啤酒”都是很通顺的说法,而且也不会因为有人认为“一杯啤酒”所涉及的 “啤酒”与“一瓶啤酒”所涉及的“啤酒”乃是两类不同的物理对象。这也就是说,一个依据“乙案”运作的计算机程序将很可能错误地将“一杯啤酒”所涉及的 “啤酒”与“一瓶啤酒”所涉及的“啤酒”视为两类物质,由此造成推理错误。

那么,为何蒯因给出的对于日语(汉语)中的量词现象的分析如此不让人满意呢?关键问题便在于,他是用英语的思维去设想东方语言的情况的。依据英语思维,可数名词与不可数名词之间的差异可是一件大事情,这种差异会导致动词词尾、形容词前缀方面的一系列变化。而当一个美国人突然发现:(1)日语(汉语)中没有明显的可数名词与不可数名词方面的差异;(2)日语(汉语)中却有英语中不那么明显的量词现象的时候,他所能够想到的一个很自然的解释就是:要么这些东方人认为世上万物都是可数对象(并在这种情况下将量词用作数词的一部分),要么这些东方人认为世上万物都是不可数对象(并在这种情况下将量词视为某种“个体化对象的产生机制”)。但为蒯因所始终忽略的一种可能性就是:“可数—不可数”的区分本身或许压根儿就没有进入中、日语言说者的意识,亦未进入其本体论背景——因此,量词的出现或许与“可数—不可数”的区分毫无关系,而是基于某种其他语言学或心理学机制。

但令人遗憾的是,蒯因关于量词问题的思维范式是如此强大,以至于马歇尔·威尔曼(Marshall Willman)先生在最近重拾“汉语中的量词”这个话题的时候,依然采用了一种亲和于英语思维的分析方式。具体而言,他以一种同情蒯因的“甲案”的方式,作出了如下评论:因为汉语中缺乏英文中的词缀“s”来提示名词的复数形式,婴幼儿时期的汉语言说者只有求助于别的语法机制来完成对于名词单数与复数的区分——换言之,由此完成对于混沌世界的分割。而量词的引入,也正是为了满足这种语言诉求。[4]然而,这样的一种预设了“单—复数区分”之基础性的解释方案,却无法解释如下这些经验现象:

其一,正如很多发育心理学家所指出的,在学会母语之前,各个民族的正常婴儿都能够识别物理对象的那些基本空间属性(比如知道两个固态物体不可能占据同一时—空坐标,或知道一个空间对象的各个空间部分会随着整体的移动而一起移动,等等)。这也就是说,即使在语言没有对单、复数区分进行强调的情况下,人类的基本心理能力已经能够满足“对混沌世界的区分”这一需求了。因此,汉语中“量词”的出现未必就一定会去强化这一区分,而可能是为了满足其他语法功能。[5]

其二,正如威尔曼本人所注意到的,不少量词——比如“一门课”与“一节课”中的“门”与“节”——是扮演了一定的语义角色的,因此,用谓词逻辑的术语来说,它们更应当被视为某种意义上的“命题函项”,而不是数词的某种补充机制。但同样很明显的是,这些现象是无法被威尔曼关于量词的整体解释框架所消化的,而这一点便使得他的理论的统一性受到了很大的削弱。

其三,正如语言学家徐丹先生所指出的,尽管汉语并不强行要求在名词表达式中给出单复数区分,但至少在中古汉语中,我们也可以找到大量与复数表达相关的语言表述手段,比如“都”“皆”“全”“并”“具”“悉”“咸”“总”“举”等。[6]这些词的存在,显然会使得威尔曼赋予量词“区别单、复”功用的重要性被大打折扣,并进一步提示我们:量词在汉语中或许在执行着某种与上述功用不同的其他重要功能。

无独有偶,日本的语言哲学家饭田隆对于日∕汉语中的量词现象的解释,亦同样缺乏应有的统一性,而且也同样受制于“单、复区分”的思维陷阱。[7]具体而言,他以骑墙的态度承认蒯因提出的“甲案”与“乙案”都是有一定的适用范围的(这两个范围分别经由他自己所提出的“α型构建”与“β型构建”得到了覆盖),并由此将“甲案”与“乙案”之间的“二择其一”的关系,置换为某种能够使得二者得以“划江而治”的新关系。同时,他还利用他的日语母语优势提出了一种“γ型构建”,作为前两种构建的混合体(见下表的概括)。

饭田提出的构型名称对应的蒯因式解释 日语例句 汉语直译量词的功能

α型构建 甲案三頭の牛三头牛对已然个体化的对象进行数量化

β型构建 乙案三杯のビール三杯啤酒对本未个体化的对象进行个体化

γ型构建 通过案甲再来实施乙案牛三頭分の肉三头牛份的肉通过“对已然个体化的对象进行数量化”,完成对本未个体化的对象的个体化

然而,经由这样的叠床架屋的构建,我们依然无法找到一种关于“为何汉语或日语需要量词”这个问题的统一性解释——我们得到的,只是几种不同解释的外在拼接。用计算机科学的术语来说,按照饭田隆对于蒯因理论的发展模型,一个关于量词的语言处理系统需要安置两到三个不同的算法模型来对应他所说的三种构建——而这样的处理却显然会让系统难以在与三种构建相关的不同表达式之间建立起畅通的推理路径。

而从一个更深的角度来看,正如笔者前文已经提及的,蒯因—威尔曼—饭田隆路线的量词解释方案之所以缺乏内在统一性,根本上或许就是因为:在汉语或日语的量词现象与英语思维对于单—复区分的敏感性之间,本来就是存在着某种张力的。因此,学者们在后一种敏感性的指引下去为前者分类,就很难不导致种种削足适履的结果了。换言之,倘若不“悬置”英语思维对于研究的影响,我们就无法直面汉语或日语中量词现象的“实情”。

三、一种基于汉语演化史与认知语言学的复合式解释

依笔者浅见,要理解汉语中量词所发挥的实质功能,汉语演化史或许能够为我们提供相应的启发。根据张赪先生的研究,[8]量词现象的确在汉语演变的历史中经历了一个“从不显著到日益显著化”的嬗变过程。具体而言,先秦时期上古汉语中量词现象并不多见(或再借用麻爱民先生的话来说,先秦时期是中国量词发展史上的“比较稚嫩的萌芽期”麻爱民:《汉语个体量词的产生与发展》,北京:中国社会科学出版社,2015年,第62页。),而量词使用频度的显著提升,乃是在两汉时期。到魏晋南北朝时期,古汉语中的量词种类则进一步丰富化了。说得更具体一点,如果我们将“枚”这样的量词称为“通用量词”(即可以与各种名词搭配的量词),并将“粒”“口”“乘”称为“专用量词”(即只可与特定名词搭配的量词)的话,那么,根据张赪的统计,在两汉,可以与通用量词搭配的名词有55种,可与专用量词搭配的名词则只有11种;到了魏晋,可以与通用量词搭配的名词种类数目上涨到了75种,而可与专用量词搭配的名词种类的数目则上涨到了43种。

在笔者看来,这样的统计结果显然说明:(1)量词的真实功用或许压根儿就与“个体化机制”或“单复区分”没什么关系,否则我们就必须非常牵强地说:在两汉时期,有一种特别的需要迫使人们在语言中固化了某种“个体化机制”,而在此之前,这样的需要乃是不存在的(但毫无疑问的是,两汉时期中国人与先秦时期的中国人所面对的物理环境是大同小异的,两个时期中国人的认知架构也应当是大同小异的);(2)既然通用量词的发育是先行于专用量词的,那么,通用量词的功能肯定会与专用量词有所差异——而且,专用量词功能的施展又很可能是以通用量词功能的存在为前提的,否则,二者的发育次序就会被颠倒过来。

由此看来,要解决“汉语量词功能”之谜的关键,便是首先要解释清楚为何在两汉时期文献中大量出现了通用量词。对此,冯胜利先生给出了一个颠覆蒯因思维模式的新颖解释:驱使通用量词在两汉大量出现的主要因素,与所谓“个体化语言设施”毫无关联,而是具有明显的韵律学(prosody)面相的。他的大致论证思路如下:两汉时期出现的包含量词表达式通常具有“名词+数词+量词”的结构(如“具桩六枚”“弓二枚”“树一枚”,等等),而这里所说的“数词”也往往是单音节数词(如“一”“二”“三”“百”“万”,而非“十一”“十二”“二十三”等)。换言之,当数词是多音节词时,量词就可以被省略了(譬如,两汉时人们就不说“弓二十枚”,而只说“弓二十”)。这就说明,量词出现的功用就是补足音素,以使得包含单音节数词的名词表达式在音节总数上尽量接近包含多音节数词的名词表达式。或说得更直接一点,通用量词的出现提升了古汉语韵律上的齐一性。[9]

需要注意的是,冯胜利并没有解释为何来自韵律美的这种要求在两汉时期变得急迫起来。很显然,面对这种不对称性,轻描淡写地说“先秦的汉语言说者相对不重视汉语韵律美”,恐怕是不太负责的,因为一个不重视韵律的民族是不可能有《诗经》与《楚辞》的。而对于这种看似怪异的现象,笔者的一个推断是:根据江荻先生对于战国末年出现的《尔雅》的研究,上古汉语基本可以被判定为一种多音节词语言,尽管它也一直在朝向单音节词语言进行着演化。[10]这也就是说,尽管我们不能够断定这种演化在两汉时期是否已经完成,但两汉时期的古汉语肯定要比先秦古汉语更具备浓厚的“单音节词语言”的色彩。而正如我们在前面所分析的,“通过补充量词来增加含单音数词的名词表达式的音节数,使之接近含多音数词的名词表达式的韵律形式”这一说法,也只有在相关语言基本上是一种单音节词语言的前提下才有意义。换言之,是古汉语从多音节词语言到单音节词语言的演化,才使得其韵律形式发生了改变,并使得通用量词的出现实现了韵律学功能。

不过,在笔者看来,仅仅从韵律学的角度猜测汉语量词生产的机制,我们还没有将量词扮演的功能属性真正说透,因为这种假设对汉语量词的“语义属性”关照依然不够。但语义问题本身却是无法被回避的,因为即使就能够与各种名词搭配的通用量词——如两汉时期最流行的“枚”——来说,也很难说它是不具备某种基本语义的(根据许慎的《说文解字》对于“枚”的解释,“榦曰枚”中,“枚”就是“小树枝”的意思)。那么,我们又该怎样解释:为何偏偏是“枚”,而不是别的什么字,成为两汉时期通用量词的首选字呢?

而为了解决这个问题,我们不妨向认知语言学(cognitive linguistics)所擅长的“隐喻”研究借脑。按照认知语言学家权威莱考夫(George Lakoff)与约翰逊(Mark Johnson)在《我们赖以生存的隐喻》[11]中所提出的见解,隐喻不仅仅是一种修辞手段,而且还是人类思想的基本概念组织方式,因为任何一种语义抽象方式其实都是一种隐喻投射方式(比如,本体A与喻体B的接续,就可以被视为“将与B有关的概念图式投射到A之上”的过程)。按照莱考夫等人的这种理解模型,我们不妨就将两汉文献中“枚”与一个名词N的接续,视为“将与‘枚’相关的概念图式投射到N之上”的过程,或者说,“将N的概念图式按照‘枚’的方式加以顺化”的过程。说得再具体一点,按照上述解释模型,在“具桩六枚”“弓二枚”“树一枚”“犬一枚”这样的表达式中,不同的名词品类的原始意像都按照“小树枝”(即“枚”的本义)的意像模式进行了某种结构调整,并由此成为某种像“小树枝”那样可供人类的双手轻易操控的对象。由此,万物之间的差异性得到了一定程度上的淡化,而人类通过语言操控万物的意识也由此得到了一定的加强。

读者或许会追问:为何这种通过语言来削减事物门类之间差异的倾向,会在两汉突然勃兴?对此,笔者不成熟的推断是:汉代作为中国历史上第一个长期稳定存在的统一性王朝,为国家统一货币——五铢钱——在较大时空范围内的稳定流通创造了历史条件,而能够与“钱”这个名词接续的典型量词显然就是“枚”。换言之,“枚”的高频度出现或许就是对于“钱”的一种“借喻”(metonymy),而金钱对于万物差别的“祛差异化效应”或许也借此使得“枚”本身也具备了类似的效应,最终使得其成为两汉最具流通性的量词(当然,我们可能还需要更多的经验证据来验证这一推断)。

读者或许还会问:那么,为何在魏晋时代,“个”作为新的通用名词的地位,慢慢开始赶超“枚”?另外,为何与各类名词的特殊语义相匹配的“特殊量词”也在魏晋得到了发展?

对于这些问题,笔者的浅见如下:从汉末到魏晋再到隋唐,量词出现在汉语名词表达式的方式经历了一个从“名词+数词+量词”到“数词+量词+名词”的结构转换过程,换言之,量词的位置从末尾调整到了中间,而到了宋代,这种转换已经基本定型。宗守云:《汉语量词的认知研究》,北京:世界图书出版社,2012年,第91页。虽然这一结构转换的真实动因依然不明,但可以肯定的是,正是这一转换,改变了包含量词的名词表达式的韵律结构,并使得“枚”在表达式结尾统一韵母的功能不复存在,并由此使得与“枚”不同的其他量词的发展获得了机会。换言之,先前由于“枚”的普遍化而造成的“量词生态位”一旦被稳定下来,那么,更多的语义属性对于这些生态位的占据,就会成为语言演化进程中难以避免的现象——而语义属性的多样性显然就会带来量词品类的多样化,即特殊量词的大量涌现。至于为何在这个过程中“枚”作为通用量词的地位反而遭遇到了来自于“个”与“只”的竞争,一种可能是:“枚”在魏晋时代有被渐渐用作特殊量词的趋势,由此使得新的普遍量词的出现挪移出了生态位。譬如,在两汉人们可以说“树木一枚”“矢一枚”“鸡一枚”“狗一枚”,到了魏晋却必须说“一根∕个∕株树木”“一发∕只矢”“一头∕只鸡”“一个∕头狗”,等等;在两汉,可与“笔”接续的量词只有“枚”,而到了魏晋,“枝”与“管”也可与之接续了。[12]至于“枚”的这种降格化,是否与汉末动乱以来五铢钱地位的暂时下降有关(甚至与政治分裂时局下人们对于事物多样性敏感度的提升相关),则需要更多的经验证据加以验证。

不过,至少可以肯定的是,魏晋以来特殊量词在汉语地位中的快速上升,已经使得量词的语义描述性质开始覆盖其早期的韵律学属性,最终成为汉语中量词的首要属性。这种属性无疑使得汉语言说者在使用形容词之外,具备了一种额外的对名词性质进行范畴归类的手段,或者说,可以方便言说者将某种更抽象的隐喻结构投射到与之相关的名词品类之上。譬如,正如宗守云先生所指出的,量词“条”所具有的关于“长形物”的隐喻图式,便可以通过与特定名词的接续而体现在“一条烟”“一条鞭子”“一条项链”这样的表达式之中,由此使得“烟”“鞭子”“项链”这些名词的空间外观特征的凸显性得到提升。[13]

那么,为何汉语需要通过这种额外的手段对事物的名词进行范畴化,而相关语言现象在英语中却并不明显呢?关于这个问题,日语专家金子孝吉先生的研究或许可作参考(顺便说一句,金子的研究对象虽是日语,但是也提到了其他的亚洲语言,因此其研究成果有一定的跨语言覆盖力)。[14]金子先生所归纳的量词∕助数词功能有:

(1)在某些语境中,与同一个名词接续的不同的量词∕助数词能够帮助语言主体聚焦于名词对象的不同空间位置,由此使得整个表达式的语义发生迁移。譬如,日语表达式“梅一本”就意指“梅树一棵”,“梅一個”就意指“梅果一粒”,“梅一輪”就意指“梅花一朵”。很显然,若用错量词∕助数词,就会导致指称失败。

(2)在日语中,与名词接续的特定量词,可以在名词不出场的情况下起到代词的作用。譬如,若行文中出现了“蝶”这个名词,那么,也正是因为在日语中“蝶”所接续的专用量词就是“羽”,所以,后文中一旦出现“三羽”,读者应当知道这指的就是“三只蝴蝶”。

(3)与人称相关的量词使用,可以表示敬意,比如“方”(读kata)这个词就要比 “人”(读hito)听起来有礼貌得多。由此,量词使用的熟练程度,也间接向语言共同体传达了关于说话者学养与素质的资讯。

(4)量词给出的隐喻图式本身体现了特定民族感知世界的方式——比如,根据金子所转引的贝克(Alton Becker)对于缅语的研究,在缅语中,表示与佛教相关的器物的名词,与渔网、车轮之类的名词,竟然都可以通过同一个表示“圆形”的量词得到接续。之所以如此,是因为从缅甸人所接受的佛教观看来,这些事物的形状与佛教的轮回思想之间存在着某种深刻的呼应关系。也就是说,量词的存在能够为此类文化感受提供更多的表达窗口,有利于传统文化的传承。

虽然金子孝吉提及的上述量词运用方式未必全部在汉语中有直接的对应,但这些语例显然向我们展示出了各种亚洲语言中“量词活用”的巨大逻辑空间,充分证明了量词的重大使用价值,甚至对汉语未来可能的“进化”方向具有一定的提示意义。

现在我们就把文章第三个问题中的讨论结果做一番小结。从汉语演化史的角度看,韵律学方面的因素,加上某些在“大一统”的政治—经济环境下所造成的特殊社会心理,或许是造成两汉时期像“枚”这样的通用量词使用频度大大提高的复合性原因。而一旦这种使用达到了一定的社会流传度,即使是在两汉的“名词+数词+量词”的构词结构慢慢嬗变为“数词+量词+名词”的新结构的情况下,原先通过“枚”所获取的“量词生态位”依然能够得到保留,并为魏晋以后出现的大量特殊量词提供了“插入槽口”。而随着这种“信息插入槽口”的日益增多,语言共同体关于世界感知方式、社会等级、宗教与意识形态的很多隐秘信息,都可以通过量词的活用而得到间接的体现,由此大大丰富了语言的语义推理潜能与审美趣味。

笔者认为,虽然基于汉语演化史与认知语言学的量词功能说明方式的确牵涉到了比较丰富的理论因素与历史细节,但其内在的理论统一性却是很高的。换言之,根据笔者的解释,与蒯因等人的预想彻底相反,量词在东亚语言中的大量出现,与语言言说者对于外部世界的“个体化”与“对象化”需求基本无关,而与语言表征系统内部的某些内在特征更为相关。换言之,量词现象更相关于比较不抽象的“名词认知图式”与比较抽象的“量词认知图式”之间的推理路径的特征。至于这样的“量词认知图式”究竟是应当与特定的韵律学属性发生更密切的关系,还是应当与那些编码了宗教与意识形态信息的语义节点发生更密切的关系,则是一个经验性质的问题,且并不影响“量词在实质上是对于名词品类的一种高阶归类”这一判断在更高层面上的普遍有效性。

如果笔者对于汉语中量词功能的上述理解方式基本上是正确的,倘若我们要在某种计算机的平台上尽量模拟人类对于量词的使用与把握方式的话,那么,这样的计算平台就应当至少具有如下的性质:其一,它应当已然能够轻松地实现对于隐喻结构的表征(因为“量词+名词”的结构本身是一种隐喻投射结构);其二,它应当具有“非公理性特征” ,即可以灵活地允许与名词相关的“量词插位槽”作出新的扩容,以便随时插入新的量词,而不是预先以“公理集”的方式将名词与量词之间的搭配方式全部锁死;[15]其三,它应当具有与系统感知模块的输出进行接驳的潜力,以便在可能的情况下为量词表达式的韵律学属性进行编码;其四,它应当具有通过小的训练样本掌握量词用法的能力,而不是像深度学习技术所要求的那样,需要海量的学习样本(如前所示,这是因为,线上提供的关于汉语量词正确用法的样本数量,总是被种种不正确的用法案例所压倒)。但问题是:我们有这样的计算平台吗?

据笔者所知,目前在全球范围内,最可能将笔者所构想的量词功能解释予以算法化的计算平台,乃是由美国天普大学(Temple University)的计算机科学家王培先生发明的“纳思系统”所提供的。纳思系统的英文全称为“Non-Axiomatic Reasoning System”(非公理推理系统),“NARS”为其缩写,“纳思”为该缩写的汉语音译。大体而言,纳思系统乃是一个具有通用用途的计算机推理系统,而且能够在下述意义上与上面提出的四点要求相互契合:其一,它是一个非公理系统,即能够允许自身的知识库内容随着学习经验的增加而随时改变;其二,它的基本知识表征形式虽然具有“主—谓逻辑”的外观,却允许在某种复杂的递归结构中表征类比推理与隐喻投射;其三,它的基本词项可以是前符号的感知范型,并在这种意义上与感知模块的输出相互接驳;第四,其系统的运作并不依赖于大数据环境的存在,并能够通过比较小的学习样本进行归纳。不过,关于如何具体地将纳思系统的这些特征与“量词刻画”这项具体的任务结合在一起,我们显然还需要另外一个研究项目加以推进。

四、结语:以人工智能为武器来反抗地球的扁平化

正如笔者在文章开头所指出,以英语为思维底色的主流人工智能技术的传播具有“扁平化地球”的某种文化毁灭功能,对维护人类文化的多样性不利。然而,若我们只是空洞地去抗议这种披着技术外壳的文化霸权的扩散的话,恐怕效果会事与愿违,因为“批判的武器”毕竟无法取代“武器的批判”。依笔者浅见,正确的做法便是用保护特定文化特异性的人工智能,去抵抗试图消除这种特异性的人工智能,即以机器的工作效率成倍地提高弱势文化之“弥母”(meme)[16]的传播效率。套用到关于量词的具体案例上说,这样的人工智能将帮助汉语文本的编辑用户充分意识到汉语中量词现象的丰富性与灵活性,并能够在文本编辑过程中为用户提供更多相关方面的构词咨询,由此避免量词表达式在社会传播中的退化。而且,由于量词现象背后的隐喻投射方式天然存在着某种任意性,人工智能系统便能够依据更强大的计算能力自行发明新的隐喻投射方式,由此造成新的量词使用方法供用户选择。依据笔者之见,所有这些举措若得到落实,最终很可能反而会促进量词现象在数码时代的又一次勃发,并使得以后的汉语演化历程,成为机器与人共同书写的新篇章。

同时需要读者注意,除了汉语之外,日语、韩语与泰语中也有丰富的量词现象——而且,在藏语、缅甸语、彝语、羌语等大约二十来种亚洲大陆语言与不少印第安族语言甚至澳洲土语中,量词现象也都是普遍存在的。[17]这就说明了三点:第一,英语思维对于地球文化的“扁平化效应”不仅仅是针对汉语的,而且还针多其他多种文化;第二,有鉴于量词现象客观上的普遍性以及英语文化优势地位之形成所具有的某种历史偶然性,我们有理由认为:恰恰是英语思维方式本身才是具有真正的“地方性”的——或者说,是某种伪装成普遍性的地方性;第三,由于存在着对于各种民族语言中量词现象的统一说明模式(即基于认知语言学的“隐喻”理论的说明模式),因此,从原则上说,一种试用于汉语量词理解的计算程序只要经历过新的学习过程,也是能够把握其他语言中的量词现象的(就像任何一个合格的汉语言说者,都有可能通过特定的学习步骤学会日语中的量词使用一样)。

注释:

[1]DrewMcDermott,“ACritiqueofPureReason,”ComputationalIntelligence,No.3,1987,pp.151-160.

[2] Samuel Bowman et al,“A Large Annotated Corpus for Learning Natural Language Inference,”Proc of the 2015 Conference on Empirical Methods in Natural Language Processing,2015,pp632-642

[3] WVQuine,Ontological Relativity and Other Essays, New York: Columbia University Press, 1969, pp25-39

[4] Marshall Willman,“Ontogenesis and Phylogenies in the Analysis of Chinese Classifiers: Remarks on Philosophical Method,”Frontiers of Philosophy in China,Vol.9,Issue2,2014,pp.538-554.正文中所引用的这个观点见第549-554页。

[5] 参见R. Ballargeon et al,“The Development of Yong Infants Intuitions about Support,”Early Development and Parenting,1992,Vol.1,Issue 1,pp.69-78,有意思的是,威尔曼是意识到这些对他的立论不利的文献的,但是他认为,即使人类婴幼儿的心理能力能够在语言能力获取之前辨别物理对象的边界,其对于外部世界的区分方案依然会被其母语中的区分方案所重塑。但这个说法却预先确定了单、复区分在每一种语言中的基础地位,并没有对该预设有任何反思。参看:Marshall Willman,“Ontogenesis and Phylogenies in the Analysis of Chinese Classifiers: Remarks on Philosophical Method,”Frontiers of Philosophy in China, Vol.9,Issue2,2014,pp.549-554。

[6] Dan Xu,“Introduction: Plurality and Classifiers across Languages of China,” in Dan Xu (ed) ,Plurality and Classifiers across Languages in China,Berlin: De Gruyter, 2012, p.5.

[7] Takashi Iida,“Professor Quine on Japanese Classifiers,”Annals of the Japan Association for Philosophy of Science,No.9,1998,pp.111-118.

[8] Cheng Zhang,“The Relation between the Development of General Classifiers and the Establishment of the Category Numeral-Classifiers in Chinese,”Journal of Chinese Linguistics, Vol.40,Issue 2,2012,pp.307-321.

[9] Shengli Feng,“The Syntax and Prosody of Classifiers in Classical Chinese,” in Dan Xu (ed),Plurality and Classifiers across Languages in China,Berlin: De Gruyter, 2012, pp67-100 一个对冯论有利的额外间接证据是:在景颇族语中,量词现象较哈尼语来说显得不那么发达,而景颇语的名词音节数又恰恰多于哈尼语。如果我们将景颇族语视为“量词萌芽语”而将哈尼语视为“量词成熟语”的话,此两种民族语言的关系正好和先秦古汉语与两汉魏晋古汉语之间的关系互相平行(参见:戴庆厦、蒋颖:《萌芽期量词的类型学特征——景颇语量词的个案研究》,载李锦芳主编:《汉藏语系量词研究》,北京:中央民族大学出版社,2005年)。

[10] 江荻:《尔雅〉词汇形式证明汉语曾是多音节词语言》,《古汉语研究》2014年第3期。

[11] George Lakoff and Mark Johnson,Metaphors We Live By,Chicago: University of Chicago Press,1980 顺便说一句,这里引用的认知语言学观点虽然也是以英语为母语的作者撰写的,但是“打压英语霸权、重视边缘地区语言研究”却恰恰是认知语言学的一个潜在工作预设。因此,对于此类英文著作的引用,并不与本文反对英语思维霸权的整体立论矛盾。

[12] Cheng Zhang,“The Relation between the Development of General Classifiers and the Establishment of the Category Numeral-Classifiers in Chinese,”(汉语通用量词的发展与汉语量词范畴的确立),Journal of Chinese Linguistics,Vol.40,Issue 2,2012,pp.307-321.

[13] 宗守云:《汉语量词的认知研究》,北京:世界图书出版社,2012年,第96页。

[14] 金子孝吉「助数詞と对象分類」『彦根論叢』No327,2000,115-140頁。

[15] 这种功能对于机器理解文学文字非常重要,因为文学家经常会超出日常语言的常规发明新的量词用法。譬如,白先勇先生的《玉卿嫂》中便有“他的嘴唇上留了一转淡青的须毛毛”这样的提法,而“一转毛”显然是白先生自己发明的搭配方式。转引自宗守云:《汉语量词的认知研究》,北京:世界图书出版社,2012年,第92页。

[16] “弥母”是一种可以像基因一样在语言共同体里传播的信息单位。提出者是道金斯[See Richard Dawkins,The Selfish Gene(2n ed),Oxford:Oxford University Press, 1989],随后则依据其理念发育成了一门叫“弥母学”(memetics)的科学。

[17] 中国语言学家已经对境内的少数民族语言使用量词的情况进行了梳理,如李锦芳主编的《汉藏语系量词研究》(北京:中央民族大学出版社,2005年)以及戴庆厦的《臧缅语族语言研究》(昆明:云南民族出版社,1998年)就是代表作。由于取样研究的便利性原因,英语世界的语言学家则对英语国家范围内的少数民族语言的量词使用情况有更为专门的研究。如莱考夫对于澳洲土语德伯尔语中量词使用情况的研究,See George Lakoff,Women,Fire,and Dangerous Things:What Categories Reveal about the Mind,Chicago:Chicago University Press,1987,pp.92-104。返回搜狐,查看更多



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭