2月20日,《科学日报》网站刊文,题目叫《科学家揭示人类语言为何不同于计算机代码》。这篇文章讲,我们说话的时候其实不需要用“1和0”这样的二进制代码。美国加州大学欧文分校的理查德·富特雷尔还有德国的迈克尔·哈恩共同搞了个模型,就是想弄明白为什么人类语言是这样的。 计算机用的是超紧凑的二进制字符串,看上去效率很高。但是对我们的大脑来说,这样反而更费劲。哈恩觉得,要是把语音全都编成二进制的0和1,理论上肯定更紧凑,压缩起来更方便。但咱们平时说话可不是这样。哈恩打了个比方说,你每天上下班开车的路线都很熟悉,脑子早就记住了下一秒会发生啥。这样开车不累。但要是选一条不熟悉的新路,脑子就得一直保持清醒去注意路况,会累死人。 这就是为什么人类语言虽然看起来杂乱无章,效率也不高,但咱们的大脑就爱这么说话。它是围绕着咱们熟悉的词和现实世界的体验构建的。你看全世界大约有7000种语言,中文、英文、西班牙语这些大语种有几十亿人在用。大家把词组合成短语,再排成语句来表达意思。 虽然这些语言没被最大限度地压缩,但让大脑承担的压力反而小多了。因为咱们处理词汇的时候会跟已知的世界不断互动。富特雷尔和哈恩用数学方法证明了这点。他们发现人类语言最看重的是减轻认知负担,而不是追求最大程度的压缩。 他们的研究成果最近发表在《自然·人类行为》上。王会聪把这篇文章翻译出来了。研究人员表示,这些发现可能会帮到AI大语言模型的改进。如果AI能理解人类大脑怎么处理语言,设计出来的系统肯定会更自然、更符合咱们的交流习惯。