人类语言为何不同于计算机代码

2月20日，《科学日报》网站刊文，题目叫《科学家揭示人类语言为何不同于计算机代码》。这篇文章讲，我们说话的时候其实不需要用“1和0”这样的二进制代码。美国加州大学欧文分校的理查德·富特雷尔还有德国的迈克尔·哈恩共同搞了个模型，就是想弄明白为什么人类语言是这样的。计算机用的是超紧凑的二进制字符串，看上去效率很高。但是对我们的大脑来说，这样反而更费劲。哈恩觉得，要是把语音全都编成二进制的0和1，理论上肯定更紧凑，压缩起来更方便。但咱们平时说话可不是这样。哈恩打了个比方说，你每天上下班开车的路线都很熟悉，脑子早就记住了下一秒会发生啥。这样开车不累。但要是选一条不熟悉的新路，脑子就得一直保持清醒去注意路况，会累死人。这就是为什么人类语言虽然看起来杂乱无章，效率也不高，但咱们的大脑就爱这么说话。它是围绕着咱们熟悉的词和现实世界的体验构建的。你看全世界大约有7000种语言，中文、英文、西班牙语这些大语种有几十亿人在用。大家把词组合成短语，再排成语句来表达意思。虽然这些语言没被最大限度地压缩，但让大脑承担的压力反而小多了。因为咱们处理词汇的时候会跟已知的世界不断互动。富特雷尔和哈恩用数学方法证明了这点。他们发现人类语言最看重的是减轻认知负担，而不是追求最大程度的压缩。他们的研究成果最近发表在《自然·人类行为》上。王会聪把这篇文章翻译出来了。研究人员表示，这些发现可能会帮到AI大语言模型的改进。如果AI能理解人类大脑怎么处理语言，设计出来的系统肯定会更自然、更符合咱们的交流习惯。