上帝训练人脑用了多少数据？

大数据时代发展至今，随着ChatGPT为代表的LLM的崛起，人类算是一只脚迈进入了“智力付费时代”。

但LLM依然是基于大语料数据的预训练模型，这里大数据的量是非常惊人的。根据基于GPT-3.5-turbo的Phind.com上反馈的数据，GPT-3的训练使用了来自5700亿个网页的45TB的数据。

那么，一个有趣的问题就出现了：上帝训练人脑用了多少数据？

当然，我们先要旗帜鲜明地认清一个现实，那就是虽然我们下面讨论的是人听说读写到的字符数，但大自然训练人脑时用的可不只是这些字符，还包括说话时的语气、语速、音调变化、曲调旋律、表情、神态、眼神飘忽情况，等等等等。所以实际信息量是远远远大于下面的计算结果的。

声明完毕，下面开始正式的扯淡。

先来看一个问题：人脑的数据训练大概从什么时候开始训练到什么时候？

如果只局限在文字的训练上的话，那么一般来说人类的小孩在6个月的时候就能听懂简单的命令，12个月左右时能说出第一个简单的单词，18个月左右拥有简单组合词汇形成语句的能力，2岁大的时候就能拥有复杂的语言能力，4岁左右能识别与书写简单的字母与词汇，8岁基本掌握书写与阅读能力。

但如果说的是信息接受的话，那基本上在离开母亲身体之前就已经开始接受信息了，但此时到底能否训练大脑神经网络还不好说——胎教的话不要随便乱信。

而人的大脑皮层25岁到30岁才勉强算是发育成熟，但要说不再有新神经元发育的话，那最晚可以到90岁。

所以，我们就简单一点，从2岁开始一直到27岁，都认为是大自然在训练大脑的时间，总共历时25年。

接着，让我们来估算一下每天接触到的数据量吧，以文本信息为例，包括自己说的、写的，从外界看到与听到的，这四大项。

先看每个人每天要说几句话吧。

根据2007年美国人的一份针对396人（其中210位生理女性与186位生理男性）的跟踪调查报告，生理女性平均每天要说16215个英文单词，生理男性平均每天要说15669个英文单词。按照每个英文单词平均包含5.1个英文字母来说，美国人2007年每天，生理男性要说79912个字母，生理女性则要说82697个字母。

中文和英文的单词量之比大约是2:1，而中文的单词一般都包含2~3个汉字，有些成语啊俗语啊还会更多，所以我们差不多可以说中文用字数和英文用字母数是同一个量级的（信息量当然差海了去了）。

因此，这个结果我们可以简单地将其推而广之，作为目前人类平均每天要说出口的文本量，这样平均下来就是81304个字符——当然，一个中文字符按照UNICODE编码规则就是2个英文字符，按照UTF-8或UTF-16甚至UTF-32编码的话还可以更大，不过这里先简单算个字符数。

也就是说，根据我们的估算，人类每天平均要输出8.13万个字符。

听的情况则要更难估算，因为强烈依赖于每个人所处的环境，包括工作等等。

人们平均的说话语速是每分钟125到150个英文单词，不同语言可能会有不同，我们这里还是以此来估算（英文这方面调查资料较多）。

人们每天耳朵至少有6到8个小时在不停接受外界的声音信息——无论是和你的对话，还是别人的对话飘入了你的耳朵，或者听的音乐和电视剧，等等。而且和眼睛不同，这种信息的接受是很难阻断的（当然，现在有降噪耳机，但你戴着降噪耳机总会听点音乐的吧？总不能是为了享受虚无中的宁静吧？），其中就算只有80%进入了你的意识、潜意识与无意识，从而可以用于训练你的大脑。

这样，我们可以估算出每个人每天大约要听到46200个英文单词，也就是差不多235620个字符。

接下来，我们看看读的情况。

每天平均阅读多少时间是一个很难估算的值，因为不同地区的结果会有很大的不同。比如根据2019年的调查结果，美国人的日均阅读时长是65分钟，而英国人是25分钟，印度人是10分钟，一些战乱地区恐怕根本没有阅读时间。而另一方面，这里统计的是正儿八经看书、报纸、杂志的时间，但我们每天会看很多工作上的东西，比如表格、合同、同事写的总结报告，而一些特殊工种比如图书编辑，每天8小时上班的主要工作就是看书，学生每天看书时间也比一般成年人要长，等等。

平均就算每个人每天要花60分钟来阅读各种资料吧。

而一般人阅读的时候每分钟能吸收200到300个单词，平均就算250个单词好了，因此可以估算出每个人每天大约要看15000个单词也就是76500个字符。

写的就更少了，根据国内的一项调查，每个人每天大约要写7000个汉字，但这里有很大一部分是作家群体贡献的，在我们所考虑的2到27岁这个年龄段里，这个值恐怕要小一点，这部分是因为学生会拉大这个时长，另一部分是已经步入职场的成年人反而会缩小这个时长。所以我们可以大致认为，这个年龄段里，每个人每天大约要写5000个字符。

好了，数据到目前为止都准备好了：

每天要说8.13万个字符
每天要听23.56万个字符
每天要读7.65万个字符
每天要写5000个字符

这些数据，部分算是自监督学习，部分算是基于监督学习的“精调”，所以基本上可以认为和GPT的养成之路是很接近的——当然，对于人类主义者来说我这话就太冒犯了，人类怎么能和机器一样？真是大逆不道啊！拉出去TJJTDS！

但无论如何，至少我们可以知道，25年下来用于训练人脑的数据集大约有（考虑到上面估算的字符数在非英语环境下未必就是计算机可识别的1个字符，所以按照UTF-8编码规则，取一个平均值为2吧）7.27GB。

这个训练数据集还真不是一般的小啊……只有GPT-3训练所需数据量的1.62%。

当然，这里所说的都只是文字数据，现实生活中还包含大量别的信息，但这就属于是多模态的范围了，这里不深入考虑。

从这点来看，目前的GPT还真的是高射炮打蚊子，之所以表现如此抢眼，讲究的还是大力出奇迹。

但我们也要看到：如果让一个人只能接受文字信息而不能接受别的模态的信息的话，他有极大的概率无法达到GPT那样的对话能力。

从这个角度来说，认定GPT的路子走偏了还为时尚早，但同样的，将GPT认定为AGI之路也过于轻佻了。

AGI目前看来距离我们人类还需要等一段时日，就个人来看，不应对GPT抱有不切实际的热望，但就此认定GPT不过就是狗屁通也属实夜郎自大了——当然，我还是会叫GPT为狗屁通，因为他有的时候给的回复还真就是狗屁通：和狗屁不通相比，它读起来是通的，但狗屁还是狗屁。

最近浏览

热门币种

每日趋势

每日必读

欢迎回来

注册账号

使用 email 登录

使用 email 注册

检查您的收件箱

所有评论

推荐阅读

美联储的新利率预测有可能影响市场

以色列的袭击未能突破伊朗核设施的保护层

伊朗要求联合国安理会召开紧急会议

伊朗方面称以色列总理专机已离开本-古里安机场

伊朗最高领导人将在以色列的袭击后发表声明

以色列官员：以色列在伊朗问题上已与华盛顿完全协调

伊朗：以色列和美国将付出沉重代价

哈梅内伊高级顾问或成下一个目标

发布1周年，一文理清ChatGPT时间线

ChatGPT语音功能向所有用户免费开放

每日必读

a16z：Crypto 与 AI 融合的 11 个应用场景

后量子时代前夜：比特币如何构建下一代安全防线？

鲍威尔出席美联储国际金融司活动：缅怀费希尔，重申全球经济研究重要，不谈政策前景

比特币 2025 万斯演讲全文：数字资产是美国人个人自由的象征与推动力

HYPE 价格屡创新高 Hyperliquid 生态全景速览

起底 Witkoff 父子：特朗普好友、中东特使与加密富豪

热门标签

分享