Cointime

扫码下载App
iOS & Android

上帝训练人脑用了多少数据?

大数据时代发展至今,随着ChatGPT为代表的LLM的崛起,人类算是一只脚迈进入了“智力付费时代”。

但LLM依然是基于大语料数据的预训练模型,这里大数据的量是非常惊人的。根据基于GPT-3.5-turbo的Phind.com上反馈的数据,GPT-3的训练使用了来自5700亿个网页的45TB的数据。

那么,一个有趣的问题就出现了:上帝训练人脑用了多少数据?

当然,我们先要旗帜鲜明地认清一个现实,那就是虽然我们下面讨论的是人听说读写到的字符数,但大自然训练人脑时用的可不只是这些字符,还包括说话时的语气、语速、音调变化、曲调旋律、表情、神态、眼神飘忽情况,等等等等。所以实际信息量是远远远大于下面的计算结果的。

声明完毕,下面开始正式的扯淡。

先来看一个问题:人脑的数据训练大概从什么时候开始训练到什么时候?

如果只局限在文字的训练上的话,那么一般来说人类的小孩在6个月的时候就能听懂简单的命令,12个月左右时能说出第一个简单的单词,18个月左右拥有简单组合词汇形成语句的能力,2岁大的时候就能拥有复杂的语言能力,4岁左右能识别与书写简单的字母与词汇,8岁基本掌握书写与阅读能力。

但如果说的是信息接受的话,那基本上在离开母亲身体之前就已经开始接受信息了,但此时到底能否训练大脑神经网络还不好说——胎教的话不要随便乱信。

而人的大脑皮层25岁到30岁才勉强算是发育成熟,但要说不再有新神经元发育的话,那最晚可以到90岁。

所以,我们就简单一点,从2岁开始一直到27岁,都认为是大自然在训练大脑的时间,总共历时25年。

接着,让我们来估算一下每天接触到的数据量吧,以文本信息为例,包括自己说的、写的,从外界看到与听到的,这四大项。

先看每个人每天要说几句话吧。

根据2007年美国人的一份针对396人(其中210位生理女性与186位生理男性)的跟踪调查报告,生理女性平均每天要说16215个英文单词,生理男性平均每天要说15669个英文单词。按照每个英文单词平均包含5.1个英文字母来说,美国人2007年每天,生理男性要说79912个字母,生理女性则要说82697个字母。

中文和英文的单词量之比大约是2:1,而中文的单词一般都包含2~3个汉字,有些成语啊俗语啊还会更多,所以我们差不多可以说中文用字数和英文用字母数是同一个量级的(信息量当然差海了去了)。

因此,这个结果我们可以简单地将其推而广之,作为目前人类平均每天要说出口的文本量,这样平均下来就是81304个字符——当然,一个中文字符按照UNICODE编码规则就是2个英文字符,按照UTF-8或UTF-16甚至UTF-32编码的话还可以更大,不过这里先简单算个字符数。

也就是说,根据我们的估算,人类每天平均要输出8.13万个字符。

听的情况则要更难估算,因为强烈依赖于每个人所处的环境,包括工作等等。

人们平均的说话语速是每分钟125到150个英文单词,不同语言可能会有不同,我们这里还是以此来估算(英文这方面调查资料较多)。

人们每天耳朵至少有6到8个小时在不停接受外界的声音信息——无论是和你的对话,还是别人的对话飘入了你的耳朵,或者听的音乐和电视剧,等等。而且和眼睛不同,这种信息的接受是很难阻断的(当然,现在有降噪耳机,但你戴着降噪耳机总会听点音乐的吧?总不能是为了享受虚无中的宁静吧?),其中就算只有80%进入了你的意识、潜意识与无意识,从而可以用于训练你的大脑。

这样,我们可以估算出每个人每天大约要听到46200个英文单词,也就是差不多235620个字符。

接下来,我们看看读的情况。

每天平均阅读多少时间是一个很难估算的值,因为不同地区的结果会有很大的不同。比如根据2019年的调查结果,美国人的日均阅读时长是65分钟,而英国人是25分钟,印度人是10分钟,一些战乱地区恐怕根本没有阅读时间。而另一方面,这里统计的是正儿八经看书、报纸、杂志的时间,但我们每天会看很多工作上的东西,比如表格、合同、同事写的总结报告,而一些特殊工种比如图书编辑,每天8小时上班的主要工作就是看书,学生每天看书时间也比一般成年人要长,等等。

平均就算每个人每天要花60分钟来阅读各种资料吧。

而一般人阅读的时候每分钟能吸收200到300个单词,平均就算250个单词好了,因此可以估算出每个人每天大约要看15000个单词也就是76500个字符。

写的就更少了,根据国内的一项调查,每个人每天大约要写7000个汉字,但这里有很大一部分是作家群体贡献的,在我们所考虑的2到27岁这个年龄段里,这个值恐怕要小一点,这部分是因为学生会拉大这个时长,另一部分是已经步入职场的成年人反而会缩小这个时长。所以我们可以大致认为,这个年龄段里,每个人每天大约要写5000个字符。

好了,数据到目前为止都准备好了:

  • 每天要说8.13万个字符
  • 每天要听23.56万个字符
  • 每天要读7.65万个字符
  • 每天要写5000个字符

这些数据,部分算是自监督学习,部分算是基于监督学习的“精调”,所以基本上可以认为和GPT的养成之路是很接近的——当然,对于人类主义者来说我这话就太冒犯了,人类怎么能和机器一样?真是大逆不道啊!拉出去TJJTDS!

但无论如何,至少我们可以知道,25年下来用于训练人脑的数据集大约有(考虑到上面估算的字符数在非英语环境下未必就是计算机可识别的1个字符,所以按照UTF-8编码规则,取一个平均值为2吧)7.27GB。

这个训练数据集还真不是一般的小啊……只有GPT-3训练所需数据量的1.62%。

当然,这里所说的都只是文字数据,现实生活中还包含大量别的信息,但这就属于是多模态的范围了,这里不深入考虑。

从这点来看,目前的GPT还真的是高射炮打蚊子,之所以表现如此抢眼,讲究的还是大力出奇迹。

但我们也要看到:如果让一个人只能接受文字信息而不能接受别的模态的信息的话,他有极大的概率无法达到GPT那样的对话能力。

从这个角度来说,认定GPT的路子走偏了还为时尚早,但同样的,将GPT认定为AGI之路也过于轻佻了。

AGI目前看来距离我们人类还需要等一段时日,就个人来看,不应对GPT抱有不切实际的热望,但就此认定GPT不过就是狗屁通也属实夜郎自大了——当然,我还是会叫GPT为狗屁通,因为他有的时候给的回复还真就是狗屁通:和狗屁不通相比,它读起来是通的,但狗屁还是狗屁。

评论

所有评论

推荐阅读

  • 美FDIC拟为寻求发行支付稳定币的受监管机构建立申请程序

    美国联邦存款保险公司(FDIC)宣布批准一项拟议规则,为寻求发行支付稳定币、并且受联邦存款保险公司监管的机构建立申请程序,目前已开启为期 60 天的公众评论期,据悉这是《GENIUS 法案》 “美国稳定币创新法案 ”通过后首个正式的规则制定提案。

  • BTC突破88000美元

    行情显示,BTC突破88000美元,现报88002.21美元,24小时涨幅达到1.34%,行情波动较大,请做好风险控制。

  • Bitwise认为2026年处于加密货币牛市并发布十大预测

    Bitwise认为2026年将是加密货币牛市的一年。从机构采用到监管进步,加密货币目前积极的趋势过于强劲,难以长期被压制。以下是Bitwise对未来一年的十大预测。 预测 1:比特币将打破四年周期,创下历史新高。 预测 2:比特币的波动性将低于英伟达。 预测 3:随着机构需求加速,ETF将购入超过100%的新增比特币、以太坊和Solana供应量。 预测 4:加密货币股票的表现将优于科技股。 预测 5:Polymarket 的未平仓合约量将创下历史新高,超过 2024 年大选时的水平。 预测 6:稳定币将被指责破坏新兴市场货币的稳定。 预测 7:链上金库(又称“ETF 2.0”)的资产管理规模将翻一番。 预测 8:以太坊和 Solana 将创下历史新高(如果 CLARITY 法案获得通过)。 预测9:常春藤盟校一半的捐赠基金将投资加密货币。 预测10:美国将推出超过100只加密货币挂钩ETF。 额外预测:比特币与股票的相关性将会下降。

  • 中国置业投资计划购买并持有BNB作为战略储备资产

    中国置业投资(00736)发布公告,为推进公司资产配置多元化及把握数字经济发展机遇的战略,已决议公司计划使用自有资金,在遵守相关法律法规及风险管控的前提下,于公开市场购买并持有BNB (Binance Coin)及其他合适的数字资产,作为公司的战略储备资产。公司长期看好数字资产行业的发展前景,并对BNB所依托的运营主体及其技术研发、生态布局与行业竞争力抱有充分信心,认可其在区块链领域的长期发展潜力与价值成长空间。 该计划拟动用的资金全部来源于公司现有的自有资金,资金调配符合公司财务管理规範及整体经营规划,不会影响公司日常业务的正常开展。董事会将根据市场情况,在授权额度内分批实施购买。

  • 美国白宫国家经济委员会主任哈塞特:在供应方面出现积极冲击的情况下,降息仍存在许多空间。

    美国白宫国家经济委员会主任哈塞特:在供应方面出现积极冲击的情况下,降息仍存在许多空间。

  • 稳定币支付公司 RedotPay 完成 1.07 亿美元 B 轮融资

    专注于稳定币支付的香港金融科技公司 RedotPay 宣布完成 1.07 亿美元 B 轮融资,Goodwater Capital 领投,Pantera Capital、Blockchain Capital 和 Circle Ventures,以及现有投资者 HSG(前身为红杉资本中国)参投。

  • 币安 Alpha 将于 22:00 上线 Theoriq(THQ)

    币安 Alpha 上线 Theoriq(THQ),Alpha 交易将于 2025 年 12 月 16 日 22:00(UTC+8)开始。持有至少 220 个币安 Alpha 积分的用户可申领代币空投。在 Alpha 活动页面申领 400 个 THQ 代币空投。 本次活动采用“扣分递减”模式,活动开始的第一分钟,申领空投将消耗 30 个币安 Alpha 积分。若活动未结束,此后每过一分钟,领取所需消耗的积分将减少 1 分,最低可降至 10 个积分。

  • 美国10月政府部门就业人口大减15.7万人

    美国劳工统计局公布11月非农报告和10月部分非农数据,数据显示,美国11月非农就业人数增加6.4万人,各行业中,增幅最大的是医疗保健和社会援助行业,为6.4万人,减幅最大的是运输和仓储行业,为减少1.77万人。10月份非农就业人数大减10.5万人,其中减幅最大的是政府部门,大减15.7万人,为连续两个月录得就业岗位减少;增幅最大的是医疗保健和社会援助行业,为增加6.46万人。

  • 美国10月就业人数出现2020年底以来的最大降幅

    美国劳工统计局周二公布的数据显示,11月份非农就业人数增加了6.4万人,而10月份减少了10.5万人。上个月的失业率为4.6%,高于9月份的4.4%,为2021年以来的最高水平。美国劳工统计局不得不放弃公布10月份的失业率,因为它无法在政府关门后追溯收集该数据。而10月份就业人数的下降是自2020年底以来的最大降幅,原因是参加特朗普政府的买断辞职计划的工人正式退出就业名单,联邦政府就业人数减少了16.2万人。

  • 美国11月失业率意外上升或引发美联储关注 劳动参与率回升料缓解部分担忧

    分析师Anstey速评美国非农报告指出,11月非农就业数据小幅高于预期,录得6.4万个。11月失业率意外升至4.6%,这可能引起美联储的关注。不过劳动参与率有所上升,因此失业率的上升未必完全是坏消息,我们还需细看具体数据。美国股指期货走高,两年期美债收益率下跌——基于过去数月非农就业数据的疲软表现,市场对美联储进一步放宽货币政策的预期有所升温。需注意的是,8月和9月的数据也被合计下修了3.3万。