AI大模型咋做“阅读理解”?“笨”方法成为解题关键!

你们有没有想过,像那些聊天机器人或者无所不能的AI大语言模型,它们是怎么看懂我们写的字,听懂我们说的话呢?它们又不认识汉字,也不会说中文,这到底是怎么做到的呢?

给每个词一个“秘密代号”

想象一下,我们要教电脑认识小动物。我们不能直接给它看图片,得用一种它能懂的语言——数字!

我们可以给每个小动物打分,比如:

▷ 毛茸茸指数(1分代表不太毛茸茸,10分代表超级毛茸茸)

▷ 汪汪叫指数(1分代表不叫,10分代表很会汪汪叫)

▷ 抓老鼠指数(1分代表不抓,10分代表抓老鼠高手)

那么,“小狗”可能会得到这样的分数:毛茸茸指数 7分,汪汪叫指数 9分,抓老鼠指数 2分。我们可以把这叫做小狗的“秘密代号”:(7, 9, 2)。

“小猫”呢?可能就是:毛茸茸指数 8分,汪汪叫指数 1分,抓老鼠指数 9分。小猫的秘密代号就是:(8, 1, 9)。

你看,“小狗”和“小猫”的秘密代号就不一样。而且,通过比较这些数字,电脑就能“感觉”到它们的不同:哦,一个喜欢汪汪叫,一个擅长抓老鼠!

超级多的“秘密代号”!

刚才我们只用了3个数字来代表小动物。但对于我们人类语言里的每一个词,比如“开心”、“学习”、“天空”、“香蕉”…… 大模型会用超级超级多的数字来给它们“秘密代号”!不是3个,也不是10个,可能是几千个,甚至上万个数字!

在GPT-1 里,每个词用了 768 个数字来表示。在 GPT-3 里,每个词用的是 12288 个数。在 DeepSeekV3 模型里,用的是 7168 个数来表示每个词。

这么多数字,就像给每个词画了一张超级详细的“画像”。电脑虽然看不懂“开心”这两个字,但它能记住“开心”对应的几千个数字代号。

“词嵌入”:把词语放进“数字空间”

科学家们给这种用一大堆数字代表一个词的方法,起了一个酷酷的名字,叫做“词嵌入”,英文叫 Embedding。

“嵌入”是啥意思呢?想象一下我们刚才给小动物打分,如果只用两个分数(比如“毛茸茸指数”和“汪汪叫指数”),我们是不是可以在一张纸上(一个二维平面)画一个点来代表“小狗”,再画一个点代表“小猫”?

▷ 小狗:(毛茸茸7分,汪汪叫9分) -> 在纸上的某个点

▷ 小猫:(毛茸茸8分,汪汪叫1分) -> 在纸上的另一个点

这就好像把“小狗”和“小猫”这两个词,“嵌”入到了这张纸里。

如果用三个分数呢?就像长、宽、高,我们就可以在一个立体空间(比如一个大箱子)里找到一个点来代表它。

而大模型用几千、上万个数字代表一个词,就等于把这个词“嵌”入到了一个超级复杂、我们想象不出来的“高维空间”里!虽然我们画不出来,但在数学上,它是存在的。

数字怎么来的?电脑自己“学”!

那这些代表词语的数字(秘密代号)是怎么定下来的呢?是人一个个设置的吗?当然不是,那太累啦!

大模型在“学习”(训练)的时候,会阅读超级多的文字,比如图书馆里所有的书、网上所有的文章。它会观察哪些词经常一起出现,哪些词意思比较像。

一开始,所有词的数字代号都是乱七八糟的。但通过不断阅读和学习,大模型会慢慢调整这些数字,就像整理房间一样,把意思相近的词,它们的“秘密代号”变得也更接近。比如,“高兴”和“快乐”的秘密代号会很像,它们在那个“数字空间”里的位置也会靠得很近。而“高兴”和“桌子”的秘密代号就会差很远。

一词多义怎么办?看“邻居”!

我们知道,有的词有好几个意思,比如“球”,可以指篮球、足球,也可以指地球。电脑怎么知道我们说的是哪个“球”呢?

别担心!当一个词和其他词一起出现时,这些“邻居”词会给它线索。

▷ 如果你说“踢球”,旁边的“踢”这个词的秘密代号,就会和“球”的秘密代号发生一种奇妙的“化学反应”(其实是数学计算),让“球”的代号更偏向“足球”或“篮球”的意思。

▷ 如果你说“地球”,旁边的“地”字就会让“球”的代号指向我们居住的这个星球。

所以,词语的秘密代号不是一成不变的,它会根据上下文,也就是旁边的“邻居”词,进行微小的调整,变得更准确!

总结一下

所以,大模型理解文字的秘密武器就是:

(1)给每个词一大串数字作为“秘密代号”(词嵌入)。

(2)这些数字能表示词语的意思和它们之间的关系。

(3)意思相近的词,它们的“秘密代号”也相近。

(4)电脑通过阅读海量文字,自己学会怎么给词语定这些代号。

(5)通过词语旁边的“邻居”词,电脑能判断一个词在当前语境下的准确意思。

是不是很有趣?电脑用这种我们看起来有点“笨”的数学方法,竟然就能处理我们复杂又美妙的语言啦!这背后其实是很多聪明的数学和计算在帮忙哦!

供稿单位:重庆市无线电科普体验中心
审核专家:张启义
声明:除原创内容及特别说明之外,部分图片来源网络,非商业用途,仅作为科普传播素材,版权归原作者所有,若有侵权,请联系删除。

主题测试文章,只做测试使用。发布者:参考消息网,转转请注明出处:https://www.cns1952.com/gov/10990.html

(0)
参考消息网的头像参考消息网
上一篇 2025年4月6日 上午10:02
下一篇 2025年4月6日 上午10:02

相关推荐

  • 【大国粮策】“南菜北运”:揭秘舌尖上的“冬春交接”

    当北方银装素裹之时,菜市场的货架上却绽放着岭南春意:广西的番茄水灵莹润,云南的叶菜青翠欲滴……这跨越上千公里的“舌尖上的春天”,正是中国“南菜北运”工程创造的现代奇迹。 每年11月至次年4月,当北方温室进入“冬眠期”,来自南方的蔬菜便搭乘冷链专列,开启北上旅程,用丰饶物产填平南北气候的鸿沟。这场持续半年的蔬菜的“春运”,不仅让北方居民的餐桌四季常青,更在铁路…

    2025年3月26日
    7900
  • 5个看似节省的好习惯,竟然会增加癌症风险!

    “冰冻三尺,非一日之寒。”很多癌症不是短时间内发生的,而是与日常的生活习惯息息相关。特别是一些本不该节省的“节省”,看似好习惯却可能增加癌症风险! 习惯一: 食物坏一点继续吃 水果烂了一小块,面包长了一点霉菌,甘蔗一小段变质了……有的人认为只要把坏掉的部分切除干净,好的地方还可以吃。事实上,食物发霉是由霉菌的生长繁殖引起的。霉变水果的可见霉斑只是“冰山一角”…

    2025年2月8日
    18300
  • 这10个饮食习惯,正在悄悄偷走你的寿命!很多人还不知道

    你的一天是不是这样开始的:清晨匆忙出门,顺手抓一块饼干当早餐; 中午赶工扒拉几口饭,5 分钟解决战斗; 深夜加班后,再来一顿重口味宵夜…… 这些看似“当代生存标配”的饮食习惯,可能正悄悄偷走你的寿命。《柳叶刀》数据显示,全球每年因不良饮食导致的死亡人数超过 1100 万[1] 。 今天我们就来盘点 10 个折寿饮食习惯,用科学证据告诉你:有些“吃法”,可能比…

    2025年4月1日
    6800
  • 全国肿瘤防治宣传周|一文全览!十大癌种早筛“宝典”

    癌症,这个令人闻之色变的疾病,正悄然成为威胁人类健康的一大杀手。但随着科技的进步,现代医学为我们带来了新的希望——肿瘤早筛。 您知道吗?癌症并非不可战胜,关键在于早发现、早治疗。肿瘤早筛,作为守护健康的“第一道防线”,其重要性不言而喻。 北京大学人民医院权威专家团为您详细解读肿瘤早筛的重要性,并介绍常见十大肿瘤的早筛项目。 一、肿瘤早筛:生命健康的“透视眼”…

    2025年4月17日
    5000
  • 韩国客机事故致179人罹难! “飞鸟撞机”有多致命?

    当地时间12月29日,一架韩国济州航空的客机在位于韩国全罗南道的务安机场着陆时,偏离跑道后撞上机场围墙。机上175名乘客和6名机组人员除2名乘务员获救,其余179人全部遇难。这是在韩国国内发生的伤亡最严重的空难事故。 这是12月29日在韩国务安机场拍摄的事故救援现场。新华社/纽西斯通讯社 据韩国媒体报道,失事客机机型为波音737-800,机龄15年。该客机准…

    2024年12月30日
    19100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信