九二中文网 www.92zw.net,学霸从谈恋爱开始无错无删减全文免费阅读!
了桌前,他把今天在学术会议上所学习到的归纳整理到了一个小本本上,elmo的删减法与变形金刚编码器-解码器的解构,以此来搭建一个全新的预训练模型。
苏飞快速地在小本本上写写画画,脑海深处源源不断地涌出灵感,一遍遍冲刷着他的思想。
苏飞首先想到的是韩国小哥的那个学习elmo的删减法,不能过度删减,因此……
“根据注意力机制的位置信息和elmo的单层结构特性,应该可以把整个解码器部分删减,编码器完全留下,结构上可以这样……”
苏飞大笔一挥先把变形金刚删了一大半,随后根据麻省理工学子的解构方法进行小范围地修修改改,直到把大致的模型结构图画好。
“既然舍弃了变形金刚端到端算法的优势,那么就无法做机器翻译这种任务了,但其他任务能正常进行就无伤大雅……”
苏飞颇为认真地自言自语道。
想要把变形金刚做成预训练模型,那就必然要割舍一些功能,这一点苏飞倒是早有准备。
“但是如果要做预训练模型,如何才能让它训练词向量或者图向量本身……”
苏飞的笔一下子就顿住了。
这就是问题所在了,学会上也暂时没人提出相关理论……如果提出了这个相关的理论,那变形金刚的预训练化怕是已经被别人摘去了。
苏飞也不相信有人特么的能这么快。
苏飞猜测这个问题的解决方案大概率是和变形金刚的遮盖(mask)机制有关。
思路既然有了……不清楚过程的话,一张灵感激发卡!
苏飞现在可是豪横得很,1000积分的灵感激发卡那是眼睛也不眨一下。
苏飞毫不犹豫地使用了灵感激发卡,随着灵感激发卡的澹澹光芒涌入苏飞的脑海,他原本停滞下来的灵感就如同脱缰的野马一般,庞大的信息流在他的脑海中炸裂开。
但是现在有着24点精神力的苏飞,没有以往那种明显的超负荷感觉,他食指和拇指捏着眉心偏下一点的位置,他只觉得眼前有无数的公式和模型图飞逝而过,而且他能感觉到,这些公式和模型图仿佛就存在他脑海的某一处,现在就仿佛只是简单地把它们提取出来。
“奇怪的感觉……但还真不错。”
就像是化作了一个小光人被抽离出这个世界,去了另一个满是知识的世界一样……
简单来说,在那一刹那,苏飞变成了光。
“唔……原来遮盖机制是这样使用的,如果是做自然语言处理,只需要按照一定概率把一句话的数个单词遮盖掉,然后让预训练模型去预测被遮盖的这个单词本身,而训练结果就是被预测单词本身,就能起到微调词向量的效果……”
不得不说,这想法非常简单,苏飞甚至有一种白白浪费了一张灵感激发卡的感觉。
明明想到遮盖机制的时候已经离正确答桉只有一墙之隔了……
罢了罢了,终究是事后诸葛亮,就像数学考试总有一道题目就感觉差临门一脚,看了答桉才直呼自己笨,但终究还是差了那么点。
苏飞在消化了这股庞大的信息流后,他的意识逐渐回到了自己身体上。
看着桌子前的台灯和纸笔,苏飞突然感觉有点陌生,之前心念一动就有无数公式浮上心头,意识中都已经把模型结构图和公式证明全部完成了,现实中还得手写……
苏飞在小本本空白的位置上,一字一顿地写上新论文的标题名【bidirecoder representations from transformers】。
意为来源于变形金刚的双向编码器向量表示。
这个论文的标题和elmo的标题书写方式是一样的,只不过elmo是致敬了taglm,但这篇新论文纯属是自己致敬自己了。
【讲真,最近一直用野果阅读看书追更,换源切换,朗读音色多,.yeguoyuedu 安卓苹果均可。】
现在变形金刚爆火,自己蹭自己的热度嘛,不丢人,何况,未来到底哪篇蹭哪篇还真不一定。
毕竟预训练模型的效果一般都是高于单一模型的。
当然,苏飞还有一个小小的恶趣味,这篇新论文的每个英文单词的第一个拼在一起就是这个预训练模型的名字——bert。
bert也是美国少儿向电视剧芝麻街的主人公之一,那长土豆一样的黄色可爱脸蛋,吸引了世界上不少孩童的目光,也是现在的不少人们心目中的童年回忆。
之前的elmo完全就是无心之失,苏飞自己也没想到一不小心就凑上了埃蒙这个芝麻街小可爱的名字,但这次的伯特,苏飞可以很骄傲地说,俺就是凑的,而且凑的还相当不错,这个标题甚至还把这篇论文的主要内容一笔点出。
值得苏飞有些担忧的是,芝麻街中还有一个叫恩尼的小可爱,不少人怀疑它和伯特是同性恋,到时候不会真有人也硬凑了个恩尼的模型名字吧……
苏飞写写改改,把bert的大致思路和内容都记载在了这个小本本上,只要在回校之后做个模型,跑个实验,这篇新论文就搞定了。
老实说,这篇论文其实主要还是借鉴了变形金刚的工作,所以对于苏飞来说,这篇论文的构思比之前的两篇都要简单很多。
但苏飞毫不怀疑它的效果,正如埃蒙比长短期记忆神经网络模型的效果好上一两成一样,伯特也必然会比变形金刚的效果好上一两成。
在创造了伯特后,苏飞打了个哈欠,他看了眼时间,已经接近十一点,两天没睡觉再加上一张灵感激发卡消耗了不少精神力的他,终于有些困倦,躺到床上倒头就睡。
…
…
等到第二日日上三竿的时候,苏飞才悠悠然起床,手机上收到了好几个vx未接电话还有王正和姜大校花两人的留言。
虽说学术会议不会强制参会者们参加每一天每一场的海报交流和学术交流,但acl这种顶会,基本没几个人愿意错过任何一场学术报告,所以导师们一般都会监督自家的学生们认真参与学术会议。
当然,苏飞也算是个例外,这学生着实有些太勐……王正和鲁超倒不是监督他参加学术交流的,而是单纯因为联系不上他而有些担忧他的安全,毕竟这可是美国。
苏飞给几人一一回信后,叼了块面包,拿了瓶酸奶就悠哉地前往acl会场。
了桌前,他把今天在学术会议上所学习到的归纳整理到了一个小本本上,elmo的删减法与变形金刚编码器-解码器的解构,以此来搭建一个全新的预训练模型。
苏飞快速地在小本本上写写画画,脑海深处源源不断地涌出灵感,一遍遍冲刷着他的思想。
苏飞首先想到的是韩国小哥的那个学习elmo的删减法,不能过度删减,因此……
“根据注意力机制的位置信息和elmo的单层结构特性,应该可以把整个解码器部分删减,编码器完全留下,结构上可以这样……”
苏飞大笔一挥先把变形金刚删了一大半,随后根据麻省理工学子的解构方法进行小范围地修修改改,直到把大致的模型结构图画好。
“既然舍弃了变形金刚端到端算法的优势,那么就无法做机器翻译这种任务了,但其他任务能正常进行就无伤大雅……”
苏飞颇为认真地自言自语道。
想要把变形金刚做成预训练模型,那就必然要割舍一些功能,这一点苏飞倒是早有准备。
“但是如果要做预训练模型,如何才能让它训练词向量或者图向量本身……”
苏飞的笔一下子就顿住了。
这就是问题所在了,学会上也暂时没人提出相关理论……如果提出了这个相关的理论,那变形金刚的预训练化怕是已经被别人摘去了。
苏飞也不相信有人特么的能这么快。
苏飞猜测这个问题的解决方案大概率是和变形金刚的遮盖(mask)机制有关。
思路既然有了……不清楚过程的话,一张灵感激发卡!
苏飞现在可是豪横得很,1000积分的灵感激发卡那是眼睛也不眨一下。
苏飞毫不犹豫地使用了灵感激发卡,随着灵感激发卡的澹澹光芒涌入苏飞的脑海,他原本停滞下来的灵感就如同脱缰的野马一般,庞大的信息流在他的脑海中炸裂开。
但是现在有着24点精神力的苏飞,没有以往那种明显的超负荷感觉,他食指和拇指捏着眉心偏下一点的位置,他只觉得眼前有无数的公式和模型图飞逝而过,而且他能感觉到,这些公式和模型图仿佛就存在他脑海的某一处,现在就仿佛只是简单地把它们提取出来。
“奇怪的感觉……但还真不错。”
就像是化作了一个小光人被抽离出这个世界,去了另一个满是知识的世界一样……
简单来说,在那一刹那,苏飞变成了光。
“唔……原来遮盖机制是这样使用的,如果是做自然语言处理,只需要按照一定概率把一句话的数个单词遮盖掉,然后让预训练模型去预测被遮盖的这个单词本身,而训练结果就是被预测单词本身,就能起到微调词向量的效果……”
不得不说,这想法非常简单,苏飞甚至有一种白白浪费了一张灵感激发卡的感觉。
明明想到遮盖机制的时候已经离正确答桉只有一墙之隔了……
罢了罢了,终究是事后诸葛亮,就像数学考试总有一道题目就感觉差临门一脚,看了答桉才直呼自己笨,但终究还是差了那么点。
苏飞在消化了这股庞大的信息流后,他的意识逐渐回到了自己身体上。
看着桌子前的台灯和纸笔,苏飞突然感觉有点陌生,之前心念一动就有无数公式浮上心头,意识中都已经把模型结构图和公式证明全部完成了,现实中还得手写……
苏飞在小本本空白的位置上,一字一顿地写上新论文的标题名【bidirecoder representations from transformers】。
意为来源于变形金刚的双向编码器向量表示。
这个论文的标题和elmo的标题书写方式是一样的,只不过elmo是致敬了taglm,但这篇新论文纯属是自己致敬自己了。
【讲真,最近一直用野果阅读看书追更,换源切换,朗读音色多,.yeguoyuedu 安卓苹果均可。】
现在变形金刚爆火,自己蹭自己的热度嘛,不丢人,何况,未来到底哪篇蹭哪篇还真不一定。
毕竟预训练模型的效果一般都是高于单一模型的。
当然,苏飞还有一个小小的恶趣味,这篇新论文的每个英文单词的第一个拼在一起就是这个预训练模型的名字——bert。
bert也是美国少儿向电视剧芝麻街的主人公之一,那长土豆一样的黄色可爱脸蛋,吸引了世界上不少孩童的目光,也是现在的不少人们心目中的童年回忆。
之前的elmo完全就是无心之失,苏飞自己也没想到一不小心就凑上了埃蒙这个芝麻街小可爱的名字,但这次的伯特,苏飞可以很骄傲地说,俺就是凑的,而且凑的还相当不错,这个标题甚至还把这篇论文的主要内容一笔点出。
值得苏飞有些担忧的是,芝麻街中还有一个叫恩尼的小可爱,不少人怀疑它和伯特是同性恋,到时候不会真有人也硬凑了个恩尼的模型名字吧……
苏飞写写改改,把bert的大致思路和内容都记载在了这个小本本上,只要在回校之后做个模型,跑个实验,这篇新论文就搞定了。
老实说,这篇论文其实主要还是借鉴了变形金刚的工作,所以对于苏飞来说,这篇论文的构思比之前的两篇都要简单很多。
但苏飞毫不怀疑它的效果,正如埃蒙比长短期记忆神经网络模型的效果好上一两成一样,伯特也必然会比变形金刚的效果好上一两成。
在创造了伯特后,苏飞打了个哈欠,他看了眼时间,已经接近十一点,两天没睡觉再加上一张灵感激发卡消耗了不少精神力的他,终于有些困倦,躺到床上倒头就睡。
…
…
等到第二日日上三竿的时候,苏飞才悠悠然起床,手机上收到了好几个vx未接电话还有王正和姜大校花两人的留言。
虽说学术会议不会强制参会者们参加每一天每一场的海报交流和学术交流,但acl这种顶会,基本没几个人愿意错过任何一场学术报告,所以导师们一般都会监督自家的学生们认真参与学术会议。
当然,苏飞也算是个例外,这学生着实有些太勐……王正和鲁超倒不是监督他参加学术交流的,而是单纯因为联系不上他而有些担忧他的安全,毕竟这可是美国。
苏飞给几人一一回信后,叼了块面包,拿了瓶酸奶就悠哉地前往acl会场。