卯卯 | 炼就一手绝世刀法！-bert

2022-04-25 14:04:52

bert原理的解释wordpiece和bert的遮蔽15%后如何MASK，优缺点等

https://www.cnblogs.com/huangyc/p/10223075.html：一文读懂BERT中的WordPiece https://www.csdn.net/tags/OtDakg3sMjYwNzItYmxvZwO0O0OO0O0O.html 简述BERT模型的训练过程、BERT模型在推断过程中做了哪些性能优化、BERT模型在训练过程中做了哪些性能优化https://blog.csdn.net/qq_33293040/article/details/11043215

2019-08-30 10:25:09

预训练的持续训练遮蔽损失不再降

2019-08-29 16:41:12

word2vec的缺点（多义词）-ELMO（动态的调整word embedding，缺点就是它的RNN结构）-GPT-bert （一）

ELMO为代表的这种基于特征融合的预训练方法。NLP里还有一种典型做法，一般将这种方法称为“基于Fine-tuning的模式”，而GPT就是这一模式的典型开创者。使用：

2019-08-29 16:16:52

预训练的好处

2019-08-29 09:58:45

bert微调的概念解读

至于在实际训练中的小技巧：bert参数先训练，后又不训练，后面的几个epoch只是训练我们自己所接的网络结构的可以参考：bert在实际项目中的处理这篇文章。一共是改两个地方：在下游任务代码中的，是第一处。这是第二处：

2019-08-29 09:34:15

在数据集中噪声数据的切分，对模型效果的影响

我们的比赛实践结果：意思是：数据噪声数据越小，切分的数据集可以是0.9，0.8或者1.0。如果噪声数据很大，切分0.7，0.6效果会更好一点。

2019-08-28 14:21:26

文本相识度计算-问题相似度计算-转换成一个分类问题

链接：https://blog.csdn.net/weixin_37947156/article/details/84877254

2019-08-27 11:18:03

bert预训练过程记录

google根据中文的一部分数据已经为中文预训练了一个模型，bert-base-cased(12层，768，12头)，之所以要预训练是为了针对领域的数据有更好的拟合能力。例如法律方面的数据。预训练模型文件夹所包含的文件：用原始数据生成一句一行，隔行分段后，供130M数据，生成examples.tf_cored大概要1小时。后面用run_pretraining.py训练，大概10000步要一小时（设备信息：54G内存，16G显存。）,根据设备性能，我选着的是句子256个长-（经过解析源码：预训练阶

2019-08-21 09:48:32

bert的预训练与微调（需要的条件和注意点）————（相关的概念迁移学习：https://www.jianshu.com/p/22e462f01d8c）

https://blog.csdn.net/qq_35290785/article/details/89949289bert的官网链接：https://github.com/google-research/bert训练时长：

卯卯 | 炼就一手绝世刀法！

日出东海落西山，愁也一天，喜也一天。遇事不钻牛角尖，人也舒坦，心也舒坦！

2022-04-25 14:04:52

bert原理的解释wordpiece和bert的遮蔽15%后如何MASK，优缺点等

作者:yangli | 分类:bert | 浏览:1105 | 评论:0

2019-08-30 10:25:09

预训练的持续训练遮蔽损失不再降

作者:yangli | 分类:bert | 浏览:1072 | 评论:0

2019-08-29 16:41:12

word2vec的缺点（多义词）-ELMO（动态的调整word embedding，缺点就是它的RNN结构）-GPT-bert （一）

作者:yangli | 分类:bert | 浏览:2144 | 评论:0

2019-08-29 16:16:52

预训练的好处

作者:yangli | 分类:bert | 浏览:1311 | 评论:0

2019-08-29 09:58:45

bert微调的概念解读

作者:yangli | 分类:bert | 浏览:2455 | 评论:0

2019-08-29 09:34:15

在数据集中噪声数据的切分，对模型效果的影响

作者:yangli | 分类:bert | 浏览:1442 | 评论:0

2019-08-28 14:21:26

文本相识度计算-问题相似度计算-转换成一个分类问题

作者:yangli | 分类:bert | 浏览:1378 | 评论:0

2019-08-27 11:18:03

bert预训练过程记录

作者:yangli | 分类:bert | 浏览:2177 | 评论:0

2019-08-21 09:48:32

bert的预训练与微调（需要的条件和注意点）————（相关的概念迁移学习：https://www.jianshu.com/p/22e462f01d8c）

作者:yangli | 分类:bert | 浏览:1366 | 评论:0

2019-08-21 09:29:24

数据增强失败的原因

作者:yangli | 分类:bert | 浏览:1284 | 评论:0

Powered By Z-BlogPHP 1.5.2 Zero

转载请注明文章出处！！！！！

« 2025年12月 »
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31