2019-08-29 09:58:45
至于在实际训练中的小技巧:bert参数先训练,后又不训练,后面的几个epoch只是训练我们自己所接的网络结构的可以参考:bert在实际项目中的处理这篇文章。一共是改两个地方:在下游任务代码中的,是第一处。这是第二处:
2019-08-29 09:34:15
我们的比赛实践结果:意思是:数据噪声数据越小,切分的数据集可以是0.9,0.8或者1.0。如果噪声数据很大,切分0.7,0.6效果会更好一点。
2019-08-28 14:21:26
链接:https://blog.csdn.net/weixin_37947156/article/details/84877254
2019-08-28 11:04:00
https://leetcode.com/problems/two-sum/
2019-08-27 11:18:03
google根据中文的一部分数据已经为中文预训练了一个模型,bert-base-cased(12层,768,12头),之所以要预训练是为了针对领域的数据有更好的拟合能力。例如法律方面的数据。预训练模型文件夹所包含的文件:用原始数据生成一句一行,隔行分段后,供130M数据,生成examples.tf_cored大概要1小时。后面用run_pretraining.py训练,大概10000步要一小时(设备信息:54G内存,16G显存。),根据设备性能,我选着的是句子256个长-(经过解析源码:预训练阶
2019-08-27 10:52:48
参考链接:https://www.jianshu.com/p/160c4800b9b5
2019-08-26 16:06:48
https://blog.csdn.net/u010472607/article/details/76857493/
2019-08-21 09:48:32
https://blog.csdn.net/qq_35290785/article/details/89949289bert的官网链接:https://github.com/google-research/bert训练时长: