2019-03-10 23:00:08
区别4:1.1CNN对情感句子进行分类使用卷积核,padding参数是‘VALID',卷积完的结果是(?, 56, 1,128)。(padding参数如果是‘SAME',卷积完的结果为(?, 56, 128,128)。)1.2,CNN对情感句子进行分类,只卷积了一次就进入了全连接。2.1 膨胀CNN卷积了多次,并且膨胀卷积的输入是一个普通卷积的结果,此时的padding=’SAME‘,最后卷积完的’图片‘大小没有变化。普通卷积的结果再膨胀卷积多次后,累加卷积结果,最后再
2019-03-10 20:48:33
区别三:dropout的位置不一样,CNN对情感句子进行分类是卷积层到全链接层加了dropout。膨胀CNN对医疗命名实体识别是还没进行卷积的时候dropout。(加入了字的上下文信息,字的长度信息,要去掉一些,否这会太精确,免得过拟合发生?)
2019-03-10 18:36:14
区别二:在CNN网络中词嵌入的部分有所不同,词嵌入——将字的编号,对应到session.run(tf.global_variables_initializer())后,代表的字向量的过程。不同的是:医疗命名实体识别的创建模型过程中,session.run(tf.global_variables_initializer())后,用word2vec提前生成好的vec.txt,字向量替代了session.run(tf.global_variables_initializer())后变量,这样,词再嵌入
2019-03-10 08:51:27
区别:区别一:情感表达的句子相对较短,全部最长的句子也就56个词组成,因此在数据准备和特征提取时优先将每个不同长度的句子都统一padding 上0,在model中词嵌入后,结果类似长、宽都是一样的图片,进行卷积。主要用的事tf的learn来实现句子等长功能。如图:每个batch喂进去的‘图片’都是一样大小。区别一:由于医疗文本是段落,长短不一,有的10几个字,有的高达400-500字。因此为了节约资源,选着在batch的时候进行padding上0,具体的做法是先对输入的所有的特征按一个文本中字的
2019-03-06 21:43:48
在之前学校的时候用人工标注数据,CRF++实现了一个关于招聘信息的命名实体识别。(前面的文章有写,自自行寻找。)参加工作以后发现之前虽然实现了命名实体识别,但是实体并没有识别到详细的类别上。因为自己目前在医疗行业,实际需求是不但要识别出哪些实体,还要识别出实体是属于哪个类别的实体。比如,心脏病是一个实体,还要识别出他是一个病DIS,那么标记就变成了:心 B-DIS脏 I-DIS病 E-DIS而不是之前的:心 B脏 I病 E这样在数据集准备的手段和方法就会有所差别,之前手工标注(职位要求:1,懂【
2019-03-06 16:29:35
学习的链接:https://www.jianshu.com/p/db400a569730
2019-03-06 15:45:54
1. 生词的字的词典是要保存起来,实际应用时是要查这个词典的。 1.1 在情感分类的项目中,我们是用的是from tensorflow.contrib import learn里的learn包生成的字的编号词典。 1.2在命名实体识别(也就