2018-05-19 16:57:48
2.1基于规则的开放问答系统基于规则的开放问答系统背后几乎没有经过严格证明的定理与数学公式,也没有复杂的算法,大多采用模版匹配的方式来寻找最合适的答案。它们的相似点在于对话过程中其回答均基于谈话技巧,而不是根据常识回答。其回答算法依赖于包含大量句型、模板的对话语料库,但其中不包含常识性知识。在面对知道答案的问题时,聊天机器人经常能准确给出合适的回答;而对于那些不知道答案的问题,目前基本有三种常用的回答方法:1)猜一个“无厘头”的答案;2)直接回答不知道;3)用转移话题的方式回避用户的问题。目前市
2018-05-18 17:03:53
在中文自然语言中,词是组成句、段章的基本语言单元。由于汉语词语之间没有明显的区分标记,因此,在进行中文自然语言处理前,通常是先将汉语文本中的字符串切分成合理的词语序列,并在此基础上进行其他分析处理。中文的词法分析在很多情况下表现为中文分词,她也是自然语言处理中的一项基础性的工作。分词能将每段文本分成独立的词汇单元,词性标准能标引出每个词的此次那个。中文分词就是将中文字符串切分成合理词语的过程,它是中文信息处理的一个基础环节。相关学者和研究人员在这个领域已经取得了一些客观成果,也有了一些通用分词算
2018-05-18 16:23:20
定义:可视化是一门利用人眼的感知能力和人脑智能对大数据进行交互的可视表达以增强人的认知。可视化的作用:揭示想法和关系、形成论点或意见、观察事物演化的趋势、总结或积聚数据、存档和汇整、寻找真相和真理、传播知识和探索性数据分析等。数据可视化流程中的核心要素包括:①数据的表示与变换。②数据的可视化呈现。③用户交互。文本可视化:词云、主题河流、文档散
2018-05-18 10:26:37
1,基于检索的问答系统-面向具体任务检索式问答:可以被化归为一种复杂的信息检索系统,可以自动将用户的自然语言问句转化为查询请求并从一系列候选文档。检索式问答系统的核心性能与其依赖的IR系统紧密相关。而IR系统的性能取决于其文档索引与查询请求的设计,由于自然语言天生具有句式复杂、表达多样的特性,大部分问答系统的IR模块都会采用问句重写[8](Query Expansion)与语义模板[9](Semantic Template)的方法来化简自然语言问句与提高召回率。这两种方法多采用语言学家手工构造规
2018-05-16 10:56:45
1,语义网与互联网的区别?互联网是让人来读,语义网是让人读懂,同时让机器读懂,从而让搜索更加的精确。2,有什么好处?给网页内容加上索引(实体链接)3,Q: 什么叫RDFA: 是Resource Desrciption Framework的缩写. 每个RDF句子实际上是一个主语+谓语+宾语的句子如:[张三][喜欢][豆腐脑][豆腐脑][是一种][食物][豆腐脑][含有][水]这样可以比较明确的定义网上的各种资源的关系, 比如[Jie Bao][isAuthorOf][http://semantic
2018-05-10 11:18:47
有时候我们在爬虫过程中会遇到汉字中间有空格(/n/r/xaQ)的情况,至此我们需要对数据进行清洗:元素路径: body > p > img当前已输入 50 个字符
2018-05-09 22:43:31
1,安装sublime参考:https://jingyan.baidu.com/article/64d05a023cd849de55f73be4.html2.配置中文输入(ubantu下sublime自身带bug),但大神已经给了方案,参考:https://jingyan.baidu.com/article/f3ad7d0ff8731609c3345b3b.html 3,安装插件参考:https://blog.csdn.net/coding99/article/details/52421337和
2018-05-09 14:03:04
这是有待认真处理的文件!-回首过往,展望未来!