2018-05-18 17:03:53
在中文自然语言中,词是组成句、段章的基本语言单元。由于汉语词语之间没有明显的区分标记,因此,在进行中文自然语言处理前,通常是先将汉语文本中的字符串切分成合理的词语序列,并在此基础上进行其他分析处理。中文的词法分析在很多情况下表现为中文分词,她也是自然语言处理中的一项基础性的工作。分词能将每段文本分成独立的词汇单元,词性标准能标引出每个词的此次那个。中文分词就是将中文字符串切分成合理词语的过程,它是中文信息处理的一个基础环节。相关学者和研究人员在这个领域已经取得了一些客观成果,也有了一些通用分词算
2018-05-18 16:23:20
定义:可视化是一门利用人眼的感知能力和人脑智能对大数据进行交互的可视表达以增强人的认知。可视化的作用:揭示想法和关系、形成论点或意见、观察事物演化的趋势、总结或积聚数据、存档和汇整、寻找真相和真理、传播知识和探索性数据分析等。数据可视化流程中的核心要素包括:①数据的表示与变换。②数据的可视化呈现。③用户交互。文本可视化:词云、主题河流、文档散
2018-05-18 10:26:37
1,基于检索的问答系统-面向具体任务检索式问答:可以被化归为一种复杂的信息检索系统,可以自动将用户的自然语言问句转化为查询请求并从一系列候选文档。检索式问答系统的核心性能与其依赖的IR系统紧密相关。而IR系统的性能取决于其文档索引与查询请求的设计,由于自然语言天生具有句式复杂、表达多样的特性,大部分问答系统的IR模块都会采用问句重写[8](Query Expansion)与语义模板[9](Semantic Template)的方法来化简自然语言问句与提高召回率。这两种方法多采用语言学家手工构造规