ekphrasis使用说明

时间:2019-10-09 10:36来源:使用说明
ekphrasis是一个轻量级的文本预处理工具□□□,处理的对象是社交网络□□,比如推特□□□,或者facebook□□□,该工具的主要作用是语言的规范化□□、意群分段□□、单词分割和

  ekphrasis是一个轻量级的文本预处理工具□□□,处理的对象是社交网络□□,比如推特□□□,或者facebook□□□,该工具的主要作用是语言的规范化□□、意群分段□□、单词分割和拼写校正□□。也可以使用从两个大的语料库维基百科以及推特中进行词语统计□□□□□□。

  ekphrasis提供以下功能□□□□□: 1□□、社交实体识别□□:一个瞄准社交网络的实体识别器应该能够理解复杂的情感符号□□□□□,表情和其他一些结构化的表述例如日期□□□□□□、时间等等□□。

  4□□□□□、定制化的功能□□□:泰勒词汇分词□□□□,拼写错误纠正□□□□□□,事物识别这些都是你需要的功能□□□□□□。

  语段分割和拼写错误纠正机制都是基于从规定语料库中收集到的单词进行统计的□□□□,ekphras提供了基于两大语料库(维基百科和推特)的单词统计□□□。如果你在特定领域进行工作□□□□,你可能想产生基于你自己语料库的你自己的单词数据□□,使用说明比如说生物领域□□□。比如说描写特定技术或者化学成的的单词如果使用通用语料库很可能会被视为一个拼写错误的单词□□。使用说明

  ekpharasis的实体识别器基于正则表达式□□□□□□。你可以通过将新实体的正则表达式加入字典的方式□□□□,使用说明轻松地使ekphasis识别新的实体□□□□。

  5□□□□□□、预处理管道□□□□□。你可以将上述步骤组合为你的机器学习分析提供各种各样的文本文件□□□□□□。另外□□□□□□,通过上述步骤你也可以实现文本规范化□□□□,文本注释(标签等功能)□□。

  这些单词数据对于词语分段和拼写纠正是有用的□□,同时你可以根据自己的语料库产生自己的单词数据□□□□□,你可以使用ekphrasis/tools/generate_stats□□□□□.py 产生对于一个文本文件或者是包含文本文件的集合字典的统计数据□□□□,例如为了产生text8()的统计数据□□□□□□,你可以使用以下语句□□:

  mincount代表每个ngram最少出现的次数□□,使用说明在上一例子中对于unigrams最少的出现次数是70□□,对于bigram而言最少出现的次数是30

  单词分割使用的是维特比算法基于Beatiful Data第十四章的内容实现□□□□。该功能主要实现了字符串中单词的分割功能□□□。

  举例来说□□□:为实现单词的分割功能我们可以使用给定的语料库□□□,然后使用单词分割功能□□□□□□:

  单词分割中□□□□,如果单词出现了驼峰形式(开头为小写□□□,大小写交替)或者pascal形式(开头为大写的大小写交替)□□□□□□,分词算法将按照驼峰出现的位置切分单词□□□。

  拼写纠正是基于peter norvig的拼写纠正器的□□□□□。使用说明就像单词分割算法一样□□□□,我们利用单词的统计信息来寻找最可能的候选□□□,当然你也可以使用你自己的的语料库□□□□。

  实体化的最难之处在于保持单词的完整性(作为一个实体)□□□。在需要应付经常会出现创新词汇以及表示□□□□,例如表情符号□□□□,特殊标识等内容的社交网络中文本中这个更加难于处理□□□□□□。虽然网络上已经有一些工具能够实现对推特中部分情感标识和简单的感情符号的识别□□□。但是我们提供的工具可以实现对基本上所有情感符号□□□□,表情符号和复杂标识的识别□□□□□。

  特别是在情感分析中□□,文本中的情感符号实体标识的识别在分析文本的情感中具有极其重要的作用□□□□□。

  而且kephrasis可以是识别出包含信息的表达式□□□,根据任务的不同你可能想保持或者从某个实体中抽取信息□□□□□□,同时对任务无关信息进行抽取□□,例如□□:

  以上就是本文的全部内容□□□□□,希望本文的内容对大家的学习或者工作能带来一定的帮助□□□□,也希望大家多多支持码农网

  本站部分资源来源于网络□□□□□□,本站转载出于传递更多信息之目的□□□□,版权归原作者或者来源机构所有□□,如转载稿涉及版权问题□□□□□□,请联系我们□□。

  《使用HTML5和Node构建超媒体API》探讨了超媒体API 的设计□□□□□□,介绍了作为超媒体API 的构件块的超媒体因子□□□,并讲解了基本格式□□、状态转移□□、领域风格和应用流程这4 种超媒体设计元素□□□□;之后作者结合具体的场景□□□□□,通过3个动手实验章节□□□,从超媒体因子和超媒体设计元素入手□□□□□□,用实际的代码向我们详细地演示了超媒体API 的设计□□□□□□;最后介绍了超媒体设计的文档编写□□□□□、注册与发布等内容□□□。 《使用HTML5和No□□□□□.□□□□□.□□□□□□.□□□□□.□□□□□.□□□□□.一起来看看《使用HTML5和Node构建超媒体API》这本书的介绍吧□□!

编辑:使用说明 本文来源:ekphrasis使用说明

关键词: 使用说明

友情链接:www.gidkatrin.com www.syjiaodai.com www.biggbLog.com www.cent88.com www.biggbLog.com www.tjruitian.com