javascript

java

python

c#

android

node.js

reactjs

c++

php

html

jquery

css

git

.net

ios

ruby-on-rails

sql

c

string

ruby

算法-是否可以根据文本的结构猜测用户的心情?

我假设需要使用自然语言处理器来解析文本本身,但是对于基于用户所写文本来检测用户情绪的算法,您有何建议? 我怀疑它会非常准确,但是我仍然很感兴趣。

编辑:我绝不是语言学或自然语言处理方面的专家,所以对于这个问题过于笼统或愚蠢,我深表歉意。

trans by 2019-11-12T23:13:40Z

java-Porter和Lancaster提取算法的主要区别和好处是什么?

我正在处理Java中的文档分类任务。

强烈推荐这两种算法,每种算法都有什么优点和缺点,并且在自然语言处理任务的文献中更常用?

trans by 2019-11-08T14:20:50Z

nlp-哪种编程语言最像自然语言?

在很多情况下,我不了解别人在说什么,而别人不了解我时,我就想到了这个问题。

因此,“智能”解决方案是说一种计算机语言。 :)

我很感兴趣一种编程语言可以接近(英语)自然语言。 当我说接近时,我的意思是不仅要使用单词和句子,而且要能够“做”自然语言可以“做”的事情,通过“做”,我的意思是可以(以非常有限的方式)使用它 代替自然语言。

我知道这是不可能的(是吗?),但是我认为这很有趣。

trans by 2019-11-06T14:21:25Z

理解Scikit CountVectoriz中的min_df和max_df

我有五个输入到CountVectorizer的文本文件。 当为CountVectorizer实例指定min_df和max_df时,最小/最大文档频率到底是什么意思? 是某个单词在其特定文本文件中的出现频率,还是整个整体语料库(5个txt文件)中该单词的出现频率?

当min_df和max_df作为整数或浮点数提供时有何不同?

该文档似乎没有提供详尽的解释,也没有提供示例来演示min_df和/或max_df的用法。 有人可以提供说明min_df或max_df的解释或示例。

trans by 2019-10-25T14:22:19Z

python-模糊字符串比较

我正在努力完成的是一个程序,该程序读取文件并根据原始句子比较每个句子。 与原始句子完全匹配的句子将得到1分,而与之相反的句子将得到0分。所有其他模糊句子将得到1到0分之间的分数。

我不确定要使用哪种操作在Python 3中完成此操作。

我包括了示例文本,其中文本1是原始文本,其他前面的字符串是比较文本。

文字:样本

文字1:那是一个黑暗而暴风雨的夜晚。 我一个人坐在红色的椅子上。 我并不孤单,因为我只有三只猫。

文字20:那是一个阴暗而暴风雨的夜晚。 我独自一人坐在深红色的椅子上。 我并不孤单,因为我有三只猫//应该得分最高但不能得分1

文字21:那是一个阴暗而狂暴的夜晚。 我一个人坐在一个深红色的大教堂上。 我并不孤单,因为我有三只猫//分数应低于文字20

文字22:我一个人坐在一个深红色的大教堂上。 我并不孤单,因为我有三只猫科动物。 那是一个阴暗而狂暴的夜晚。//分数应低于文字21,但不能低于0

文字24:那是一个黑暗而暴风雨的夜晚。 我并不孤单。 我没有坐在红色的椅子上。 我有三只猫。//应该得分为0!

trans by 2019-10-25T04:21:05Z

nlp-如何从一系列文本条目中提取常用/重要短语

我有一系列文本项-来自MySQL数据库的原始HTML。 我想在这些条目中找到最常用的短语(而不是单个最常用的短语,理想情况下,不强制单词对单词的匹配)。

我的示例是Yelp.com上的任何评论,其中以给定餐厅的数百条评论显示了3个摘要,格式为:

“尝试汉堡”(共44条评论)

例如,此页面的“查看重点”部分:

[http://www.yelp.com/biz/sushi-gen-los-angeles/]

我已经安装了NLTK,并且已经对其进行了一些尝试,但是老实说,这些选择让他们不知所措。 这似乎是一个非常普遍的问题,我无法通过在此处搜索找到简单的解决方案。

trans by 2019-10-07T13:34:22Z

python-在NLTK中解析的英语语法

是否有可以立即使用并可以在NLTK中使用的即用型英语语法? 我搜索了使用NLTK进行解析的示例,但似乎我必须在解析句子之前手动指定语法。

非常感谢!

trans by 2019-10-07T06:29:56Z

nlp-确定语句/文本的正面还是负面的算法

我需要一种算法来确定句子,段落或文章的语气是消极还是积极……或者更好的是消极还是积极。

例如:

杰森(Jason)是我见过的最糟糕的SO用户(-10)

Jason是SO用户(0)

Jason是我见过的最好的SO用户(+10)

杰森(Jason)最擅长吸吮SO(-10)

在SO方面,Jason做得不好时表现最差(+10)

不容易吧? :)

我不希望有人向我解释这种算法,但是我认为学术界某个地方已经有很多此类工作。 如果您能指出一些文章或研究,我会喜欢的。

谢谢。

trans by 2019-10-04T19:04:57Z

人工智能-Ruby中的自然语言处理

我希望进行一些句子分析(主要是针对Twitter应用程序)并推断一些一般特征。 在Ruby中是否有用于这种事情的良好的自然语言处理库?

类似于是否有一个很好的自然语言处理库,但适用于Ruby。 我更喜欢一些一般性的东西,但是任何潜在客户都很感激!

trans by 2019-10-02T20:19:25Z

开源 - Python中的Twitter情感分析

我正在寻找一个开源实现,最好是在python中,文本情感分析([http://en.wikipedia.org/wiki/Sentiment_analysis]。]是否有人熟悉我可以使用的这种开源实现?

我正在编写一个应用程序,在Twitter上搜索一些搜索词,比如“youtube”,并计算“快乐”的推文与“悲伤”的推文。我正在使用Google的appengine,所以它在python中。 我希望能够从twitter中对返回的搜索结果进行分类,我想在python中进行分类。到目前为止,我还没有找到这样的情绪分析器,特别是在python中。您熟悉我可以使用的这种开源实现吗? 最好这已经是python,但如果没有,希望我可以将它翻译成python。

请注意,我正在分析的文本非常简短,它们是推文。 理想情况下,此分类器针对此类短文本进行了优化。

顺便说一句,twitter确实支持搜索中的“:)”和“:(”运算符,其目的就是为了做到这一点,但不幸的是,他们提供的分类并不是那么好,所以我想我可能会试一试。

谢谢!

BTW,早期的演示就在这里,我到目前为止的代码就在这里,我很乐意与任何感兴趣的开发人员一起开源。

trans by 2019-09-13T11:43:41Z

java - 有一个很好的自然语言处理库

我需要在当前模块中实现一些NLP。 我正在寻找一些可以帮助我的好图书馆。 我遇到了'LingPipe',但无法完全遵循如何使用它。
基本上,我们需要实现一个功能,其中应用程序可以解释用简体中文输入的客户指令(交付说明)。 例如:

  • 将于明天中午12点起床
  • 请在6月10日之后发货
  • 请不要在星期三之前发送
  • 在订单中再添加10个XYZ单位
trans by 2019-09-10T18:01:24Z

python - Stanford Parser和NLTK

是否可以在NLTK中使用Stanford Parser? (我不是在谈论斯坦福POS。)

trans by 2019-09-10T00:41:59Z

c# - 如何正确地用“a”和“an”为单词添加前缀?

我有一个.NET应用程序,在给定名词的情况下,我希望它正确地在该单词前加上" a" 或""。 我该怎么办?

在您认为答案是简单地检查第一个字母是否是元音之前,请考虑以下短语:

  • 一个诚实的错误
  • 二手车
trans by 2019-08-24T14:41:25Z

如何使用Genia Corpus训练斯坦福分析器?

我为Stanford Parser创建一个新模型有一些问题。

我还从斯坦福下载了最新版本:[http://nlp.stanford.edu/software/lex-parser.shtml]

在这里,Genia Corpus有2种格式,xml和ptb(Penn Treebank)。

斯坦福分析师可以用ptd文件进行训练; 然后我下载了Genia Corpus,因为我想使用生物医学文本:

[http://categorizer.tmit.bme.hu/~illes/genia_ptb/](链接不再可用)(genia_ptb.tar.gz)

然后,我有一个简短的Main类来获得一个生物医学句子的依赖表示:

    String treebankPath = "/stanford-parser-2012-05-22/genia_ptb/GENIA_treebank_v1/ptb";

    Treebank tr = op.tlpParams.diskTreebank();
    tr.loadPath(treebankPath);  
    LexicalizedParser lpc=LexicalizedParser.trainFromTreebank(tr,op);

我尝试了不同的方法,但始终得到相同的结果。

我在最后一行有一个错误。 这是我的输出:

Currently Fri Jun 01 15:02:57 CEST 2012
Options parameters:
useUnknownWordSignatures 2
smoothInUnknownsThreshold 100
smartMutation false
useUnicodeType false
unknownSuffixSize 1
unknownPrefixSize 1
flexiTag true
useSignatureForKnownSmoothing false
parserParams edu.stanford.nlp.parser.lexparser.EnglishTreebankParserParams
forceCNF false
doPCFG true
doDep false
freeDependencies false
directional true
genStop true
distance true
coarseDistance false
dcTags false
nPrune false
Train parameters: smooth=false PA=true GPA=false selSplit=true (400.0; deleting [VP^SQ, VP^VP, VP^SINV, VP^NP]) mUnary=1 mUnaryTags=false sPPT=false tagPA=true tagSelSplit=false (0.0) rightRec=true leftRec=false collinsPunc=false markov=true mOrd=2 hSelSplit=true (10) compactGrammar=3 postPA=false postGPA=false selPSplit=false (0.0) tagSelPSplit=false (0.0) postSplitWithBase=false fractionBeforeUnseenCounting=0.5 openClassTypesThreshold=50 preTransformer=null taggedFiles=null
Using EnglishTreebankParserParams splitIN=4 sPercent=true sNNP=0 sQuotes=false sSFP=false rbGPA=false j#=false jJJ=false jNounTags=false sPPJJ=false sTRJJ=false sJJCOMP=false sMoreLess=false unaryDT=true unaryRB=true unaryPRP=false reflPRP=false unaryIN=false sCC=1 sNT=false sRB=false sAux=2 vpSubCat=false mDTV=2 sVP=3 sVPNPAgr=false sSTag=0 mVP=false sNP%=0 sNPPRP=false dominatesV=1 dominatesI=false dominatesC=false mCC=0 sSGapped=4 numNP=false sPoss=1 baseNP=1 sNPNNP=0 sTMP=1 sNPADV=1 cTags=true rightPhrasal=false gpaRootVP=false splitSbar=0 mPPTOiIN=0
Binarizing trees...done. Time elapsed: 141 ms
Extracting PCFG...done. Time elapsed: 56 ms
Compiling grammar...done Time elapsed: 1 ms
Extracting Lexicon...Exception in thread "main" edu.stanford.nlp.util.ReflectionLoading$ReflectionLoadingException: edu.stanford.nlp.util.MetaClass$ClassCreationException: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
    at edu.stanford.nlp.util.ReflectionLoading.loadByReflection(ReflectionLoading.java:39)
    at edu.stanford.nlp.parser.lexparser.BaseLexicon.initializeTraining(BaseLexicon.java:335)
    at edu.stanford.nlp.parser.lexparser.LexicalizedParser.getParserFromTreebank(LexicalizedParser.java:800)
    at edu.stanford.nlp.parser.lexparser.LexicalizedParser.trainFromTreebank(LexicalizedParser.java:226)
    at edu.stanford.nlp.parser.lexparser.LexicalizedParser.trainFromTreebank(LexicalizedParser.java:237)
    at ABravoDemo.main(ABravoDemo.java:35)
Caused by: edu.stanford.nlp.util.MetaClass$ClassCreationException: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
    at edu.stanford.nlp.util.MetaClass.createFactory(MetaClass.java:353)
    at edu.stanford.nlp.util.MetaClass.createInstance(MetaClass.java:370)
    at edu.stanford.nlp.util.ReflectionLoading.loadByReflection(ReflectionLoading.java:37)
    ... 5 more
Caused by: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
    at java.net.URLClassLoader$1.run(URLClassLoader.java:200)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:188)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:303)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:248)
    at java.lang.ClassLoader.loadClassInternal(ClassLoader.java:316)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:169)
    at edu.stanford.nlp.util.MetaClass$ClassFactory.construct(MetaClass.java:119)
    at edu.stanford.nlp.util.MetaClass$ClassFactory.<init>(MetaClass.java:192)
    at edu.stanford.nlp.util.MetaClass$ClassFactory.<init>(MetaClass.java:53)
    at edu.stanford.nlp.util.MetaClass.createFactory(MetaClass.java:349)
    ... 7 more

我怎么能用这个语料库创建一个新模型?

trans by 2019-08-21T15:09:40Z

如何使用NLTK标记器摆脱标点符号?

我刚刚开始使用NLTK,我不太明白如何从文本中获取单词列表。 如果我使用nltk.word_tokenize(),我会得到一个单词和标点符号列表。 我只需要单词代替。 我怎样才能摆脱标点符号? word_tokenize也不适用于多个句子:将点添加到最后一个单词。

trans by 2019-07-31T01:41:09Z

python - 词义化与词干化的真正区别是什么?

我什么时候使用?

另外...... NLTK的词形还原取决于词性?如果它是不是更准确?

trans by 2019-07-23T17:45:44Z

解析 - 选区解析器和依赖关系之间的区别

选区解析器和依赖解析器之间有什么区别? 这两者的用法有什么不同?

trans by 2019-07-21T13:54:33Z

用于自然语言处理的Java或Python

我想知道哪种编程语言更适合自然语言处理。 Java还是Python? 我找到了很多关于它的问题和答案。 但我仍然迷失在选择使用哪一个。

我想知道哪个NLP库用于Java,因为有很多库(LingPipe,GATE,OpenNLP,StandfordNLP)。 对于Python,大多数程序员推荐使用NLTK。

但是,如果我要从非结构化数据(只是自由形成的简单英文文本)中进行一些文本处理或信息提取以获得一些有用的信息,那么最佳选择是什么? Java还是Python? 合适的图书馆

更新

我想要做的是从非结构化数据中提取有用的产品信息(例如,用户制作不同形式的广告,关于手机或笔记本电脑的英语语言不是很标准)

trans by 2019-07-15T12:05:34Z

nlp - 你如何实现“你的意思”?

可能重复:
谷歌“你的意思是什么?”算法是如何工作的?

假设您的网站中已有搜索系统。 你如何在一些搜索查询中实现像谷歌那样的“你的意思是:<spell_checked_word>”吗?

trans by 2019-07-15T01:52:23Z

nlp - 我如何进行词干化或词形还原?

我已经尝试过PorterStemmer和Snowball,但两个都不能用于所有单词,缺少一些非常常见的单词。

我的测试词是:“猫跑仙人掌仙人掌仙人掌社区社区”,两者都不到一半。

也可以看看:

  • 用于生成真实单词的词干算法
  • 词干 - 代码示例或开源项目?
trans by 2019-07-13T22:51:54Z

1 2 下一页 共2页