这个问题很开放。也就是说,下面而不是选择一个,而是根据您要使用的语言进行比较(因为两种语言都有不错的库)。
蟒蛇
在Python方面,您应该首先看的是Python Natural Language Toolkit 。正如他们在描述中所指出的那样,NLTK是构建Python程序以使用人类语言数据的领先平台。它为50多种语料库和词汇资源(如WordNet)提供了易于使用的界面,并提供了一套用于分类,标记化,词干,标记,解析和语义推理的文本处理库。
您还可以查找一些出色的代码,这些代码源自基于Python的Google自然语言工具包项目。您可以在GitHub上找到该代码的链接。
爪哇
首先看的是斯坦福大学的自然语言处理小组 。那里分发的所有软件都是用Java编写的。所有最新发行版都需要Oracle Java 6+或OpenJDK 7+。分发程序包包括用于命令行调用的组件,jar文件,Java API和源代码。
您在许多机器学习环境中看到的另一个很棒的选择(通用选择)是Weka 。 Weka是用于数据挖掘任务的机器学习算法的集合。这些算法既可以直接应用于数据集,也可以从您自己的Java代码中调用。 Weka包含用于数据预处理,分类,回归,聚类,关联规则和可视化的工具。它也非常适合开发新的机器学习方案。
0
我想知道哪种编程语言更适合自然语言处理。 Java还是Python ?我发现了很多与此有关的问题和答案。但是我仍然迷失在选择使用哪一个。
我想知道用于Java的NLP库,因为有很多库(LingPipe,GATE,OpenNLP,StandfordNLP)。对于Python,大多数程序员都建议使用NLTK。
但是,如果我要对非结构化数据 (只是自由格式的纯英文文本)进行一些文本处理或信息提取,以获得一些有用的信息,那么最佳选择是什么? Java还是Python?合适的图书馆?
更新
我要做的是从非结构化数据中提取有用的产品信息(例如,用户使用不太标准的英语来制作有关手机或笔记本电脑的不同形式的广告)