如果您要处理自然语言,请查看自然语言工具包 。
pebl
似乎可以处理连续变量。
0
这可能是一个不错的起点。它是朴素贝叶斯分类器的python实现的完整源代码(文本解析器,数据存储和分类器)。尽管已完成,但它仍然足够小,可以在一个会话中进行摘要。我认为该代码编写得相当不错,并且评论也不错。这是《 Programming Collective Intelligence 》一书的源代码文件的一部分。
要获取源代码,请单击链接dl并解压缩zip,从主文件夹“ PCI_Code”中转到文件夹“第6章”,该文件夹具有python源文件“ docclass.py”。这是贝叶斯垃圾邮件过滤器的完整源代码。培训数据(电子邮件)保存在sqlite数据库中,该数据库也包含在同一文件夹(“ test.db”)中。您唯一需要的外部库是与sqlite(pysqlite)的python绑定;您还需要安装sqlite本身(如果尚未安装)。
0
我已经尝试过橙色的朴素贝叶斯分类框架。这些方法极不直观,文档非常无组织。这里有人建议其他框架吗?
我现在主要使用NaiveBayesian。我当时在考虑使用nltk的NaiveClassification,但后来他们认为它们不能处理连续变量。
我有什么选择?