我的第一个想法是尝试将名称解析为功能描述( LG
公司,大小为42 Inch
,分辨率为1080p
,类型为LCD HDTV
)。然后,您可以将这些描述相互匹配以实现兼容性;省略产品编号是可以的,但是尺寸不同是很糟糕的。简单的通用属性兼容就足够了,或者您可能必须编写/学习有关允许不同属性有多少不同的规则,依此类推。
根据您拥有多少种不同的产品以及所列名称的不同,我实际上可能首先是手动定义一组属性,甚至可能只是添加特定的单词/正则表达式来匹配它们,反复查看未解析的内容到目前为止,并为此添加了规则。我想在一个词汇项可能属于多个属性方面并没有很多歧义,尽管没有看到您的数据库,我想我也不知道。
如果这不可行,则此提取类似于半监督词性标记。但是,这有点不同,因为我认为词汇表比典型的解析要受限制得多,并且产品名称的空间更为严格: resolution
标记仅适用于某些类型的产品。我对那篇文学不是很熟悉。可能会有一些想法可以使用。
0
这是一个难题...
我有两个具有相同50000+种电子产品的数据库,我想将一个数据库中的产品与另一个数据库中的产品进行匹配。但是,产品名称并不总是相同的。我已经尝试过使用Levenshtein距离来测量字符串的相似性,但是这没有用。例如,
这些项目相同,但它们的产品名称相差很大。
另一方面...
这些是具有非常相似产品名称的不同产品。
我该如何解决这个问题?