如何最好地解析一个简单的语法?
nlp
python
4
0

好的,关于这个项目,我已经提出了许多较小的问题,但是我对要提出的设计仍然没有足够的信心,所以我将在更大范围内提出一个问题。

我正在解析课程目录的先决条件描述。描述几乎总是遵循某种形式,这使我认为我可以解析大多数形式。

根据本文,我想生成一个课程前提条件关系图。 (在我解析了数据之后,这部分将很容易。)

一些示例输入和输出:

"CS 2110" => ("CS", 2110) # 0

"CS 2110 and INFO 3300" => [("CS", 2110), ("INFO", 3300)] # 1
"CS 2110, INFO 3300" => [("CS", 2110), ("INFO", 3300)] # 1
"CS 2110, 3300, 3140" => [("CS", 2110), ("CS", 3300), ("CS", 3140)] # 1

"CS 2110 or INFO 3300" => [[("CS", 2110)], [("INFO", 3300)]] # 2

"MATH 2210, 2230, 2310, or 2940" => [[("MATH", 2210), ("MATH", 2230), ("MATH", 2310)], [("MATH", 2940)]] # 3  
  1. 如果整个描述只是一门课程,则直接输出。

  2. 如果课程是联合的(“和”),它们都将输出在同一列表中

  3. 如果课程不连贯(或),则它们在单独的列表中

  4. 在这里,我们同时具有“和”和“或”。

需要注意的一个问题是,它变得更加容易:“和” /“或”短语的嵌套似乎从来没有比示例3所示的嵌套大。

做这个的最好方式是什么?我从PLY开始,但是我不知道如何解决减少/减少冲突。 PLY的优点是很容易操纵每个解析规则生成的内容:

def p_course(p):
 'course : DEPT_CODE COURSE_NUMBER'
 p[0] = (p[1], int(p[2]))

使用PyParse,尚不清楚如何修改parseString()的输出。我当时正在考虑以@Alex Martelli的想法为基础,即在一个对象中保持状态并从该对象中建立输出,但是我不确定确切如何做到最好。

 def addCourse(self, str, location, tokens):
  self.result.append((tokens[0][0], tokens[0][1]))

 def makeCourseList(self, str, location, tokens):

  dept = tokens[0][0]
  new_tokens = [(dept, tokens[0][1])]
  new_tokens.extend((dept, tok) for tok in tokens[1:])

  self.result.append(new_tokens)

例如,要处理“或”情况:

    def __init__(self):
            self.result = []
            # ...
  self.statement = (course_data + Optional(OR_CONJ + course_data)).setParseAction(self.disjunctionCourses)



 def disjunctionCourses(self, str, location, tokens):
  if len(tokens) == 1:
   return tokens

  print "disjunction tokens: %s" % tokens

disjunctionCourses()如何知道要断开哪些较小的短语?它得到的只是令牌,但是到目前为止已解析的内容都存储在result ,那么该函数如何分辨result哪些数据对应于token哪些元素?我想我可以搜索标记,然后找到具有相同数据的result元素,但是感觉有些费解。

另外,还有许多包含杂项文本的描述,例如:

"CS 2110 or permission of instructor"
"INFO 3140 or equivalent experience"
"PYSCH 2210 and sophomore standing"

但是我解析该文本并不重要。

解决此问题的更好方法是什么?

参考资料:
Stack Overflow
收藏
评论
共 2 个回答
高赞 时间 活跃
def parse(astr):
    astr=astr.replace(',','')
    astr=astr.replace('and','')    
    tokens=astr.split()
    dept=None
    number=None
    result=[]
    option=[]
    for tok in tokens:
        if tok=='or':
            result.append(option)
            option=[]
            continue
        if tok.isalpha():
            dept=tok
            number=None
        else:
            number=int(tok)
        if dept and number:
            option.append((dept,number))
    else:
        if option:
            result.append(option)
    return result

if __name__=='__main__':
    tests=[ ("CS 2110" , [[("CS", 2110)]]),
            ("CS 2110 and INFO 3300" , [[("CS", 2110), ("INFO", 3300)]]),
            ("CS 2110, INFO 3300" , [[("CS", 2110), ("INFO", 3300)]]),
            ("CS 2110, 3300, 3140", [[("CS", 2110), ("CS", 3300), ("CS", 3140)]]),
            ("CS 2110 or INFO 3300", [[("CS", 2110)], [("INFO", 3300)]]),
            ("MATH 2210, 2230, 2310, or 2940", [[("MATH", 2210), ("MATH", 2230), ("MATH", 2310)], [("MATH", 2940)]])]

    for test,answer in tests:
        result=parse(test)
        if result==answer:
            print('GOOD: {0} => {1}'.format(test,answer))
        else:
            print('ERROR: {0} => {1} != {2}'.format(test,result,answer))
            break

产量

GOOD: CS 2110 => [[('CS', 2110)]]
GOOD: CS 2110 and INFO 3300 => [[('CS', 2110), ('INFO', 3300)]]
GOOD: CS 2110, INFO 3300 => [[('CS', 2110), ('INFO', 3300)]]
GOOD: CS 2110, 3300, 3140 => [[('CS', 2110), ('CS', 3300), ('CS', 3140)]]
GOOD: CS 2110 or INFO 3300 => [[('CS', 2110)], [('INFO', 3300)]]
GOOD: MATH 2210, 2230, 2310, or 2940 => [[('MATH', 2210), ('MATH', 2230), ('MATH', 2310)], [('MATH', 2940)]]
收藏
评论

对于简单的语法,我真的很喜欢解析表达式语法(PEGs),这相当于编写递归下降语法分析器的一种规范化,结构化的方式。在像Python这样的动态类型语言中,您可以执行有用的操作而无需单独的“解析器生成器”。这意味着没有废话减少冲突或LR解析的其他奥秘。

我做了一些搜索,并且pyPEG似乎是Python的不错的库。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号