Python如何获取指定开头指定结尾所夹中间内容

需求

获取文章中指定开头、指定结尾中所夹的内容。其中，开头和结尾均有多种，但最多也就十几种，所以代码还是具有可行性的。

例：

X X 市人民检察院指控： ‾ underline{XX市人民检察院指控：} XX市人民检察院指控：被告人XXX与被害人YYY（女，殁年41岁，系XXX妻子）因家庭矛盾多次发生争执。X年Y月Z日早晨,被告人XXX在X市X市场…被告人XXX为偏执性精神障碍，具有限制刑事责任能力。
公诉机关认为 ‾ underline{公诉机关认为} 公诉机关认为，被告人XXX故意非法剥夺他人生命，致一人死亡，其行为应以故意杀人罪追究刑事责任

所需内容为：第一个下划线到第二个下划线中间的内容，即“被告人XXX…责任能力。”。其中，“检察院指控”是指定开头，“公诉机关认为”是指定结尾。

解决方案

原本想着NLP有没有现成的库可以直接调包，后来搜了半天没搜到，然后看到了正则表达式（真香）。

代码

低配方法：

适用于只有一种固定开头和结尾，多种就不行了

import re
def GetMiddleStr(content,startStr,endStr):
#     patternStr = r'.*%s(.+?)%s.*'%(startStr,endStr) # 此模式不能跨段，‘.'只能匹配除了'n'外所有单个字符
    patternStr = r'[sS]*%s(.+?)%s[sS]*'%(startStr,endStr)
#     patternStr = re.compile(patternStr,re.IGNORECASE) # 忽略大小写 ，这个适用于英文文章
    middleStr= re.match(patternStr,content)
    if middleStr:
        return middleStr.group(1)

中配方法：

适用于多种固定开头和结尾，不过是蛮力法，可以优化判断，减少循环次数

import re
def GetMiddleStr2(content,startStr,endStr):
#     patternStr = r'.*%s(.+?)%s.*'%(startStr,endStr)
    goalStr = str('')
    
    for sStr in startStr:
        for eStr in endStr:
            patternStr = r'[sS]*%s(.+?)%s[sS]*'%(sStr,eStr)
            middleStr= re.match(patternStr,content)
            if middleStr:
                if not goalStr: # 判断 空 时候的值
                    goalStr = middleStr.group(1)
                else:        # 非空时，将将短的留下来 
                    goalStr = middleStr.group(1) if len(goalStr)>len(middleStr.group(1)) else goalStr
                    
    return goalStr

运行效果

content='且得到被害人家属谅解。综上，建议法庭对被告人XXX减轻处罚。经审理查明：被告人XXX与被害人YYY因家庭矛盾多次发生争执。X年Y月Z日清晨,被告人XXX在X市X市场......被告人XXX为偏执性精神障碍，具有限制刑事责任能力。公诉机关认为，被告人XXX故意非法剥夺他人生命，致一人死亡，其行为应以故意杀人罪追究刑事责任'
startStr = '经审理查明：'
endStr = '公诉机关认为，'
print(GetMiddleStr(content,startStr,endStr))

Python如何获取指定开头指定结尾所夹中间内容

第二种运行时将startStr和endStr分别赋值为：[‘AAA’,‘BBB’,…]，即可
例如:
startStr = [‘审理查明：’,‘审理查明:’,‘检察院指控’]
endStr = [‘经鉴定’,‘经鉴定，’, ‘归案后’]

代码讲解

正则表达式查一下手册即可：
.*：除了’n’以外所有字符重复多次
[sS]:空白字符或者非空白字符，即所有字符（一个集合∪它在全集中的补集，即全集）
其余查一下手册就ok