技术学院

如何使用正则表达式提取以编号开头、后接多个注解的完整段落

作者:碧海醫心2026-01-01 00:00:00

本文介绍如何用 python 的 `re` 模块精准提取形如“1. @xxx”开头、后续连续包含多个 `@xxx` 注解的逻辑段落，解决单行匹配局限，实现跨行分组捕获。

在处理结构化文本（如 Java 注解说明、配置片段或测试用例描述）时，常需按语义“段落”而非单纯行号进行切分。原始代码 re.findall("(?:[0-9][.][ ]).+", txt) 仅匹配每行开头的编号行，无法将后续紧邻的 @Autowired、@Override 等注解归入同一逻辑单元——因为这些注解位于独立行，且与编号行之间无显式分隔符。

关键在于：将整个段落视为一个匹配单元，即“以数字+点+空格开头的行”作为段落起始，其后所有连续的 @ 开头行（不含编号）均属于该段落。由于 re.findall 默认不跨行匹配，需结合 re.DOTALL 或更稳健的预处理策略。但更清晰、可控的方式是分两步处理：

先定位所有段落起始位置（编号行）；
再从每个起始位置出发，收集后续连续的 @... 行，直到遇到下一个编号行或文本结束。

以下为优化后的完整实现（兼容原输入格式，含换行）：

import re

txt = '''1. @aut1.or
@Autowired
2. @Override
@param
@SuppressWarnings'''

# 步骤1：用正向断言匹配所有段落起始位置（编号行），并保留其索引
pattern_start = r'(?m)^(\d+\.\s)'
starts = list(re.finditer(pattern_start, txt))

# 步骤2：按起始位置切分段落
segments = []
for i, match in enumerate(starts):
    start_pos = match.start()
    end_pos = starts[i + 1].start() if i + 1 < len(starts) else len(txt)

    # 提取从当前编号行开始、到下一个编号行（或结尾）之间的子串
    segment = txt[start_pos:end_pos].strip()
    # 清理内部多余空行，确保注解行紧凑
    segment = re.sub(r'\n\s*\n', '\n', segment)  # 合并空行
    segments.append(segment)

print(segments)
# 输出：
# ['1. @aut1.or\n@Autowired', '2. @Override\n@param\n@SuppressWarnings']

✅ 优势说明：

使用 (?m)^... 启用多行模式，^ 能正确匹配每行开头；
基于位置切片，完全规避正则贪婪/非贪婪陷阱；
自动处理段落间空行，结果干净可直接用于后续解析。

⚠️ 注意事项：

若文本中存在无编号的孤立 @xxx 行，它们将被归入前一段落（因算法基于“连续跟随”）；如需严格隔离，应在正则中加入负向先行断言 (?!\d+\.\s) 限制后续行；
实际项目中建议封装为函数，并增加对空段落、编码异常等边界情况的校验。

此方法兼顾可读性、健壮性与可扩展性，是处理此类“编号驱动段落”文本的推荐实践。

上一篇丨

Win11如何设置系统语言_Win11系统语言切换教程【攻略】

下一篇丨

PHP cURL GET请求：正确设置认证凭据与自定义请求头

全国咨询热线： 400-8878-609

新闻资讯

技术学院

如何使用正则表达式提取以编号开头、后接多个注解的完整段落

联系我们