MaxKB 使用正则表达式分段


飞致云 发布于 2024-09-18 / 410 阅读 / 0 评论 /
本文详细说明 MaxKB 如何使用正则表达式对几种常见格式的知识库文档进行准确地分段。

在MaxKB 高级分段的分段标识中,不仅可以下拉选择已有的分段标志,还支持写正则表达式来进行匹配分段。

1. MaxKB 正则表达式分段操作

在 MaxKB 知识库导入文档后,选择高级分段,在分段标识输入框中直接输入正则表达式即可,如下图所示:

2. 应用场景举例

当知识库文档符合某个特定的模式时,就可以使用正则表达式来进行分段,比如文章章节规则,下面是一些章节规则的示例:

2.1 场景一:多级数字编号

正则表达式:\d+\.+\d*\.*\d*\.*[a-zA-Z\s]*[\u4e00-\u9fa5,]+ 

测试分段,生成预览后的效果,如下图所示:

2.2 场景二:中文章节编码号

(1)中文序号编号

正则表达式:[一二三四五六七八九十]*[、][\u4e00-\u9fa5a-zA-Z]+

测试分段,生成预览后的效果,如下图所示:

(2)小说章节目录

正则表达式:[第][一二三四五六七八九十]+[章][ \u4e00-\u9fa5a-zA-Z]+

测试分段,生成预览后的效果,如下图所示:

2.3 场景三:多级中文+数字编号

正则表达式:[一二三四五六七八九十|1-9]+[、|.][1-9]*[.]*[1-9]*[ \u4e00-\u9fa5a-zA-Z]+

测试分段,生成预览后的效果,如下图所示:

对于其它编号规范的知识库文档,也可以通过同样的方法,在确定正则表达式之后,准确、快速地进行分段。



是否对你有帮助?