在MaxKB 高级分段的分段标识中,不仅可以下拉选择已有的分段标志,还支持写正则表达式来进行匹配分段。
1. MaxKB 正则表达式分段操作
在 MaxKB 知识库导入文档后,选择高级分段,在分段标识输入框中直接输入正则表达式即可,如下图所示:
2. 应用场景举例
当知识库文档符合某个特定的模式时,就可以使用正则表达式来进行分段,比如文章章节规则,下面是一些章节规则的示例:
2.1 场景一:多级数字编号
正则表达式:\d+\.+\d*\.*\d*\.*[a-zA-Z\s]*[\u4e00-\u9fa5,]+
测试分段,生成预览后的效果,如下图所示:
2.2 场景二:中文章节编码号
(1)中文序号编号
正则表达式:[一二三四五六七八九十]*[、][\u4e00-\u9fa5a-zA-Z]+
测试分段,生成预览后的效果,如下图所示:
(2)小说章节目录
正则表达式:[第][一二三四五六七八九十]+[章][ \u4e00-\u9fa5a-zA-Z]+
测试分段,生成预览后的效果,如下图所示:
2.3 场景三:多级中文+数字编号
正则表达式:[一二三四五六七八九十|1-9]+[、|.][1-9]*[.]*[1-9]*[ \u4e00-\u9fa5a-zA-Z]+
测试分段,生成预览后的效果,如下图所示:
对于其它编号规范的知识库文档,也可以通过同样的方法,在确定正则表达式之后,准确、快速地进行分段。