Excel 文件导入MaxKB知识库指导说明


飞致云 发布于 2025-04-12 / 105 阅读 / 0 评论 /

在MaxKB 中,本地文件可以有三种方式进行上传:文本文件、表格、QA问答对, Excel都可以通过这三种方式进行上传,但这三种方式的后续的处理流程以及应用场景并不相同,如果没有选择合适的方式,最后的问答效果也相差较大。以下是针对 Excel 文件这三种方式上传到知识库的详细说明和总结。

文本文件

表格

QA问答对

详细描述

  • Excel 文件中的每一个Sheet 视为一个文档。

  • 对每个 Sheet 进行文本的分段处理

  • 对于智能分段,则将每个Sheet 当作一个分段;对于高级分段则按照分段标识和分段长度进行完整切分,即切分后表头信息会保留在每一个分段中。

  • 默认情况下每个Sheet为一个分段,分段少,单个分段的数据大,信息完整。

  • Excel 文件中的每一个Sheet 视为一个文档。

  • 对每个 Sheet 的非表头列(即一条记录)自动分割为一个分段。即自动进行且分,没有文本文件的分段过程。

  • 分段多。

  • 仅包含分段标题、分段内容、问题的特定格式的 Excel 文件

  • Excel 文件中的每一个Sheet 视为一个文档。

  • 对每个 Sheet 的非表头列(即一条记录)自动分割为一个分段。即自动进行且分,没有文本文件的分段过程。

  • 分段多,每个分段数据量小

适用场景

特点:分段少,信息完整,在后续问答的时候可以将整个信息提交给大模型,而目前大模型对处理这些完整信息的时候的能力经验证是OK的。

适用于数量量不大的场景,如果数据量大,消耗的Tokens会高,处理时间也会更多。

特点:分段很多(分散),每一条信息完整。可支持很大的数据量。

适用于每条记录相对独立,各条记录之间关联不强的情况。如果各记录之间关联较强,后续问答时,信息比较分散,期望的结果在多个记录/分段中,一方面是检索匹配时有难度,可能会遗漏,同时对模型的要求也高。

特点:分段很多,可支持很大的数据量。

主要适用于问答场景,每条记录都独立,相互没有关联。



是否对你有帮助?