在MaxKB 中,本地文件可以有三种方式进行上传:文本文件、表格、QA问答对, Excel都可以通过这三种方式进行上传,但这三种方式的后续的处理流程以及应用场景并不相同,如果没有选择合适的方式,最后的问答效果也相差较大。以下是针对 Excel 文件这三种方式上传到知识库的详细说明和总结。
| 文本文件 | 表格 | QA问答对 |
---|
详细描述 | Excel 文件中的每一个Sheet 视为一个文档。 对每个 Sheet 进行文本的分段处理。 对于智能分段,则将每个Sheet 当作一个分段;对于高级分段则按照分段标识和分段长度进行完整切分,即切分后表头信息会保留在每一个分段中。 默认情况下每个Sheet为一个分段,分段少,单个分段的数据大,信息完整。
| | 仅包含分段标题、分段内容、问题的特定格式的 Excel 文件。 Excel 文件中的每一个Sheet 视为一个文档。 对每个 Sheet 的非表头列(即一条记录)自动分割为一个分段。即自动进行且分,没有文本文件的分段过程。 分段多,每个分段数据量小。
|
适用场景 | 特点:分段少,信息完整,在后续问答的时候可以将整个信息提交给大模型,而目前大模型对处理这些完整信息的时候的能力经验证是OK的。 适用于数量量不大的场景,如果数据量大,消耗的Tokens会高,处理时间也会更多。 | 特点:分段很多(分散),每一条信息完整。可支持很大的数据量。 适用于每条记录相对独立,各条记录之间关联不强的情况。如果各记录之间关联较强,后续问答时,信息比较分散,期望的结果在多个记录/分段中,一方面是检索匹配时有难度,可能会遗漏,同时对模型的要求也高。 | 特点:分段很多,可支持很大的数据量。 主要适用于问答场景,每条记录都独立,相互没有关联。 |