使用标签集
使用标签集
使用标签集为数据集中的知识块自动打标签。
检索准确性是生产就绪的 RAG 框架的试金石。除了自动关键词、自动生成问题和知识图谱等检索增强方法外,RAGFlow 还引入了自动打标签功能来解决语义鸿沟问题。自动打标签功能会根据与数据集中每个知识块的相似度,自动将用户定义的标签集中的标签映射到相关的知识块上。这种自动化机制允许您在现有数据集上应用一个额外的特定领域知识“层”,这在处理大量知识块时尤其有用。
要使用此功能,请确保您至少有一个正确配置的标签集,在数据集的配置页面上指定一个或多个标签集,然后重新解析文档以启动自动打标签过程。在此过程中,数据集中的每个知识块都将与指定的标签集中的每个条目进行比较,并根据相似度自动应用标签。
使用场景
自动打标签适用于知识块之间非常相似,以至于无法将目标知识块与其他知识块区分开来的情况。例如,当您有少数关于 iPhone 的知识块,而大多数是关于 iPhone 保护壳或 iPhone 配件时,如果没有额外的信息,就很难检索到关于 iPhone 的那些知识块。
1. 创建标签集
您可以将标签集视为一个封闭集合,附加到数据集中知识块的标签完全来自指定的标签集。您可以使用标签集来“告知”RAGFlow 要标记哪些知识块以及应用哪些标签。
准备标签表文件
一个标签集可以由一个或多个 XLSX、CSV 或 TXT 格式的表格文件组成。标签集中的每个表格文件都包含两列,描述 (Description) 和 标签 (Tag)。
第一列提供第二列中所列标签的描述。这些描述可以是示例知识块或示例查询。系统将计算此列中每个条目与数据集中每个知识块之间的相似度。
标签 (Tag) 列包含与描述条目配对的标签。多个标签应使用逗号(,)分隔。
注意根据经验,请考虑在您的标签表中包含以下条目:
目标知识块的描述及其相应的标签。
使用其他方法未能检索到正确响应的用户查询,确保其标签与数据集中目标知识块的标签匹配。
创建标签集
重要标签集不参与文档索引或检索。在配置聊天助手或智能体时,请勿指定标签集。
点击 + 创建数据集来创建一个数据集。
导航到所创建数据集的配置页面,在数据处理流程中选择内置,然后从内置下拉菜单中选择标签 (Tag) 作为默认分块方法。
返回到文件页面,上传并解析您的 XLSX、CSV 或 TXT 格式的表格文件。
在标签视图部分下会出现一个标签云,表明标签集已创建。
点击表格选项卡以查看标签频率表。
2. 为知识块打标签
创建标签集后,您可以将其应用于您的数据集。
导航到您的数据集的配置页面。
从标签集下拉列表中选择标签集,然后点击保存以确认。
注意如果下拉列表中缺少该标签集,请检查它是否已正确创建或配置。
重新解析您的文档以开始自动打标签过程。
在使用自动打标签的数据集的人工智能聊天场景中,每个查询都将使用相应的标签集进行标记,带有这些标签的知识块将有更高的机会被检索到。
3. 更新标签集
创建标签集并非一劳永逸。通常,您可能会发现有必要更新或删除现有标签,或添加新条目。
您可以在标签频率表中更新现有的标签集。
要添加新条目,您可以添加并解析新的 XLSX、CSV 或 TXT 格式的表格文件。
在标签频率表中更新标签集
导航到您的标签集中的配置页面。
点击标签视图下的表格选项卡以查看标签频率表,您可以在其中更新标签名称或删除标签。
重要当标签集更新时,您必须重新解析数据集中的文档,以便它们的标签能够相应更新。
添加新表格文件
导航到您的标签集中的配置页面。
导航到数据集页面,上传并解析您的 XLSX、CSV 或 TXT 格式的表格文件。
重要如果您向标签集中添加了新的表格文件,是否重新解析数据集中的文档由您自行决定。
常见问题
我可以引用多个标签集吗?
是的,可以。通常一个标签集就足够了。当使用多个标签集时,请确保它们相互独立;否则,请考虑合并您的标签集。
标签集和标准数据集有什么区别?
标准数据集就是一个数据集。它将被 RAGFlow 的文档引擎搜索,检索到的知识块将被提供给大语言模型 (LLM)。相比之下,标签集仅用于为数据集中的知识块附加标签。它不直接参与检索过程,您在为聊天助手或智能体选择数据集时不应选择标签集。
自动打标签和自动关键词有什么区别?
这两个功能都增强了 RAGFlow 中的检索能力。自动关键词功能依赖于大语言模型 (LLM),并消耗大量 token,而自动打标签功能则基于向量相似性和预定义的标签集。您可以将自动关键词功能中应用的关键词视为一个开放集,因为它们是由 LLM 生成的。相比之下,标签集可以被视为一个用户定义的封闭集,使用前需要以上传指定格式的标签集。
