如何获取知识库ID(datasetId)如何获取文件集合ID(collection_id)

创建训练订单

知识库

创建一个知识库

获取知识库列表

获取知识库详情

删除一个知识库

集合

通用创建参数说明

入参

参数说明必填
datasetId知识库ID
parentId:父级ID,不填则默认为根目录
trainingType训练模式。chunk: 按文本长度进行分割;qa: QA拆分;auto: 增强训练
chunkSize预估块大小
chunkSplitter自定义最高优先分割符号
qaPromptqa拆分提示词
tags集合标签(字符串数组)
createTime文件创建时间(Date / String)

出参

  • collectionId - 新建的集合ID
  • insertLen:插入的块数量

创建一个空的集合

创建一个纯文本集合

传入一段文字,创建一个集合,会根据传入的文字进行分割。

创建一个链接集合

传入一个网络链接,创建一个集合,会先去对应网页抓取内容,再抓取的文字进行分割。

创建一个文件集合

传入一个文件,创建一个集合,会读取文件内容进行分割。目前支持:pdf, docx, md, txt, html, csv。

创建一个API集合

传入一个文件的 id,创建一个集合,会读取文件内容进行分割。目前支持:pdf, docx, md, txt, html, csv。

创建一个外部文件库集合(商业版)

获取集合列表

获取集合详情

修改集合信息

删除一个集合

数据

数据的结构

Data结构

字段类型说明必填
teamIdString团队ID
tmbIdString成员ID
datasetIdString知识库ID
collectionIdString集合ID
qString主要数据
aString辅助数据
fullTextTokenString分词
indexesIndex[]向量索引
updateTimeDate更新时间
chunkIndexNumber分块下表

Index结构

每组数据的自定义索引最多5个

字段类型说明必填
defaultIndexBoolean是否为默认索引
dataIdString关联的向量ID
textString文本内容

为集合批量添加添加数据

注意,每次最多推送 200 组数据。

获取集合的数据列表

获取单条数据详情

修改单条数据

删除单条数据

搜索测试