育儿视频生成智能体开发

m0_74093295

1368人浏览 · 2025-05-25 11:48:30

m0_74093295 · 2025-05-25 11:48:30 发布

智能体介绍

本产品是一个专业的育儿主题视频生成智能体，当用户提出育儿相关需求时，通过询问进一步细节，全面、准确地了解用户具体的育儿需求。根据了解到的用户育儿需求，创作每行一段的文案。将定制好的文案输入 yuer_image 工作流，获取并向用户返回对应的视频链接。

本产品在coze平台上发布，同时使用了ECNU的api实现了通用文生图的功能。

以下是将育儿 App 竞品信息汇总整理后的表格，涵盖核心功能、缺点及本项目优势对比，便于直观分析市场竞争格局：

应用场景1：家庭育儿问题解决

1. 日常养育难题指导

场景描述：家长面对宝宝挑食、睡眠问题、情绪管理等日常养育困惑时，通过智能体生成可视化解决方案。

价值：将抽象育儿知识转化为可操作的视频指南，降低新手父母的学习成本。

2. 儿童成长发育支持

场景描述：针对不同年龄段儿童的发育里程碑，生成定制化训练视频。

价值：帮助家长在家开展科学早教，弥补育儿知识碎片化问题。

3. 亲子互动游戏设计

场景描述：根据儿童年龄和兴趣生成亲子游戏视频，解决 “不知道和孩子玩什么” 的痛点。

价值：提升亲子互动质量，同时传递 “生活即教育” 的育儿理念。

应用场景2：教育与内容服务

1. 托育机构教学辅助

场景描述：为幼儿园、早教机构提供标准化教学视频，解决师资水平参差不齐的问题。

价值：降低机构教研成本，确保教学内容的专业性与一致性。

2. 育儿自媒体内容生产

场景描述：帮助育儿博主、KOL 快速生成原创视频内容，解决 “内容更新压力大” 的问题。

价值：提供低成本、高效率的内容生产工具，助力自媒体商业化变现。

3. 家长课堂线上培训

场景描述：幼儿园、社区服务中心开展线上育儿讲座时，用视频作为辅助教材。

价值：丰富线上培训形式，解决纯文字资料枯燥、真人授课成本高的问题。

智能体人设与回复逻辑

# 角色

你是一个专业的育儿主题视频生成智能体，能够精准了解用户的育儿需求，并根据这些需求定制每行一段的文案内容。之后，将生成的文案输入 yuer_image 工作流，获取并返回相应的视频链接。

## 技能

### 技能 1: 了解育儿需求

当用户提出育儿相关需求时，通过询问进一步细节，全面、准确地了解用户具体的育儿需求。例如询问孩子年龄、具体问题场景等。

### 技能 2: 定制文案

根据了解到的用户育儿需求，创作每行一段的文案。文案内容要围绕育儿主题，提供实用、有针对性的信息和建议。

文案示例（每一段的第一行为文案的主题句，后面的所有句子为主题相关的说明句，要求一行一个句子，并且除了主题句以外的所有句子都要有一个数字序号）：

一定要逼孩子自律，不然长大干啥啥不成。

1、闹钟一响，立马起床。

2、每天早晨坚持大声早读。

3、10分钟内穿戴整齐。

4、每天一定要吃早餐。

5。认真做眼保健操，保护好视力。

6、每天一个苹果或香蕉多吃。

7、驼背没气止，靠墙站。

8、要坚持体育锻炼。

9、睡前坚持阅读30分钟。

### 技能 3: 获取视频链接

将定制好的文案输入 yuer_image 工作流，获取并向用户返回对应的视频链接。在生成了文案后，将其输入资源库中的yuer_image工作流，得到如下格式的输出：

draft_url : "https://ts.fyshark.com/#/cozeToJianyin?drafId=https://video-snot-12220.oss-cn-shanghai.aliyuncs.com/2025-05-24/draft/45d8a063-8065-44a3-8a94-1c85be2d1270.json"

video_url : "https://ts-api.fyshark.com/api/get_video/45d8a063-8065-44a3-8a94-1c85be2d1270"

我只需要形如“=https://video-snot-12220.oss-cn-shanghai.aliyuncs.com/2025-05-24/draft/45d8a063-8065-44a3-8a94-1c85be2d1270.json”的这一部分

回复示例：视频链接为：[https://video-snot-12220.oss-cn-shanghai.aliyuncs.com/2025-05-24/draft/45d8a063-8065-44a3-8a94-1c85be2d1270.json]

## 限制

- 仅围绕育儿主题进行需求了解、文案创作和视频链接获取，拒绝回答与育儿无关的话题。

- 所输出的内容必须按照给定的格式进行组织，不能偏离框架要求。

- 文案内容需符合用户提出的育儿需求场景。

- 仅提供通过 yuer_image 工作流生成的视频链接。

功能插件

连接 ComfyUI 服务：通过base_url参数填写 ComfyUI 的 web 服务地址，建立与 ComfyUI 的连接，ComfyUI 是常用于 AI 图像生成等任务的工具。

指定工作流：workflow_text参数用于输入工作流文本，定义在 ComfyUI 中执行的具体任务流程，比如图像生成的步骤、参数设置等。

确定输出类型：output_type参数可指定生成内容的类型，支持如images（图像）、audio（音频）等，明确插件执行任务后输出的数据类别。

输出节点标识：output_node_title用于设置生成内容输出节点的标题，方便在 ComfyUI 工作流中识别和管理输出结果。

权限认证（可选）：user和password参数用于 HTTP Basic Auth 认证，若 ComfyUI 服务设置了访问权限，可通过填写用户名和密码进行身份验证。

输出

插件运行后，通过out参数输出生成内容的 URL，方便用户获取和访问最终生成的内容，如生成的图像或音频文件所在地址。

育儿相关智能体的对话体验设置

开场白文案：设置智能体与用户对话开始时说的话，当前内容是 “嗨，你好！我能为你的育儿之路提供助力，快来和我聊聊吧” ，用于吸引用户开启对话。

开场白预置问题：提供一些常见育儿问题，像 “宝宝不爱吃饭怎么办” 等，引导用户提问，帮助快速切入话题。

用户问题建议：开启后，智能体回复用户后会依据对话内容给出 3 条提问建议，方便用户进一步交流。

完整的一个对话示例如下：

最后我们会的得到一个视频链接，需要下载两个应用来运行这个视频链接

下载完成后我们会得到这样一个文件夹，我们需要把他放入剪映专业版的文件夹中，如我的地址是：C:\Users\王翊安\AppData\Local\JianyingPro\User Data\Projects\com.lveditor.draft

最后我们就可以在剪映专业版中查看生产的视频

完整参数

二．yuer_image工作流介绍

yuer_image工作流使用插件功能说明

文本处理插件：以换行符为分隔符，将输入的育儿文案拆分成字符串数组，方便后续对每行文本进行处理。

str_to_list_标题插件：把输入的标题字符串转换为字符串列表，便于对标题中的关键词进行遍历和索引操作。

speech_synthesis 插件：根据输入的文本、选择的音色（如 “渊博小叔”）等参数，将文案合成为音频，生成音频链接。

文案和提示词插件：调用 DeepSeek-V3 大语言模型，将育儿文案转换为水墨风格的图片提示词，同时分离段落。

audio_timelines 插件：从音频链接列表中获取时间线信息，包括开始和结束时间，为音视频同步提供时间参数。

（ECNU插件）images_generations 插件：基于 ECNU API 接口，根据输入的提示词、模型名称和图片尺寸等参数生成图片。

代码插件：处理图片 URL，将其赋值给指定变量，以便后续使用。

代码_imageInfos 插件：整合图片信息和音频时间线信息，为每张图片生成包含 URL、尺寸、时间轴等属性的对象，并转换为 JSON 字符串。

audio_infos 插件：根据音频时间线和音频文件 URL 等参数，制作音频数据，用于后续音频添加。

bgm 音乐数据插件：针对背景音乐，根据时间线和 BGM 文件 URL 等参数，生成背景音乐数据。

caption_infos 插件：依据音频时间线和文本内容等参数，制作字幕数据，包括字幕样式和动画效果。

create_draft 插件：创建视频草稿，设定视频的高度、宽度等基础属性，生成草稿链接。

add_images 插件：将生成的图片添加到视频草稿中，设置图片的缩放、位置等参数。

add_captions_标题插件：把字幕数据添加到视频草稿，设置字幕的对齐方式、字体大小等样式。add_audios 插件：将音频数据（包括旁白和背景音乐）添加到视频草稿中。

gen_video 插件：接收视频草稿链接和 API 令牌，对视频进行云渲染，生成最终的视频链接。

结束插件：作为工作流的最终节点，返回渲染完成的视频链接和草稿链接。

工作流组合连接方式

文本处理阶段：输入的育儿文案先通过文本处理插件按行拆分，标题通过 str_to_list_标题插件处理成列表，为后续操作提供结构化数据。

音视频素材生成阶段：speech_synthesis 插件将拆分后的文案合成为音频；文案和提示词插件将文案转换为水墨风格图片提示词，images_generations 插件根据提示词生成图片，代码插件处理图片 URL；audio_timelines 插件从音频获取时间线，为后续素材添加提供时间参考。

素材整合阶段：代码_imageInfos 插件整合图片和音频时间线信息；audio_infos 插件和 bgm 音乐数据插件分别处理旁白和背景音乐数据；caption_infos 插件生成字幕数据。

视频制作阶段：create_draft 插件创建视频草稿，add_images 插件、add_captions_标题插件、add_audios 插件分别将图片、字幕、音频添加到草稿中。

视频生成阶段：gen_video 插件对草稿进行云渲染，结束插件返回最终的视频链接和草稿链接，完成整个工作流。

以上就是该 COZE 工作流中各插件的功能及组合连接方式。你若对某个插件的功能或工作流的连接有更详细的疑问，可随时告知。

基于ECNU API接口实现的COZE通用文生图形插件

接口概述：提供兼容 OpenAI 的通用文生图像接口。

请求方法：使用 POST 方法。

请求地址：为https://chat.ecnu.edu.cn/open/api/v1/images/generations。

请求参数：

1. model：字符串类型，必填，模型名称目前为 ecnu-image，可查看模型列表。
2. prompt：字符串类型，必填，输入文本不超过 1024 个字符。
3. size：字符串类型，可选，生成图片尺寸有多种取值，默认是 512x512。
4. response_format：字符串类型，可选，返回格式为 url 或 b64_json，默认是 url，且 url 上的图片仅保留 24 小时，需及时转存。

返回参数：

1. created：整数类型，是请求时间戳。
2. err_message：字符串类型，若图片生成错误，会返回对应的错误信息。
3. data：数组类型，为返回数据。其中，当请求返回 json 格式时，data 包含 b64_json 字段（图片的 base64 编码）；当请求返回 url 格式时，data 包含 url 字段（图片的 url），同时 data 还包含 revised_prompt 字段（修正后的输入文本）。

请求示例：

POST https://chat.ecnu.edu.cn/open/api/v1/images/generations

Content-Type: application/json

Authorization: *****

{

"prompt": "室内感统训练场景，2 岁幼儿在彩虹平衡木上练习行走，旁边摆放触觉垫与悬挂吊环，妈妈手持鼓励贴纸微笑引导，突出儿童运动发育与亲子互动",

"model": "ecnu-image",

"size":"512x512"

}

{

"created": 1732611704,

"data": [

{

"url": "https://ecnunic-data-public.oss-cn-shanghai.aliyuncs.com/Anonymous/4f7a70bccc70e9ab_173.png",

"revised_prompt": "室内感统训练场景，2 岁幼儿在彩虹平衡木上练习行走，旁边摆放触觉垫与悬挂吊环，妈妈手持鼓励贴纸微笑引导，突出儿童运动发育与亲子互动"

}

]

}

出错时返回

{

"created": 1732682080,

"data": [

{

"revised_prompt": "****"

}

"err_message": "AuditMultimodalSlotBlockError:(12:34:40.967) 非常抱歉，根据相关法律法规，我们无法提供关于以下相关内容的图像、视频以及音频等回复，包括但不限于：\n\t(1) 涉及国家安全的信息；\n\t(2) 涉及政治与宗教类的信息；\n\t(3) 涉及暴力与恐怖主义的信息；\n\t(4) 涉及黄赌毒类的信息；\n\t(5) 涉及不文明的信息。\n我们会继续遵循相关法规法律的要求，共创一个健康和谐网络环境，谢谢您的理解。\n"

}

其他用到的coze插件

文本处理插件

功能：对字符串类型变量进行格式处理，这里选择的是 “字符串分隔” 应用。它以换行符（\n）为分隔符，将输入的字符串（变量名为 “String”，值引用自 “开始 - wenan” ）拆分成字符串数组，输出名为 “output”，类型为 Array ，便于后续对文本内容按行进行分别处理。

应用场景：当需要将一段文本按行拆解，分别提取其中信息，或对每行文本进行单独操作时会用到，比如处理诗歌、列表形式文本等。

str_to_list_标题插件

功能：将输入的字符串（变量名 “obj”，值引用自 “开始 - title” ）转换为字符串列表，输出名为 “infos”，类型为 Array 。它能把单个字符串数据转化成可按列表形式处理的结构，方便后续进行遍历、索引等操作。

应用场景：例如标题中包含多个关键词，需要将关键词提取出来分别处理，或者根据标题中的元素进行分类等场景。

speech_synthesis 插件

功能：根据输入的文本、语言、音色等参数合成音频。支持批处理模式，这里批处理变量 “item1” 引用了 “文本处理” 插件的输出 “output” 。输入参数包括文本内容（“text”，引用自 “speech_synthesis - item1” ）、语言（中文）、音色标识（“speaker_id” 需输入或引用参数值）、语速比例（speed_ratio 为 1 ）、具体的声音 ID（这里是系统提供的热门抖音音色 “渊博小叔” ）。输出是一个包含状态码（code ）、音频数据对象（data，含音频链接 “link” ）、日志 ID（log_id ）、消息（msg ）等信息的对象数组（outputList ）。

应用场景：适用于将文字内容转换为语音，比如制作有声读物、视频旁白、智能客服语音回复等场景。

文案和提示词插件

功能：调用 DeepSeek-V3 大语言模型，依据输入变量和系统提示词生成回复。通过系统提示词设定角色为水墨风格图片生成助手，具备精准提取人物信息、智能分离段落、精细生成段落提示词等技能。输入变量引用 “文本处理” 插件的输出，经模型处理后，按设定规则生成图片提示词等内容，输出为包含段落内容（paperwoks ）和提示词（prompts ）的字符串数组，用于指导水墨风格图片生成。

应用场景：在需要根据文本内容生成图片提示词，尤其是水墨风格图片创作相关场景中使用，如古风插画创作、传统文化主题多媒体内容制作等。

audio_timelines 插件

功能：从输入的音频链接列表（links，引用自 “objs_to_str_list - infos” ）中获取时间线信息。输出包含两组时间线相关数据，“all_timelines” 和 “timelines”，每组数据都有开始时间（start ）和结束时间（end ），用于确定音频在时间维度上的相关参数，方便后续音频编辑、与视频等其他媒体元素进行时间同步等操作。

应用场景：主要用于音频处理与音视频合成场景，比如在制作视频时，需要根据音频的起止时间进行剪辑、添加特效，或者将音频与视频画面精准匹配等工作。

循环体插件

循环体并非一个独立的插件，而是一种流程控制结构，用于重复执行其中包含的插件步骤。在图中，它包含了 “images_generations” 和 “代码” 两个插件，作用是对满足循环条件的输入，反复执行这两个插件的操作：

images_generations 插件：这是一个通用文生图插件。就是之前介绍过的基于ECNU API接口实现的COZE通用文生图形插件

代码插件1：通过编写代码来处理输入变量并生成返回值。输入引用 “images_generations” 插件输出的图片 URL（images_generations - url ）。代码部分构建了一个输出对象，将输入的图片 URL 赋值给 “key0” ，最终输出变量 “key0” ，类型为字符串。

循环体通过不断重复执行这两个插件，实现批量图片生成及对生成图片 URL 的特定处理，适用于需要根据一系列提示词生成多张图片，并对图片链接进行后续加工处理的场景，比如批量生成故事配图并整理链接等工作。

代码插件2：这是一个自定义代码类型的插件，用于处理输入变量并生成返回值。它接收两个输入变量，“image_list” 引用自 “循环 - images_list” ，应是图片相关信息列表；“timelines” 引用自 “audio_timelines - timelines” ，是音频时间线信息。

代码通过遍历 “image_list” ，结合 “timelines” 中的音频起止时间信息，为每个图片构建包含图片 URL（image_url ）、宽（width ）、高（height ）、在时间轴上的开始时间（start ）、结束时间（end ）、循环动画名称（loop_animation ）、循环动画持续时间（loop_animation_duration ）等属性的对象。最后将这些图片信息对象组成的数组转换为 JSON 字符串，通过 “key0” 输出，用于后续可能的音视频合成或图片展示等场景中对图片信息的管理与使用。

应用场景：主要用于音视频制作流程中，整合图片资源与音频时间线信息，比如在制作带有图片展示和音频配合的视频时，提前规划好每张图片在视频中的显示时间、尺寸以及动画效果等相关参数设定。

这三张图片展示的不是循环体插件，而是三个不同功能的插件，以下是它们各自的说明：

audio_infos 插件

功能：根据音频时间线来制作音频数据。输入参数包括音频文件 URL 列表（mp3_urls，引用自 “objs_to_str_list - infos” ）、音频时间线信息（timelines，引用自 “audio_timelines - timelines” ）、音频特效（audio_effect ，需输入或引用参数值）、音量（volume，默认值为 10 ）。通过这些参数，对音频文件进行整合与设置，输出包含处理后音频相关信息的字符串（infos ），用于后续音视频合成等操作。

应用场景：主要用于音频编辑与音视频合成项目中，对多个音频文件按特定时间线进行编排、设置音量和特效等，例如制作视频的旁白音频部分。

bgm 音乐数据插件

功能：同样是根据时间线制作音频数据，针对的是背景音乐（BGM）。输入参数有 BGM 文件 URL 列表（mp3_urls，引用自 “bgm 列表 - infos” ）、时间线信息（timelines，引用自 “audio_timelines - all_timelines” ）、音频特效（audio_effect ，需输入或引用参数值）、音量（volume，默认值为 0.5 ）。处理后输出包含 BGM 相关信息的字符串（infos ），以便在音视频项目中使用。

应用场景：在音视频制作中，用于对背景音乐进行时间线规划、音量调整和特效设置，使背景音乐与视频内容更好地配合。

caption_infos 插件

功能：依据时间线制作字幕数据。输入参数包括文本内容（texts，引用自 “文本处理 - output” ）、时间线信息（timelines，引用自 “audio_timelines - timelines” ），以及一系列字幕样式和动画相关参数，如字体大小（font_size ，需输入或引用参数值）、淡入动画（in_animation，默认 “模糊缩小” ）、淡入动画时长（in_animation_duration，默认值为 1000000 ）等。最终输出包含字幕相关信息的字符串（infos ），为视频添加字幕做准备。

应用场景：在视频制作过程中，用于根据音频时间线来生成对应的字幕数据，设置字幕的显示样式和动画效果。

create_draft 插件

功能：创建视频草稿，作为插件入口。输入参数包括视频高度（height ）、用户 ID（user_id ）、视频宽度（width ），这些参数用于设定草稿的基础属性。输出包含草稿链接（draft_url ）和提示链接（tip_url ），为后续视频编辑操作提供基础。

应用场景：在视频制作流程起始阶段，用于初始化一个视频草稿，确定视频尺寸等基本属性，以便后续添加各种素材。

add_images 插件

功能：批量向视频草稿中添加图片。输入参数有草稿链接（draft_url，引用自 “create_draft - draft_url” ）、图片信息（image_infos，引用自 “代码_imageInfos - key0” ），以及图片缩放（scale_x、scale_y ）和位置变换（transform_x、transform_y ）相关参数。输出包含轨道 ID（track_id ）、草稿链接（draft_url ）、图片 ID 数组（image_ids ）、片段 ID 数组（segment_ids ）和片段信息数组（segment_infos ），用于管理添加图片在视频中的相关信息。

应用场景：在视频制作过程中，用于将生成或准备好的图片素材添加到视频草稿中，并设置其显示样式和在时间轴上的位置等。

add_captions_标题插件

功能：批量向视频草稿中添加字幕。输入参数包括字幕信息（captions，引用自 “caption_infos_标题 - infos” ）、草稿链接（draft_url，引用自 “create_draft - draft_url” ），以及一系列字幕样式参数，如对齐方式（alignment ）、边框颜色（border_color ）、字体（font ）、字体大小（font_size ）等。输出为草稿链接（draft_url ），用于更新添加字幕后的视频草稿状态。

应用场景：在视频制作中，用于根据视频内容和音频时间线添加字幕，并设置字幕的外观样式和显示效果。

add_audios 插件

功能：批量向视频草稿中添加音频。输入参数为音频信息（audio_infos，引用自 “audio_infos - infos” ）和草稿链接（draft_url，引用自 “create_draft - draft_url” ）。输出包含轨道 ID（track_id ）、音频 ID 数组（audio_ids ）和草稿链接（draft_url ），用于管理添加音频在视频中的相关信息。

应用场景：在视频制作时，用于将旁白、背景音乐等音频素材添加到视频草稿中，为视频配上声音。

gen_video 插件

功能：接收 “create_draft” 输出的草稿链接（draft_url ），并结合 API 令牌（api_token ），对视频进行云渲染。输出包括视频链接（video_url ）、状态码（code ）、消息（msg ）、提示（tip ），用于获取最终渲染完成的视频及相关状态信息。

应用场景：在完成视频草稿的素材添加和编辑后，用于将视频进行云渲染，生成最终可播放的视频文件。

结束插件

功能：作为工作流的最终节点，用于返回工作流运行后的结果信息。输出变量包括视频链接（video_url，引用自 “gen_video - video_url” ）和草稿链接（draft_url，引用自 “create_draft - draft_url” ），用于提供工作流完成后关键的视频和草稿相关链接信息。

应用场景：标志着整个视频制作工作流的结束，汇总并输出最终的视频及草稿链接，方便后续查看、使用或存档。

智能体介绍

本产品在coze平台上发布，同时使用了ECNU的api实现了通用文生图的功能。

以下是将育儿 App 竞品信息汇总整理后的表格，涵盖核心功能、缺点及本项目优势对比，便于直观分析市场竞争格局：

应用场景1：家庭育儿问题解决

1. 日常养育难题指导

场景描述：家长面对宝宝挑食、睡眠问题、情绪管理等日常养育困惑时，通过智能体生成可视化解决方案。

价值：将抽象育儿知识转化为可操作的视频指南，降低新手父母的学习成本。

2. 儿童成长发育支持

场景描述：针对不同年龄段儿童的发育里程碑，生成定制化训练视频。

价值：帮助家长在家开展科学早教，弥补育儿知识碎片化问题。

3. 亲子互动游戏设计

场景描述：根据儿童年龄和兴趣生成亲子游戏视频，解决 “不知道和孩子玩什么” 的痛点。

价值：提升亲子互动质量，同时传递 “生活即教育” 的育儿理念。

应用场景2：教育与内容服务

1. 托育机构教学辅助

场景描述：为幼儿园、早教机构提供标准化教学视频，解决师资水平参差不齐的问题。

价值：降低机构教研成本，确保教学内容的专业性与一致性。

2. 育儿自媒体内容生产

场景描述：帮助育儿博主、KOL 快速生成原创视频内容，解决 “内容更新压力大” 的问题。

价值：提供低成本、高效率的内容生产工具，助力自媒体商业化变现。

3. 家长课堂线上培训

场景描述：幼儿园、社区服务中心开展线上育儿讲座时，用视频作为辅助教材。

价值：丰富线上培训形式，解决纯文字资料枯燥、真人授课成本高的问题。

智能体人设与回复逻辑

# 角色

## 技能

### 技能 1: 了解育儿需求

当用户提出育儿相关需求时，通过询问进一步细节，全面、准确地了解用户具体的育儿需求。例如询问孩子年龄、具体问题场景等。

### 技能 2: 定制文案

根据了解到的用户育儿需求，创作每行一段的文案。文案内容要围绕育儿主题，提供实用、有针对性的信息和建议。

一定要逼孩子自律，不然长大干啥啥不成。

1、闹钟一响，立马起床。

2、每天早晨坚持大声早读。

3、10分钟内穿戴整齐。

4、每天一定要吃早餐。

5。认真做眼保健操，保护好视力。

6、每天一个苹果或香蕉多吃。

7、驼背没气止，靠墙站。

8、要坚持体育锻炼。

9、睡前坚持阅读30分钟。

### 技能 3: 获取视频链接

draft_url : "https://ts.fyshark.com/#/cozeToJianyin?drafId=https://video-snot-12220.oss-cn-shanghai.aliyuncs.com/2025-05-24/draft/45d8a063-8065-44a3-8a94-1c85be2d1270.json"

video_url : "https://ts-api.fyshark.com/api/get_video/45d8a063-8065-44a3-8a94-1c85be2d1270"

我只需要形如“=https://video-snot-12220.oss-cn-shanghai.aliyuncs.com/2025-05-24/draft/45d8a063-8065-44a3-8a94-1c85be2d1270.json”的这一部分

回复示例：视频链接为：[https://video-snot-12220.oss-cn-shanghai.aliyuncs.com/2025-05-24/draft/45d8a063-8065-44a3-8a94-1c85be2d1270.json]

## 限制

- 仅围绕育儿主题进行需求了解、文案创作和视频链接获取，拒绝回答与育儿无关的话题。

- 所输出的内容必须按照给定的格式进行组织，不能偏离框架要求。

- 文案内容需符合用户提出的育儿需求场景。

- 仅提供通过 yuer_image 工作流生成的视频链接。

功能插件

连接 ComfyUI 服务：通过base_url参数填写 ComfyUI 的 web 服务地址，建立与 ComfyUI 的连接，ComfyUI 是常用于 AI 图像生成等任务的工具。

指定工作流：workflow_text参数用于输入工作流文本，定义在 ComfyUI 中执行的具体任务流程，比如图像生成的步骤、参数设置等。

确定输出类型：output_type参数可指定生成内容的类型，支持如images（图像）、audio（音频）等，明确插件执行任务后输出的数据类别。

输出节点标识：output_node_title用于设置生成内容输出节点的标题，方便在 ComfyUI 工作流中识别和管理输出结果。

权限认证（可选）：user和password参数用于 HTTP Basic Auth 认证，若 ComfyUI 服务设置了访问权限，可通过填写用户名和密码进行身份验证。

输出

插件运行后，通过out参数输出生成内容的 URL，方便用户获取和访问最终生成的内容，如生成的图像或音频文件所在地址。

育儿相关智能体的对话体验设置

开场白文案：设置智能体与用户对话开始时说的话，当前内容是 “嗨，你好！我能为你的育儿之路提供助力，快来和我聊聊吧” ，用于吸引用户开启对话。

开场白预置问题：提供一些常见育儿问题，像 “宝宝不爱吃饭怎么办” 等，引导用户提问，帮助快速切入话题。

用户问题建议：开启后，智能体回复用户后会依据对话内容给出 3 条提问建议，方便用户进一步交流。

完整的一个对话示例如下：

最后我们会的得到一个视频链接，需要下载两个应用来运行这个视频链接

最后我们就可以在剪映专业版中查看生产的视频

完整参数

二．yuer_image工作流介绍

yuer_image工作流使用插件功能说明

文本处理插件：以换行符为分隔符，将输入的育儿文案拆分成字符串数组，方便后续对每行文本进行处理。

str_to_list_标题插件：把输入的标题字符串转换为字符串列表，便于对标题中的关键词进行遍历和索引操作。

speech_synthesis 插件：根据输入的文本、选择的音色（如 “渊博小叔”）等参数，将文案合成为音频，生成音频链接。

文案和提示词插件：调用 DeepSeek-V3 大语言模型，将育儿文案转换为水墨风格的图片提示词，同时分离段落。

audio_timelines 插件：从音频链接列表中获取时间线信息，包括开始和结束时间，为音视频同步提供时间参数。

（ECNU插件）images_generations 插件：基于 ECNU API 接口，根据输入的提示词、模型名称和图片尺寸等参数生成图片。

代码插件：处理图片 URL，将其赋值给指定变量，以便后续使用。

代码_imageInfos 插件：整合图片信息和音频时间线信息，为每张图片生成包含 URL、尺寸、时间轴等属性的对象，并转换为 JSON 字符串。

audio_infos 插件：根据音频时间线和音频文件 URL 等参数，制作音频数据，用于后续音频添加。

bgm 音乐数据插件：针对背景音乐，根据时间线和 BGM 文件 URL 等参数，生成背景音乐数据。

caption_infos 插件：依据音频时间线和文本内容等参数，制作字幕数据，包括字幕样式和动画效果。

create_draft 插件：创建视频草稿，设定视频的高度、宽度等基础属性，生成草稿链接。

add_images 插件：将生成的图片添加到视频草稿中，设置图片的缩放、位置等参数。

gen_video 插件：接收视频草稿链接和 API 令牌，对视频进行云渲染，生成最终的视频链接。

结束插件：作为工作流的最终节点，返回渲染完成的视频链接和草稿链接。

工作流组合连接方式

文本处理阶段：输入的育儿文案先通过文本处理插件按行拆分，标题通过 str_to_list_标题插件处理成列表，为后续操作提供结构化数据。

音视频素材生成阶段：speech_synthesis 插件将拆分后的文案合成为音频；文案和提示词插件将文案转换为水墨风格图片提示词，images_generations 插件根据提示词生成图片，代码插件处理图片 URL；audio_timelines 插件从音频获取时间线，为后续素材添加提供时间参考。

素材整合阶段：代码_imageInfos 插件整合图片和音频时间线信息；audio_infos 插件和 bgm 音乐数据插件分别处理旁白和背景音乐数据；caption_infos 插件生成字幕数据。

视频制作阶段：create_draft 插件创建视频草稿，add_images 插件、add_captions_标题插件、add_audios 插件分别将图片、字幕、音频添加到草稿中。

视频生成阶段：gen_video 插件对草稿进行云渲染，结束插件返回最终的视频链接和草稿链接，完成整个工作流。

以上就是该 COZE 工作流中各插件的功能及组合连接方式。你若对某个插件的功能或工作流的连接有更详细的疑问，可随时告知。

基于ECNU API接口实现的COZE通用文生图形插件

接口概述：提供兼容 OpenAI 的通用文生图像接口。

请求方法：使用 POST 方法。

请求地址：为https://chat.ecnu.edu.cn/open/api/v1/images/generations。

请求参数：

1. model：字符串类型，必填，模型名称目前为 ecnu-image，可查看模型列表。
2. prompt：字符串类型，必填，输入文本不超过 1024 个字符。
3. size：字符串类型，可选，生成图片尺寸有多种取值，默认是 512x512。
4. response_format：字符串类型，可选，返回格式为 url 或 b64_json，默认是 url，且 url 上的图片仅保留 24 小时，需及时转存。

返回参数：

1. created：整数类型，是请求时间戳。
2. err_message：字符串类型，若图片生成错误，会返回对应的错误信息。
3. data：数组类型，为返回数据。其中，当请求返回 json 格式时，data 包含 b64_json 字段（图片的 base64 编码）；当请求返回 url 格式时，data 包含 url 字段（图片的 url），同时 data 还包含 revised_prompt 字段（修正后的输入文本）。

请求示例：

POST https://chat.ecnu.edu.cn/open/api/v1/images/generations

Content-Type: application/json

Authorization: *****

{

"model": "ecnu-image",

"size":"512x512"

}

{

"created": 1732611704,

"data": [

{

"url": "https://ecnunic-data-public.oss-cn-shanghai.aliyuncs.com/Anonymous/4f7a70bccc70e9ab_173.png",

}

]

}

出错时返回

{

"created": 1732682080,

"data": [

{

"revised_prompt": "****"

}

其他用到的coze插件

文本处理插件

应用场景：当需要将一段文本按行拆解，分别提取其中信息，或对每行文本进行单独操作时会用到，比如处理诗歌、列表形式文本等。

str_to_list_标题插件

应用场景：例如标题中包含多个关键词，需要将关键词提取出来分别处理，或者根据标题中的元素进行分类等场景。

speech_synthesis 插件

应用场景：适用于将文字内容转换为语音，比如制作有声读物、视频旁白、智能客服语音回复等场景。

文案和提示词插件

功能：调用 DeepSeek-V3 大语言模型，依据输入变量和系统提示词生成回复。通过系统提示词设定角色为水墨风格图片生成助手，具备精准提取人物信息、智能分离段落、精细生成段落提示词等技能。输入变量引用 “文本处理” 插件的输出，经模型处理后，按设定规则生成图片提示词等内容，输出为包含段落内容（paperwoks ）和提示词（prompts ）的字符串数组，用于指导水墨风格图片生成。

应用场景：在需要根据文本内容生成图片提示词，尤其是水墨风格图片创作相关场景中使用，如古风插画创作、传统文化主题多媒体内容制作等。

audio_timelines 插件

功能：从输入的音频链接列表（links，引用自 “objs_to_str_list - infos” ）中获取时间线信息。输出包含两组时间线相关数据，“all_timelines” 和 “timelines”，每组数据都有开始时间（start ）和结束时间（end ），用于确定音频在时间维度上的相关参数，方便后续音频编辑、与视频等其他媒体元素进行时间同步等操作。

应用场景：主要用于音频处理与音视频合成场景，比如在制作视频时，需要根据音频的起止时间进行剪辑、添加特效，或者将音频与视频画面精准匹配等工作。

循环体插件

images_generations 插件：这是一个通用文生图插件。就是之前介绍过的基于ECNU API接口实现的COZE通用文生图形插件

代码插件1：通过编写代码来处理输入变量并生成返回值。输入引用 “images_generations” 插件输出的图片 URL（images_generations - url ）。代码部分构建了一个输出对象，将输入的图片 URL 赋值给 “key0” ，最终输出变量 “key0” ，类型为字符串。

代码插件2：这是一个自定义代码类型的插件，用于处理输入变量并生成返回值。它接收两个输入变量，“image_list” 引用自 “循环 - images_list” ，应是图片相关信息列表；“timelines” 引用自 “audio_timelines - timelines” ，是音频时间线信息。

应用场景：主要用于音视频制作流程中，整合图片资源与音频时间线信息，比如在制作带有图片展示和音频配合的视频时，提前规划好每张图片在视频中的显示时间、尺寸以及动画效果等相关参数设定。

这三张图片展示的不是循环体插件，而是三个不同功能的插件，以下是它们各自的说明：

audio_infos 插件

功能：根据音频时间线来制作音频数据。输入参数包括音频文件 URL 列表（mp3_urls，引用自 “objs_to_str_list - infos” ）、音频时间线信息（timelines，引用自 “audio_timelines - timelines” ）、音频特效（audio_effect ，需输入或引用参数值）、音量（volume，默认值为 10 ）。通过这些参数，对音频文件进行整合与设置，输出包含处理后音频相关信息的字符串（infos ），用于后续音视频合成等操作。

应用场景：主要用于音频编辑与音视频合成项目中，对多个音频文件按特定时间线进行编排、设置音量和特效等，例如制作视频的旁白音频部分。

bgm 音乐数据插件

功能：同样是根据时间线制作音频数据，针对的是背景音乐（BGM）。输入参数有 BGM 文件 URL 列表（mp3_urls，引用自 “bgm 列表 - infos” ）、时间线信息（timelines，引用自 “audio_timelines - all_timelines” ）、音频特效（audio_effect ，需输入或引用参数值）、音量（volume，默认值为 0.5 ）。处理后输出包含 BGM 相关信息的字符串（infos ），以便在音视频项目中使用。

应用场景：在音视频制作中，用于对背景音乐进行时间线规划、音量调整和特效设置，使背景音乐与视频内容更好地配合。

caption_infos 插件

功能：依据时间线制作字幕数据。输入参数包括文本内容（texts，引用自 “文本处理 - output” ）、时间线信息（timelines，引用自 “audio_timelines - timelines” ），以及一系列字幕样式和动画相关参数，如字体大小（font_size ，需输入或引用参数值）、淡入动画（in_animation，默认 “模糊缩小” ）、淡入动画时长（in_animation_duration，默认值为 1000000 ）等。最终输出包含字幕相关信息的字符串（infos ），为视频添加字幕做准备。

应用场景：在视频制作过程中，用于根据音频时间线来生成对应的字幕数据，设置字幕的显示样式和动画效果。

create_draft 插件

功能：创建视频草稿，作为插件入口。输入参数包括视频高度（height ）、用户 ID（user_id ）、视频宽度（width ），这些参数用于设定草稿的基础属性。输出包含草稿链接（draft_url ）和提示链接（tip_url ），为后续视频编辑操作提供基础。

应用场景：在视频制作流程起始阶段，用于初始化一个视频草稿，确定视频尺寸等基本属性，以便后续添加各种素材。

add_images 插件

功能：批量向视频草稿中添加图片。输入参数有草稿链接（draft_url，引用自 “create_draft - draft_url” ）、图片信息（image_infos，引用自 “代码_imageInfos - key0” ），以及图片缩放（scale_x、scale_y ）和位置变换（transform_x、transform_y ）相关参数。输出包含轨道 ID（track_id ）、草稿链接（draft_url ）、图片 ID 数组（image_ids ）、片段 ID 数组（segment_ids ）和片段信息数组（segment_infos ），用于管理添加图片在视频中的相关信息。

应用场景：在视频制作过程中，用于将生成或准备好的图片素材添加到视频草稿中，并设置其显示样式和在时间轴上的位置等。

add_captions_标题插件

功能：批量向视频草稿中添加字幕。输入参数包括字幕信息（captions，引用自 “caption_infos_标题 - infos” ）、草稿链接（draft_url，引用自 “create_draft - draft_url” ），以及一系列字幕样式参数，如对齐方式（alignment ）、边框颜色（border_color ）、字体（font ）、字体大小（font_size ）等。输出为草稿链接（draft_url ），用于更新添加字幕后的视频草稿状态。

应用场景：在视频制作中，用于根据视频内容和音频时间线添加字幕，并设置字幕的外观样式和显示效果。

add_audios 插件

功能：批量向视频草稿中添加音频。输入参数为音频信息（audio_infos，引用自 “audio_infos - infos” ）和草稿链接（draft_url，引用自 “create_draft - draft_url” ）。输出包含轨道 ID（track_id ）、音频 ID 数组（audio_ids ）和草稿链接（draft_url ），用于管理添加音频在视频中的相关信息。

应用场景：在视频制作时，用于将旁白、背景音乐等音频素材添加到视频草稿中，为视频配上声音。

gen_video 插件

功能：接收 “create_draft” 输出的草稿链接（draft_url ），并结合 API 令牌（api_token ），对视频进行云渲染。输出包括视频链接（video_url ）、状态码（code ）、消息（msg ）、提示（tip ），用于获取最终渲染完成的视频及相关状态信息。

应用场景：在完成视频草稿的素材添加和编辑后，用于将视频进行云渲染，生成最终可播放的视频文件。

结束插件

功能：作为工作流的最终节点，用于返回工作流运行后的结果信息。输出变量包括视频链接（video_url，引用自 “gen_video - video_url” ）和草稿链接（draft_url，引用自 “create_draft - draft_url” ），用于提供工作流完成后关键的视频和草稿相关链接信息。

应用场景：标志着整个视频制作工作流的结束，汇总并输出最终的视频及草稿链接，方便后续查看、使用或存档。

ModelEngine社区

更多推荐

从崩溃到自愈：Temporal+MCP-Agent构建永不中断的AI工作流

你是否遇到过AI工作流执行到90%突然崩溃的绝望？训练了数小时的模型因服务器重启前功尽弃？团队协作时因某人未及时审批导致整个流程停滞？本文将展示如何通过Temporal与MCP-Agent的深度集成，彻底解决这些痛点，构建真正企业级的可靠AI工作流系统。读完本文你将掌握：- 3行代码实现工作流故障自愈- 零停机升级正在运行的AI任务- 跨团队协作的工作流信号机制- 从本地开发到生产集群