# multimodal-imagegen-scripts **Repository Path**: hhy08/multimodal-imagegen-scripts ## Basic Information - **Project Name**: multimodal-imagegen-scripts - **Description**: 多模态(文生图、图文生图)模型API调用脚本-自动批量生成图像 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2026-01-19 - **Last Updated**: 2026-01-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # multimodal-imagegen-scripts ## 项目介绍 本项目提供多模态图像生成脚本,面向批量文生图与图文生图场景,便于快速调用豆包等模型 API 完成自动化生成。当前已实现: - 豆包 API 批量生成图像(支持本地参考图随机抽样、提示词文件读取、批量下载保存) - 基于流式返回的测试脚本示例 本项目提示词为针对草莓采摘场景构建 ## 环境配置 - Python:建议 3.9+ - 关键依赖:`requests`、`volcenginesdkarkruntime`、`openai` 安装依赖: ```bash pip install -r requirements.txt ``` ## 使用方法 - 运行前需在环境变量中配置API_key,例如:豆包为 ```bash export ARK_API_KRY="xxx" ``` - 批量生成(使用本地参考图与提示词文件): ```bash python scripts/doubao_api_batch_cycle.py ``` - 流式测试示例(使用预设提示词与参考图 URL): ```bash python scripts/doubao_api_test.py ``` 运行前请确保环境变量(如 `ARK_API_KEY` 或 SDK 需要的 key)已正确导出,并准备好参考图目录与提示词文件路径。 ## 飞书相关文档 - [各模型 / 提示词对比](https://w6k74z8wth.feishu.cn/docx/NhGGdwupFotS5CxcWC6ci83Mnvf?from=from_copylink) ## TODO 1. openai gemini API搭建