# multimodal-imagegen-scripts

**Repository Path**: hhy08/multimodal-imagegen-scripts

## Basic Information

- **Project Name**: multimodal-imagegen-scripts
- **Description**: 多模态（文生图、图文生图）模型API调用脚本-自动批量生成图像
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2026-01-19
- **Last Updated**: 2026-01-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# multimodal-imagegen-scripts

## 项目介绍
本项目提供多模态图像生成脚本，面向批量文生图与图文生图场景，便于快速调用豆包等模型 API 完成自动化生成。当前已实现：
- 豆包 API 批量生成图像（支持本地参考图随机抽样、提示词文件读取、批量下载保存）
- 基于流式返回的测试脚本示例
本项目提示词为针对草莓采摘场景构建

## 环境配置
- Python：建议 3.9+
- 关键依赖：`requests`、`volcenginesdkarkruntime`、`openai`

安装依赖：
```bash
pip install -r requirements.txt
```


## 使用方法

- 运行前需在环境变量中配置API_key，例如：豆包为 
    ```bash
    export ARK_API_KRY="xxx"
    ```

- 批量生成（使用本地参考图与提示词文件）：
    ```bash
    python scripts/doubao_api_batch_cycle.py
    ```

- 流式测试示例（使用预设提示词与参考图 URL）：
    ```bash
    python scripts/doubao_api_test.py
    ```
    运行前请确保环境变量（如 `ARK_API_KEY` 或 SDK 需要的 key）已正确导出，并准备好参考图目录与提示词文件路径。

## 飞书相关文档
- [各模型 / 提示词对比](https://w6k74z8wth.feishu.cn/docx/NhGGdwupFotS5CxcWC6ci83Mnvf?from=from_copylink)

## TODO

1. openai gemini API搭建