# simple-infer

**Repository Path**: z7d1/simple-infer

## Basic Information

- **Project Name**: simple-infer
- **Description**: 学习nano-vllm中
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-02-15
- **Last Updated**: 2026-03-26

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## 吞吐量的对比
### 设置
批量请求数 (num_seqs): 256 / 单条输入长度 (max_input_len): 1024 / 单条输出长度 (max_output_len): 1024
### 结果
+ simple-infer: Throughput: 4051.97 tokens/s (Total Tokens: 262144, Duration: 64.70s)
+ vllm: 总生成 Token: 270189 / 总耗时: 69.01s / 模型吞吐量: 3915.45 token/s
## Cuda graph的提升
### 设置
```sh
python bench.py --model-path /home/zwl/Public/Qwen3-0.6B --max-input-len 1 --max-output-len 512 --num-seqs 8
```
### 结果
+ Throughput: 2746.27 tokens/s (Total Tokens: 4096, Duration: 1.49s)
+ Throughput: 271.77 tokens/s (Total Tokens: 4096, Duration: 15.07s)
提升了 911%

## 特性
Simple-infer
1. Decode 时支持不同batch size的cuda graph 减少host kernel启动开销，
2. 支持Page Attention，通过预分配block，管理请求的KV cache，减少碎片内存
3. 支持continuous batching，以step为调度单位，实现可变长的batch size，及时对完成的请求清理内存，加入待decode的请求
4. 支持多卡张量并行（TP）
5. RTX 4090 上，一定输入输出长度和请求数量下，取得与vllm相当的 吞吐量（token/s）