# simple-infer **Repository Path**: z7d1/simple-infer ## Basic Information - **Project Name**: simple-infer - **Description**: 学习nano-vllm中 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-02-15 - **Last Updated**: 2026-03-26 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 吞吐量的对比 ### 设置 批量请求数 (num_seqs): 256 / 单条输入长度 (max_input_len): 1024 / 单条输出长度 (max_output_len): 1024 ### 结果 + simple-infer: Throughput: 4051.97 tokens/s (Total Tokens: 262144, Duration: 64.70s) + vllm: 总生成 Token: 270189 / 总耗时: 69.01s / 模型吞吐量: 3915.45 token/s ## Cuda graph的提升 ### 设置 ```sh python bench.py --model-path /home/zwl/Public/Qwen3-0.6B --max-input-len 1 --max-output-len 512 --num-seqs 8 ``` ### 结果 + Throughput: 2746.27 tokens/s (Total Tokens: 4096, Duration: 1.49s) + Throughput: 271.77 tokens/s (Total Tokens: 4096, Duration: 15.07s) 提升了 911% ## 特性 Simple-infer 1. Decode 时支持不同batch size的cuda graph 减少host kernel启动开销, 2. 支持Page Attention,通过预分配block,管理请求的KV cache,减少碎片内存 3. 支持continuous batching,以step为调度单位,实现可变长的batch size,及时对完成的请求清理内存,加入待decode的请求 4. 支持多卡张量并行(TP) 5. RTX 4090 上,一定输入输出长度和请求数量下,取得与vllm相当的 吞吐量(token/s)