# DigitalHuman

**Repository Path**: lcweng/DigitalHuman

## Basic Information

- **Project Name**: DigitalHuman
- **Description**: 实时交互数字人，参考 lipku/LiveTalking 重构，目标是解耦avatar、model和web，从精简干净的代码结构开始下一步迭代。
- **Primary Language**: Python
- **License**: Apache-2.0
- **Default Branch**: main
- **Homepage**: https://livetalking-doc.readthedocs.io/
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 56
- **Created**: 2026-02-26
- **Last Updated**: 2026-03-02

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# DigitalHuman - 基于LiveTalking改造的数字人项目

 
## 项目简介
本项目是基于原LiveTalking项目改造的实时交互流式数字人系统，实现音视频同步对话。支持多种数字人模型，可达到商用效果。

## 核心功能
1. 支持多种数字人模型: ernerf、musetalk、wav2lip、Ultralight-Digital-Human
2. 支持声音克隆
3. 支持数字人说话被打断
4. 支持webrtc、虚拟摄像头输出
5. 支持动作编排：不说话时播放自定义视频
6. 支持多并发
7. 支持自定义数字人形象

## 1. 安装步骤

### 系统要求
- 测试环境: Ubuntu 24.04, Python3.10, Pytorch 2.5.0, CUDA 12.4
- 显卡: NVIDIA GPU (推荐RTX 3060以上)

### 1.1 安装依赖
```bash
# 创建conda环境
conda create -n nerfstream python=3.10
conda activate nerfstream

# 安装PyTorch (根据CUDA版本调整)
# 如果CUDA版本为12.4
conda install pytorch==2.5.0 torchvision==0.20.0 torchaudio==2.5.0 pytorch-cuda=12.4 -c pytorch -c nvidia

# 如果CUDA版本不同，请参考 https://pytorch.org/get-started/previous-versions/ 安装对应版本

# 安装项目依赖
pip install -r requirements.txt
```

### 1.2 解决常见问题
- 安装问题参考: [FAQ](https://livetalking-doc.readthedocs.io/zh-cn/latest/faq.html)
- Linux CUDA环境搭建: <https://zhuanlan.zhihu.com/p/674972886>
- 视频连接问题: <https://mp.weixin.qq.com/s/MVUkxxhV2cgMMHalphr2cg>
- 访问HuggingFace问题: 运行前设置 `export HF_ENDPOINT=https://hf-mirror.com`

## 2. 快速开始

### 2.1 下载模型
1. 模型下载地址:
   - 夸克云盘: <https://pan.quark.cn/s/83a750323ef0>
   - Google Drive: <https://drive.google.com/drive/folders/1FOC_MD6wdogyyX_7V1d4NDIO7P9NlSAJ?usp=sharing>

2. 模型放置:
   - 将 `wav2lip256.pth` 复制到 `models/` 目录，重命名为 `wav2lip.pth`
   - 将 `wav2lip256_avatar1.tar.gz` 解压后整个文件夹复制到 `data/avatars/` 目录

### 2.2 启动服务
```bash
python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1
```

 
### 2.3 访问

**浏览器访问**
1. 打开浏览器访问: `http://服务器IP:8010/webrtcapi.html`
2. 点击 "start" 按钮播放数字人视频
3. 在文本框中输入文字并提交，数字人将播报该文字


## 3. Docker运行
无需安装依赖，直接运行:
```bash
docker run --gpus all -it --network=host --rm registry.cn-beijing.aliyuncs.com/codewithgpu2/lipku-metahuman-stream:2K9qaMBu8v
```

代码位于 `/root/metahuman-stream`，执行 `git pull` 拉取最新代码后，运行命令同第2步。

### 云服务镜像
- **UCloud镜像**: <https://www.compshare.cn/images/4458094e-a43d-45fe-9b57-de79253befe4?referral_code=3XW3852OBmnD089hMMrtuU&ytag=GPU_GitHub_livetalking>
  - [UCloud教程](https://livetalking-doc.readthedocs.io/zh-cn/latest/ucloud/ucloud.html)

- **AutoDL镜像**: <https://www.codewithgpu.com/i/lipku/livetalking/base>
  - [AutoDL教程](https://livetalking-doc.readthedocs.io/zh-cn/latest/autodl/README.html)
  - **注意**: AutoDL无法开放UDP端口，需要部署转发服务。如果看不到视频，请自行部署SRS或TURN服务。

## 4. 性能参考

### 性能影响因素
- **CPU**: 视频压缩消耗CPU资源，性能与视频分辨率正相关
- **GPU**: 口型推理消耗GPU资源
- **并发数**: 不说话时的并发数取决于CPU，同时说话的并发数取决于GPU

### 性能监控指标
- **inferfps**: 显卡推理帧率
- **finalfps**: 最终推流帧率
- **要求**: 两者都需要在25fps以上才能实现实时效果
- **诊断**: 如果inferfps≥25但finalfps<25，表示CPU性能不足

### 实时推理性能参考
| 模型 | 显卡型号 | FPS |
|------|----------|-----|
| wav2lip256 | RTX 3060 | 60 |
| wav2lip256 | RTX 3080Ti | 120 |
| musetalk | RTX 3080Ti | 42 |
| musetalk | RTX 3090 | 45 |
| musetalk | RTX 4090 | 72 |

**显卡要求**:
- wav2lip256: RTX 3060以上
- musetalk: RTX 3080Ti以上

## 5. 更多使用说明
详细使用文档: <https://livetalking-doc.readthedocs.io/>

## 6. 声明
1. **项目来源**: 本项目基于原LiveTalking项目(<https://github.com/lipku/LiveTalking>)改造而来，保留了核心功能并进行了定制化改进。

2. **使用要求**: 基于本项目开发并发布在B站、视频号、抖音等平台上的视频，需保留LiveTalking水印和标识。

3. **许可证**: 本项目遵循Apache 2.0许可证。

---

## 支持与社区
如果本项目对您有帮助，请点个Star支持。欢迎感兴趣的朋友一起完善项目。

- **知识星球**: <https://t.zsxq.com/7NMyO> - 沉淀高质量常见问题、最佳实践经验、问题解答
- **微信公众号**: 数字人技术

<p align="center">
<img src="./assets/qrcode-wechat.jpg" align="middle" width="200"/>
</p>