# DigitalHuman **Repository Path**: lcweng/DigitalHuman ## Basic Information - **Project Name**: DigitalHuman - **Description**: 实时交互数字人,参考 lipku/LiveTalking 重构,目标是解耦avatar、model和web,从精简干净的代码结构开始下一步迭代。 - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: main - **Homepage**: https://livetalking-doc.readthedocs.io/ - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 56 - **Created**: 2026-02-26 - **Last Updated**: 2026-03-02 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # DigitalHuman - 基于LiveTalking改造的数字人项目 ## 项目简介 本项目是基于原LiveTalking项目改造的实时交互流式数字人系统,实现音视频同步对话。支持多种数字人模型,可达到商用效果。 ## 核心功能 1. 支持多种数字人模型: ernerf、musetalk、wav2lip、Ultralight-Digital-Human 2. 支持声音克隆 3. 支持数字人说话被打断 4. 支持webrtc、虚拟摄像头输出 5. 支持动作编排:不说话时播放自定义视频 6. 支持多并发 7. 支持自定义数字人形象 ## 1. 安装步骤 ### 系统要求 - 测试环境: Ubuntu 24.04, Python3.10, Pytorch 2.5.0, CUDA 12.4 - 显卡: NVIDIA GPU (推荐RTX 3060以上) ### 1.1 安装依赖 ```bash # 创建conda环境 conda create -n nerfstream python=3.10 conda activate nerfstream # 安装PyTorch (根据CUDA版本调整) # 如果CUDA版本为12.4 conda install pytorch==2.5.0 torchvision==0.20.0 torchaudio==2.5.0 pytorch-cuda=12.4 -c pytorch -c nvidia # 如果CUDA版本不同,请参考 https://pytorch.org/get-started/previous-versions/ 安装对应版本 # 安装项目依赖 pip install -r requirements.txt ``` ### 1.2 解决常见问题 - 安装问题参考: [FAQ](https://livetalking-doc.readthedocs.io/zh-cn/latest/faq.html) - Linux CUDA环境搭建: - 视频连接问题: - 访问HuggingFace问题: 运行前设置 `export HF_ENDPOINT=https://hf-mirror.com` ## 2. 快速开始 ### 2.1 下载模型 1. 模型下载地址: - 夸克云盘: - Google Drive: 2. 模型放置: - 将 `wav2lip256.pth` 复制到 `models/` 目录,重命名为 `wav2lip.pth` - 将 `wav2lip256_avatar1.tar.gz` 解压后整个文件夹复制到 `data/avatars/` 目录 ### 2.2 启动服务 ```bash python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1 ``` ### 2.3 访问 **浏览器访问** 1. 打开浏览器访问: `http://服务器IP:8010/webrtcapi.html` 2. 点击 "start" 按钮播放数字人视频 3. 在文本框中输入文字并提交,数字人将播报该文字 ## 3. Docker运行 无需安装依赖,直接运行: ```bash docker run --gpus all -it --network=host --rm registry.cn-beijing.aliyuncs.com/codewithgpu2/lipku-metahuman-stream:2K9qaMBu8v ``` 代码位于 `/root/metahuman-stream`,执行 `git pull` 拉取最新代码后,运行命令同第2步。 ### 云服务镜像 - **UCloud镜像**: - [UCloud教程](https://livetalking-doc.readthedocs.io/zh-cn/latest/ucloud/ucloud.html) - **AutoDL镜像**: - [AutoDL教程](https://livetalking-doc.readthedocs.io/zh-cn/latest/autodl/README.html) - **注意**: AutoDL无法开放UDP端口,需要部署转发服务。如果看不到视频,请自行部署SRS或TURN服务。 ## 4. 性能参考 ### 性能影响因素 - **CPU**: 视频压缩消耗CPU资源,性能与视频分辨率正相关 - **GPU**: 口型推理消耗GPU资源 - **并发数**: 不说话时的并发数取决于CPU,同时说话的并发数取决于GPU ### 性能监控指标 - **inferfps**: 显卡推理帧率 - **finalfps**: 最终推流帧率 - **要求**: 两者都需要在25fps以上才能实现实时效果 - **诊断**: 如果inferfps≥25但finalfps<25,表示CPU性能不足 ### 实时推理性能参考 | 模型 | 显卡型号 | FPS | |------|----------|-----| | wav2lip256 | RTX 3060 | 60 | | wav2lip256 | RTX 3080Ti | 120 | | musetalk | RTX 3080Ti | 42 | | musetalk | RTX 3090 | 45 | | musetalk | RTX 4090 | 72 | **显卡要求**: - wav2lip256: RTX 3060以上 - musetalk: RTX 3080Ti以上 ## 5. 更多使用说明 详细使用文档: ## 6. 声明 1. **项目来源**: 本项目基于原LiveTalking项目()改造而来,保留了核心功能并进行了定制化改进。 2. **使用要求**: 基于本项目开发并发布在B站、视频号、抖音等平台上的视频,需保留LiveTalking水印和标识。 3. **许可证**: 本项目遵循Apache 2.0许可证。 --- ## 支持与社区 如果本项目对您有帮助,请点个Star支持。欢迎感兴趣的朋友一起完善项目。 - **知识星球**: - 沉淀高质量常见问题、最佳实践经验、问题解答 - **微信公众号**: 数字人技术