# VLM-ROS

**Repository Path**: hawkTTking/VLM-ROS

## Basic Information

- **Project Name**: VLM-ROS
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-01-19
- **Last Updated**: 2026-01-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# VLM-ROS
为了实现真正的All in Local！ 我将Llava视觉大模型、QWen2.5-VL多模态大模型，以及STT和TTS模型全部部署在本地计算机上，打造了一个完全离线的机器人视觉交互系统。 机器人通过摄像头感知周围环境，LLaVA和QWen2.5-VL进行视觉分析，STT进行语音识别，TTS进行语音播报，整个过程完全在本地完成。

1.准备工作
    a.本地部署Qwen 2.5 - VL，参考官网教程：https://github.com/QwenLM/Qwen2.5-VL/tree/main
    b.本地部署sherpa-onnx框架，参考官网教程：https://github.com/k2-fsa/sherpa-onnx

2.功能包用途
    (1) ai_module:
        scripts文件夹下，包含VLM处理rospy节点
        src文件夹下，包含自定义Action Server
    (2) sherpa_onnx_ros:
        包含TTS、ASR语音处理功能
    (3) sound_service：
        将此功能包部署在机器人端侧，负责采集音频和播放音频