# MobileVit

**Repository Path**: oneAPI/mobile-vit

## Basic Information

- **Project Name**: MobileVit
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-01-15
- **Last Updated**: 2024-01-18

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# MobileVit

#### 介绍

最近的研究中，为了提高图像分类等任务的性能，研究人员尝试将卷积神经网络与视觉Transformer模块进行结合。卷积神经网络更轻量，Transformer虽然效果更好但是运算量更大，所以我们将Transformer和CNN结合得到轻量级，能够在移动端部署的MobileVit.

这种结合的目标是利用卷积神经网络对图像进行局部特征提取和信息编码，然后使用视觉Transformer模块来建立全局的上下文关系，并进行全局信息交互。通过这种方式，可以更好地捕捉图像中的长距离依赖关系和全局上下文信息，从而提高图像分类等任务的性能。

我 *已经在不同的数据集（* 如cifar-10，cifar-100）上验证了这种结合的有效性，并取得了显著的改进。这种方法不仅提供了一种新的思路，还为进一步探索卷积神经网络和Transformer模块的结合提供了指导。

#### 安装教程

```
#创建虚拟环境
conda create -n MobileVit python=3.8
activate MobileVit
#安装软件包
pip install -r requirements.txt 
```

#### 使用说明

```
python train.py --num_classes \
--epochs
--batch-size 
--lr 
--device

```

#### 实验使用数据集

- cifar-10
- - https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz
- cifar-100
- - https://www.cs.toronto.edu/~kriz/cifar-100-python.tar.gz

#### 参与贡献

1. **结合CNN和transformer**
2. **修改网络模型以增进效果**
3. **调整模型参数**

#### 实验结果

|           | Mobile-Vit | Lenet-5 | Resnet-18 |
| --------- | ---------- | ------- | --------- |
| cifar-10  | 74.1%      | 63.7%   | 73.8%     |
| cifar-100 | 52.4%      | 34.2%   | 54.2%     |