@ThinkInspure
IT改变世界
在本文中,我们会使用 Qwen3-1.7b 模型在 hk-o1aw-sft-16k 数据集上做全参数微调训练,实现让微调后的Qwen3支持对法律问题进行DeepSeek R1式的推理回复。训练中用到了transformers、datasets等工具,同时使用SwanLab监控训练过程、评估模型效果