在本文中,我们会使用 Qwen3-1.7b 模型在 hk-o1aw-sft-16k 数据集上做全参数微调训练,实现让微调后的Qwen3支持对法律问题进行DeepSeek R1式的推理回复。训练中用到了transformers、datasets等工具,同时使用SwanLab监控训练过程、评估模型效果
最近一年贡献:80 次
最长连续贡献:6 日
最近连续贡献:1 日
贡献度的统计数据包括代码提交、创建任务 / Pull Request、合并 Pull Request,其中代码提交的次数需本地配置的 git 邮箱是 Gitee 帐号已确认绑定的才会被统计。