WeClone数字分身:另一个“你”
我们可以通过大模型的强大能力,训练出一个高度相似于你自己的“数字分身”。这个过程不仅仅是简单地复制语言内容,而是深入学习你的聊天风格、常用的口头禅,以及那些独具特色的表达方式和思维逻辑。通过大量对话数据的输入与反复训练,AI 能逐渐掌握你的语言习惯和交流节奏,最终在数字世界中“复刻”出一个非常接近你风格的 AI 形象。
购买AutoDL
如果有显卡支持,可以在本地进行搭建,所需显存为16GB;若当前设备不满足条件,可考虑购买符合要求的显卡以完成搭建工作。
安装虚拟环境
# 安装 uv 虚拟环境工具
pip install uv
# 在 AutoDL 等云环境中配置网络加速(如使用国内镜像源加速)
source /etc/network_turbo
拉取项目
// 拉取WeClone项目,并进入目录
git clone https://github.com/xming521/WeClone.git
cd WeClone
创建虚拟环境
# 创建并激活虚拟环境
uv venv .venv --python=3.10
source .venv/bin/activate
当命令行开头显示 `(.venv)` 时,表示已成功进入虚拟环境。
安装相关依赖
# 安装主项目的依赖(main 组)
uv pip install --group main -e .
# 单独安装主项目(开发模式)
uv pip install -e .
⚠️ 提示:由于依赖下载可能涉及较大文件或网络延迟,整个过程可能耗时较长,请耐心等待。
检验环境
// 检查PyTorch与CUDA的兼容性和版本信息
python -c "import torch; print('CUDA是否可用:', torch.cuda.is_available()); print('CUDA版本:', torch.version.cuda); print('PyTorch版本:', torch.__version__)"
CUDA: True:表示系统中存在可用的CUDA设备,可以利用GPU进行加速计算。
安装LLaMA-Factory(用于训练模型)
// 拉取LLaMA-Factory 用于训练和微调模型
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
// 进入目录
cd LLaMA-Factory
// 安装LLaMA-Factory所需要的库
uv pip install -e ".[torch,metrics]"
// 返回上一级目录
cd ..
// 查看LLaMA-Factory版本
llamafactory-cli version
下载千问模型
//安装 modelscope 包,访问ModelScope平台上各种机器学习模型
uc pip install modelscope
// 下载一个特定的大语言模型 Qwen2.5-7B-Instruct 到本地指定目录
python -c "from modelscope.hub.snapshot_download import snapshot_download; snapshot_download('Qwen/Qwen2.5-7B-Instruct', cache_dir='./qwen_model')"
配置WeClone设置
// 备份配置文件
cp settings.template.jsonc settings.jsonc
// 使用vim修改配置文件
vim settings.jsonc
找到模型安装目录,目录为:/root/WeClone/qwen_model/Qwen/Qwen2__5-7bInstruct。
进入配置文件修改model_name_or_path字段为:./qwen_model/Qwen/Qwen2__5-7bInstruct。
生成训练数据集
使用pyWxDump提取微信聊天记录,xaoyaoo/PyWxDump: 获取微信信息;读取数据库,本地查看聊天记录并导出为csv、html等格式用于AI训练,自动回复等。支持多账户信息获取,支持所有微信版本。
提取完成之后,使用远程连接工具Xftp工具连接上传提取文件,文件放到WeClone目录下的dataset目录。放入完成之后,开始训练模型。
// 训练数据集
weclone-cli make-dataset
训练模型
# 训练SFT模型,开始进行微调
weclone-cli train-sft
本地访问
# 启动Web聊天演示
weclone-cli webchat-demo
AutoDL没有固定的公网ip,因此通过ip+端口(一般是7860)访问是不可行的,参考官方的说明port,在服务界面选择自定义服务。