WeClone数字分身:另一个“你”

by yjie991008 in Circuits > Computers

21 Views, 0 Favorites, 0 Comments

WeClone数字分身:另一个“你”

3cdf8661-3e13-44c7-831b-f836ef01f188.png

我们可以通过大模型的强大能力,训练出一个高度相似于你自己的“数字分身”。这个过程不仅仅是简单地复制语言内容,而是深入学习你的聊天风格、常用的口头禅,以及那些独具特色的表达方式和思维逻辑。通过大量对话数据的输入与反复训练,AI 能逐渐掌握你的语言习惯和交流节奏,最终在数字世界中“复刻”出一个非常接近你风格的 AI 形象。

购买AutoDL

eeb6fb2f-ecde-4be0-ae16-a9958256bef5.png
3cdf8661-3e13-44c7-831b-f836ef01f188.png

如果有显卡支持,可以在本地进行搭建,所需显存为16GB;若当前设备不满足条件,可考虑购买符合要求的显卡以完成搭建工作。

安装虚拟环境

9f3305ff-ff85-4808-b118-92bb5f85c8ae.png
0a46f56d-b6e2-4a8e-b254-119b65f4f05e.png
# 安装 uv 虚拟环境工具
pip install uv
# 在 AutoDL 等云环境中配置网络加速(如使用国内镜像源加速)
source /etc/network_turbo

拉取项目

45e9a096-adf6-4277-a37d-6d55b5c90097.png
7588276e-0770-4bd9-b5ee-67e0998d8f7b.png
// 拉取WeClone项目,并进入目录
git clone https://github.com/xming521/WeClone.git
cd WeClone

创建虚拟环境

90d16df2-210b-4f36-bbfd-64a118860f01.png
b985ab0b-fe50-42a5-807c-15fe917fbc8c.png
# 创建并激活虚拟环境
uv venv .venv --python=3.10
source .venv/bin/activate

当命令行开头显示 `(.venv)` 时,表示已成功进入虚拟环境。



安装相关依赖

d24e932e-af8b-4493-919e-1f77c3fbba99.png
76db8877-b3e9-417e-9e9c-297a39a46266.png
bdcaa816-c2c6-4c49-bb42-33b3fe473ccb.png
27cba9d5-d7f0-4226-a343-57de086fa30c.png
# 安装主项目的依赖(main 组)
uv pip install --group main -e .

# 单独安装主项目(开发模式)
uv pip install -e .

⚠️ 提示:由于依赖下载可能涉及较大文件或网络延迟,整个过程可能耗时较长,请耐心等待。

检验环境

e7122aed-f445-407e-a51a-761c3a997301.png
// 检查PyTorch与CUDA的兼容性和版本信息
python -c "import torch; print('CUDA是否可用:', torch.cuda.is_available()); print('CUDA版本:', torch.version.cuda); print('PyTorch版本:', torch.__version__)"

CUDA: True:表示系统中存在可用的CUDA设备,可以利用GPU进行加速计算。

安装LLaMA-Factory(用于训练模型)

98649755-9bf7-43ce-aae4-135ebb18352e.png
de6f7487-55a1-46ae-8019-ae644ad24d64.png
cc052618-1f23-47d5-bf19-6a7daa2cdee6.png
c5a22f15-3896-47ee-add8-0331ddd8903f.png
// 拉取LLaMA-Factory 用于训练和微调模型
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
// 进入目录
cd LLaMA-Factory
// 安装LLaMA-Factory所需要的库
uv pip install -e ".[torch,metrics]"
// 返回上一级目录
cd ..
// 查看LLaMA-Factory版本
llamafactory-cli version

下载千问模型

c85c94f2-968b-4eb8-8271-1f3910eabc0b.png
ecc6fad2-587d-49d2-82ad-d61f6a152e53.png
//安装 modelscope 包,访问ModelScope平台上各种机器学习模型
uc pip install modelscope
// 下载一个特定的大语言模型 Qwen2.5-7B-Instruct 到本地指定目录
python -c "from modelscope.hub.snapshot_download import snapshot_download; snapshot_download('Qwen/Qwen2.5-7B-Instruct', cache_dir='./qwen_model')"

配置WeClone设置

f5b256a3-090e-4679-914a-6b39a84c3654.png
55875aac-7b99-40b2-b2ad-dda824090cfe.png
4c6e96c4-2b55-4891-9807-3ba546fedcc7.png
65cc36d0-8dd6-46e6-b291-0dbd03e7c8a9.png
// 备份配置文件
cp settings.template.jsonc settings.jsonc
// 使用vim修改配置文件
vim settings.jsonc

找到模型安装目录,目录为:/root/WeClone/qwen_model/Qwen/Qwen2__5-7bInstruct。

进入配置文件修改model_name_or_path字段为:./qwen_model/Qwen/Qwen2__5-7bInstruct。

生成训练数据集

e7aab98e-9867-4152-a20a-62ae56b16412.png
f5ec8d4b-93dd-44dd-bcd5-cf98a542b547.png
dcca4b33-1187-4c26-8eee-09013de4bdf2.png
2f11aeb5-5831-4c17-86f6-cdb4503560eb.png
306cd52a-d249-483d-8f36-1c0a87695f6c.png
62a27720-7432-4b08-a291-688839733500.png
41b5b275-fa74-48d5-909b-29251c9d3559.png

使用pyWxDump提取微信聊天记录,xaoyaoo/PyWxDump: 获取微信信息;读取数据库,本地查看聊天记录并导出为csv、html等格式用于AI训练,自动回复等。支持多账户信息获取,支持所有微信版本。

提取完成之后,使用远程连接工具Xftp工具连接上传提取文件,文件放到WeClone目录下的dataset目录。放入完成之后,开始训练模型。

// 训练数据集
weclone-cli make-dataset

训练模型

c67c4793-c401-41da-851b-951396449572.png
# 训练SFT模型,开始进行微调
weclone-cli train-sft

本地访问

5da1cc80-18ce-46e7-9add-9bf20bdbd39d.png
f9c83adb-3612-425b-924b-a7f8cf89c83a.png
e48e2641-250b-42ba-a5cf-b0e89163afa6.png
46219eea-913b-4246-9491-4001cbb58385.png
c3734579-fc5b-4191-a1b6-f14d44d3f569.png
9976f0ab-3700-425b-a24c-44dd79e0563a.png
# 启动Web聊天演示
weclone-cli webchat-demo

AutoDL没有固定的公网ip,因此通过ip+端口(一般是7860)访问是不可行的,参考官方的说明port,在服务界面选择自定义服务。


转载地址:WeClone数字分身:另一个“你”-DOIT社区