WeClone数字分身：另一个“你”

by yjie991008 in Circuits > Computers

21 Views, 0 Favorites, 0 Comments

WeClone数字分身：另一个“你”

我们可以通过大模型的强大能力，训练出一个高度相似于你自己的“数字分身”。这个过程不仅仅是简单地复制语言内容，而是深入学习你的聊天风格、常用的口头禅，以及那些独具特色的表达方式和思维逻辑。通过大量对话数据的输入与反复训练，AI 能逐渐掌握你的语言习惯和交流节奏，最终在数字世界中“复刻”出一个非常接近你风格的 AI 形象。

Downloads

4f0155d9-1293-4465-82e0-2f646eb82d85.webp

购买AutoDL

如果有显卡支持，可以在本地进行搭建，所需显存为16GB；若当前设备不满足条件，可考虑购买符合要求的显卡以完成搭建工作。

安装虚拟环境

# 安装 uv 虚拟环境工具

pip install uv

# 在 AutoDL 等云环境中配置网络加速（如使用国内镜像源加速）

source /etc/network_turbo

拉取项目

// 拉取WeClone项目，并进入目录

git clone https://github.com/xming521/WeClone.git

cd WeClone

创建虚拟环境

# 创建并激活虚拟环境

uv venv .venv --python=3.10

source .venv/bin/activate

当命令行开头显示 `(.venv)` 时，表示已成功进入虚拟环境。

安装相关依赖

# 安装主项目的依赖（main 组）

uv pip install --group main -e .

# 单独安装主项目（开发模式）

uv pip install -e .

⚠️ 提示：由于依赖下载可能涉及较大文件或网络延迟，整个过程可能耗时较长，请耐心等待。

检验环境

// 检查PyTorch与CUDA的兼容性和版本信息

python -c "import torch; print('CUDA是否可用:', torch.cuda.is_available()); print('CUDA版本:', torch.version.cuda); print('PyTorch版本:', torch.__version__)"

CUDA: True：表示系统中存在可用的CUDA设备，可以利用GPU进行加速计算。

安装LLaMA-Factory(用于训练模型)

// 拉取LLaMA-Factory 用于训练和微调模型

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

// 进入目录

cd LLaMA-Factory

// 安装LLaMA-Factory所需要的库

uv pip install -e ".[torch,metrics]"

// 返回上一级目录

cd ..

// 查看LLaMA-Factory版本

llamafactory-cli version

下载千问模型

//安装 modelscope 包，访问ModelScope平台上各种机器学习模型

uc pip install modelscope

// 下载一个特定的大语言模型 Qwen2.5-7B-Instruct 到本地指定目录

python -c "from modelscope.hub.snapshot_download import snapshot_download; snapshot_download('Qwen/Qwen2.5-7B-Instruct', cache_dir='./qwen_model')"

配置WeClone设置

// 备份配置文件

cp settings.template.jsonc settings.jsonc

// 使用vim修改配置文件

vim settings.jsonc

找到模型安装目录，目录为：/root/WeClone/qwen_model/Qwen/Qwen2__5-7bInstruct。

进入配置文件修改model_name_or_path字段为：./qwen_model/Qwen/Qwen2__5-7bInstruct。

生成训练数据集

使用pyWxDump提取微信聊天记录，xaoyaoo/PyWxDump: 获取微信信息；读取数据库，本地查看聊天记录并导出为csv、html等格式用于AI训练，自动回复等。支持多账户信息获取，支持所有微信版本。

提取完成之后，使用远程连接工具Xftp工具连接上传提取文件，文件放到WeClone目录下的dataset目录。放入完成之后，开始训练模型。

// 训练数据集

weclone-cli make-dataset

训练模型

# 训练SFT模型，开始进行微调

weclone-cli train-sft

本地访问

# 启动Web聊天演示

weclone-cli webchat-demo

AutoDL没有固定的公网ip，因此通过ip+端口（一般是7860）访问是不可行的，参考官方的说明port，在服务界面选择自定义服务。

转载地址：WeClone数字分身：另一个“你”-DOIT社区