给gpt喂自己的数据！

2023-05-08 18:49| 来源: 网络整理| 查看: 265

上一篇文章说完了安装，这下我要喂自己的数据了。

1. 准备数据

首先要按照给的格式创建自己的json数据，这个比较好创建，之前没用过json搜一下就行了。原文的格式如下：

[ { "instruction": "Give three tips for staying healthy.", "input": "", "output": "1. Eat a balanced diet and make sure to include plenty of fruits and vegetables. \n2. Exercise regularly to keep your body active and strong. \n3. Get enough sleep and maintain a consistent sleep schedule." }, { "instruction": "What are the three primary colors?", "input": "", "output": "The three primary colors are red, blue, and yellow." }, ]

这个格式就是一个存了dict的list,换成自己的数据，代码如下：

import json data = [] for p in x: ##这里将自己的数据每个换成了对应的dict,然后用list存储所有的dict a={ "instruction":x[0], "input":x[1], "output":x[2] } data.append(a)

直接将data全部以json的格式存到文件里。

with open('./file.json',"w",encoding="utf-8") as f: # ensure_ascii 显示中文，不以ASCII的方式显示 json.dump(data,f, ensure_ascii=False, indent=2) ##缩进2格，dump函数将数据格式成json类型

得到的格式就跟源码一样拉，直接喂给gpt学把！本文采用了40W条指令，batch_size=128，结果gpu超出20G了，重新把size调小了试试，可怜兮兮...

2. 下载参数

LLaMA-7B-HF 大模型下载：

python >>> from huggingface_hub import snapshot_download >>> snapshot_download(repo_id="decapoda-research/llama-7b-hf")

Lora 参数下载：

>>> snapshot_download(repo_id="tloen/alpaca-lora-7b")

调整finetun.py里的base_model字符串，改成上面的LLaMA-7B-HF大模型的地址就行。另外在运行的时候发现程序在验证会报GPU爆掉的错误，搜了一圈说是因为在验证的时候梯度累积了（但是链接的库太多了不知道在哪里执行了验证程序），后来我在对应的错误代码上加了以下的代码：

torch.cuda.empty_cache();

nvidia-smi查看gpu使用情况，发现确实是会少，但是仍然爆显存，后来我把batch_size改成了10，运行的时候一直查看gpu，一到验证测试的时候就开始飙升，前面几轮勉勉强强过去，差那么1G就爆了，结果还是在800的时候爆掉，后来看了下代码，发现一个参数：

gradient_accumulation_steps = 2

查阅了下资料，表示的是梯度累积的步数，正常来说是一次batch_size进行一次反向传播，设置了gradient_accumulation_steps为2，那就是2次进行一次反向传播，这样我们就可以每次处理的batch_size少一点了，从而可以减少显存的使用。比如我目前的batch_size是10，gradient_acc_steps为5，表示每处理10 * 5条命令就进行一次反向传播（源代码是100*2)。每次仅需处理10条命令就可，累积到次数后反向传播修正参数。（照理说不是直接的原因，因为我是到验证的时候就爆显存，但是改了gradient后真的不超了，后面再研究研究）。跑起来了后面再继续构建自己的实验~加油！！！

【本文地址】

公司简介

联系我们