Commit 642f7863 by wyt2000

docs: README.

parent 256b0b1f
...@@ -14,17 +14,19 @@ MiniCPM 训练流程记录 ...@@ -14,17 +14,19 @@ MiniCPM 训练流程记录
### XW ### XW
X 量化到 int8,W 量化到 int4,然后计算 nn.functional.linear(X, W),相当于 XW^T,如 X 是 [1,1,1536],W 是 [3840, 1536],这样 dim=-1 就都是按累加维量化。 X 量化到 int8,W 量化到 int4 [TODO: 换成 fp4],然后计算 nn.functional.linear(X, W),相当于 XW^T,如 X 是 [1,1,1536],W 是 [3840, 1536],这样 dim=-1 就都是按累加维量化。
[TODO:lm_head 目前也按此方式量化,需要视 SVD 结果修改] lm_head 也按此方式量化。
### lm_head SVD 分解 ### lm_head SVD 分解
[TODO: qilei] 先预训练,再 SVD,再 SFT。
SFT 的时候现场拆 SVD。打印 tensor 看看有没有 require_grad。SVD 的模型和代码,bin 。
### Attention 有 norm ### Attention 有 norm
[TODO] http://62.234.201.16/wyt2000/MiniCPM-training/blob/master/models/MiniCPM-quant/modeling_minicpm.py#L460
## 预训练 ## 预训练
...@@ -40,6 +42,8 @@ X 量化到 int8,W 量化到 int4,然后计算 nn.functional.linear(X, W), ...@@ -40,6 +42,8 @@ X 量化到 int8,W 量化到 int4,然后计算 nn.functional.linear(X, W),
[TODO: 确定比例,数学 70% (55B),代码 20% (15B),文章 10% (8B)] [TODO: 确定比例,数学 70% (55B),代码 20% (15B),文章 10% (8B)]
重新初始化代码可能要多一点
### 训练框架 ### 训练框架
暂定 llama-factory(备选:OLMo)。 暂定 llama-factory(备选:OLMo)。
...@@ -65,9 +69,14 @@ X 量化到 int8,W 量化到 int4,然后计算 nn.functional.linear(X, W), ...@@ -65,9 +69,14 @@ X 量化到 int8,W 量化到 int4,然后计算 nn.functional.linear(X, W),
| NuminaMath-CoT | 数学问题+文本回答 | 860K | | NuminaMath-CoT | 数学问题+文本回答 | 860K |
| MathInstruct-CoT | 数学问题+文本回答 | 188K | | MathInstruct-CoT | 数学问题+文本回答 | 188K |
| MathInstruct-PoT | 数学问题+代码回答 | 73K | | MathInstruct-PoT | 数学问题+代码回答 | 73K |
| infinitymath | 数学问题+代码回答(种子问题来自 gsm8k 等 benchmark 的训练集) | 101K | | infinitymath-PoT | 数学问题+代码回答(种子问题来自 gsm8k 等 benchmark 的训练集) | 101K |
| allenai/lila | | |
和 Deepseek 比较,相同数据集,取正常 lr 调度和固定 lr。
[TODO: QA 任务?] 混起来。
[TODO: QA 任务,测下]
### 训练框架 ### 训练框架
...@@ -75,6 +84,8 @@ X 量化到 int8,W 量化到 int4,然后计算 nn.functional.linear(X, W), ...@@ -75,6 +84,8 @@ X 量化到 int8,W 量化到 int4,然后计算 nn.functional.linear(X, W),
### 超参 ### 超参
先训 math,找到比较好的混合数据,再基于这个数据去调 code 和 math 的超参
#### Code #### Code
同 WizardCoder-GPT4 ? 同 WizardCoder-GPT4 ?
...@@ -93,4 +104,9 @@ X 量化到 int8,W 量化到 int4,然后计算 nn.functional.linear(X, W), ...@@ -93,4 +104,9 @@ X 量化到 int8,W 量化到 int4,然后计算 nn.functional.linear(X, W),
| ARC | QA,选择题 | lm_eval | | | ARC | QA,选择题 | lm_eval | |
| GSM8K | 数学题,文本 / 程序 | DeepSeek [TODO: few shot] | 1h | | GSM8K | 数学题,文本 / 程序 | DeepSeek [TODO: few shot] | 1h |
| MATH | 数学题,文本 / 程序 | DeepSeek | 5h | | MATH | 数学题,文本 / 程序 | DeepSeek | 5h |
| MiniF2F | 定理证明 | [TODO: DeepSeek 只能测 Isabellel,InternLM 可以测 Lean,但依赖很复杂,还需要联网] | | | MiniF2F | 定理证明 | [TODO: DeepSeek 只能测 Isabellel,只要测一个好结果,选容易的] | |
| 说人话 | | | |
SFT 之后至少达到 bf16 的效果
所有 benchmark 写一个测试脚本。
\ No newline at end of file
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment