docs: README.

642f7863 · wyt2000 · 256b0b1f · 642f7863
Commit 642f7863 authored Aug 30, 2024 by wyt2000
Show whitespace changes
Inline Side-by-side

Showing with 24 additions and 7 deletions

README.md
+24 -7

No files found.
--- a/README.md
+++ b/README.md
@@ -14,17 +14,19 @@ MiniCPM 训练流程记录

 ### XW

-X 量化到 int8，W 量化到 int4，然后计算 nn.functional.linear(X, W)，相当于 XW^T，如 X 是 [1,1,1536]，W 是 [3840, 1536]，这样 dim=-1 就都是按累加维量化。
+X 量化到 int8，W 量化到 int4 [TODO: 换成 fp4]，然后计算 nn.functional.linear(X, W)，相当于 XW^T，如 X 是 [1,1,1536]，W 是 [3840, 1536]，这样 dim=-1 就都是按累加维量化。

-[TODO：lm_head 目前也按此方式量化，需要视 SVD 结果修改]
+lm_head 也按此方式量化。

 ### lm_head SVD 分解

-[TODO: qilei]
+先预训练，再 SVD，再 SFT。
+
+SFT 的时候现场拆 SVD。打印 tensor 看看有没有 require_grad。SVD 的模型和代码，bin 。

 ### Attention 有 norm

-[TODO]
+http://62.234.201.16/wyt2000/MiniCPM-training/blob/master/models/MiniCPM-quant/modeling_minicpm.py#L460

 ## 预训练

@@ -40,6 +42,8 @@ X 量化到 int8，W 量化到 int4，然后计算 nn.functional.linear(X, W)，

 [TODO: 确定比例，数学 70% (55B)，代码 20% (15B)，文章 10% (8B)]

+重新初始化代码可能要多一点
+
 ### 训练框架

 暂定 llama-factory（备选：OLMo）。
@@ -65,9 +69,14 @@ X 量化到 int8，W 量化到 int4，然后计算 nn.functional.linear(X, W)，
 |   NuminaMath-CoT   |                      数学问题+文本回答                       | 860K |
 |  MathInstruct-CoT  |                      数学问题+文本回答                       | 188K |
 |  MathInstruct-PoT  |                      数学问题+代码回答                       | 73K  |
-|    infinitymath    | 数学问题+代码回答（种子问题来自 gsm8k 等 benchmark 的训练集） | 101K |
+|  infinitymath-PoT  | 数学问题+代码回答（种子问题来自 gsm8k 等 benchmark 的训练集） | 101K |
+|    allenai/lila    |                                                              |      |
+
+和 Deepseek 比较，相同数据集，取正常 lr 调度和固定 lr。

-[TODO: QA 任务？]
+混起来。
+
+[TODO: QA 任务，测下]

 ### 训练框架

@@ -75,6 +84,8 @@ X 量化到 int8，W 量化到 int4，然后计算 nn.functional.linear(X, W)，

 ### 超参

+先训 math，找到比较好的混合数据，再基于这个数据去调 code 和 math 的超参
+
 #### Code

 同 WizardCoder-GPT4 ？
@@ -93,4 +104,9 @@ X 量化到 int8，W 量化到 int4，然后计算 nn.functional.linear(X, W)，
 |    ARC    |     QA，选择题      |                           lm_eval                            |          |
 |   GSM8K   | 数学题，文本 / 程序 |                  DeepSeek [TODO: few shot]                   |    1h    |
 |   MATH    | 数学题，文本 / 程序 |                           DeepSeek                           |    5h    |
-|  MiniF2F  |      定理证明       | [TODO: DeepSeek 只能测 Isabellel，InternLM 可以测 Lean，但依赖很复杂，还需要联网] |          |
+|  MiniF2F  |      定理证明       | [TODO: DeepSeek 只能测 Isabellel，只要测一个好结果，选容易的] |          |
+|  说人话   |                     |                                                              |          |
+
+SFT 之后至少达到 bf16 的效果
+
+所有 benchmark 写一个测试脚本。
\ No newline at end of file