Skip to content
Projects
Groups
Snippets
Help
This project
Loading...
Sign in / Register
Toggle navigation
M
MiniCPM-training
Overview
Overview
Details
Activity
Cycle Analytics
Repository
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
Issues
0
Issues
0
List
Board
Labels
Milestones
Merge Requests
0
Merge Requests
0
CI / CD
CI / CD
Pipelines
Jobs
Schedules
Charts
Wiki
Wiki
Snippets
Snippets
Members
Members
Collapse sidebar
Close sidebar
Activity
Graph
Charts
Create a new issue
Jobs
Commits
Issue Boards
Open sidebar
Yutong Wu
MiniCPM-training
Commits
642f7863
Commit
642f7863
authored
Aug 30, 2024
by
wyt2000
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
docs: README.
parent
256b0b1f
Hide whitespace changes
Inline
Side-by-side
Showing
1 changed file
with
24 additions
and
7 deletions
+24
-7
README.md
+24
-7
No files found.
README.md
View file @
642f7863
...
...
@@ -14,17 +14,19 @@ MiniCPM 训练流程记录
### XW
X 量化到 int8,W 量化到 int4,然后计算 nn.functional.linear(X, W),相当于 XW^T,如 X 是
[
1,1,1536
]
,W 是
[
3840, 1536
]
,这样 dim=-1 就都是按累加维量化。
X 量化到 int8,W 量化到 int4
[
TODO: 换成 fp4
]
,然后计算 nn.functional.linear(X, W),相当于 XW^T,如 X 是
[
1,1,1536
]
,W 是
[
3840, 1536
]
,这样 dim=-1 就都是按累加维量化。
[
TODO:lm_head 目前也按此方式量化,需要视 SVD 结果修改
]
lm_head 也按此方式量化。
### lm_head SVD 分解
[
TODO: qilei
]
先预训练,再 SVD,再 SFT。
SFT 的时候现场拆 SVD。打印 tensor 看看有没有 require_grad。SVD 的模型和代码,bin 。
### Attention 有 norm
[
TODO
]
http://62.234.201.16/wyt2000/MiniCPM-training/blob/master/models/MiniCPM-quant/modeling_minicpm.py#L460
## 预训练
...
...
@@ -40,6 +42,8 @@ X 量化到 int8,W 量化到 int4,然后计算 nn.functional.linear(X, W),
[
TODO: 确定比例,数学 70% (55B),代码 20% (15B),文章 10% (8B)
]
重新初始化代码可能要多一点
### 训练框架
暂定 llama-factory(备选:OLMo)。
...
...
@@ -65,9 +69,14 @@ X 量化到 int8,W 量化到 int4,然后计算 nn.functional.linear(X, W),
| NuminaMath-CoT | 数学问题+文本回答 | 860K |
| MathInstruct-CoT | 数学问题+文本回答 | 188K |
| MathInstruct-PoT | 数学问题+代码回答 | 73K |
| infinitymath | 数学问题+代码回答(种子问题来自 gsm8k 等 benchmark 的训练集) | 101K |
| infinitymath-PoT | 数学问题+代码回答(种子问题来自 gsm8k 等 benchmark 的训练集) | 101K |
| allenai/lila | | |
和 Deepseek 比较,相同数据集,取正常 lr 调度和固定 lr。
[
TODO: QA 任务?
]
混起来。
[
TODO: QA 任务,测下
]
### 训练框架
...
...
@@ -75,6 +84,8 @@ X 量化到 int8,W 量化到 int4,然后计算 nn.functional.linear(X, W),
### 超参
先训 math,找到比较好的混合数据,再基于这个数据去调 code 和 math 的超参
#### Code
同 WizardCoder-GPT4 ?
...
...
@@ -93,4 +104,9 @@ X 量化到 int8,W 量化到 int4,然后计算 nn.functional.linear(X, W),
| ARC | QA,选择题 | lm_eval | |
| GSM8K | 数学题,文本 / 程序 | DeepSeek
[
TODO: few shot
]
| 1h |
| MATH | 数学题,文本 / 程序 | DeepSeek | 5h |
| MiniF2F | 定理证明 |
[
TODO: DeepSeek 只能测 Isabellel,InternLM 可以测 Lean,但依赖很复杂,还需要联网
]
| |
| MiniF2F | 定理证明 |
[
TODO: DeepSeek 只能测 Isabellel,只要测一个好结果,选容易的
]
| |
| 说人话 | | | |
SFT 之后至少达到 bf16 的效果
所有 benchmark 写一个测试脚本。
\ No newline at end of file
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment