Commit c2a06f4e by jiangdongchen

README

parent 04675821
...@@ -7,15 +7,16 @@ ...@@ -7,15 +7,16 @@
- base_url - base_url
- api接口url - api接口url
- pdf_dir - pdf_dir
- 放置论文pdf的文件夹 - pdf_dir文件夹下按照工作表名称开子文件夹存放论文pdf
- Paper中以j24为范例给出pdf的存储方法,pdf的命名可以随意,但是必须保证pdf的第一页是论文的标题和关键信息, 否则pdf需要手动识别
- others中的j24表格是示范excel表格
- result_dir - result_dir
- 输出关键信息json文件的文件夹 - 输出关键信息json文件的文件夹
- source_excel_path - source_excel_path
- 放置需要check的excel表格 - 放置需要check的excel表格
- 第context_start+1行开始实际表项 - 第context_start+1行开始实际表项
- 第一列索引 - https://docs.qq.com/sheet/DZEVmZ2thTEd4R1Zh?tab=000001&nlc=1
- 第三列论文标题 - **一定一定一定要按照上述链接中的格式!不然会失败**
- 第七列论文作者
- target_excel_path - target_excel_path
- 输出的格式化表格 - 输出的格式化表格
- ccfa_excel_path - ccfa_excel_path
...@@ -57,8 +58,8 @@ ...@@ -57,8 +58,8 @@
1.**大模型**读取pdf中第一页的论文名称和关键信息,存储到json文件夹下 1.**大模型**读取pdf中第一页的论文名称和关键信息,存储到json文件夹下
2. 读取pdf中从后向前的引用信息, 通过**大模型**找出sheetname对应文章在当前pdf文章中的索引,存储到json文件夹下 2. 读取pdf中从后向前的引用信息, 通过**大模型**找出sheetname对应文章在当前pdf文章中的索引,存储到json文件夹下
3. **遍历**excel表格中的论文名称进行模糊匹配, 匹配成功后 3. **遍历**excel表格中的论文名称进行模糊匹配, 匹配成功后
1. 将pdf文件中的关键信息写入json文件中进行保存, 包括 标题 会议名称 作者姓名 机构 国家. 1. 将pdf文件中的关键信息写入json文件中进行保存, 包括 标题 会议名称 作者姓名 通讯作者 机构 国家.
2. 用pdf文件中的论文名称和索引标准化重命名pdf文件和excel表格中的论文标题、会议名称、作者姓名、机构、国家. 2. 用pdf文件中的论文名称和索引标准化重命名pdf文件和excel表格中的论文标题、会议名称、作者姓名、通讯作者姓名、机构、国家.
3. 首先用**大模型**将英文国家名翻译成中国名,将国家对应的索引写入目标excel表格中. 3. 首先用**大模型**将英文国家名翻译成中国名,将国家对应的索引写入目标excel表格中.
4. 将pdf文件中的会议或者期刊名称和CCFA的会议或者期刊名称的表格交给**大模型**匹配,匹配结果以“是/否”的形式写入目标excel表格中. 4. 将pdf文件中的会议或者期刊名称和CCFA的会议或者期刊名称的表格交给**大模型**匹配,匹配结果以“是/否”的形式写入目标excel表格中.
4. 匹配失败后,输出无法匹配的条目,使用warning记录无法匹配的条目,方便后续处理. 4. 匹配失败后,输出无法匹配的条目,使用warning记录无法匹配的条目,方便后续处理.
...@@ -71,6 +72,8 @@ ...@@ -71,6 +72,8 @@
2. 无索引值的pdf即未匹配的pdf,需要人工二次匹配 2. 无索引值的pdf即未匹配的pdf,需要人工二次匹配
3. 未匹配的excel条目需要人工二次匹配 3. 未匹配的excel条目需要人工二次匹配
3. stage2: 知名企业、牛人判断 3. stage2: 知名企业、牛人判断
1. 进入psrc/2-qiye目录按照README.md中的步骤执行得到excel
2. 进入psrc/3-niurenshaixuan目录按照README.md中的步骤执行得到excel
# 代码结构说明 # 代码结构说明
1. psrc文件夹下是库函数 1. psrc文件夹下是库函数
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment