Skip to content
Projects
Groups
Snippets
Help
This project
Loading...
Sign in / Register
Toggle navigation
P
papertools
Overview
Overview
Details
Activity
Cycle Analytics
Repository
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
Issues
0
Issues
0
List
Board
Labels
Milestones
Merge Requests
0
Merge Requests
0
CI / CD
CI / CD
Pipelines
Jobs
Schedules
Charts
Wiki
Wiki
Snippets
Snippets
Members
Members
Collapse sidebar
Close sidebar
Activity
Graph
Charts
Create a new issue
Jobs
Commits
Issue Boards
Open sidebar
Ziyuan Nan
papertools
Commits
c2a06f4e
Commit
c2a06f4e
authored
May 09, 2025
by
jiangdongchen
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
README
parent
04675821
Hide whitespace changes
Inline
Side-by-side
Showing
3 changed files
with
9 additions
and
6 deletions
+9
-6
README.md
+9
-6
others/Arch/j24_target.xlsx
+0
-0
others/Arch/j29_target.xlsx
+0
-0
No files found.
README.md
View file @
c2a06f4e
...
...
@@ -7,15 +7,16 @@
-
base_url
-
api接口url
-
pdf_dir
-
放置论文pdf的文件夹
-
pdf_dir文件夹下按照工作表名称开子文件夹存放论文pdf
-
Paper中以j24为范例给出pdf的存储方法,pdf的命名可以随意,但是必须保证pdf的第一页是论文的标题和关键信息, 否则pdf需要手动识别
-
others中的j24表格是示范excel表格
-
result_dir
-
输出关键信息json文件的文件夹
-
source_excel_path
-
放置需要check的excel表格
-
第context_start+1行开始实际表项
-
第一列索引
-
第三列论文标题
-
第七列论文作者
-
https://docs.qq.com/sheet/DZEVmZ2thTEd4R1Zh?tab=000001&nlc=1
-
**一定一定一定要按照上述链接中的格式!不然会失败**
-
target_excel_path
-
输出的格式化表格
-
ccfa_excel_path
...
...
@@ -57,8 +58,8 @@
1.
用
**大模型**
读取pdf中第一页的论文名称和关键信息,存储到json文件夹下
2.
读取pdf中从后向前的引用信息, 通过
**大模型**
找出sheetname对应文章在当前pdf文章中的索引,存储到json文件夹下
3.
**遍历**
excel表格中的论文名称进行模糊匹配, 匹配成功后
1.
将pdf文件中的关键信息写入json文件中进行保存, 包括 标题 会议名称 作者姓名 机构 国家.
2.
用pdf文件中的论文名称和索引标准化重命名pdf文件和excel表格中的论文标题、会议名称、作者姓名、机构、国家.
1.
将pdf文件中的关键信息写入json文件中进行保存, 包括 标题 会议名称 作者姓名
通讯作者
机构 国家.
2.
用pdf文件中的论文名称和索引标准化重命名pdf文件和excel表格中的论文标题、会议名称、作者姓名、
通讯作者姓名、
机构、国家.
3.
首先用
**大模型**
将英文国家名翻译成中国名,将国家对应的索引写入目标excel表格中.
4.
将pdf文件中的会议或者期刊名称和CCFA的会议或者期刊名称的表格交给
**大模型**
匹配,匹配结果以“是/否”的形式写入目标excel表格中.
4.
匹配失败后,输出无法匹配的条目,使用warning记录无法匹配的条目,方便后续处理.
...
...
@@ -71,6 +72,8 @@
2.
无索引值的pdf即未匹配的pdf,需要人工二次匹配
3.
未匹配的excel条目需要人工二次匹配
3.
stage2: 知名企业、牛人判断
1.
进入psrc/2-qiye目录按照README.md中的步骤执行得到excel
2.
进入psrc/3-niurenshaixuan目录按照README.md中的步骤执行得到excel
# 代码结构说明
1.
psrc文件夹下是库函数
...
...
others/j24_target.xlsx
→
others/
Arch/
j24_target.xlsx
View file @
c2a06f4e
File moved
others/j29_target.xlsx
→
others/
Arch/
j29_target.xlsx
View file @
c2a06f4e
File moved
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment