论文数据来源与统计口径
论文榜
论文榜展示两年滚动数据周期内新发表的 LLM / 大语言模型论文,按周期末引用总量排序。
当前数据周期
- 数据周期:2024-06-05 至 2026-06-05; 计算快照:2026-06-05; 生成时间:2026-06-05
数据来源(仅免费 API / RSS)
- OpenAlex — 免费开放学术图谱,提供论文元数据和引用数。
- Semantic Scholar — 补充学术影响力字段,用于交叉核验。
- arXiv API — 提供 CV、CL、AI、ML 预印本入口。
- CrossRef — 补全 DOI、期刊会议和出版信息。
不使用:Google Scholar 爬虫、IEEE Xplore 付费 API。
候选池
每个数据周期向前回看两年,只收录周期内新发表论文。领域筛选使用标题/摘要中的 large language model、transformer、RLHF、GPT、Llama、MoE 等等硬信号。
快照与排序
- 每年 6 月 5 日 生成一次数据周期快照。
- 主指标:新发论文周期末引用总量,即统计时间点 OpenAlex 引用数。
- 不自动判断 demo 难度或复现标签,避免把弱信号包装成结论。
当前提供两个连续数据周期;后续每年同日新增一个周期。