chatPaper-总结文献和搜索文献神器

AI应用信息2年前 (2024)发布 XIAOT

下面是具体的项目部署和内容：

一、以脚本方式运行

Windows, Mac和Linux系统应该都可以

python版本最好是3.9，其他版本应该也没啥问题

git clone https://github.com/kAIxindelele/ChatPaper.git
cd ChatPaper

在apikey.ini中填入你的OpenAI key。
注意，这个代码纯本地项目，你的key很安全！如果不被OpenAI封的话~ 小白用户比较多，我直接给截图示意下可能会更好：

使用过程要保证全局代理！如果客户端时clash的话，可以参考这个进行配置:

安装依赖：最好翻墙，或者用国内源。

pip install -r requirements.txt

4.1. Arxiv在线批量搜索+下载+总结：运行chat_paper.py，比如：

python chat_paper.py --query "chatgpt robot" --filter_keys "ChatGPT robot" --max_results 3

更准确的脚本是chat_arxiv.py，使用方案，命令行更加简洁：

python chat_arxiv.py --query "chatGPT robot" --page_num 2 --max_results 3 --days 2

其中query仍然是关键词，page_num是搜索的页面，每页和官网一样，最大是50篇，max_results是最终总结前N篇的文章，days是选最近几天的论文，严格筛选！

注意：搜索词无法识别-，只能识别空格！所以原标题的连字符最好不要用！感谢网友提供的信息

4.2. Arxiv在线批量搜索+下载+总结+高级搜索：运行chat_paper.py，比如：

python chat_paper.py --query "all: reinforcement learning robot 2023" --filter_keys "reinforcement robot" --max_results 3

4.3. Arxiv在线批量搜索+下载+总结+高级搜索+指定作者：运行chat_paper.py，比如：

python chat_paper.py --query "ti: Sergey Levine" --filter_keys "reinforcement robot" --max_results 3

4.4. 本地pdf总结：运行chat_paper.py，比如：

python chat_paper.py --pdf_path "demo.pdf"

4.5. 本地文件夹批量总结：运行chat_paper.py，比如：

python chat_paper.py --pdf_path "your_absolute_path"

另外注意，目前这个不支持综述类文章。

B站讲解视频：我把ChatPaper开源了！AI速读PDF论文和速通Arxiv论文

注意：key_word不重要，但是filter_keys非常重要！一定要修改成你的关键词。

另外关于arxiv的搜索关键词可以参考下图：

参数介绍：

[--pdf_path 是否直接读取本地的pdf文档？如果不设置的话，直接从arxiv上搜索并且下载] 
[--query 向arxiv网站搜索的关键词，有一些缩写示范：all, ti(title), au(author)，一个query示例：all: ChatGPT robot] 
[--key_word 你感兴趣领域的关键词，重要性不高] 
[--filter_keys 你需要在摘要文本中搜索的关键词，必须保证每个词都出现，才算是你的目标论文] 
[--max_results 每次搜索的最大文章数，经过上面的筛选，才是你的目标论文数，chat只总结筛选后的论文] 
[--sort arxiv的排序方式，默认是相关性，也可以是时间，arxiv.SortCriterion.LastUpdatedDate 或者 arxiv.SortCriterion.Relevance， 别加引号] 
[--save_image 是否存图片，如果你没注册gitee的图床的话，默认为false] 
[--file_format 文件保存格式，默认是markdown的md格式，也可以是txt] 

parser.add_argument("--pdf_path", type=str, default='', help="if none, the bot will download from arxiv with query")
parser.add_argument("--query", type=str, default='all: ChatGPT robot', help="the query string, ti: xx, au: xx, all: xx,")    
parser.add_argument("--key_word", type=str, default='reinforcement learning', help="the key word of user research fields")
parser.add_argument("--filter_keys", type=str, default='ChatGPT robot', help="the filter key words, 摘要中每个单词都得有，才会被筛选为目标论文")
parser.add_argument("--max_results", type=int, default=1, help="the maximum number of results")
parser.add_argument("--sort", default=arxiv.SortCriterion.Relevance, help="another is arxiv.SortCriterion.LastUpdatedDate")    
parser.add_argument("--save_image", default=False, help="save image? It takes a minute or two to save a picture! But pretty")
parser.add_argument("--file_format", type=str, default='md', help="导出的文件格式，如果存图片的话，最好是md，如果不是的话，txt的不会乱")

二、以Flask服务运行

git clone https://github.com/kaixindelele/ChatPaper.git
cd ChatPaper

在项目根目录下的 apikey.ini 文件中填入您的 OpenAI 密钥。
配置虚拟环境并下载依赖

pip install virtualenv 
安装虚拟环境工具
virtualenv venv 
新建一个名为venv的虚拟环境
Linux/Mac下:
source venv/bin/activate

Windows下:
.\venv\Scripts\activate.bat

pip install -r requirements.txt

启动服务

python3 app.py
# 启动 Flask 服务。运行此命令后，Flask 服务将在本地的 5000 端口上启动并等待用户请求。在浏览器中访问以下地址之一以访问 Flask 服务的主页：
# http://127.0.0.1:5000/
# 或
# http://127.0.0.1:5000/index