下面是具体的项目部署和内容:
一、以脚本方式运行
Windows, Mac和Linux系统应该都可以
python版本最好是3.9,其他版本应该也没啥问题
-
git clone https://github.com/kAIxindelele/ChatPaper.git cd ChatPaper
- 在apikey.ini中填入你的OpenAI key。
- 注意,这个代码纯本地项目,你的key很安全!如果不被OpenAI封的话~ 小白用户比较多,我直接给截图示意下可能会更好:
- 使用过程要保证全局代理!如果客户端时clash的话,可以参考这个进行配置:
- 安装依赖:最好翻墙,或者用国内源。
pip install -r requirements.txt
4.1. Arxiv在线批量搜索+下载+总结:运行chat_paper.py, 比如:
python chat_paper.py --query "ChatGPT robot" --filter_keys "chatGPT robot" --max_results 3
更准确的脚本是chat_arxiv.py,使用方案,命令行更加简洁:
python chat_arxiv.py --query "chatgpt robot" --page_num 2 --max_results 3 --days 2
其中query仍然是关键词,page_num是搜索的页面,每页和官网一样,最大是50篇,max_results是最终总结前N篇的文章,days是选最近几天的论文,严格筛选!
注意:搜索词无法识别-
,只能识别空格!所以原标题的连字符最好不要用! 感谢网友提供的信息
4.2. Arxiv在线批量搜索+下载+总结+高级搜索:运行chat_paper.py, 比如:
python chat_paper.py --query "all: reinforcement learning robot 2023" --filter_keys "reinforcement robot" --max_results 3
4.3. Arxiv在线批量搜索+下载+总结+高级搜索+指定作者:运行chat_paper.py, 比如:
python chat_paper.py --query "ti: Sergey Levine" --filter_keys "reinforcement robot" --max_results 3
4.4. 本地pdf总结:运行chat_paper.py, 比如:
python chat_paper.py --pdf_path "demo.pdf"
4.5. 本地文件夹批量总结:运行chat_paper.py, 比如:
python chat_paper.py --pdf_path "your_absolute_path"
另外注意,目前这个不支持综述类文章。
B站讲解视频:我把ChatPaper开源了!AI速读PDF论文和速通Arxiv论文
注意:key_word不重要,但是filter_keys非常重要! 一定要修改成你的关键词。
另外关于arxiv的搜索关键词可以参考下图:
- 参数介绍:
[--pdf_path 是否直接读取本地的pdf文档?如果不设置的话,直接从arxiv上搜索并且下载]
[--query 向arxiv网站搜索的关键词,有一些缩写示范:all, ti(title), au(author),一个query示例:all: ChatGPT robot]
[--key_word 你感兴趣领域的关键词,重要性不高]
[--filter_keys 你需要在摘要文本中搜索的关键词,必须保证每个词都出现,才算是你的目标论文]
[--max_results 每次搜索的最大文章数,经过上面的筛选,才是你的目标论文数,chat只总结筛选后的论文]
[--sort arxiv的排序方式,默认是相关性,也可以是时间,arxiv.SortCriterion.LastUpdatedDate 或者 arxiv.SortCriterion.Relevance, 别加引号]
[--save_image 是否存图片,如果你没注册gitee的图床的话,默认为false]
[--file_format 文件保存格式,默认是markdown的md格式,也可以是txt]
parser.add_argument("--pdf_path", type=str, default='', help="if none, the bot will download from arxiv with query")
parser.add_argument("--query", type=str, default='all: ChatGPT robot', help="the query string, ti: xx, au: xx, all: xx,")
parser.add_argument("--key_word", type=str, default='reinforcement learning', help="the key word of user research fields")
parser.add_argument("--filter_keys", type=str, default='ChatGPT robot', help="the filter key words, 摘要中每个单词都得有,才会被筛选为目标论文")
parser.add_argument("--max_results", type=int, default=1, help="the maximum number of results")
parser.add_argument("--sort", default=arxiv.SortCriterion.Relevance, help="another is arxiv.SortCriterion.LastUpdatedDate")
parser.add_argument("--save_image", default=False, help="save image? It takes a minute or two to save a picture! But pretty")
parser.add_argument("--file_format", type=str, default='md', help="导出的文件格式,如果存图片的话,最好是md,如果不是的话,txt的不会乱")
二、 以Flask服务运行
- 下载项目并进入项目目录
git clone https://github.com/kaixindelele/ChatPaper.git
cd ChatPaper
- 在项目根目录下的
apikey.ini
文件中填入您的 OpenAI 密钥。 - 配置虚拟环境并下载依赖
pip install virtualenv
安装虚拟环境工具
virtualenv venv
新建一个名为venv的虚拟环境
Linux/Mac下:
source venv/bin/activate
Windows下:
.\venv\Scripts\activate.bat
pip install -r requirements.txt
- 启动服务
python3 app.py
# 启动 Flask 服务。运行此命令后,Flask 服务将在本地的 5000 端口上启动并等待用户请求。在浏览器中访问以下地址之一以访问 Flask 服务的主页:
# http://127.0.0.1:5000/
# 或
# http://127.0.0.1:5000/index