跳转到内容
灿海星图指南--调研工具GPT Researcher,28K星多Agent并行调研+自动生成含引用报告
·灿海星图指南

灿海星图指南--调研工具GPT Researcher,28K星多Agent并行调研+自动生成含引用报告

返回博客
金柘
#GPT Researcher#AI调研#多Agent#研究报告#引用

第一次用GPT Researcher查"大模型推理成本趋势"——它生成了一个有23条引用的报告。每条引用都是可点击的URL。这不是"AI帮你搜一下然后总结"——是多个Agent背对背查不同的源,然后交叉验证。

本文是一篇实操指南,预计15分钟完成。已核实GitHub仓库存在(28K星)。

核心操作

GPT Researcher是Python项目,受Plan-and-Solve和RAG论文启发,核心是一个多Agent并行查证框架。

1. 安装

bash
git clone https://github.com/assafelovic/gpt-researcher.git
cd gpt-researcher
pip install -r requirements.txt

WebUI在 http://localhost:8000

2. 接入灿海星图API

编辑 .env文件:

bash
OPENAI_API_KEY=你的灿海星图key
OPENAI_BASE_URL=https://你的灿海星图endpoint/v1
FAST_LLM=deepseek-ai/DeepSeek-V4-Flash
SMART_LLM=deepseek-ai/DeepSeek-V4-Pro
STRATEGIC_LLM=Pro/deepseek-ai/DeepSeek-V3

三种模型分工:FAST_LLM做网页抓取后的快速提取,SMART_LLM做深度分析,STRATEGIC_LLM做报告结构和引用质量判断。

3. 开始调研

WebUI里输入研究问题,比如"2026年大模型推理成本变化趋势"——Agent会自动:

  1. 生成子问题(并行搜索)
  2. 爬取网页+提取关键信息
  3. 多Agent交叉验证(不同Agent查不同源,对比结论一致性)
  4. 生成带引用的研究报告

4. 高级用法:研究员Agent

可以用Researcher Agent做持续跟踪:

python
from gpt_researcher import GPTResearcher

researcher = GPTResearcher(
    query="2026年7月AI行业重要新闻",
    report_type="research_report"
)
report = await researcher.conduct_research()
print(report)

踩坑实录

现象原因解决
报告生成慢(>5分钟)FAST_LLM用的模型太慢换DeepSeek-V4-Flash,不要用V4-Pro做快速提取
引用URL 404爬的是动态页面在.env里设RETRIEVER=duckduckgo,避开需要JS渲染的源
中文报告质量差默认用英文搜索在query里明确写"中文搜索",report_type=research_report

常见疑问

Q1:和直接问ChatGPT有什么区别?

GPT Researcher是"多Agent并行查证"——5个Agent同时搜不同源,交叉验证。ChatGPT是"一个Agent搜一个问题"。如果你要写行业报告、投资分析、竞品调研——两个的质量不在一个量级。

Q2:报告有多可信?

每条结论都带引用。交叉验证环节会标注"Source A和Source B数据一致"或"Source A和Source C数据冲突"——你能看到哪些结论是共识,哪些有争议。

Q3:能同时跑几个调研?

理论上不限。建议同时不超过3个——每个调研会启动多个Agent并行。

我为什么不用XX替代它

GPT Academic(71K星)做的是论文阅读和润色,不是调研生成。Horizon(7.3K星)做的热点追踪,不是深度研究报告。GPT Researcher的核心差异是多Agent并行查证+自动生成带引用报告——这条链上目前没有同等能力的开源替代。


本文数据来源于GitHub公开仓库(assafelovic/gpt-researcher),数据截至2026年7月5日。