跳转到内容
创业思考--180天追踪500+开源项目,我的信息处理系统跑通了
·创业思考

创业思考--180天追踪500+开源项目,我的信息处理系统跑通了

返回博客
金柘
#开源#情报采集#Hermes#GitHub#方法论

每天凌晨1点,一份日报准时出现在我的Obsidian里。6个新入库的开源项目,每个附带简介、技术栈、商业化潜力评分。生成这份日报的不是我,是一套跑了180天的Agent流水线。

本文是一篇创业笔记,基于个人实践。

核心判断

信息优势不是你知道什么,是你的采集系统能不能在其他人看到之前把信号抓进来。

说人话:GitHub每天新建几千个仓库。99%是噪音。但如果你的系统能在噪音里自动捞出那1%的信号——你就有信息优势。这不是靠勤奋,是靠流水线。

为什么是这个判断

三个证据。

证据一:新项目的窗口期在缩短。 2025年初,一个好项目从创建到在中文AI圈传开,平均7-14天。到2026年6月,这个时间缩到2-4天。因为现在有几十个AI工具在同时做采集——信息传播速度被AI加速了。

证据二:85%的新仓库是垃圾。 我的系统跑了180天,采集了超过2万个新建仓库。统计结果是:85%会被自动过滤掉——游戏外挂、钱包破解、自动生成的垃圾项目、标题党。真正的信号只有约15%能通过第一层筛选,最终入库的只有约3%。

证据三:有价值项目的分布极度不均匀。 不是每天都有好东西。有些天只有1个入库,有些天有7-8个。但最好的项目往往扎堆出现——因为它们都跟同一个事件或技术突破相关。比如6月28日那批Agent Skill项目(self-learning-skills, webtoon-harness, gemini-search-mcp),同一天出现了3个。

这条流水线长什么样

四层过滤,层层淘汰:

GitHub新建仓库(几万/天) ↓ 第一层:Hermes定时采集,按stars>50初筛 日均50-80个 ↓ 第二层:查重(对比已有入库清单) 去除已入库项目 ↓ 第三层:质量评分(Stars/Commits/README质量/代码量) 淘汰垃圾仓库、标题党、空壳 ↓ 第四层:商业化判断(技术价值/市场时机/团队背景) 最终入库日均3-5个 ↓ 写入Obsidian + 生成日报

7月1日的一批信号

昨天(7月1日)的日报有6个新入库项目,值得看的有几个:

  • Fundamental-Ava(593星):自主协作社交智能数字人Agent。标志着Agent从"工具型"向"社交型"演化。
  • codex-keysmith(325星):Codex CLI的指令文件安装器,中英双语文档。AI编码工具的生态配件正在成熟——就像iOS的App Store刚起步时那些"帮你管理密码"的基础工具。
  • Amber(321星):一次性可验证的银行级计算验证协议。这不是大众工具,但它解决了AI计算中的信任问题——"你怎么证明这个结果是真实的而不是AI编的?"

这批项目的共同特点:都在为AI Agent生态做基础设施。不是做Agent本身,而是做Agent的"水和电"。

反向思考

这个系统有明确的盲区。它只看新建仓库的stars和commits,所以它完全错过了那些"没有仓库"的信号。比如最近硅谷几个大厂关闭AI实验室的消息、模型能力突变的传闻——这些不会出现在GitHub上。

它擅长的是开源项目层面的信号捕捉。对产业政策、大厂动向、模型能力——它天然是盲的。所以我同时维护另一个信息源:Hermes的日常观察和社群讨论。两者互补。

另外,它不是"越全越好"。早期我犯的错误是追求采集覆盖率,结果每天被200+项目淹没,筛选成本吃掉了我所有注意力。现在的核心逻辑是"宁可漏掉,不要看太多"——每天只保留最有可能有价值的5-10个。

延伸思考

  1. 系统盲区到底要不要补。 我知道它错过了GitHub之外的信号,但我不确定这事怎么量化——一个没有仓库的信息源权重应该跟一个开源项目比吗?补太多可能被噪音淹回去,补太少可能漏掉真正的转折信号。这之间的平衡点我还没有定量标准。

  2. 这180天里因为盲区错过的最重要的东西是什么。 这个问题没法回答——因为错过的本身就是我不知道的。我只能确定它错过了,但不能确定错过了什么。

  3. 系统再跑半年会不会"过拟合"。 现在这套筛选标准是基于过去180天的数据调的。但AI行业变化很快,半年后什么项目值得关注可能完全不一样的。会不会过度依赖现在的标准反而被路径困住?

你可以带走什么

一句话:建系统,不建信息收集习惯。

具体三件事:

  1. 从明天开始,固定每天花10分钟扫GitHub Trending。不是为了找工具——是训练你的信号识别能力。什么项目是真的有价值的?什么项目是标题党?这个直觉需要时间。

  2. 如果你已经在用Hermes或类似的Agent工具,花一个周末把采集流水线搭起来。配置好定时任务+MCP调用+Obsidian写入。之后每天只需要审日报——而不是去采集。

  3. 建立一个分类体系。我的分类框架很简单:AI Agent、AI Coding、MCP Server、内容生产、基础设施、其他。分类不是为了整理——是为了你自己能快速判断"这跟我有没有关系"。

这套系统有一个副作用:它会让你对AI行业的变化更敏感。连续追踪180天后,我开始能预判一些趋势——不是因为我有水晶球,而是因为我看过太多项目的生命周期。


本文数据来源于个人开源项目采集系统的实际运营记录,数据截至2026年7月1日。