2026-07-01·创业思考

创业思考--180天追踪500+开源项目，我的信息处理系统跑通了

返回博客

金

金柘

#开源#情报采集#Hermes#GitHub#方法论

每天凌晨1点，一份日报准时出现在我的Obsidian里。6个新入库的开源项目，每个附带简介、技术栈、商业化潜力评分。生成这份日报的不是我，是一套跑了180天的Agent流水线。

本文是一篇创业笔记，基于个人实践。

核心判断

信息优势不是你知道什么，是你的采集系统能不能在其他人看到之前把信号抓进来。

说人话：GitHub每天新建几千个仓库。99%是噪音。但如果你的系统能在噪音里自动捞出那1%的信号——你就有信息优势。这不是靠勤奋，是靠流水线。

为什么是这个判断

三个证据。

证据一：新项目的窗口期在缩短。 2025年初，一个好项目从创建到在中文AI圈传开，平均7-14天。到2026年6月，这个时间缩到2-4天。因为现在有几十个AI工具在同时做采集——信息传播速度被AI加速了。

证据二：85%的新仓库是垃圾。 我的系统跑了180天，采集了超过2万个新建仓库。统计结果是：85%会被自动过滤掉——游戏外挂、钱包破解、自动生成的垃圾项目、标题党。真正的信号只有约15%能通过第一层筛选，最终入库的只有约3%。

证据三：有价值项目的分布极度不均匀。 不是每天都有好东西。有些天只有1个入库，有些天有7-8个。但最好的项目往往扎堆出现——因为它们都跟同一个事件或技术突破相关。比如6月28日那批Agent Skill项目（self-learning-skills, webtoon-harness, gemini-search-mcp），同一天出现了3个。

这条流水线长什么样

四层过滤，层层淘汰：

GitHub新建仓库（几万/天）
    ↓ 第一层：Hermes定时采集，按stars>50初筛
日均50-80个
    ↓ 第二层：查重（对比已有入库清单）
去除已入库项目
    ↓ 第三层：质量评分（Stars/Commits/README质量/代码量）
淘汰垃圾仓库、标题党、空壳
    ↓ 第四层：商业化判断（技术价值/市场时机/团队背景）
最终入库日均3-5个
    ↓ 写入Obsidian + 生成日报

7月1日的一批信号

昨天（7月1日）的日报有6个新入库项目，值得看的有几个：

Fundamental-Ava（593星）：自主协作社交智能数字人Agent。标志着Agent从"工具型"向"社交型"演化。
codex-keysmith（325星）：Codex CLI的指令文件安装器，中英双语文档。AI编码工具的生态配件正在成熟——就像iOS的App Store刚起步时那些"帮你管理密码"的基础工具。
Amber（321星）：一次性可验证的银行级计算验证协议。这不是大众工具，但它解决了AI计算中的信任问题——"你怎么证明这个结果是真实的而不是AI编的？"

这批项目的共同特点：都在为AI Agent生态做基础设施。不是做Agent本身，而是做Agent的"水和电"。

反向思考

这个系统有明确的盲区。它只看新建仓库的stars和commits，所以它完全错过了那些"没有仓库"的信号。比如最近硅谷几个大厂关闭AI实验室的消息、模型能力突变的传闻——这些不会出现在GitHub上。

它擅长的是开源项目层面的信号捕捉。对产业政策、大厂动向、模型能力——它天然是盲的。所以我同时维护另一个信息源：Hermes的日常观察和社群讨论。两者互补。

另外，它不是"越全越好"。早期我犯的错误是追求采集覆盖率，结果每天被200+项目淹没，筛选成本吃掉了我所有注意力。现在的核心逻辑是"宁可漏掉，不要看太多"——每天只保留最有可能有价值的5-10个。

延伸思考

系统盲区到底要不要补。 我知道它错过了GitHub之外的信号，但我不确定这事怎么量化——一个没有仓库的信息源权重应该跟一个开源项目比吗？补太多可能被噪音淹回去，补太少可能漏掉真正的转折信号。这之间的平衡点我还没有定量标准。
这180天里因为盲区错过的最重要的东西是什么。 这个问题没法回答——因为错过的本身就是我不知道的。我只能确定它错过了，但不能确定错过了什么。
系统再跑半年会不会"过拟合"。 现在这套筛选标准是基于过去180天的数据调的。但AI行业变化很快，半年后什么项目值得关注可能完全不一样的。会不会过度依赖现在的标准反而被路径困住？

你可以带走什么

一句话：建系统，不建信息收集习惯。

具体三件事：

从明天开始，固定每天花10分钟扫GitHub Trending。不是为了找工具——是训练你的信号识别能力。什么项目是真的有价值的？什么项目是标题党？这个直觉需要时间。
如果你已经在用Hermes或类似的Agent工具，花一个周末把采集流水线搭起来。配置好定时任务+MCP调用+Obsidian写入。之后每天只需要审日报——而不是去采集。
建立一个分类体系。我的分类框架很简单：AI Agent、AI Coding、MCP Server、内容生产、基础设施、其他。分类不是为了整理——是为了你自己能快速判断"这跟我有没有关系"。

这套系统有一个副作用：它会让你对AI行业的变化更敏感。连续追踪180天后，我开始能预判一些趋势——不是因为我有水晶球，而是因为我看过太多项目的生命周期。

本文数据来源于个人开源项目采集系统的实际运营记录，数据截至2026年7月1日。

查看所有文章 →