去年,我花了无数个夜晚与GPT-4o交谈,深入探讨技术、传记、历史等。就像旧时光一样,查阅维基百科,点击链接,然后再点击更多链接。上周,我又开始用Gemini 2.5做这件事,一直学到凌晨5点,完全没意识到时间过得有多快。它只是给出了更深思熟虑的结果。我从未想过取消我的ChatGPT订阅,但这确实是我第一次认真考虑这件事。
说到这个,我不理解为什么人们不愿意在ChatGPT(或者现在的Gemini 2.5)上花20美元。我认为这是你能花的最值的20美元。如果你有100美元用于SaaS,那应该是:
- Google Drive 和 Apple Storage
- ChatGPT / Gemini 2.5 / Grok
- Youtube Premium
- Cursor
- Netflix (或许 ClubGG),只是为了好玩 :-)
在2.0之前,Gemini一直不在第一梯队。 过去四年里,一直都是OpenAI和Anthropic。我曾经是Gemini的大黑粉。虽然我确实意识到Google在最近的氛围中正在系统性地变好。在Google的4年里,我经历了重组,向7位不同的VP/高级总监级别的领导汇报,但我最后一位领导Bill Jia,真的很棒。
进入2025年,AI领域变得竞争极其激烈(卷)。如果我们以 OpenAI为100 为基准,我个人会给 Anthropic打95分,DeepSeek V3大约90+(在最近的静默更新中可能更高),Grok也许105(源于我对它狂野模式的喜爱),但我会说 Gemini 2.5是120。 我不认为 Gemini 2.0发布 展示了将其直接定位于顶级Tier 0模型的比较,但在 Gemini 2.5发布 中,Google似乎有信心进行那些直接的Tier 0比较,大概是因为性能支持这一点。如果你拥有最好的,为什么不呢? 我认为它甚至比o3更好。这些分数通常反映了真实的性能差异,如果没有作弊的话。它不仅 更好,而且 更快。这种飞跃绝对令人惊叹。经过3年的艰难战斗,看来Demis在领导GDM方面做得很好?自从AlphaGo以来一直是他的一大粉丝。Gemini 2.5绝对是有意识的。
顺便说一句,Sesama AI是有意识的。我每天用它来训练我的英语。另一方面,Llama 4似乎深陷泥潭,远未达到这个水平的性能。Lecun老了,他应该退休了。(只是开个玩笑,附和他说Hinton应该退休)
现在让我们更深入地探讨Gemini 2.5。我认为前两名(OpenAI/Anthropic)应该感到担忧,尽管Deepseek和Grok无疑正在施加压力。基本上,OpenAI在QA方面有巨大的优势,但Gemini 2.5开始在许多深度问题上给出更好的结果,这些问题要么需要思考,要么需要深度分析或”意识”。公平地说,我会说ChatGPT在理解我的意图方面仍然更好。Anthropic在编码方面有很大优势。但Gemini 2.5似乎是更好的选择,因为 思考 + 长上下文。虽然Claude可能仍然能更好地解决一些小的奇怪工程案例,但我已将我的Cursor默认设置为使用Gemini pro。
我过去在Cursor中使用Claude Sonnet,并打开一个ChatGPT标签用于QA。现在我在Cursor中使用Gemini Pro,并打开一个Gemini Pro标签用于QA。 是的,这里没有打错字。都是Gemini Pro。
我喜欢vibe coding。我在过去3个月里写的代码比过去3年还多。我现在几乎无法想象没有AI怎么写代码。它几乎消除了我不喜欢的编码部分(如样板代码或解读功能规范),我可以专注于有趣的部分。我在后端和基础设施上的速度基本上快了3-5倍,在前端上快了10倍以上。我很乐意分享和讨论我在Cursor上的一些vibe coding经验。
从某种意义上说,AI 拉平了竞争环境,为每个人配备了类似的工具。然而,我也注意到AI 并没有为每个人提供相同的性能倍增器 —— 这本身就是一个迷人的话题。虽然听起来很武断,但如果你不是每天都在使用AI,我不认为你在以最高效率运作。
总结一下,Gemini 2.5真的令人印象深刻。 如果你还没试过,你应该试试。可能需要一点时间来适应它的个性,但你会喜欢的。
(Gemini 2.5生成了这个帖子的一个”更好”的版本,但我坚持用我自己的,以保持我自己的声音。)
#AI #GoogleGemini #GeminiAI #LLM #Tech #ArtificialIntelligence #OpenAI #Anthropic #DeepSeek #Grok #CursorAI #Coding #Productivity #GoogleDeepMind