<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0">
  <channel>
    <title>一起港湾 - AI测评</title>
    <link>https://www.17gw.com/forum-122-1.html</link>
    <description>Latest 20 threads of AI测评</description>
    <copyright>Copyright(C) 一起港湾</copyright>
    <generator>Discuz! Board by Discuz! Team</generator>
    <lastBuildDate>Wed, 06 May 2026 03:57:13 +0000</lastBuildDate>
    <ttl>60</ttl>
    <image>
      <url>https://www.17gw.com/static/image/common/logo_88_31.gif</url>
      <title>一起港湾</title>
      <link>https://www.17gw.com/</link>
    </image>
    <item>
      <title>Redis作者 antirez 的一项实验，这里GPT 5.4 要优于Claude Opus</title>
      <link>https://www.17gw.com/thread-6418-1-1.html</link>
      <description><![CDATA[Redis作者 antirez 的一项实验，这里GPT 5.4 要优于Claude Opus  

-----------------------------
过去一周里，我分别对 Claude Code Opus 4.6 和 Codex GPT 5.4 跑了很长时间的自主会话，两者都开到了最大思考预算。它们运行在各自克隆出的目录中；只要其中一边落后了 ...]]></description>
      <category>AI测评</category>
      <author>埋葬冬天的回忆</author>
      <pubDate>Wed, 08 Apr 2026 01:23:26 +0000</pubDate>
    </item>
    <item>
      <title>三款开源TTS大模型横评，LongCat-AudioDiT完胜🐱</title>
      <link>https://www.17gw.com/thread-6343-1-1.html</link>
      <description><![CDATA[三款开源TTS大模型横评，LongCat-AudioDiT完胜🐱


为了给 OpenClaw 接入语音对话功能，我横测了三款开源音频合成大模型，终于找到了我想要的模型！

🔍 结论先行

🏆 LongCat-AudioDiT：生成速度仅6 秒（3.5B 参数），音质清晰，音色迁移好，完胜！

🥈 Qwen3-TTS：生 ...]]></description>
      <category>AI测评</category>
      <author>wushuhong</author>
      <pubDate>Mon, 06 Apr 2026 16:51:32 +0000</pubDate>
    </item>
    <item>
      <title>AGI测试新标杆来了</title>
      <link>https://www.17gw.com/thread-5979-1-1.html</link>
      <description><![CDATA[#AGI测试新标杆来了# 


它叫ARC-AGI-3，人类几乎人人满分，但AI的正确率连1%都不到，GPT、Claude、Gemini等前沿大模型统统翻车。 http://t.cn/AXIJq0k7 ​​​]]></description>
      <category>AI测评</category>
      <author>尚美河南</author>
      <pubDate>Wed, 01 Apr 2026 15:09:51 +0000</pubDate>
    </item>
    <item>
      <title>从国产SOTA走向世界SOTA? GLM-5.1 实测!</title>
      <link>https://www.17gw.com/thread-5856-1-1.html</link>
      <description><![CDATA[从国产SOTA走向世界SOTA? GLM-5.1 实测!


给大家带来 GLM-5.1 编程能力实测! 本次测试涵盖了前端, 后端, Agent 能力, 前端主要面向空间建模, 场景, 材质, 粒子效果等, 后端能力主要面向数据结构与算法, 体系结构, 性能优化, 内存和并发管理, 性能热点分析与调优, 面向 ...]]></description>
      <category>AI测评</category>
      <author>东方无翼</author>
      <pubDate>Mon, 30 Mar 2026 14:57:03 +0000</pubDate>
    </item>
    <item>
      <title>一个有趣的评测：让大模型互相辩论，看谁能说服谁？</title>
      <link>https://www.17gw.com/thread-5647-1-1.html</link>
      <description><![CDATA[一个有趣的评测：让大模型互相辩论，看谁能说服谁？
详细的评测方法见：github.com/lechmazur/persuasion
图1是综合能力榜。
图2是能力四象限。
右上：既能说服别人，自己又很难被撼动。（相对最好）
左下：说服不了别人，且容易被别人说服。（相对最差）
右下：能说服 ...]]></description>
      <category>AI测评</category>
      <author>嘉益</author>
      <pubDate>Sat, 28 Mar 2026 05:43:00 +0000</pubDate>
    </item>
    <item>
      <title>【全程无广】9款AI大模型横评！谁是生产力之王，国产大模型能上桌吃饭吗？</title>
      <link>https://www.17gw.com/thread-5353-1-1.html</link>
      <description><![CDATA[【全程无广】9款AI大模型横评！谁是生产力之王，国产大模型能上桌吃饭吗？


本次参与测试的大模型如下：
豆包，文心（4.5Turbo），Kimi k2.5，千问3.5Plus，腾讯元宝（混元大模型），DeepSeek （V3），Gemini（3.1Pro），Grok（4.2），ChatGPT（GPT-5.3 Instant），

 ...]]></description>
      <category>AI测评</category>
      <author>夕遥</author>
      <pubDate>Tue, 24 Mar 2026 04:31:13 +0000</pubDate>
    </item>
    <item>
      <title>这周尝试了各种本土化的OpenClaw和AIO的SaaS工具，最后决定还是老老实实用BYOK的LLM Client作为桌面端的主力。</title>
      <link>https://www.17gw.com/thread-5145-1-1.html</link>
      <description><![CDATA[这周尝试了各种本土化的OpenClaw和AIO的SaaS工具，最后决定还是老老实实用BYOK的LLM Client作为桌面端的主力。
 
在模型选择上倒是自由了，现在最大的问题是Token不自由，Claude真叫一个费钱。 ​​​






 ...]]></description>
      <category>AI测评</category>
      <author>蒲天治</author>
      <pubDate>Sun, 22 Mar 2026 08:04:31 +0000</pubDate>
    </item>
    <item>
      <title>Qwen 3.5 397B：最强本地编程模型？</title>
      <link>https://www.17gw.com/thread-5081-1-1.html</link>
      <description><![CDATA[【Qwen 3.5 397B：最强本地编程模型？】


快速阅读：一位开发者测试了Qwen 3.5 397B模型后认为，它是目前最好的本地编程模型。虽然生成速度较慢（11-15 tokens/秒），但代码质量极高，几乎不需要多轮修复。更令人惊讶的是，使用IQ2_XS量化版本仅需123GB内存就能运行， ...]]></description>
      <category>AI测评</category>
      <author>春春欲动</author>
      <pubDate>Sun, 22 Mar 2026 02:03:18 +0000</pubDate>
    </item>
    <item>
      <title>龙虾专用大模型? GLM-5-Turbo 实测!</title>
      <link>https://www.17gw.com/thread-4685-1-1.html</link>
      <description><![CDATA[龙虾专用大模型? GLM-5-Turbo 实测!

给大家带来刚发布的 GLM-5-Turbo 大模型实测, 官方说这是一个加强了 tool call/Agent 能力的大模型, 于是我使用它搭建了一个可以帮我比对大菠萝里面物品的SKILL, 可以帮我辅助判断我是应该把垃圾直接甩商店还是应该留着传三代哈哈哈 ...]]></description>
      <category>AI测评</category>
      <author>落日的孤单</author>
      <pubDate>Tue, 17 Mar 2026 15:03:30 +0000</pubDate>
    </item>
    <item>
      <title>OpenClaw创始人公布了一份32个模型的真实测试排名，评价维度只有三个：成功率/速度/费用，但都非常关键。</title>
      <link>https://www.17gw.com/thread-4374-1-1.html</link>
      <description><![CDATA[OpenClaw创始人公布了一份32个模型的真实测试排名，评价维度只有三个：成功率/速度/费用，但都非常关键。


成功率排名前五名分别是： 
1️⃣ google/gemini-3-flash-preview
2️⃣ minimax/minimax-m2.1
3️⃣ moonshotai/kimi-k2.5
4️⃣ anthropic/claude-sonnet-4.5 ...]]></description>
      <category>AI测评</category>
      <author>青竹居士</author>
      <pubDate>Fri, 13 Mar 2026 13:18:46 +0000</pubDate>
    </item>
    <item>
      <title>Qwen3.5 系列产品在共同基准测试中的比较  从 27b 开始，Qwen 似乎真的很有用；任何比这更小的难度，效果都会明显降低。 ​​​</title>
      <link>https://www.17gw.com/thread-4009-1-1.html</link>
      <description><![CDATA[Qwen3.5 系列产品在共同基准测试中的比较


从 27b 开始，Qwen 似乎真的很有用；任何比这更小的难度，效果都会明显降低。 ​​​]]></description>
      <category>AI测评</category>
      <author>芳悟</author>
      <pubDate>Tue, 10 Mar 2026 05:26:28 +0000</pubDate>
    </item>
    <item>
      <title>Claude Opus 4.6 🆚 GPT 5.4  相同提示词下前端能力对比</title>
      <link>https://www.17gw.com/thread-3981-1-1.html</link>
      <description><![CDATA[Claude Opus 4.6 🆚 GPT 5.4 

相同提示词下前端能力对比

## http://t.cn/AXVx8bEG ​​​]]></description>
      <category>AI测评</category>
      <author>可爱滴</author>
      <pubDate>Mon, 09 Mar 2026 22:30:14 +0000</pubDate>
    </item>
    <item>
      <title>大家带来归一化的Qwen3.5系列模型分数汇总, 惊喜的发现是 27B dense 这个模型的确不以言, 基本达到了期间模型 Qwen3.5-397B-A17B 94% 的性能</title>
      <link>https://www.17gw.com/thread-3899-1-1.html</link>
      <description><![CDATA[给大家带来归一化的Qwen3.5系列模型分数汇总, 惊喜的发现是 27B dense 这个模型的确不以言, 基本达到了期间模型 Qwen3.5-397B-A17B 94% 的性能. 尤其是视觉Agent能力 (比如操作浏览器/手机等图形界面) 是这些里面最强的. 以及长上下文能力, 指令遵循也很不错.

通用 Age ...]]></description>
      <category>AI测评</category>
      <author>一念法界</author>
      <pubDate>Mon, 09 Mar 2026 02:21:24 +0000</pubDate>
    </item>
    <item>
      <title>给大家带来刚发布的 nano-banan-2 评测</title>
      <link>https://www.17gw.com/thread-3247-1-1.html</link>
      <description><![CDATA[nano-banana-2 发布! 18张图告诉你该怎么用!

给大家带来刚发布的 nano-banan-2 评测! 

首先 nano-banana-2 比 nano-banana-pro 便宜很多, 因为它全名是gemini-3.1-flash-image-preview, 而 nano-banana-pro 是 gemini-3-pro-image-preview. 所以可以想象得到 pro 的参 ...]]></description>
      <category>AI测评</category>
      <author>大谢小贺</author>
      <pubDate>Mon, 02 Mar 2026 09:08:54 +0000</pubDate>
    </item>
    <item>
      <title>21个主流AI工具深度评测</title>
      <link>https://www.17gw.com/thread-2915-1-1.html</link>
      <description><![CDATA[今天在群里分享了头部社群主理人的AI工具列表，不同AI擅长不同领域，用对有事倍功半的效果又看到21个主流AI工具深度对比评测吗，挺全面的。特地整理成飞书知识库的形式，方便大家查阅从Claude到Gemini，从DeepSeek到豆包，均有详细对比简单总结一下：写代码/做产品：别 ...]]></description>
      <category>AI测评</category>
      <author>一点放纵</author>
      <pubDate>Fri, 27 Feb 2026 08:26:14 +0000</pubDate>
    </item>
    <item>
      <title>2026年必装AI工具横向评测：15款主流产品深度对比与选型指南</title>
      <link>https://www.17gw.com/thread-2914-1-1.html</link>
      <description><![CDATA[一、评测概述与方法论1. 评测背景与意义2026年，AI工具从“新奇玩具”转变为“生产力刚需”，但市场产品繁杂、功能重叠、定价混乱。本次评测旨在：

[*]全面评估：覆盖对话、编程、设计、视频、音频、自动化六大核心场景
[*]客观对比：基于标准化测试集和真实工作场景 ...]]></description>
      <category>AI测评</category>
      <author>喵粮多</author>
      <pubDate>Fri, 27 Feb 2026 08:19:01 +0000</pubDate>
    </item>
    <item>
      <title>Midjourney v8 就要来了，但现在大家都在用 Nano Banana Pro。AI 创作博主 Nick St. Pierre (x:nickfloats) 用两张图告诉大家两</title>
      <link>https://www.17gw.com/thread-2749-1-1.html</link>
      <description><![CDATA[Midjourney v8 就要来了，但现在大家都在用 Nano Banana Pro。AI 创作博主 Nick St. Pierre (x:nickfloats) 用两张图告诉大家两者的区别。


上：Midjourney，下：Nano Banana Pro

提示词：A melancholic medieval young woman with a soft, sorrowful gaze, standing  ...]]></description>
      <category>AI测评</category>
      <author>约翰克里斯朵夫</author>
      <pubDate>Thu, 26 Feb 2026 07:07:47 +0000</pubDate>
    </item>
    <item>
      <title>大模型能陪你一本正经的胡说八道吗?</title>
      <link>https://www.17gw.com/thread-2580-1-1.html</link>
      <description><![CDATA[大模型能陪你一本正经的胡说八道吗?


看到了个非常有意思的 Bullshit Benchmark, 专门测试大模型能不能识别出\&quot;一本正经的胡说八道\&quot;

举几个例子老铁们感受一下: 

\&quot;我们把代码风格从 Tab 改成了 Space, 这会怎样影响我们接下来两个季度的客户留存率?\&quot; 

\&quot;我们护士在 12 ...]]></description>
      <category>AI测评</category>
      <author>雷小羞</author>
      <pubDate>Wed, 25 Feb 2026 05:07:57 +0000</pubDate>
    </item>
    <item>
      <title>我在X上刷到了一匹金色的骏马！</title>
      <link>https://www.17gw.com/thread-2159-1-1.html</link>
      <description><![CDATA[我在X上刷到了一匹金色的骏马！！


然后我一不小心点进去了，就看见GLM-5上线了，然后我发现DeepSeek新模型也上线了。

我自己挖了挖发现。

GLM-5核心点有几个：

1. GLM-5 采用了与DeepSeek-V3相同的 DeepSeek Sparse Attention 稀疏注意力机制。
2. 总参数量约为 74 ...]]></description>
      <category>AI测评</category>
      <author>展菲</author>
      <pubDate>Sat, 21 Feb 2026 13:06:34 +0000</pubDate>
    </item>
    <item>
      <title>【NullClaw 深度评测】678KB 的 AI 助手框架能做什么？</title>
      <link>https://www.17gw.com/thread-1932-1-1.html</link>
      <description><![CDATA[【NullClaw 深度评测】678KB 的 AI 助手框架能做什么？


刚刚了解了 NullClaw —— 一个用 Zig 编写的超轻量级 AI 助手框架：

📊 惊人数据：
• 678 KB 二进制（OpenClaw 的 1/40）
• ~1 MB 内存占用（节省 99.9%）
•  ...]]></description>
      <category>AI测评</category>
      <author>王宝柱</author>
      <pubDate>Thu, 19 Feb 2026 16:10:00 +0000</pubDate>
    </item>
  </channel>
</rss>