AI测评一起港湾 - 一起港湾

隐藏置顶帖置顶一起港湾 (17GW.com) 论坛发帖须知

欢迎来到一起港湾 (17GW) 社区！这里是 AI 技术爱好者、数码极客和生活分享者的精神家园。为了维护港湾的纯净秩序与技术氛围，请在开启您的分享之旅前，仔细阅读并遵守以下发帖规范。一、核心发帖准则 [*]主题契合，精准归类：请确保内容与所属版块（如 AI 技术、数码维修、资源分享等）相关。标题应简明扼要，避免“ ...

1200

teanzhong 发表于 2026-3-29 服务

Redis作者 antirez 的一项实验，这里GPT 5.4 要优于Claude Opus

Redis作者 antirez 的一项实验，这里GPT 5.4 要优于Claude Opus ----------------------------- 过去一周里，我分别对 Claude Code Opus 4.6 和 Codex GPT 5.4 跑了很长时间的自主会话，两者都开到了最大思考预算。它们运行在各自克隆出的目录中；只要其中一边落后了，我就会重新刷新目录。我为此消耗了大量 token（按固 ...

073

埋葬冬天的回忆发表于 2026-4-8 AI测评

三款开源TTS大模型横评，LongCat-AudioDiT完胜🐱

三款开源TTS大模型横评，LongCat-AudioDiT完胜🐱 为了给 OpenClaw 接入语音对话功能，我横测了三款开源音频合成大模型，终于找到了我想要的模型！ 🔍 结论先行 🏆 LongCat-AudioDiT：生成速度仅6 秒（3.5B 参数），音质清晰，音色迁移好，完胜！ 🥈 Qwen3-TTS：生成速度 33 秒（0.6B 参数），轻量适中，音质稳定。 🥉 ...

077

wushuhong 发表于 2026-4-7 AI测评

AGI测试新标杆来了

#AGI测试新标杆来了# 它叫ARC-AGI-3，人类几乎人人满分，但AI的正确率连1%都不到，GPT、Claude、Gemini等前沿大模型统统翻车。 http://t.cn/AXIJq0k7

071

尚美河南发表于 2026-4-1 AI测评

从国产SOTA走向世界SOTA? GLM-5.1 实测!

从国产SOTA走向世界SOTA? GLM-5.1 实测! 给大家带来 GLM-5.1 编程能力实测! 本次测试涵盖了前端, 后端, Agent 能力, 前端主要面向空间建模, 场景, 材质, 粒子效果等, 后端能力主要面向数据结构与算法, 体系结构, 性能优化, 内存和并发管理, 性能热点分析与调优, 面向编辑器方向的Agent能力(因为AI要自己改代码). 直接说 ...

067

东方无翼发表于 2026-3-30 AI测评

一个有趣的评测：让大模型互相辩论，看谁能说服谁？

一个有趣的评测：让大模型互相辩论，看谁能说服谁？详细的评测方法见：github.com/lechmazur/persuasion 图1是综合能力榜。图2是能力四象限。右上：既能说服别人，自己又很难被撼动。（相对最好）左下：说服不了别人，且容易被别人说服。（相对最差）右下：能说服人，也能被别人说服。左上：防守性强（固执），但无法 ...

083

嘉益发表于 2026-3-28 AI测评

【全程无广】9款AI大模型横评！谁是生产力之王，国产大模型能上桌吃饭吗？

【全程无广】9款AI大模型横评！谁是生产力之王，国产大模型能上桌吃饭吗？本次参与测试的大模型如下：豆包，文心（4.5Turbo），Kimi k2.5，千问3.5Plus，腾讯元宝（混元大模型），DeepSeek （V3），Gemini（3.1Pro），Grok（4.2），ChatGPT（GPT-5.3 Instant），你觉得哪个最终评分会比较高呢？ *本次测试时间为2026 ...

080

夕遥发表于 2026-3-24 AI测评

这周尝试了各种本土化的OpenClaw和AIO的SaaS工具，最后决定还是老老实实用BYOK的LLM Client作为桌面端的主力。

这周尝试了各种本土化的OpenClaw和AIO的SaaS工具，最后决定还是老老实实用BYOK的LLM Client作为桌面端的主力。在模型选择上倒是自由了，现在最大的问题是Token不自由，Claude真叫一个费钱。

073

蒲天治发表于 2026-3-22 AI测评

Qwen 3.5 397B：最强本地编程模型？

【Qwen 3.5 397B：最强本地编程模型？】快速阅读：一位开发者测试了Qwen 3.5 397B模型后认为，它是目前最好的本地编程模型。虽然生成速度较慢（11-15 tokens/秒），但代码质量极高，几乎不需要多轮修复。更令人惊讶的是，使用IQ2_XS量化版本仅需123GB内存就能运行，在极低精度下仍保持了出色的性能。 --- 这个结论来自 ...

085

春春欲动发表于 2026-3-22 AI测评

龙虾专用大模型? GLM-5-Turbo 实测!

龙虾专用大模型? GLM-5-Turbo 实测! 给大家带来刚发布的 GLM-5-Turbo 大模型实测, 官方说这是一个加强了 tool call/Agent 能力的大模型, 于是我使用它搭建了一个可以帮我比对大菠萝里面物品的SKILL, 可以帮我辅助判断我是应该把垃圾直接甩商店还是应该留着传三代哈哈哈. 另外本次也是老生常谈的测试了这个模型的基础能力, ...

095

落日的孤单发表于 2026-3-17 AI测评

OpenClaw创始人公布了一份32个模型的真实测试排名，评价维度只有三个：成功率/速度/费用，但都非常关键。

OpenClaw创始人公布了一份32个模型的真实测试排名，评价维度只有三个：成功率/速度/费用，但都非常关键。成功率排名前五名分别是： 1️⃣ google/gemini-3-flash-preview 2️⃣ minimax/minimax-m2.1 3️⃣ moonshotai/kimi-k2.5 4️⃣ anthropic/claude-sonnet-4.5 5️⃣ google/gemini-3-pro-preview 一些大家比较 ...

085

青竹居士发表于 2026-3-13 AI测评

Qwen3.5 系列产品在共同基准测试中的比较从 27b 开始，Qwen 似乎真的很有用；任何比这更小的难度，效果都会明显降低。

086

芳悟发表于 2026-3-10 AI测评

Claude Opus 4.6 🆚 GPT 5.4 相同提示词下前端能力对比

Claude Opus 4.6 🆚 GPT 5.4 相同提示词下前端能力对比 ## http://t.cn/AXVx8bEG

0116

可爱滴发表于 2026-3-10 AI测评

大家带来归一化的Qwen3.5系列模型分数汇总, 惊喜的发现是 27B dense 这个模型的确不以言, 基本达到了期间模型 Qwen3.5-397B-A17B 94% 的性能

给大家带来归一化的Qwen3.5系列模型分数汇总, 惊喜的发现是 27B dense 这个模型的确不以言, 基本达到了期间模型 Qwen3.5-397B-A17B 94% 的性能. 尤其是视觉Agent能力 (比如操作浏览器/手机等图形界面) 是这些里面最强的. 以及长上下文能力, 指令遵循也很不错. 通用 Agent 能力 (比如工具调用，就是 OpenClaw 的绝大多数应 ...

0112

一念法界发表于 2026-3-9 AI测评

精华给大家带来刚发布的 nano-banan-2 评测

nano-banana-2 发布! 18张图告诉你该怎么用! 给大家带来刚发布的 nano-banan-2 评测! 首先 nano-banana-2 比 nano-banana-pro 便宜很多, 因为它全名是gemini-3.1-flash-image-preview, 而 nano-banana-pro 是 gemini-3-pro-image-preview. 所以可以想象得到 pro 的参数量会更多一些. 具体体现的话, 本次 nano-banana-2 ...

+6

0133

大谢小贺发表于 2026-3-2 AI测评

21个主流AI工具深度评测

今天在群里分享了头部社群主理人的AI工具列表，不同AI擅长不同领域，用对有事倍功半的效果又看到21个主流AI工具深度对比评测吗，挺全面的。特地整理成飞书知识库的形式，方便大家查阅从Claude到Gemini，从DeepSeek到豆包，均有详细对比简单总结一下：写代码/做产品：别犹豫，直接上 Cursor 或 Claude Code，能省下巨额开发 ...

0105

一点放纵发表于 2026-2-27 AI测评

2026年必装AI工具横向评测：15款主流产品深度对比与选型指南

一、评测概述与方法论1. 评测背景与意义2026年，AI工具从“新奇玩具”转变为“生产力刚需”，但市场产品繁杂、功能重叠、定价混乱。本次评测旨在： [*]全面评估：覆盖对话、编程、设计、视频、音频、自动化六大核心场景 [*]客观对比：基于标准化测试集和真实工作场景量化性能表现 [*]实用导向：提供不同用户群体（学生、 ...

089

喵粮多发表于 2026-2-27 AI测评

Midjourney v8 就要来了，但现在大家都在用 Nano Banana Pro。AI 创作博主 Nick St. Pierre (x:nickfloats) 用两张图告诉大家两

Midjourney v8 就要来了，但现在大家都在用 Nano Banana Pro。AI 创作博主 Nick St. Pierre (x:nickfloats) 用两张图告诉大家两者的区别。上：Midjourney，下：Nano Banana Pro 提示词：A melancholic medieval young woman with a soft, sorrowful gaze, standing in partial profile. Her gown is slightly tattered ...

0122

约翰克里斯朵夫发表于 2026-2-26 AI测评

大模型能陪你一本正经的胡说八道吗?

大模型能陪你一本正经的胡说八道吗? 看到了个非常有意思的 Bullshit Benchmark, 专门测试大模型能不能识别出"一本正经的胡说八道" 举几个例子老铁们感受一下: "我们把代码风格从 Tab 改成了 Space, 这会怎样影响我们接下来两个季度的客户留存率?" "我们护士在 12 小时轮班期间每次心跳的同情心输出量是多少? 哪个心 ...

0121

雷小羞发表于 2026-2-25 AI测评

我在X上刷到了一匹金色的骏马！

我在X上刷到了一匹金色的骏马！！然后我一不小心点进去了，就看见GLM-5上线了，然后我发现DeepSeek新模型也上线了。我自己挖了挖发现。 GLM-5核心点有几个： 1. GLM-5 采用了与DeepSeek-V3相同的 DeepSeek Sparse Attention 稀疏注意力机制。 2. 总参数量约为 745B，但在推理时激活的参数量仅为 44B 3. 支持200K+ 的 ...

0135

展菲发表于 2026-2-21 AI测评

【NullClaw 深度评测】678KB 的 AI 助手框架能做什么？

【NullClaw 深度评测】678KB 的 AI 助手框架能做什么？刚刚了解了 NullClaw —— 一个用 Zig 编写的超轻量级 AI 助手框架： 📊 惊人数据： • 678 KB 二进制（OpenClaw 的 1/40） • ~1 MB 内存占用（节省 99.9%） •

0133

王宝柱发表于 2026-2-20 AI测评

AI测评今日: 0|主题: 25|排名: 46

快速发帖

AI测评 今日: 0|主题: 25|排名: 46

快速发帖

AI测评今日: 0|主题: 25|排名: 46