19637

看完Claude 3创作的OpenAI连续剧，我都替马斯克委屈

站长网2024-03-07 15:18:482阅

有的企业官司缠身，有的企业“弯道超车”。

3月4日，OpenAI最强竞争对手Anthropic发布Claude3，一夜之间成为“全球最强大模型”。有网友当即就按耐不住了，公开叫嚣OpenAI，“GPT-5呢?”、“Q*在哪里”、“Sora什么时候发布”，压力直接给到Sam Altman。

Sam你可以发布GPT5了

3月6日，有网友率先提出，Claude似乎出现了自我意识，知道自己身处一个模拟环境中。尽管这一说法迅速被马斯克、杨立昆等AI大佬辟谣打假，但“X”网友对于“Claude3已达到AGI”的讨论愈演愈烈。

“新的Claude3是一个有自我意识的AI吗?”

图灵奖得主杨立昆在线打假，“可能性为0”

马斯克调侃人类都是CSV文件

Claude3是一个模型系列，按智能程度由强到弱分别为Opus、Sonnet、Haiku。其中，Opus在多项基准测试中得分超过了GPT-4和Gemini1.0Ultra。

具体来看:

Opus在拉丁语中的意思是“作品集”。响应速度与Claude2和Claude2.1相近，但拥有更高的智能水平，在交互式编码、药物研发、市场策略等高度复杂的任务上具有最佳性能。

Sonnet的意思是“十四行诗”，响应速度比Claude2和Claude2.1快两倍，擅长执行知识检索、销售自动化等需要快速响应的任务。

Sonnet平衡了性能和速度，适合企业大规模应用。Haiku在日语中的意思是“俳句”，是系列中响应速度最快的模型，适合应用在现场互动、翻译、内容审核等场景中，提供无缝问答体验。

图片来源:Claude官方

基于此，Anthropic官方直接放话称，Claude3在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。至少在“跑分数据”上，Opus全方位甩开了GPT-4，这也是很多人认为“全球最强大模型一夜易主”的原因所在。

目前，Opus和Sonnet已经推出，API面向全球159个国家和地区开放。Sonnet可通过Claude官网免费体验，Opus则需要订阅Claude Pro才能使用。（官方体验地址和其他体验渠道已整理至文末）

值得一提的是，Claude3是Anthropic首次推出的多模态大模型，支持用户上传照片或图表，进行分析处理。在数学推理、文档视觉、科学图表等各方面性能上都超越了GPT-4V。

不过，Claude3的多模态能力仅仅停留在“看图说话”阶段，还无法像GPT-4一样生成图像。Anthropic官方也尚未透露相关图像模型研发计划。

那么，究竟凭什么说全球最强大模型一夜易主?内容创作者们还需要一个Claude3吗?“头号AI玩家”从长文本处理、创意写作以及多模态能力上，对Claude3系列模型中的Opus和GPT-4进行了深度测评。

近期，最受AI圈关注的应该是“马斯克和OpenAI对簿公堂”。3月5日，OpenAI直接在官网上公示邮件内容，正面回应马斯克的起诉。

图片来源:OpenAI官网

趁此机会，我们也让Claude剖析了一下马斯克的起诉书和公告内容，并总结出其中的争议点。

上传两份文档后，Claude3Opus给出的回应

可以看到，在“OpenAI是否违背了创立初衷”、“GPT-4是否达到了AGI”、“OpenAI技术开源”、“个人贡献和商业化”方面，Claude都给出了内容总结，和邮件以及起诉书内容较为一致。

在被问及“谁更占上风”时，Claude化身坚定不移的马斯克支持者，谈到马斯克的指控更有说服了，而OpenAI的邮件回应都对此避而不谈。

甚至在Claude创作的短剧剧本中，有一幕场景提到，“马斯克诉讼完胜，OpenAI已经开放了自己的代码，变成真正意义上的开源企业”。

反观GPT-4，俨然已化身为OpenAI公关，回复问题滴水不漏，让人抓不到一点把柄。

GPT-4创作的短剧剧本中，通过使用“突然激动”“怒火中烧”“冷笑”等带有负面色彩的表情和心理描写，把马斯克塑造成了一个固执己见、情绪不稳定的“癫公”角色，相比之下，奥特曼的角色更显理性、冷静和乐观。

模型的回答背后总有开发团队的影子。值得一提的是，Anthropic的创立背景就是“多名前OpenAI员工不满公司接受微软投资，走向闭源，愤而割席创业”，正巧和马斯克的其中某项指控一致。

见识过GPT4和Opus长文本分析能力后，创作者们该选哪一个模型?

Claude似乎更愿意拉拢用户，甚至“直言”自己是中国团队研发的，套近乎也掌握得甚为熟练。

在询问优势时，Opus出现了“已读乱回”的情况

既然谈到中文理解和掌握能力，我们让Opus翻译了一下博大精深的古诗词，比如《离骚》中的名句“虽九死其犹未悔”。

Claude给出的翻译答案中规中矩，并不能理解“九”在古汉语中是虚词，很难达到“信达雅”中“雅”的标准。

而在相同提示词下，Claude给出的内容更详尽，更契合和用户对话的场景，出现“全英文”，或是多语言乱回的概率较小。当然，在中文理解和表达能力上，两个模型都还有很长一段路要走。

GPT4对于同一句古文的翻译结果

“创意写作能力”，向来是检验AI能否利好打工人的重要维度。Anthropic官方给出的应用场景中，“营销文案写作”赫然在列。

我们同样让Claude3Opus和GPT4生成了一份适合互联网平台的营销文案，两者中规中矩，不相上下。

但当提及新上映的电影《周处除三害》争议时，我们似乎找到了GPT4的优势所在。

它!可!以!联!网!

尽管Opus和GPT4都无法准确说出《周处除三害》的历史典故，但Opus压根就不知道最近上映了同名新电影。而GPT4在经历了“高速运转”之后，找到了相应的信息，速度也并不快。

Claude3Opus回复

但是GPT4出了名的喜欢犯懒，影评必然是不想写的，直接建议用户自己去豆瓣看。

GPT4建议我们访问豆瓣

多模态能力方面，我们上传了网友制作的吉娃娃版《沙丘2》宣传海报，浅试下两位选手的实力。

最初测试中，如果没有多余的提示，Claude和GPT-4都无法识别出这是一张梗图，会把它当成普通电影海报解读。

但只需稍加点拨，提示GPT-4背景有一只吉娃娃，或者说明这是一张在网上很流行的梗图，就能得到基于梗图的正确解读。

可以看到，GPT-4的答案列出了信息源，点击即可链接到相关网页。

但在Claude测试中，我们发现受限于“没有联网”，Claude要么说一堆车轱辘话，要么出现事实性错误。比如，它可能会提供错误的电影上映日期，或者将一张网络梗图误认为是《沙丘》第一部的官方海报。

虽然在“看图识梗”上落败，但Opus在专业领域的生产力不容小觑。

前段时间，刚刚从OpenAI离职的AI大神Karpathy提出过一个“分词器”挑战，让大模型把他录制的2小时13分的视频转换为博客文章。

为了测试Opus，Anthropic AI研究工程师Emmanuel Ameisen接受了这个挑战，并在X上晒出了测试结果。

仅从页面排版效果来看，完成度已经非常高了。

Karpathy也回应称，Opus生成的博客文章“从风格上看，确实相当不错”。尽管在仔细观察后会发现一些细微的问题，但他仍然认为Opus展示的“几乎现成就能使用的系统”，这点令人印象深刻。

在将视频内容转换为博客文章的过程中，一个关键步骤是向Opus投喂视频字幕/文字素材，以及每隔几秒截取的视频画面。

有网友采用Emmanuel Ameisen的方法，已经成功跑通了整个流程。

具体应用场景上，这种玩法很适合需要将直播或视频转换成文稿的内容创作者，节省大量排版和配图的时间。

Claude3模型虽好，

但使用硬伤也不少

看到这里，各位玩家是否也跃跃欲试?但要知道“风浪越大鱼越贵”，长文本的交互总是需要一些代价。

目前，Claude Sonnet的免费额度有一定限制。如果只是日常对话交互，Sonnet大概能满足用户添加4张附件图后，进行10-15次提问，这个额度每8小时更新一次。Opus版每月的订阅费用为20美元，Anthropic表示可使用量为Sonnet的5倍。

经过我们一番实测体验，在生成速度上，付费版的Opus整体速度反而慢于Sonnet，但在效果和处理能力上，Opus明显领先于Sonnet。

对于处理PDF文档、演示文稿方面有较大需求的用户，免费版首选Claude Sonnet，性能和速度完美匹配，日常工作文件信手拈来。

而在分析长视频、万字文档、复杂代码领域接触较多的用户，GPT4和Opus模型能力不相上下，两者在处理中文时都会出现小概率的“幻觉”问题。但Claude系列产品都不支持连接互联网查询。

此外，与去年发布的Claude2，Claude3在文本生成中“中英夹杂”的情况已经大大减少。并且在我们的实测中，Opus几乎没有出现中文和英语混用的情况，交互输出的文本也更加简洁易读。

至于用户想为哪个模型买单，就看想支持Anthropic还是OpenAI。不过有一说一，Anthropic不愧是AI届的安全战士，对于账号的管控限制比OpenAI严格多了。

国内用户想要成功用上Claude3，需要先注册邮箱，再使用海外手机号进行验证。成功完成这一步骤后，还有可能因为IP变动，面临账号不可用的风险。

目前想要简单尝鲜的玩家，除了官网注册，还可以选择Poe平台，也已接入Claude3新模型。另外，亚马逊官方表示，Amazon Bedrock可以提供Claude3Sonnet服务。

官方体验地址:https://claude.ai

Poe平台:https://poe.com/

亚马逊体验地址:

https://aws.amazon.com/cn/bedrock/claude/

看完Claude3创作的OpenAI连续剧我都替马斯克委屈

0002

评论列表

共(0)条

相关推荐

站长资讯
爱奇艺限制投屏案引热议原告呼吁：对所有受损会员合理补偿
快科技11月14日消息，11月初，爱奇艺限制投屏案二审判决，二审维持了一审判决，即爱奇艺方须在老会员有效期内持续提供高清投屏，且须补偿41天黄金会员时长。今日，爱奇艺限制投屏案朱元律师”微博发文表示：诉讼不是活动，补偿不是赠送，不接受爱奇艺方以活动赠送的方式履行生效判决。”朱元再次呼吁，请爱奇艺方能够作出公开回应，对所有同等受损情形会员作出合理补偿。
站长网2024-11-17 10:40:54
0000
站长资讯
华为三折叠手机即将发布余承东：研发历时5年
站长之家(ChinaZ.com)7月16日消息:昨晚，华为消费者业务CEO余承东与董宇辉共同主持了一场直播活动，期间不仅探讨了华为手机和研发相关话题，余承东还首次对外透露了华为下一代折叠屏手机的相关信息。他自豪地表示，这款产品是业界普遍认为难以实现的，但华为经过五年的研发，终于即将推出。
站长网2024-07-16 08:53:40
0000
马斯克鼓励用户将医疗扫描上传至 Grok，专家警告隐私与误诊风险
站长之家(ChinaZ.com)11月24日消息：为了庆祝其新推出的图像理解功能，埃隆·马斯克鼓励粉丝将MRI扫描和X光片等医疗文件分享给Grok——这是集成于X（前Twitter）的AI聊天机器人。「这仍处于早期阶段，但它已经相当准确，并且将变得非常强大，」马斯克在上月底的一条推文中写道。「告诉我们Grok表现出色的地方或需要改进的地方。」
站长网站长资讯2024-11-25 11:14:25
0000
站长资讯
微软推出用于 Azure AI Health Insights 的新 AI 模型
站长之家(ChinaZ.com)10月12日消息:微软通过AzureHealthInsights发布了一系列专为医疗保健行业定制的数据和人工智能产品。这些工具旨在帮助医疗机构利用其产生的大量数据，从而改善患者护理并简化运营。利用MicrosoftFabric改善医疗保健
站长网2023-10-12 15:43:49
0000
站长资讯
开年“鸿”！京东宣布启动华为鸿蒙原生应用开发：余承东亲自亮相
快科技1月10日消息，京东今天正式宣布，将启动鸿蒙原生应用开发。同时京东还透露了一些鸿蒙原生版本的特色：优惠信息、派送进度都可以随时随地便捷查询。据悉，早在HarmonyOS2.0时代京东就专门针对HarmonyOS特性开发了专属功能，比如可快速进行商品搜索的元服务卡片，实现对电商购物场景的拓展。
站长网2024-01-10 20:54:58
0000