AI视野:OpenAI公布Sora技术报告;Meta首发AI视频模型V-JEPA;ComfyUI发布最新3D Pack;Nomic AI 发布首个完全开源的长文本嵌入模型
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
📰🤖📢AI新鲜事
OpenAI公布Sora技术报告:模拟世界、视频扩展等,强的离谱!
【AiBase提要:】
⭐️ Sora可以模拟物理世界中的人、动物和环境
⭐️ Sora具备无缝视频剪辑连接功能
⭐️ Sora可以生成不同大小、高分辨率的图像
报告地址:
https://openai.com/research/video-generation-models-as-world-simulators
Reddit与AI公司达成协议 内容支付“开采”AI培训数据
【AiBase提要:】
⭐️ 签署内容许可协议,价值6000万美元
⭐️ Reddit成为AI企业高质量训练数据来源
⭐️ 预计AI内容支付将提升Reddit整体估值
谷歌 Gemini1.5Pro 称 OpenAI Sora 生成的视频是假的
【AiBase提要:】
🤖 谷歌的新技术Gemini1.5Pro质疑Sora生成的视频真实性。
🌸 OpenAI的Sora是新文本转视频工具,展现复杂场景和角色。
💥 Gemini1.5Pro对视频不一致处提出质疑,怀疑其真实性。
AI视频之战升级:Runway、Stability积极应对OpenAI的Sora
【AiBase提要:】
⭐ Runway首席执行官回应OpenAI Sora,拉开视频AI竞赛序幕
⭐ 视频AI领域竞争激烈,Runway、Google、Stability AI推出新模型
⭐ Runway推出新功能,Sora功能和局限性尚不明确
魅族 All in AI 将停止传统「智能手机」新项目
【AiBase提要:】
⭐️ 魅族决定全力投入AI领域
⭐️ 魅族发布AI战略规划
⭐️ 魅族计划完成All in AI愿景
🤖📱💼AI应用
Meta首发AI视频模型V-JEPA 可用人类的理解方式看世界
【AiBase提要:】
⭐️ V-JEPA是非生成式模型,以人类的方式看世界。
⭐️ 自监督学习方法提高效率,适用于多任务。
⭐️ 利用抽象表示空间预测视频中缺失部分。
项目介绍网址:
https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
阿里开源万能图片生成工作台SCEPTER Studio 一键搞定AI绘图模型训练到推理
【AiBase提要:】
⭐ 不需代码,通过Web界面训练与微调模型
⭐ SCEPTER支持多种模型和微调方式
⭐ 提供多种训练数据和推理任务支持
传送门:https://github.com/modelscope/scepter
ComfyUI发布最新3D Pack 可快速将图片转换为3D模型
【AiBase提要:】
🌟 可快速将图片转换为3D模型
🌟 支持多种先进算法和多种格式导出
🌟 提供工具和工作流,使用户能够轻松处理和优化3D图像
产品入口:https://top.aibase.com/tool/comfyui-3d-pack
FaceFusion换脸软件更新至2.3.0版本
【AiBase提要:】
⭐️ 新版本采用了先进的68点面部标记模型
⭐️ 处理面部边缘情况更为有效
⭐️ 算法优化,提高面部交换效果
项目地址:https://top.aibase.com/tool/facefusion
谷歌推具备空间推理能力的视觉语言模型SpatialVLM
【AiBase提要:】
⭐ 视觉语言模型缺乏空间推理能力
⭐ 借鉴人类空间推理能力
⭐ 创新框架设计大规模空间VQA数据集
项目地址:https://top.aibase.com/tool/spatialvlm
Nomic AI 发布首个完全开源的长文本嵌入模型nomicembed-text-v1
【AiBase提要:】
⭐ Nomic AI发布完全开源的nomicembed-text-v1长文本嵌入模型
⭐ 该模型序列长度达8192,在短文本和长文本评估中表现优异
⭐ 模型开发过程强调审计性和可复制性,为AI社区树立新标准
项目入口:https://top.aibase.com/tool/contrastors
离开OpenAI待业的Karpathy推出大模型新项目minbpe
【AiBase提要:】
⭐ GitHub标星量一天内达到1.2k
⭐ minbpe项目为LLM中的BPE算法提供清晰代码
⭐ minbpe项目提供两个Tokenizer,实现训练和编码解码功能
项目地址:https://top.aibase.com/tool/minbpe
Spotify将推出人工智能驱动技术的“DJ”功能
Spotify正在全球数十个市场扩展其由人工智能驱动的“DJ”功能,此前该功能在北美地区推出已有六个月。通过Spotify移动应用程序中的“音乐”订阅部分提供,DJ通过精选的音乐选择个性化用户的听歌体验,其中包括由合成音声提供的口述评论。评论内容包括轻松幽默的谈话和上下文信息,涉及到用户之前听过的特定歌曲和艺术家。是的,这有点像为每个个体量身定制节目的广播DJ。站长网2023-08-09 17:18:250000Meta全新纯C++分割引擎SAM.cpp 支持图像、视频等精细分割
Meta公司最新研发的SAM.cpp项目现已在GitHub仓库中开源。这是一项运行于纯C环境下的分割技术,其底层驱动是GGML。SAM.cpp能够实现Meta上的任何内容的精细分割,不论是图像、视频,还是复杂的3D模型,都能够轻松应对。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2023-09-07 11:35:510000英伟达出品!文生图模型TrailBlazer:利用边界框控制视频对象轨迹
划重点:🔍该论文介绍了一种使用边界框来引导视频合成的方法,实现了视频的可控性。🔍通过简单的边界框引导,可以实现对视频中物体轨迹和外观的控制。🔍TrailBlazer算法基于预训练模型,无需进一步训练、微调或在线优化。站长网2024-01-05 15:02:510000东京大学开发仿人机器人Alter3 能执行ChatGPT指令
Alter3是由日本东京大学开发的一种仿人机器人。研究人员通过将Alter3与GPT-4相连接,成功实现了让机器人模仿人类行为的目标。为了让机器人执行各种动作,研究人员向Alter3发送了一系列的指令。通过使用大型语言模型,这些书面指令被转化为机器人可以执行的代码。这样一来,Alter3就能够像人类一样弹奏吉他、自拍、扮演鬼魂角色,甚至偷吃电影院里别人的爆米花。站长网2024-01-05 10:46:100001比亚迪9月各车型销量出炉:宋家族破6万 秦家族、海鸥破4万
快科技10月3日消息,比亚迪公布了9月新能源汽车销量:287454辆创历史新高今年已突破200万辆。当月累计销售286903辆,同比增长42.8%当月EV车型151193辆,DM型135710辆9月比亚迪乘用车海外出口28039辆9月合资品牌腾势汽车共交付13156辆以下是各车型具体销量数据:9月王朝网销售133806辆秦销售45072辆汉销售22794辆唐销售10409辆站长网2023-10-03 09:23:070000