每日AI快讯热闻

AI 快讯 3个月前 ai6

0 0

AI工具集每个工作日实时更新AI行业的最新资讯、新闻、热点、融资、产品动态、爆料等，让你随时了解人工智能领域最新趋势、更新突破和热门大事件。加入AI工具集官方社群，获取最新一手信息！

2月6日·周四

OpenAI 放大招：ChatGPT 搜索功能无需注册人人可用，分钟级别解析全网信息

OpenAI 宣布 ChatGPT 搜索功能无需登录账户即可使用，用户可直接获取基于实时网络信息生成的答案，查看信息来源清单。与传统搜索引擎相比，ChatGPT 搜索可实现分钟级解析网络信息，能查看地图和本地景点图片，结果更具可信度和实用性。来源：IT之家

谷歌发布Gemini 2.0 Pro，全型号刷榜，原生多模态，编程、物理模拟能力炸裂

谷歌发布 Gemini 2.0 系列模型，包括 Gemini 2.0 Pro、2.0 Flash 和 2.0 Flash-Lite。2.0 Pro 是谷歌最强的编码和复杂提示处理模型，配备 200 万 token 上下文窗口，支持谷歌搜索和代码执行工具。2.0 Flash 是高效主力模型，支持 100 万 token 上下文和多模态输入，适合高容量任务。2.0 Flash-Lite 是最具性价比的模型，性能优于前代 1.5 Flash，成本更低。来源：Founder Park

前追觅中国区执行总裁郭人杰创业，「乐享科技」宣布完成近2亿元天使轮融资

前追觅中国区执行总裁郭人杰创立的「乐享科技」宣布完成近 2 亿元人民币的天使轮融资，由 IDG 资本领投，Monolith、经纬创投、真格基金等跟投，投后估值约 6 亿元。乐享科技成立于 2024 年，定位为全球科技公司，专注于 AI + 消费硬件市场，首款面向家庭场景的产品正在研发中。来源：36氪

字节跳动推出 OmniHuman 多模态框架：图片+音频 = 逼真动画

字节跳动提出OmniHuman，基于扩散变换器的高保真人类视频生成框架。模型通过单阶段的音频和姿态驱动，能生成高质量的人类视频内容。支持文本、音频、姿态等多种输入信号，可生成从面部特写到全身的各种视频，适应不同风格。来源：AI工具集

训练成本不到 50 美元，研究人员打造出媲美 OpenAI o1 的推理模型

斯坦福大学和华盛顿大学的研究人员仅花费不到50美元的云计算费用，训练出s1人工智能推理模型。模型在数学和编程能力测试中表现与OpenAI的o1和DeepSeek的r1等顶尖模型相当。s1通过“蒸馏”技术从谷歌的Gemini 2.0 Flash Thinking Experimental模型中提取推理能力，使用监督微调方法，耗时不到30分钟。来源：AI工具集

2月5日·周三

一场关于DeepSeek的高质量闭门会：比技术更重要的是愿景

拾象创始人李广密组织了一场关于DeepSeek的闭门讨论会，数十位顶尖AI研究员、投资人与从业者参与。会议探讨了DeepSeek的技术细节、组织文化及其影响。DeepSeek凭借高效的资源利用和对智能的专注，展现出强大的技术实力。创始人梁文锋注重技术与智能的推进，而非商业化。来源：腾讯科技

5人创业国产AI搜索火了，小红书Reddit都在推！比Perplexity留存更高

国产AI搜索工具 Hika AI 仅5人团队打造，上线不到1个月，在获取用户注意力方面已超越Perplexity等竞争对手。Hika AI 提供免费的知识获取引擎，核心特点是按段落分割回答，支持用户对感兴趣的部分深入提问，提供图表化的总结表和思维导图。来源：AI工具集

Adobe Acrobat AI 助手新增合同理解与比对功能，月费 5 美元

Adobe Acrobat AI 助手新增合同理解与比对功能，月费 5 美元（约 36.4 元人民币）。可帮助用户理解复杂合同条款，自动发现不同合同之间的差异，例如新旧合同的变化。Acrobat 应用能自动识别合同文档，提取关键条款，生成摘要，推荐可能的问题。可同时比较多达 10 份合同。来源：AI工具集

SB OpenAI Japan成立！2025年首个最火AI赛道开打

OpenAI在日本宣布成立合资公司 SB OpenAI Japan，与软银合作，专注于开发和销售新型高级企业AI——“水晶智能（Cristal intelligence）”。合作为日本企业提供定制化的AI解决方案，推动企业工作流程自动化和效率提升。来源：智东西

华为小艺助手接入 DeepSeek，升级纯血鸿蒙 HarmonyOS NEXT 即可体验

华为小艺助手接入 DeepSeek，升级至 HarmonyOS NEXT 后即可体验。小艺助手的智能体广场已上线 DeepSeek-R1 Beta 版，升级小艺助手至 11.2.10.310 版本及以上，可在“发现”栏找到智能体广场，与 DeepSeek 进行对话。来源：IT之家

Figure AI与OpenAI“分手”，人形机器人公司与大模型公司重新划定边界

人形机器人公司Figure AI与OpenAI终止合作。Figure AI创始人Brett Adcock表示，公司自主研发的端到端机器人AI取得重大突破，未来30天内将展示新成果。Figure AI与OpenAI合作始于去年初，曾发布多条展示机器人视觉、对话及灵活操作能力的视频。来源：第一财经

Ai2推出开源模型Tülu 3 405B，性能超越DeepSeek V3与GPT-4o

美国艾伦人工智能研究所（Ai2）推出新一代开源模型Tülu 3 405B，基于强化学习技术，在多项基准测试中超越了DeepSeek v3和GPT-4o。Tülu 3系列模型基于Llama 3 Base，通过四阶段后训练方法优化，包括精心策划的提示词、监督微调、偏好微调和强化学习。训练数据、代码和方法完全开源。来源：AI工具集

2月3日·周一

OpenAI 推出 Deep Research 深度研究功能，助力复杂任务高效解决

OpenAI发布ChatGPT的Deep Research功能。通过多步骤推理和互联网信息综合，可在数十分钟内完成复杂的研究任务。Deep Research基于o3模型，针对网页浏览和数据分析进行了优化。能生成专家级的研究报告，适用于金融、科学、政策和工程等领域的知识密集型工作。来源：AI工具集

秘塔AI接入满血版DeepSeek R1推理模型

秘塔AI宣布接入DeepSeek R1推理模型的满血版。模型结合了秘塔数十亿的全网数据和数千万学术文献，能处理复杂的推理问题，在结合知识和学术文献的推理任务中表现出色。秘塔AI的测试结果显示，R1模型在回答复杂问题时表现突出。来源：AI秘塔

OpenAI 更新 ChatGPT Canvas 工具：上线 o1 模型、支持渲染 HTML / React 代码

OpenAI更新ChatGPT Canvas写作工具，新增了o1模型支持，扩展了代码渲染功能，支持HTML和React代码。Canvas是ChatGPT中的写作与编码工具，用户可以在右侧输入文本，左侧基于模型调整文本长度或联想上下文。订阅了ChatGPT Pro、Plus、Team会员的用户可以使用o1模型，HTML和React代码渲染功能对所有用户开放。来源：IT之家

2月1日·周六

OpenAI发布新的推理模型o3-mini，性能提升 24%

OpenAI发布新的推理模型o3-mini，是推理系列中最具成本效益的模型。o3-mini在科学、数学和编程等STEM领域表现出色，保持低延迟和低成本。支持函数调用、结构化输出和开发者消息等高级功能，提供低、中、高三档推理强度供开发者选择。与搜索功能集成，为用户提供最新答案及链接。来源：AI工具集

阿里云通义千问旗舰版模型Qwen2.5-Max全新升级发布

阿里云通义千问推出旗舰版模型Qwen2.5-Max。是MoE模型的最新探索成果，预训练数据超20万亿tokens，在知识、编程、综合能力等主流权威基准测试中表现卓越，全面超越全球领先的开源MoE模型及最大开源稠密模型。来源：AI工具集

DeepSeek推出人人可用的开源视觉多模态AI模型Janus-Pro

DeepSeek发布开源多模态AI模型Janus-Pro，包含10亿和70亿参数规模。模型在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion。Janus-Pro基于DeepSeek-LLM构建，使用SigLIP-L作为视觉编码器，支持多模态理解和生成。来源：AI工具集

通义开源两大AI模型：支持理解长视频和捕捉事件等能力

通义开源两大AI模型：Qwen2.5-VL和Qwen2.5-1M。Qwen2.5-VL推出3B、7B和72B三个版本，全面超越GPT-4o与Claude3.5。模型支持超1小时的视频理解，无需微调即可操作手机和电脑完成复杂任务。Qwen2.5-1M推出7B和14B版本，处理长文本任务性能卓越，推理速度提升近7倍，首次将上下文扩展到1M长度。来源：通义

1月27日·周一

开源全模态模型Baichuan-Omni-1.5上线，多项能力跑赢GPT-4o mini

百川智能上线开源全模态模型Baichuan-Omni-1.5。模型支持文本、图像、音频和视频的全模态理解，具备文本和音频的双模态生成能力。在视觉、语音及多模态流式处理等方面，Baichuan-Omni-1.5的表现均优于GPT-4o mini，在多模态医疗应用领域优势突出。来源：百川大模型

可灵AI创意特效上线啦！好玩儿到停不下来！

可灵AI 上线创意特效功能，支持“快乐惹毛我”“捏捏乐”“万物膨胀”等特效，已上线可灵AI APP和Web端，一起创意发挥，尽情体验，好玩儿到停不下来。来源：AI工具集

中国电信发布“复杂推理大模型”TeleAI-t1-preview：能解《九章算术》题目

中国电信人工智能研究院发布“复杂推理大模型”TeleAI-t1-preview，即将上线天翼AI开放平台。模型采用强化学习训练方法，引入探索、反思等思考范式，提升逻辑推理和数学推导的准确性。在AIME 2024和MATH500评测中，分别以60分和93.8分的成绩大幅超越OpenAI o1-preview和GPT-4o等标杆模型。模型具备将形象思维与抽象思维结合的能力，能严谨地进行古今单位换算，有效解决复杂问题。来源：AI工具集

GLM-4V-Plus 大模型能理解长达2小时视频

GLM技术团队推出了GLM-4V-Plus-0111 beta版本，版本引入了原生可变分辨率等技术，显著提升模型对不同视频长度和分辨率的适应能力。新模型支持短视频的精细理解，能处理长达2小时的长视频，自动调整分辨率以平衡时间与空间信息捕捉。来源：AI工具集

扎克伯格持续建设“AI 帝国”：Meta 今年将投入最多 650 亿美元

Meta首席执行官马克・扎克伯格表示，公司今年计划投入最多650亿美元用于扩展AI基础设施，巩固其在与OpenAI和谷歌竞争中的地位。Meta将增加AI岗位的招聘，建设一座超过2吉瓦的数据中心。作为英伟达的主要客户之一，Meta计划在年底前拥有超过130万块图形处理器，在2025年实现约1吉瓦的计算能力。来源：IT之家

1月24日·周五

OpenAI正式发布智能体Operator！能推理、联网自主执行任务

OpenAI推出“Operator”AI代理，Operator依托Computer-Using Agent（CUA）模型，结合GPT-4o的视觉能力和强化学习推理能力，能自动完成多种在线任务，如预订餐厅、旅行规划、购物等。通过屏幕截图“感知”界面，通过虚拟键盘和鼠标操作网页。具备自我纠错能力，遇到敏感信息或复杂任务时会交由用户接管。来源：AI工具集

百川智能发布深度思考模型，同时具备语言、视觉和搜索三大领域推理能力

百川智能推出两款新模型：Baichuan-M1-preview是国内首个全场景深度思考模型，具备语言、视觉和搜索三大领域推理能力，在医疗循证模式下，能快速精准回答医疗问题，提供深度推理和个性化建议。小尺寸版本Baichuan-M1-14B是行业首个开源医疗增强大模型，医疗能力超越Qwen2.5-72B。来源：百川大模型

跃问App上新「创意板」功能，零代码实现应用与游戏创作

跃问App上线国内首个「创意板」功能，用户可通过简单指令生成应用、游戏等创意内容，无需代码知识。基于自研多模态大模型Step-1o系列。创意板支持生成海报、游戏、互动网页等，可分享至任意平台。来源：AI工具集

JetBrains发布AI编程Agent，助力开发者提升代码效率与质量

JetBrains推出全新的AI编程Agent——Junie，以插件形式支持IntelliJ IDEA Ultimate和PyCharm Professional，未来将扩展至WebStorm。Junie在SWE-Bench Verified基准测试中完成53.6%的任务，表现中等偏上。能与JetBrains IDE深度整合，生成代码、运行检查、编写测试并验证结果，显著提升开发效率和代码质量。来源：AI工具集

1月23日·周四

智谱GLM-PC开放体验：自主操作电脑的多模态Agent再升级

智谱推出电脑智能体GLM-PC，基于智谱CogAgent模型构建，能像人类一样“观察”和“操作”电脑，协助完成各类任务。新增“深度思考”模式、逻辑推理和代码生成功能，支持Windows系统。GLM-PC通过模拟人类左右脑分工，结合代码生成和图形界面理解，实现了逻辑推理与感知认知的深度结合。来源：AI工具集

字节跳动推出的开源原生 GUI 代理模型

字节跳动发布并开源了UI-TARS大模型，是专门用于操控电脑界面的视觉语言模型，具备感知、推理和操作能力。UI-TARS提供2B、7B和72B三种参数规模版本，支持跨平台操作，能通过自然语言指令完成鼠标点击、键盘输入等任务。在多个基准测试中，UI-TARS表现优于GPT-4和Claude。来源：AI工具集

Step-Video 开年震撼升级：更强大的真实世界模拟器来了

阶跃星辰推出视频生成模型 Step-Video V2版本。新版本在参数量、语义理解、指令遵循能力等方面大幅提升，支持复杂运动、人物美感、基础文字生成和多语言输入等功能。用户可通过跃问网页端申请试用。来源：阶跃星辰

Perplexity发布Sonar API，提供实时信息搜索功能

Perplexity发布Sonar API，提供实时信息搜索功能。Sonar API分为基础版和Pro版，基础版支持轻量级实时搜索和简单查询引用，Pro版则支持复杂多步骤任务、更大的上下文窗口和更丰富的引用。来源：AI工具集

谷歌 Gemini 2.0 Flash Thinking 强化版发布，登上 Chatbot Arena 榜首

谷歌发布Gemini 2.0 Flash Thinking推理模型的加强版，再次登顶Chatbot Arena排行榜。更新引入了1M长上下文处理能力，可对长篇文本进行更深入分析，减少模型思想与答案之间的矛盾。支持长上下文、多模态输入以及推理过程可视化，推理速度极快，在数学和科学能力测试中表现突出，数学成绩较前代提升54%。来源：AI工具集

字节启动 Seed Edge，加码 AGI 研究

字节跳动正式设立代号为“Seed Edge”的研究项目，专注于通用人工智能（AGI）的前沿研究。项目拟定五大研究方向，包括下一代推理、感知、软硬一体模型设计、新范式探索和Scaling方向研究。Seed Edge旨在探索AI的原创性创新，而非仅追随现有技术。字节跳动创始人张一鸣高度重视AI研究，鼓励团队探索基础课题。来源：晚点LatePost

1月22日·周三

豆包大模型1.5正式发布，全面上线火山方舟

字节跳动旗下火山引擎正式发布豆包大模型1.5 Pro。模型在知识、代码、推理、中文等多个权威测评基准上表现优异，综合得分超越GPT-4o、Claude 3.5 Sonnet等业界一流模型。此次更新还推出了豆包·视觉理解模型和实时语音模型，支持多模态数据合成、低时延语音对话等功能。来源：火山引擎

可灵AI重磅升级，「多图参考」功能上新

可灵 AI 重磅升级，「多图参考」功能全新上线，支持参考单个角色生成视频，不同角色之间的互动，支持上传4张参考图，可以是人物、物品、道具和场景。确保多个镜头中的人物或主体保持一致。与可灵一起制作富有创意的视频。来源：AI工具集

特朗普联合OpenAI启动5000亿美元“星际之门”AI项目，用于建设AI基础设施

特朗普与OpenAI CEO Sam Altman、软银CEO孙正义等在白宫宣布启动名为“星际之门”的人工智能项目。项目计划未来四年投资5000亿美元，在美国建设新的人工智能基础设施，首期投入1000亿美元。技术合作伙伴包括Arm、微软、英伟达等。推动通用人工智能（AGI）发展，创造数十万就业岗位。来源：机器之心

有道子曰-o1推理模型正式发布！消费级显卡即可部署

网易有道正式发布并开源国内首个输出分步式讲解的推理模型“子曰-o1”。作为14B轻量级单模型，子曰-o1支持在消费级显卡上部署，采用思维链技术，能提供细致的解题过程，具备强逻辑推理能力。子曰-o1已应用于“有道小P”，支持“先解析思路、再提供答案”的答疑模式，助力学生自主思考。来源：网易有道

1月21日·周二

清影2.0重磅更新，模型能力大幅提升

清影2.0重磅更新，AI视频生成能力大幅提升。新版本在模型结构、训练方法和数据工程上全面升级，图生视频基础模型能力提升38%，支持画面主体进行大幅度运动并保持稳定。指令遵从能力行业领先，可精准实现复杂提示词，涵盖写实、三维动画、二维动画及特殊艺术风格。已上线智谱清言，普通用户可免费用。来源：智谱

k1.5 新模型登场：Kimi 如何做到满血版多模态o1水平

月之暗面推出全新k1.5多模态思考模型。模型在多模态推理和通用推理能力上达到SOTA水平，在short-CoT模式下，数学、代码、视觉多模态能力大幅超越全球短思考SOTA模型，领先550%；在long-CoT模式下，达到OpenAI o1正式版水平，成为全球首个实现该性能的非OpenAI模型。来源：月之暗面 Kimi

DeepSeek-R1 发布，性能对标 OpenAI o1 正式版

深度求索发布DeepSeek-R1模型，并开源模型权重。DeepSeek-R1通过强化学习技术大幅提升推理能力，在数学、代码和自然语言推理等任务上性能对标OpenAI o1正式版。DeepSeek还开源了基于R1蒸馏的6个小模型，其中32B和70B模型性能比肩OpenAI o1-mini。DeepSeek-R1已上线API，可通过官网或App调用。来源：DeepSeek

小红书AI翻译功能上线，网友玩转Prompt，背后大模型引关注

小红书上线AI翻译功能，引发了网友的广泛关注和讨论。功能支持多种语言的翻译，能处理颜文字、网络热梗、化学式、摩斯电码等特殊内容。用户还可以通过Prompt提出翻译需求或生成特定内容。来源：量子位

阶跃星辰Step-1o重大升级，多模态视觉双榜夺冠，国内第一

阶跃星辰宣布 Step 系列模型上新第三弹。推出新成员 Step-1o Vision 多模态理解大模型，Step-1o Audio 语音模型能力升级。Step-1o Vision 在视觉识别、推理等任务中表现卓越，位居国内外权威榜单首位。升级后的 Step-1o Audio 情商更高，声音更自然，支持多语种及方言理解，实现更低时延。来源：阶跃星辰

书生·浦像超高动态成像算法：AIGC叠加HDR，捕捉细节，平衡曝光

上海人工智能实验室联合香港中文大学、浙江大学团队推出“书生·浦像”超高动态成像算法（浦像HDR，UltraFusion HDR）”，通过AIGC与HDR技术结合，实现超高动态范围成像。算法可在9档曝光差异的极端条件下修复图片细节，生成色彩鲜艳、细节丰富的高质量图像。解决了传统HDR技术在动态场景中的运动伪影问题。来源：上海人工智能实验室

秘塔AI搜索上线“阅读模式”，PDF阅读体验全面升级

秘塔AI搜索推出了全新的“阅读模式”功能。旨在解决PDF文档在移动设备上阅读不便的问题，支持复杂公式识别、智能渲染排版以及全文翻译，可轻松处理多列文字和图表混排的PDF文件。阅读模式支持多端同步，用户可在电脑端添加或上传PDF至书架，通过手机App查看。来源：AI秘塔

1月20日·周一

字节跳动推出全新AI IDE：Trae，基于Claude模型免费使用

字节跳动正式发布全新AI编程IDE——Trae，对标Cursor！支持原生中文，集成Claude 3.5、GPT-4o等顶级AI模型，免费开放使用。具备智能代码生成与优化、AI驱动的Chat和Builder交互模式、便捷的项目预览与调试等功能。来源：AI工具集

豆包实时语音大模型上线即开放！情商智商双高

字节跳动旗下的豆包大模型团队宣布推出豆包实时语音大模型，在豆包APP全量开放。模型是语音理解和生成一体化的端到端语音系统，主要面向中文语境，支持英语对话但暂不支持多语种。在语音表现力、情绪承接和控制力方面表现出色，整体满意度高于GPT-4o。具备低时延、可随时打断等特性，支持实时联网回答时效性问题。来源：豆包大模型团队

阶跃星辰语言模型上新：既有文学大师，又有性价比之王

上海阶跃星辰推出Step系列语言模型的两位新成员：Step-2 mini和Step-2文学大师版。Step-2 mini是轻量级模型，仅用3%的参数量保留了Step-2模型80%以上的性能，生成速度快，性价比高。Step-2文学大师版则专注于创作，能生成富有深度和风格的文学作品，已在跃问App上线。来源：IT之家

商汤「日日新融合大模型交互版」开放商用，限时免费

商汤科技推出“日日新融合大模型交互版”（SenseNova-5o），正式对外开放实时音视频对话服务，限时免费使用。模型具备强大的实时交互、视觉识别、记忆思考和复杂推理能力，支持超长多模态交互记忆（不少于5分钟），交互延迟低至2秒以内。用户还可根据偏好设置交流风格和音色。来源：商汤科技SenseTime

全球首个亿级参数量地震波大模型今年对外开放

全球首个亿级参数量地震波大模型“谛听”在国家超级计算机成都中心发布第三阶段测试版本，已成功应用于西藏定日6.8级地震数据处理。模型由中国地震局地球物理研究所、国家超级计算成都中心和清华大学联合开发，可自动识别震前、震后事件并生成AI地震序列目录。来源：IT之家

香港大学携手快手科技推出 GameFactory 框架，突破游戏场景泛化难题

香港大学与快手科技联合推出GameFactory框架，旨在解决游戏视频生成中的场景泛化难题。框架基于在开放域视频数据上预训练的视频扩散模型，可生成多样化游戏场景。通过独特的三阶段训练策略，GameFactory突破了现有方法对特定游戏数据集的依赖，支持自回归动作控制，可生成无限长度的交互式游戏视频。来源：AI工具集

如何识别AI生成图片？腾讯上线「鉴别工具」

腾讯上线由腾讯混元安全团队朱雀实验室研发的朱雀大模型检测工具，旨在帮助用户识别AI生成的图像和AI生成文本检测系统。通过检测图片中的纹理、语义及隐层特征，快速判断图片是否由AI生成。系统使用140万份正负样本进行训练，涵盖多种场景，测试检出率超过95%。来源：腾讯

晚点对话 MiniMax 闫俊杰：创业没有天选之子

《晚点》对话MiniMax创始人闫俊杰，探讨AI创业与技术发展。闫俊杰认为，AI创业不应套用移动互联网逻辑，模型能力提升并非依赖用户规模，而是技术进化。MiniMax最新开源的MiniMax-01模型采用线性注意力机制，首次在大规模模型中实现高效处理400万token的长上下文，助力AI记忆与交互能力提升。来源：晚点对话LateTalk

1月17日·周五

智谱清言APP推出“2025克穷暴富”春节活动，赢现金红包庆新年

智谱清言推出2025年春节活动，时间为1月17日至2月5日。用户可通过智谱清言APP参与多种互动活动赢取现金红包。活动包括AI生成视频金币爆爆爆、新春纪念照生成、视频通话互动以及AI帮助群发拜年短信等。用户上传照片可生成新春主题纪念照，与小智视频通话可获得拜年红包，AI助手AutoGLM可自动群发新年祝福。来源：智谱清言

Luma AI推出Ray2视频生成模型，算力扩大10倍

Luma AI推出最新视频生成模型Luma Ray2，基于新的多模态架构训练，计算能力是前代Ray1的10倍，能在10秒内根据文本提示生成高质量视频，最长时长从5秒延长至1分钟。生成视频动作生动流畅，未来还将推出图像转视频、视频转视频和编辑功能。来源：AI工具集

马斯克 xAI 再放大招：网页版 Grok 上线，无需 X 账户

埃隆·马斯克旗下xAI公司推出网页版Grok AI聊天机器人，无需X账户即可体验。访问grok.com，提供出生年份即可使用，能实时收集信息、获取答案、生成图像等。输入框下方菜单支持切换不同模式，更好控制响应。登录后可开启“临时模式”，聊天不记录不用于训练模型。来源：IT之家

阿里再投具身智能，清华大学孵化的星动纪元完成最新一轮融资

清华大学孵化的人形机器人企业北京星动纪元，近日完成最新一轮融资，新增阿里巴巴旗下公司等为股东，注册资本增至约1095.9万人民币。星动纪元专注于研发高智能通用人形机器人，产品已迭代至第六代——星动STAR 1，具备55个自由度，能在复杂环境中执行多种任务。来源：财联社

1月16日·周四

豆包电脑版和网页版全新上线AI编程新功能，帮你高效解决编程难题

字节跳动豆包电脑版和网页版全新上线新功能AI编程，帮助用户解决编程难题。提供更便捷的导入流程，一键上传多个本地代码文件和实时引入GitHub开源仓库。通过全新的代码编辑器支持沉浸式阅读和精准圈选代码，随时解答疑问，帮助用户生成、解释、修复和优化代码。来源：AI工具集

智谱Realtime、4V、Air新模型发布，上线bigmodel.cn

智谱发布多款新模型，包括GLM-Realtime、GLM-4V-Plus和GLM-4-Air，这些模型在bigmodel.cn上线。GLM-Realtime模型支持低延迟视频理解和语音交互，具有清唱功能和长达2分钟的记忆能力。GLM-4-Air和GLM-4V-Plus模型提供高性价比的语言和视觉理解解决方案。来源：智谱

阶跃星辰推理模型 Step R-mini 全量上线跃问网页版

2025年1月16日，阶跃星辰推出自研推理模型Step Reasoner mini（简称“Step R-mini”）。模型上线跃问网页端，擅长规划、尝试和反思，通过慢思考和反复验证的逻辑机制，为用户提供准确可靠的回复。Step R-mini在数学、代码、逻辑推理等复杂问题解决上表现出色，同时兼顾文学创作等通用领域。来源：AI工具集

腾讯会议全新升级，上线AI小助手Pro

腾讯会议推出全新升级功能。用户可从组织通讯录直接拉人入会，日程自动呈现并多渠道提醒，确保参会人准时上会等。上线AI小助手Pro全程监听会议，可回答问题、提供方案建议，支持联网搜索与文件上传提问，提升会议效率。来源：腾讯会议

1月15日·周三

MiniMax-01开源：新架构开启Agent时代

MiniMax于2025年1月15日宣布开源MiniMax-01系列模型，包括基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型参数量达4560亿，单次激活459亿，性能比肩GPT-4o，能高效处理长达400万token的上下文，是GPT-4o的32倍。来源：MiniMax 稀宇科技

OpenAI 推出新功能「Tasks」ChatGPT 变身 AI 私人助理

2025年1月15日，OpenAI推出ChatGPT的新功能「Tasks」，能根据用户的指示自动完成各种任务，包括一次性提醒和重复执行的动作。用户可以在ChatGPT的聊天界面中选择「4o与计划任务」模式，创建最多10个任务，通过网页、桌面和移动设备接收通知。该功能已向Plus、Pro和Teams用户开放Beta测试。来源：AI工具集

科大讯飞发布星火深度推理模型X1，率先落地真实应用场景

科大讯飞于2025年1月15日发布讯飞星火X1，国内首个基于全国产算力平台训练的深度推理大模型。模型解题方式接近人类“慢思考”，以较少算力达成业界领先效果，中文数学能力国内第一。已在教育、医疗领域落地，提升AI学习机精准度，助力教师助手部署，辅助医生诊断，推动行业发展。来源：AI工具集

Kimi 多模态图片理解模型 API 发布，1M tokens 定价 12 元起

2025年1月15日月之暗面发布全新多模态图片理解模型moonshot-v1-vision-preview，模型具备强大的图像识别和文字识别理解能力，能精准区分复杂图像细节，准确识别潦草手写内容及图表信息。价格根据选择的模型不同而有所区分。来源：AI工具集

书生·浦语大模型升级，突破思维密度，4T数据训出高性能模型

上海人工智能实验室宣布书生大模型升级至3.0版本，书生·浦语3.0（InternLM3）。版本通过精炼数据框架，仅用4T训练数据，使InternLM3-8B-Instruct综合性能超同量级开源模型，训练成本降低75%以上。书生·浦语3.0首次在通用模型中融合常规对话与深度思考能力，可应对更多真实场景。来源：上海人工智能实验室

Vidu 2.0全新升级，更快、更强、更稳定

Vidu 2.0正式上线，带来生成速度与画质的双重突破，10秒即可出片。效果升级，视频风格、主体更一致，首尾帧更自然。推出超值套餐，成本低至4分/秒。新增错峰模式，低峰时段不限量、不扣积分，保障创作不停歇。来源：Vidu AI

1月14日·周二

腾讯推出一站式3D内容生产AI创作平台：腾讯混元3D，用AI给游戏装上创作引擎

腾讯旗下混元模型将《王者荣耀》游戏设计迁移到3D生成模型中，推出混元3D AI创作引擎。引擎为普通UGC和游戏等专业场景提供一站式3D内容生产的AI创作平台，支持文生3D和图生3D模式生成3D资产，结合3D风格化、渲染打光、骨骼绑定和动作驱动等编辑工具调整模型效果，支持多种输出格式。来源：AI工具集

抖音创始成员任利锋的GenAI创意社区：Hitems，完成数千万美元Pre-A轮融资

抖音早期产品负责人任利锋创立的“数美万物”公司旗下创意电商社区Hitems，近日完成数千万美元Pre-A轮融资，美团龙珠领投，锦秋基金跟投，红杉中国、IDG资本继续跟投，公司估值约1.5亿美元。Hitems是集创作者创意生成、生产、销售于一体的跨境电商平台，基于GenAI技术，可通过关键词、图片或手绘稿生成高保真物品图。来源：智能涌现

加速AI和机器人融入生活空间，「一目科技」完成数亿元D轮融资

“一目科技”近期完成数亿元D轮融资，由赛富投资基金领投，南京市创新投资集团、松霖科技跟投。公司专注于多模态感知+AI计算解决方案，产品已应用于智慧水务、智慧家居、生命科学等领域，并打入TCL、惠而浦等头部白电厂商供应链。在CES 2025上，一目科技的AI洗护机器人首秀亮相并获媒体好评。来源：智能涌现

英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC

英伟达推出名为Nemotron-CC的大型英文AI训练数据库，包含6.3万亿个Token，其中1.9万亿为合成数据。该数据库基于Common Crawl网站数据构建，经过严格处理形成高质量子集Nemotron-CC-HQ。与业界领先的DCLM数据库相比，使用Nemotron-CC-HQ训练的模型在MMLU基准测试中分数提高5.6分。来源：IT之家

打造AI时代的超级应用平台，「环界云计算」获阿里云战略投资

珠海环界云计算有限公司完成3750万元Pre-A融资，由阿里云独家投资。核心产品Sealos是基于kubernetes的云操作系统，聚焦已开发应用托管和新应用诞生，助力开发者和B端企业降低成本、提升效率。开源项目Sealos和FastGPT在社区受关注。来源：36氪

1月13日·周一

DeepSeek正式推出手机APP，苹果安卓都支持！

2025年1月11日，DeepSeek正式推出Deepseek APP，支持iOS和安卓系统。此前，DeepSeek仅有网页端和API调用两种使用方式。此次推出的手机app功能与网页端一致，底层默认使用DeepSeek V3模型，开启深度搜索后调用DeepSeek-R1-Lite推理模型。来源：AI工具集

百川智能落地宁波！注册资本 1.5 亿美元，与高新区共建产业基金

2025年1月13日，百川智能创始人王小川与宁波高新区管委会签订合作协议，百川智能大模型项目落地宁波高新区。王小川表示将立足宁波特色，推进 AI 赋能千行万业。百川智能目前员工约280人，已完成A+轮融资，总融资额约50亿人民币，估值200亿人民币。来源：有新Newin

阿里妈妈推出淘宝星辰视频生成大模型及图生视频应用

阿里妈妈推出淘宝星辰视频生成大模型及图生视频应用。工具基于自研大模型，海量电商数据和设计经验，具备更懂商品展示手法、更强多语种语义遵循能力、合理物理动作规律、稳定元素保持等优势。用户输入静态图片或文本描述，即可一键生成高质量5秒视频。工具已对淘宝天猫商家开放。来源：AI工具集

方大特钢与华为开展全面合作，打造钢铁行业大模型

方大特钢与华为签署全面合作协议。双方将在企业数据治理体系与应用、钢铁行业大模型应用、信息安全、数字化人才培养等方面展开合作。方大特钢表示，此次合作有助于推动数字技术与钢铁主业深度融合，加快数字化转型，提升信息化应用水平和市场竞争力。来源：IT之家

3D 生成大模型公司影眸科技完成数千万美元 A 轮融资，美团龙珠、字节跳动领投

影眸科技完成数千万美元A轮融资，美团龙珠、字节跳动领投，红杉中国种子基金及奇绩创坛跟投。融资将用于推进3D大模型前沿探索及Hyper3D系列产品商业化。其3D生成大模型Rodin上线45天实现100万美金年经常性收入，已与Amazon等知名客户深度合作，获数百万元B端订单，覆盖多行业。来源：IT之家

月之暗面海外产品负责人的AI Coding项目被投资人抢爆了，新一轮估值8000万美元

前月之暗面海外产品Noisee创始人明超平发起的AI Coding项目“新言意码”已完成两轮融资，目前公司估值达8000万美元。该项目吸引了五源资本、高榕资本、真格基金、高瓴创投和IDG资本等多家顶级投资机构。新言意码定位为AI coding应用，瞄准类似美国智能代码生成产品Cursor的市场。来源：Z Finance

京东健康发布业内首个医疗健康全场景应用大模型产品体系

2025年1月11日，京东健康在年度医生盛典和数智医疗大会上发布了“AI京医”大模型产品体系及业内首个面向医院全场景应用的大模型产品“京东卓医”。“AI京医”包括AI诊疗助手2.0、AI科研助手和AI医生智能体等产品，旨在提升患者就医体验、医生临床科研效率和医院运营效能。来源：京东黑板报

YY直播首个 AI 伴唱服务数字人“灵儿”发布，平均每天服务超100万用户

YY直播近日发布首个AI伴播数字人“灵儿”，在12日YY 2024年度巅峰盛典上首次亮相。依托自研技术，“灵儿”已覆盖6000多个直播间，平均每天服务超100万用户，目前处于公测阶段。上线半年来，互动、发言量提升超30%，部分直播间互动设备数增长670%，付费用户数增长80%。来源：钛媒体AGI

中文互联网语料 AI 资源平台发布：27 个数据集、总量 2.7T

中国网络空间安全协会发布中文互联网语料资源平台，含27个数据集、总量2.7T。该平台在中央网信办指导下，由协会与国家互联网应急中心等共建，经严格数据处理后，推出中文互联网基础语料2.0，规模120GB，数据3800万条。来源：IT之家

1月10日·周五

通义万相2.1模型能力重磅升级，轻松实现文生组图

阿里通义万相2.1模型重磅升级，视频生成能力显著增强。通过自研的高效 VAE 和 DiT 架构，首次实现了中文文字视频生成功能，支持无限长 1080P 视频的高效编解码。在 VBench 视频生成模型评测体系中荣登榜首。还支持文生组图，采用 IC-LoRA 图像生成训练方法，增强文本到图像的上下文能力，轻松实现关联图像间的组合生成。来源：通义

海螺AI推出全新 S2V-01 主体参考模型，AI视频创作再上新台阶

海螺AI推出全新S2V-01主体参考模型，支持用户通过上传一张参考图片，生成与原图高度一致的角色视频。显著提升AI视频创作的效率和质量，使得每一帧画面都能完美还原参考形象。只需简单三步：上传图片、选择模型、生成视频，即可体验。来源：AI工具集

商汤推出“日日新”融合大模型，勇夺“双冠王”

2025年1月10日，商汤科技推出“日日新”融合大模型，实现原生融合模态，深度推理与多模态信息处理能力大幅提升。模型在SuperCLUE《中文大模型基准测评2024年度报告》与OpenCompass多模态评测中均获第一，成“双冠王”。来源：商汤科技SenseTime

雷蛇推出“AI 游戏伴侣”Project AVA：支持实时指导 + 赛后复盘

在 CES 2025 上，雷蛇发布全新概念产品 Project AVA， AI游戏伴侣，旨在提升玩家的游戏水平。Project AVA 在训练过程中汲取顶尖电竞职业玩家和教练的游戏理解，能为 MOBA 和 FPS 类型游戏提供实时指导，并在赛后给出个性化总结分析，指出操作高光和需改进之处。Project AVA 还能对电脑硬件进行性能调优，提升帧数和优化画面效果。来源：AI工具集

国家网信办：截至 2024 年末共 302 款生成式人工智能服务完成备案

截至2024年12月31日，国家网信办共完成302款生成式人工智能服务的备案，其中2024年新增238款。2024年还有105款通过API接口或其他方式直接调用已备案模型能力的生成式人工智能应用或功能在地方网信办完成登记。这些备案和登记工作旨在促进生成式人工智能服务的创新发展和规范应用。来源：IT之家

开源媒体播放器 VLC 下载破 60 亿次，预览本地 AI 字幕 / 翻译功能

开源媒体播放器 VLC 在 CES 2025 上庆祝累计下载次数突破 60 亿次。VideoLAN 总裁 Jean-Baptiste Kempf 表示，尽管流媒体服务盛行，VLC 的活跃用户数量仍在增长。VideoLAN 在 CES 现场预览了 VLC 即将推出的新功能：基于本地开源 AI 模型的离线字幕生成和翻译功能。功能现已支持多种语言，包括法语、德语、日语和希伯来文。来源：IT之家

1月9日·周四

巨量引擎旗下创意生产平台 AIGC工具“即创”正式版上线

巨量引擎旗下创意生产平台 AIGC工具“即创”正式版已上线，具备AI脚本生成、智能成片、数字人、商品卡等多体裁内容生成能力，新增“爆款裂变”“一键过审”等功能。来源：AI工具集

官宣！通义灵码 AI 程序员全面上线，仅需10分钟完成整个开发过程

阿里云和通义实验室联合推出的通义灵码AI程序员全面上线，成为全球首个同时支持VS Code和JetBrains IDEs的AI编程工具。通义灵码具备代码智能生成、研发问答等功能，通过对话协作方式，能够高效完成业务开发、问题修复和单元测试等任务。累计生成代码达15亿行。来源：通义灵码

微软开源 140 亿参数小语言 AI 模型 Phi-4，性能比肩 GPT-4o Mini

微软2025年1月8日在Hugging Face平台开源了小语言AI模型Phi-4，其参数量为140亿。Phi-4在多个基准测试中表现优异，超越了参数量更大的Llama 3.3 70B和OpenAI的GPT-4o Mini。出色性能主要得益于高质量数据集的训练。来源：IT之家

CES 2025首日观察：AI硬件不再画饼，中国厂商大杀四方

CES 2025首日，AI硬件成为焦点，中国厂商表现亮眼。涂鸦智能展示AI与IoT深度融合的创新应用，如智慧能源管理、AI灯光创作等，AR/AI眼镜大热，雷神、Rokid等厂商推出多款新品，电视领域，海信、TCL、长虹等国产厂商凭借RGB三维控色、Mini LED技术等突破。智能清洁设备也迎来创新，追觅、MOVA、云鲸等品牌带来机械臂、履带式拖布等新技术。来源：36氪

晚点对话李开复丨零一万物部分团队并入阿里，“灵魂拷问来得太快了”

零一万物CEO李开复在晚点对话中透露，公司与阿里云成立产业大模型联合实验室，部分团队将加入该实验室。零一万物将不再追求训练超级大模型，转而专注于训练更快、更便宜的模型，并基于此打造可盈利的应用。来源：晚点LatePost

联通开源首个完全在国产昇腾 AI 平台训练和推理的中文原生文生图模型“元景”

联通数据智能宣布开源首个完全在国产昇腾 AI 平台训练和推理的中文原生文生图模型“元景”。模型通过在SDXL架构中融合复合语言编码模块，实现了对中文长文本和特色词汇的精确语义理解，提升图像生成效果。元景模型替换了英文CLIP模型，增强了中文短文本输入的理解能力，支持长文本输入。来源：AI工具集

智元机器人推出首个机器人4D世界模型

智元机器人团队推出了首个机器人4D世界模型EnerVerse，通过自回归扩散模型结合稀疏记忆机制和自由锚定视角（FAV），在生成未来具身空间的同时，显著提升了机器人动作规划能力。EnerVerse在复杂任务中表现出卓越的未来空间生成能力和动作规划性能，解决了模态对齐和数据稀缺等挑战。来源：智元机器人

1月8日·周三

英伟达推出生成式世界基础模型平台 Cosmos 构建高保真物理模拟世界

英伟达推出了生成式世界基础模型平台Cosmos，旨在加速自动驾驶和机器人领域的发展。Cosmos能根据文本、图像或视频生成高度仿真的虚拟世界状态，为AI应用提供独特的视频输出。平台集成了生成式模型、高级标记器和加速视频处理管道，帮助开发者生成大量基于物理的合成数据，减少对真实世界数据的依赖。来源：AI工具集

可灵AI V1.6模型现已开放API，生成质量更稳定

北京快手宣布，自研的视觉生成大模型可灵AI V1.6已开放API。新版本在生成质量、内容效果等方面有显著提升，尤其在广告视频素材生成方面表现出色，能更好地响应运动、时序类动作和运镜等文字描述，提高素材生成成功率。来源：可灵AI

HeyGen推全新数字人技术，与 Sora 实现集成

HeyGen近日宣布推出全新数字人技术，并与Sora实现集成。此次合作产生的虚拟形象视频在许多情况下表现优于真人演员，且没有长度限制。HeyGen的虚拟形象完全由人工智能生成，非基于真实人物模型，具有更强的可塑性和创造性，可满足不同视频需求。来源：品玩

Anthropic正以600亿美元估值筹集20亿美元，将成为第五大最有价值的美国初创公司

Anthropic 正在与 Lightspeed Venture Partners 谈判，计划以 600 亿美元的估值筹集 20 亿美元。这轮融资将使 Anthropic 的估值达到 600 亿美元，成为继 SpaceX、OpenAI、Stripe 和 Databricks 之后第五大最有价值的美国初创公司。来源：有新Newin

科大讯飞2025年「首场发布会」，打造每个人的办公新范式

科大讯飞于2025年1月7日在北京中关村国际会议中心举办办公智能体产品升级发布会，推出多款升级产品。此次升级围绕智慧办公新范式，首次联合发布“知识中台、AI搜索、星火人设、虚拟数字人、星辰MaaS与多模交互”六大通用能力，旨在为每个人打造量身定制的AI助手。来源：讯飞开放平台

阅文旗下AI男友应用筑梦岛获千万美元融资，开启独立运营

阅文集团旗下的“筑梦岛”已开启独立运营，完成新一轮融资，金额超1,000万美元，由商汤国香基金、阅文集团等战略投资方共同投资。筑梦岛定位为“新一代AI虚拟互动娱乐平台”，用户可创造并互动“梦中人”，通过多模态互动建立情感连接。目前，筑梦岛App拥有近五百万注册用户，其中近80%为年轻女性用户，人均日对话轮次超120轮。来源：36氪

年终复盘 2024 AI搜索江湖，三大门派围攻光明顶

2024年，AI搜索赛道竞争激烈，互联网巨头、内容平台和AI创业公司纷纷入局。腾讯、百度、字节跳动等推出多款AI搜索产品，如搜狗输入法的AI搜索、360的纳米搜索、字节跳动的豆包电脑版等，覆盖学习、办公、电商等多个场景。AI搜索产品形态不断进化，多模态大模型的应用使其具备更强大的搜索和创作能力。来源：钛媒体

用AI大模型重塑服装设计制版，「深服科技」获数千万元Pre-A轮融资

浙江深服人工智能近日完成数千万元Pre-A轮融资，由上海厚毅资本领投。资金将用于模型开发、技术人才引进和市场拓展。深服科技成立于2023年，专注于为服装行业提供AI解决方案，通过AI大模型技术解决设计和制版难题，降低研发成本。产品“画衣衣AI制版”即将发布，可让设计师自主生成CAD制版图。来源：36氪

1月7日·周二

英伟达发布新一代消费级显卡RTX50系列，售价为549美元起

在2025年1月7日的 CES 展会上，英伟达 CEO 黄仁勋发布了 RTX 5090 显卡。显卡采用 Blackwell 架构，拥有 920 亿晶体管，AI 性能达 3352 TOPS，显存为 32 GB GDDR7，功耗为 575W。能通过 AI 提升帧率和图像质量。英伟达还推出了 Cosmos 世界模型平台，旨在推动物理 AI 的发展。来源：机器之心

中国信通院发布 MaaS 六大标准，解决 AI 模型落地“最后一公里”难题

中国信通院于2025年1月6日发布MaaS（模型即服务）系列标准，旨在解决大模型落地应用中的质量问题和选型难题。系列标准涵盖模型服务协议、评估方法、平台能力、模型管理及应用开发等方面，为大模型服务商和平台供应商提供能力建设参考，助力MaaS行业健康发展。来源：IT之家

腾讯研究院发布《AI图景解码50关键词》浓缩AI领域的基本图景和趋势

腾讯研究院发布《AI图景解码50关键词》，将2024年AI领域的关键信息和趋势浓缩为50个关键词。研究团队基于大量数据和专题研究，筛选出涵盖基础模型、图像处理、视频生成等八大方向的关键词，通过AI生成卡片进行可视化表达。帮助普通人快速了解AI领域的基本图景和未来趋势。来源：AI工具集

传音控股与阿里云达成合作，通义千问大模型搭载于前者旗下 AI 手机

传音控股与阿里云达成合作，将通义千问大模型搭载于旗下 TECNO 品牌的 AI 手机 PHANTOM V Fold2 中。手机通过特定的 AI 按键，用户可以在离线环境中流畅运行多轮 AI 对话，实现文档及通话摘要等功能。来源：IT之家

1月6日·周一

罗永浩 Jarvis 初创项目“J1 Assistant 助理”上线，支持语音与大模型互动

罗永浩旗下的AI初创项目Jarvis在海外上线 J1 Assistant AI智能助手，目前仅提供安卓版本，官网对国内IP进行了限制。J1 Assistant 的特色在于音频输入功能，用户可以通过语音输入，将语音消息发送至谷歌搜索引擎、自家AI模型或ChatGPT进行查询，还可以用于创建备忘录。来源：AI工具集

「天工大模型4.0」o1版和4o版正式上线天工APP和网页，免费使用

昆仑万维集团宣布，「天工大模型4.0」o1版和4o版于2025年1月6日正式上线天工网页和APP，供用户免费使用。o1版专注于中文逻辑推理，具备强大的数学、代码、逻辑、常识和伦理决策能力，通过多智能体体系和强化学习等技术提升推理性能。4o版为多模态模型，语音对话助手Skyo具有情感表达和多语言切换能力，提供流畅的实时对话体验。来源：昆仑万维集团

微软计划本财年砸下 800 亿美元，建设符合 AI 工作需求的数据中心

微软计划在2025财年投资800亿美元建设支持人工智能运算的数据中心，其中超过一半的资金将投向美国市场。微软副董事长布拉德·史密斯表示，美国在全球AI竞赛中处于领先地位，得益于私人资本投入和技术创新。微软已向OpenAI投资超过130亿美元，将其AI模型整合到Windows、Teams等产品中。来源：IT之家

马斯克称 Grok 3 即将推出：已完成预训练，计算量比 Grok 2 高十倍

马斯克宣布 Grok 3 即将推出，预训练已完成，计算量比 Grok 2 高出十倍。去年 7 月，Grok 3 使用了 10 万块英伟达 H100 芯片进行训练，但未能如期发布。去年 12 月，xAI 向所有 𝕏 平台用户免费推出了 Grok-2 模型，Premium 用户将优先访问新功能。来源：IT之家

阿里通义千问 Qwen 推 CodeElo 基准，OpenAI o1-mini 夺冠超 90% 人类程序员

阿里通义千问 Qwen 推出了 CodeElo 基准测试，利用 Elo 评级系统评估大语言模型（LLM）的编程能力。CodeElo 通过 CodeForces 平台的题目进行测试，确保评估的准确性和全面性。在测试中，OpenAI 的 o1-mini 模型表现最佳，Elo 评分为 1578，超过了 90% 的人类程序员。来源：AI工具集

上海发布“天工人工智能工业平台”和“工业语料库 1.0 版”

上海市在“人工智能+”行动推进大会上发布了“天工人工智能工业平台”和“工业语料库 1.0 版”。天工平台采用开放架构，兼容主流大模型，提供从底层算力到顶层应用的全面支持，旨在降低工业企业使用 AI 的门槛，提高应用开发效率，助力企业智能化转型。工业语料库则为企业提供精准的决策支持和解决方案。来源：IT之家

谷歌 DeepMind 推 CAT4D：普通视频变 3D 大片，单视角视频也能转换多视角了

谷歌 DeepMind 联合哥伦比亚大学和加州大学圣地亚哥分校开发了 CAT4D AI 系统，能够将普通视频转化为动态 3D 场景。系统基于扩散模型，将单视角视频转换为多视角视图，用户可以从不同角度观看视频中的主体。来源：AI工具集

1月3日·周五

阿里入局 AI 眼镜：与雷鸟达成战略合作，产品将接入通义大模型

雷鸟创新与阿里云达成AI眼镜领域的独家战略合作，阿里云通义大模型将为雷鸟AI眼镜提供技术支持。是国内首次大模型与AI眼镜硬件厂商深度定制合作。双方将共同投入研发资源，围绕云计算、大模型、AI硬件等领域合作。雷鸟计划于1月7日发布雷鸟V3 AI拍摄眼镜。来源：IT之家

微软发布新模型 LAM ，可以自己操作Windows程序

微软推出 LAM（Large Action Model）“大型动作模型” ，能够独立操作Windows程序，将用户请求转化为实际行动。是首个专门训练与微软Office产品一起工作的模型。在Word测试中，LAM的成功率达到71%，速度超过GPT-4o。来源：AI工具集

1月2日·周四

百度增设搜索产品：上线“AI 搜”，通过 @与不同智能体交互

百度近日上线“AI 搜”，基于百度文心大模型的桌面端AI搜索引擎。整合了百度搜索引擎、健康、律临、文库、教育等内容生态，提供话题探索、问题解决等功能。用户可通过@方式与不同智能体交互。来源：AI工具集

阿里前端第一人AI创业首秀，要做全球内容创作者的GitHub！5k人排队内测

前阿里前端技术专家玉伯，离开蚂蚁集团后创办AI公司思维天空，推出AI工具YouMind，旨在服务全球创作者。YouMind 集成多模态内容，提供网页总结、翻译、ChatBot对话等功能，支持用户将内容分类收藏。目前处于内测阶段，已有近5000人申请，公司估值过亿。来源：量子位

智象未来多模态大模型3.0全球首发

智象未来发布智象多模态生成大模型3.0和智象多模态理解大模型1.0，旨在提升视觉多模态基础模型服务，激发创造力。创始人梅涛院士强调了AI技术在推动科学发展和具身智能方面的重要性，提出了大模型通往AGI的两条路径。来源：HiDream智象未来

阿里云与零一万物达成战略合作，成立“产业大模型联合实验室”

阿里云与零一万物达成战略合作，共建“产业大模型联合实验室”，旨在加速大模型技术应用落地和产业生态整合。双方将结合研发实力，通过阿里云百炼大模型平台提供服务。进一步深化双方在AI大模型领域的合作。来源：IT之家

英伟达新一代显卡领衔，一波AIPC芯片产品有望亮相CES展

英伟达CEO黄仁勋将在CES 2025发表开幕演讲，可能发布新一代GeForce RTX50系列显卡。英特尔和AMD也预计在会上发布AIPC相关产品，推动AI芯片技术迭代。行业已进入用户体验探索阶段，AIPC芯片具备自然语言交互等特点，有望快速渗透PC市场，带动产业链升级。来源：财联社

谷歌前CEO施密特预测：AI 将在今年获得“永久记忆”，2028 美国会耗尽能源储备

谷歌前CEO埃里克·施密特预测，2025年AI将实现三大突破：获得“永久记忆”、智能体从对话到行动的飞跃、文本到行动的编程革命。他强调AI变革将“一切，无处不在，同时发生”，警告美国可能在2028年耗尽能源储备，因数据中心耗电量巨大。来源：36Kr

12月31日·周二

智谱正式发布深度推理模型：GLM-Zero 的初代版本 GLM-Zero-Preview

智谱AI在2024年尾发布 GLM-Zero 推理模型，初代版本GLM-Zero-Preview已上线，基于扩展强化学习技术，提升数理逻辑、代码处理和深度推理能力。模型在AIME 2024、MATH500和LiveCodeBench评测中表现优异，与OpenAI-o1-Preview相当。用户可在智谱清言-“Zero推理模型”智能体免费使用，开发者可通过API调用体验。来源：AI工具集

趣丸科技「天谱乐」开创AI音乐新纪元：全球首个多模态配乐大模型

趣丸科技推出的全球首个多模态配乐大模型“天谱乐”，支持文本、图片和视频生曲，能生成高度匹配的BGM和MV效果。该技术在中文人声唱词上达到专业级效果，减少了电音感，接近音乐发行级别。“天谱乐”已接入唱鸭App，累计创作近1000万首AI歌曲。来源：AI工具集

可灵AI API新增【虚拟试穿V1.5】和【对口型】

快手可灵AI（Kling）宣布API能力升级，推出虚拟试穿V1.5模型，支持单件及组合服装输入，能生成试衣视频。同时，新增对口型功能，可实现视频中人物口型与配音同步，提升视频真实感。这些升级将为电商、广告营销和泛娱乐行业带来新机遇，推动业务增长。来源：可灵AI

OpenAI公布2025年将发布的技术产品：AGI、Agents、GPT-4o升级版

OpenAI首席执行官Sam Altman宣布，到2025年将发布包括AGI（通用人工智能）、智能体Agents、GPT-4o升级版在内的多项技术产品，以及其他改进，如更好的记忆存储、上下文窗口、成人模式、深度研究特色功能、Sora和个性化定制。来源：第一财经

大模型的2024年：我们对AI的发展脱敏了

2024年AI领域发展迅速，大模型更实用但不再惊艳，端侧模型和混合专家技术（MoE）降低成本，多模态研究成新方向。AI搜索、语音交互、视频技术商业化挑战中前行，AI Agent开发门槛降低。AI硬件百花齐放，AI眼镜异军突起。AI游戏从辅助工具成为游戏一部分。中国AI人才梯队规模质量仅次于美国，期待在AI浪潮中领先。来源：新硅NewGeek

黑芝麻智能发布华山A2000家族芯片平台，打造全场景通识智驾标杆

黑芝麻智能发布华山A2000家族芯片平台，针对下一代AI模型设计，提供高算力、高性能，支持全场景通识智驾。A2000家族包括A2000 Lite、A2000和A2000 Pro，满足不同自动驾驶需求。集成领先CPU、DSP、GPU等，算力是主流旗舰芯片的4倍，原生支持Transformer模型，推动智能驾驶技术发展。来源：黑芝麻智能

12月30日·周一

讯飞医疗成功上市，成为医疗大模型第一股！

讯飞医疗科技股份有限公司（股票代码：02506.HK）于2024年12月30日在香港联交所主板成功上市，标志着医疗大模型领域的第一股诞生。作为中国医疗人工智能行业的领导者，讯飞医疗在基层医疗服务、医院服务、患者服务和智慧影像等方面均取得显著成就，致力于让医疗服务更便捷，为人类健康未来奋斗。来源：科大讯飞

支付宝「探一下」新一代AI视觉搜索产品，满足你的好奇心

支付宝推出新功能“探一下”，基于自研的多模态大模型技术，能够“用AI之眼探索万物”，提供快速、有用、趣味的生成式搜索服务。“探一下”提供三种核心服务：探知识、探灵感、探文本。可以根据自己的需求选择相应的服务，满足用户的好奇心。通过支付宝“扫一扫”界面或支小宝App中访问。来源：支付宝

智元机器人开源 AgiBot World 百万真机数据集，大幅超越谷歌 Open X-Embodiment

智元机器人宣布开源全球首个百万真机数据集AgiBot World，超越谷歌Open X-Embodiment。该数据集基于全域真实场景、全能硬件平台、全程质量把控，覆盖家居、餐饮、工业等五大核心场景，包含80多种技能视频。来源：AI工具集

PixVerse V3.5 正式上线，模型全面升级，10秒极速生成

爱诗科技宣布PixVerse V3.5版本正式上线，新版本在Turbo模式下10秒内即可生成高质量视频，保持行业领先的语义理解和细节表现力。动漫生成效果显著提升，支持通过文生视频描述特定风格或上传图片生成动漫效果。新增首尾帧功能，激发创作灵感。来源：爱诗科技 AIsphere

拓元智慧完成近亿元Pre-A轮融资，将聚焦多模态大模型与具身智能技术

拓元智慧（X-Era AI）宣布完成近亿元人民币的Pre-A轮融资，由粤科金融集团、鹏城愿景基金等投资。资金将用于加速多模态大模型和具身智能技术的研发。公司成立三年，累计营收近亿元，核心团队来自国内外高校和知名企业，已在无人零售、文教创作等领域实现技术深度应用。来源：钛媒体

OpenAI裂变成了两块：一块营利，一块非营利

OpenAI近日宣布公司重组，分为营利和非营利两部分，确保通用人工智能（AGI）造福全人类。重组旨在选择最适合长期成功的组织结构，使非营利组织可持续发展，让各部分有效运作。OpenAI计划将营利性公司转变为特拉华州公共利益公司（PBC），并发行普通股。PBC的公共利益将是OpenAI的使命。来源：机器之心

12月27日·周五

“理想同学”上架苹果 App Store：支持知识问答、看世界等功能

理想汽车推出的人工智能应用“理想同学”已上架苹果App Store，版本1.0.0。应用依托自研大模型，具备知识问答、视觉感知能力，能解答汽车、财经、科技等领域问题，支持英文翻译、文本生成。界面简洁，语音输入精准，输出自然流畅。来源：AI工具集

可图 1.5 图像模型来啦！全新「AI模特」功能上线

快手可灵AI（Kling）团队发布可图1.5图像模型，模型在画面质量和美感上大幅提升。AI试衣新增“AI模特”功能，借助可灵1.6图生视频能力，用户只需输入文本描述即可生成模特动态展示服装。可灵1.5模型支持尾帧生成。对口型功能新增10款高品质音色，支持选择音色情感，增强视频内容的情感表达。来源：可灵AI

首个重症医疗大模型来了，腾讯 X 迈瑞发布“启元重症大模型”，已在ICU病房上班

腾讯与迈瑞医疗合作开发的全球首个重症医疗大模型“启元重症大模型”已在ICU病房投入使用。模型能实时监测患者生命体征，5秒内总结病情，提供诊疗建议，准确率高达95%。能自动生成规范病历，将医生病历编写时间从半小时缩短至一分钟。来源：腾讯

火山引擎×联想，为 AI 桌面助手“如意”植入豆包大模型，“智” 敬PC新时代

联想与火山引擎合作，推出全新升级的AI桌面助手“如意”（AI Stick），植入豆包大模型，提供AI搜索、AI写作、AI聊天三大功能，全面提升PC用户体验。如意能精准理解用户需求，提供多领域知识解答，实现智能对话式交互，增强PC智能体验。来源：火山引擎

联想新一代智能体系统“天禧 AS”发布，明年 Q2 落地 AI PC、AI 手机、AI 平板等

联想在2024天禧生态伙伴大会上发布了新一代智能体系统“天禧个人智能体系统（天禧 AS）”，计划于2025年第二季度应用于AI PC、AI手机、AI平板等终端。天禧AS运行在传统操作系统之上，具备跨端运行能力，能实现端侧和个人云混合部署，提供个性化AI助理服务。来源：IT之家

12月26日·周四

国货之光 DeepSeek V3 横空出世，多语言编程能力全面超越 Claude

幻方量化旗下人工智能公司深度求索（DeepSeek）开源的最新版AI模型 DeepSeek V3，拥有685B参数和256个专家的MoE架构，在aider多语言编程测评中超越Claude 3.5 Sonnet，夺得第二名。成功率从V2.5的17%提升至48%，编辑格式正确率高达98.7%。DeepSeek V3现已开源，提供代码编写、Bug修复等多种编程能力。来源：AI工具集

智谱AI 开源 GLM-PC 基座模型 CogAgent-9B，推动GUI交互自动化技术

智谱AI宣布开源GLM-PC基座模型 CogAgent-9B，是基于GLM-4V-9B训练的专用Agent任务模型，能仅通过屏幕截图预测GUI操作。CogAgent-9B在GUI感知、推理预测准确性等方面显著提升，支持中英文双语交互。来源：GLM大模型

阶跃星辰图像生成模型全新升级：支持「图生图」，一键风格迁移！

阶跃星辰宣布其图像生成模型Step-1X系列的全新升级版本Step-1X-Medium，性能提升30%，增强了理解能力和图文一致性，支持“图生图”功能，实现细节增强、风格迁移和小范围局部修改。特别强化了“中国风”内容创作能力，能捕捉东方面孔神韵，支持英文文案生成。来源：阶跃星辰

腾讯推出 DRT-o1 系列 AI 模型：长链思考推理实现文学翻译“信达雅”

腾讯研究院推出DRT-o1系列AI模型，通过长链思考推理技术，提升文学作品翻译质量，尤其是在理解比喻和隐喻方面。模型采用多智能体框架，包括翻译员、顾问和评估员角色，通过迭代优化翻译结果。实验显示，DRT-o1在BLEU和CometScore等指标上超越其他模型。来源：AI工具集

通义从阿里云分拆，并入阿里智能信息事业群，与“夸克”平级

阿里巴巴旗下的AI应用通义从阿里云分拆，加入智能信息事业群，正式转向C端市场。通义系列由达摩院研发，是阿里AI领域的拳头产品。此次调整意味着通义将与Kimi、豆包等AI助手竞争，面临缩小与第一梯队差距的挑战。来源：光子星球

小米正搭建GPU万卡集群，将对AI大模型大力投入

小米正在搭建GPU万卡集群，对AI大模型进行大力投入。该计划已实施数月，小米大模型团队成立时已拥有6500张GPU资源。DeepSeek-V2的关键开发者之一罗福莉，将加入小米。小米大模型技术主攻轻量化和本地部署，已在手机端实现13亿参数级别的大模型，效果接近云端60亿参数模型。来源：财联社

科大讯飞连续中标7大AI项目，两个月内狂揽11亿大单

科大讯飞旗下讯飞智元中标山东泰安市肥城人工智能行业大模型应用基地项目，投标金额约1.59亿元。项目内容包括智算中心基础设施建设，涉及基建、硬件平台和基础配套软件等。科大讯飞近期已连续中标7大项目，总金额近11亿元。来源：智东西

12月25日·周三

Qwen开源视觉推理模型QVQ，像物理学家一样更睿智地看世界！

Qwen团队发布开源多模态推理模型QVQ，基于Qwen2-VL-72B构建，提升AI的视觉理解和复杂问题解决能力。QVQ在MMMU评测中得分70.3，显著优于Qwen2-VL-72B-Instruct，在数学相关基准测试中表现突出。模型虽有语言混合、递归推理等局限性，但已在视觉推理任务中展现增强能力。来源：魔搭ModelScope社区

IBM 发布新语言模型 Granite 3.1，性能、上下文能力增强

IBM发布大语言模型新版本 Granite 3.1，相较于3.0版本，Granite 3.1采用了更密集的架构，能处理多达128,000个令牌，显著提升了处理复杂文本的能力。版本包含8B和2B两种规模模型，均能检测工作流程中的幻觉，提供与RAG相同的责任和信任。IBM计划在未来几个月继续推出Granite 3系列的更新，预计在2025年第一季度加入多模式功能。来源：AI工具集

“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法

OpenAI研究人员提出“深思熟虑的对齐”新方法，旨在提升AI模型安全性。该方法通过直接教授模型安全规范，并训练其在生成响应前推理这些准则，将安全原则融入推理过程中。分为监督微调和强化学习两个阶段，使用模型生成的数据和思维链推理，降低资源需求。o1模型部署此技术后，在StrongREJECT基准测试中得分0.88，显著高于GPT-4o的0.37，同时减少了误拒，准确率高达93%。来源：IT之家

2025 AI Agent剑指何方？两份前沿报告描绘全景地图

2024年，AI Agent成为热门概念，被视为大模型应用落地的最佳形式。LangChain和Langbase的报告显示，51%的受访者已在生产中采用AI Agent，78%计划近期引入。中型企业最积极，非科技公司与科技公司部署AI Agent的比例相当。OpenAI和谷歌是最受欢迎的大模型提供商。准确性是选择AI Agent的首要因素，其次是安全性和可定制性。AI Agent在研究总结、个人生产力工具和客户服务等领域被广泛采用。性能质量是生产中采用AI Agent的主要顾虑。来源：钛媒体

做出AI科学家的Sakana AI又放大招，大模型自动搜索人工生命系统

Sakana AI公司开发了搜索人工生命的系统 ASAL，通过基础模型自动化搜索人工生命模拟，探索可能存在的“生命”。ASAL展示了在多种人工生命基质中发现新生命形式的能力，为人工生命研究提供了新范式，加速了对涌现、进化和智能的理解，有望启发下一代AI系统的发展。来源：机器之心

杭州CPU黑马宣布数亿元融资，在研服务器AI CPU芯片

国产CPU创企进迭时空完成数亿元人民币A+轮融资，由香港Brizan III期基金领投，资金将用于高性能RISC-V AI CPU和服务器AI CPU产品的研发及市场拓展。公司总部位于杭州，专注于构建面向大模型时代的原生计算平台，助力AI计算机和机器人等新应用发展。进迭时空已布局全栈计算技术，形成软硬全栈计算系统解决方案，推动RISC-V高性能计算芯片规模化进入行业市场，应用于电力、电信、工业等领域。来源：芯东西

AI视频创企智象未来又拿新融资，数亿元！

AI视频生成公司智象未来（HiDream.ai）完成数亿元人民币A轮融资，由合肥产投领投，安徽省人工智能母基金和湖北省长江电影集团等参与。智象未来由加拿大工程院外籍院士梅涛博士创立，专注于视觉多模态基础模型及创新应用。公司自研的“智象大模型”支持文本、图像、视频、3D互生，提供分钟级营销视频生成服务，累计AIGC内容生成量破千万，服务超3万家企业。来源：智东西

星火浏览器插件新升级！能读会答、能翻译会总结

讯飞星火浏览器插件新升级，集成了讯飞星火V4.0底层能力，支持Chrome、Edge等主流浏览器。新增功能包括“继续提问”以深入讨论获取答案、网页全局对照翻译、一键朗读以及句子段落总结，提升阅读效率。插件以6M+极小内存运行，提供AI搜索、网页总结、划词收藏等功能，旨在让网页阅读与信息搜索更轻松高效。来源：讯飞开放平台

Freed AI，AI病历助手，创立1年多，1万付费医生，1000万美金ARR

Freed AI 是一家成立一年多的AI病历助手公司，已获得1万付费医生用户，实现1000万美金年度经常性收入（ARR）。公司的AI转录系统通过记录患者就诊讨论内容，识别关键术语并创建结构化的病历记录，帮助医生减少73%的文档工作时间。Freed AI的愿景是打造全球顶尖的AI医疗助手。来源：Z Potentials

12月24日·周二

马斯克xAI获60亿美元新融资，和特斯拉和SpaceX大搞AI生态

马斯克的xAI公司宣布完成60亿美元C轮融资，主要投资方包括A16Z、Blackrock、富达管理研究公司等。英伟达和AMD作为战略投资者继续支持xAI基础设施扩展。资金将用于加速基础设施建设、推出数十亿人使用的突破性产品和技术研发，实现公司使命。xAI的新一代旗舰模型Grok 3正在训练中，将推出利用Grok、Colossus和X改变人类生活、工作和娱乐方式的新产品。来源：X.ai

「像素绽放PixelBloom」完成国家队B2轮融资，打造全球AI办公软件超级工场

AIGC科技企业“像素绽放PixelBloom”完成B2轮融资，由北京市人工智能产业投资基金领投。融资将用于产品研发和市场拓展，旨在打造全球AI办公软件超级工场。旗下AiPPT.com等产品，通过AI辅助PPT制作，已在全球积累超1000万用户。公司从单一产品向平台化战略转变，构建AI办公软件生态，推动行业发展。来源：36氪Pro

Hume AI 宣布推出新一代语音语言模型 OCTAVE，能检测微妙的情绪线索

Hume AI 推出新一代语音语言模型OCTAVE，模型融合了语言准确性和情感理解。OCTAVE结合了Hume AI的EVI 2语音语言模型、OpenAI的语音引擎、ElevenLab的TTS语音设计和Google DeepMind的NotebookLM等功能，旨在提升AI交互的真实性和丰富性。模型采用多模态神经架构，经过超过一百万个情感语音样本的训练，能够识别微妙情绪线索。来源：AI工具集

12月23日·周一

上海国资和腾讯联手投资，“大模型六虎”阶跃星辰获数亿美元B轮融资

AI大模型独角兽阶跃星辰完成数亿美元B轮融资，投资方包括上海国有资本投资有限公司、腾讯投资等。本轮融资将用于基础模型研发，强化多模态和复杂推理能力，扩大C端应用场景。公司由微软前全球副总裁姜大昕博士领导，致力于实现AGI，已发布多款自研基座模型，并与多家企业达成合作。来源：钛媒体AGI

OpenAI最强推理模型o3发布！AGI测试能力暴涨，最难数学测试分数碾压同行

OpenAI在第12天发布会直播上推出最强推理模型o3，宣称接近通用人工智能（AGI）。o3在ARC-AGI测试中得分87.5%，远超GPT-3和GPT-4o。o3有完整版和mini版，mini版将于1月底推出。o3在编程竞赛Codeforces中得分2727，数学基准测试AIME 2024中准确率达96.7%。OpenAI将与ARC-AGI基金会合作构建下一个基准测试。来源：AI工具集

小红书推出AI搜索产品：点点，主打生活服务场景

小红书近期推出一款名为“点点”的AI搜索产品，主打生活场景搜索，已在各大应用商店上线。核心功能包括自动定位推送旅游攻略、美食景点问题，AI总结全网信息，以及提供视频回复。小红书还在搜索栏中测试“问点点”功能，进一步整合AI搜索能力。来源：AI工具集

12月20日·周五

谷歌通用推理模型登场：思考速度比所有模型快5倍，能解摩斯代码，数学物理秒解决

谷歌发布“Gemini 2.0 Flash Thinking”AI推理模型，模型以极快的速度解决复杂问题并展示思考过程。在数学、代码、指令跟随等多个领域表现卓越，排名第一。模型目前支持32k上下文窗口，不联网，未来将提供更长token和更多工具支持。模型已在谷歌AI Studio免费提供试用。来源：AI工具集

AI编程助手 Cursor 再获融资1亿美元，估值飙升至26亿美元

AI编程助手Cursor背后的公司Anysphere完成1亿美元B轮融资，估值达26亿美元。公司收入从4月的年化经常性收入400万美元增长至10月的每月400万美元。Cursor 0.44版本发布，主要更新包括代理性能改进、Yolo模式和光标标签更新，提升代码变更审查直观性和用户体验。来源：AI工具集

ElevenLabs推出Flash语音对话模型：仅75毫秒延迟，支持32种语言

ElevenLabs推出最新的人声合成模型Flash，宣称是目前最快的文本转语音解决方案，延迟仅为75毫秒，非常适合低延迟的对话式语音助手。Flash模型有两个版本，Flash v2仅支持英语，Flash v2.5支持32种语言。在音质和情感深度略逊于Turbo模型，在速度上Flash盲测中表现出色。来源：AI工具集

快手可灵 1.6 模型发布：文本响应度、画面美感及运动合理性均有“明显提升”

可灵近日推出了1.6版本，实现了图生视频的巨大飞跃。更新重点包括物理规律真实感、人物运动表演和语义理解的大幅提升。新版本在切食物、倒茶、跳舞等动作的物理反馈上表现出色，人物表情和动作的细节也更加丰富自然。文本响应度、画面美感及运动合理性均有明显提升。来源：IT之家

苹果Mac用户狂喜！ChatGPT深度集成应用，支持 Xcode、Notion 等30+应用

OpenAI在第11天的直播中宣布ChatGPT与Mac应用的深度集成，特别在编程和写作方面进行了更新。现在，用户可以通过简单的复制粘贴操作，与Warp、XCode等应用协同工作，无需详细交流即可执行任务。ChatGPT支持在语音模式下与Notion、Apple Notes等应用协同工作。新功能已在Mac最新版ChatGPT应用中推出，Windows用户还需等待。来源：量子位

国家电网发布国内首个千亿级多模态电力行业大模型

国家电网发布了国内首个千亿级多模态电力行业大模型“光明电力大模型”，模型参数规模达到千亿级别，具备电力知识记忆理解、多模态融合分析等能力，被誉为能源电力领域的人工智能“专家”。模型已在中国信通院、电子标准院通过权威检测，专业能力达到“卓越级”，在电网规划、运维、运行、客户服务等多个领域得到应用，提升了电网安全稳定运行和新能源消纳能力。来源：IT之家

华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

CMU联合20多所研究实验室开源发布Genesis生成式物理引擎，旨在模拟世界万物。引擎能生成4D动态世界，基于通用机器人和物理AI应用的物理模拟平台。Genesis支持并行模拟，速度比现有GPU加速的机器人模拟器快10到80倍，具备物理求解器的统一框架，支持照片级真实感渲染和可微分性。还支持生成式模拟，允许通过语言提示生成多种模态数据。来源：AI工具集

12月19日·周四

人人可享 AI 编程：免费版 GitHub Copilot 上线，VS Code 每月补全 2000 次代码

微软旗下GitHub推出免费版GitHub Copilot，支持开发者在Visual Studio Code中免费使用AI辅助编程服务。全球1.5亿开发者现可在VS Code体验AI编程。免费订阅包括每月2000次代码生成和补全，以及50次编程问题解答。用户可选择Anthropic的Claude 3.5 Sonnet或OpenAI的GPT-4o模型，支持第三方智能体。来源：IT之家

蚂蚁团队自研的「智能开发神器」，让你秒变 “代码大师”！

蚂蚁团队自研的面向前端智能研发AI工具WeaveFox，能根据设计图直接生成前端源代码。WeaveFox基于蚂蚁百灵多模态大模型打造，支持多端和多技术栈，包括控制台、移动端H5、小程序等，以及React、Vue等框架。支持二次调整，追求设计稿的一比一还原，旨在为前端开发带来高质、高效、高产的研发体验。该产品预计将于明年正式开放。来源：AI工具集

OpenAI 加速普及 ChatGPT，开通免费热线电话，老人机也能用ChatGPT了

OpenAI直播第10天，在美国推出ChatGPT热线电话服务，号码是：1-800-ChatGPT，也可以打1-800-242-8478，每月可免费通话15分钟，支持智能手机、老人机和座机各种电话设备与ChatGPT语音对话。OpenAI还集成了ChatGPT到WhatsApp，给这个号码发消息来获取回复，负责回答问题的是4o mini。来源：量子位

影石发布AI双摄视频会议一体机Connect，让开会更简单

影石Insta360发布了智能双摄视频会议一体机Insta360 Connect，集成4K双摄、14阵列麦克风和扬声器，搭载AI算法，为6-14人中小型会议和教育场景提供解决方案。设备支持发言人自动切换和单人追踪，提供多种会议模式，兼容主流会议平台，内置智能白板功能。来源：AI工具集

微信公众号新增“作者朗读音色”功能：可生成作者音色全文音频

微信近日推出了“作者朗读音色”新功能，支持用户在阅读公众号文章时通过点击“听全文”来收听作者音色朗读的文章。作者需在“公众号助手”App中录制例句以复刻语气和情感，创建个性化语音。功能目前处于灰度测试阶段，将逐步向用户开放。来源：微信派

小猿学练机发布：墨水屏+AI教育大模型，突破20毫秒手写延迟

猿辅导发布小猿学练机，集成AI教育大模型，提供个性化学习支持。设备整合296个教材版本、15亿题库和3亿精讲视频，升级六维能力图谱，提升AI数据处理效率。K12阶段采用EPD墨水屏，低龄儿童使用10.3英寸Kaleido3 KHS彩色墨水屏。手写延迟19毫秒，搭载高通8核处理器，支持27天续航，售价4899元。来源：小猿智能设备

12月18日·周三

豆包大模型家族全面升级，重磅发布视觉理解模型

字节跳动旗下火山引擎发布豆包大模型家族全面升级，包括视觉理解模型，能同时处理文本和图像问题，提供准确回答，大幅降低开发流程复杂度。模型在教育、旅游、电商等领域有广泛应用，价格为每千tokens 0.003元，比行业平均价格低85%。豆包通用模型pro新版本在多个任务处理能力上提升显著。火山引擎还推出全域AI搜索和大模型记忆方案，助力企业智能化转型。来源：AI工具集

AI数据分析公司Databricks一口气融728亿！AI融资新纪录

AI数据分析公司Databricks宣布J轮融资目标为100亿美元（约合人民币728亿元），目前已完成86亿美元，超越OpenAI的65亿美元融资，创下全球AI创企融资新纪录。本轮融资后，Databricks估值达到620亿美元，预计2025年自由现金流将首次为正。公司计划将资金用于开发AI产品、战略性收购及扩展国际市场，满足不断增长的市场需求。来源：智东西

Meta 推出 Apollo 开源模型，让 AI “看懂”视频

Meta与斯坦福大学合作推出 Apollo 系列AI模型，提升机器对视频的理解能力。Apollo模型包含两个组件，分别处理视频帧和跟踪对象及场景变化，在视频片段间添加时间戳以保持时间感知。模型采用分阶段训练方法，强调训练方法的重要性。Meta优化数据组合，发现10-14%的文本数据与视频内容的平衡能提升语言理解和视频处理能力。来源：AI工具集

AI 视频生成工具 PixVerse 上线视频生视频功能，体验视频延长乐趣

爱诗科技推出的AI视频生成工具 PixVerse 上线 Video to Video（视频生视频）功能，可基于实拍视频或影视片段进行延长生成，进一步拓宽AI视频创作的可能性。登录PixVerse，上传视频，选择特效或直接输入提示词，体验无限延长的创作乐趣！来源：AI工具集

OpenAI o1 推理模型 API 满血开放，成本暴降60%，定制升级

OpenAI在第9天直播中发布o1模型API全面开放，成本降低60%，具有更高可定制性，新增函数调用、开发者消息和图像分析等功能。GPT-4o音频成本降低60%，mini版本价格降低10倍。OpenAI推出了偏好微调方法，通过成对样本比较学习使模型适应特定应用场景。实时API支持WebRTC，简化开发流程，降低价格，提供Python SDK支持。旨在提高开发效率和模型性能。来源：IT之家

12月17日·周二

智谱完成30亿元新一轮融资，2024年商业化收入翻倍

AI独角兽“智谱”完成30亿元新一轮融资，投资方包括战投及国资，老股东君联资本跟投。资金将用于大模型研发，提升复杂多模态任务处理能力。2024年智谱商业化收入翻倍，API年收入增长超30倍，智谱清言预计年收入超千万，用户超2500万。来源：智能涌现

图森未来发布图生视频开源大模型“Ruyi”，RTX 4090就能运行

图森未来发布“Ruyi”图生视频大模型，开源Ruyi-Mini-7B版本。Ruyi基于DiT架构，包含Casual VAE模块和Diffusion Transformer，参数量约7.1B，支持在RTX 4090等消费级显卡上运行。模型支持多分辨率、多时长视频生成，以及首帧、首尾帧控制生成和运动幅度控制。Ruyi旨在降低动漫和游戏内容的开发周期和成本。来源：AI工具集

Meta Ray-Ban 智能眼镜大更新：“实时 AI”可持续分析用户所见内容

Meta Ray-Ban智能眼镜v11版本更新，引入“实时AI”功能，能持续观察用户所见并进行自然对话，无需唤醒词即可互动，AI能记住用户提问并主动提供建议。更新还包括实时翻译功能，支持英语与西班牙语、法语、意大利语的交流，以及Shazam音乐识别集成。来源：IT之家

谷歌发布AI图像生成新工具 Whisk，支持上传多张图片以图生图

谷歌发布AI图像生成工具Whisk，支持通过上传图像来生成新图像，无需复杂的文本提示。可以为图像的主题、场景和风格提供多张图像作为提示，或者使用谷歌自动填充的AI生成图像。Whisk基于谷歌最新的Imagen 3图像生成模型，旨在提供快速的视觉探索，支持用户编辑和优化生成的图像。来源：AI工具集

全球最大的仓储机器人公司赴港上市，蚂蚁英特尔是股东

极智嘉作为全球最大的仓储履约AMR解决方案提供商，已向港交所提交招股书，计划在主板上市。极智嘉已连续五年保持领先地位，服务全球约770家终端客户，包括60家财富500强企业。公司三年半累计营收达59亿人民币，其中超70%收入来自中国大陆以外市场。极智嘉专注于AMR解决方案，旨在提高供应链效率，减少人工依赖，计划将IPO募集资金用于研发、市场扩张和供应链发展。来源：机器人前瞻

谷歌版Sora迎来 Veo 2，升级4K高清！一句话控制镜头运动，Imagen 3 再进化

谷歌版Sora升级至Veo 2.0，能根据文本或图像生成4K高清视频，理解镜头控制指令。在模拟现实物理和人类表情方面有显著提升，能精确遵循复杂的指令Prompt。在Meta基准数据集MovieGenBench上，Veo 2.0在整体偏好和指令遵循方面优于其他视频生成模型。同时，图像生成模型Imagen 3也得到增强，能生成多样化的艺术风格图像.来源：AI工具集

OpenAI直播发布第8天：ChatGPT Search全面升级，免费开放，与Her打通了！

OpenAI直播第8天，ChatGPT推出Search搜索功能升级，包括移动端优化和多模态信息搜索，结合Her功能实现实时通话中的语音搜索。基于微调后的GPT-4o模型，使用合成数据生成技术。将逐步向所有用户免费开放。来源：AI工具集

12月16日·周一

Kimi 发布 k1 视觉思考模型，多项理科测试行业领先

月之暗面 Kimi 今日发布 k1 视觉思考模型，模型基于强化学习技术，支持端到端图像理解和思维链技术，覆盖数学、物理、化学等基础科学领域。k1模型在多项基准能力测试中表现超越全球标杆模型，现已上线Kimi智能助手APP及网页版，可通过拍照或传图体验模型推理思维链。来源：AI工具集

腾讯微信正式发布多模态大模型 POINTS 1.5，10B参数下开源模型排名第一

腾讯发布多模态大模型POINTS 1.5，继承了POINTS 1.0的LLaVA架构，包含视觉编码器、投影器和大语言模型。模型在效率和性能上均有显著提升，特别是在复杂场景OCR、推理能力、关键信息提取等方面表现出色。POINTS 1.5-7B在全球10B以下开源模型中排名第一，超越了Qwen2-VL、InternVL2等领先模型。来源：AI工具集

PixVerse最新AI特效上线，心情不好，“爆炸”一下！

爱诗科技PixVerse AI视频生成工具，在社交平台引发特效热潮，共上线12种变身特效，有火爆出圈的“毒液变身”，“压扁”，“爆炸”等，短短几天便迅速火遍抖音，备受好评。让用户创作解压又魔幻的视频内容，成为短视频创作者的”流量密码”。心情不好，“爆炸”一下！进入PixVerse，选择特效【万物皆可羊毛卷】，上传照片，卷起！来源：AI工具集

OpenAI 推出 Projects，功能全家桶打造 ChatGPT 新交互方式，迈向“万能应用”

OpenAI在“OpenAI 12天”活动第7天推出了ChatGPT的新功能Projects，功能支持用户上传文件、自定义指令、分组聊天和数据管理，整合Canvas和ChatGPT Search，提升用户体验。通过Projects，用户可以更便捷地执行写作、研究、编程和网络搜索等任务，为多步骤任务执行奠定基础。目前，已向ChatGPT Plus、Pro和Teams用户开放，企业版和教育版用户将在新年初获得访问权限。来源：AI工具集

久等了，DeepSeek开源 DeepSeek-VL2 MoE视觉模型：支持动态分辨率、解析梗图等

DeepSeek推出DeepSeek-VL2 AI视觉模型，模型采用DeepSeek-MoE架构结合动态切图技术，提升视觉能力。模型在视觉定位、梗图解析、OCR和故事生成等方面展现出新能力。DeepSeek-VL2在多项评测中取得优异成绩，支持动态分辨率图像和长宽比，能更好地理解和生成视觉内容。来源：AI工具集

上新！阶跃星辰 Step-1o 千亿参数端到端语音大模型来啦！

阶跃星辰发布国内首个千亿参数端到端语音大模型Step-1o。模型支持语音和文本混合输入输出，具备高智商和情商，能理解语音背后的情绪信息，提供专业建议和情绪陪伴。Step-1o能创作生动的故事，适用于新闻播报、聊天陪伴等多个场景。近期将接入跃问App，提供实时语音通话服务。来源：AI工具集

360 自研 AI 大模型 360gpt2-o1 正式上线，数学与逻辑推理新标杆

360推出新一代AI大模型360gpt2-o1，模型结合多模态和新推理范式，具备自我反思与纠错能力。在数学和逻辑推理任务中，360gpt2-o1超越了前代模型及GPT4o等竞争对手。模型通过合成数据优化、后训练和“慢思考”技术，显著提升推理能力。现已在360智脑API平台上线，供用户和开发者使用。来源：AI工具集

Meta 发布 Motivo AI 模型，打造更逼真元宇宙体验

Meta发布 Meta Motivo AI模型，通过控制类人数字智能体的动作来提升元宇宙体验。模型基于行为训练，在Mujoco模拟器中使用AMASS动作捕捉数据集和3000万在线交互样本，通过无监督强化学习算法预训练，展现出更接近人类的行为。来源：AI工具集

12月13日·周五

快手开源全球首个”多视角视频生成”工具，解锁无限视角！

快手开源全球首个”多视角视频生成”工具SynCamMaster，能从任意视点生成开放世界视频，解决了多视点间动态一致性问题。SynCamMaster通过即插即用模块增强预训练的文生视频模型，实现多摄像机视频生成，确保不同视点的内容一致性。实现出色的视点间同步，可扩展到新视图合成任务中。来源：AI工具集

巨人网络发布”千影”有声游戏大模型，加码”游戏+AI”赛道

巨人网络在2024年度中国游戏产业年会上发布”千影 QianYing“有声游戏生成大模型，包括游戏视频生成大模型YingGame和视频配音大模型YingSound。YingGame支持开放世界游戏角色动作交互控制和物理仿真特性，YingSound能为视频添加逼真音效。巨人网络AI实验室将推进模型升级，推动游戏创作平权时代的到来。来源：AI工具集

微软推出14B参数小语言模型 Phi-4：专攻数学等领域复杂推理

微软近日推出14B参数的小型语言模型Phi-4，模型在传统语言处理能力之外，特别擅长数学等领域的复杂推理。Phi-4在数学竞赛问题上的表现超越了多个更大规模的模型（如70B的Llama 3.3和72B的Qwen 2.5）。已将Phi-4在Azure AI Foundry上开放使用。来源：AI工具集

OpenAI 数据中心提供商Crusoe融资6亿美元，估值28亿美元

OpenAI的数据中心提供商Crusoe在最新一轮融资中筹集了6亿美元，由Founders Fund主导，Nvidia、Fidelity等参与，公司估值达到28亿美元。Crusoe开发AI数据中心，出租Nvidia GPU的云服务。公司正在德克萨斯州阿比林建设大型数据中心园区，将为Oracle和OpenAI提供服务，已筹集34亿美元债务以资助配备Nvidia下一代旗舰芯片Blackwell的项目。来源：Z Potentials

Google 发布了「虚拟现实」版 Android XR，想让你把熟悉的应用「戴在头上」

Google发布了全新的Android XR操作系统，专为下一代计算构建，兼容各种XR设备，从VR头显到AI眼镜。系统以Android为底层，集成AI能力，提供沉浸式体验，如实时信息查询和多窗口功能。Google提供开发工具包，帮助开发者将2D Android应用快速适配到XR平台。首批搭载Android XR的设备包括三星的Project Moohan VR头显，与高通合作的AR眼镜。来源：极客公园

千寻智能一年三轮融资数亿元，构建下一代智慧劳动力

千寻智能由产业老兵和清华教授联合创立的具身智能初创企业，已完成三轮融资数亿元。公司采用”数据金字塔”模式，结合互联网视频数据、仿真数据、遥操数据和强化学习，构建能控制各类机器人执行任务的具身模型，目标是打造下一代智慧劳动力。来源：Z Potentials

OpenAI版《Her》全量来袭：实时视频对话，你每个动作AI都看得见

OpenAI直播第六天，推出”Santa Mode”（圣诞模式），实现《Her》式视频通话功能。可通过点击”雪花”与AI进行圣诞老人风格对话，开启摄像头让AI”看见”你。新功能包括实时视频通话、屏幕共享和图片上传，即日将在ChatGPT移动应用中推出。一周内，将向所有团队用户以及大多数Plus和Pro用户开放。来源：量子位

12月12日·周四

谷歌深夜炸场：Gemini 2.0 正式发布，主打Agent+多模态

谷歌发布新一代AI模型Gemini 2.0，性能是前代1.5 Pro的两倍，支持多模态输入输出，包括图像、视频、音频等，可以原生调用 Google Search、代码执行以及第三方用户定义的函数等工具。新模型集成了深度研究功能，能生成复杂主题的研究报告，目前仅对Gemini Advanced用户使用。Gemini 2.0 Flash实验版已开放网页端试用，移动版即将推出，将扩展到旗下更多产品中。来源：AI工具集

造梦次元完成近亿元人民币融资，多家顶级风投和大厂共同投资

造梦次元完成近亿元人民币A轮融资，由锦秋基金领投，高榕创投、明势创投、商汤科技等参投。公司专注于多模态AI驱动的内容平台，提供虚拟角色互动体验，日均活跃互动时间超100分钟。融资将加速技术研发和市场拓展，优化创作者工具，拓展海外市场，重视内容安全与合规。来源：Z Potentials

百度文库AI再升级，「专业PPT生成」功能上线！打工人终于有救了

百度文库推出「专业PPT生成」功能，通过AI技术帮助用户一键生成高质量PPT。只需输入关键词或主题，可快速获得内容明确、主题突出的专业演示文稿。新功能采用商务化PPT版式，提供清晰的结构和视觉冲击力，支持个性化编辑，包括字体、颜色和动画效果，助力职场汇报和晋升。来源：百度文库服务号

OpenAI直播第五天，OpenAI正式成为苹果AI的”贤内助”

OpenAI与苹果达成合作，将ChatGPT集成进iOS、iPadOS和macOS系统。此次整合包括Siri协同、写作工具增强和iPhone相机控制功能。用户可通过Siri启用ChatGPT处理复杂任务，撰写和总结文档，基于视觉智能分析拍摄对象。合作使OpenAI成为苹果AI的“贤内助”，直接触达数十亿苹果设备用户，可能改变科技行业格局。来源：腾讯科技

谷歌发布智能体原型 Mariner，能帮用户操作表格、在线购物

谷歌发布名为 Mariner 的智能体原型，基于Gemini 2.0 AI模型，能自主浏览网站执行电子表格、在线购物等操作。Mariner旨在与用户协作，如在购物时可将商品加入购物车，但购买需用户完成。目前仅对少数测试者开放，处于实验阶段。来源：AI工具集

全球首个”AI 程序员”Devin 全面开放：可独立开发/修复bug，月费500美元

全球首个AI程序员Devin已全面开放，支持个人开发者和团队以每月500美元订阅服务，包括Slack集成、IDE扩展和技术支持。Devin能熟练使用多种编程语言，独立完成网站和应用构建、部署，能发现修复代码缺陷。Devin采用沙盒计算环境，内置代码编辑器和浏览器，能快速学习和适应新技术，理解复杂的编程上下文。来源：IT之家

MidJourney 上线 Patchwork：用户化身“造物主”，AI 构造故事宇宙

Midjourney推出 Patchwork 叙事工具，打造AI驱动的沉浸式故事世界。适用于小说作者、游戏开发者和艺术家等，用户在无限画布上构建角色、风格和背景故事。可以通过Midjourney账户登录，创建和保存包含所有图像链接的JSON文件，支持多达100名用户实时协作构建故事。来源：AI工具集

12月11日·周三

字节内部判断AI对话类产品天花板可能不高，提升剪映即梦优先级

字节跳动反思AI对话产品如豆包的局限性，认为可能仅为AI产品的“中间态”。豆包用户活跃度不高，日均使用时长和频次增长有限，商业化前景不明。字节计划资源转移至多模态产品，提升即梦产品优先级，探索更视觉化、低门槛的AI产品，打造AI时代的“抖音”。剪映月活高达1.7亿，全球排名第二。来源：智能涌现

面壁智能完成新一轮数亿元融资，CEO称大模型正进入“真刀真枪”阶段

面壁智能完成数亿元新一轮融资，由龙芯创投等联合领投，北京市人工智能产业投资基金跟投。面壁智能将加速端侧AI大模型商业化，以高性能、低能耗技术服务行业。CEO李大海表示，大模型技术进入实战阶段，面壁智能在端侧智能领域保持竞争力，致力于将高效AI技术带入各行各业。来源：钛媒体AGI

OpenAI直播第四弹：Canvas全量开放，人+AI协作模式启动

OpenAI宣布ChatGPT的Canvas功能全量开放，从聊天工具升级为生产力工具。Canvas整合进ChatGPT，支持用户与AI共同完成写作和编码项目。在Canvas上直接运行Python代码和Customgpt调用能力。OpenAI展示了Canvas的文字编辑、审稿、编程和图片识别功能，这一变革使ChatGPT更像一个拥有超强智能的Google Docs。来源：机器之心

文小言电脑版正式发布，支持Windows和Mac免费下载，双端协同

文小言电脑版正式发布，支持Windows和macOS系统免费下载，实现与APP的双端协同和消息互通。可以一键拖拽解析多种格式文件，针对原文提问，获得有据可依的回答。提升文本创作的效率，支持边搜索边编辑功能。来源：AI工具集

DeepSeek V2 系列 AI 模型收官，推出 DeepSeek-V2.5-1210，联网搜索上线

DeepSeek官方推出V2系列AI模型 DeepSeek-V2.5-1210 上线，支持联网搜索功能。模型在数学、代码、写作等方面取得进步，优化了文件上传。可在网页端体验搜索功能，API暂不支持。模型能分析网页信息，提供全面、准确答案。DeepSeek宣布V2系列模型收官，将告一段落，正在打造更强大的下一代基座模型 DeepSeek V3，敬请期待。来源：AI工具集

ChatGPT语音负责人创业AI语音，a16z首轮重注4000万美金

前ChatGPT语音负责人Conneau，创立 WaveForms AI 专注于音频LLM的新公司，旨在2025年前推出与OpenAI和Google竞争的AI音频产品。已获得a16z领投的4000万美元种子资金，开发能“用耳朵感受AGI”的技术，强调人机互动应与人际互动互补，而非取代。来源：Z Potentials

12月10日·周二

字节视频生成模型PixelDance上线豆包，每日免费生成10个视频

字节跳动的PixelDance视频生成模型在豆包电脑版开启内测，用户每日可免费生成10个视频。模型于9月底首次发布。内测反馈，10秒视频切换3-5次镜头效果最佳，场景和角色保持一致性。豆包将持续优化，助力用户创作。来源：IT之家

智源研究院开源3D生成模型See3D，看3.2亿帧视频学会3D生成

智源研究院推出无标注视频学习的3D生成模型See3D，采用新型视觉条件技术，能从大规模互联网视频中生成几何一致的多视角图像。See3D支持零样本和开放世界的3D生成，无需昂贵的相机标注，具备高效的3D编辑和表面重建能力。模型、代码、Demo均已开源。来源：AI工具集

OpenAI 正式推出视频生成王者 Sora ，网页挤爆了！

OpenAI 正式发布视频生成大模型 Sora 及其新版本 Sora Turbo，提供1080p分辨率、最长20秒的视频生成能力，支持宽屏、竖屏和方形比例。Sora Turbo版本提升了生成速度。所有视频带有C2PA元数据以验证来源。ChatGPT Plus用户每月可免费生成50个480P视频，Pro用户（月费200美元）享有更高分辨率和更长时长。来源：机器之心

北京国资独家投资，小米投资首家工业大模型公司小雨智再造获亿元A轮融资

北京小雨智造科技有限公司宣布完成亿元A轮融资，由北京信息产业发展投资基金独家投资。公司专注于工业领域大模型机器人技术，为机器人打造“通用大脑”。小雨智造已与松下等企业合作，推进智能焊接机器人市场，在航空航天、船舶制造等领域布局。来源：钛媒体AGI

谷歌发布最强量子芯片 Willow，5分钟颠覆138亿年计算极限

谷歌宣布最新量子芯片Willow取得重大突破，在基准测试中5分钟内完成一项标准计算，而最快的超级计算机需超过10^25年。Willow芯片破解了近30年的量子纠错挑战，能在更多量子比特下成倍减少错误。来源：AI工具集

12月09日·周一

商汤办公小浣熊2.0，上新！AI原生一站式创作空间来了

商汤科技推出升级版的办公小浣熊2.0，集成多项AI功能，包括信息检索、方案输出、文档创建和智能规划，用户通过“规划、分析、写作”三步法高效完成工作任务。升级版增强了数据分析和文档解析能力，可以通过对话生成文档，实时进行数据可视化和分析。来源：AI工具集

马斯克新文生图模型Aurora闪现！网友抢时间疯狂实测：人物生成超逼真

马斯克的xAI公司短暂上线新文生图模型Aurora，生成的人物图像逼真又高清。Aurora能理解简单的提示生成高质量的图像，能生成受版权保护角色和公众人物图像。模型上线数小时，网友已抢先进行实测，在人物写实生成方面表现出色。马斯克表示只是测试版，将很快改进。来源：AI工具集

英伟达发布大模型NVILA，专注于优化准确性和效率

英伟达发布新型开放式视觉语言模型NVILA，专注于提高准确性和效率。与LLaVa OneVision模型相比，NVILA的训练成本降低了4.5倍，微调内存减少了3.4倍，预填充和解码延迟降低了近2倍。在视频基准测试中表现优于GPT 4o Mini。来源：AI工具集

智谱AI再放大招！全新多模态模型 GLM-4V-Flash 免费开放！

智谱AI推出首个免费多模态模型 GLM-4V-Flash ，该模型基于4V系列，提升图像处理精确度，降低开发门槛。模型支持26种语言，具备图像描述生成、分类等高级功能，适用于信息提取、内容创作等多个场景。来源：AI工具集

Meta今年压轴开源 AI 大模型Llama 3.3，700亿参数，性能比肩4050亿

Meta发布AI大模型Llama 3.3，拥有700亿参数，性能媲美4050亿参数的Llama 3.1。模型效率更高、成本更低，支持8种语言，可在标准工作站上运行。采用优化的transformer架构，通过SFT和RLHF微调，确保与人类偏好一致。上下文长度为128K，支持与外部工具集成。来源：AI工具集

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

OpenAI的第2天直播推出新功能“强化微调”，仅需几十个例子可创建特定领域的专家模型。CEO奥特曼称为2024年最大惊喜。微调后的o1-mini模型得分提高80%，超过o1正式版。OpenAI已开启研究计划，支持开发者申请强化微调API的alpha版本。来源：量子位

马斯克 xAI 公司 Grok AI 聊天机器人向免费用户开放，不再是会员专属

马斯克的AI聊天机器人Grok已向X的免费用户开放，每两小时可最多发送10条消息。Grok定位为幽默型AI助手，今年增加了文生图功能，用的是Flux模型。来源：钛媒体AGI

12月06日·周五

LiblibAI x 星流：正式推出新一代自研图像大模型Star-3 Alpha

LiblibAI今日宣布推出新一代自研图像大模型Star-3 Alpha。模型基于F.1基础算法架构，提升图像精准度、色彩表现力和美学捕捉能力，提供高级感和真实感。可通过星流官网、Lib官网在线生图功能及API开放平台体验。来源：AI工具集

通义实验室开源 ClearerVoice-Studio，高效去除背景噪声

阿里通义实验室语音团队开源ClearerVoice-Studio技术框架，集成语音增强、分离和音视频说话人提取功能。通过复数域深度学习算法，有效消除背景噪声，保留语音清晰度，保持语音失真最小化。可在Github和HuggingFace Space上查看和试用。来源：AI工具集

谷歌DeepMind推出AI气象预测模型GenCast，8分钟预测15日天气

DeepMind气象预测大模型GenCast在Nature发表，能在8分钟内完成15天的天气预报，准确度超过全球顶尖中期天气预报系统ENS。GenCast基于扩散模型和Transformer技术，分辨率为0.25度经度/纬度。在1320种实验条件下，GenCast在97.2%的任务中比ENS更准确，在36小时后的预测中表现突出。来源：AI工具集

豆包大模型团队开源FullStack Bench代码全新基准，覆盖超11类真实编程场景

字节跳动豆包大模型团队开源全栈编程代码评估数据集FullStack Bench。FullStack Bench覆盖超11类真实编程场景和16种编程语言，包含3374个问题，有效评估大模型代码开发能力。为AI在真实编程场景中的表现提供快速评估参考。来源：AI工具集

OpenAI第一场直播就炸场！o1满血版上线，ChatGPT Pro订阅费：200美元/月

OpenAI发布最强推理模型o1满血版及其Pro版本，ChatGPT Pro订阅计划定价为200美金/月，成为全球最贵的大模型订阅服务。满血版o1在数学、代码能力上显著提升，推理速度比预览版快60%，支持多模态输入。Pro版本为订阅用户提供o1满血版的不限量访问权限，展示在高难度科学问答上的卓越表现。来源：量子位

12月05日·周四

海螺AI推出图生视频模型I2V-01-Live，让静态二维图像动起来

海螺AI推出图生视频模型I2V-01-Live，能将静态图像转成动态视频。模型基于深度学习，增强动作流畅度和真实性，支持多风格适配。上传2D插图，选择I2V-01-Live模型即可生成动态视频。来源：AI工具集

DeepMind最强「基础世界模型」诞生！单图生1分钟游戏世界，解锁下一代智能体

谷歌DeepMind发布第二代基础世界模型Genie 2，能从单图生成长达1分钟的3D游戏世界。支持键盘鼠标操作，模拟复杂交互和物理效果，为具身智能体提供无限训练数据。Genie 2的涌现能力包括物体交互、角色动画、物理效果等，为AI研究和游戏开发带来新可能。来源：新智元

谷歌领跑AI视频生成赛道：抢先 OpenAI Sora推出Veo模型，可生成1080P高清视频

谷歌宣布在Vertex AI平台上推出Veo模型的私测预览版，面向企业开放。Veo模型能根据文本或图像提示生成1080p高清视频，提供多种视觉风格。Veo生成的视频逼真度极高，如狗狗的毛皮和项圈在运动中保持一致，难以区分是否由AI生成。来源：IT之家

OpenAI官宣12天12场新品发布会

OpenAI宣布将举行为期12天的系列活动，期间每天发布一个新产品或样品。活动将包括备受期待的文字转视频工具Sora和新的推理模型。OpenAI CEO透露，周活跃用户数已超3亿，目标是到2025年增至10亿。来源：财联社

红杉美国最新洞察：2025 年将是 Agent 元年！AI 智能体进入“群体协作”时代

红杉美国合伙人Konstantine Buhler预测，2025年AI智能体将进入“群体协作”时代，多个智能体网络将协作完成复杂任务。他强调，AI技术将在医疗和教育领域发挥重要作用，降低成本、提高效率，推动社会进步。来源：有新Newin

12月04日·周三

文心一言上线“深度写作”专业版功能：会自己搜素材的AI写作

百度AI推出文心一言“深度写作”专业版，能自动搜索素材并创作个性化文章。可通过上传资料或网盘素材，使内容更具体。适用于多种文档创作，模板将持续更新。来源：百度AI

刚刚！字节跳动豆包上线图片理解，大模型走向多模态

字节跳动豆包APP和PC端新增图片理解功能，能识别图片内容并回答相关问题，如景点位置和动漫人物身份。标志着AI大模型向多模态发展，更加实用。豆包已成为中国日活用户最高的AI大模型产品，AI应用行业月活跃用户规模同比增长373%。来源：钛媒体

亚马逊年末甩王炸！6款大模型、3nm AI芯片、全球最大AI计算集群，苹果罕见站台

亚马逊在AWS re:Invent大会上宣布将推出6款大模型和3nm第三代AI训练芯片Trainum3，以及最强AI服务器Trn2 UltraServer。Amazon Nova系列模型涵盖文本、图像和视频，Reel模型支持生成6秒视频。AWS与Anthropic合作构建全球最大AI计算集群，Bedrock服务更新包括自动推理检查、多Agent协作和模型蒸馏功能.来源：智东西

即梦2.1模型上线，一键生成图文融合设计图

字节即梦AI发布全新绘图模型v2.1，10秒内一键生成中文海报。解决了中文嵌入问题，支持直接在图片上绘制中英文字体，具有高审美和泛化能力。可通过简单描述生成个性化海报，但需注意避免抄袭。来源：AI工具集

The Browser Company计划推出新型AI网络浏览器Dia

The Browser Company计划于2025年推出新款AI网络浏览器Dia。Dia具备人工智能功能，如从互联网获取事实、提供写作灵感、总结网页内容，能从打开的标签中复制信息，如亚马逊链接，插入电子邮件。来源：AI工具集

WPS Office推出 WPS AI 语音速记功能

WPS Office推出了WPS AI语音速记功能，通过WPS AI技术得到增强，与WPS云文档深度整合。支持实时录音和音频导入转文字，实现中英等多种语言互译，确保录音文件的完整性。声纹识别和AI自动总结功能提高转写准确率和速度，提供无缝衔接，确保高安全性能。来源：AI工具集

12月03日·周二

腾讯正式发布AI视频产品：腾讯混元文生视频，预计下月推出图生视频模型

腾讯今日正式推出了“腾讯混元文生视频”AI视频生成工具，该模型在指令遵循、动态表现、画面稳定性等方面表现出色，尤其在科幻、魔幻风格上给人惊喜。用户可以在腾讯元宝免费体验，每天免费3次。同时，腾讯混元文生视频已在Hugging Face和Github上开源，提供130亿参数的模型、权重和推理代码，供开发者免费使用。来源：AI工具集

全面对决Suno，国产AI音乐三巨头的突围之战

国内AI音乐领域三巨头——字节跳动的海绵音乐、昆仑万维的天工SkyMusic和趣丸科技的天谱乐，正与全球顶级产品Suno展开激烈竞争。通过提供个性化音乐生成、多模态配乐等创新功能，降低音乐创作门槛。来源：钛媒体

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等

快手宣布“可灵AI”导演共创计划作品将于12月6日上线，计划自9月9日启动，由9位导演联合发起，涵盖多种题材。9部短片全部由可灵AI进行视频生成。可灵AI服务用户已超500万，累计生成5100万个视频和1.5亿张图片，商业化单月流水超千万人民币。来源：IT之家

全网热评的李飞飞世界生成模型，真的能构建物理世界吗？

李飞飞的空间智能World Labs发布了世界生成模型，一个能从单张图片生成3D物理世界的AI系统，引起AI界热议。该技术突破在于直接生成三维场景，遵循物理规则，具有深度感和空间感，能实现场景控制和动态效果。来源：腾讯科技

OpenAI考虑在AI产品中引入广告

OpenAI首席财务官Sarah Friar透露，公司正在考虑将广告引入AI产品中，寻求新的收入来源。目前没有积极推进广告业务的计划，公司对探索其他收入渠道持开放态度。广告经验团队包括曾在Instagram和谷歌搜索广告团队任职的成员。目前，OpenAI主要通过出售AI模型API访问权限、ChatGPT会员收入和与微软合作获得收益。来源：第1财经

360推出的自研360智脑7B参数大模型升级版

360公司推出了自研AI大模型360智脑7B参数的升级版——360Zhinao2-7B。在中英文通用能力、数学逻辑推理能力方面有显著提升，在国内外同尺寸开源模型中多项能力排名第一。模型基于Transformer架构，采用自注意力机制和优化策略，已在GitHub和HuggingFace模型库上线。来源：AI工具集

12月02日·周一

微信公众号后台新增“AI 配图”功能，支持文章配图和封面配图

微信公众号后台最近推出了“AI 配图”功能，支持创作者通过简单的文字描述在十几秒内生成四张风格和比例可调的候选图片，用于文章配图。极大提高了内容创作的效率，还有效规避了图片版权问题，增强了内容生产的安全性。同时，文章封面图也支持AI配图。来源：IT之家

ChatGPT两岁，OpenAI 10亿用户计划曝光！

ChatGPT 已经2岁了！OpenAI下一个目标瞄准十亿用户，预计明年放出AI智能体产品。就在生日这天，马斯克还送上了大礼：阻止OpenAI全面盈利的一份诉状书。来源：新智元

实测腾讯元宝2.0：图文视频啥都能搜，论文绘画全搞定

腾讯元宝2.0全新升级，集成AI搜索、阅读、生图等功能，打通公众号、视频号等资源，提供深度研究、脑图整理服务。新增创意绘画、灵感图库、AI美照等图片功能，以及应用广场。同时整合腾讯文档、电脑管家、搜狗输入法，提升工作效率和用户体验。来源：量子位

可灵AI新增「AI换衣」功能！1.5 模型支持「首尾帧」

可灵AI 推出新功能“AI试衣”，用户只需2张图即可解锁新造型。1.5模型支持高品质视频制作，新增“首尾帧”功能，5s/10s均支持使用首尾帧。可灵AI 上线「灵感学院」！新手入门免费课程，帮你快速上手可灵AI。来源：可灵AI

对话智谱CEO张鹏：大家对大模型期待过高，Scaling Law还有很大增长空间

CEO张鹏认为，大家对大模型期待过高，但Scaling Law仍有增长空间。智谱AI定位“开放平台”，聚焦基座模型研发，已获九轮融资近60亿元，致力于AI智能体应用，推动人机交互变革。来源：钛媒体

11月29日·周五

智谱 OpenDay：全新发布AutoGLM Agent家族，用AI操控一切

智谱AI在OpenDay上发布了Agent家族，包括升级版AutoGLM、AutoGLM-Web和GLM-PC，分别对应手机、浏览器和PC电脑三个形态。AutoGLM的“Phone Use / Computer Use”能力支持跨APP操作，预示着LLM OS全新时代正式到来了。AutoGLM现在支持更多主流应用（微信、美团、滴滴、小红书、知乎、GitHub等），并能执行复杂的跨应用任务，GLM-PC则支持用户通过手机远程控制电脑。来源：AI工具集

张军：腾讯混元大模型 12 月 3 日将上线视频生成能力

腾讯公司公关总监张军宣布，腾讯混元大模型 12 月 3 日正式上线视频生成能力，用户可以在腾讯元宝 App 中提交申请试用。企业客户通过腾讯云提供服务接入，目前 API 同步开放内测申请。同时，腾讯也将开源该视频生成大模型，参数量 130 亿。来源：IT之家

ComfyUI 桌面客户端终于来啦！支持 Mac/Windows 一键安装（附下载链接）

Comfy团队推出官方ComfyUI客户端，支持Windows和Mac，并且在GitHub开源。ComfyUI客户端支持直接导入工作流和模型路径，简化了配置流程。对于新手用户，ComfyUI提供了易于上手的模板，并能自动下载所需模型，极大提升了用户体验。来源：AI工具集

中国石油发布 700 亿参数昆仑大模型，与中国移动、华为、科大讯飞联手打造

中国石油与中国移动、华为、科大讯飞合作发布了700亿参数昆仑大模型。模型展示了43个专业和通用应用创新场景，语言大模型参数从330亿升级至700亿，显著提升了自然语言处理等能力。同时，昆仑大模型构建了我国首个勘探全领域专业大模型，并按需构建了21个场景大模型。来源：中国石油报

我去华强北走了一圈，发现这里正被另一种AI包围

华强北，中国电子制造中心，正被AI技术包围。市场上出现了AI翻译机、AI吉他、AI手机壳等创新产品。尽管华强北以电子元器件和手机配件为主，但其强大的组装能力为AI硬件创新提供了巨大潜力。来源：硅星人

小马智行纳斯达克挂牌上市，摘得Robotaxi第一股

小马智行（Pony.ai）于11月27日在纳斯达克上市，股票代码“PONY”，成为全球Robotaxi第一股。公司计划以每股13美元发行2300万股ADS，融资额可达2.99亿美元，若超额配售权行使，IPO总募资额约4.52亿美元。小马智行自2018年推出Robotaxi服务，技术核心为“虚拟司机”，已与多家车企和出行平台合作，致力于推动自动驾驶技术商业化落地。来源：Pony.ai小马智行

11月28日·周四

Kimi 内测 AI视频生成功能“Kimi创作空间”，每天可免费生成100秒视频

Kimi 内测 AI视频生成功能“Kimi创作空间”，通过12种预设风格模板和自定义创作功能，让用户轻松制作个性化音乐视频。用户每天可以免费生成100秒视频，支持添加个性化音乐和详细场景描述。Kimi创作空间简化了视频制作过程，无需专业技能即可创作高质量、逼真效果的音乐视频。来源：AI工具集

阿里发布推理模型QwQ-32B-Preview，性能超OpenAI o1-preview

阿里巴巴开源了名为 QwQ-32B-Preview 的AI推理模型，该模型包含325亿参数，能处理长达32000个tokens的提示词，擅长数学和编程领域的复杂推理任务。在多个基准测试中，QwQ-32B-Preview超越了OpenAI的o1模型。来源：AI工具集

月之暗面Kimi 联合清华大学等机构，开源共建大模型推理架构 Mooncake

月之暗面Kimi联合清华大学等机构推出了大模型推理架构 Mooncake，项目以KVCache为中心，通过以存换算理念减少算力开销，提升推理吞吐量。Mooncake可以提高大模型在处理任务时的效率和性能，提升推理速度、降低成本、满足处理长文本和高并发需求。就像是为AI模型提供了一个更高效、更省钱的“加速器”，让它们能更好地服务于各种应用，比如智能助手、数据分析等。来源：月之暗面

《ChatExcel Pro使用教程》上线，3分钟学会用AI Excel解决所有表格问题

元空AI推出的ChatExcel Pro使用教程正式上线，该教程包含Excel处理、数据运算、数据分析和图表生成四大板块，帮助用户通过AI Excel自动化完成工作任务。教程提供练习表格和提示词，用户可通过自然语言描述需求，快速掌握操作。ChatExcel支持多表合并、数据查找、逻辑运算等多种功能，大幅提高数据处理速度和准确性。来源：元空AI

Luma AI推出全新 Dream Machine：自然语言交互与AI创作新时代

Luma AI的 Dream Machine 推出了全新的AI交互方式，用户现在可以用自然语言进行流畅交互。新功能包括图像生成、视频创作和灵感激发等，其中DM 1.6模型支持首尾帧视频生成，而Luma Photo模型则提供内容混合和风格保持。Dream Machine 还特别设计了一个 Brainstorm 按钮助力用户创意思考，所有功能对公众免费开放。来源：AI工具集

11月27日·周三

360公司上线“纳米搜索”App，周鸿祎将与百度上演“AI 搜索大战”

360集团发布了名为“纳米搜索”的AI搜索应用，直接对标百度等竞争对手。纳米搜索支持文字、语音、拍照、视频等多种搜索方式，并集成了16款大模型，提供全方位解答方案。周鸿祎表示，纳米搜索将重新定义AI搜索，以更智能和便捷的方式满足用户需求。来源：AI工具集

Hugging Face 发布 SmolVLM 开源端侧AI模型：20 亿参数，体积小、速度快

Hugging Face 于11月26日发布了 SmolVLM AI 视觉语言模型，该模型仅有20亿参数，专为设备端推理设计，具备体积小、速度快和内存高效的特点。SmolVLM 提供三个版本：SmolVLM-Base、SmolVLM-Synthetic 和 SmolVLM-Instruct，全部开源。来源：IT之家

国产大模型首发中文逻辑推理，「天工大模型4.0」o1版来了

昆仑万维推出了国内首款具备中文逻辑推理能力的大模型“天工大模型4.0”o1版（Skywork o1），包含三款模型，其中开源版本Skywork o1 Open参数为8B，显著提升数学和代码指标，并解锁了数学推理任务。Skywork o1 Lite和Preview版本展现了更快的推理速度和深度思考能力。来源：机器之心

阿里通义万相推出图像编辑模型ACE，可实现一键P图

阿里通义万相团队推出了图像编辑模型 ACE ，该模型支持通过口语化指令一键生成和编辑图片，适用于风格化写真、分镜制作和室内设计等场景。ACE模型已开源，具备文生图和图像编辑功能，能实现PS级编辑效率，其局部风格化功能已上线通义APP。来源：AI工具集

创意无限：谷歌推出 GenChess，可 AI 定制国际象棋棋子

谷歌DeepMind团队推出 GenChess AI工具，庆祝2024年国际象棋世界冠军赛。用户可通过“classic”或“creative”模式定制国际象棋棋子，如输入“cat”生成猫科动物主题棋子。GenChess还支持生成对手棋子，如猫对狗，增加游戏趣味性，并支持在线对战及调整难度。来源：AI工具集

华为、阿里、美团等大厂都已下场，“具身智能”会成为一场泡沫吗？

华为、阿里、美团等中国科技巨头纷纷投资具身智能领域，推动人形机器人技术发展。尽管市场热度高，但具身智能的商业化进程缓慢，许多产品仍处于试验阶段。专家预测，到2030年全球AI机器人市场规模将超2500亿人民币，具身智能机器人有望在劳动力紧张背景下迎来发展机遇。来源：钛媒体

11月26日·周二

通义App上线新功能“局部风格化”，地标建筑一夜换冬装

通义App推出了“局部风格化”的新功能，支持用户通过上传照片，一键实现对图中特定对象的风格化处理，让北京天坛、上海武康大楼、杭州六和塔等地标仿佛一夜之间“穿上”了彩色毛衣。用户可以在通义App的频道页点击万相AI生图“局部风格化”体验这项功能，首批上线了针织、毛绒、冰雕、陶瓷等七种风格模板。来源：通义

月之暗面 Kimi 全量上线 k0-math 数学模型，正式推出“Kimi数学版”

据科技自媒体沃垠AI报道，Kimi 全量上线 k0-math 数学模型，正式推出“Kimi数学版”，采用Self-play RL强化学习和Cot思维链技术，擅长解决数学和推理问题，智力程度可比博士。Kimi数学版能理解模糊表达，进行推理或运算，实测9个问题表现出色，包括自媒体粉丝增长计算、双色球中奖概率等。Kimi数学版在MATH测试中得分93.8，超过o1-mini、o1-preview。来源：沃垠AI

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力

上海人工智能实验室开放了强推理模型书生InternThinker 的试用体验，该模型具备自主生成高智力密度数据和元动作思考能力。InternThinker能在数学、代码、推理谜题等复杂任务上展现优越的推理能力，并能自我反思和纠正。实验室通过通专融合路径，提升模型的深度推理与专业泛化能力。来源：书生Intern

Claude化身服务器联通一切！AI写好代码自己发Github，程序员只配动嘴了

Anthropic公司推出的AI模型Claude现在能够作为服务器，直接连接GitHub，实现代码编写、仓库创建、代码推送等操作。Claude背后采用的 MCP（Model Context Protocol）通信协议旨在标准化AI与外部数据源和工具的集成，提高回答质量和相关性。Anthropic计划将MCP发展为行业开放标准，推动AI Agent与互联网生态的通用语言。来源：量子位

吴恩达出手，开源最新Python包，一个接口调用OpenAI等模型

AI专家吴恩达开源了名为 aisuite 的Python包，支持开发者通过统一接口调用OpenAI、Anthropic、Google等多个AI提供商的大型语言模型。用户只需更改一个字符串即可轻松切换和测试不同模型。目前支持聊天补全功能，未来将扩展到更多场景。来源：机器之心

AI 音频领域的“瑞士军刀”：英伟达推出 Fugatto，音乐制作新神器

英伟达推出AI音频生成模型 Fugatto ，被誉为AI音频领域的“瑞士军刀”。该工具能够根据文字描述或音频输入生成音乐片段、音效，并能调整人声口音和情感，甚至创造新的声音效果。Fugatto为音乐艺术家提供歌曲主唱分离、乐器添加、旋律改编等功能，极大丰富音乐创作的可能性。来源：IT之家

中国工程院院士邬贺铨：AI 正在从模型层走向“智能体”，具身智能不等于AGI

邬贺铨认为，上云仅是大模型落地的重要环节，但不是唯一的环节。上云（计算平台）不能完全解决大模型落地，还需要下沉到智能终端，如果终端能自我生成文生图、文生视频，会带动手机的更新迭代。来源：钛媒体

11月25日·周一

Cursor 0.43版本引入 Agent 功能：全面理解并编辑项目，自动完成任务

AI编程工具 Cursor 发布了0.43版本，引入了Composer Agent功能，具备项目理解与编辑能力，自动执行代码任务。同时推出Bug Finder功能，帮助提前修复代码问题。版本还包括语义搜索、文件推荐等改进，提升开发效率和体验。来源：机器之心

新晋AI编程神器 Windsurf 干翻Cursor！首创Copilots和Agents结合新范式

美国初创公司Codeium推出新晋AI编程工具 Windsurf ，支持结合 Copilots 和 Agents 创造协作型智能体Flow，深度理解代码库，实时感知用户操作。新功能 Cascade 通过语音指令实现代码编写，无需候补或邀请码，所有人皆可使用。来源：AI工具集

Lightricks 开源实时视频生成模型 LTX Video，能在4秒内生成5秒高质量视频

Lightricks公司宣布开源其视频生成模型 LTX Video，该模型能在4秒内生成5秒高质量视频，具备实时处理能力，可扩展至长视频，并能在消费级硬件上高效运行。联合创始人Zeev Farbman强调，开放技术是初创企业竞争的关键，他们希望全球顶尖大学能使用并扩展其模型功能。来源：AI工具集

阿里发布开源AI数字人项目 EchoMimicV2 ，一张图片生成半身数字人动画

阿里巴巴近期正式发布了 EchoMimicV2 ，通过输入一张图片、一段手势视频和一段音频，该技术能基于音频剪辑、参考图片和手部姿势生成高质量动画视频，实现语音与动作的同步。EchoMimicV2不仅扩展了功能，从生成数字人头部动画到完整的半身数字人动画，还支持中英文驱动，提升了画面的稳定性和流畅性。来源：AI工具集

Runway 获得新技能：更改视频比例，图片拥有“电影级”运镜

视频生成AI公司 Runway 推出“Expand Video”功能，支持用户通过文本提示生成额外内容并调整视频比例，保持视觉效果统一。该功能支持动态摄像效果，如快速变焦和拉远镜头，静态画面更加具有电影感。“Expand Video”将逐步向Gen-3 Alpha Turbo用户开放。来源：IT之家

Anthropic再获40亿美元新融资，生成式AI持续火热

Anthropic获得亚马逊40亿美元新融资，总投资额增至80亿美元，成为全球AI企业融资之最。公司与AWS的AnnapurnaLabs合作，共同开发Trainium加速器，旨在提升机器学习硬件性能。其产品 Claude 助力企业如辉瑞加速药物研发，简化Intuit税务计算，帮助 Perplexity 提升搜索引擎效率。来源：腾讯新闻

喊着干掉网站和app的AI公司们，却在豪掷数亿疯抢网址域名

AI公司在宣称AI将取代传统网站和应用的同时，却在域名市场上豪掷数亿人民币。OpenAI以1550万美元购得chat.com，欲将“chat”打造为新时代的“google”。安圭拉因拥有.ai域名后缀，从AI创业潮中获益，域名收入占其GDP的10%以上。国内AI公司则通过注册多个备选域名来应对域名争夺战。来源：硅星人

11月22日·周五

阶跃星辰推出AI视频生成工具跃问视频，免费开放内测

阶跃星辰推出AI视频生成工具跃问视频，支持文生视频功能，用户可以一键生成最长10秒视频。视频创作主题覆盖城市、科幻、自然等多个领域，跃问视频提供创意灵感和视频描述优化服务，提升视频生成内容质量。目前已开放内测申请，免费体验。来源：AI工具集

重磅！OpenAI考虑开发AI浏览器，已聘请2位Chrome浏览器创始人

OpenAI正考虑开发一款结合聊天机器人的AI浏览器，并已与多家网站和应用开发商讨论搜索功能合作。公司还聘请了两位Chrome浏览器创始人，若推出浏览器，将成为Google的直接竞争对手。来源：Z Finance

谷歌 Gemini 突发试验版模型：重回竞技榜第一，新版 GPT-4o 只领先了 1 天

谷歌与OpenAI的竞争升级，谷歌发布Gemini-Exp-1121模型，超越OpenAI的GPT-4o重回竞技榜第一。Gemini-Exp-1121在代码、推理和视觉理解能力上均有显著提升，性能全面领先。同时，OpenAI在ChatGPT测试版中被发现有“实时摄像”视频功能代码，预示着未来交流方式可能转向语音和视觉识别。来源：量子位

李彦宏：百度文库 AI 功能月活用户超 5000 万，同比增长超 300%

百度创始人李彦宏在财报电话会上宣布，百度文库AI功能月活用户超5000万，同比增长超300%。第三季度订阅收入同比增长23%。百度文库与百度网盘联合推出“自由画布”工具，首日吸引超20万人预约。百度还发布了AI原生应用“橙篇”和“AI文档助手”，提供文件理解、总结、问答及文档辅助写作功能。来源：百度

大模型人人皆可“炼”，讯飞星辰MaaS平台精调门槛再降低

科大讯飞推出AI大模型定制训练平台讯飞星辰，汇集20多个优质模型，支持零代码微调，降低精调门槛。平台提供全生命周期管理，覆盖内容创作、代码、逻辑推理等多场景。近期，模型与数据集丰富度及功能特性完成全新升级，增强数据工程能力，支持多种数据集格式，提供高级参数配置，满足专业开发者需求。来源：AI工具集

11月21日·周四

智谱 CodeGeeX 好友助力活动正式开启，赢积分可兑iPhone 16

CodeGeeX 于11月21日启动好友助力活动，奖品包括iPhone16、大疆Pocket、Switch等。用户通过分享专属邀请码邀请好友参与，积分累计可解锁奖品。活动持续一周，老用户邀请新用户可获得额外积分，积分排名靠前者有机会获得丰厚奖品。了解活动详情。来源：AI工具集

推理模型 DeepSeek-R1-Lite 预览版上线，号称媲美 OpenAI o1-preview

DeepSeek-R1-Lite推理模型预览版上线，宣称推理效果媲美OpenAI o1-preview。该模型在数学、代码和逻辑推理任务上表现优异，尤其在AMC AIME和codeforces竞赛中超越GPT-4o等模型。目前仅网页可用，官方计划未来完全开源正式版，并提供API服务。来源：AI工具集

扣子Coze OpenAPI进军智能语音领域，提供音色克隆等功能

扣子Coze OpenAPI进军智能语音领域，提供低延时、定制化、随时打断和音色克隆等功能。该技术整合了扣子强大的智能体生态，支持无限游戏、查询天气新闻、口语练习等多种功能。通过智能语音对话OpenAPI，用户可将智能实时对话能力引入自己的应用，如微信小程序、游戏等。目前正处于内测阶段，可免费申请。来源：机器之心

微软发布 AI Shell 工具，为命令行插上 AI 翅膀

微软发布了AI Shell命令行工具，通过AI简化编码、排查错误和自动化工作流程，为开发者和IT专业人员提供智能化的命令行体验。该工具核心包括Azure OpenAI Agent和Copilot in Azure Agent两个AI智能体，支持自然语言查询、代码生成和Azure CLI命令建议。来源：IT之家

OpenAI 重夺竞技场第一：ChatGPT-4o 登顶，击败谷歌 Gemini

OpenAI在新加坡开发者日上发布了新版ChatGPT-4o，重点提升了创意写作能力，在竞技场排名中重夺第一。新版4o在创意写作、代码能力和困难任务等方面均有所提升，胜率显著。同时，增加了敏感话题内容政策的护栏功能，确保对话安全。来源：量子位

估值超3500亿！马斯克xAI又融资355亿，用于买英伟达GPU

特斯拉CEO埃隆·马斯克的xAI公司在最新一轮融资中筹集了50亿美元，估值达到500亿美元。新资金将用于购买10万块英伟达芯片，扩大其AI数据中心。xAI的核心产品 Grok 聊天机器人年化收入已达1亿美元，计划12月推出更强大的Grok-3版本。来源：智东西

快手可灵AI 月营收破千万，累计服务超500万用户

快手AI产品可灵自6月推出以来，累计服务超500万用户，生成5100万视频和1.5亿图片，月营收破千万。快手在AI领域取得显著成果，快意大模型MoE版本以较少参数量实现优于原1750亿参数模型的性能，降低成本同时适配业务需求。来源：快手科技

11月20日·周三

360 AI搜索革新：将推出一款新的AI搜索产品，向全网募集产品名称

360公司创始人周鸿祎宣布，本月将推出一款新的AI搜索产品，扩展其在人工智能领域的应用。这款产品将在现有的360 AI搜索基础上进行创新，成为更易于使用的AI工具。周鸿祎特别强调，新产品的名称需以字母”N”开头，以匹配他之前购买的 n.cn域名。来源：AI工具集

抖音推出AI分身工具，创作者的虚拟互动新伙伴

抖音推出“抖音AI分身”工具，助力创作者打造虚拟形象与用户互动。基于豆包大模型算法，AI分身能全天候自动回复，功能涵盖互动空间、群聊、私信、评论和直播。目前内测中，需满足特定条件。应用场景广泛，包括虚拟直播、互动娱乐、内容创作、品牌营销等。来源：AI工具集

OpenAI 宣布 ChatGPT 高级语音模式上线网页端

OpenAI宣布为网页端 ChatGPT 推出高级语音模式，利用GPT-4o的音频功能，实现与用户的自然、实时对话，并能理解非语言提示及情感回应。该功能已在iOS和Android平台上线，现将向网页端付费用户推出。来源：TechCrunch

谷歌面向 Gemini Advanced 用户推出记忆功能，记住用户使用习惯

谷歌为Gemini Advanced用户推出了一项记忆功能，该功能能够记住用户的生活习惯、工作和个人喜好等信息。与ChatGPT类似，Gemini的记忆功能为对话提供上下文，目前仅对少数付费用户开放，且仅限于网页端使用。来源：品玩

腾讯Angel机器学习平台获世界互联网大会领先科技奖

2024年世界互联网大会领先科技奖在乌镇发布，腾讯Angel机器学习平台获得本年度领先科技奖。腾讯Angel机器学习平台突破了万亿级模型分布式训练和推理以及大规模应用部署等难题，率先实现大模型技术从底层硬件到关键软件技术的自主研发，在业务场景广泛应用，显著推动实体产业和数字经济发展，提升社会效率。来源：智东西

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

昆仑万维推出 Skyo 实时语音对话助手，基于天工大模型4.0版打造，具备快速响应、实时打断、情感化反应等功能。Skyo在健康常识、情感化反应、实时资讯获知等方面表现出色，能男女声切换、念诗，展现拟人化属性。该产品将于12月上线天工App，接入天工搜索。来源：机器之心

闪极科技获数千万元A轮融资，新品AI拍摄眼镜将于12月19日发布

「闪极科技」完成数千万元人民币A轮融资，光远投资领投，未来光锥前沿科技基金和云天励飞跟投。资金将用于新品“闪极AI拍摄眼镜”的市场拓展、技术研发及人才建设。该产品将于12月19日发布，主打持久续航、高清拍摄、影音质感及AI能力。来源：智能涌现

大模型六小龙第一起分拆：零一万物计划独立 AI 游戏公司

零一万物计划分拆成立名为“绿洲”的AI游戏公司，由联合创始人马杰领导，估值数千万美元。分拆预计年底完成，零一万物将保持最大股东地位。此次分拆旨在让绿洲独立融资，同时零一万物专注于AI搜索和to B服务，如电商直播、营销等。来源：晚点LatePost

微软推出 Copilot Actions，使用人工智能自动执行重复性任务

微软在 Ignite 大会上宣布了一系列新功能，旨在进一步提升 Microsoft 365 Copilot 的智能化水平。其中最引人注目的是 Copilot Actions，该功能现已进入私人预览阶段。这项功能支持用户通过简单的提示，自动完成重复性的日常任务，如总结 Teams 会议、生成周报、甚至准备会议材料等。来源：IT之家

11月19日·周二

阿里发布 Qwen2.5-Turbo：支持百万超长上下文，性能提升显著

阿里通义Qwen2.5系列更新，新增 Qwen2.5-Turbo 支持百万超长上下文，性能提升显著。上下文长度扩展至1M tokens，推理速度提升4.3倍，成本仅为0.3元/1M tokens。在长文本任务中，Qwen2.5-Turbo超越GPT-4o-mini，且短文本性能不减。模型已在HuggingFace和魔搭社区提供Demo，API服务上线阿里云平台。来源：量子位

Mistral AI 发布1240亿参数 Pixtral Large：目前最强开源多模态AI模型

法国Mistral AI开源了1240亿参数的超大多模态模型 Pixtral Large，具备图像理解、视觉问答、文档理解等功能，支持多语言和处理128K上下文。在多个基准测试中超越了包括GPT-4o在内的其他模型，成为目前最强的开源多模态模型。来源：AI工具集

Perplexity 推出AI购物助手 Shop Like a Pro：一键式购物体验

Perplexity推出AI购物助手 Shop Like a Pro ，支持美国Pro用户一键搜索和购买商品，提供全面产品研究和多网站评论分析，帮助用户做出明智购买决策。用户可在Perplexity平台完成购买，享受免费送货服务。该助手具备一键结账、视觉搜索、个性化推荐等功能，所有推荐由AI算法决定，不受广告商影响。来源：AI工具集

AI 成华为Mate70 最大卖点？华为预告片剧透三大功能

华为连发三个视频为Mate70系列预热，每一条宣传文案中均带有“Mate有真AI”的标签，引发外界对Mate70系列AI新功能的猜想。三条视频或分别对应三项AI功能：AI手势、AI分身、AI防窥。这也是华为官宣定档Mate70发布日期之后，首次公开的一系列功能前瞻。来源：财联社

快手可灵 AI API 能力升级：支持 V1.5 输出 1080P 高清视频、开放 V1.0 视频延长功能

快手的可灵AI 宣布API能力免费升级，推出支持1080P高清视频输出的V1.5高品质模型，相较于V1.0模型，在画面质量、动态效果和文本响应度上均有显著提升。同时，开放V1.0模型的视频延长功能，支持用户续写视频4至5秒，支持多次续写，最长可达3分钟，实现更流畅的场景转换。来源：可灵AI

闲鱼推出 AI 智能体，已应用于闲置交易全链路

闲鱼近日宣布，已推出闲鱼 AI 智能体，首次将 AI 技术应用于闲置交易领域。据悉，闲鱼 AI 智能体已应用于交易全链路，包括信用体系、智能发布、托管服务、AI 模特试衣和循环商店等。AI 技术也用于提升线下循环商店效率和售后服务，如智能托管和 AI 小法庭，降低了纠纷返单率。来源：腾讯新闻

银河通用再获5亿融资，累计融资额超12亿，加速具身智能机器人技术发展

银河通用完成5亿元人民币战略轮融资，累计融资超12亿元。公司专注于轮式双臂通用具身机器人Galbot G1，已在工业、物流、教育等领域落地验证，并与美团等达成战略合作。Galbot G1可以抓取随机堆放、从未见过的透明、高光等物体，甚至已进一步掌握类似开柜子、开抽屉、晾衣服等泛化操作技能。来源：机器人前瞻

11月18日·周一

爱诗科技 PixVerse 视频生成技术服务全球开放，共同探索AI视频的无限可能

爱诗科技宣布旗下视频生成平台 PixVerse 文生视频、图生视频技术服务全球开放，旨在推动AI视频大模型的多元化应用发展。合作伙伴可通过填写申请表沟通合作，PixVerse 期待与合作伙伴共同探索AI视频的无限可能。来源：爱诗科技

消息称抖音正推进“V”项目，包括直播游戏互动、AI 分身功能等

抖音正在推进名为“V项目”的计划，通过虚拟互动和游戏化玩法拓展直播与互动的边界，让平台更有趣。项目包括AI分身功能，基于豆包大模型算法，支持创作者培养AI分身与用户互动，提供24小时在线服务。AI分身功能还包括AI互动空间、群聊、私信、评论和直播等。来源：Tech星球

夸克推出“学术搜索”，每次 AI 回答可引用超 10 篇文献内容

夸克今天宣布上新“学术搜索”AI 产品，依托 AI 技术和亿级学术文献，将大大提高学术工作中信息获取、创作和处理的效率。据官方介绍，夸克与维普、知网等平台共同搭建了总量过亿的专业学术文献题录和全文资料库，夸克学术搜索凭借大模型能力，可以为每次 AI 回答引用 10 篇以上的文献内容，实现多维度的信息归纳和知识整理，确保搜索内容的正确性。来源：IT之家

天工大模型4.0 O1版（英文名：Skywork O1）将于11月27日启动邀测

昆仑万维集团宣布，将于11月27日启动天工大模型4.0 O1版（Skywork O1）的邀请测试。该模型是国内首款具备中文逻辑推理能力的o1模型，采用4千亿级参数MoE混合专家模型，并将开源。天工大模型4.0 O1版将推动AI领域发展，提升模型复杂推理能力。来源：昆仑万维

月之暗面Kimi 推出新一代数学推理模型 k0-math，对标OpenAI o1系列

Kimi智能助手推出新一代数学推理模型 k0-math，对标OpenAI o1系列，强化解决数学难题能力。同时，Kimi探索版升级，引入搜索意图增强、信源分析和链式思考三大推理能力，提升搜索效率和准确性，月活用户超3600万。来源：AI工具集

文心快码3.0重磅发布，集成五大智能体三句话生成小游戏

百度文心快码3.0版本发布，集成五大智能体，包括代码问答、编码、单测、Debug和安全，覆盖设计、编码、构建、测试全流程，显著提升开发效率和质量。文心快码3.0能通过自然语言对话快速完成编码任务，如60秒生成网页，三句话生成小游戏，降低开发门槛，助力AI技术在各行业应用。来源：AI工具集

对话王诗沐：走出大厂创业，做 3D AI 游戏，瞄准新的内容平台机会

网易云音乐创始人王诗沐的创业公司全灵SEELE完成千万美元Pre-A轮融资，由百度战投领投。SEELE主攻AI生成3D游戏，已推出海外产品，半年内积累近百万用户。核心团队来自腾讯、字节、阿里，产品和技术路线规划清晰。王诗沐认为技术创新大于产品创新，SEELE将分阶段用产品验证用户需求，逐步拓展至3D互动娱乐内容平台。来源：Founder Park

11月15日·周五

即梦AI视频生成模型重磅更新，推出S2.0 Pro和P2.0 Pro两大模型

即梦AI视频生成模型今日更新，推出S2.0 Pro和P2.0 Pro两大模型。S2.0 Pro以首帧一致性和细节还原著称，能精确描绘原作并融入创意。P2.0 Pro则以高提示词遵循能力，能将复杂创意转化为视频内容。用户可通过即梦App或官网选择模型，实现灵感即刻成片，享受AI视频创作新体验。来源：AI工具集

通义代码模式正式上线，一句话帮你生成应用

通义千问的代码模式正式上线，新功能支持用户无需编程知识即可生成应用，支持前端页面、设计素材、生日贺卡、数据图表、小游戏和精美简历等。代码模式背后的技术基于Qwen2.5-Coder（在多项基准评测中表现优异的开源代码模型）。用户现在可以通过通义官网体验这一创新功能。来源：通义

ima.copilot Windows版正式上线，智能工作台升级体验

ima.copilot，基于腾讯混元大模型开发的智能工作台产品，继Mac版后，Windows版于11月15日提前上线。该产品自Mac版发布以来，受到用户热烈期待，腾讯加快了Windows版的开发进程。用户可通过ima.copilot官网下载体验，享受更高效的搜读写体验。来源：AI工具集

OpenAI 桌面版 ChatGPT 应用登陆微软 Windows，支持拍照识别及语音交流

OpenAI 发布了面向 Windows 10/11 用户的桌面版 ChatGPT 应用，支持拍照识别和语音交流。用户可通过快捷键快速访问，上传文件和图片进行问答。桌面版包含网页版大部分功能，但高级搜索和模式需订阅20美元/月的ChatGPT Plus。Windows版还支持截图和自定义快捷键，提供GPT-4o、DALL-E 3等模型。来源：IT之家

讯飞星火多模态交互大模型上线，数字人/语音/视觉支持一键全调用

讯飞星火多模态交互大模型正式上线，实现语音、视觉、数字人交互三合一，支持一键调用。模型首发超拟人数字人技术，能精准匹配语音内容生成表情动作，实现跨模态语义一致性，AI情感表达真实连贯。同时支持多模态视觉交互，能全面感知背景场景、物流状态等信息。来源：讯飞开放平台

谷歌 Gemini 发布苹果 iOS 版 App：集成灵动岛，支持 AI 语音聊天

谷歌推出了专为iPhone设计的 Gemini AI应用，集成了iOS的灵动岛功能，支持用户通过文本或语音与AI进行互动。新应用还带来了Gemini Live功能，用户能在灵动岛和锁屏上直接管理AI对话，无需切换应用。目前，已在澳大利亚、印度、美国和英国等地区上线，国区尚未支持。来源：IT之家

11月14日·周四

腾讯大模型 App 元宝发布 2.0 版本：基于新一代大模型混元 Turbo，内置 AI 搜索

腾讯发布元宝App 2.0版本，基于新一代大模型“混元Turbo”升级，界面更新并新增AI应用板块。AI搜索功能整合微信视频号、QQ音乐等资源，提升搜索服务。混元模型支持7K分辨率图片分析，文生图质量提升。元宝2.0融入腾讯文档等生态产品，实现功能无缝衔接。来源：IT之家

DeepL 推出首个语音翻译解决方案 DeepL Voice，号称消除虚拟会议中语言障碍

DeepL推出首个语音翻译解决方案DeepL Voice，支持跨语言虚拟会议和面对面对话的实时翻译。产品包括DeepL会议语音和DeepL对话语音，前者消除虚拟会议语言障碍，后者适用于移动设备。目前支持英语、德语等13种口语和DeepL翻译支持的33种语言字幕，包括中文。来源：AI工具集

灵宝CASBOT发布首款全尺寸双足人形机器人“CASBOT 01”，昵称“星期三”

灵宝CASBOT发布首款全尺寸双足人形机器人“CASBOT 01”，昵称“星期三”。这款通用类脑智能机器人身高179cm，体重60kg，拥有52个自由度，算力达550T，续航超4小时，能执行多种精细操作。标志着人形机器人赛道迎来新入局者，预计到2030年市场规模将达千亿元。来源：机器之心

0提示词就能续写小说！彩云科技首创DCFormer架构大模型，AI秒变网文产粮神器

今日，在“From Paper to App”媒体沟通会上，AI技术公司彩云科技正式推出首款基于DCFormer架构开发的通用大模型“云锦天章”，旗下AI RPG平台“彩云小梦”也成为首款基于DCFormer架构开发的AI产品。来源：智东西

OpenAI 或将在明年春季推出 “Computer Use” AI Agent，代号为Operator

OpenAI 正计划在明年发布能够控制计算机并执行任务的 AI Agent，其代号为Operator。据报道，OpenAI 计划在明年1月份发布 Operator 的开发者工具和研究预览版本。几周前， OpenAI 的CEO Sam Altman 表示：“我们会有越来越好的模型，但我认为下一个巨大突破将是AI Agent。”来源：The Verge

苹果推出Final Cut Pro 11 ，增加多项 AI 功能

苹果公司宣布推出Final Cut Pro 11，为Mac、iPad和iPhone带来智能新功能和创意选项，包括空间视频剪辑功能。Final Cut Pro 11利用Apple芯片和AI，提供磁性蒙版和转写为字幕等工具，提升剪辑效率。新版本已在App Store提供下载。来源：Apple

11月13日·周三

智谱发布「智谱清流」企业级AI智能体开发平台

智谱推出企业级AI智能体开发平台“智谱清流”，助力企业AI应用落地。智谱清流提供Agents、Workflow、知识管理等工具，支持API、SDK、URL集成，无需编程即可构建AI应用。平台还提供全程陪跑服务，包括专业咨询和定制AI培训，帮助企业实现业务流程全面AI化。来源：智谱AI

Vidu 1.5重磅发布，全球首个支持多主体一致性的多模态大模型

Vidu 1.5，全球首个支持多主体一致性的多模态大模型，颠覆传统单点微调方法，全面提升镜头理解、特效画面、动漫风格等模型能力。Vidu 1.5能在30秒内生成高清视频，支持参考生视频、图生视频和文生视频，确保角色、物体、场景一致性。清晰度新增支持720p和1080p。来源：Vidu AI

阿里在海外推出对话式 AI 搜索引擎 Accio，面向全球商家开放

阿里巴巴在海外推出了对话式AI搜索引擎 Accio，定位全球商家的个人采购代理。Accio通过分析供货商、定制范围、价格等信息，帮助用户筛选合适的商家和商品。试运行期间，转化率提升了20%-30%，商品量已达亿级。Accio支持英语、德语、法语、西班牙语和葡萄牙语。来源：IT之家

Grok网页版开放，无需xAI会员即可免费访问

马斯克旗下xAI推出的人工智能助手 Grok 现已开通网页版，用户无需xAI会员即可免费访问。xAI Grok聊天机器人支持X平台账号登录，提供两种模式：Regular和Fun。Grok 2模型在基础测试、数学计算和创意写作方面表现出色，同时具备实时搜索X平台内容的功能。来源：AI工具集

AI代码编辑器 Cursor 母公司收购 Supermaven

据 TechCrunch 报道，AI 代码编辑器 Cursor 的母公司 Anysphere 收购了AI编程助手 Supermaven，收购金额未披露。Supermaven 将使 Anysphere 能够推出新版 Tab AI 模型，该模型 “快速、可感知上下文且高度智能”，尤其是在长代码序列方面。Supermaven的插件将继续保留，但Cursor将成为团队的核心重点。来源：TechCrunch

秘塔AI推出了“知识库”功能，首个将AI搜索与个人知识库结合的产品

秘塔AI推出了“知识库”功能，支持用户将AI搜索结果分类收藏至专题中，形成个人知识库。用户不仅可以收藏秘塔生成的回答，还能收藏搜索到的信息源。秘塔还开放了API接口，支持用户共享和共同编辑知识库，甚至可以创建前端页面应用。秘塔成为首个将AI搜索与个人知识库结合的产品。来源：AI工具集

百度文库和百度网盘联合发布AI创作产品“自由画布”，超20万人排队预约

百度文库和百度网盘联合发布的AI创作产品“自由画布”日前正式面向公众开启邀测。会后首日，已吸引超20万人排队预约。大会上，李彦宏表示，自由画布就是一个由文心多模态大模型加持的万能白板，它能激发人们的无限灵感和创造力。来源：AI工具集

11月12日·周二

端侧非自回归图像生成基础模型Meissonic登场，超越SDXL

Meissonic，一种新型端侧非自回归图像生成模型，其高效、高分辨率的图像生成能力超越了SDXL。该模型通过增强型Transformer架构、先进的位置编码和特征压缩层等技术改进，在图像质量和细节上与领先扩散模型相媲美。Meissonic在8GB显存下即可运行，为中低端显卡用户提供了便利，同时展现了强大的zero-shot图像编辑能力。来源：新智元

百度发布小度 AI 眼镜：全球首搭中文大模型，支持边走边问、第一视角拍摄等

在今日的 2024 百度世界大会上，百度正式发布了小度 AI 眼镜，称该产品为“全球首款搭载中文大模型的原生 AI 眼镜”。据百度官方介绍，小度 AI 眼镜具备第一视角拍摄、边走边问、卡路里识别、识物百科、视听翻译、智能备忘等功能。预计小度 AI 眼镜将于明年上半年正式上市。来源：IT之家

百度推出零代码AI开发平台“秒哒”，一句话生成应用

百度推出“秒哒”零代码AI开发平台，用户无需编程即可快速生成应用。平台支持多智能体协作和多工具、API调用。李彦宏在百度世界大会上强调，“秒哒”与市面上的代码辅助工具截然不同，完全不需要用户具备编程知识。预计2025年1月初，多智能体协作工具“秒哒”将正式上线。来源：AI工具集

Qwen2.5-Coder深夜开源炸场，Prompt编程的时代来了！

通义千问团队开源了Qwen2.5-Coder系列，强大且多样化的开源代码模型，包括代码生成、修复和推理等，并在多个基准测试中达到行业领先水平。该系列提供从0.5B到32B的模型尺寸，Qwen2.5-Coder-32B-Instruct在多个基准测试中表现出色，与GPT-4o相当，支持40多种编程语言，并在多语言代码修复上排名第一。来源：魔搭社区

谷歌宣布开源诺奖化学模型 Alphafold-3

谷歌DeepMind开源AlphaFold-3，一款蛋白质预测模型，将极大促进生物、化学、医药领域研究。该模型能预测多种生物分子结构，包括蛋白质、核酸等，准确率极高。AlphaFold-3的开源将加速新药、疫苗研发进程，对生命科学产生重大影响。来源：AI工具集

OpenAI大改下代大模型方向，scaling law撞墙？AI社区炸锅了

OpenAI可能正在调整其大模型发展策略，因为最新旗舰模型Orion性能提升不如预期，且面临数据储量耗尽问题。AI行业正转向训练后模型改进，探索新的scaling laws。OpenAI内部对此有争议，一些研究者认为AI发展不会放缓，而其他人则看到了性能提升的递减趋势。来源：机器之心

11月11日·周一

一句话改图！字节豆包通用图像编辑模型 SeedEdit 上线公测

字节在豆包大模型团队官网上公布最新通用图像编辑模型 SeedEdit。据悉，SeedEdit 支持一句话轻松改图，包括修图、换装、美化、转化风格、在指定区域添加删除元素等各类编辑操作，通过简单的自然语言即可驱动模型编辑任意图像。目前，该模型已经在豆包PC端及即梦AI网页端开启测试。来源：AI工具集

Suno发布V4版本音乐生成模型音频演示视频，音质和风格大提升

Suno公司发布了其AI音乐生成模型V4版本的首批音频样本，表示将会很快发布 V4版本模型。新版本模型在自然音效、多样性和一致性方面都有较大改进。官方尚未透露技术规格和新功能，Suno 最近增加了 “角色 ”功能，有助于在生成的多首歌曲中保持音乐风格的一致性。来源：品玩

黄仁勋两万字访谈实录：希望英伟达拥有 5 万名员工和 1 亿个 AI 助手

英伟达CEO黄仁勋在对话中预测，个人AI助手将很快出现并不断进化，未来英伟达将拥有5万名员工和1亿个AI助手。英伟达的使命是构建一个无处不在的计算平台，推动智能向通用人工智能（AGI）发展。黄仁勋认为，AI将改变工作，对人们如何看待工作产生深远影响，而AI的安全和开源模型对行业激活至关重要。来源：APPSO

OpenAI押注的1X解锁新场景，人形机器人化身大厨煎牛排

OpenAI押注的机器人公司1X Technologies（简称1X）正式推出专为家庭设计的人形机器人原型NEO Beta（下称NEO）。日前该机器人解锁了新场景——厨房，NEO和网红厨师Nick DiGiovanni进行了一场家庭烹饪对决，比赛做出完美的五分熟牛排。来源：财联社

昆仑万维SkyReels AI短剧平台将于12月10日在美国正式上线

昆仑万维宣布其AI短剧平台 SkyReels 将于12月10日在美国上线，为北美观众带来智能短剧新体验。SkyReels集成了自研剧本、分镜、3D生成大模型和AI 3D引擎，优化了剧本生成和角色生成，提升了视频生成效率和BGM匹配精准度，大幅降低创作门槛，推动AI娱乐市场发展。来源：昆仑万维

谷歌 AI 视频编辑应用 Google Vids 上线：帮你写脚本、剪片、找素材等

谷歌宣布正式面向 Google Workspace 用户推出 Google Vids 应用。Google Vids 集成了 Gemini 大模型，可以帮助用户创建幻灯片、编写视频脚本，并从 Shutterstock 寻找素材，还可以为整个视频制作分镜头脚本。来源：IT之家

李飞飞新动作，推出新视频基准数据集 HourVideo

斯坦福大学李飞飞与吴佳俊团队发布了HourVideo，一个用于一小时视频语言理解的新基准数据集。该数据集包含500个自我中心视频，涵盖总结、感知、视觉推理和导航任务，共有12,976道选择题。尽管多模态模型如GPT-4和LLaVA-NeXT有所进步，但人类专家的表现远超这些模型，显示出人工智能在多模态能力上的巨大差距。来源：AI工具集

11月08日·周五

智谱AI宣布推出全新AI视频模型“新清影”，支持10s、4K、60帧视频

智谱AI宣布推出全新AI视频模型“新清影”，支持10s、4K、60帧视频，并能生成匹配的AI音效。同时，智谱将“新清影”背后的CogVideoX v1.5模型开源，促进AI视频开源社区和生态的发展。智谱还将上线AI音效模型 CogSound，该模型能为视频自动配音效，提高音效与画面的匹配度。来源：AI工具集

即梦AI全新视频模型S2.0正式上线，全力激发创意潜能

字节跳动旗下的AI内容平台即梦AI宣布，即日起，字节跳动自研的视频生成模型Seaweed面向平台用户正式开放。用户登录后，在“视频生成”功能下，视频模型选择“视频S2.0”即可体验。备受期待的PixelDance视频生成模型也即将上线，敬请关注。来源：AI工具集

OpenAI：即日起，chat.com 就是 ChatGPT 的入口

OpenAI近日收购了互联网早期域名chat.com，该域名现已重定向至其AI聊天机器人ChatGPT。chat.com是1996年注册的，去年HubSpot联合创始人兼CTO Dharmesh Shah以1550万美元购得此域名。来源：IT之家

11月07日·周四

阿里测试AI创作工具“Animode”，试水动漫智能创作

阿里巴巴正在测试一款名为“Animode”的AI视频创作工具，能够将现实世界的视频一键转换为二次元风格视频，人物动作和招式流畅自然。Animode提供多种样式和场景，支持动作捕捉和实时渲染，提高视频色彩和动作流畅性。腾讯等公司也在推出类似工具，推动动漫内容的快速产出。来源：AI工具集

火山写作即将合并到豆包，原有站点将全面关停

火山写作官方宣布将启动品牌升级计划，产品将逐步合并到“豆包”中。根据官方公告，升级计划将分为三个阶段。从2024年9月13日起，AI写作、全文润色、主题深挖等依赖大模型能力的功能将停止服务。如果用户在创作中对这些功能有需求，可以在豆包通过发送指令来完成。从2024年12月31日起，火山写作页面将全面关停，届时本页面将自动跳转至豆包。来源：AI工具集

Perplexity 即将完成新一轮融资，估值或将达到90亿美元

据 The Information 报道，Perplexity 新一轮融资即将完成，估值将达到 90 亿美元。据悉次轮融资由Institutional Venture Partners 进行领投，投资金额为 5 亿美元。这次融资是 Perplexity 今年的第四轮融资，而 Institutional Venture Partners 此前也多次对该公司进行投资。来源：品玩

小鹏AI机器人来了！身高1米8，用上大模型，已进厂拧螺丝

小鹏汽车在AI科技日上发布了AI机器人Iron，这款1.8米高的机器人拥有62个自由度，手部灵活且具备触觉反馈。采用了小鹏自研的图灵AI芯片和天玑AIOS，已在小鹏广州工厂投入生产小鹏P7+。Iron的设计考虑了人类生理特征，提高用户和社会的接受度。来源：机器人前瞻

11月06日·周三

消息称王慧文回归美团，带队独立探索 AI 应用

《智能涌现》今日援引多个独立信源报道，原美团联合创始人、光年之外创始人王慧文如今已经回归，在美团带队探索 AI 应用。王慧文所在的美团 AI 团队被称为 GN06。该团队目前的主要业务方向包括情感陪伴、聊天机器人等。GN06的主要产品之一，是在2023年11月上线的AI情感陪伴产品Wow。来源：智能涌现

达摩院发布八观气象大模型：精度达1小时1公里，率先落地新能源场景

阿里巴巴达摩院发布八观气象大模型，时空精度达1小时1公里，提升新能源电力系统预测性能。模型融合多源数据，提高辐照度、风速等气象指标预测精度，助力国网山东电力调控中心应对极端天气，提升新能源发电功率和电力负荷预测准确率至96%和98%以上。来源：机器之心

11月05日·周二

智谱清言联合AiPPT推出AI生成PPT工具：清言PPT 智能体

智谱清言联合AiPPT推出清言PPT 智能体，支持文本、文件和网址内容快速创建PPT。清言PPT提供云知识库、大纲编辑、AI追问优化等功能，并提供多种模板。适用于职场人士、学生、自由职业者等，提高PPT制作效率。来源：AI工具集

腾讯发布业界最大规模开源 MoE 模型及 3D 生成模型

腾讯发布了业界最大规模的开源MoE大语言模型 Hunyuan-Large 和3D生成模型 Hunyuan3D-1.0 。Hunyuan-Large拥有3890亿参数，支持长上下文处理，优化了推理框架，性能领先。Hunyuan3D-1.0支持文字和图像生成3D模型，具有泛化性，已在腾讯内部多场景落地。来源：AI工具集

昆仑万维重磅发布天工AI高级搜索功能，做最懂金融投资、科研学术的AI搜索

昆仑万维集团发布天工AI高级搜索功能，提供金融投资和科研学术领域的专业搜索体验。通过升级推理能力、金融投资和科研学术专业搜索，以及文档AI阅读分析的优化，实现精准、高效的问题解答。来源：昆仑万维

Perplexity CEO 最新洞察：AI 产品除订阅还有许多变现路径，API 成本每半年减少 50%，未来将专注增长

Perplexity CEO 在TechCrunch Disrupt上讨论了AI搜索的未来和产品策略。他强调 Perplexity 将根据用户需求开发功能，替代传统搜索引擎。商业化方面，他提到AI行业运营成本高昂，但API成本正下降，Perplexity将探索灵活的广告变现模式，并推出Perplexity Publisher Program，通过广告收入分享和定制AI助手，帮助媒体和内容创作者参与AI搜索生态。来源：有新Newin

马斯克的xAI放大招了！Grok API开启公测，每月25美金免费额度，人人可参与

马斯克的xAI公司推出了Grok API公测，提供每月25美元的免费额度。新模型grok-beta性能提升，即将推出多模态版本。预付费用户将获得额外免费额度。xAI API兼容OpenAI和Anthropic SDK，易于迁移。开发者可在console.x.ai注册参与公测。来源：腾讯新闻

估值超140亿、OpenAI贝佐斯下场，这家让机器人装AI“大脑”的公司获28亿新融资

利用AI技术帮机器人造“大脑”的美国独角兽公司物理智能（Physical Intelligence）宣布完成4亿美元（约合人民币28.39亿元）融资。本轮由亚马逊创始人Jeff Bezos、风险投资公司Thrive Capital和Lux Capital领投，其他投资者包括OpenAI、Redpoint Ventures和Bond，投前估值达20亿美金（约合人民币141.94亿元）。来源：钛媒体

创新能力超越AI Scientist，上海AI Lab「AI 科研团队」VirSci来了

上海人工智能实验室推出VirSci系统，一个基于大语言模型的多智能体协作平台，模拟科学家团队合作以加速科研创新。与单智能体系统相比，VirSci通过团队合作生成更具创新性和影响力的科研想法，展现出在“科学学”研究工具中的潜力。来源：AI工具集

11月04日·周一

15岁山东初中生做CTO，开源项目刚刚被数百万元收购了

15岁山东初中生zmh成为CTO，其开源项目ChatNio被数百万元收购。项目集成了多个AI模型，提供全面服务，包括chatbot、图像生成等，并以高性价比获得超过10万月活用户，实现每月约5万净利润。zmh虽年轻，但已拥有7年项目开发经验，技能涵盖全栈开发、网络安全等领域。来源：机器之心

Meta公布机器人触觉感知研究成果：用手指传感器结合“AI大脑”理解/操作外界物体

Meta 发布新闻稿，介绍了旗下 FAIR（基础人工智能研究）团队对于机器人触觉感知能力的研究情况，这项研究旨在让机器人通过触觉方式进一步理解和操作外界物体。团队目前开发的机器人触觉感知能力主要就是为了让机器人检测其交互的物体的材质与触感，让 AI 判断机器人应当如何操作这些设备（例如拿起鸡蛋等场景）。来源：IT之家

Runway 推出高级运镜功能，解决AI视频场景一致性问题

Runway 的新功能支持用户在生成新视频时，对AI生成的效果和场景进行更细致的控制。使用者现在可以放大和缩小场景和主题，甚至保留AI生成的角色形式和背景，将他们和观众真实地置于一个完全实现的、看似3D的世界中。来源：AI工具集

每帧都是AI实时生成的，全球首款AI游戏问世了

全球首款AI实时生成游戏Oasis问世，由Etched和Decart AI联合开发。游戏中的每一帧画面都由扩散模型实时预测生成，以20帧每秒的速度渲染，实现零延迟。所有代码和模型权重已开源，标志着AI技术在游戏领域的重大突破。来源：机器之心

中国电信 TeleAI 星辰语音大模型升级，支持中英双语及 40 种方言任意混说

时隔不到半年，TeleAI 星辰语音大模型的多方言能力再次升级，攻克了湛江话、宜宾话、洛阳话、烟台话等方言，将方言种类从 30 种提升至 40 种，并引入对英文的识别。与传统的有标注训练方法相比，TeleAI 通过预训练语音识别模型，利用海量无标注数据进行预训练，再通过少量有标注数据进行微调。来源：IT之家

11月01日·周五

魔音工坊推出“3s声音克隆”服务，首次克隆免费

魔音工坊推出“3s声音克隆”服务，首次克隆免费。只需对着手机录一句话，3秒声音克隆技术快速捕捉并分析声音特征。通过AI学习训练，你的说话方式可以被1:1完美复刻，还原你的真实音色，拥有一个只属于你的AI声音分身。“一端克隆、三端使用”，用户通过小程序克隆声音，可以在小程序、APP和网页端直接编辑使用克隆音色。来源：AI工具集

首关15亿元，中国大模型独角兽智谱AI要学美国OpenAI当基金LP

智谱边找钱、边撒钱，当起“攒局者”。截至目前，智谱Z计划已累计链接1200+大模型初创项目，其中投资超过20家、孵化超过30家企业。11月1日消息，国内大模型独角兽公司智谱AI宣布，领衔并联合石景山现代创新产业发展基金、奥飞数据、燕北资本、复琢投资等设立的风险投资基金“Z基金”（智谱生态基金）于近期完成首关，管理规模15亿元人民币，投资方向主要覆盖大模型赛道，侧重早期。来源：钛媒体

夸克发布“灵知”学习大模型，号称考研数学题正确率、得分率比肩 OpenAI o1

夸克今日宣布全面升级“AI 搜题”产品，用户可通过手机、平板、电脑等设备搜到各类新题和难题，AI 还会分步骤进行题目讲解，并支持用户随时提问。同时，夸克发布“灵知”学习大模型。官方此次表示，在最新评测中，夸克“灵知”学习大模型在考研数学题上的正确率和得分率已经可以比肩 OpenAI 最新发布的 o1 模型。来源：AI工具集

知乎直答新功能上线，「专业搜索」带来更高效的知识获取方式

知乎AI搜索产品知乎直答正式上线“专业搜索”功能，引入维普、知乎精选等专业内容源，涵盖超过5000万篇中英文文献数据，极大满足广大用户对于高质量信息的需求。同时，知乎直答“专业搜索”支持文件上传和超长文件解析，并针对提供单篇精读、指定来源问答等功能，更加契合专业人士的生产力场景。来源：知乎日报

正式挑战谷歌！OpenAI上线ChatGPT搜索功能

搜索功能先上线付费版ChatGPT Plus和Team，未来几个月内面向所有免费用户；搜索模型为GPT-4o微调版本，后训练得到o1-preview输出支持；ChatGPT可根据用户询问搜索网络，用户也可点击搜索图标手动搜索；提供天气、体育比赛、股票、地图等搜索信息，聊天时得到的搜索信息提供来源侧边栏。来源：华尔街见闻

继 ChatGPT 后，Anthropic 旗下 Claude AI 推出桌面客户端

继 ChatGPT 后，目前又有一款海外流行的人工智能 Claude AI 发布了桌面版客户端，目前相关客户端处于测试状态，支持 Windows / macOS / iOS 平台。Anthropic 在 X 平台官宣了这一消息，同时透露用户可以使用热键快速唤起客户端界面，不过 Claude AI 客户端定位 AI 搜索引擎，与 OpenAI 的 ChatGPT 客户端聊天有所差异。来源：IT之家

10月31日·周四

字节跳动推出AI模型社区平台：炉米Lumi，内测中暂未开放

炉米Lumi是字节跳动推出的AI模型社区平台，致力于构建一个集成平台，让AI爱好者、研究人员和开发者分享、协作并优化AI模型。炉米Lumi支持模型上传、展示、Workflow搭建以及LoRA训练，提高AI应用效率和性能。目前，炉米Lumi处于内部测试阶段，仅向白名单用户开放。来源：AI工具集

苹果最强AI PC登场！首搭M4 Max芯片，续航飙到24小时

苹果M4系列MacBook Pro终于来了！与上一代相比，新款MacBook Pro的外观几乎没有变化，价格仍为12999元起。其中的重点更新就是全系搭载M4系列芯片、支持苹果AI，并首搭雷雳5接口、纳米纹理显示屏以及支持视频人物居中的1200万像素前置摄像头，续航最长达到24小时，30分钟就能充一半电。来源：智东西

神秘大模型“小熊猫”身份揭晓：英国AI公司最新图像生成模型Recraft V3

Recraft AI推出的 Red_Panda 模型在图像生成领域树立新标准，以1172的ELO评分领先Hugging Face的Text-to-Image Benchmark。Red_Panda模型擅长长文本图像生成，提供精确的风格控制和图形设计定位功能，支持矢量图像生成，并配备AI图像编辑工具，满足专业设计师需求。来源：AI工具集

百川智能推出一站式大模型商业化解决方案

百川智能推出一站式大模型商业化解决方案，即1+3产品矩阵（全链路优质通用训练数据，Baichuan4-Turbo、Baichuan4-Air两款模型和全链路领域增强工具链），该方案支持企业将专有数据与百川智能自用的全链路训练数据混合，对Baichuan4-Turbo、Baichuan4-Air两款模型进行调优和增强，实现了96%多场景可用率。来源：智东西

OpenAI 开源 SimpleQA 新基准，专治大模型“胡言乱语”

OpenAI 宣布，为了衡量语言模型的准确性，将开源一个名为 SimpleQA 的新基准，可衡量语言模型回答简短的事实寻求（fact-seeking）问题的能力。SimpleQA 将是一个简单但具有挑战性的基准，用于评估前沿模型的事实准确性。SimpleQA 的主要限制在于其范围 —— 尽管 SimpleQA 准确，但它只在短查询的受限设置中测量事实准确性，这些查询是事实导向的，并且有一个可验证的答案。来源：AI工具集

OpenAI ChatGPT 高级语音模式已登陆 Windows 和 Mac 平台，对话更自然

OpenAI 今日宣布，ChatGPT 的高级语音模式（Advanced Voice Mode，简称 AVM）现已登陆 Windows 和 Mac 平台。AVM 基于 OpenAI 最先进的 GPT-4o 模型运行，允许用户像与真人对话一样与 ChatGPT 进行交流，包括打断、停顿等自然语言行为。OpenAI 表示，AVM 提供了更自然、实时的对话体验，能够实时感知和回应用户的情绪。来源：IT之家

美团推出AI创作小程序：妙刷，支持生成趣味图像和视频

美团推出的AI创作小程序“妙刷”支持生成趣味图像和视频，妙刷具备多样化的AI图像玩法，如修图、文本生图等，能将日常素材转化为艺术作品，提供主题模板并智能解读图像。妙刷还支持艺术风格转换，适用于个性化趣味照片制作、节日主题创作等场景。来源：AI工具集

GitHub Spark：AI驱动的零代码开发工具，快速构建微应用

报道称微软旗下的代码托管平台 GitHub 推出 Spark，让用户仅通过日常语言描述，就能构建完善的应用功能。用户借助 Spark 工具，并不需要编写代码以及深厚的编程专业知识，只需要详细解释希望开发的应用功能，从托管到数据存储，Spark 工具能自动处理所有复杂的技术细节。来源：AI工具集

10月30日·周三

豆包正式开放视频生成内测申请入口，用豆包电脑版可加速审核

豆包正式开放视频生成内测申请，图片文字一键成片。豆包视频生成具备出色的语义理解能力，能将信息转化为生动逼真的视频内容。支持酷炫的动态和运镜，多镜头保持一致，风格比例随意挑选。官方提示使用豆包电脑版可加速审核。来源： AI工具集

中国AI应用10月广告投放超3亿元，中美 AI 大模型开始“分道扬镳”

2024年，中国、美国之间的 AI 大模型竞赛不再只是“追赶”，而是开始各不相同：中国AI大模型“卷”算力、“卷”价格，而且“卷”获客、“卷”变现能力；美国 AI 专注于前沿 AI 模型技术研究，并且加速 AI 应用和落地。钛媒体独家获悉，截至10月29日，Kimi智能助手、字节跳动豆包、腾讯元宝等所有 AI 应用10月全网广告投放（投流）支出超过3亿元人民币。来源：钛媒体

o1之后，GitHub又接入Claude、Gemini，网友：也杀不死Cursor

GitHub Copilot 引入新模型，包括Anthropic的Claude 3.5 Sonnet、Google的Gemini 1.5 Pro和OpenAI的o1-preview及o1-mini，增强编码能力。新模型将在Copilot Chat中提供，提高代码理解和生成效率。同时，Perplexity 也已经集成到 GitHub Copilot 中，还推出了GitHub Spark支持以自然语言构建应用程序。网友认为这些更新是 GitHub Copilot 追赶 Cursor 的一种表现。来源：机器之心

Pika AI 推出万圣节特效生成，包含悬浮、弹眼睛和头部分离等特效

Pika 最近更新了 Pikaffects，这次是专为万圣节打造的特别版本。用户可以生成包含悬浮、弹眼睛和头部分离等特效的视频。Pika 在视频生成领域找到了一个垂直路线，专做各种特效。来源：AI工具集

阿里巴巴国际站推出升级版AI外贸产品：AI生意助手2.0

阿里巴巴国际站推出升级版AI外贸产品：AI生意助手2.0，包含四个AI Agent，覆盖发品、接待、营销和合规等外贸经营难点，旨在提升转化率和创造增量生意。AI助手能实时洞察买家需求，提供个性化服务，全球已有超6万中小企业使用。总裁张阔预测，未来外贸将全面AI化，80%的新增商业价值将在AI驱动下重新分配。来源：AI工具集

围攻谷歌！Meta秘密训练AI搜索引擎8个月，苹果与OpenAI发力

据The Information报道，Meta正在秘密研发一款自己的AI搜索引擎，旨在提升其Meta AI聊天机器人的搜索能力，并减少对谷歌和微软两大科技巨头的依赖。据报道，该项目已经持续了8个月，目标是为Meta AI聊天机器人提供独立的时事信息检索服务，降低因与苹果、微软等公司外部协议变动所带来的潜在风险。来源：智东西

10月29日·周二

爱诗科技正式发布PixVerse V3，新增创意模板、对口型、视频延长等功能

爱诗科技正式发布了PixVerse V3，具备多模态生成能力，包括创意模板、对口型、故事续写和风格转换。能精准理解提示词，生成有情感和质感的视频，实现现实与虚拟的融合。PixVerse V3支持多种视频比例和风格化功能，新增对口型功能，能自动适配视频中人物的口型。Effect功能提供了8个创意效果，支持类似Pika的“捏爆”特效。来源：AI工具集

苹果智能正式上线，同时发布新款iMac

10月28日，苹果公司宣布，苹果智能（Apple Intelligence）正式在iPhone，iPad和Mac上线。同时，苹果公司发布配置M4芯片和苹果智能（Apple Intelligence）的新款iMac，新款iMac起售价为1299美元，配备16GB内存，将于11月8日上市。来源：爱范儿

MiniMax：7000万美金营收下的甜蜜和隐忧

MiniMax的AI应用Talkie在海外市场表现出色，预计年收入超过7000万美元，成为公司主要收入来源。Talkie自2023年6月上线以来，迅速占据全球陪伴类AI应用下载量前三，吸引大量用户并实现高付费率。尽管国内版本“星野”未能复刻其成功，MiniMax仍计划拓展东南亚市场，以应对营收来源单一的风险。来源：36氪

神秘模型“小熊猫”一夜刷屏：排名超Flux、Midjourney

神秘文生图模型”red_panda”（小熊猫）近日走红，其ELO得分超过Flux 1.1 Pro，胜率高达79%，每7秒生成一张图像。该模型无人认领，引发广泛猜测，可能来自中国厂商或Midjourney V7等。量子位进行了实测，red_panda在竞技场中表现强劲，但并非压倒性胜利。来源：量子位

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

微软公司宣布开源 OmniParser，是一款解析和识别屏幕上可交互图标的 AI 工具。该工具并不需要依赖额外的上下文数据，可以理解更复杂的图形用户界面（GUI），是智能 GUI 自动化领域的一项令人兴奋的进展。OmniParser 结合可交互区域检测模型、图标描述模型和 OCR 模块等，不需要 HTML 标签或视图层次结构等显式基础数据，能够在桌面、移动设备和网页等上跨平台工作，提高用户界面的解析准确性。来源：IT之家

10月28日·周一

科大讯飞推出讯飞星火PC电脑版，新增快捷键调起和深度搜索功能

科大讯飞推出讯飞星火PC电脑版，支持Windows和Mac下载安装使用。具备AI搜索、PPT生成、图像生成、多模态交互等功能，新增快捷键调起和深度搜索功能。用户可通过自然对话完成写作、搜索、问答、翻译等任务，提升办公自动化、教育学习、内容创作等领域的效率。来源：AI工具集

智谱AI推出AutoGLM智能体，能模拟用户点外卖、发微信、抢红包

智谱AI发布AI智能体助理 AutoGLM，通过语音或文字指令，可自动操作手机App完成网购、点外卖、抢红包等任务。智谱还发布了GLM-4-Voice语音模型，支持多语言、多方言实时交互。AutoGLM已与荣耀等手机厂商合作，推动AI助理在手机终端的应用。来源：AI工具集

谷歌AI播客刚火，Meta就开源了NotebookLlama平替，但效果一言难尽

谷歌AI播客产品刚火，Meta紧随其后，开源了NotebookLM的替代品NotebookLlama，使用Llama模型处理任务。尽管NotebookLlama效果不如NotebookLM自然，但开源代码允许用户自定义优化，有潜力提升。项目提供了基于PDF构建播客的教程，包括预处理、文本编写、内容优化和文本到语音转换等步骤。来源：AI工具集

谷歌发布Unbounded：首款AI生成式无限游戏，将带你体验角色生命的无限可能

谷歌和北卡罗来纳大学教堂山分校的研究团队开发了一款名为 Unbounded 的RPG游戏，游戏利用大模型生成角色和环境，支持玩家自定义角色人生并进行开放式互动。游戏每秒刷新一次，基于LLM的游戏引擎可实时生成连贯叙事和角色响应，灵感来自《模拟人生》。来源：AI工具集

谷歌 DeepMind 开源 SynthID Text 工具，可辨别 AI 生成的文字

谷歌DeepMind开源了SynthID Text工具，这是一个可以辨别AI生成文字的水印工具。SynthID Text通过分析文本中特定Token的概率分数来识别AI生成的内容，不影响输出质量和准确性。谷歌DeepMind的SynthID-Text文本水印技术登上Nature杂志封面，并已开源。来源：IT之家

通义新增“代码模式”，代码刚写完，预览就出来了

阿里旗下的通义正式宣布了「代码模式」，并开放试用预约，首批邀请 1024 名用户进行体验。通义代码模式旨在降低应用开发的门槛。它针对简单的代码和应用生成需求，主打一个所见即所得。具体来说，人与 AI 大模型的交流现在会出现在一个专门的窗口里，AI 大模型生成的代码会实时地在网页上跑出来以供预览。来源：机器之心

腾讯推出了AI智能工作台产品：ima.copilot，基于混元大模型

腾讯PCG团队近日推出了 ima.copilot AI智能工作台，目前仅支持Mac端。产品定位为个人知识助理和效率工具，以“智慧因你而生”为口号，通过大模型通用知识与用户个性化知识结合，提升搜索、阅读、写作效率。主要功能包括搜索、知识库和笔记模块，支持截图识别、文件上传、AI搜索、内容解读等。来源：AI工具集

10月25日·周五

Google DeepMind推出AI音乐生成工具：MusicFX DJ

Google DeepMind推出了AI音乐生成工具MusicFX DJ，能根据用户输入的文本提示实时生成音乐。支持多提示词混合，调整各提示词的重要性，精确控制音乐风格。MusicFX DJ还提供直观的音乐控制界面，包括乐器编排、音乐纹理调整和节奏控制，支持实时48 kHz立体声音频流，支持用户分享和下载音乐。来源： AI工具集

Perplexity 发布了 macOS 客户端，快速攀升至 Mac App Store 免费榜榜首

Perplexity 推出了 macOS 客户端，Perplexity macOS 客户端支持语音输入、文本输入、线索跟踪、来源跟踪、历史搜索等功能，且数据与其他版本同步。用户用快捷键 ⌘ + ⇧ + P 快速唤起搜索功能，增加了便捷性。来源： AI工具集

Claude AI 上线新工具：分析、可视化 CSV 文件中的数据

报道称 Anthropic 公司在更新 Claude 3.5 Sonnet 并推出全新的 Claude 3.5 Haiku 后，还推出了全新的分析工具，可以编写和运行 JavaScript 代码，实现处理数据、进行分析并生成实时洞察。此分析工具将作为 Claude.ai 的新内置功能提供，类似于 ChatGPT 的代码解释器，它能够编写和运行 JavaScript 代码，处理数据、进行分析并生成洞察。来源： IT之家

MiniMax将于11月发布首款对标GPT-4o的端到端实时语音对话API产品

AI 大模型领域的独角兽MiniMax将于今年11月发布对标GPT-4o的Realtime API服务，将提升端到端实时多模态处理能力，并带来更低延时、更自然、更沉浸的实时语音对话，为企业协作、社交、直播、游戏等多种场景提供服务。内部正在打磨这款产品，并非常希望11月发布时产品效果直接对标OpenAI GPT-4o。来源：钛媒体

全球最强模型：OpenAI 被曝 12 月推出 Orion，AI 性能百倍级跃升

科技媒体 The Verge 今天（10 月 25 日）发布博文，报道称 OpenAI 计划今年 12 月推出代号为“Orion”的新款前沿模型。虽然在 OpenAI 内部，Orion 被视为 GPT-4 的继任者，但尚不清楚公司是否会在外部称其为 GPT-5。OpenAI 高管曾透露“Orion”要比 GPT-4 强大 100 多倍。来源： IT之家

ElevenLabs推出AI语音生成工具：Voice Design，颠覆传统AI配音

ElevenLabs最近推出了一款名为 Voice Design 的AI语音生成工具，通过简单的文本描述即可创建个性化语音。Voice Design支持用户通过文本提示生成自定义语音，包括调整年龄、性别、口音、语调、音高等多种特征，生成逼真且具有情感的AI语音。Voice Design还支持创作角色化语音，例如精灵、食人魔或机器人的声音。来源： AI工具集

10月24日·周四

智谱AI推出 AutoGLM-Web，能模拟用户进行网页浏览和交互

AutoGLM-Web 是一个AI浏览器助手，能模拟用户进行网页浏览和交互，执行高级检索、内容总结和邮件回复等任务。AutoGLM-Web使用自进化在线课程强化学习框架，不断提升性能，不依赖特定API，适用于多种自动化办公和在线研究场景。目前可通过“智谱清言”插件使用。来源： AI工具集

快手：可灵AI用户已超360万，独立App即将上架

2024中国计算机大会上，快手副总裁、大模型团队负责人张迪介绍，自今年六月发布以来，可灵AI已有超过 360 万用户，累计生成 3700 万个视频和超过一亿张图片。近期可灵AI还将上架独立App，方便用户使用。来源： 36氪

讯飞星火 4.0 Turbo 大模型发布：七大能力全面超越 GPT-4 Turbo

在今日上午的 2024 科大讯飞全球 1024 开发者节上，科大讯飞正式发布“讯飞星火 4.0 Turbo”。讯飞星火 4.0 Turbo 号称迎来全新升级，七大能力全面超越 GPT-4 Turbo，数学能力、代码能力超过 GPT-4o。讯飞星火 4.0 Turbo 已完成超长思维链、树搜索和自我反思评价等算法验证，预计今年底可实现类 o1 的高难度数学能力。来源： IT之家

智谱与中国三星官宣战略合作：AI 手机与 GLM 大模型相结合

中国三星与智谱华章（简称“智谱”）昨日宣布战略合作，双方称将在 AI 手机领域展开深度共创，共同打造卓越体验的 AI 产品。近期高通宣布与智谱合作，为骁龙 8 至尊版适配优化 GLM-4V 端侧视觉大模型，支持丰富的多模态交互方式。来源：智谱AI

AI手机看荣耀：荣耀MagicOS 9.0正式发布，开启手机自动驾驶新时代

荣耀在MagicOS 9.0发布会及开发者大会上正式发布行业首个搭载智能体的个人化全场景AI操作系统——MagicOS 9.0，推出全新自研魔法大模型家族，并宣布YOYO助理正式升级为YOYO智能体。发布会上，荣耀全新智能体商店正式上线，YOYO智能体将携手百模生态，共创智能新世界。来源：荣耀HONOR

用光学让AI算力集群提速数十倍，Lightmatter融资4亿美元

一家专注于光子计算的公司Lightmatter已经将芯片互连速度提高到30Tbps，100Tbps的版本也在路上。它有光子计算单元，有光学芯片封装和传输技术，能够系统化提升整个AI计算集群的计算力，计算效率，并降低功耗。近日，Lightmatter获得了4亿美元的D轮融资，累计融资金额达到8.5亿美元。来源：钛媒体

10月23日·周三

Ideogram推出创意画布工具 Ideogram Canvas，支持在无限大虚拟画布上操作和组合图像

Ideogram推出创意画布工具 Ideogram Canvas，支持用户在无限大虚拟画布上操作和组合图像。用户可以上传视觉元素，利用AI技术生成新图像，并进行编辑、调整大小、重新排序等操作。Ideogram Canvas提供Magic Fill和Extend功能，帮助用户编辑图像的特定区域或扩展图像，且保持一致的风格。来源： AI工具集

Runway推出AI生成式角色表演工具：Act-One，可生成虚拟角色动画

Runway公司推出了一款名为 Act-One 的AI生成式角色表演工具，能够将视频和语音输入转换成任意风格的虚拟角色动画，同时保持表情、语音和口型的同步。Act-One简化了动画制作流程，仅需一台普通摄像头即可制作逼真动画，支持多种角色风格，并能处理复杂的多轮对话场景。来源： AI工具集

Genmo公司宣布开源其顶级视频生成模型Mochi 1，能生成每秒30帧、5.4秒长的视频

Genmo公司宣布开源其顶级视频生成模型Mochi 1，模型展示了卓越的运动质量和提示遵从性。Mochi 1基于100亿参数的Asymmetric Diffusion Transformer架构，能生成每秒30帧、5.4秒长的视频。模型初始分辨率为480P，通过超分可提升至960P。来源： AI工具集

Stability AI发布了自家最强的模型Stable Diffusion 3.5，包含三个版本

Stability AI发布了 Stable Diffusion 3.5 模型全家桶，包含三个版本：Large、Large Turbo和Medium。模型能满足不同用户需求，从专业用途到消费级硬件的“即插即用”。Large版拥有80亿参数，适合高分辨率专业应用；Large Turbo版快速生成高质量图像；Medium版则在质量和易用性间取得平衡。来源： AI工具集

Anthropic 推出升级版 Claude 3.5 Sonnet 模型，可操控用户电脑

Claude 发布新版本的 3.5 Sonnet 和新发布的 3.5 Haiku，能力都有大进步。这次 Claude 发布了一个重磅新功能——一个新的「计算机使用」API，该模型可以模拟按键、按钮点击和鼠标动作，实质上模拟了一个人坐在电脑前的操作。开发者现在可以通过 API 指导 Claude 像人类一样操作计算机, 包括观察屏幕、移动鼠标、点击按钮和输入文字。来源：极客公园

讯飞星火推出“星火插件”，支持划词搜索、翻译、解释，生成网页摘要

讯飞星火推出“星火插件”，支持划词搜索、翻译、解释，生成网页摘要，以及一键收藏信息等功能，提升用户的信息检索、阅读和知识管理效率。兼容主流浏览器，支持个性化设置和跨平台同步。适用于学术研究、技术文档阅读、多语言内容理解、信息筛选总结以及个人知识管理等场景。来源： AI工具集

10月22日·周二

科大讯飞推出AI虚拟角色互动聊天应用：麦芽岛

科大讯飞推出AI虚拟角色互动聊天应用麦芽岛，用户可创建自定义虚拟角色，进行沉浸式对话和情感陪伴。应用提供丰富的角色选择和社交探索功能，适用于社交互动、情感支持、创意玩法、文化娱乐和教育学习等场景。用户可通过官方网站或苹果应用商店下载体验。来源： AI工具集

Midjourney 下周上线新图像编辑器：让“二创”AI 图片变得更简单

首席执行官 David Holz 昨日在 Discord 平台宣布，将于下周为 Midjourney 推出全新的 AI 图像编辑器工具。用户上传图像后可展开包括放大、缩小、调整角度等多种操作，这些操作不再需要 Discord，只需简单命令即可完成；用户可以使用数字画笔进行修补，进行更精细的修改。来源： IT之家

高通发布骁龙8至尊版，AI大模型联手腾讯智谱，小米15抢首发，荣耀剧透新机

高通发布了新一代旗舰手机SoC骁龙8至尊版和第二代高通Oryon CPU，AI性能的大幅提升。骁龙8至尊版采用台积电第二代3nm工艺，CPU性能提升45%，功耗降低40%，AI功能增强。高通还宣布与腾讯混元和智谱AI合作，将大模型部署在骁龙8至尊版手机上。小米15系列将首发该芯片，荣耀Magic7系列也将搭载。来源：智东西

商汤CEO徐立发布十周年内部信，提出“三位一体”新战略成为AGI算力+模型服务商

商汤科技董事长兼首席执行官徐立今天发布一份题为《商汤十周年再出发：专注聚焦、知行合一》的内部信。徐立首次提及公司最新确立的“大装置-大模型-应用”的三位一体战略，同时宣布将围绕战略和核心资源，将构建更加集中和高效的组织架构，加快组织和管理的轻盈化进程。来源：钛媒体

马斯克的 xAI 正式发布 API，开发者可将 Grok 集成到其他应用

埃隆・马斯克的人工智能公司 xAI 正式发布了其应用程序编程接口（API），允许开发者将 Grok 集成到其他应用程序中。目前，API 只有一个模型，名为“grok-beta”，其价格为每百万输入 token 为 5 美元（约 35.6 元人民币），每百万输出 token 为 15 美元（约 107 元人民币）。来源： IT之家

微软一口气发10个商业智能体！内测提高9.4%销售收入，六成500强企业在用Copilot

微软宣布推出10个新的商业智能体，涵盖销售、服务、财务、供应链等领域，提高业务效率。这些智能体能自动执行任务，如筛选潜在客户、监控供应商表现等。目前，60%的财富500强企业已使用Microsoft 365 Copilot。微软还计划下月开启Copilot Studio公测，允许用户创建自主Agent，以进一步降本增效。来源：量子位

10月21日·周一

新壹科技旗下“秒创”产品更新：新增PPT转视频和AI视频功能

新壹科技旗下秒创更新了其核心产品功能，包括PPT转视频和AI视频。PPT转视频功能支持将PPT文件快速转化为视频，并结合数字人技术，提升内容的吸引力。AI视频功能新增文生图与图生视频，支持多种视频时长和比例。来源： AI工具集

智源发布原生多模态世界模型Emu3，验证多模态模型新范式

据智源研究院官方消息，智源研究院今天正式发布原生多模态世界模型Emu3。智源研究院表示，Emu3 模型只基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。来源： AI工具集

一年估值增14倍！AI搜索初创公司Perplexity拟融资5亿美元

据知情人士透露，借助OpenAI最新巨额融资的势头，利用市场对人工智能初创公司高涨的热情，人工智能搜索初创公司Perplexity已经开始了新一轮的融资谈判，目标是将其估值提高一倍以上，达到80亿美元甚至更多。来源：腾讯新闻

北京新增12款已完成备案的生成式人工智能服务

根据《生成式人工智能服务管理暂行办法》，截至10月21日，北京市新增12款已完成备案的生成式人工智能服务，累计已完成94款生成式人工智能服务备案。已上线的生成式人工智能应用或功能，应在显著位置或产品详情页面，公示所使用已备案的生成式人工智能服务情况，注明模型名称、备案编号。来源：界面新闻

复旦、百度联合推出全新AI模型Hallo2，可生成4K超高清+1小时超长视频

复旦大学和百度联合开发了一款名为 Hallo2 的全新 AI 模型，该模型可以生成长达数小时的 4K 分辨率人物动画，现已在 GitHub 发布开源。Hallo2 模型建立在 latent diffusion models 的基础上，相比上一代 Hallo 模型的效果更好，支持了长视频生成。来源： AI工具集

Meta 发布全新 AI 工具 Self-Taught Evaluators，可检测其他模型准确性

Meta 在上周五发布了一系列的 AI 产品，其中包括一款名为“Self-Taught Evaluator”的产品，可用于检测大语言模型的准确性。Self-Taught Evaluator可以检查并提高对棘手问题（如科学、数学和编码等学科的问题）的回答的准确性，因为它需要将复杂的问题分解成更小的逻辑步骤。来源： AI工具集

10月18日·周五

Windows版ChatGPT正式发布！直接用上最强o1，快捷键即可召唤

OpenAI 宣布推出 Windows 桌面应用，向 ChatGPT Plus、Enterprise、Team 和 Edu 用户开放。不过，官方表示，目前开放的只是早期版本，将在今年晚些时候向所有 ChatGPT 用户推出「完整的体验」。用户可以在微软应用商店搜索 ChatGPT，接着下载安装即可，安装包大约 110MB 。来源：爱范儿

Suno推出新功能Suno Scenes：让照片和视频秒变专属歌曲

Suno上线新功能Suno Scense，以视频和图片为提示词，生成30秒的音乐。一个短视频，一张表情包，就能唱出一首歌。该功能目前仅在美国区App Store可用。来源： AI工具集

10月17日·周四

Pika发布了 4 种新的视频特效，分别是碎块、漏气、湮灭和消失

继前不久Pika上线压扁、融化、膨胀等火爆的特效功能之后，新的 Pika1.5版本又新增了 4 种新的视频特效，分别是粉碎（crumble）、溶解（dissolve）、瘪掉（deflate）和“ta-da”特效，特效可以让视频中的人物像被布遮住一样瞬间消失。来源： AI工具集

.ai 域名卖爆，小岛安圭拉 2023 年意外躺赚 3200 万美元

随着人工智能产业的火热，AI 域名也成为了新的热门，包括 .ai 后缀等自然是交易重点。据美联社 10 月 16 日报道，.ai 域名卖爆也为加勒比海的一个小岛 —— 安圭拉带来了一笔横财。借着 .ai 域名的注册、卖出等，安圭拉 2023 年从网络域名注册费中获得的收入翻了两番，达到 3200 万美元（备注：当前约 2.28 亿元人民币）。来源： IT之家

李彦宏内部发言：「文小言」没必要像豆包、Kimi一样激进推广

李彦宏提到，百度不碰Sora类的视频生成，“10年、20年都可能难以商业化应用”。他也指出，ToB业务尽量不碰吃力不讨好的项目制，尽量推出标准化产品。而文心一言改名后的ToC新搜索应用“文小言”，在推广上则不会像字节跳动的豆包、月之暗面的Kimi那样激进。来源： 36氪

Mistral 发布 Ministral 3B/8B，“全球最好的边缘模型”

Mistral 公司最新推出了 Ministral 3B 和 Ministral 8B 两款 AI 模型，并不需要连接云服务器，重点提高笔记本电脑和智能手机等设备的本地化 AI 体验，官方声称是“世界上最好的边缘模型”。Ministral 8B 的价格为每百万个 tokens 售价 0.1 美元，而 3B 版本则为 0.04 美元，适合小规模操作或初创开发者。来源： AI工具集

阿里国际 Marco 翻译大模型发布：支持中英日韩西法等 15 种语言

据阿里国际 AI 团队 AIDC-AI，阿里国际最新研发的翻译大模型 Marco 于今日正式上线，支持中、英、日、韩、西、法等 15 种全球主流语种。官方称其基于目前广泛使用的开源评测数据集 Flores，Marco 翻译大模型在 BLEU 自动评测指标上，领先于市面上的标杆翻译产品，如 Google 翻译、DeepL、GPT-4 等。来源： AI工具集

OPPO 发布 ColorOS 15 系统，推出一键问屏等AI功能

在今天的 2024 OPPO 开发者大会上，OPPO 正式发布 ColorOS 15 系统，并发布一系列新的功能。ColorOS 15 将上线超级小布助手功能，一键问屏、一拍即问、一圈即搜、图片问答、文档问答等多种交互方式。ColorOS 15还能深度理解并分析屏幕，基于对上文的理解，像真人一样进行多轮连续的自然对话。来源：品玩

10月16日·周三

联想推出PC个人智能体AI Now，基于Meta Llama模型

联想在创新科技大会上发布了多项AI产品，包括个人AI智能体AI Now、液冷服务器等。黄仁勋、苏姿丰等科技巨头CEO出席，英特尔与AMD宣布首次合作。联想AI Now智能体具备内容无缝传输、个性化内容生成、教育辅助、智能模式调整、设备间智能分享以及跨设备AI功能流转等多项智能化服务。来源：智东西

零一万物新旗舰模型 Yi-Lightning，性能超越 GPT-4o

零一万物发布了新旗舰模型Yi-Lightning，该模型在国际权威盲测榜单LMSYS上超越了硅谷知名大模型，排名世界第六，中国第一。Yi-Lightning已上线开放平台，每百万token仅0.99元。李开复强调，零一万物将继续大模型预训练，并在To B和To C端均有产品布局。来源： AI工具集

10月15日·周二

Kimi智能助手新增语音通话功能，支持英语陪练和模拟面试模式

Kimi智能助手新增语音通话功能，用户可通过手机APP端问答框旁的电话按钮启动。通话支持实时字幕显示、打断、换声和语速调节，还能克隆用户声音。Kimi还推出两个语音通话情景模式，包括英语陪练和模拟面试。来源： AI工具集

MIT推出与60岁时虚拟形象对话的AI产品：Future You

麻省理工学院的AI项目Future You支持用户与60岁的自己进行对话，通过模拟未来自我来帮助用户解决疑虑和内耗。用户通过回答关于个人生活和未来期望的问题，AI会生成一个具有用户特征的老年版本，并提供人生建议。来源： AI工具集

火山引擎发布大模型训练视频预处理方案，已应用于豆包视频生成模型

火山引擎在视频云技术大会上发布了大模型训练视频预处理方案，助力解决视频大模型训练的成本、质量和性能等方面的技术挑战。目前，该技术方案已应用于豆包视频生成模型。来源：机器之心

Adobe 推出 AI 头脑风暴工具：激发无限灵感，让创意自由飞翔

科技媒体 Maginative 昨日（10 月 14 日）发布博文，报道称在年度 MAX 会议上，Adobe 预览推出了 Project Concept 项目，是一款基于 AI 的创意头脑风暴工具。该工具的目标是生成更快速、更富想象力和更具协作性的创意，让设计师能够专注于探索更广泛的创意可能性。来源： IT之家

Adobe推出文生视频AI模型，向OpenAI和Meta发起挑战

在Adobe MAX年度大会上，这家美国电脑软件公司宣布，它已经开始对一种文生视频人工智能(AI)模型进行公开测试。这项技术被称为Firefly视频模型，Adobe称其技术取得了新的突破，将与OpenAI于今年早些时候推出的文生视频大模型Sora展开竞争。来源：财联社

Anthropic CEO万字长文预言：AGI将有望治愈癌症、倍增寿命

Anthropic CEO Dario Amodei预测，到2026年，AGI的智力将超越人类诺奖得主。尽管AGI不会立即转化为生产力，但它将加速生命科学发展，有望在未来7-12年内治愈大多数癌症，将人类平均寿命从75岁延长至150岁。这标志着“压缩的21世纪”的到来，预示着人类社会将迎来翻天覆地的变化。来源：钛媒体

10月14日·周一

智谱AI宣布开源文生图模型 CogView3-Plus-3B，采用Apache 2.0协议

智谱AI宣布开源其先进的文本到图像生成模型 CogView3-Plus-3B。基于最新的DiT框架，通过Zero-SNR扩散噪声调度和文本-图像联合注意力机制，提升了图像生成的质量和灵活性。CogView3-Plus-3B支持从512到2048像素的多种分辨率生成，其性能与业界领先模型相媲美。来源：智谱AI

优必选发布全新一代工业人形机器人 Walker S1

据优必选官方消息，优必选发布了全新一代工业人形机器人 Walker S1，并已进入汽车工厂实训。Walker S1与L4级无人物流车、无人叉车、工业移动机器人和智能制造管理系统协同作业，这也是全球范围内首个人形机器人与无人物流车等协同作业的工业场景解决方案。来源：优必选

苹果推出 300 亿参数多模态 AI 大模型 MM1.5，可识别 UI 界面推理自然语言

苹果近日发布多模态大模型 MM1.5，旨在增强对文本丰富的图像的理解、视觉指代和接地，以及多图像推理的能力。MM1.5 的模型参数范围从 1B 到 30B，包括密集型和专家混合型（MoE）变体，并证明了精心的数据整理和训练策略即使在小范围内也能产生强大的性能（1B 和 3B）。来源： AI工具集

Krea AI推出AI视频创作平台，集成Runway、Luma、可灵、海螺等AI视频生成模型

Krea AI推出AI视频创作平台，集成Runway、Luma、可灵、海螺等顶尖AI视频模型，提供一站式服务。用户可通过Krea.ai网页轻松接入这些模型，无需单独订阅，节省成本。目前仅支持文生视频，未来有望扩展更多功能，被看好成为AI创作者的”POE”。来源： AI工具集

马斯克刚进军Robotaxi，小马智行获广汽投资2700万美元

马斯克发布特斯拉Robotaxi的同一天，中国知名Robotaxi独角兽获得了新认可。广汽宣布，要给小马智行投资2700万美元，相当于人民币1.9亿元。从2016年成立到今天，小马智行已经收获了十多轮融资，累计资金超过11亿美元（约78亿元），完成D轮融资后，估值达到85亿美元（约600亿元）。来源：量子位

深势科技完成数亿元新一轮融资，AI for Science获国资认可

近日，深势科技再获数亿元人民币融资，投资方为北京市人工智能产业投资基金和中关村科学城公司。此次获得国资加持，标志着深势科技在AI for Science领域的深耕、阶段性成果及未来的发展，得到更有力和充分的认可。深势科技是“AI for Science”科学研究范式的引领者和践行者。来源：亿欧

10月11日·周五

智谱AI搜索智能体：深度阅读与多级推理的搜索革新

智谱AI搜索智能体发布，支持深度阅读和多级推理，能快速检索和总结网页内容，解决复杂问题。它还能联动其他AI工具，如调用Python等，提升搜索和推理能力。AI搜索智能体已正式上线，可通过智谱清言体验。来源： AI工具集

月之暗面正式推出具备AI自主搜索能力的 “Kimi探索版” ，搜索量是普通版的10倍

月之暗面正式上线具备AI自主搜索能力的 Kimi探索版，搜索量是普通版的10倍，一次搜索即可精读500个页面。新功能会模拟人类的推理思考过程，多级分解复杂问题，执行深度搜索，帮助用户更高效完成分析调研。通过自主策略规划、自动化大规模信息检索、对搜索结果的反思补充等多个步骤，获得更准确和全面的答案。目前，该功能已逐步开放，下周一前至全量用户。来源： AI工具集

10月10日·周四

字节跳动豆包首款AI智能体耳机 Ola Friend 正式发布，售价1199元

字节跳动豆包今天发布了首款 AI 智能体耳机 Ola Friend，采用开放式设计，单耳6.6克同类最轻，耳机接入豆包大模型，并与豆包APP深度结合。用户戴上耳机后，无需打开手机，便能通过语音唤起豆包进行对话。Ola Friend已经在各大电商平台开启预售，将于10月17日正式发货，售价1199元。来源：钛媒体

vivo 全新蓝心大模型矩阵发布，推出 30 亿蓝心端侧大模型 3B、语音大模型

在 2024 vivo 开发者大会开幕演讲中，vivo 正式发布了自研的全新蓝心大模型矩阵，全面升级语言大模型和端侧大模型能力，并带来 vivo 自研的语音大模型、图像大模型以及多模态大模型。全新蓝心大模型矩阵包括语言大模型、端侧大模型、语音大模型、图像大模型、多模态大模型。来源： AI工具集

海螺AI推出“图生视频”功能，可实现高度一致的图像生成视频

MiniMax视频模型在海螺AI平台上线五周后，访问量增速超800%，全球180个地区用户参与创作。模型在VBench评测中排名第一，新增”图生视频”功能，可实现高度一致的图像生成视频，支持连贯深度创作。海螺AI提供无需特效模板的电影级视频创作，激发了全球创作者的热情。来源：海螺AI

2024 科大讯飞全球 1024 开发者节官宣：首发多模态视觉交互、超拟人虚拟人交互能力

第七届世界声博会暨 2024 科大讯飞全球 1024 开发者节将于今年 10 月 24 日在合肥奥体中心正式开启。届时将发布讯飞星火大模型升级版，其底座能力将再次升级，包含数学、代码和长文本能力显著提升、中英文综合能力持续领先，训练推理效率大幅提升等特性。科大讯飞还将首次发布多模态视觉交互及超拟人虚拟人交互能力。来源：科大讯飞

字节跳动发布 GR-2 机器人 AI 大模型，能模拟人类学习处理复杂任务

字节跳动研究团队最新推出了第二代机器人大模型 GR-2（Generative Robot2.0），其亮点在于创新构建“机器人婴儿期”学习阶段，模仿人类成长学习复杂任务，具备卓越的泛化能力和多任务通用性。来源： IT之家

AI再夺诺奖！2024诺贝尔化学奖授予哈萨比斯等人

北京时间 10 月 9 日下午，瑞典皇家科学院宣布将 2024 年诺贝尔化学奖授予华盛顿大学的David Baker以及谷歌DeepMind 的Demis Hassabis 与John M. Jumper，以表彰他们在「计算蛋白质设计」和「蛋白质结构预测」方面的贡献。来源：机器之心

10月09日·周三

智谱清言鸿蒙版 App 上线：支持多轮对话、写作辅助、代码生成等功能

智谱清言今日官宣，第一时间完成所有基础功能与纯血鸿蒙适配，现在所有升级至 HarmonyOS NEXT 的用户均可体验智谱清言大模型。据介绍，智谱清言鸿蒙版 App 已支持多轮对话、写作辅助、代码生成、AI 搜索、AI 画图等功能，同时还支持 50 万个智能体被创建等功能。来源：智谱清言

字节跳动豆包智能硬件 Ola Friend 预热，预计为智能耳机

字节跳动豆包小红书官方号发布预热海报，配文为 “字节跳动豆包的智能硬件？”，10 月 10 日上午 11 点将公布更多信息。消息称字节 AI 硬件团队的第一款产品为智能耳机，该款耳机将植入豆包大模型，并与字节 2023 年 8 月上线的对话类 AI 应用豆包 App 结合：戴上智能耳机后，用户可通过语音对话随时使用豆包，在豆包 App 上也可以操控这款耳机。来源： IT之家

2024诺贝尔物理学奖，授予AI先驱 Geoffrey Hinton 和 John Hopfield

2024年诺贝尔物理学奖授予了John J. Hopfield和Geoffrey E. Hinton，表彰他们在利用人工神经网络实现机器学习方面的奠基性发现和发明。两位科学家将平分1100万瑞典克朗（约合745万元人民币）的奖金。他们不仅推动了计算神经科学的发展，还为深度学习技术的广泛应用奠定了基础，包括在语音识别和图像识别等领域的突破。来源：机器之心

猫眼“神笔马良”上手体验：生成分镜效率高，角色识别有短板

猫眼娱乐发布了首个面向长剧本解析的动态故事板AI生成工具“神笔马良”。据了解，“神笔马良”可对用户上传的剧本进行一键智能分析、智能角色创作、智能分镜创作、智能台词朗读，全方位视听化呈现剧本内容。来源：智东西

StackBlitz 推出全栈AI代码工具 Bolt.new ，可以看作 Artfacts、V0 和 Replit 的结合体

Bolt.new 是一款全栈AI代码工具，可以看作 Artfacts、V0 和 Replit 的结合体。支持Nuxt、Next等框架，提供代码编辑、执行和部署功能。它能够访问文件系统和服务器，目前处于测试阶段，已在GitHub开源。来源： AI工具集

潞晨科技推出Video Ocean视频生成平台，支持文生视频、图生视频、角色生视频

潞晨科技推出的 Video Ocean 视频生成平台，支持任意角色和风格的视频制作。Video Ocean具备文生视频、图生视频、角色生视频三大功能，能够生成逼真的短视频内容，如黑白电影片段、海边Vlog、超现实画面等。用户可通过简单指令，如输入图片或描述，快速生成个性化视频。来源： AI工具集

10月08日·周二

超写实AI图像生成模型 FLUX1.1 正式发布，代号“蓝莓” 速度更快、价格更低

最新AI文生图模型 FLUX1.1 发布，代号“蓝莓”，支持通过模仿单反相机文件名格式的方式生成超写实图像，网友表示难以分辨真假。该模型由Stable Diffusion原团队打造，速度是前代的6倍，价格更低。FLUX1.1目前仅包含FLUX1.1 Pro模型，预计后续会开放更多的系列模型，FLUX1.1 Pro通过API对外开放，主要面向开发者和企业用户。来源： AI工具集

Meta 发布 AI 视频生成器 Movie Gen：可自动生成含声音的高清视频

Meta 公司推出了一款新的 AI 视频生成器 Movie Gen，该工具能够生成带有声音的高清视频。输入文本 Movie Gen 就能自动生成视频，还可以编辑现有的视频或静止图像。据《纽约时报》报道，添加到视频中的音频也是 AI 生成的，通过环境噪音、音效和背景音乐与视频相匹配，视频支持不同的纵横比。来源： AI工具集

OpenAI 推出全新写作、编码工具 ChatGPT Canvas，将免费开放

OpenAI 宣布推出全新写作、编码工具 Canvas，这是一个与 ChatGPT 合作编写和编码项目的新界面，超越了简单的聊天。ChatGPT Canvas 可以更好地了解任务的上下文，用户可以突出显示特定部分，以准确表明希望 ChatGPT 关注的内容。用户也可以直接编辑文本或代码，要求 ChatGPT 调整写入长度、调试代码并快速执行其他操作。来源： AI工具集

Pika 1.5发布！将一切压扁、膨胀、融化、爆炸，成为超强特效利器

Pika 1.5 新版本具备了“Pikaffects”特效、大屏幕镜头和新动作，能够生成各种疯狂的视频内容。用户可以通过简单的提示词，实现如爆炸、融化、充气等特效。Pika 1.5的推出，预示着它将彻底改变meme游戏，成为视频特效制作的强大工具。来源： AI工具集

快手可灵 AI 新增 “对口型” 功能：生成人物口型与上传音频同步

快手旗下可灵 AI 官方宣布，新增对口型功能，并面向所有用户开放 API 服务。在可灵 AI 生成人物视频后，上传音频，即可让视频人物口型和音频同步。可灵 1.0 及 1.5 模型生成的视频，只要满足视频画面的人脸条件，均支持对口型（目前仅支持人物类角色（真实 / 3D / 2D）进行对口型，动物类角色对口型暂不支持）。来源： AI工具集

OpenAI 发布 Realtime API，助力第三方应用集成其语音合成技术

OpenAI 在旧金山开发者大会（DevDay）上，发布了 Realtime API，可以让开发者调用该 API 在第三方应用中集成语音合成技术。OpenAI 表示开发者通过调用新的 Realtime API，可以在其应用中添加 6 种 AI 语音。来源： IT之家

智谱 AI 宣布 10 月最低 1 折开放全部官方模型 API，每位用户免费领 1 亿 tokens

智谱 AI 推出 10 月最新促销活动，最低 1 折调用开放平台 bigmodel.cn 所有官方模型 API，期间每位用户均可获赠 1 亿 tokens 额度。此外，在 10 月内，根据用户前一天的 token 用量，次日可享阶梯折扣。来源：智谱AI

09月27日·周五

AI 产业繁荣缩影：Hugging Face 平台托管模型数量破 100 万

AI 托管平台 Hugging Face 于本周四宣布，该平台收录的 AI 模型数量突破 100 万个，是 AI 领域快速发展的一个重要缩影。Hugging Face 成立于 2016 年，是一个旨在推动自然语言处理（NLP）技术和工具发展的开源社区和公司。团队致力于提供各种 NLP 任务中的最新技术、模型和工具，以及为开发者提供便捷的方式来使用、微调和部署这些技术。来源： IT之家

美图公司旗下MOKI全面开放，重塑AI短片创作工作流

美图公司旗下AI短片创作工具 MOKI 于9月26日全面开放，用户可通过官网体验。MOKI专注于AI短片创作，支持动画短片、网文短剧等多种视频内容生产。用户只需输入故事梗概或导入脚本，MOKI便能自动生成分镜脚本和画面，并一键生成带配乐的视频。来源：美图公司

1.9 亿月活、260 亿估值的Canva，想借助 AI，挑战 2300 亿的 Adobe

Canva，一个拥有1.9亿月活用户和260亿美元估值的在线设计平台，正借助人工智能技术，挑战市值2300亿美元的Adobe。Canva通过收购AI初创公司Leonardo.Ai和Photoshop竞争对手Affinity，进军办公领域，与Adobe争夺企业市场。Canva CEO Melanie Perkins认为AI工具旨在提高效率，与Canva的使命一致，公司目标是在未来几年内达到10亿月活跃用户。来源：极客公园

09月26日·周四

国产具身智能新突破：蔚蓝科技发布多模态AI机器狗BabyAlpha A2

国产具身智能公司蔚蓝科技发布新品：四足机器狗BabyAlpha A2、开发者版本机器人及人形机器人。BabyAlpha A2具备定制化领养、多模态AI交互、AI绘本和共享相册功能，预计10月中旬上市。公司采用线上线下全渠道销售，产品已遍布全国并拓展海外市场。来源：量子位

空间智能公司「极佳视界」连获三轮融资，要将视频生成提升至4D世界模型

空间智能公司「极佳视界」近日宣布完成近5000万元天使及天使+连续两轮融资，此两轮融资由北汽产投、奇绩创坛、华民投、龙鼎投资、清智资本、PKSHA Algorithm Fund等知名财务和产业投资机构投资。此前极佳视界已完成数千万元的种子轮融资，由辰韬资本投资。来源：智东西

重庆特斯联冲刺AIoT第一股！3年29亿营收，超六成来自AI产业数智化

据报道，重庆特斯联科技集团提交招股书，拟在港上市。三年营收29亿，2023年超10亿，六成来自AI数智化。产品遍及全球150城，服务800客户。研发投入占比高，团队庞大，专注智慧城市、AI大数据。主营业务基于操作系统TacOS，涵盖AIoT多领域。来源：量子位

OpenAI CTO和两位技术大咖都跑了！据悉董事会要给CEO奥特曼7%股权

就在OpenAI首席技术官（CTO）米拉·穆拉蒂（Mira Murati）官宣辞职后不久，公司CEO奥特曼（Sam Altman）再投下一枚重磅消息：奥特曼以公开信方式在推文中宣布：OpenAI后训练研究副总裁Barret Zoph、首席研究官Bob McGrew也宣布离开公司。来源：钛媒体

Meta发布AR眼镜Orion 该品类有望成为下一个10亿级消费电子产品

在9月25日于加州Menlo Park举办的年度开发者大会上，Meta的CEO扎克伯格展示名为Orion的AR眼镜原型产品，Orion是Meta首款“全功能”原型AR眼镜，使用一个腕带组件来接收用户的神经信号，让他们用大脑来控制Orion，这项技术源于该公司2019年收购CTRL-Labs。来源：财联社

Hugging Face 推出 HuggingChat 原生macOS客户端

据 HuggingFace 官方消息，HuggingFace推出了专为macOS用户设计的HuggingChat原生客户端。HuggingChat支持本地使用语言模型，同时集成了Markdown、网页浏览、代码语法高亮等实用功能。HuggingChatOS客户端为macOS用户提供了一个无缝且直观的高级AI对话体验。来源： Hugging Face

Meta发布端侧最强开源AI模型 Llama 3.2 ，可在手机运行

Meta 公司昨日（9 月 25 日）发布博文，正式推出了 Llama 3.2 AI 模型，其特点是开放和可定制，开发者可以根据其需求定制实现边缘人工智能和视觉革命。Llama 3.2 提供了多模态视觉和轻量级模型，其中 Llama 3.2 1B 和 3B 模型支持 128K 标记的上下文长度，在边缘本地运行的设备用例（如摘要、指令跟踪和重写任务）中处于领先地位，支持高通和联发科硬件，并针对 Arm 处理器进行了优化。Llama 3.2 11B 和 90B 视觉模型可直接替代相应的文本模型，同时在图像理解任务方面优于 Claude 3 Haiku 等闭源模型。来源： AI工具集

09月25日·周三

ChatGPT高级语音助手正式上线！OpenAI：50多种语言、9种声线可选

OpenAI周二（24日）宣布，所有付费订阅ChatGPT Plus和Team计划的用户，都将可以使用新的AVM功能（高级语音模式），不过该模式将在未来几天逐步推出。它将首先在美国市场上线。下周，该功能将向OpenAI Edu 和Enterprise 计划的订阅者开放。据悉，AVM提高了部分外语的对话速度、流畅度并改进口音。来源：财联社

谷歌 Gemini 1.5 AI 模型再进化：成本更低、性能更强、响应更快

据谷歌官方消息，谷歌今天发布了旗下两款大模型产品Gemini-1.5-Pro-002 和Gemini-1.5-Flash-002的最新版本。据悉，新模型更快、更强大，也更具成本效益。更新之后的两款模型在数学、代码生成、长文本上下文和视觉任务上的性能提升显著。来源：腾讯新闻

OpenAI 发布 MMMLU 数据集：更广、更深评估 AI 模型，支持简体中文

OpenAI 在 Hugging Face 上发布了多语言大规模多任务语言理解（MMMLU）数据集，支持14种语言，专为评估和提升人工智能模型在不同语言、认知和文化背景下的性能而设计。MMMLU建立在广受欢迎的大规模多任务语言理解（MMLU）基准的基础上，数据集包含57个不同学科领域的任务，从基础数学到复杂的法律和物理问题，覆盖广泛的主题和难度级别。来源： AI工具集

腾讯发布轮足式机器人！能照顾老人，还会自我收纳

腾讯发布了Robotics X实验室的最近研发进展，推出了机器人“小五”。小五集合了此前多代机器人研发的核心能力，可以在真实人居环境中完成行走、搬运物体等动作，处理复杂任务，与人进行交互。在腾讯Robotics X实验室展示的小五进入养老院服务老人的场景中，它可以轻轻把老人从床上抱到轮椅上，还可以推着轮椅送老人去参加活动，途中还会注意躲避障碍。来源：智东西

美团再投人形机器人公司宇树科技，80亿估值能否撑起“中国版Figure AI”？

宇树科技近期完成数亿元人民币C轮融资，由北京机器人产业投资基金等机构领投，美团龙珠、中关村科学城、琥珀资本、上海科创基金、红杉资本中国、中信证券、祥峰投资中国基金等参与投资。这是美团第二次参与宇树科技的投资。此前，王兴领导的美团战投参与了宇树科技今年2月的B2轮总计10亿元融资。来源：钛媒体

17岁高中生做AI App，不到4个月入账百万美元，独立开发者迎来春天？

3个人，300万美元ARR。Cal AI，简单说就是一个扫描食物热量的 App，用户拿起手机给食物拍照，App 分析食物里面的蛋白、碳水和脂肪含量，最终实现用户管理体重的目标。如上，这个产品的开发和运营只有 3 个人在做，Zach 是 CEO，Henry 是 CTO，2 个人都是青少年，以及还有一个人负责做增长。来源： AI工具集

09月24日·周二

字节跳动豆包视频生成大模型发布：支持多风格多比例的一致性多镜头生成

9 月 24 日消息，火山引擎正式发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed 两款大模型，面向企业市场开启邀测，这也意味着字节跳动正式宣告进军 AI 视频生成。官方介绍称，无论是语义理解能力，多个主体运动的复杂交互画面，还是多镜头切换的内容一致性，豆包视频生成大模型均达到业界先进水平。来源： AI工具集

OpenAI 奥特曼（Sam Altman）罕见发长文：超级AI可能在几千天内实现

9月24日凌晨，OpenAI CEO 奥特曼（Sam Altman）罕见地发表了一篇长文博客，标题为《智能时代》（The Intelligence Age），推特浏览量已经突破了100万人次。奥尔特曼认为，技术进步将使未来几代人能够完成前人认为不可能的事情。AI 将成为解决难题的工具，帮助我们构建新的支撑结构。人人拥有一支 AI 团队将成为可能，能够提供个性化指导和创造。他还做出预测，超级 AI 有可能在未来几千天内完成。来源：钛媒体

09月23日·周一

字节即梦上线数字人“对口型”功能，基于Loopy项目

字节新项目Loopy在即梦上线，实现数字人声音与画面、表情、情绪完美匹配，目前支持中文效果最佳。Loopy解决了对口型视频割裂感问题，角色说话时自动带上语气、情绪和表情，精准指挥虚拟形象细微动作。来源： AI工具集

PixVerse 全新 UI 正式发布，新增万能创作浮板、灵感库、创意工作台等功能

PixVerse 正式发布全新用户界面，带来万能创作浮板、灵感库、创意工作台和更佳设备兼容性。新界面让视频创作更便捷，支持一键套用模板，高效管理视频，并在多平台上提供流畅体验。来源：爱诗科技

JetBrains AI Assistant 编程助手正式在国内发布，基于阿里通义大模型

JetBrains 正式发布了基于阿里云通义大模型的 JetBrains Al Assistant。JetBrains 官方介绍称，JetBrains Al Assistant 与多款 JetBrains 产品深度集成，是专为中国开发者量身定制的“提效神器”。JetBrains Al Assistant 支持全链路优化开发，可在特定 IDE 工具窗口中作为内联操作使用，也可以通过内置聊天使用，不会中断开发工作流。来源： AI工具集

华知大模型 5.0 发布：同方知网与华为云打造，7B~135B 尺寸

以“数智共生、行业共赢”为主题的华知大模型行业应用研讨会于 9 月 21 日在上海举行，会议由同方知网与华为云联合主办。会上，华知大模型 5.0 发布，并全新上线智能 PPT、AI 科技查新、华知 App、3D 全息交互数字人等应用。来源： AI工具集

腾讯元器AI智能体支持发布到公众号：可制作数字分身、7*24小时智能客服

据腾讯混元官方消息，其AI智能体产品腾讯元器现已支持发布至微信公众号，为公众号运营者带来多项新功能。据腾讯表示，利用腾讯元器，公众号运营者可创建数字分身与粉丝进行实时互动，还可以为用户提供7*24小时的客服服务。腾讯元器还能提供文章插入服务，智能体能够将相关内容插入公众号文章，增强内容的互动性和信息量。来源： AI工具集

最癫AI社交App “SocialAI” 上线3天爆火！国区可下载

SocialAI 是一款由 Friendly Apps 公司开发的 AI 社交网络应用，它模拟了一个社交媒体平台，所有互动均来自 AI 机器人。用户可以发布状态更新，从 AI 追随者那里获得定制化的回复和互动。根据网友分享的试玩体验，它能让你成为世界的主角，注册就送百万粉丝，但全都不是真人，随便发什么帖都有大批机器人回复点赞。来源：量子位

Motiff妙多公布AI生成UI设计技术，专业版售价每月6元起

看云控股集团旗下的“AI时代设计工具”Motiff妙多公布全新 AI 生成UI设计技术，用户可以用文字描述来生成你的“初版”设计稿，再在Motiff妙多中一站式协作，从而根据用户需求让 AI 生成页面的整体结构和具体内容，以及通过一套富有表现力的 UI 组件，来直接交付完整的页面设计。来源： AI工具集

09月19日·周四

阿里全面免费开放通义万相AI视频，支持文生视频、图生视频

阿里全面免费开放通义万相AI视频，支持文生视频和图生视频两种方式，自动创作出具有影视级画面质感的高清视频（最长6秒）。通义万相AI视频支持多种艺术风格，包括但不限于古风、科幻、动画等，并且特别优化了对中式元素的理解和表现。通义万相AI视频能处理多语言输入，支持“灵感扩写”功能，一键帮用户完善提示词，还自带“音频生成”功能，视频生成自带音画同步的音效和音频内容，降低AI视频创作门槛。来源： AI工具集

阿里通义千问开源 Qwen2.5 大模型，号称性能超越 Llama

在今天的 2024 云栖大会上，阿里云 CTO 周靖人发布通义千问新一代开源模型 Qwen2.5，其中，旗舰模型 Qwen2.5-72B 号称性能超越 Llama 405B。Qwen2.5 涵盖多个尺寸的大语言模型、多模态模型、数学模型和代码模型，每个尺寸都有基础版本、指令跟随版本、量化版本，总计上架 100 多个模型。包括 Qwen2.5 语言模型：0.5B、1.5B、3B、7B、14B、32B 以及 72B；Qwen2.5-Coder 编程模型：1.5B、7B 以及即将推出的 32B；Qwen2.5-Math 数学模型：1.5B、7B 以及 72B。来源： IT之家

快手可灵 AI 发布 1.5 模型：新增“运动笔刷”，支持生成 1080p 视频

快手可灵 AI 今日面向全球发布可灵 1.5 模型，在画面质量、动态质量、文本响应度等方面均有大幅提升。可灵AI引入了全新的“运动笔刷”功能，进一步提升视频生成的精准控制能力。同时，可灵 AI 的视频画质有所提升，支持生成 1080p 视频，同时构图更美观、动作更合理、文本相关性提升。来源：极客公园

字节跳动豆包大模型将于 9 月 24 日发布视频生成模型

字节跳动昨日宣布，豆包大模型将于 9 月 24 日发布视频生成模型，并带来更多模型家族的能力升级。9 月 24 日 14:30，2024 火山引擎 AI 创新巡展・深圳站将于深圳举行，字节跳动将在大会上公布火山引擎整体介绍及豆包大模型进展，还有火山引擎 AI 产品最新进展和多个行业企业 AI 落地实践分享。来源：火山引擎

智谱开源图生视频模型CogVideoX-5B-I2V，与“清影”同源

智谱AI开源了“清影”背后的图生视频模型CogVideoX-5B-I2V（在线可玩），支持「一张图」+「提示词」生成视频。相关技术细节和模型代码已公开，这次CogVideoX-5B-I2V的开源，也代表着CogVideoX系列开源模型已经支持文生视频、视频延长、图生视频三种任务。来源： AI工具集

文生视频模型Runway、Luma同时开放API

著名文生视频模型 Runway 宣布开放最新文生视频模型Gen-3AlphaTurbo的API，帮助开发者将该功能集成在应用中。几乎在同一时间，Runway的主要竞争对手Luma也宣布开放了生成视频API，同样可以将文生视频功能集成在应用中。Luma的API提供的是最新模型 Dream Machine v1.6，在生成效率和质量方面同样非常出色。来源：腾讯新闻

09月18日·周三

阿里通义将发布 AI 视频生成大模型，支持文生视频、图生视频

阿里通义将在 2024 云栖大会（9 月 19 日至 9 月 21 日）期间发布视频生成大模型，目前通义App频道和通义万相 PC 端已上线“视频生成”入口，仅支持用户预约，但未开放使用。全新发布的视频生成大模型是由通义实验室自主研发，包含“文生视频”和“图生视频”两种创作模式。来源： IT之家

Suno 发布了重磅功能“Covers”，可以帮用户一键翻唱歌曲

全球著名文生音乐模型Suno发布了重磅功能“Covers”，可以帮助用户一键翻唱任意风格的歌曲，可以是简单的录音或完整的歌曲。例如，上传一首流行歌曲《Original》，通过Covers就能识别歌曲里的乐谱、乐器、节奏以及旋律等，然后按照用户选择的新风格翻唱歌曲。虽然整体节奏、旋律可能有一些变化，但会保留原歌曲的核心灵魂部分同时呈现出全新的风格。来源：腾讯新闻

元象发布中国最大开源MoE模型，255B参数无条件免费商用

元象XVERSE发布中国最大MoE开源模型：XVERSE-MoE-A36B，该模型总参数255B，激活参数36B，达到100B模型性能的「跨级」跃升。同时训练时间减少30%，推理性能提升100%，使每token成本大幅下降。在多个权威评测中，元象MoE效果大幅超越多个同类模型。来源：量子位

上海人工智能实验室推出书生·筑梦2.0 ，支持长达20秒视频生成

上海人工智能实验室近日推出了升级版视频生成模型——书生·筑梦2.0（Vchitect 2.0）。模型专为生成符合中国文化和东方审美的视频内容而设计，支持长达20秒的视频生成，并兼容多种分辨率，包括4:3和16:9。Vchitect 2.0具备文本到视频生成、图像到视频转换、灵活的宽高比设置、高清视频生成以及超分辨率和帧插入等功能。来源： AI工具集

AI一键生成“类黑神话”！腾讯推出游戏视频模型GameGen-O

腾讯近日推出的GameGen-O，一个专门生成开放世界视频游戏的Transformer模型。简单说，这个模型能够模拟各种游戏引擎功能，生成游戏角色、动态环境、复杂动作等等。也支持交互控制，用户可以通过文本、操作信号和视频提示来控制游戏内容。这个项目由腾讯联合港科大、中国科大推出，期望用AI模型替代一些游戏开发环节。比如目前公布的游戏角色创建、游戏环境生成、动作生成、事件生成以及各种交互控制。来源： AI工具集

「AI教母」李飞飞创业公司 World Labs 正式官宣！又拿到2.3亿美元融资

AI 教母李飞飞的创业公司 World Labs，正式官宣启动！3 个月前，这家新晋 AI 独角兽，在完成约 1 亿美元融资后，估值 10 亿美金。近日，World Labs 又获 2.3 亿美金新一轮融资。这一次，新一轮融资由 a16z、NEA 和 Radical Ventures 领投，还有英伟达的风投部门参与。来源：腾讯新闻

09月13日·周五

原生PyTorch支持，大模型一键迁移！寒武纪开源Torch-MLU

寒武纪开源了PyTorch设备后端扩展插件Torch-MLU，并实现了寒武纪硬件对于PyTorch的原生支持，开发者能无缝地将基于 GPU 的深度学习模型迁移到寒武纪 MLU 硬件上，充分提升了开发者的使用体验和集成效率。Torch-MLU 的开源进一步促进 AI 生态的共建，为全球开发者提供更灵活和高效的开发环境。来源： AI工具集

昆仑万维发布奖励模型 Skywork-Reward，登顶 RewardBench 排行榜

昆仑万维发布了两款全新的奖励模型 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B。在奖励模型评估基准 RewardBench 上，这两款模型分别位列排行榜上的第一和第三位。奖励模型（Reward Model）是强化学习（Reinforcement Learning）中的核心概念和关键组成，它用于评估智能体在不同状态下的表现，并为智能体提供奖励信号以指导其学习过程，让智能体能够学习到在特定环境下如何做出最优选择。来源： AI工具集

安卓版谷歌 Gemini Live 免费上线，开启在线 AI 语音畅聊

科技媒体 9to5Google 昨日（9 月 12 日）发布博文，报道谷歌在 1 个月前面向 Advanced 订阅用户推出后，正逐步面向所有安卓用户免费开放 Gemini Live。谷歌公司于本周四宣布，所有使用英语的 Android 版 Gemini 移动应用用户现在可以访问 Gemini Live，随时与助手进行流畅对话。iOS 平台尚未推出 Gemini 应用，这些用户将无法体验这一功能。来源： IT之家

OpenAI o1 模型登场：开启 AI 通用复杂推理新篇章，模拟人类思考、处理问题

OpenAI 传闻中的“草莓”（Strawberry）AI 模型现已面世，正式名称为“o1”，是该公司首款具备“推理”能力的模型。o1 模型能够快速回答复杂问题，并且在编写代码和解决多步骤问题方面表现出色。OpenAI 还发布了一个成本更低、体积更小的版本——o1-mini。目前o1模型处于预览阶段，相较于GPT-4o模型，它的使用成本更高且速度较慢，但性能更优。OpenAI 计划将 o1-mini 的访问权限开放给所有 ChatGPT 免费用户，具体发布日期尚未确定。来源： AI工具集

09月12日·周四

夸克发布全新 CueMe 智能对话助手，支持上千种体裁、2 万字长文

夸克发布全新智能对话助手 CueMe，用户现可通过 cueme.cn 或夸克 App 使用。CueMe 是基于夸克大模型自主研发，AI 写作能力突出，支持不同体裁、不同篇幅的内容生成，最长可生成 2 万字的内容。夸克表示，CueMe 针对不同细分体裁进行了充分的语料预训练，可支持上千种不同体裁的写作需求，包括研究报告、日常写作、课程论文、新媒体文案等等，并且还在持续扩展中。来源： AI工具集

Pixtral 12B 发布：Mistral 首款多模态 AI 模型，120 亿参数、24GB 大小

法国 AI 初创公司 Mistral 发布 Pixtral 12B，是该公司首款能够同时处理图像和文本的多模态 AI 大语音模型。Pixtral 12B 模型拥有 120 亿参数，大小约为 24GB，参数大致对应于模型的解题能力，拥有更多参数的模型通常比参数较少的模型表现更优。来源： AI工具集

AI芯片独角兽公司壁仞科技启动IPO上市辅导，估值达155亿

据中国证券监督管理委员会官网显示，上海壁仞科技股份有限公司（壁仞科技）提交“首次公开发行股票并上市辅导备案报告”，即壁仞科技启动科创板IPO上市辅导，辅导机构为国泰君安证券股份有限公司。这意味着，继“AI芯片第一股”寒武纪之后，燧原和壁仞将有望开启国内新一轮 AI 芯片上市潮。来源：钛媒体

估值1500亿美元！OpenAI据称正洽谈新一轮融资

据知情人士透露，全球人工智能（AI）领军企业OpenAI正在商谈以1,500亿美元的公司估值向投资者筹集65亿美元。据悉，新的估值（不包括筹集的资金）明显高于该公司今年早些时候要约收购中的860亿美元估值，巩固了其作为全球最有价值初创公司之一的地位。OpenAI还在商谈以循环贷款形式从银行筹集50亿美元。来源：财联社

李彦宏最新内部讲话：不同模型之间的差距只会越来越大

近日，李彦宏在百度内部做了一次面向员工的讲话，内容涉及大模型的能力壁垒、开源模型的问题，以及百度为什么要强调智能体等方面。在他看来，外界对大模型有很多误解，榜单得分超过Open AI的产品，不代表自己的模型与Open AI模型的差距已经很小。来源：界面新闻

Adobe Premiere Pro 将集成视频生成功能，年底前推出

Adobe 宣布，将于今年年底前推出由 Adobe Firefly Video 模型驱动的视频生成功能，届时用户可以在 Premiere Pro 测试版应用和独立网站上体验这一功能。Adobe 表示目前正在内部测试三种功能：生成续帧 (Generative Extend)、文本转视频 (Text to Video) 和图像转视频 (Image to Video)，并将在近期开放公测。来源： IT之家

09月11日·周三

Vidu全球首发AI视频生成“主体参照”新功能，一键同步角色特征

Vidu主体参照功能是Vidu AI全球首发的参考一致性新功能，能够实现用户上传单一主体的图片，如真人、2D或3D角色，在生成的视频中保持这些主体角色的一致性。Vidu主体参照功能不仅支持对角色的面容、半身、全身特征进行精确控制，还涵盖了多种角色类型和画风，包括写实风格和各种艺术风格。来源： AI工具集

字节再试硬件：探索 AI 耳机、眼镜等产品，与豆包大模型联动

据晚点 LatePost 报道，字节正在探索将大模型与硬件结合，既自己开发 AI 硬件，也会与外部硬件公司合作。据称字节 AI 硬件团队的第一款产品为智能耳机，该款耳机将植入豆包大模型，并与字节对话类AI应用豆包 App 结合：戴上智能耳机后，用户可通过语音对话随时使用豆包，在豆包 App 上也可以操控这款耳机。来源：晚点LatePost

让不足百元的AI数字人替人打工，风平智能获近亿元A轮系列融资

AI数字人公司风平智能（Fullpeace）已完成累计近亿元A轮系列融资，由璀璨者资本及华为系企业家华鲲资本基金共同投资，包括汇财资本、北京大学人工智能创新中心主任雷鸣、清华大学杰出校友系的基金在内的老股东全部跟投。其中，“1号AI”平台是这轮融资的核心，投产比非常高。1号AI结合数字人、AI和RPA技术，帮助用户打造具备媲美真人形象、声音，甚至拥有AI大脑的专属AI数字人。来源：腾讯新闻

AI 翻译公司 Smartcat 获4300万美元C轮融资

据 TechCrunch 报道，波士顿AI初创公司 Smartcat 近日完成C轮融资，共筹集4300万美元。据悉，本轮融资由 Left Lane Capital 领投。Smartcat 是一个先进的AI翻译平台，提供自动化的翻译服务和本地化解决方案。结合 AI 翻译、计算机辅助翻译（CAT）工具和翻译管理系统（TMS），支持多达280种语言和50多种文件格式。来源： AI工具集

曝 OpenAI 神秘大模型 “草莓” 两周内发布！

据外媒The Information昨晚报道，OpenAI的新模型“草莓”（Strawberry），将在未来两周内作为 ChatGPT 服务的一部分发布。“草莓”项目是OpenAI盛传已久的神秘Q*模型，据传是此前OpenAI政变大戏的关键原因之一。它展现出了解答数学问题、复杂编程的强大能力，让AI安全的研究人员都为之震惊。来源：智东西

面壁智能联合梧桐科技，端侧大模型支撑智能座舱

面壁智能宣布，成为梧桐科技芯算一体 AI 座舱方案中端侧大模型重要合作伙伴，以 MiniCPM 车载多模态大模型实现舱驾协控相关的功能控制。这也是面壁 MiniCPM 端侧多模态模型首次支撑汽车智能座舱的系统底座。梧桐科技已与 10 余家主机厂伙伴，合作超过 100 余款各类车型，覆盖自主品牌、合资品牌、豪华品牌，产品装机量已超过三百万辆。来源：面壁智能

09月10日·周二

Hugging Face推出新工具 LightEval，可以更好地评估大模型能力

据悉，LightEval是一款轻量级的 AI 评估套件，它与 Hugging Face 现有的一系列工具无缝集成，包括数据处理库 Datatrove 和模型训练库 Nanotron，提供了一个完整的 AI 开发流程。LightEval 支持在多种设备上进行评估，包括 CPU、GPU 和 TPU，适应不同的硬件环境，满足企业的需求。来源： AI工具集

317笔融资告诉你，谁是中国AI投资之王？

虽然AI领域存在很多非共识，但作为这两年最确定的机会之一，仍然有不少投资机构逆势下注AI产业。根据IT桔子数据，今年以来（1月1日~8月27日），国内AI领域发生317笔融资，其中出手三次及以上的投资机构共有38家。在出手三次及以上的38家机构里，有产业背景的投资机构多达14家，占比超过35%。此外，VC、地方产业基金和PE的数量分别为13家、7家以及4家。来源：腾讯新闻

美国商务部公布新规要求AI公司报告模型训练进展，声称将阻止外国使用美国技术

美国商务部BIS表示，开发者须每三个月报备，使得政府必须准备好采取行动，确保美国公司生产的军民两用基础模型可供国防工业使用。美国商务部长吉娜·雷蒙多（Gina M. Raimondo）表示，AI 迅速发展，它既有巨大的希望，也有巨大的风险。她表示，草拟规则将帮助美国商务部跟上 AI 技术的新发展，以加强美国国防和维护国家安全。来源：钛媒体

AI超级周期才刚刚开启！AMD苏姿丰：将加速推出AI芯片

AMD首席执行官苏姿丰（Lisa Su）发表讲话称，人工智能的超级周期才刚刚开启，而AMD将瞄准英伟达的市场主导者地位，加速推出高性能人工智能芯片。在高盛举办的一场通信和技术会议上，苏姿丰表示：“人工智能是一个比我五年前预期的更大的周期，我们现在正为未来五年下大赌注。”来源：财联社

苹果刚刚发布史上首台 AI iPhone，最大亮点是按键

Good Morning！库克又一次在 Apple Park 讲出这句经典开场白。和往年不一样的是，库克首次在发布会开场同时提到 Apple Intelligence 和 Machine Learning 这些词汇，由此可见今年苹果对 AI 的重视。全新 iPhone 16 系列，也是苹果第一个真正意义上的 AI iPhone。来源：爱范儿

新AI编程工具 Replit Agent 爆火：手机2分钟创建一个APP

继Cursor之后，编程界又一新贵走红。它就是由AI初创公司Replit推出的智能体——Replit Agent。用户只需提供简单的指令或问题（Prompt），Replit Agent便能自动执行编写代码、安装软件包、配置数据库和部署等一系列开发任务。Replit Agent让在手机或电脑上快速创建APP成为可能，官方称仅需2分钟就能在手机上创建一个APP。来源： AI工具集

09月09日·周一

快手可灵AI启动中国首个AIGC导演共创计划

快手宣布正式启动“可灵AI”电影共创计划，联合李少红、贾樟柯、叶锦添、薛晓路、俞白眉、董润年、张吃鱼、王子川、王卯卯等9位导演共同推出9部AIGC电影短片。据介绍，9部短片将全部由可灵AI进行视频生成，电影导演完全依托视频生成大模型，群体深度参与电影级内容创作，这在中国尚属首次。来源： 36氪

全球最大商业图库Getty Images推出免费高画质照片AI训练集：3750张照片、15项类别

9 月 9 日消息，以提供新闻、体育和娱乐照片授权闻名的全球最大的商业图库 Getty Images 上周宣布推出高画质照片样本训练数据集，供开发者开发和训练 AI 模型使用。该样本数据集包含 3,750 张照片，分为商业、教育、医疗健康、运动与健身、物品与物体、插图、图标等 15 个类别。数据集提供多种主题的高质量视觉内容，可用于训练机器学习和 AI 模型，开发多种应用场景。来源： IT之家

国内RISC-V AI芯片设计公司知合计算完成A1轮融资，源码资本领投

9月9日上午，国内基于RISC-V架构的 AI 芯片设计公司知合计算技术（深圳）有限公司（以下简称“知合计算”）宣布已完成数亿元人民币规模的A1轮融资。本轮融资由源码资本领投，领航新界、云九资本、乐朴投资、厚雪资本、临港新片区科创基金（由临港科创投担任管理人）等投资方跟投。来源：钛媒体

荣耀赵明谈苹果AI：让行业变得清醒，快餐式创新适得其反

荣耀CEO赵明表示，苹果对AI给出的方向将有助于整个行业更加清醒，构筑真正的AI需要脚踏实地努力。他强调，手机厂商不能仅仅依赖集成第三方AI服务来标榜自己的产品为AI手机。真正的AI手机，应具备如AI Agent这样的意图识别人机交互能力，这才是端侧AI的核心价值所在。来源：第一财经

加入 AI 混战，蚂蚁全面加速「卷应用」

今年外滩大会期间，蚂蚁带来的一系列能搞定生活大小事的「AI 管家」，是这场变化的重要参与者。在用户端，AI 生活管家「支小宝」、AI 金融管家「蚂小财」、AI 健康管家亮相，这三个「AI 管家」，分别能帮你管事、管钱、管健康；在产业端，支付宝「百宝箱」，作为智能体开发平台让千行百业来「捏」生活中所需要的更多 AI 助理；在更纵深的研、产、供、销、服场景，蚂蚁专门成立了数字蚂力公司，打造 AI 人机融合解决方案。来源：极客公园

特斯拉将获得 xAI 模型的授权，为特斯拉开发车载语音助理

据华尔街日报报道，马斯克旗下 xAI 公司讨论了分享未来特斯拉收入的协议。根据拟议的协议，特斯拉将获得 xAI 模型授权。据知情人士透露，xAI 将协助为特斯拉开发其他功能，包括在其电动汽车内安装类似 Siri 的语音助理，以及为人形机器人 Optimus 提供动力的软件。来源： IT之家

09月06日·周五

智谱AI今日正式宣布：智谱清言的“视频通话”功能全面免费开放

智谱AI今日正式宣布：旗下全能AI助手智谱清言的“视频通话”功能现已全面开放，并对所有用户限时免费。新功能标志着“清言”不再局限于文字和语音交互，而是能够通过视频“看”世界，理解用户的表情和情绪，提供更自然、更人性化的交互体验。用户可以通过智谱清言APP尝鲜体验“视频通话”新功能。来源：智谱AI

开源大模型的新王—— Reflection 70B 诞生了，性能超越GPT-4o

快速更迭的开源大模型领域，又出现了新王：Reflection 70B。横扫 MMLU、MATH、IFEval、GSM8K，在每项基准测试上都超过了 GPT-4o，还击败了 405B 的 Llama 3.1。这个新模型 Reflection 70B，来自 AI 写作初创公司 HyperWrite。HyperWrite 公司的 CEO Matt Shumer 表示，Reflection-70B 现在是「世界上最顶级的开源 AI 模型」。来源：机器之心

蚂蚁集团 AI 金融管家“蚂小财”全新亮相，月活用户数达 7000 万

在 9 月 6 日的外滩大会财富论坛上，蚂蚁集团 AI 金融管家“蚂小财”新版升级亮相，并在支付宝 App 内全量对外。升级后的“蚂小财”能更实时解读热点，提供“有问必答、个性化”的服务。同时，蚂蚁财富全新 App 搭载“蚂小财”Pro 版上线灰测，带来“语控一切、定制简报”等全新的服务体验。来源： AI工具集

面壁智能开源端侧AI模型 MiniCPM 3.0，4B参数性能超越GPT-3.5

MiniCPM 3.0 是面壁智能推出的一款高性能端侧AI模型，具备4B参数，以较小的模型规模实现了超越GPT-3.5的性能表现。MiniCPM 3.0采用LLMxMapReduce技术，支持无限长文本处理。在Function Calling方面，MiniCPM 3.0的性能接近GPT-4o，展现了出色的端侧执行能力。MiniCPM 3.0已全面开源，量化后模型仅占用2GB内存，非常适合端侧部署。来源： AI工具集

“算力版滴滴”发布 AI 云新品，PPIO CEO预测三年模型推理成本将下降1000倍

PPIO CEO姚欣坦言，算力需求和使用不平衡是一个长期存在的问题。从未来算力构成来看，95%是推理算力，5%是训练算力，但这95%也不会出现一家独大局面。姚欣预测，未来三年，AI 大模型推理成本或将下降1000倍以上。PPIO派欧云是“算力版的滴滴”，主要整合企业侧闲置碎片化的算力，承载多种服务，包括音视频和AI推理等。来源：钛媒体

09月05日·周四

支付宝推出AI生活管家：支小宝，国内首个服务型的 AI 原生应用

2024 Inclusion・外滩大会于今日正式开幕，蚂蚁集团总裁韩歆毅在开幕大会上透露，蚂蚁将发布三款 AI 新产品，包括由支付宝全新推出的 AI 独立 App 支小宝。“支小宝”是蚂蚁集团基于蚂蚁百灵大模型推出的支付宝 AI 生活管家，号称是国内首个服务型的 AI 原生应用，可通过对话快速订票、点餐、唤起公交码、查询附近吃喝玩乐等。来源： AI工具集

腾讯发布新一代大模型“混元 Turbo”：推理效率提升 100%，成本降低 50%

9 月 5 日消息，在今日的 2024 腾讯全球数字生态大会上，腾讯正式发布新一代大模型 —— 腾讯混元 Turbo。据腾讯官方介绍，该模型采用 MoE 架构，比上一代产品推理效率提升 100%，推理成本降低 50%。对外，腾讯混元 Turbo 的价格也比混元 Pro 降低 50%，输出价格为 0.05 元 / 千 tokens，输入价格为 0.015 元 / 千 tokens。来源： IT之家

零一万物开源 Yi-Coder 系列编程助手模型，支持 52 种编程语言

零一万物今日宣布开源 Yi-Coder 系列模型，该模型是 Yi 系列模型家族中的编程助手。Yi-Coder 系列模型专为编码任务而生，提供 1.5B 和 9B 两种参数。据介绍，Yi-Coder 能够处理最长 128K tokens 的上下文内容，适用于复杂项目级代码的理解和生成。Yi-Coder 还支持 52 种主要编程语言。来源： AI工具集

智谱完成新一轮数十亿元融资，投前估值达200亿元，国资再入局

近日，中国人工智能领域的领军企业智谱宣布成功完成新一轮的融资，融资金额达到数十亿元人民币，公司估值在融资前已高达200亿元。本轮融资由中关村科学城公司领投。据悉，这是智谱在2024年完成的第三次融资。目前，智谱的股东名单中汇集了高瓴资本、启明创投、君联资本等知名投资机构，以及美团、阿里巴巴、腾讯、小米等互联网巨头。来源： AI工具集

“ChatGPT之父”新公司成立仅3个月融资10亿美金，估值已超350亿

OpenAI联合创始人、前首席科学家、“ChatGPT之父”伊利亚·苏茨克韦尔（Ilya Sutskever）联合成立的新公司Safe Superintelligence (SSI) 宣布，近期已完成10亿美元融资。据悉，SSI此轮投资方包括a16z（Andreessen Horowitz）、红杉资本、DST Global 和 SV Angel，而由 Nat Friedman 和 SSI 首席执行官 Daniel Gross 运营的投资合伙企业 NFDG 也参与其中。来源：钛媒体

智源研究院推出全球首个包含文生视频的模型对战评测服务

智源研究院推出了全球首个包含文生视频的模型对战评测服务——FlagEval大模型角斗场。该服务支持国内外约40款大模型，覆盖语言问答、多模态图文理解、文生图、文生视频等任务，并提供在线或离线盲测。FlagEval大模型角斗场引入了主观倾向阶梯评分体系，包含五个梯度，以更细致地评测模型性能。来源：腾讯新闻

09月04日·周三

笔灵AI推出AI写小说功能，支持小说改写、扩写、续写、润色

据笔灵官方消息，笔灵AI正式推出AI写小说功能，支持小说改写、扩写、续写、润色。用户可以通过输入小说分类、风格、关键词等信息，快速生成小说名字、大纲、剧情反转和扩写内容。此外，还提供丰富的场景模板，帮助用户构建小说场景。笔灵AI的小说写作服务目前提供3天会员体验，价格为29元。来源： AI工具集

百度官宣文心一言APP正式升级为文小言，定位”新搜索”智能助手

百度官宣文心一言APP正式升级为文小言，定位百度旗下”新搜索”智能助手。区别其它搜索产品，文小言推出了富媒体搜索、多模态输入、文本与图片创作、高拟真数字人等”新搜索”能力。同时发布记忆和自由订阅等功能。文小言即日起还将免费开放文心4.0大模型能力，所有用户本月可免费使用，此前该版本以收费形式向用户开放。来源： AI工具集

OpenAI被曝将筹资数百亿美元打造AI基础设施

有媒体援引知情人士消息，OpenAI首席执行官Sam Altman计划吸引全球投资者支持建设人工智能AI基础设施的计划正变得更加明确，重点首先是在美国各州启动，预计将耗资数百亿美元。正在讨论的项目类型包括建设数据中心，通过涡轮机和发电机提高能源容量和传输，以及扩大半导体制造。来源：第一财经

英特尔推出新一代AI PC芯片官方宣称全面压过高通旗舰一头

近些日子深陷“缩缸”争议的英特尔，非常不巧地挑中了美股芯片板块大跳水之日，端出自家最新一代的酷睿Ultra笔记本电脑芯片。英特尔在周三凌晨发布的Ultra 200V系列芯片，一共有9款。不过与我们早些年熟悉的i5、i7产品区分方式不同，这一批芯片统一都是8核（4个性能核+4个效率核）。产品线的主要参数区别在于些许的CPU最高睿频、GPU核心数量和NPU引擎数量差异。来源：财联社

智谱和荣耀正式签署 AI 大模型技术联合实验室战略合作协议

据智谱官方消息，智谱和荣耀于 9 月 2 日，在北京正式签署 AI 大模型技术联合实验室战略合作协议。智谱表示，双方深化战略合作，将进一步探索基于用户场景的端侧 AI 智能体验，共同推动智能终端领域大模型技术和应用创新，并通过荣耀折叠屏手机等全场景产品为用户带来更加智慧便捷的 AI 服务。来源：腾讯新闻

OpenAI首款自研芯片来了，首发台积电A16工艺，与苹果正面较量

据中国台湾《经济日报》报道，苹果已经预定了台积电A16埃米（1.6nm）制程的首批产能，OpenAI也加入预定。另据科技媒体Wccftech报道，OpenAI开发基于A16埃米制程的定制芯片，是希望提升Sora的视频生成能力。据业界人士透露，OpenAI原先积极和台积电洽谈合作建设专用晶圆厂，但在评估效益后搁置了专用厂计划。来源：智东西

商汤「办公小浣熊」入驻 Lenovo联想应用商店

商汤办公小浣熊正式在联想应用商店上线，用AI为PC用户提升办公效率。借助联想应用商店平台，办公小浣熊用户可以在PC端就能高效地体验AI大模型能力在财务分析、商业分析、销售预测、市场分析等办公场景的应用。来源： AI工具集

09月03日·周二

阶跃星辰上线 Step-1X 图像生成大模型，注册即可体验

大模型创业公司阶跃星辰在其开放平台体验中心，正式上线了图像生成大模型 Step-1X，注册即可体验。在 7 月份举行的 2024 世界人工智能大会上，阶跃星辰一口气发布了万亿参数语言大模型 Step-2、多模态大模型 Step-1.5V 和图像生成大模型 Step-1X 三款大模型，并且跟上海电影梦幻联动，基于经典 IP《大闹天宫》开发了 H5 互动体验“测测你是哪路神仙”。来源： AI工具集

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

一个八岁的孩子，在没有任何编程经验的情况下，居然手动建起了一个网站。是不是炒作不知道，但真的感知到了 AI 正在让编程变的越来越简单。在没有任何编码经验的情况下建立了一个 Three.js 网站，利用 Claude AI 工具，并让 Cursor 为他完成所有代码工作。来源：机器之心

烧钱换增长，AI产品的流量玩法还走得下去吗？

2024年，国内AI产业的竞争逻辑，被一家大模型企业改变了。Kimi的爆火，为全行业的爆款焦虑找到了答案——通过投流推动用户增长。当所有人都参与到这场营销游戏，给国内大模型市场带来了短暂的“繁荣”。从3月开始，国内头部AI产品的流量均出现大幅增长。3月，国内AI应用访问量前10名的产品里，有9家访问量增速超过40%。来源：钛媒体

AI视频工具OpusClip获北美风投3000万美元投资，用AI革新视频编辑

OpusClip，一家由人工智能驱动的视频再利用初创公司，在由Millennium New Horizons主导的 A 轮融资中筹集了 3000 万美元，参与者包括Samsung Next、GTMfund 和 DCM Ventures，并正在通过新的 ClipAnything 功能增强其平台。这家初创公司致力于将长视频转变为可分享的、在社交媒体平台上病毒式传播的短片。来源：腾讯新闻

MiniMax大模型日均与用户交互30亿次，将发布多模态模型abab7

MiniMax自2021年底成立以来，已经构建了万亿参数的MoE文本大模型、语音大模型及图像大模型，推出了星野、海螺AI等原生应用，同时为企业和开发者提供开放平台API服务。MiniMax的大模型与终端用户进行了日均30亿次的交互，处理超过3万亿文本token，生成2000万张图像和7万小时的语音。来源：新浪财经

OpenAI ChatGPT 被曝将新增 8 种新语音：更自然表达狗叫等动物声音

科技媒体 testingcatalog 报道称通过逆向工程 ChatGPT 应用，发现 OpenAI 即将扩充添加语音，让朗读的声音更加自然和富有表现力。有迹象表明 OpenAI 未来可能会额外推出 8 种新的语音，每种语音都有一个独特的代号，后续可能会逐步推出。这些新声音的另一个有趣特点是，它们能够更自然地表达声音，如动物叫声或其他非语言声音。来源： IT之家

09月02日·周一

Runway发布Gen-3 Alpha Extensions功能，视频可延长至40秒

据 Runway 官方消息，Runway 宣布发布Gen-3Alpha Extensions功能，可将视频时长延长至40秒。该功能支持用户仅凭简单的图片或文字输入，即可制作完整的故事情节或广告内容。时长的突破对广告制作、短视频创作等领域将产生深远影响，大幅提升创作效率。来源：品玩

「无问芯穹」完成近5亿元A轮融资，成立仅16个月已吸纳近10亿

「无问芯穹」宣布完成近5亿元A轮融资。这也是目前为止，国内AI Infra（大模型基础设施）层创业公司最大的单笔融资记录。「无问芯穹」联合创始人、CEO夏立雪表示，本轮投资将用于加强技术人才吸纳与技术研发，深入推动产品商业化发展并强化生态合作。值得注意的是，成立仅仅16个月，「无问芯穹」的累计融资额已近10亿元。这家公司过往投资方还包括红杉中国、百度、智谱、同歌创投等。来源： 36氪

昆仑万维推出AI音乐创作平台：音疯，支持创作者将作品上架售卖

音疯是昆仑万维推出的AI音乐创作平台，基于人工智能技术简化音乐创作流程。用户只需输入歌词，即可一键生成原创歌曲，或通过提供参考音乐来创作风格相似的作品。平台支持多种音乐风格，提供创作灵感，并且支持创作者将作品上架销售，获得收益。来源： AI工具集

MiniMax宣布推出视频生成和音乐生成模型，旗下海螺AI已开放体验

8月31日，一向低调的“AI六小龙” 之一——MiniMax第一次正式对外，在上海办了场“MiniMax Link伙伴日”活动。在会上，MiniMax创始人闫俊杰宣布推出视频生成模型和音乐模型。此外，他预告，新⼀版能从速度和效果都对标GPT-4o的大模型abab7，会在未来⼏周内发布。目前所有用户都可以登录海螺AI官网体验视频生成和音乐生成功能。来源：腾讯新闻

讯飞星火版「Her」横空出世全民开放！百变人设逼真丝滑

OpenAI的「Her」还是期货，讯飞星火版「Her」就抢先上线了！不仅极速响应自由打断，还情绪价值拉满，各种情感、风格、方言随意切换。熊二被召唤出来的时候，家里的熊孩子直接被硬控了30秒。现在只要下载讯飞星火APP，即可体验对标GPT-4o的超自然AI语音助手。来源：腾讯新闻

千亿市值上半年营收仅6476万，寒武纪六个月亏了5个亿

AI芯片领域“冰火两重天”，最主要的AI芯片厂商英伟达近日公布2025财年第二季度财报，显示该季度营收同比增长112%，寒武纪则于8月30日晚间发布半年报，显示今年上半年营收有所下滑。据财报，寒武纪今年上半年营收6476.53万元，同比下降43.42%，净利润亏损5.3亿元，去年同期亏损5.44亿元。来源：第一财经

360AI助手推出的「模型竞技场」功能，多种大模型之间对比测评

据 360 官方消息，360AI助手推出模型竞技场功能。360AI助手大模型竞技场支持显示大模型各大模型性能的详细数据：“模型响应速度”、“模型生成内容字数”、“模型完成生成内容任务耗时”、“模型生成内容效率”（每秒钟生成多少字），通过对比这些性能指标，用户可以看到不同大模型之间的性能差异，作为选择大模型的参考。来源： 360社区

08月30日·周五

专访宇树科技王兴兴：在人形机器人的巨变前夜，做一个敏锐的谨慎派

在目前大热的人形机器人、具身智能赛道，宇树科技是最受关注的公司之一。这家公司最大的标签是硬件实力强——一方面是性能，去年其首款通用人形机器人 H1 能奔跑、原地空翻、踹不到，拥有全球几乎规格最高的动力性能；另一方面是成本控制，今年其第二款人形机器人 G1 价格仅 9.9 万元，而同行普遍在数十万、乃至百万元。来源：极客公园

Runway 从 HuggingFace 上删库“跑路”了，Stable Diffusion v1.5 也消失了

Runway 突然从Hugging Face平台删除所有数据并退出，未通知任何人。此前，Runway因版权问题被迫删除开源的Stable Diffusion 1.5版本。CEO曾表示发布该版本无问题，但后来可能因版权争议和市场竞争压力退出。来源：智东西

通义网页版升级！推出通义效率版块，上线“PPT创作”

通义网页版上线“PPT创作”功能，具备言之有物、设计精美、智能编排三大核心特点。PPT创作功能完全免费，基于通义大模型打造。在通义网页版，音视频转文字产品“通义听悟”升级为“实时记录”，长文档阅读助手“通义智文”升级为“阅读助手”，与“PPT创作”功能共同合并为通义效率，实现从信息搜集整理、内容理解再到内容创作的完整工作学习流。来源：品玩

OpenAI 称 ChatGPT AI 聊天机器人全球周活跃用户数量破 2 亿

科技媒体 Axios 今天（8 月 30 日）发布博文，报道称 OpenAI 的 AI 聊天机器人目前周活跃用户数量已经超过 2 亿，短短 1 年时间实现翻倍。OpenAI 还表示在全球财富 500 强企业中，92% 正在使用其产品；自 7 月份发布 GPT-4o mini 以来，其自动 API 的使用量已翻了一番。来源： IT之家

阿里重磅开源Qwen2-VL：能理解超20分钟视频，媲美GPT-4o

阿里巴巴开源了最新视觉多模态模型 Qwen2-VL ，根据测试数据显示，其72B模型在大部分指标超过了OpenAI的GPT-4o，Anthropic的Claude3.5-Sonnet等著名闭源模型，成为目前最强多模态模型之一。Qwen2-VL支持中文、英文、日文、韩文等众多语言，可以在 Apache 2.0 协议下进行商业化使用。同时阿里发布了 Qwen2-VL-72B的API，帮助开发者增强或开发多模态功能的生成式AI应用。来源： AI工具集

智谱AI发布了一系列新一代基座模型，性能指标均为国际第一梯队

在KDD 2024大会上，智谱AI发布了新一代基座模型，包括语言模型 GLM-4-Plus 、文生图模型 CogView-3-Plus 、图像/视频理解模型 GLM-4V-Plus 、视频生成模型 CogVideoX 等，这些模型在相应领域均达到了国际第一梯队的水平。智谱AI还在「清言APP」上线了视频通话功能，并在MaaS平台上开放了 GLM-4-Flash API的免费使用。来源： AI工具集

08月29日·周四

谷歌推出的首个AI游戏引擎 GameNGen ，可生成实时可玩的游戏

世界上首个完全由AI驱动的游戏引擎来了。谷歌研究者训练的 GameNGen ，能以每秒20帧实时生成DOOM的游戏画面，画面如此逼真，60%的片段都没让玩家认出是AI！全球2000亿美元的游戏行业，从此将被改变。来源： AI工具集

书生・天际 3.0 实景三维大模型发布：城市级 100 平方公里全范围实时渲染，VR 设备可用

据“书生 Intern”官方公众号 28 日推文，书生・天际 3.0 实景三位大模型现已开源发布，渲染效率提速近 6 倍，同时将应用方式拓展至 VR 设备。此前在去年 7 月，上海人工智能实验室联合多家机构发布了书生・天际（LandMark）实景三维大模型，号称首次实现城市级 100 平方公里全范围实时渲染。来源：书生·天际

AI 图像生成公司 Midjourney 宣布进军硬件领域，苹果前硬件经理加盟

知名 AI 图像生成公司 Midjourney 宣布将涉足硬件领域，该公司今日在社交媒体 X 上发布消息，邀请人才加入其新成立的硬件部门。目前 Midjourney 尚未透露将开发何种类型的硬件设备，只是表示有多个项目在进行中，并强调“肯定有更多形态的可能性”。来源： IT之家

安卓 / macOS 版 ChatGPT AI 应用现支持“@”，可无缝切换不同 GPT 模型

科技媒体 testingcatalog 昨日（8 月 28 日）发布博文，报道称安卓版和 macOS 版 ChatGPT 现支持 Mentions 功能，用户在聊天对话中使用“@”字符来调用不同的定制 GPT 模型。在安卓版 ChatGPT 应用中，用户输入“@”符号之后，会弹出一个窗口，让用户选择不同的 GPT，在保持聊天上下文的时候方便用户无缝切换。来源： IT之家

英伟达财务公布三个月净赚1100亿，但市值一夜跌了6.89%

财报显示，第二财季，英伟达营收和净利润均超预期，营业收入达300亿美元（约合人民币2137.08亿元），同比增长122%，环比增长15%；净利润166亿美元（约合人民币1182.52亿元），同比增长168%，环比增长12%。财报公布后，英伟达股价在盘后交易中先涨超2%，后跌至6.89%，市值一夜减少了600万美元（约合人民币4274.16万元），大约相当于跌出了1个中芯国际A股（688981.SH）市值。来源：钛媒体

消息称 OpenAI 正进行新一轮融资谈判，估值破千亿美元

综合 CNBC、《华尔街日报》等消息，OpenAI 正在进行一轮融资谈判，将使这家 AI 初创公司的估值超过 1000 亿美元（IT之家备注：当前约 7124.5 亿元人民币）。据不具名知情人士透露，Thrive Capital 正在主导本轮融资，并将投资 10 亿美元（当前约 71.24 亿元人民币）。今年早些时候，OpenAI 的估值就已超过 800 亿美元（当前约 5699.6 亿元人民币），高于上一年的 290 亿美元。来源： IT之家

美图发布 2024 年中期业绩，经调整归母净利润 2.78 亿元，净利润大涨 80%

8 月 28 日，美图发布 2024 年中期业绩，2024 年 1 到 6 月美图收入 16.2 亿元人民币，同比增长 28.6%，而最亮眼的数据则是经调整归母净利润 2.78 亿元，同比增涨 80.3%。美图给出的两个业绩增长的原因，都是与主营业务相关。一是 AI 技术的加持下，2023 年 6 月，美图一口气推出/更新了 6 款产品，包含美图设计室 V2、开拍、AI 数字人 DreamAvatar 等面向 B 端用户的生产力产品，驱动了国内用户付费的增长。另一个是全球化，美图的 App 在多家应用商店名列前茅，国外用户及付费用户也实现了双增长。来源：腾讯新闻

08月28日·周三

Kimi推出moonshot-v1-auto模型API，Kimi API将推出联网搜索功能

Kimi开放平台推出了名为moonshot-v1-auto的新模型API，这一功能能够根据上下文所需的Tokens数量自动选择合适的模型，从而帮助用户节省费用。同时，官方预告了Kimi API新功能：将推出联网搜索功能。来源： Kimi开放平台

商汤科技半年报：生成式AI业务收入占比首超传统AI

根据最新发布的财报，商汤科技2024年上半年总营收达17.4亿元，同比增长21%。其生成式AI业务收入同比激增256%，达到近11亿元，首次超越传统AI业务，占总收入的60%。来源：第一财经

Freepik Mystic 发布，号称目前最先进的 AI 图像生成器

Magnific AI 和 Freepik 今日联合推出了 Freepik Mystic，宣称是目前最先进的 AI 图像生成器，也是唯一可以直接生成全高清图像的 AI 图像生成器。与 Midjourney 和 OpenAI 的 Dall-E 不同，Mystic 并非基础模型，而是一个结合 Flux 基础模型、微调、高分辨率图像生成技术和参数调整的流程。Freepik Mystic 可以通过 Freepik Premium 订阅使用，Mystic 也将登陆 Magnific AI 平台。来源： AI工具集

谷歌发布 3 款 Gemini 实验 AI 模型：1.5 Pro 冲榜第二、1.5 Flash 从第 23 蹿升至第 6

谷歌 AI Studio 产品总监洛根・基尔帕特里克（Logan Kilpatrick）今天（8 月 28 日）在 X 平台发布推文，宣布推出 3 款 Gemini 实验性模型。Kilpatrick 表示，新的 Gemini 1.5 Pro Exp 0827 型号在各方面都优于 8 月初发布的实验型号，目前在 LMSYS 上的排名为第 2 位，仅次于 OpenAI 的 GPT-4o-latest 模型。来源： IT之家

智谱 AI 开源 CogVideoX-5B 视频生成模型，RTX 3060 显卡可运行

智谱 AI 开源了 CogVideoX-5B 视频生成模型，相比此前开源的 CogVideoX-2B，官方称其视频生成质量更高，视觉效果更好。官方表示大幅度优化了模型的推理性能，推理门槛大幅降低，可以在 GTX 1080Ti 等早期显卡运行 CogVideoX-2B ，在 RTX 3060 等桌面端“甜品卡”运行 CogVideoX-5B 模型。来源： AI工具集

Anthropic 向所有 Claude 用户开放 Artifacts AI 功能

AI 科技公司 Anthropic 今天（8 月 28 日）发布博文，宣布面向所有 Claude 用户开放 Artifacts 功能，用户现在可以在 iOS 和安卓版 Claude 应用中创建和浏览 Artifacts。Artifacts 相当于创建了一个动态工作区，用户和 Claude 对话让其生成文档、代码、矢量图，甚至是简单的游戏过程中，Artifacts 会出现聊天界面旁边，方便用户实时查看、迭代和创建你的作品。来源： IT之家

OpenAI “草莓项目” 最快今年秋季发布，随后是 “猎户座”（Orion）

AI工程师Tom Keldenich表示，OpenAI正在开发“草莓”和“猎户座”（Orion）两种模型。草莓主要用于解决复杂推理任务，尤其是在数学和编程领域，也会极大增强大模型的语言理解能力，例如，在《纽约时报》的测试中就表现非常好。猎户座则是超越GPT-4的继任模型，但其预训练数据由草莓模型生成。也就是这两个模型加起来，将会比现在任何模型的推理、生成能力都强。来源：财联社

中国AI芯片龙头燧原科技启动IPO上市辅导，腾讯持股超20%

据中国证监会官网披露，上海燧原科技股份有限公司（以下简称“燧原科技”）首次公开发行股票并上市辅导备案报告，完成上市辅导备案登记，辅导机构为中金公司。这意味着，这家成立6年、累计融资额近70亿元人民币，估值已超160亿元（胡润数据）的燧原科技正式启动科创板IPO上市，有望成为继寒武纪之后，国内科创板上第二家 AI 算力设计公司。来源：钛媒体

08月27日·周二

智谱 AI 宣布 GLM-4-Flash 大模型免费开放，支持最大128K上下文

智谱 AI 今日宣布，GLM-4-Flash 大模型免费开放，通过智谱AI开放平台调用。GLM-4-Flash 适用于完成简单垂直、低成本、需要快速响应的任务，生成速度能达到 72.14 token/s，约等于 115 字符/s。GLM-4-Flash 具备多轮对话、网页浏览、Function Call（函数调用）和长文本推理（支持最大 128K 上下文）等功能，同时支持包括中文、英语、日语、韩语、德语等在内的 26 种语言。来源： AI工具集

字节成立大模型研究院，疯狂氪金 AI 人才

据 AI 科技评论报道，字节跳动正在秘密筹备成立大模型研究院，并积极招揽人才。知情人士称，已有外部 AI 大牛加入大模型研究院，直接向张一鸣汇报。2023 年 8 月，字节自研的底层大模型“云雀”上线，随即推出 AI 对话产品“豆包”。今年 5 月，字节发布“豆包大模型”家族，发起价格战，号称“比行业便宜 99.3%”。来源：腾讯新闻

Viggle 宣布获a16z的1900万美元投资，帮助 Viggle 扩大规模、加速产品开发

据TechCrunch报道，Viggle 宣布已完成由 Andreessen Horowitz 领投的 1900 万美元 A 轮融资，Two Small Fish 也参与其中。这家初创公司表示，此轮融资将帮助 Viggle 扩大规模、加速产品开发并扩大团队。Viggle 告诉 TechCrunch，它与 Google Cloud 等云提供商合作，以训练和运行其 AI 模型。来源：腾讯新闻

夸克PC端全面发布：有夸克就是AI电脑

夸克（Quark）正式发布夸克PC端，AI搜索、AI创作功能全新上线，夸克的桌面AI助手和网盘服务，结合AI搜索和创作新功能，提供了一个全面的工作和学习平台，号称：有夸克就是AI电脑！来源： AI工具集

虹软科技披露半年报：营业收入3.81亿元，PSAI产品正拓展国际市场

报告期内，PSAI产品陆续入驻阿里巴巴集团旗下的淘宝千牛商家工作台和1688平台、抖店微应用、抖店服务市场。今年上半年，虹软科技实现营业收入3.81亿元，同比增长11.97%；归母净利润6145.89万元，同比增长22.82%；扣非净利润5379.43万元，同比增长21.7%。来源：财联社

苹果官宣进军机器人行业，9月10号推出首款 AI iPhone

据彭博社消息，苹果被爆正探索机器人相关的新业务。从爆料信息来看，这款机器人并非当下热议的人形机器人，而是一款桌面机器人，代号为J595。今天凌晨，苹果宣布将于北京时间9月10日凌晨1点，在加利福尼亚州库比蒂诺总部举办主题为“高光时刻(It ‘s Glowtime)”的特别活动。在苹果今年最重要的一次发布会上，苹果预计将推出最新款iPhone、Watch和AirPods。来源： 36氪

小鹏自研芯片流片，算力是同行三倍，为AI定制设计

小鹏汽车自研的智能驾驶芯片已经成功流片。有知情人士透露，小鹏智驾芯片专门针对AI需求、端到端大模型等设计，是支持舱驾一体的中央计算架构芯片，“AI算力接近3颗主流智驾芯片的水平”。8月27日，小鹏10周年及M03上市活动中，小鹏汽车将正式发布自研芯片信息。来源： 36氪

xAI Grok-2挤进聊天机器人排行榜第二名，紧追GPT-4o

据大模型排行榜 lmsys 官方消息，xAI 的聊天机器人Grok-2现已挤进聊天机器人排行榜第二名，仅次于 ChatGPT 4o。据悉，根据6000份社区投票，Grok-2 夺得了第二名，超越了 GPT-4o（5 月），与最新的 Gemini 并列！Grok-2-mini 也以令人印象深刻的成绩排名第五。来源：品玩

08月26日·周一

云知声推出山海多模态大模型：实时生成文本、音频和图像

云知声推出山海多模态大模型，通过整合跨模态信息，山海多模态大模型能够接收文本、音频、图像等多种形式作为输入，并实时生成文本、音频和图像的任意组合输出。来源： AI工具集

亚马逊 CEO 安迪・贾西：AI 助手 Amazon Q 可节省约 4500 个开发人员一年工作量

亚马逊 CEO 安迪・贾西在其领英主页发帖称，将亚马逊的生成式 AI 开发助手 “Amazon Q” 集成到内部系统后，利用新的代码转换功能，Amazon Q 将应用程序升级到 Java 17 的平均时间从开发人员的 50 天左右缩短到了几个小时，估计节省了约 4500 个开发人员一年的工作量。来源： IT之家

Meta 发布 Sapiens 视觉模型，让 AI 分析和理解图片 / 视频中人类动作

Meta Reality 实验室最新推出了名为 Sapiens 的 AI 视觉模型，适用于二维姿势预估、身体部位分割、深度估计和表面法线预测 4 种以人为中心的基本视觉任务。模型参数从3亿到20亿不等，原生支持1K高分辨率推理，易于针对不同任务调整。即使在标注数据稀缺的情况下，Sapiens也能展现出卓越的泛化能力。来源： AI工具集

西湖心辰推出的端到端语音大模型 Lingo ，媲美GPT-4o

Lingo 是西湖心辰推出的国内首个端到端语音大模型，在技术上具备实时打断、实时指令控制、超级拟人、能说会唱等能力，拥有比 GPT-4o 更出色的中文语音效果。心辰 Lingo 语音模型已于 2024 年 8 月 24 日开启内测预约，预计将在 9 月 5 日的外滩大会上正式发布并开放内测。来源： AI工具集

摩尔线程开源音频理解大模型 MooER：基于国产全功能 GPU 训练和推理

摩尔线程开源了音频理解大模型 —MooER（摩耳），是业界首个基于国产全功能 GPU 进行训练和推理的大型开源语音模型。基于摩尔线程夸娥（KUAE）智算平台，MooER 大模型用 38 小时完成了 5000 小时音频数据和伪标签的训练。MooER 不仅支持中文和英文的语音识别，还具备中译英的语音翻译能力。在 Covost2 中译英测试集中，MooER-5K 取得了 25.2 的 BLEU 分数，接近工业级效果。来源： AI工具集

Meta 发布 Imagine Yourself：无需为特定对象微调的个性化图像生成 AI 模型

从社交媒体到虚拟现实，个性化图像生成因其在各种应用中的潜力而日益受到关注。传统方法通常需要针对每位用户进行大量调整，从而限制了效率和可扩展性，为此 Meta 公司创新提出了“Imagine Yourself” AI 模型。来源： IT之家

一句话生成《黑神话：悟空》3D资产，胡渊鸣创业项目Meshy上新，免费试用

截至目前，Meshy 已经更新到了第 4 代。从 2023 年 11 月登场，Meshy 就以快速、保真、操作简易走在行业前列。在 Meshy-4 中，胡渊鸣团队突破了 3D AI 生成的一些技术难题，无论你是使用文本到 3D 还是图像到 3D，现在都能体验到生成模型的几何质量大幅提升。来源：机器之心

08月23日·周五

快手可灵 AI 推出会员订阅计划：支持 AI 图片 / 视频，首月 19 元起

快手可灵 AI 推出会员订阅计划，其中连续包月首月最低价 19 元、次月 58 元，可生成约 66 个视频或 3300 张图片，还可享受高表现视频生成、视频延长、大师运镜等多项会员专属功能。快手刚发布的 2024 年二季度财报显示，可灵 AI 已有超百万用户，累计生成了超千万视频。来源： IT之家

AI辅助搜索越来越受欢迎 Perplexity计划在四季度开始投放广告

人工智能(AI)搜索初创公司Perplexity AI周四宣布，该公司计划于第四季度在其搜索应用程序上投放广告。据知情人士声称，在广告方面，Perplexity将采用一种名为CPM(每千次展示成本)的模式，价格将超过50美元。它指的是广告主付给媒体的每千次广告展示费用，而不是每次点击费用。来源：财联社

微软 Azure AI 语音服务推出虚拟人形象，支持文本转视频

微软 Azure AI 语音服务允许开发者构建多语言生成式 AI 语音应用，Azure AI 语音服务最新推出了文本到语音虚拟人功能，可以将简单的文本转换为人类自然说话视频。今天，微软宣布全面推出 Text to Speech Avatar 功能。这项新功能使开发者能够为其用户创建个性化虚拟人。该服务的输出视频分辨率为 1920 x 1080，每秒 25 帧。来源： IT之家

李彦宏：文心大模型日调用量超6亿，日均Tokens使用量约1万亿

在百度2024年第二季度财报电话会上，百度创始人、董事长兼首席执行官李彦宏披露，文心大模型日均调用量超6亿次，日均处理Tokens文本约1万亿，均为国内最高。对比23年Q4公布的5000万次日均调用量，半年增长超10倍。季度内，百度推出性能更优的文心大模型4.0 Turbo，并发布多项优惠策略。来源：第一财经

抖音搜索推出独立APP：内容主要为短视频、图文等

据 Tech 星球报道，抖音近期推出抖音搜索的独立 APP。据悉，“抖音搜索”的展示内容则主要是由博主创作的短视频、图文等内容为主。用户通过在搜索栏内搜索相关的关键词或句子，即可在综合频道下找到对应的短视频和图文内容。此外，还细分有视频、图文经验、商品等搜索频道，可进一步精准搜索结果。来源： 36氪

腾讯会议上线17种语言实时翻译，基于腾讯混元、腾讯翻译

腾讯会议升级多语言翻译能力，支持将声源语言翻译为中文、英语、日语、韩语、俄语、泰语、印尼语、越南语、马来语、菲律宾语、葡萄牙语、土耳其语、阿拉伯语、西班牙语、印地语、法语、德语等17种语言。功能升级后，腾讯会议企业版、商业版用户在会议中的字幕、实时转写以及会议后的录制页中均能使用。据介绍，该功能由腾讯混元大模型、腾讯翻译提供支持。来源：量子位

08月22日·周四

Ideogram 发布2.0全新版本，写实风格显著提升，接近真实照片效果

Ideogram 2.0 是由 Ideogram 团队最新推出的文本到图像模型，擅长将文字精准嵌入图像，输入文字即可设计海报、网页，Ideogram 2.0 版本写实风格显著提升，接近真实照片效果。Ideogram 2.0 拥有常规、现实、设计、3D 和动漫等风格，满足不同的创意需求。来源： AI工具集

a16z发布全球 Top 100 AI 应用榜单，字节跳动大放异彩

a16z发布了全球Top 100 AI应用榜单，字节跳动的多款应用新上榜，包括教育科技平台Gauth、机器人构建器Coze和通用助手豆包。图像和视频内容编辑在移动端应用广泛，美学和约会应用崛起。Anthropic的Claude在网络端排名上升，AI助手Luzia在移动端表现突出。来源： a16z

PixVerse V2.5全球上线，视频生成提速200%，运动笔刷升级返场

PixVerse V2.5 是爱诗科技最新推出的AI视频生成工具，通过模型优化提升了视频生成的速度和画质，支持4K分辨率。新版本增加了Performance模式、运动笔刷、运镜控制等功能，增强了视频创作的动态效果和专业度。提供7种语言界面，全球用户均可使用。来源： AI工具集

Midjourney网页版全面开放，每人25次免费试用机会

Midjourney 网页版现在对所有人开放了，每位新用户提供 Midjourney 最先进模型V 6.1 25次试用机会。用户可使用Discord或Google账号登录，并在账户设置中合并两个平台的登录信息，确保历史记录同步。来源： AI工具集

字节豆包语音模型和视觉模型再升级综合能力提升20.3%

2024火山引擎 AI 创新巡展在上海举办，带来豆包大模型的一系列产品升级。豆包语音模型和视觉模型再升级，对话式 AI 实时交互解决方案进一步强化 AI 交互体验。最新版豆包大语言模型的综合能力相比三个月前首次发布时提升了20.3%，豆包·文生图模型、豆包·语音识别模型等模型也有大幅升级来源：火山引擎

百度、商汤、智谱前三，IDC 首次发布大模型平台及应用市场份额报告

国际数据公司（IDC）于今日首次发布了《中国大模型平台市场份额，2023：大模型元年 —— 初局》。数据显示，2023 年中国大模型平台及相关应用市场规模达 17.65 亿元人民币。受益于多年来在 AI 领域的大力投入以及大模型的早期投入，百度智能云在 2023 年大模型市场规模达 3.5 亿元人民币，位居市场第一，市场份额达 19.9%；商汤科技位居市场第二，市场份额达 16.0%；智谱 AI 则是 2023 年初创企业中的胜出者，位居市场第三。来源： IT之家

08月21日·周三

泡茶、弹琴、练咏春，星尘智能发布 AI 机器人助理 Astribot S1

Astribot 星尘智能 8 月 19 日发布了 AI 机器人助理 Astribot S1，支持泡茶、做饭、弹琴、练咏春拳等，还能 VR 遥控。据星尘智能介绍，Astribot S1 采用了刚柔耦合传动机构，自主研发关键零部件，搭载软硬件一体化系统架构。来源： IT之家

微软发布Phi-3.5系列模型，性能超越Gemini 1.5 Flash与GPT-4o

Phi-3.5 是微软推出的新一代AI模型系列，包含 Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct 三个版本，分别针对轻量级推理、混合专家系统和多模态任务设计。Phi-3.5采用MIT开源许可证，具有不同参数规模，支持128k上下文长度，优化了多语言处理和多轮对话能力，在基准测试中性能表现超越了GPT4o、Llama 3.1、Gemini Flash等同类模型。来源： AI工具集

谷歌开放 HeAR AI 模型 API：1 亿条咳嗽声训练，辅助筛查、诊断和监测肺结核

谷歌公司于 8 月 19 日发布博文，宣布通过 Google Cloud API，目前已经向研究人员开放健康声学表征（Health Acoustic Representations，简称 HeAR）AI 模型。谷歌 HeAR AI 模型可以帮助人类诊断疾病，可以通过分析人的咳嗽和呼吸，诊断出疾病。来源： IT之家

Salesforce推出 xGen-MM 开源多模态AI模型

xGen-MM 是Salesforce推出的一款开源多模态AI模型，具有处理交错数据的能力，能同时理解和生成文本、图像等多种数据类型。xGen-MM 通过学习大量的图片和文字信息，不仅在视觉语言任务上展现出强大的性能，还通过开源模型、数据集和微调代码库，促进模型能力的不断提升。来源： AI工具集

OpenAI 开放 GPT-4o 微调功能，企业可更轻松打造专属 AI 助手

OpenAI 推出了一项新功能，允许企业客户使用自己的数据来定制其最强大的 AI 模型 GPT-4o。此举旨在应对日益激烈的 AI 企业应用竞争，并满足企业对 AI 投资回报的更高要求。通过微调，现有 AI 模型可以针对特定任务或领域进行优化。来源： IT之家

PICO发布“中国版Vision Pro”，搭载的AI芯片性能暴增800%

8月20日下午，字节跳动旗下XR平台PICO推出首款MR混合现实一体机PICO 4 Ultra，硬件上搭载全新高通骁龙XR2 Gen2计算平台，拥有12GB超大内存，GPU性能相比前代XR1提升2.5倍，AI性能比XR1提升8倍。价格方面，PICO 4 Ultra消费者版本售价4299 元，PICO 4 Ultra Enterprise（企业版）7499 元，PICO体感追踪器售价399元一对，现已全面开启预售来源：钛媒体

iPad 上最强的绘画应用 Procreate ，永远不会在其产品中引入生成式 AI

Procreate CEO James Cuda 宣布该应用将永不使用生成式AI技术，以保护艺术家免受其影响；Procreate 是一款受欢迎的iPad绘图应用，自2011年上线以来获得多个奖项，并广泛用于艺术和设计教育；尽管Procreate拒绝采用生成式AI，公司仍将继续使用传统的机器学习技术来优化应用功能。来源：爱范儿

EliseAI 跻身纽约独角兽行列：D轮融资7500万美元、估值超10亿美元

据VentureBeat官网报道，近日，房产科技公司 EliseAI 宣布成功完成7500万美元D轮融资，此轮融资由知名风投公司 Sapphire Ventures 领投，新筹集的资金将主要用于扩充团队规模，推进产品研发。至此，EliseAI的估值超过10亿美元，成为了纽约最新的独角兽公司。来源：智东西

08月20日·周二

全球最强数学大模型 Qwen2-Math 发布人人可玩Demo

阿里千问大模型团队发布了 Qwen2-Math 的体验Demo，HuggingFace在线可玩。惊喜的是，如果嫌输入数学公式比较麻烦，可以把想问的题截图or扫描，上传即可解题。试玩界面的OCR功能，由阿里千问大模型团队Qwen2-VL提供支持；数学推理能力，由Qwen2-Math支持。来源： AI工具集

Luma Dream Machine v1.5版本发布，更快、更真、更清晰

据 Luma AI 官方消息，Luma Dream Machine v1.5版本已经在近日发布，在视频生成方面获得巨大改善。据Luma官方表示，Luma Dream Machine v1.5版本在视频生成方面取得了显著进步，不仅提升了视频的质量，更缩短了生成时间。现在，用户可以在更短的时间内，得到更高质量的视频作品。来源：品玩

AMD 宣布 49 亿美元收购服务器制造商 ZT Systems 以挑战英伟达

AMD 宣布同意以 75% 现金和 25% 股票交易方式收购服务器制造商 ZT Systems，交易价值为 49 亿美元，以增加数据中心技术。ZT Systems 将成为 AMD 数据中心解决方案业务集团的一部分。ZT Systems 在过去 12 个月的收入超过 100 亿美元。来源：有新Newin

通义千问宣布启用新域名“tongyi.ai”，网页版聊天新增深度搜索功能

阿里大语言模型“通义千问”今日宣布启用新域名“tongyi.ai”，并带来多项新功能。网页版聊天新增深度搜索功能；App 图片微动效支持多尺寸图片；App 自定义唱演支持 3:4 画幅（原先 1:1）。来源：通义千问

08月19日·周一

昆仑万维推出 AI 短剧平台 SkyReels：可生成剧情/对白，号称让创作者“一键成剧”

8月19日，昆仑万维发布全球首个集成视频大模型与3D大模型的AI短剧平台SkyReels。SkyReels平台集剧本生成、角色定制、分镜、剧情、对白/BGM及影片合成于一体，让创作者“一键成剧”，轻松制作高质量AI视频。来源： AI工具集

科大讯飞推出“星火极速超拟人交互”：可模仿孙悟空、蜡笔小新等音色、语气、人设

科大讯飞今日宣布对星火语音大模型进行更新，带来“星火极速超拟人交互”，计划于 8 月 30 日上线讯飞星火 App。“星火极速超拟人交互”采用统一神经网络实现语音到语音的端到端建模。官方称即便被频繁打断，也能“迅速反应”，更加符合日常对话情境。来源：科大讯飞

OpenAI 关闭 SearchGPT 候补名单，针对 10000 名用户开始测试

据 The Verge 报道，OpenAI 宣布其新产品 SearchGPT 的候选名单已经关闭，并开始用户测试。在初始阶段，只有 10000 名用户将被授予访问权限，这可能有助于避免搜索机器人提供错误建议的情况。SearchGPT 可以让用户用自然语言提问，并获得详细、易懂的答案，就像在与专家交谈一样。系统能够保持对话的上下文，理解复杂的查询，甚至自己澄清细节。来源：品玩

斯坦福都在用的 AI 学术搜索引擎 Consensus 获 USV 1100 万美元领投

近日，AI 学术搜索引擎 Consensus 宣布完成 1100 万美元融资，A 轮融资由 Union Square Ventures 领投，其他投资者还包括 Nat Friedman、Daniel Gross 以及 Draper Associates 等。据悉，Consensus 目前拥有 40 万月活跃用户，包括学生、医生和注重健康的消费者，这些用户通过搜索引擎来回答各种问题，包括肌酸补充剂、正念的好处以及现金转移是否可以减少贫困。来源：有新Newin

免费AI学术搜索引擎Lumina，号称搜索结果相关性比谷歌学术高5倍

三人团队打造的学术搜索引擎，直接拿下SOTA！号称搜索结果相关性平均比谷歌学术高5倍，能搜索超1亿个研究对象，还不依赖LLM。更重要的是：免费！这个新搜索引擎名叫Lumina，据说目前已处理了超30万次查询，支持24种语言。为了和谷歌学术等传统学术搜索引擎做比较，开发团队还专门搞了个基准测试，代码库也已开源放了出来，测试结果Lumina搜索结果的相关性拿下SOTA。来源： AI工具集

谷歌前CEO施密特最新演讲全文实录：坦言“卷”才是企业唯一的出路

Google 前 CEO ，「现在已经不是 Google 员工」的施密特（Eric Schmidt）前不久在斯坦福做了一次分享。分享被拍成视频上传到斯坦福在线课 YouTube 官号，其中有 40 多分钟施密特与学生 Q&A 的环节。因为观点太直接，说话太实在，施密特的分享上了新闻。来源：极客公园

稚晖君一口气发布5款人形机器人，远征A2系列主打“面向量产改进”

在这场发布会中，稚晖君一口气推出了三款远征系列机器人产品：交互服务机器人「远征 A2」、柔性智造机器人「远征 A2-W」、重载特种机器人「远征 A2-Max」。最后的 One more thing 环节，智元 X-Lab 孵化的模块化机器人系列产品「灵犀 X1」和「灵犀 X1-W」也作为「彩蛋」正式亮相。来源：量子位

中国首个接入大模型的Linux开源操作系统正式发布——Linux发行版 deepin V23

知名开源社区——deepin（深度）社区正式对外发布了开源操作系统——Linux发行版 deepin V23。作为中国首个开源操作系统根社区推出的发行版本，deepin V23真正实现了操作系统在仓库、应用层、操作系统核心组件上都有自研模块，向全球开源爱好者输出提供优异的源自中国的开发套件！来源：腾讯新闻

08月16日·周五

Runway发布Gen-3 Alpha Turbo：AI视频生成速度提升7倍

据 Runway 官方消息，Runway 正式推出了 Gen-3 Alpha Turbo，这是该公司最新的 AI 视频生成模型。与此前发布的Gen-3 Alpha相比，Turbo生成速度可提高 7 倍，价格仅为原版 Gen-3 Alpha 的一半。同时在许多用例中仍具有同等性能。Turbo 适用于所有用户，包括免费用户的试用版。来源：品玩

CodeRabbit获1600万美元融资，助力AI自动化代码审查

据 Techcrunch 报道， CodeRabbit 宣布获得 1600 万美元的 A 轮融资，由 CRV 领投，Flex Capital 和 Engineering Capital 参投。CodeRabbit是一家 AI 初创公司，其目标是通过人工智能来自动化代码审查过程。CodeRabbit 的平台利用先进的人工智能推理来理解代码背后的意图，并为开发者提供可操作的、类似人类的反馈。来源：腾讯新闻

李沐：创业一年，人间三年

作者李沐：给小伙伴汇报一下 LLM 创业第一年的进展、纠结和反思。在 Amazon 呆到第五年的时候就想着创业了，但被疫情耽搁了。到第 7 年半的时候，觉得太痒了，就提了离职。现在想来，如果有什么事这一辈子总要试下的，就蹭早。因为真开始后会发现有太多新东西要学，总感叹为啥没能早点开始。来源：机器之心

收到中国知网 28 页侵权告知函，秘塔 AI 宣布不再收录知网文献题录、摘要数据

秘塔公司今天上午通过官方公众号发文称，昨天（15 日）收到《中国学术期刊（光盘版）》电子杂志社有限公司（即“知网”），长达 28 页的侵权告知函。秘塔方面针对此事回应称，依照学术规范，文献的摘要和题录应具有独立性和自明性，能够使读者不阅读全文就能获得必要的信息。秘塔 AI 搜索的“学术”版块仅收录了论文的文献摘要和题录，并未收录文章内容本身，阅读正文需通过来源链接跳转至网站获取。来源：秘塔AI

微信蚂蚁押注 AI 应用商店，巨头争抢 AI 时代“苹果税”抽成

据 Tech星球报道，微信的云开发团队正在打造一款名为“云开发AI智能体”的应用平台，这是一个多平台AI智能体开发框架，用于企业和小程序提供专属的智能体平台。蚂蚁集团也在开发一款AI应用搭建工具“芝士饼”。开发者为蚂蚁云通（上海）信息技术有限公司，天眼查显示，该公司由蚂蚁集团100%控股。用户通过该平台也能够在无代码的情况下搭建AI应用，支持创作成支付宝小程序等多重产品形态。来源：品玩

力压 DALL-E 3 等顶级模型，谷歌开放 Imagen 3 文生图 AI 访问

科技媒体 VentureBeat 报道，谷歌已经向美国用户正式开放了最新文生图 AI 模型 Imagen 3，用户可以打开 AI Test Kitchen 体验该功能，官方称最新版本“细节更清晰、光照更丰富、干扰性人工痕迹更少”。谷歌于今年 5 月召开的 I / O 开发者大会上宣布 Imagen 3 模型，6 月邀请部分 Vertex AI 用户测试使用，而现在正式向美国用户开放。来源： IT之家

百度文库“橙篇”App 上线，支持长文写作、多图一键成片等

百度文库于 5 月 30 日发布 AI 原生应用“橙篇”，橙篇App 在各大安卓平台上线，版本号为 1.0.02，安装包体积为 40.72 MB。这款产品支持智能全网搜索、AI 今日热点等类似资讯类 App 的功能，还支持多图一键成片、超长文章写作、文件理解总结等生成式大模型功能。此外，该产品具备对话能力，支持发送文字、语音输入等进行自由对话。来源： IT之家

08月15日·周四

NEA 领投李飞飞 World Labs 新一轮 1 亿美元融资估值已超 10 亿美元

上个月，李飞飞创立的 World Labs 公司被曝在短短两个月内完成两轮融资，获得了包括 a16z 以及 AI 基金 Radical Ventures 在内的顶级科技投资者的投资，估值超过 10 亿美元。根据 TechCrunch 获悉，World Labs 最新一轮由 NEA 领投，估值超过 10 亿美元，最早《金融时报》在 7 月份报道了这笔超过 1 亿美元的投资。来源：有新Newin

苹果或将在2026年推出搭载 AI 系统的桌面机器人

据 Macrumors 报道，苹果计划在2026年推出一款桌面机器人产品，该设备售价约1000美元，将配备Apple Intelligence 技术。据悉，该设备将配备一个类似 iPad 的大型显示屏，安装在一个机械臂上，允许显示屏上下左右倾斜和 360 度旋转。该设备可用作 “智能家居指挥中心”、FaceTime 通话等视频会议设备和家庭安全监控工具。来源：品玩

最强智能体Agent Q发布，可以自我学习进化

初创公司MultiOn最近发布了号称「目前最强」的Agent Q，在真实的预订任务中可以达到95.4%的成功率。网友纷纷猜测其背后有OpenAI神秘的Q*项目加持。Agent Q融合了引导式蒙特卡洛树搜索（MCTS）、AI自我批评和直接偏好优化（DPO）等技术，使AI模型能通过迭代微调和基于人类反馈的强化学习进行自我改进。来源： AI工具集

蚂蚁进军AI企业服务市场！成立“数字蚂力”新公司，发力AI to B

蚂蚁集团在北京成立新公司“数字蚂力”，发力AI to B市场，将以人工智能技术服务企业经营。数字蚂力总部位于海淀区的蚂蚁T空间。该空间也是蚂蚁北京创新科技总部，蚂蚁集团将依托首都科技和人才优势，加大科技创新投入力度，围绕人工智能和数据要素根技术开展前沿探索。来源：量子位

OpenAI发布 ChatGPT-4o-Latest 力压谷歌 Gemini 1.5 Pro，多项跑分重夺第一

谷歌上周发布最强 Gemini 1.5 Pro 模型，在 LMSYS 的聊天机器人竞技场（Chatbot Arena）比赛中取得第一名，而 OpenAI 迅速“找回场子”，最新 chatgpt-4o-latest 模型重夺第一。OpenAI再次发布了名为 chatgpt-4o-latest 的全新前沿模型，是 GPT-4o 的最新版本，上下文窗口输入最高 128000 个词元（tokens），输出最高 16384 个词元。来源： IT之家

ChatGPT 低调更新，已使用最新版本GPT-4o 模型

据 ChatGPT 官方消息，ChatGPT已在上周进行更新，使用最新版本的GPT-4o 模型。据悉，该版本是OpenAI 根据用户反馈而更新的一个版本。新模型似乎能够进行更细致地分步推理，并给出更详尽的解释。来源：品玩

08月14日·周三

马斯克 xAI 发布 Grok-2 / mini AI 模型，𝕏 平台新增支持文生图

xAI 公司昨日（8 月 13 日）以 Beta 版本的形式，发布了 Grok-2 和 Grok-2 mini 两款 AI 模型，重点改善了推理能力。Grok-2在视觉任务MathVista和DocVQA上展现出行业领先的水平，并与Black Forest Labs的FLUX.1模型合作，扩展了Grok-2的AI能力，计划在本月晚些时候通过企业 API 向开发者提供这两种模型。来源： AI工具集

昆仑万维发布全球首个 AI 流媒体音乐平台 Melodio

昆仑万维今日宣布，正式发布全球首个 AI 流媒体音乐平台 Melodio，并同步推出 AI 音乐商用创作平台 Mureka。据介绍，用户根据此刻的场景或心情在 Melodio 输入 Prompt（提示），Melodio 便会持续生成相应风格的定制化音乐。来源： AI工具集

快手发布新款 AI 对话应用飞船 Kraft，提供全方位 AI 陪伴功能

据快手官方消息，快手今日推出 AI 对话应用飞船 Kraft，为用户提供个性化对话体验。官方介绍称，飞船（Kraft）智能助手 App 是一款基于先进 AI 技术的互动软件，旨在提升用户的生活质量和工作效率。用户可以通过文字或语音与 AI 助手进行交流，解答疑问、获得娱乐、进行创作和角色定制等。来源： AI工具集

谷歌发布 Pixel Studio 本地 AI 文生图应用：基于 Imagen 3 模型，2 秒内生成

谷歌公司在今天召开的 Pixel 9 系列手机发布会上，推出名为 Pixel Studio 的全新图像生成应用，并表示将预装在每台 Pixel 9 系列手机上。用户可以在 Pixel Studio 应用中输入提示词，要求其生成图片。谷歌 Pixel Studio 应用采用本地运行生成，基于谷歌自己的 Imagen 3 模型。来源： AI工具集

谷歌发布 Gemini Live：支持 AI 语音聊天，可模拟面试场景、推荐演讲技巧

Gemini Live是谷歌推出的智能语音助手，具有自然语言理解和多模态识别能力，支持图像、视频和语音交互。用户可通过语音指令控制，实现日常任务自动化。Gemini Live提供10种语音选择，集成谷歌原生应用，未来将扩展至iOS系统和增加更多语言的支持。来源： AI工具集

谷歌向苹果三星开火！深夜甩出四款AI手机，一键召唤Gemini，安卓全面AI化

智东西8月14日报道，今日凌晨，在第九届Made by Google活动上，AI成为谷歌硬件全家桶亮相的关键词，AI被提及近百次，谷歌已经将Gemini无缝集成到了折叠屏手机、智能手表、TWS耳机等各类硬件中。此次，全球大模型和AI巨头谷歌甩出了其与大模型深度结合的AI硬件全家桶，抢在苹果正式发布搭载苹果智能的iPhone 16系列之前，使得安卓成为了首个配备大型设备内置多模态AI模型的移动操作系统。来源：智东西

08月13日·周二

Cosine AI 推出 “地表最强” AI 程序员：Genie

Genie 是Cosine AI推出的AI软件工程师智能体，能像人类一样快速解决实际软件问题，仅需84秒即可完成代码编写和运行。Genie通过模仿人类程序员的思考方式，自动解析问题、迭代分析并编写代码。Genie在SWE-Bench基准测试中以30.07%的解决率遥遥领先。来源： AI工具集

首个全自动科学发现AI系统，Transformer作者创业公司Sakana AI推出AI Scientist

Sakana AI 宣布推出 AI Scientist，这是世界上第一个用于自动化科学研究和开放式发现的 AI 系统！从构思、编写代码、运行实验和总结结果，到撰写整篇论文和进行同行评审，AI Scientist 开启了 AI 驱动的科学研究和加速发现的新时代。原则上，它可以不断重复科学研究过程，以开放式的方式迭代开发想法，就像人类科学家一样。来源：机器之心

AMD 完成收购欧洲最大私人 AI 实验室 Silo AI，斥资 6.65 亿美元

AMD 今日正式宣布，已完成对欧洲最大私人 AI 实验室 Silo AI 的收购，交易金额约为 6.65 亿美元（IT之家备注：当前约 47.73 亿元人民币），采用全现金支付。至此，Silo AI 的科学家和工程师正式加入 AMD 大家庭。来源： IT之家

阿里通义开源音频语言模型Qwen2-Audio，相关论文入选顶会ACL 2024

阿里通义大模型继续开源，Qwen2系列开源家族新增音频语言模型Qwen2-Audio。Qwen2-Audio可以不需文本输入，直接进行语音问答，理解并分析用户输入的音频信号，包括人声、自然音、音乐等。该模型在多个权威测评中都显著超越先前的最佳模型。来源： AI工具集

苹果被曝正开发 AI 智能眼镜，便宜版 Vision Pro 或将明年推出

根据彭博社 Mark Gurman 的爆料，苹果 Vision 团队正在继续试验几种不同的穿戴式 VR/AR 眼镜产品，其中包括更平价的 Apple Vision 头显，第二代 Apple Vision Pro，以及一款类似 Ray Ban Meta 的智能眼镜。来源：爱范儿

IBM 推出生成式 AI 网络安全助手

据IBM 官方消息，IBM 将在其托管威胁检测和响应服务中引入生成式 AI 功能，供 IBM Consulting （IBM 咨询）的分析人员使用，从而协作客户推进和简化安全运营。全新的IBM Consulting Cybersecurity Assistant 基于 IBM 的数据和 AI 平台 watsonx 构建，旨在加快和改进对关键安全威胁的识别、调查和响应。来源： IT之家

Meta 深化与环球音乐合作，双方将共同保护人类创作者和艺术

据 Meta 官方消息，Meta宣布和环球音乐集团（Universal Music Group）深化合作，达成了新的多年合作协议。Meta 公司在公告中表示，新协议反映了双方共同致力于保护人类创作者和艺术，包括确保艺术家和词曲作者得到公平报酬，帮助艺术家和词曲作者在 Meta 平台上提供更广阔的发展空间和商业机遇。来源：品玩

我国完成备案并上线、能为公众提供服务的生成式 AI 服务大模型达 180 多个

据“工信微报”消息，在日前召开的第十二届互联网安全大会上，中央网络安全和信息化委员会办公室副主任、国家互联网信息办公室副主任王京涛介绍，截至目前，我国已经完成备案并上线、能为公众提供服务的生成式人工智能服务大模型达 180 多个，注册用户数已突破 5.64 亿。来源： IT之家

08月12日·周一

百度网盘超能画布推出Pro专业版，修图效率提升60倍

百度网盘AI创意生成工具“超能画布”近日宣布推出专业版。用户只需上传图片，即可从70余种风格中挑选，轻松生成具有不同妆造服饰和场景的写真。其“背景重绘”功能能够智能识别并抠出人物主体，一键更换背景，大大降低了布景成本，同时保留了拍摄时的服饰造型。来源：品玩

LG 推出韩国首个开源 AI 模型 EXAONE 3.0，韩语测试排名第一

LG AI Research 于 8 月 7 日宣布推出韩国首个开源 AI 模型 EXAONE 3.0，标志着韩国进入了由美国科技巨头以及中国和中东新兴企业主导的全球 AI 领域。EXAONE 3.0 开源模型基于 Decoder-only Transformer 架构，参数数量为 7.8B，训练数据量（tokens）为 8T，是一款针对英语和韩语的双语模型。来源： IT之家

讯飞智文 2.0 版本发布：内置 AI PPT 编排创作引擎，基于星火大模型

从讯飞开放平台获悉，讯飞智文 2.0 版本今天正式发布，带来 PPT 文本生成大模型、AI PPT 编排创作引擎、AI PPT 在线编辑模组三大技术升级。据介绍，讯飞智文 2.0 依托讯飞星火 V4.0 的底座能力，在文本生成方面进行了独立训练，对用户输入的主题具备更强大的理解能力。用户在“主题创建”中输入一句话主题，再勾选“联网搜索”，大模型即可自动抓取实时资讯，以确保事实的时效性、准确性。来源：讯飞开放平台

毒舌 AI Twitter Personality 每小时赚 4000 美元，每分钟 36 个新用户

病毒式传播的“毒舌 AI”Twitter Personality 每小时赚4000美元！（约2.8万元），只需输入一个推特用户名，就能得到 AI 根据历史发言做的犀利点评。而且只要是公开账号就行，并不需要获取任何权限，除了查看 AI 对自己的看法，还可以用来恶搞朋友，甚至名人。“毒舌AI”Twitter Personality构建在低代码开发平台 Wordware 上。来源：量子位

马斯克宣布Grok 2测试版即将发布，年底发布Grok 3

特斯拉 CEO 马斯克当地时间 8 月 11 日晚在 X 平台上表示，人工智能模型 Grok 2 测试版即将发布。Grok 2 发布后将紧随 Grok 3，马斯克此前称其将在年底左右推出。他表示，xAI 一直在训练 Grok 3，该模型的水平将“达到或超越”尚未发布的 OpenAI GPT-5来源： IT之家

AI 换脸项目 Deep-Live-Cam 一夜爆火：只需一张照片，变身马斯克直播

8 月 9 日晚到 8 月 10 日早晨，一个项目突然在 GitHub 上火起来：Deep-Live-Cam，使用一张他人的照片，就能实现在直播流中的实时换脸，而且效果优秀。Deep-Live-Cam 现在在 GitHub 上完全开源，在 CPU 上运行，可以使用 NVIDIA CUDA、Apple Silicon（CoreML）、DirectML（Windows）、OpenVINO（Intel）进行 GPU 加速。来源： AI工具集

08月10日·周六

智谱AI推出200万字长文本模型 GLM-4-long ，已开放API

GLM-4-long 是智谱AI推出的200万字长文本模型，现已在智谱AI开放平台BigModel上开放API调用。支持超长输入专为处理超长文本和记忆型任务设计，上下文长度最高为1M，约150-200万字，相当于2本红楼梦或者125篇论文。。来源： AI工具集

即刻魔法镜：即刻账户AI趣味分析应用，窥探你的内心

即刻魔法镜是即刻账户AI趣味分析应用，用户只需要输入即刻主页链接，立即开始“照照魔法镜”，即刻魔法镜全面阅读用户所有即刻账户帖子与互动内容并产出分析报告，综合输出用户的优点、缺点、爱情、金钱、健康预测以及生活和职业建议。即刻魔法镜幽默风趣的吐槽和深刻洞察力类似基于 Wordware 搭建的“Twitter毒舌智能体”。来源： AI工具集

AI+编程初创公司 Anysphere 获得 a16z 和 Thrive 等 6000万美元 A 轮融资

AI +编程初创公司 Anysphere 完成 6000 万美元 A 轮融资，投后估值 4 亿美元。据悉，此轮融资由 a16z 以及 Thrive Capital 联合领投，Stripe 联合创始人&CEO Patrick Collison 也参与了此轮融资。Anysphere公司推出的AI编程产品是 Cursor-立即体验。来源：有新Newin

08月09日·周五

秘塔科技完成超1亿元融资，蚂蚁集团领投

据晚点latepost 报道，秘塔科技近期完成了超 1 亿元人民币的新一轮融资，由蚂蚁集团领投、光速光合跟投。本轮投后估值达 1.5 亿美元。据了解，百度、腾讯等大型科技公司也曾在这轮融资期间与秘塔接触，最终蚂蚁与秘塔达成交易。去年以来，蚂蚁集团在 AI 领域已至少投资 6 家公司，包括大模型公司智谱 AI、月之暗面，视频生成公司爱诗科技、生数科技，AI 芯片公司墨芯和最新的秘塔。来源：晚点LatePost

字节豆包大模型已支持实时语音通话

字节跳动旗下火山引擎今日宣布推出对话式 AI 实时交互解决方案，搭载火山方舟大模型服务平台。该方案通过火山引擎 RTC 实现语音数据的采集、处理和传输，并深度整合豆包・语音识别模型和豆包・语音合成模型，简化语音到文本和文本到语音的转换过程，提供智能对话和自然语言处理能力，帮助应用实现用户和云端大模型的实时语音通话。来源： IT之家

小米旗舰设备国际版将接入谷歌 Gemini 大模型，OPPO 此前已接入

小米创办人雷军 8 月 7 日宣布，小米旗舰设备国际版将接入谷歌 AI 大模型 Google Gemini。小米目前已在国行机型中推出了自家的 AI 功能，7 月 30 日，小米小爱同学「大模型小爱」宣布全量升级，支持自然问答、图片编辑、车外唤醒防御等，覆盖核心品类设备。来源： IT之家

毒舌 AI 上线 𝕏：马斯克、霉霉甚至全球 400 万网友被 Wordware 骂破防

这个名叫 Wordware 的产品，是一个 IDE 平台，可以在上面用自然语言构建 AI Agent。而大火的这个推特罗伯特，是个调用 Claude 的 AI Agent，号称「发现你的推特人格」。只要把你的推特账号输入进去，它就会阅读你的推文，然后用 LLM 来分析你的个性。来源： IT之家

阿里开源Qwen2-Math：数学推理全球第一，超越GPT-4o和Claude-3.5

阿里开源了Qwen2-Math（1.5B/7B/72B）系列，Qwen2-Math是一系列基于Qwen2 LLM构建的专门用于数学解题的语言模型，数学推理能力全球第一。在Math上的评测结果表明，最大的数学专用模型Qwen2-Math-72B-Instruct超越了最先进的模型，包括GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro和Llama-3.1-405B。来源： Qwen

OpenAI 宣布 DALL-E 3 模型向 ChatGPT 免费用户开放

北京时间今天凌晨，OpenAI 宣布 ChatGPT 免费用户可以每天使用其 DALL-E 3 模型生成图片。DALL-E 3 于去年 9 月推出，起初只面向 ChatGPT Plus 付费订阅用户提供。来源： IT之家

Mistral AI推出新开发工具La Plateforme 用户可自主优化和构建智能Agents

Mistral AI 近日宣布，推出全新 AI 工具La Plateforme以及 Agents平台，为用户和开发者提供更强大、更灵活的AI模型优化和应用能力。Mistral表示，他们的模型终于可以通过La Plateforme进行微调，让用户可以更好地利用自己的数据进行优化。同时，Agents平台则可以帮助用户对模型进行详细调整，构建出更加智能的Agents。来源：品玩

阿里巴巴推出科研自动化AI助手DS Assistant

据阿里巴巴官方消息，阿里巴巴近日推出了一款名为DS Assistant的AI数据科学助手，它能够自动化地完成从数据探索到模型评估的全流程，让数据科学工作变得更加简单、高效。DS Assistant基于Modelscope-Agent框架开发，这一框架由阿里巴巴开源，具有丰富的工具生态和灵活的模块设计。来源：品玩

08月08日·周四

字节跳动旗下豆包上线音乐生成功能，用户可一键“撰写”词曲

字节跳动旗下智能 AI 助手豆包今日上线音乐生成功能。用户在豆包的“音乐生成”中输入主题或自己写的歌词，设定音乐风格、情绪及音色，便能快速生成一首约 1 分钟的词曲。目前，豆包音乐生成功能提供民谣、嘻哈、R&B 等 11 种音乐风格，其中还涵盖了爵士、雷鬼、电音等相对小众的曲风，用户可选择男声或女声演唱。来源： IT之家

阿里云推出首个域名 AI 大模型应用，上线“.ai”域名后缀

阿里云在万网焕新发布会上宣布，域名产品服务完成 AI 化系列改造，推出首个域名 AI 大模型应用，并上线“.ai”等 40 余个全新的域名后缀、2000 万个全球域名资源。据阿里云官方介绍，升级后的阿里云万网，实现了智能起名。用户输入只需输入品牌信息与所属行业，一键点击后，基于通义大模型就能批量生成创意域名。来源： IT之家

百度网盘推出AI修图摄影行业解决方案

据百度消息，百度网盘在2024年8月推出了针对摄影行业的解决方案，该方案集存储备份、AI修图和高效交付于一体，目的是帮助影楼提高效率、降低成本并增强业务增长。百度网盘AI修图功能能够满足多种修图需求，包括高低频磨皮、面部重塑、单人调整和批量处理、牙齿美白等来源： AI工具集

OpenAI基金牵头6000万美元投资硬件初创企业Opal

据The information报道，OpenAI基金正在牵头为Opal（之前称为Opal Camera）进行 6000 万美元的 B 轮融资。其他投资方包括 YouTuber Casey Neistat和TikTok兄弟Charli和Dixie D’Amelio，以及Founders Fund和Kindred Ventures在内的现有投资者参投。来源：钛媒体

月之暗面 Kimi 上下文缓存 Cache 存储费用降价 50%

月之暗面宣布，Kimi 开放平台的上下文缓存 Cache 存储费用降价 50%，Cache 存储费用由 10 元 / 1M tokens / min 降低至 5 元 / 1M tokens / min，即日起生效。7 月 1 日，Kimi 开放平台上下文缓存（Context Caching）功能开启公测。官方表示，该技术在 API 价格不变的前提下，可为开发者降低最高 90% 的长文本旗舰大模型使用成本，并提升模型响应速度。来源：月之暗面

GPT-4o新版本上线：丝滑解决9.11和9.9谁大，更强也更便宜了

GPT-4o新版本上线，更强更便宜。能力全方位提升，ZeroEval基准测试直接跃居第一。输入和输出分别节省50%、33%。token输出扩展到16k，此前支持4k。9.11和9.9谁大这个问题，也能丝滑解决。这是因为OpenAI给API中引入了结构化输出，通过JSON 模式确保模型输出符合开发者定义的结构，能让模型变得更可靠安全。最新版模型“GPT-4o-2024-08-06”在JSON模式评估中，得分100%。来源：量子位

商汤科技推出的AIGC产品“秒画趣拍”，上线9天日活破52万人

商汤科技基于“日日新·秒画”文生图大模型打造的一款帮助用户生成创意写真、自拍合照的AIGC产品“秒画趣拍”小程序版上线，试运营第9天日活跃用户突破52万，用户总量突破146万，日页浏览突破4117万，网络请求破亿次。“秒画趣拍”小程序里覆盖丰富模板，包括定格奥运、校园毕业照、创意合照、名画风写真、旅拍照片、新国风、二次元等。来源： AI工具集

08月07日·周三

Canva 可画发布一站式 AI 创作套件“魔力工作室”：支持生成花字、转场动画

在 8 月 6 日的“Canva Connect 连接你我，可画未来”主题活动中，在线视觉传播和协作平台 Canva 可画宣布，一站式 AI 创作套件“魔力工作室”在中国正式上线。该套件号称“人人可用的一站式 AI 创作套件”，功能包括基于 AIGC 的文案生成、图片生成、花字特效生成、图片编辑、转场动画设计生成等。来源： IT之家

腾讯元宝上线深度阅读模式：支持最长近50万字输入，可提炼论文、生成杜邦分析图

腾讯元宝宣布，在最新版本的腾讯元宝中，当用户上传论文、财报、研报等专业内容的 URL 链接或文件，除获得文字概括总结外，还可进入深度阅读模式，对长文进行精读。深度阅读模式可原生支持最长近 50 万字的输入，能够在理解专业内容的基础上，生成图文并茂的内容，不仅可以引用输入内容的原图，还能通过代码绘制高阶的分析图。来源： IT之家

「零一万物」完成数亿美元融资，某国际战投、东南亚财团加盟

李开复创办的AI大模型独角兽公司零一万物已经完成新一轮融资，金额达数亿美元。知情人士表示，此轮融资参与方包括某国际战投、东南亚财团等多家机构。如今的“大模型六小虎”（智谱AI、零一万物、百川智能、MiniMax、月之暗面、阶跃星辰），正以惊人的速度，跨过200亿元的估值大关。来源： 36氪

OpenAI API引入结构化输出功能，助力开发者智能连接外部工具

OpenAI 在 API 中推出了新的结构化输出功能，这为开发者提供了一种更可靠的方法，将 GPT 的能力与外部工具和 API 连接起来。这一功能允许开发者向 gpt-4-0613 和 gpt-3.5-turbo-0613 描述函数，并让模型智能地选择输出一个包含调用这些函数参数的 JSON 对象。来源：第一财经

“地表最强”人形机器人Figure 02发布！OpenAI加持，已在宝马打工

美东时间8月6日，全球最备受瞩目的人形机器人公司「Figure AI」，炸场发布了第二代人形机器人Figure 02。在宝马工厂工作，不管是拿钢材，还是组装器械，它都不在话下！据介绍，此次它的手有着惊人的16个自由度，能承受与人类相当的重量。各种脏活累活，一整个拿捏，更何况CEO望子成龙，说希望它最长能工作20个小时。来源：量子位

国产端侧模型又出力作，面壁“小钢炮”MiniCPM-V 2.6模型重磅上新

面壁“小钢炮”MiniCPM-V 2.6模型重磅上新，以8B参数，取得20B以下参数的单图、多图、视频理解3 SOTA成绩，首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越GPT-4V，单图理解越级比肩Gemini 1.5 Pro和GPT-4o mini。来源：智东西

零一万物宣布Yi API Function Call 功能上线

据零一万物官方消息，Yi API 正式新增 Function Call 功能。据零一万物表示，最新的模型 Yi-Large-FC 经过针对性训练，具备良好的深度理解能力、强大的指令遵循能力，既能根据用户的输入判断何时应调用函数，又能使用更贴近工具函数定义的 JSON 进行响应；同时完美兼容 OpenAI 的接口设计，能够丝滑“平替GPT”。来源：零一万物

阿里国际推出首个专业版AI Search，全球贸易领域的「下一个 Google」

阿里国际宣布入局，带来了一款新产品。与其它所有人都不同，阿里国际的 AI 搜索切入了一个空白地带：涉及更多行业 Know-How 的深度信息搜索领域。阿里国际选择了自己最擅长的「全球电商」行业，意在改变全球采购流程，使之更加直观和高效。来源：机器之心

08月06日·周二

通义App推出角色扮演功能，可一键替换视频人物

8月6日，通义App推出角色扮演功能，可一键替换视频人物。上传一段视频，选择要替换的3D角色，可以在不改变其他场景和人物的情况下，将视频里原有的角色一键变身为有趣的3D角色模型，实现让孙悟空跳水、机器人打网球、二次元女孩揉面等创意视频。来源：量子位

谷歌将为 Chromebook 推出 AI 助手 Bluebuddy

据 WindowsReport 报道，谷歌正在为Chromebook 系列笔记本电脑打造一款名为 Bluebuddy 的 AI 助手，将帮助用户解决蓝牙相关问题。这款新助手将在 ChromeOS 中推出，用户只需输入遇到的问题，系统就会推荐相应的解决方案。来源：品玩

OpenAI 宣布今年DevDay 定档十月，不会发布GPT-5，聚焦 API 和开发工具

据 TechCrunch 报道，OpenAI 表示将改变 DevDay 大会的形式，从一个大型活动转变为一系列开发者参与会议。OpenAI还确认，它不会在 DevDay 期间发布下一款主要旗舰大模型，而是将重点放在 API 和开发者服务的更新上。来源： IT之家

智谱AI正式开源CogVideoX，「清影」同款AI视频生成模型，单卡可跑可调

CogVideoX是智谱AI最新推出的开源AI视频生成模型，与智谱AI的商业产品“清影”同源。CogVideoX支持英文提示词，能生成6秒长、每秒8帧、分辨率为720*480的视频。模型推理需16-36GB显存，目前不支持量化推理和多卡推理。来源： AI工具集

AI 芯片初创公司 Groq 获 Blackrock 6.4亿美元超额投资，估值 28 亿美元

AI 芯片初创公司 Groq 宣布获得 Blackrock 领投的 6.4 亿美元融资，其他投资者包括 Neuberger Berman、Type One Ventures、思科、KDDI 以及三星。据悉，Groq 最初希望以略低于 25 亿美元估值融资 3 亿美元，但最终获得超额融资，估值达到 28 亿美元，是上一轮估值的 2 倍多，当时获得了 Tiger Global 以及 D1 Capital 的 3 亿美元投资。来源：有新Newin

月之暗面完成3亿美元新一轮融资，投后估值33亿美元

据彭博社报道，月之暗面（Kimi母公司）刚刚完成了新一轮 3 亿多美元融资，此次融资将月之暗面的估值推高至 33 亿美元，并吸引了包括腾讯、高榕资本和老股东阿里巴巴在内的其他投资者。来源：新浪财经

Adobe 推出免费 AI 工具，面相 K12 教育市场

据 zdnet 报道，Adobe 公布了 Adobe Express for Education 的新功能，该平台旨在成为一个负责任的、课堂安全的人工智能工具，鼓励学生掌控自己的学习体验。这新的功能包括生成模版，他可以让学生为艺术项目或者是活动创建自己的模版。另外还有图像生成和生成填充功能，可以帮助学生将脑中的想法转化为图像。来源：品玩

08月05日·周一

中兴星云研发大模型通过备案，号称代码生成能力达 GPT-4 水平

中兴通讯官微今日宣布，在近日发布的广东省生成式人工智能服务备案公告中，中兴星云研发大模型顺利完成各项评估，通过备案。据介绍，中兴星云研发大模型支持需求、设计、编程、测试等不同阶段的 30 多种场景和多种主流编程语言，为开发者提供一站式、智能化的研发体验。来源：品玩

Neuralink 已为第二位人类患者成功植入脑机接口

马斯克透露，旗下脑机接口公司 Neuralink 已将第二颗脑机接口芯片植入了第二位人类患者体内。在访谈中，马斯克表示，第二颗植入物的进展似乎非常顺利。7 月 11 日，马斯克曾Neuralink 团队在 X 平台上进行了直播。在这次直播中马斯克表示，Neuralink 计划在一周左右的时间内将其设备植入第二位人类患者体内。来源：财联社

Figure预告人形机器人二代新品，人味儿更浓、硬件更强

Figure公布了Figure 02预告片，并表示将在北京时间8月7日正式发布该产品。相对于Figure 01搭载Open AI GPT4的视频演示，此次展示介绍的重心在于硬件，预计硬件能力有大幅提升。该公司创始人CEO布雷特•阿德科克（Brett Adcock）自信发言：Figure 02是地球上最好的人形机器人。来源：财联社

OpenAI 承认正研发 ChatGPT 文本水印，但面临挑战

据《华尔街日报》报道，OpenAI 已经开发出一款能够高精度识别 ChatGPT 生成文本的工具，但迟迟未发布。对此 OpenAI 进行了回应，承认正在研究文本水印技术，但表示这项技术仍存在诸多挑战。来源： IT之家

阿里推出Tora，「轨迹可控版Sora」让视频生成更符合物理规律

阿里推出了Tora，这是第一个面向轨迹的 DiT 架构，它将文本、视觉和轨迹条件同时集成在一起以生成视频。Tora 的设计与 DiT 的可扩展性无缝契合，允许精确控制具有不同持续时间、宽高比和分辨率的视频内容。大量实验证明，Tora 在实现高运动保真度方面表现出色，同时还能细致模拟物理世界的运动。来源： AI工具集

中文多模态理解榜单发布，腾讯混元国内第一

中文多模态大模型SuperCLUE-V基准8月榜单发布，测评涵盖了国内外最具代表性的12个多模态理解大模型，包含4个海外模型和8个国内代表性多模态模型，评估内容包含基础能力和应用能力，以开放式问题对多模态大模型进行评估。腾讯混元大模型在多模态基础能力和应用能力方面获得总分71.95的高分，斩获国内大模型排名第一，稳居卓越领导者象限。来源：智东西

英伟达新款AI芯片或因设计缺陷推迟发布

据《The Information》报道，帮助生产英伟达新 AI 芯片和服务器硬件的两位知情人士透露，由于存在“设计缺陷”，英伟达新型 AI 芯片的发布将被推迟三个月甚至更长时间。来源： IT之家

08月03日·周六

“AI教母”李飞飞：Sora仍是二维图像，只有三维空间智能才能实现AGI

美国国家工程院院士李飞飞认为，实现AGI的关键一环是“空间智能“，而非二维智能。只有通过空间智能，才能看到世界、感知世界、理解世界并让机器人做事，从而形成良性闭环。来源：钛媒体

原网易云音乐副总裁王诗沐创办的Seele公司，推出「AI+3D」情感陪伴产品Koko AI

Koko AI 是Seele公司推出的「AI+3D」情感陪伴产品，基于自研3D多模态大模型EVA-01 生成3D模型、动画表演和语音聊天，提供与动漫角色的面对面互动体验。用户不仅能与各种角色进行文本或语音交流，还能根据个人喜好定制AI朋友的外貌和性格。Koko AI由原网易云音乐副总裁王诗沐领导开发，目前对用户免费开放，具有高度的自由度和创新性。来源： AI工具集

Google官宣“收购”Character AI并收编团队

据媒体报道，Character的管理层周五告诉员工，Character投资人的股票将以每股约88美元的估值被收购。这大约是 Character 2023 年 A 轮融资股票价值的 2.5 倍，当时该公司的估值为 10 亿美元。来源：腾讯新闻

一张图即可 0.5 秒生成三维建模，Stability AI 推出“Stable Fast 3D”模型

Stability AI 今天推出了一款名为 Stable Fast 3D 的 AI 模型，该模型主打“图生 3D 模型”，号称只需 0.5 秒就能快速生成完整且自然的 3D 模型，目前该模型已在 Hugging Face 平台上架。在线体验地址：点此访问。来源： AI工具集

微软 GitHub 推出 Models 服务：定位 AI 工程师，让开发者试用和部署模型

微软旗下代码托管平台 GitHub 最新推出了 GitHub Models 服务，定位是新一代 AI 工程师，帮助开发者选择适合其应用的 AI 模型。GitHub Models 服务目前处于限量公测阶段，可以对接 OpenAI 的 GPT-4o 和 GPT-4o mini、微软的 Phi 3、Meta 的 Llama 3.1 以及 Mistral 的 Large 2 等 AI 模型，并承诺未来会继续扩充更多语言和视觉模型。来源： IT之家

08月02日·周五

谷歌推出Gemini 1.5 Pro（0801实验版），首次夺得lmsys竞技场第一

历时一周，超1,2000人匿名投票，Gemini 1.5 Pro（0801）代表谷歌首次夺得lmsys竞技场第一（中文任务也第一）。而且这次还是双冠王，除了总榜（唯一分数上1300），在视觉排行榜上也是第一。来源：量子位

大模型成私人导游：一键规划 Citywalk，港大 MIT 联合出品

港大MIT等单位联合推出ITINERA，将LLM与空间优化相结合，实现个性化的开放域城市行程规划。举个栗子，用户输入“给我规划一条包含‘巨富长’、以静安寺为终点的citywalk路线”。ITINERA系统立马生成了一条包含若干地点的路线，并提供了相应的介绍文本。来源：量子位

Stable Diffusion创始团队推出FLUX.1开源文生图模型，性能秒杀SD3、DALL·E-3

FLUX.1 是由Stable Diffusion创始团队推出的开源AI图像生成模型，拥有12B参数，是迄今为止最大的文本到图像转换模型之一。包含三种变体：顶级性能的FLUX.1 [pro]、开源非商业用途的FLUX.1 [dev] 和快速高效的FLUX.1 [schnell]。来源： AI工具集

全球首部！欧盟《人工智能法案》正式生效

当地时间周四(8月1日)，欧盟《人工智能法案(AI Act)》正式生效。欧盟《人工智能法案》相关规则将分阶段实施，主要是为了给企业一定的过渡期，让它们对相关系统进行修改；《人工智能法案》的影响远远超出了欧盟，它适用于在欧盟有任何业务或影响的任何组织。来源：财联社

360联合国内15家最强大模型推出「AI助手」能力碾压GPT4o

ISC.AI 2024第十二届互联网安全大会人工智能峰会上，360集团创始人，ISC大会主席周鸿祎在《大模型强强联合，让AI普惠10亿+用户》演讲，他指出，大模型不是产品，大模型能力要结合场景才能真正发挥价值，要找到高频、刚需、有痛点的AI明星场景。因此，周鸿祎宣布，360开放安全卫士、安全浏览器、搜索、智能硬件四大国民级场景，打造新一代AI产品“AI助手”，用户可一站式体验国内最强的15家大模型。来源： TechWeb

08月01日·周四

iPhone 可跑 2B 小钢炮：谷歌 Gemma 2 小模型来袭，跑分超 GPT-3.5

谷歌 DeepMind 的小模型，又上新了！就在刚刚，谷歌 DeepMind 发布 Gemma 2 2B。它是从 Gemma 2 27B 中蒸馏而来。虽然它的参数只有 2.6B，但在 LMSYS 竞技场上的得分，已经超越了 GPT-3.5 和 Mixtral 8x7B！来源： IT之家

AI销售助手Sybill融资1100万美元，帮助销售每周节省5小时

Sybill 是一家专为销售代表打造人工智能助理的初创公司，该公司周三表示，它已在由 Greycroft 领投的 A 轮融资中筹集到 1100 万美元。销售人工智能助理的市场已经变得相当拥挤，因为很多公司都利用生成式人工智能和大型语言模型来帮助销售人员自动完成繁琐的工作，如填写提案申请、更新内部数据库等。来源：腾讯新闻

大模型热钱汹涌：半年百个亿级融资，最高超500亿元

2024年上半年，加上刚刚过去的7月期间，全球围绕大模型产业链关键环节展开的超亿元融资达到超120起，融资总额粗略估计超2300亿元。其中美国和中国“遥遥领先”，分别有59起和35起亿元级融资。美国大模型产业相关企业总融资额超1800亿元，中国大模型产业相关企业总融资额在数量上差距较大，超300亿元，但仍位居第二。来源：智东西

Midjourney V6.1新版本上线即爆火：优化远景人脸，细节更丰富

时隔半年，Midjourney带来重磅更新，现在已开放体验。v6.1在8个方面进行升级。一句话总结，就是让生成图像看上去更好看。而且再下一个版本马上就会发布，官方表示v6.2可能在下月和大家见面，将会做更多升级，比如文字方面。来源：量子位

07月31日·周三

360 集团创始人、董事长兼 CEO 周鸿祎宣布 360 安全大模型免费

在今天举办的第 12 届互联网安全大会上，360 集团创始人、董事长兼 CEO 周鸿祎宣布 360 安全大模型免费。周鸿祎更称 360“要把大模型拉下神坛”，不希望大模型成为少数厂商奇货可居赚钱的工具，让每个企业都“用得起、用得好”。来源： IT之家

OpenAI推出GPT-4o Long Output模型，支持高达64k tokens输出

GPT-4o Long Output模型是OpenAI最新推出的超长输出AI模型，支持高达64k tokens的长文本输出，相当于约200页小说。相较于原GPT-4o模型，输出能力提升16倍，但输入上限降至64k tokens，满足用户对更长文本处理的需求。该模型定价为每百万输入tokens 6美元，输出tokens 18美元。GPT-4o Long Output模型为测试模型，测试时间会维持数周，名为GPT-4o-64k-Output-Alpha 。来源： AI工具集

人形机器人「星尘智能」获数千万美元Pre-A轮融资，专注AI机器人商业化

AI机器人公司星尘智能（Astribot）宣布完成数千万美元Pre-A轮融资，由经纬创投领投，道彤投资及清辉投资等产业资本跟投，老股东云启资本跟投。华兴资本担任独家财务顾问。本轮融资将用于顶尖人才招募、研发投入、商业化部署等工作。来源：腾讯新闻

被指过度抓取内容后，AI 搜索公司 Perplexity 和出版社达成协议

AI 搜索公司 Perplexity 在被指控过度抓取数据数周之后，公司推出了新的合作计划，向出版合作伙伴分享广告收入。Perplexity 的“出版商计划”已经招募了第一批合作伙伴，其中包括《时代》、《明镜周刊》、《财富》、《企业家》、《得克萨斯论坛报》和 Automattic（WordPress.com 参与其中，但不包括 Tumblr）等知名企业。来源： IT之家

OpenAI向部分用户开放GPT-4o语音模式今秋将扩大至所有付费用户

OpenAI周二宣布，即日起开始向部分ChatGPT Plus用户推出GPT-4o的语音模式；目前GPT-4o语音模式可使用四种预设声音，Juniper、Breeze、Cove和Ember，这些声音是与付费配音演员合作制作的。来源：财联社

京东云八大 AI 产品发布：编程助手 JoyCoder、言犀数字人 3.0 等

2024 京东云峰会昨日在上海举行。会上，京东云展示了京东言犀大模型落地行业的技术与最新实践，并发布京东云企业大模型服务、言犀智能体平台、智能编程助手 JoyCoder、言犀数字人 3.0 等八大产品。来源： IT之家

Kimi 联合 AiPPT 推出一键生成PPT服务

Kimi 联合AiPPT推出的一键生成PPT服务。用户只需通过语音或文字指令，Kimi就能理解需求，自动生成幻灯片，提供布局和色彩搭配建议，帮助用户快速创建和设计PPT。来源： AI工具集

07月30日·周二

Meta开源「分割一切」2.0模型，视频也能分割了

Meta 在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 来了。在其前身的基础上，SAM 2 的诞生代表了领域内的一次重大进步 —— 为静态图像和动态视频内容提供实时、可提示的对象分割，将图像和视频分割功能统一到一个强大的系统中。来源：机器之心

Runway Gen 3 Alpha 模型的图生视频功能正式上线

今天凌晨，Runway Gen 3 Alpha 模型的图生视频功能正式上线！用户可以使用任何图片作为视频生成的首帧。上传的图片既可以单独使用，也可以使用文本提示进行额外指导。目前，Gen 3 Alpha 支持生成的视频最长为 11 秒。作为一项重大更新，Runway 表示，图生视频功能将极大提高了生成视频的艺术控制和一致性。来源：机器之心

Vidu视频大模型全球上线！注册即用不排队，重点支持动漫风

Vidu，来自清华系多模态大模型公司生数科技。今天起，Vidu全面开放文/图生视频两项功能，生成成果时长可自由选择4s/8s，分辨率最高可达1080P。官方号称“实现业界最快实测推理速度”，生成一段4s视频片段只需30s。来源： AI工具集

Meta推出AI Studio工具：打造个性化AI聊天机器人

7月30日，Meta Platforms公司宣布推出一款名为AI Studio的新工具。该工具基于Llama 3.1模型构建，提供用户创建、分享和设计个性化AI聊天机器人的功能。用户还可以在社交媒体平台上分享他们设计的人工智能角色。来源： Meta

数据安全看得见：苹果 Apple Intelligence 提供详细隐私报告

苹果公司在 iOS 18.1 和 macOS Sequoia 15.1 的首个测试版中推出了名为“Apple Intelligence”的新 AI 功能的预览。该公司不仅详细介绍了这些功能的工作原理和背后的隐私机制，还允许用户查看一份详细的隐私报告，了解 Apple Intelligence 如何处理他们的请求。来源： IT之家

逛遍 ChinaJoy，发现 AI 对游戏产业的四个改变

7 月 26 日到 29 日，是一年一度的 ChinaJoy。从游戏行业最大的盛事，发展到游戏、消费电子、娱乐应用的综合狂欢，每年的 ChinaJoy，都是海内外游戏相关从业人士集中交流的重要节点，也是游戏行业向外打开的一个窗口，充满试玩、游戏周边的展台每年日均能吸引到 5 万年轻人逛展。来源：极客公园

创业3个月估值超70亿，李飞飞AI新公司成最快独角兽

近日，据报道，著名计算机科学家、美国国家工程院院士、美国国家医学院院士李飞飞创办的AI公司 World Labs，日前已完成两轮融资，最新一次融资额约1亿美元，公司最新估值已达10亿美元（约合72.6亿元人民币）。来源：钛媒体

巴黎奥运会用上大模型

2024年巴黎奥运会，目前已预定的远程服务中有三分之二通过云计算，奥运转播云将基于阿里云部署在全球的公共云基础设施；AI相关技术在服务跳水、游泳、田径、体操、蹦床、攀岩等多支国家队的日常训练和巴黎奥运会备战工作，无人机表演、比赛用球、各国运动员装备等都有中国厂商身影。来源：财联社

亚马逊云发布Amazon Q Apps：允许用户构建自己的生成式 AI 应用程序

亚马逊云科技近日宣布了多项新技术和新服务，旨在使构建AI应用更加便捷。Amazon Q Apps:这项服务允许用户根据简单描述创建应用程序，即便没有技术背景也能轻松使用。Amazon Q Apps是Amazon Q Business的一部分，能够支持软件开发、数据分析洞察和内容创作等多种任务。来源：品玩

豆包大模型日均tokens使用量超5000亿，AI生图玩法猛猛上新

近日，国产大模型「顶流」—— 字节跳动豆包大模型，迎来一场集中放送：在 2024 火山引擎 AI 创新巡展成都站活动上，豆包大模型团队公布了豆包大模型的最新进展，以及文生图模型、语音模型等垂直模型的新升级。与此同时，豆包大模型家族的最新成员 ——「豆包・图生图模型」正式面世，一口气上新了 50 多项玩法。来源：机器之心

07月29日·周一

一年三轮，AI图像生成平台LiblibAI完成数亿元融资

AI图像生成平台 “LiblibAI哩布哩布AI”在至今的一年内，已经完成了三轮融资，总金额达数亿元人民币：天使轮投资方为源码资本、高榕创投和金沙江创投；第二轮由战略投资方领投；第三轮由明势资本领投；老股东持续多轮加持。其中，远识资本为多轮融资的独家财务顾问。来源： 36氪

苹果即将推出的AI功能据悉将晚于iOS 18的首次发布

苹果公司计划在十月将Apple Intelligence作为软件更新的一部分向用户推出。知情人士表示，这意味着AI功能将在原定于9月发布的iOS 18和iPadOS 18发布后几周推出。来源：新浪财经

Meta AI科学家分享Llama 3.1研发与Llama 4更新方向

1. Llama 3.1的研发考虑了多种因素，如scaling law、训练时间和硬件约束，通过FP8量化实现单节点运行，强调开源社区的力量。2. 在Scaling Law方面，Meta通过增加训练token数和时长，在有限算力下达到过度训练状态，以提升推理表现。3. Llama 4将重点围绕agent技术，Scialom希望通过强大的Llama 3构建复杂的agent系统，扩展多种功能，实现模型互联。来源：凤凰网

AI 公司 Anthropic 违规爬虫抓取数据引发多个网站不满

据 The Verge 当地时间 26 日报道，Anthropic 公司使用的 ClaudeBot 在短短 24 小时之内，就访问了 iFixit 网站近百万次，此举违反了该网站的使用条款。来源： IT之家

07月27日·周六

蔚来发布智能驾驶世界模型NWM：0.1 秒内推演出 216 种可能发生的场景

7月27日，蔚来发布智能驾驶世界模型NWM（NIO World Model）。据蔚来介绍，它是一个多元自回归生成式的具身驾驶模型，可全量理解数据、具有长时序推演和决策能力，能在100毫秒内推演出216种可能发生的场景。作为生成式模型，NWM还能基于3秒的驾驶视频，生成120秒的想象视频。来源：界面新闻

天猫精灵合伙人创业，跃然创新推出AI毛绒玩具BubblePal

BubblePal，一个能让毛绒玩具复活的AI硬件。BubblePal是基于AIGC技术的交互式对话玩具，可以让孩子与其进行自由对话，并且对话的角色是孩子耳熟能详的动画形象。来源：智东西

谷歌宣布了一项重磅更新：Gemini 聊天机器人将改由 Gemini 1.5 Flash 驱动

Meta、OpenAI 等大模型厂商密集发力之际，谷歌也宣布了一项重磅更新：即日起，Gemini 聊天机器人将改由 Gemini 1.5 Flash 驱动。与之前的版本相比，窗口长度提高到了 4 倍，响应速度也更快了。新版聊天机器人背后的 1.5 Flash 模型，主打的就是轻量化和速度提升。当然模型回复的质量也有提升，上下文窗口也从原先（基于 1.0 Pro）的 8k 提升到了 32k。来源： IT之家

微软现支持开发者微调 Phi-3-mini 和 Phi-3-medium AI 模型

微软公司昨日（7 月 25 日）宣布在 Azure 上支持开发者微调（fine-tune） Phi-3-mini 和 Phi-3-medium AI 模型，针对不同用例提高模型的性能。Phi-3-mini 模型于今年 4 月发布，共有 38 亿参数，上下文长度有 4K 和 128K 两个版本；Phi-3-medium 模型共有 140 亿参数，上下文长度同样有 4K 和 128K 两个版本。来源： IT之家

07月26日·周五

OpenAI 下周开始向 ChatGPT Plus 用户推出 Alpha 版 GPT-4o 语音模式

OpenAI 首席执行官山姆・阿尔特曼（Sam Altman）今天回复网友提问，表示将于下周面向 ChatGPT Plus 用户，开放 Alpha 版本 GPT-4o 的语音模式（Voice Mode），实现无缝聊天。来源： IT之家

智谱AI推出了清影AI视频生成服务 Beta版本免费开放体验

智谱清言大动作，现在输入文本或上传图片，即可得到一段属于你自己的视频。智谱清影是智谱AI最新推出的AI视频生成服务，支持AI文生视频和AI图生视频两种方式，目前在智谱清言上以清影智能体的形式开放入口，申请内测秒通过，可以快速开始体验。来源： AI工具集

OpenAI发布AI搜索产品SearchGPT，并开放内测候补

OpenAI发布了名为SearchGPT的AI搜索产品，并开放候补名单，进行小范围测试。OpenAI创始人兼CEO Sam Altman，已经为新AI搜索产品吹了一波“彩虹屁”：“比起传统搜索产品，我对这（SearchGPT）的喜爱程度和适应速度令人惊喜。”来源： 36氪

消息称 OpenAI 公司 2024 年资金缺口达到 50 亿美元

报道称截至今年 3 月，OpenAI 公司花费近 40 亿美元使用微软服务器为 ChatGPT 运行推理工作负载；此外 OpenAI 今年训练 ChatGPT 以及新 AI 模型的成本预估达到 30 亿美元，因此训练和推理 AI 的成本可能达到 70 亿美元。OpenAI 最近每月的总收入为 2.83 亿美元，这可能意味着全年销售额在 35 亿至 45 亿美元之间。这意味着 OpenAI 公司今年面临 50 亿美元的资金缺口，很可能需要在未来 12 个月内启动新一轮融资。来源： IT之家

07月25日·周四

估值超200亿元，百川智能完成50亿元A轮融资，北上深国资入局

大模型初创公司「百川智能」已于近期完成A轮融资，总融资金额达50亿元人民币。此前，百川智能已经在2023年10月官宣了A1轮融资，披露了包括阿里、腾讯、小米等科技巨头及多家顶级投资机构在内的名单。在A轮融资中，除了上述机构，百川智能还获得了包括北京市人工智能产业投资基金、上海人工智能产业投资基金、深创投等国资背景产业投资基金的投资。来源： 36氪

AI带动软件收入大涨 IBM财报超预期

IBM公布了强于分析师预期的第二季度业绩报告。报告公布后，该公司股价在周三的盘后交易中一度上涨5%。截至发稿，盘后涨幅收窄回3%。得益于与人工智能相关的软件收入增加，这家科技界的蓝色巨人上调了软件业务的年度增长预期。而软件业务也成为该公司主要增长动力。来源：财联社

1230 亿参数，Mistral 发布 Large 2 旗舰 AI 模型

AI 竞赛日益激烈，Meta 公司昨日推出开源 Llama 3.1 模型之后，法国人工智能初创公司 Mistral 也加入了竞争行列，推出了新一代旗舰模型 Mistral Large 2。与 Llama 3.1 的 4050 亿个参数（即指导其性能的内部模型设置）相比，它的参数数量较少，但性能仍接近前者。官方称其为 GPT-4 级模型，在多项基准测试中的性能非常接近 GPT-4o、Llama 3.1-405 和 Anthropic 的 Claude 3.5 Sonnet。来源： IT之家

扎克伯格深度专访：中美AI竞争完全错误，美国别想长期领先中国

扎克伯格在本次采访中披露了自己决定构建开源平台的心路历程。他称公司过去一直在开发产品时受制于苹果这样的平台企业，在这波技术浪潮中，他希望通过Meta在AI和VR/AR领域的投资，建立和控制属于自己的平台，并让Meta AI在今年年底前成为使用量最大的AI助手。谈及Llama 3.1，扎克伯格认为这一模型能成为许多企业所需的定制化模型的老师。未来，他计划创造AI社交媒体，帮助人们完成一些比较困难的社交活动。他还透露现在Meta已经在研究Llama 4了。来源：智东西

消息称 Alexa 四年巨亏 250 亿美元，亚马逊豪赌生成式 AI

据《华尔街日报》报道，专注于语音助手 Alexa 的亚马逊业务部门在 2017 年至 2021 年期间亏损高达 250 亿美元（IT之家备注：当前约 1821 亿元人民币）。尽管亚马逊声称售出了超过 50 万台 Alexa 设备，包括 Echo 智能音箱、Kindle 电子书阅读器等，但 Alexa 一直难以盈利。来源： IT之家

07月24日·周三

快手AI视频产品“可灵”国际版1.0上线，无需中国手机号码

据Kling AI在社交媒体X上官宣，快手可灵国际版1.0正式上线。只需要邮箱，无需中国手机号码。
立即体验：可灵国际版来源：华尔街见闻

英伟达推出 AI 代工业务：携手 Meta Llama 3.1 开源模型，为客户定制部署“超级模型”

NVIDIA宣布推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务，与刚推出的Meta Llama 3.1系列开源模型一起，为全球企业的生成式AI提供强力支持。Llama 3.1大语言模型有8B、70B和405B三种参数规模。模型在超过16000个NVIDIA Tensor Core GPU上训练而成，并针对NVIDIA加速计算和软件（无论是在数据中心、云以及配备NVIDIA RTX GPU的本地工作站或配备GeForce RTX GPU的PC上）进行了优化。来源：智东西

爱诗科技发布 PixVerse V2，全方位升级视频大模型

7月24日，爱诗科技正式发布视频生成产品 PixVerse V2，全球同步开放，致力用AI视频大模型为每一个用户释放创意可能。PixVerse V2 采用 Diffusion+Transformer（DiT）基础架构，并在各方面进行技术创新，提供了更长、更一致、更有趣的视频生成能力。在模型能力提升的同时，PixVerse V2还带来了AI视频生成的全新玩法：在保证一致性的前提下，一次生成多个视频片段，可实现单片段8秒，和多片段40秒的视频生成。来源：爱诗科技

最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

在官方博客中，Meta 表示：直到今天，开源大语言模型在功能和性能方面大多落后于封闭模型。现在，我们正在迎来一个开源引领的新时代。我们公开发布 Meta Llama 3.1 405B，我们认为这是世界上最大、功能最强大的开源基础模型。迄今为止，所有 Llama 版本的总下载量已超过 3 亿次，我们才刚刚开始。来源：机器之心

Alphabet Q2营收利润双双超预期，皮查伊坚信AI将很快创收

受数字广告销售增长和云计算服务需求旺盛推动，谷歌母公司Alphabet周二盘后公布的第二季度（截至6月30日）营收和利润双双超出预期。但该公司表示，今年的资本支出仍将居高不下。第二季度Alphabet的营收增长14%至847.4亿美元，而分析师的普遍预期为841.9亿美元；净利润增长28.6%，至236亿美元，超出229亿美元的平均预期；每股收益为1.89美元，而预期为1.84美元。来源：财联社

快速生成矢量图形，Adobe Illustrator 和 Photoshop 迎来新 AI 功能

Adobe 公司今日宣布，其旗下两款明星软件 Illustrator 和 Photoshop 将迎来一系列基于人工智能的新功能。这些新功能旨在加速日常创作流程，并赋予设计师更多创作控制权。Illustrator 的更新亮点包括“生成式形状填充”功能，用户只需输入简单的文字提示，就能为形状填充上精美的矢量图形。系统甚至可以根据文档中其他元素自动生成填充内容，而且所有生成的图形都是可编辑的矢量图。来源： IT之家

07月23日·周二

发力AI产业！沙特阿美向韩国芯片制造商投资1500万美元

沙特阿美风险投资部门Wa’ed Ventures已向韩国芯片制造商Rebellions公司投资了1500万美元；沙特目前正加速发展人工智能产业，这笔投资将有助于沙特在全球技术和创新竞赛中的努力；据悉，Rebellions将利用这笔资金在沙特建立一家新的子公司。来源：财联社

谷歌发布 NeuralGCM 天气预报 AI 模型：运行成本更低、预测更准

谷歌公司最新发布了名为 NeuralGCM 的全新 AI 模型，结合机器学习和传统技术，构建了全新的 AI 天气预测模型，相关成果于昨日发表在《Nature》期刊上。谷歌公司表示相比较其它纯粹基于机器学习的天气预报模型，NeuralGCM 的特点在于成本更低，在预报未来 1-10 天天气方面准确度更高。来源： IT之家

开源 AI 模型挑战闭源里程碑？Meta Llama 3.1-405B 多项跑分超越 OpenAI GPT-4o

网友在 LocalLLaMA 子 Reddit 板块中发帖，分享了 4050 亿参数的 Meta Llama 3.1 信息，从该 AI 模型在几个关键 AI 基准测试的结果来看，其性能超越目前的领先者（OpenAI 的 GPT-4o）。这是开源人工智能社区的一个重要里程碑，标志着开源模型可能首次击败目前最先进的闭源 LLM 模型。来源： IT之家

加拿大AI独角兽Cohere获得5亿美元D轮融资，估值达55亿美元

加拿大AI独角兽Cohere昨日宣布获得5亿美元D轮融资，估值达55亿美元。本轮融资由加拿大养老金投资管理公司PSP Investments领投，新投资者包括思科、日本富士通、AMD旗下AMD Ventures、加拿大出口信贷机构EDC等。来源：智东西

马斯克宣布全球最大AI训练集群：年底开发出全球最强AI

马斯克昨日在社交平台X上发文宣布xAI团队、X团队、英伟达及支持公司于当地时间凌晨4点20分开始在“世界上最强大的AI训练集群”——孟菲斯超级集群上进行训练。该集群在单个RDMA fabric上使用10万张液冷H100。马斯克在评论区透露其目标是“今年12月前训练出世界上最强大的人工智能”。来源：智东西

07月22日·周一

英伟达：或将推出全新“特供版”B20芯片

据报道，英伟达（NVIDIA）正在为中国市场联合开发一款基于Blackwell架构的新款旗舰 AI 芯片，该芯片将符合美国出口管制相关规定，该芯片被命名为“B20”。但报道未提及该AI芯片的性能表现或参数信息。来源：钛媒体

AI 炒菜机器人公司橡鹿科技再获京东近 2 亿元战略投资

据橡鹿科技官方披露，公司再获京东近 2 亿元战略投资并达成全面战略合作。基于双方的 AI 技术和产业优势，二者将共同促进“机器人 +”产业的高质量发展。公司将继续加大研发投入，重点布局视觉、传感器检测等技术在炒菜机器人上的应用。打造的基于视觉的全球领先新一代 AI 炒菜机器人，将于 2025 年正式推出。来源： IT之家

07月21日·周日

权重、代码、数据集全开源，苹果发布 DCLM-7B 小模型

OpenAI 上线小模型 GPT-4o-mini，小模型赛道正式开卷。近期加入这一赛道的还有苹果。最近，苹果公司作为 DataComp-LM（DCLM）项目的研究机构之一，在 Hugging Face 上发布了 DCLM-7B 开源模型。该模型性能已经超越了 Mistral-7B，并且正在逼近其他领先的开源模型，包括 Llama 3 和 Gemma。来源：机器之心

欧洲最强 AI 初创公司 Mistral 发布旗下最新最强小模型 ——Mistral NeMo

GPT-4o mini 头把交椅还未坐热，Mistral AI 联手英伟达发布 12B 参数小模型 Mistral Nemo，性能赶超 Gemma 2 9B 和 Llama 3 8B。小模型，成为本周的 AI 爆点。先是 HuggingFace 推出了小模型 SmoLLM；OpenAI 直接杀入小模型战场，发布了 GPT-4o mini。GPT-4o mini 发布同天，欧洲最强 AI 初创公司 Mistral 立马发布旗下最新最强小模型 ——Mistral NeMo。来源： IT之家

6GB RAM iPhone 15 也可运行，Hugging Face 推出“SmolLM”小模型家族

如今小语言模型开始升温，许多厂商开始推出适用于手机等轻量级设备的“小模型”，本周 Hugging Face 便公布了“SmolLM”小语言模型家族，其中包含 1.35 亿、3.6 亿及 17 亿参数模型。据介绍，这些模型号称是以精心策划的高质量训练数据集训练而成，号称在 Python 程序编写性能上相当强大，团队指出他们重点优化了模型所需的 RAM 用量，“即使是在 6GB RAM 的 iPhone 15 上也能运行”。来源： IT之家

07月19日·周五

谷歌、微软、英伟达等 14 家公司组建安全 AI 联盟

昨日举办的阿斯彭安全论坛（Aspen Security Forum）会议中，谷歌、微软、OpenAI、亚马逊、英伟达、英特尔等 14 家 AI 领域的大公司宣布联合组建安全人工智能联盟（Coalition for Secure AI，CoSAI）。CoSAI 由 OASIS 全球标准机构主办，是一项开源计划，旨在为所有 AI 从业人员和开发人员提供创建设计安全人工智能系统所需的指导和工具。CoSAI 将建立一个合作生态系统，共享开源方法、标准化框架和工具等等。来源： IT之家

高盛顶级股票分析师：AI不会掀起经济革命，泡沫总归会破灭

高盛全球股票研究主管Jim Covello新近报告给今年美股上涨的主要推手人工智能（AI）概念泼了冷水。Jim Covello认为，AI带来的经济效益甚至比不上智能手机和互联网；AI是用成本高昂的技术取代低薪工作，这与过去三十年科技业发生过的有变革意义技术转型完全相反。来源：华尔街见闻

OpenAI 据称正与博通等公司接洽以研发 AI 芯片

据媒体周四援引知情人士的话报道称，ChatGPT制造商OpenAI正在与包括博通（Broadcom）在内的芯片设计商接洽，共同探讨研发全新的人工智能（AI）芯片。此外，该公司还在招聘前谷歌员工，希望借助其开发Tensor处理器的经验和技术，开发出自家的AI服务器芯片。来源：财联社

英伟达联合发布 Mistral-NeMo AI 模型：120 亿参数、上下文窗口 12.8 万个 token

英伟达联合法国初创公司 Mistral AI，今天发布了全新的 Mistral-NeMo AI 大语言模型，拥有 120 亿个参数，上下文窗口（AI 模型一次能够处理的最大 Token 数量）为 12.8 万个 token。Mistral-NeMo AI 大模型主要面向企业环境，让企业不需要使用大量云资源的情况下，实施人工智能解决方案。来源： IT之家

OpenAI 推出性能强大但价格更便宜的 AI 模型 GPT-4o mini

美国人工智能初创公司OpenAI宣布，正式上架价格显著下降的新一代入门级别人工智能“小模型”GPT-4o mini。最新上架的GPT-4o mini则是一个规格更小、更便宜的变体，通过兼具“能力和性价比”，拓展低价位市场的竞争。根据OpenAI披露，GPT-4o mini的API价格将会是15美分/100万Tokens输入，以及60美分/100万Tokens输出。上下文窗口依然是12.8万个Tokens，知识截止日期为2023年10月。来源：财联社

由于监管存在不确定性，Meta 不会在欧盟提供新的多模态AI模型

Facebook母公司Meta Platforms表示，由于欧洲监管环境的不可预测性，将不会向欧盟客户提供其多模态人工智能模型Llama。Meta 打算将新的多模态模型融入多种产品中，包括智能手机和该公司的 Meta Ray-Ban 智能眼镜，该模型能够对视频、音频、图像和文本进行推理。Meta 指出，欧洲企业和机构几乎肯定会失败，因为他们无法获得最新、最好的开放模式。该公司补充称，与世界其他地区相比，欧洲监管机构花了更长的时间来确定法律要求。来源：智通财经

07月18日·周四

OpenAI 发布大小模型博弈研究，可让模型输出更易理解

OpenAI的“超级对齐”团队在其解散前发布了最后一篇论文，展示了一种通过大模型与小模型相互博弈的方法来提升AI输出的可读性和准确性。这种方法模仿了多伦多大学学者与2021年提出的“证明者-验证者”（Prover-Verifier）博弈，训练大模型生成易于理解的内容，同时小模型提高其判断力。研究结果表明，这种方法不仅使模型输出更易理解，而且没有明显损失准确率。论文作者之一认为这可能使未来的模型比人类更聪明。来源：量子位

三星收购英国知识图谱 AI 公司 Oxford Semantic Technologies

三星电子周四（7月18日）宣布收购英国的AI初创公司Oxford Semantic Technologies。后者公司主要研发知识图谱技术，能够将信息存储为相互关联的思维网络，方便后期信息检索和推荐。该技术将与三星的设备端AI技术相结合，提供超个性化的用户体验。来源：财联社

通义千问、GPT-4o 等七款 AI 大模型“高考成绩”公布：前三名文科过一本，理科过二本

上海人工智能实验室 17 日公布了针对 7 个 AI 大模型的高考全科目测试结果。测试结果显示，书生・浦语 2.0 系列文曲星大模型（浦语文曲星）、阿里通义千问大模型 Qwen2-72B 以及 GPT-4o 再次包揽文、理科前三甲；前三名 AI“考生”的文、理科成绩分别超过了“一本”“二本”线（以今年高考人数最多的河南省的分数线为参考）。来源： IT之家

具身智能科技公司「小雨智造」获小米、智源等投资

据36氪报道，小米集团和机器人泰斗王田苗，投了一家具身智能科技公司「小雨智造」。该公司2023年2月成立，成立之后陆续完成了亿元种子轮融资，由小米集团、机器人泰斗王田苗、北京智源研究院出资。据了解，「小雨智造」的核心创始团队也曾是小米曾经的高层：「小雨智造」创始人乔忠良是小米的初创成员之一，曾经是MIUI研发负责人，负责过MIUI 9到MIUI 12等产品，于2023年1月从小米离职；其联合创始人王文林，曾任职小米软件系统平台部总经理，主导了“小米大脑”和IoT系统的开发。团队其他成员来自于小米、华为、字节跳动、微软等公司。来源： 36氪

苹果回应使用 YouTube 资源训练 AI：未用于 Apple Intelligence

据 9to5Mac 报道，针对苹果、英伟达等公司使用未经授权的YouTube 视频训练 AI 大模型一事，苹果今天发表回应。苹果表示，苹果使用这个数据集来训练其开源的 OpenELM 模型，而该模型仅用于研究，OpenELM 并不支持其任何人工智能或机器学习功能，包括 Apple Intelligence。该模型以开源方式发布，可广泛获取，包括在苹果的机器学习研究网站上。来源：品玩

微软发布 iOS / 安卓正式版 Designer 应用：可 AI 修图、生成贺卡等

在经历了长达近 1 年的预览测试之后，微软公司正式在苹果 iOS 平台、谷歌安卓平台推出 Microsoft Designer 应用，让 iPhone 和安卓手机用户体验 AI 修图等功能。来源： IT之家

Anthropic与风投Menlo Ventures联手推出1亿美元AI基金

Anthropic与Menlo Ventures联手推出一只价值1亿美元的基金，从而向早期阶段的AI初创公司提供资金支持和Anthropic的AI技术。这个基金效仿了2008年苹果公司和Kleiner Perkins合作推出的iFund。iFund取得了巨大的成功，它让苹果公司能够深入了解早期开发者的需求，并且让苹果知道需要更加关注哪些方面。来源：华尔街见闻

DeepL 推出新一代翻译编辑大型语言模型：译文受青睐度达 ChatGPT-4 的1.7倍

以其同名机器翻译器闻名的语言人工智能公司 DeepL 德国当地时间昨日宣布推出新一代面向翻译和编辑应用的大型语言模型。DeepL 宣称基于新模型的译文受语言专家的青睐程度是谷歌翻译的 1.3 倍，ChatGPT-4 的 1.7 倍，微软翻译的 2.3 倍。来源： IT之家

谷歌发布 AI 智能体平台 Oscar，用于维护开源项目

在印度班加罗尔谷歌 I/O Connect 开发者活动期间， Go 语言开发团队宣布推出 Oscar ，这是一个用于构建 AI 智能体的开源平台，可以帮助软件产品团队监控问题或错误。通过 Oscar 项目，开发者可以创建在整个软件开发生命周期中发挥作用的 AI 智能体。这些智能体可以是开发者智能体、规划智能机、运行时智能体或支持智能体。来源： OSChina

07月17日·周三

MIT 研究：生成式 AI 更像是记忆大师而非推理高手

麻省理工学院计算机科学与人工智能实验室（CSAIL）的一项最新研究指出，大型语言模型（LLM）似乎更依赖记忆而不是真正的推理能力。研究结果表明，AI 在训练有素的领域内可以达到甚至超越人类水平，但这更多的是一种“记忆力”的体现。一旦面对全新的挑战，需要真正的推理能力时，AI 的优势便不再明显。来源： IT之家

李飞飞旗下AI初创企业World Labs估值已超10亿美元

据英国《金融时报》援引知情人士称，著名华裔计算机科学家李飞飞创办的“空间智能”创企World Labs估值已经赶超10亿美元。该创企主要利用类似人类的视觉数据处理技术，使AI具备高级推理能力。据两位知情人士透露，从今年4月成立至今，World Labs已经进行了两轮融资，投资方包括顶级科技投资者Andreessen Horowitz和AI基金Radical Ventures。据了解，其最新一轮的融资金额可能达到约1亿美元。来源：智东西

TrendForce集邦咨询：预估2024年全球AI服务器产值达1870亿美元

根据研究机构TrendForce集邦咨询最新报告，今年大型CSPs（云端服务供应商）预算持续聚焦于采购AI服务器，进而排挤一般型服务器成长力道，相较于AI服务器的高成长率，一般型服务器出货量年增率仅有1.9%。而AI服务器占整体服务器出货的比重预估将达12.2%，较2023年提升约3.4个百分点。若估算产值，AI服务器的营收成长贡献程度较一般型服务器明显，预估2024年AI服务器产值将达1870亿美元，成长率达69%，产值占整体服务器高达65%。来源： TrendForce

美 FTC 对亚马逊与 AI 初创公司 Adept 的交易展开非正式调查

美国联邦贸易委员会（FTC）已经对亚马逊最近宣布的与人工智能初创公司Adept的交易展开了非正式调查。据媒体从一位知情人士处获悉，FTC目前正在寻求有关这份协议的更多信息，该协议涉及亚马逊聘请关键高管并从Adept获得技术许可。亚马逊上月宣布与Adept达成协议，将从Adept公司聘请顶尖人才，并获取该公司的技术。来源：财联社

特朗普盟友起草AI行政命令，启动“曼哈顿计划”

据外媒报道，前美国总统唐纳德·特朗普的盟友正在起草一项全面的人工智能行政命令，该命令将启动一系列“曼哈顿项目”，以开发军事技术，并立即审查“不必要和繁琐的法规”。这表明特朗普第二届政府可能会推行有利于硅谷投资者和公司的人工智能（AI）政策。来源：智东西

消息称字节将于 7 月 19 日大范围分享文生图 / 视频等 AI 模型进展

据钛媒体报道，字节跳动团队将会在7月19日（本周五）大范围分享文生图、类sora新视频等全新人工智能（AI）模型技术进展，尤其在长视频、高动态方向上具备创新技术。一位消息人士表示，字节跳动内部将 AI 大模型设为集团P0最高级别的方向。另一位消息人士则指出，除了上述研究团队之外，抖音、剪映等内部多个团队也在研发 AI 视频模型应用，预计将在近期公布。来源：钛媒体

Anthropic 推出 Claude Android 版，支持实时翻译

OpenAI竞争对手Anthropic于周二推出了AI聊天机器人Claude App的Android版应用程序，希望通过在更多平台上提供Claude来说服用户放弃ChatGPT。Claude Android应用程序将与5月发布的iOS版本运作模式相同，用户可免费访问Anthropic最佳的AI模型Claude 3.5 Sonnet，并通过Anthropic的Pro和Team订阅升级计划。用户将能够在设备间同步他们与Claude的对话，并可以将照片或文件上传到应用程序进行实时图像分析。来源：华尔街见闻

Mistral AI 推出两款新模型：数学模型和基于 Mamba 架构的代码生成模型

法国人工智能初创公司 Mistral AI推出了两个新模型：一个基于数学的模型 MathΣtral，以及一个基于 Mamba 架构的供程序员和开发人员使用的代码生成模型 Codestral Mamba。在基准测试中，Mistral 称 Codestral Mamba 在 HumanEval 测试中的表现优于竞争对手开源模型 CodeLlama 7B、CodeGemma-1.17B 和 DeepSeek。来源： VentureBeat

OpenAI 联合创始人 Karpathy 宣布创办 AI 教育初创公司

OpenAI联合创始人、前特斯拉AI总监Andrej Karpathy宣布创立AI原生学校项目Eureka Labs，旨在通过”教师+AI”共生模式，提供个性化AI教育。首个课程”LLM101n”将教授构建类似ChatGPT的大模型，课程内容免费，代码已在GitHub公开。来源：量子位

科技巨头被曝未经授权用 YouTube 内容训练 AI，苹果、英伟达在列

据 Wired 报道，包括苹果在内的一些科技巨头未经 YouTube 视频创作者同意，就使用了他们视频的字幕文件来训练人工智能模型。据悉，超过 17.3 万个来自 4.8 万个频道的 YouTube 视频字幕文件被用来训练人工智能模型，其中就包括苹果、英伟达、Salesforce 等硅谷巨头。来源： IT之家

Adaptive获1900万美元A轮融资，为建筑业提供AI驱动的财务自动化平台

面向建筑行业的AI驱动的财务自动化平台Adaptive宣布筹集了1900万美元的A轮融资。本轮融资由Emergence Capital领投，Andreessen Horowitz、Definition、Exponent、3kvc、Box Group、Gokul Rajaram等参投。来源： PR Newswire

生成式AI平台Vectara获2500万美元A轮融资，为企业提供RAG解决方案

企业生成式AI平台Vectara宣布完成了2500万美元的A轮融资。本轮融资由FPV Ventures和Race Capital领投，其他投资者包括Alumni Ventures、WVV Capital、Samsung Next、Fusion Fund、Green Sands Equity和Mack Ventures。该公司提供一个端到端的生成式人工智能（Generative AI）平台，专注于检索增强生成（RAG）技术。来源： BusinessWire

AI 医疗云平台 Huma 完成 8000 万美元 D 轮投资，估值 10 亿美元

全球医疗保健 AI 公司 Huma Therapeutics（下称“Huma”）宣布完成新一轮 8000 万美元 D 轮融资，估值接近 10 亿美元，同时推出集成生成式 AI 的 Human 云平台，为每个用户提供数字化急救和研究服务。此次融资中，参与投资的包括阿斯利康和拜耳等药企，以及日本日立风险投资公司（Hitachi Ventures）和意大利的 Hat Technology Fund，使得 Huma 迄今为止总共筹集的资金达到 3 亿美元。来源：有新Newin

AI 搜索平台 Exa 获英伟达、YC 以及 Lightspeed 1700 万美元融资

致力于开发 AI 原生搜索引擎的初创公司 Exa 宣布，完成由 Lightspeed 领投的 1700 万美元 A 轮融资，其他投资者还包括 Nvidia 风险投资部门 NVentures 和 Y Combinator。据悉，Exa 目标是为 AI 平台提供高效、准确的信息检索服务。此前，Exa 已筹集了 500 万美元的种子轮融资，总融资额达到 2200 万美元。来源：有新Newin

去中心化 AI 基础设施平台 Mira 获 900 万美元种子轮融资

总部位于新加坡的去中心化人工智能基础设施平台Mira宣布筹集了900万美元的种子轮融资。本轮融资由BITKRAFT Ventures和Framework Ventures领投，其他投资方包括Accel、Crucible、Folius Ventures、Mechanism Capital、SALT Fund以及一些知名天使投资者。来源： PR Newswire

07月16日·周二

英国监管机构出手，正调查微软与 Inflection AI 相关交易

英国竞争和市场管理局（CMA）7 月 16 日发布声明称，正调查微软雇佣 Inflection AI 部分前员工以及与 Inflection 方面达成相关安排的情况。该监管机构担心此举可能导致“竞争实质性减少”。CMA 在声明中表示，做出第一阶段决定的截止日期为 9 月 11 日，届时该机构将宣布是否将此案转入第二阶段的深入调查。来源： IT之家

腾讯元宝首发3D生成应用，一张图即可生成3D角色

腾讯旗下大模型应用“腾讯元宝”上线了“3D角色梦工厂”玩法，腾讯元宝也是首个拥有打印级3D生成能力的通用大模型App。通过“3D角色梦工厂”，只需上传一张五官清晰的正面头像，并选择不同角色模版，就能迅速生成个人3D角色。来源：量子位

AI 编程初创公司 Anysphere 获 a16z 新一轮投资，估值达4亿美元

据 BusinessInsider 报道，AI 编程初创公司 Anysphere 宣布从 A16z 获得新一轮融资，公司估值达到4亿美元。Anysphere 主营 AI 代码编辑器，其主要产品 Cursor 受到包括 OpenAI 和 Perplexity 等多家公司的关注。Anysphere 的目标是通过这款 AI 编辑器来帮助开发者提高工作效率，简化编码过程。来源：品玩

微软为 Excel 等研发新 AI 模型：性能较常规方案提高 25.6%，词元使用成本降低 96%

根据微软最新公布的研究论文，计划为 Excel、谷歌 Sheets 等电子表格应用程序，开发全新的 AI 大语言模型–SpreadsheetLLM。研究人员表示现有电子表格应用程序具备丰富的功能，在布局和格式方面为用户提供大量的选项，因此传统 AI 大语言模型很难胜任电子表格处理场景。而 SpreadsheetLLM 就是专门为电子表格应用而设计的 AI 模型，微软还研发了 SheetCompressor（压缩电子表格），让 SpreadsheetLLM 能够更好地理解、处理电子表格数据。来源： IT之家

机构揭秘OpenAI年收翻倍奥秘付费用户数已接近千万级别

上周，调研机构FutureSearch发布了一份报告，其对OpenAI公司的收入组成进行了分析，提供了一个更清晰的收入结构图。一个月前，OpenAI首席执行官奥尔特曼对公司员工表示，从过去半年的情况来看，公司今年的收入有望达到34亿美元，较媒体报道的2023年收入（16亿美元）实现了翻倍。来源：财联社

07月15日·周一

谷歌 Gemini AI 遭质疑：未经用户同意读取 Google Drive 文档

据 X 用户 @Kevin Bankston 的报告，谷歌的人工智能服务 Gemini AI 似乎在未经用户明确许可的情况下读取 Google Drive 中的私人文档。Bankston 最初发现 Gemini 似乎在阅读他的 Google Drive 文档，但相关设置中找不到禁用该功能的选项。经进一步调查，他发现这是 Google Drive 本身的问题，而非 Google Docs，但两者可能都存在类似的漏洞。来源： IT之家

谷歌DeepMind被曝抄袭开源成果，论文还中了顶流会议

大模型圈再曝抄袭大瓜，这回，“被告”还是大名鼎鼎的谷歌DeepMind。“原告”直接怒喷：他们就是把我们的技术报告洗了一遍！谷歌DeepMind一篇中了顶流新生代会议CoLM 2024的论文被挂了，瓜主直指其抄袭了一年前就挂在arXiv上的一项研究。开源的那种。来源：量子位

日本总务省：中国对ChatGPT等生成式AI应用，全球第一

日本总务省（类似国务院）在官网发布了，2024年（令和6年）生成式AI应用白皮书。主要查看了日本公民对ChatGPT、Coplilot、Midjourney、Stable Difusion、Gen-2、MusicGen等10多种生成式AI的应用情况，同时对美国、中国、英国和德国的全球主流使用国家进行了横向调查和对比。结果显示，中国以56.3%的使用率排名第一；美国46.3%排名第二；英国39.8%排名第三；德国34.6%排名第四；日本9.1%第五。在企业对生成式AI的应用方面，中国以71.2%大幅度领先同样排名第一。来源： AIGC开放社区

人形机器人公司「逐际动力」完成数亿元A轮融资，多巨头领投

通用机器人公司「逐际动力」完成数亿元A轮战略融资，由阿里巴巴、招商局创投、上汽集团旗下尚颀资本领投，原始股东峰瑞资本、绿洲资本和明势资本跟投。「逐际动力」创立于2022年，主要产品包括全尺寸人形机器人、四轮足机器人、双足机器人等，落地应用于智能制造、工业巡检、物流配送、家庭服务等领域。来源： 36氪

人工智能数字化医疗健康服务平台「华美浩联」获近亿元C轮融资

华美浩联正式宣布完成C轮融资。该轮融资投资方包含阿米巴资本、Ventech China银钛资本以及蜂巧资本等，融资金额高达近亿元。本轮融资所获资金将主要用于服务与产品的研发和市场推广以及推进人工智能数字化医疗健康服务平台的升级与建设。华美浩联成立于2017年，是一站式人工智能数字化医疗健康服务平台。来源：投资界

中国农业大学发布“神农大模型 2.0”：覆盖育种、种植、养殖、农业遥感及气象

第八届智慧农业创新发展国际会议于 7 月 13 日在北京举办，中国农业大学在会议上发布了“神农大模型 2.0”。相比 1.0 版本，“神农大模型 2.0”在图像、声音、视频、文件等多模态交互及智能化推理方面获得提升，使大模型能够覆盖育种、种植、养殖、农业遥感及气象等多个农业应用场景。来源： IT之家

07月13日·周六

OpenAI 绝密项目「草莓」曝光，前身为Q*，能实现高级推理

路透社独家报道称，OpenAI 内部正在一个代号为「草莓（Strawberry）」的项目中开发一种新的人工智能模型。该项目的细节此前从未被报道过，而 OpenAI 正努力证明其提供的各类模型能够提供高级推理能力。消息人士称，该文件描述了一个使用草莓模型的项目，其目的是让公司的人工智能不仅能生成查询答案，还能提前规划，以便自主、可靠地浏览互联网，进行 OpenAI 所称的「深度研究」。来源：机器之心

消息称 4050 亿参数版 Meta Llama 3 将于 7 月 23 日发布

科技媒体 The Information 本周五发布博文，援引内部员工曝料称 Meta 公司计划 7 月 23 日发布开源 AI 模型 Llama 3 405B，在现有 80 亿和 700 亿参数两个版本之外，推出 4050 亿参数版本，号称是最强大的开源大语言模型。Meta 公司今年 4 月发布 Llama 3 AI 模型时，扎克伯格就在采访中透露正在训练 4050 亿像素的密集模型，但当时没有透露太多的信息。来源： IT之家

美国提出《COPIED法案》，要求标记、验证和检测生成式 AI 内容

7月12日晚，美国参议院官网公布了一个由，Cantwell、Blackburn和Heinrich三位两党国会议员提出新的法案——COPIED Act。该法案的主要目的是，制定完善的规则来标记、验证和检测ChatGPT、Uido、Suno、Midjourney等生成式AI产品，提升生成内容的透明度防止被非法乱用以及保护公众的个人数据和隐私。同时保护记者、歌唱家、演员和其他艺术、商业群体的利益，并保留对违规者非法使用其数据训练AI大模型的法律追究权益。来源： AIGC开放社区

AI 机械臂初创公司 Standard Bots 获 6300 万美元融资，亚马逊、三星等参投

Standard Bots Inc. 是一家为制造业和物流业开发机械臂的初创公司，该公司已获得 6300 万美元的 B 轮新资金来增强其技术。本轮融资由 General Catalyst 领投，亚马逊工业创新基金、Samsung Next 和几家老投资者也参与了该公司的投资。来源： SiliconANGLE

亚马逊推出 AI 购物助手 Rufus，可回答客户各种问题

亚马逊宣布其生成式 AI 购物助手 Rufus 经过五个月的小范围测试之后现已面向所有美国客户开放。亚马逊表示，Rufus 旨在帮助您节省时间并做出更明智的购物决策。它可以回答您各种各样的购物需求和商品问题，“就像随身带了一个购物助手一样”。来源： IT之家

07月12日·周五

智谱AI开源推出视频理解模型 CogVLM2-Video

智谱AI的团队提出了一种基于视觉模型的自动时间定位数据构建方法，生成了3万条与时间相关的视频问答数据。然后，基于这个新数据集和现有的开放领域问答数据，引入了多帧视频图像和时间戳作为编码器输入，训练了一种新的视频理解模型—CogVLM2-Video。来源： GLM大模型

百度推出仿真人AI社交App“文小言”

据Tech星球报道，百度于近日上线了一款名为“文小言”的AI数字人社交APP。据悉，该产品基于文心大模型的技术打造，是一款与AI虚拟角色进行实时沟通、互动并建立情感连接的人工智能应用服务。来源： Tech星球

OpenAI 提出通用人工智能五级标准，自认为接近但未达到第二级

报道称，OpenAI 提出通用人工智能五级标准，用来确认人工智能的进展。OpenAI 高管告诉员工，公司自认为目前还处于第一级，但即将达到第二级。第一级：聊天机器人，具有会话语言的人工智能；第二级：推理者，解决人类水平问题的人工智能；第三级：代理，能够代表用户采取行动的人工智能；第四级：创新者，能够帮助发明的人工智能；第五级：组织者，能够完成组织工作的人工智能。来源： IT之家

软银集团确认收购英国AI芯片公司Graphcore

据路透社最新报道，历经市场的长期猜测，日本软银集团最终以未公开的金额确认收购了英国人工智能芯片初创公司Graphcore。对待此次交易，Graphcore的态度始终相对保守，彼时2023年9月面对收购传闻，该公司直接否认“收到软银的收购要约”。公开资料显示，Graphcore估值一度达到28亿美元，曾获微软、红杉等知名企业与投资机构支持。该公司设计了一种新型智能处理单元(IPU)，一度被视作与英伟达竞争的法宝。来源：财联社

吴恩达抵制美国SB 1047法案，称对开源大模型是毁灭性打击

7月12日凌晨，全球著名AI科学家吴恩达（Andrew Ng）在社交平台发表深度长文，再次抵制并吐槽美国加州拟定的SB-1047法案。
他表示，仍然对美国加州拟定的SB 1047法案，对开源大模型带来的巨大伤害感到震惊。这个法案犯了一个严重根本性错误，应该监管的是通过大模型开发的生成式AI产品，而不是开源大模型本身。来源： AIGC开放社区

Fireworks AI 获红杉、英伟达与 AMD 5200 万美元投资

近日，成立不到两年的 AI 初创公司 Fireworks AI 宣布完成红杉美国领投的 5200 万美元 B 轮融资，估值升至 5.52 亿美元，其他投资者包括英伟达、AMD 和 MongoDB。Fireworks AI 是一个为开发者提供生成式人工智能的创新平台。它包含高性能模型如 Meta Llama 3 和 FireLLaVA，并提供文本和图像生成工具。来源：有新Newin

07月11日·周四

三星承诺：今年将在全球2亿台设备上推出Galaxy AI

今年早些时候，三星在Galaxy S24上推出了一套由人工智能驱动的功能Galaxy AI。在昨晚的Galaxy Unpacked活动上，三星宣布到2024年底，Galaxy AI将在全球2亿台设备上推出。由于Galaxy AI已在现有兼容设备上推出，可以推测三星正在计算Z Flip 6、Z Fold 6、Buds 3、Buds 3 Pro、Watch 7和Watch Ultra的可能得销量，最终得出了“2亿”这个数字。来源： CNMO

美 FTC 正在对微软和 OpenAI 的投资交易进行反垄断审查

据路透社报道，微软、苹果公司计划放弃了其在 OpenAI 董事会的观察员席位。报道称，此举旨在缓解美国和英国反垄断监管机构对其在生成式 AI 日益普及的背景下对OpenAI进行垄断控制的担忧。但是，美国联邦贸易委员会（FTC）的一位消息人士周三表示，这一变化不太可能解决美国政府的担忧，FTC正在对微软和OpenAI的投资交易进行反垄断审查，因为此举表明微软看到了巨大的潜在反垄断风险，并正试图抢占先机。来源：钛媒体

三星今年将推出升级版语音助手Bixby 配备自家大模型

三星移动业务负责人在接受最新采访时表示，该公司将在今年推出基于自己人工智能（AI）模型的升级版语音助手Bixby。此前就有报道称，三星正在研发升级版Bixby，而此次是该公司首次确认发布时间。Bixby的升级反映了三星正在其设备套件上更加努力地推广人工智能功能。此外，除了自家的Bixby外，三星还将继续允许其他的语音助手在其设备上运用。例如，谷歌的人工智能助手也可以在三星的最新设备上使用。来源：财联社

AMD 以 6.65 亿美元收购芬兰 AI 初创公司 Silo AI，欲与英伟达争锋

芯片巨头 AMD 周三宣布，将斥资约 6.65 亿美元现金收购芬兰人工智能初创公司 Silo AI。此举旨在增强其人工智能芯片能力，与行业领导者英伟达竞争。AMD 表示，收购 Silo AI 将帮助其改进 AMD 驱动的人工智能模型的开发和部署，并帮助潜在客户使用 AMD 的芯片构建复杂的人工智能模型。同时，Silo AI 还将加强 AMD 的软件开发能力。来源： IT之家

消息称 AI 芯片初创公司 Groq 获贝莱德 3 亿美元投资，最新估值 22 亿美元

根据 The Information 最新报道，英伟达竞敌 Groq 预计将在未来两周内完成由贝莱德领投的 3 亿美元融资，估值达到 22 亿美元。
相较于 2021 年，由 Tiger Global Management 和 D1 Capital 领投的 11 亿美元估值翻了一倍。Groq 创始人是谷歌专用芯片 NPU 发明者之一 Jonathan Ross。今年 2 月，Groq 发布了演示视频，展示了其 AI 芯片如何在几分之一秒内运行 LLM。来源：有新Newin

AI 游戏公司 Volley 完成 5500 万美元融资，由 Lightspeed 与微软领投

Volley 是一家AI 游戏开发公司，用户可以通过向 Amazon Alexa、Fire TV 或 Roku TV 发出语音命令来玩这些游戏。目前，Volley 已在 C 轮融资中筹集了 5500 万美元，此轮融资由微软的 M12 Ventures 和 Lightspeed Venture Partners 领投，总融资额超过 7500 万美元。来源：有新Newin

夸克升级“超级搜索框”，推出AI搜索为中心的一站式AI服务

7月10日，夸克升级“超级搜索框”，推出以AI搜索为中心的一站式AI服务，为用户提供从检索、创作、总结，到编辑、存储、分享的一体化信息服务价值。一个“超级搜索框”实现回答、创作、总结之外，夸克一站式提供网盘、扫描、文档、CueMe、学习助手、健康助手等内容产品和智能工具。来源：新华网

07月10日·周三

阿里旗下的AI搜索助手心流正式上线，小程序版本、APP版本也将推出

专为科研人员、高校教师和学生、职场人士研发的大模型应用产品心流正式上线。据了解，其产品定位为用户的AI搜索助手，提供智能搜索、知识问答、智能阅读、辅助创作等能力，旨在帮助用户提升工作和学习效率。（AI工具集注：心流的网站备案信息显示，备案主体是杭州万相创意科技有限公司，即“阿里妈妈”的主体）来源：环球网

微软宣布放弃 OpenAI 董事会观察员席位，苹果也不会担任类似角色

微软当地时间周一宣布将放弃在 OpenAI 董事会的观察员席位，称 OpenAI 在过去八个月中取得了“重大进展”，对公司发展方向充满信心，因此不再需要该席位。在一份写给 OpenAI 的信中，微软表示已确认放弃该席位，且即刻生效，微软还表示“感谢 OpenAI 领导层和董事会在这个决策过程中给予的支持”。除微软外，英国金融时报表示苹果也不会在 OpenAI 董事会担任观察员角色。OpenAI 官网显示，它“仍然是一家完全独立的公司，由 OpenAI 非营利机构管理”。来源： IT之家

马斯克旗下xAI与甲骨文百亿美元合作谈判破裂，拟自购芯片建数据中心

近期，马斯克麾下人工智能公司xAI与甲骨文之间的协议扩展谈判宣告破裂。原协议中，xAI计划从甲骨文租赁专用的英伟达人工智能芯片。但据知情人士透露，xAI现已决定自主采购芯片，以构建其数据中心基础设施。据悉，xAI原本与甲骨文正就一项多年期的合作协议进行深入探讨，该协议旨在让xAI从甲骨文处租用英伟达芯片，以支持其即将打造的超级计算机项目，预计交易规模可达100亿美元之巨。来源：腾讯科技

谷歌 DeepMind CEO：当前 AI 综合智力还不如普通家猫

谷歌 DeepMind CEO 哈萨比斯出席全球变革研究所组织的“2024 年英国未来会议”，在和英国前首相托尼・布莱尔（Tony Blair）的公开讨论中表示：如果将 AI 作为通用系统来衡量，其 IQ 智商水平甚至没有超过猫。不过，随着巨额现金和计算投资的推动，相关研究进展很快。一些人预计未来 5 年时间，AI 智力可以超过人类。来源： IT之家

调查：中国在生成式人工智能应用和普及方面全球第一

周二公布的一项最新调查显示，中国在生成式人工智能(GenAI)的应用和普及方面走在世界前列。根据美国人工智能和分析软件公司SAS以及Coleman Parkes Research对全球各行业1600名决策者进行的调查，83%的中国受访者表示他们已采用了生成式人工智能。来源：财联社

AI 视频初创公司 Captions 获 6000 万美元 C 轮融资

生成式 AI 视频制作和编辑初创公司 Captions，目前已从众多明星投资者那里完成新一轮融资，估值跃升至 5 亿美元。周二，Captions 宣布完成由 Index Ventures 牵头的 6000 万美元融资，总筹集资金达到 1 亿美元。本轮融资其他投资者包括 Kleiner Perkins、a16z 和 Sequoia Capital，还有 Jared Leto 等新投资者，Leto 也是另一家 AI 视频公司 Pika 投资者之一。来源：有新Newin

07月09日·周二

Gartner：64% 受访者不希望客服系统部署 AI

市场调查机构 Gartner 今天发布调查报告，表示 64% 的受访客户不希望客服使用 AI。该调查还指出 53% 的客户如果发现某家公司客服使用 AI，会考虑转向竞争对手。来源： IT之家

OpenAI CEO 奥特曼与赫芬顿成立一个新的AI健康公司

OpenAI CEO Sam Altman 与AI医疗健康巨头Thrive Global的CEO阿里安娜·赫芬顿（Arianna Huffington）一起在《时代》杂志上发表了一篇文章，正式宣布了Thrive AI Health公司的成立。Thrive AI Health的目标是打造一个个性化“AI健康教练”，以手机App形式呈现。目前公司CEO是谷歌前健康和可穿戴设备负责人德卡洛斯·洛夫（DeCarlos Love），OpenAI创业基金和Thrive Global是主要投资方。来源：智东西

腾讯智影小程序上线 AI 视频功能，限时免费一键生成风格化视频

腾讯智影小程序上线了智影 AI 视频功能，可以一键生成风格化视频，目前有日漫风格可选，此功能限时免费（未公布收费价格）。视频风格化就是在原视频的基础上进行风格化处理，官方称风格化视频可以提升视频美感、增强趣味性、提升传播力。只需导入视频并一键“变身”，就能快速生成风格化视频（支持 10s 视频），智影 AI 提供了多种模板，让视频更加多样化。来源： IT之家

AI 文档搜索公司 Hebbia 宣布完成 1.3 亿美元融资

周一，位于纽约的 AI 初创公司 Hebbia 宣布完成新一轮 1.3 亿美元融资，由 a16z 领投，Index Ventures、Google Ventures 以及 Peter Thiel 参投。据悉，Hebbia 目前估值约为 7 亿美元，公司成立于 2020 年，其软件可分析数字化文档和数据源，包括监管文件、PDF 以及音频和视频剪辑，以帮助客户处理比面向消费者的聊天机器人更复杂的查询，类似 Glean。来源：有新Newin

中国工程院院士郑纬民：国产AI芯片核心问题是生态不够好，如果生态好60%的性能也有人用

7月7日信息化百人会（ChinaInfo100，信百会）2024年度研讨会上，中国工程院院士、清华大学计算机科学与技术系教授郑纬民发表演讲。郑纬民表示，AI 大模型正在从单模态向多模态发展，同时应用也很多，这使得算力爆发性增长，算力一直供不应求。但同时，相比英伟达，国产 AI 芯片系统生态不够好。来源：钛媒体

古尔曼：苹果首款支持 Apple Intelligence 的智能家居设备将是一款桌面机器人

据彭博社记者马克・古尔曼 (Mark Gurman) 透露，苹果首款搭载 Apple Intelligence 功能的智能家居设备将是一款全新的桌面机器人。古尔曼表示，期待在现有苹果智能家居设备上使用 Apple Intelligence 功能的用户可能要失望了，他们需要等待苹果推出 AI 驱动的桌面机器人产品。来源： IT之家

07月08日·周一

Anthropic 首席执行官：未来三年内，AI 大模型训练成本将上升至百亿甚至千亿美元

据 Tom’s Hardware 今日报道，AI 初创公司 Anthropic 的首席执行官 Dario Amodei 近期接受播客节目采访时表示，目前像 GPT-4o 这样的模型训练成本约为 1 亿美元，而目前正在开发的 AI 大模型训练成本可能高达 10 亿美元。当然，10 亿美元还不是“终点”。Dario Amodei 作出预测，未来三年内，AI 大模型的训练成本将上升至 100 亿美元甚至 1000 亿美元。来源： IT之家

MOSS大模型项目负责人邱锡鹏：大模型的下个阶段是“世界模型”

复旦大学教授、MOSS大模型项目负责人邱锡鹏认为，当前，大语言模型还存在很多不足。比如在落地阶段，大语言模型的会遇到难以解决的“幻觉问题”，即生成不真实、不可靠、不存在的信息。邱锡鹏将大模型的未来趋势和发展方向，总结为观察世界、产生动作，并走向“世界模型”。来源：财联社

曝苹果 Apple Intelligence 版全新 Siri 今年不会推出

根据彭博社记者马克·古尔曼的最新消息，苹果公司今年不会推出全新的Apple Intelligence驱动的Siri。相反，该公司计划在明年1月开始测试，并在iOS 18.4中推出正式版本。此前报道显示，苹果公司在6月11日的2024年WWDC全球开发者大会上正式宣布了这款新Siri。来源：中关村在线

X 被曝将新增多项 Grok 模型功能支持，含聊天机器人侧面板

独立应用程序研究者 Nima Owji 表示，X 社交平台正在开发多项基于 xAI Grok 模型的功能，为 X Premium 订阅用户提供更丰富的使用体验。其中之一便是类似于其他生成式 AI 聊天机器人的 Grok 侧面板，用户可在使用 X 平台任意功能时同 Grok 机器人交流。来源： IT之家

月之暗面为 Kimi 智能助手推出官方浏览器插件

据月之暗面官方微信公众号消息，月之暗面推出 Kimi浏览器插件，并为网页用户带来多项新功能。Kimi 插件，目前只有两个按钮：一个是点问笔，划选文字后就会出现；另一个是总结器，出现在网页右下角，帮你快速总结全文、答疑解惑。来源：月之暗面

07月05日·周五

阿里云 CTO 周靖人：通义真正实现全尺寸、全模态开源，下载量已破 2000万

7 月 5 日，在上海世界人工智能大会上，阿里云 CTO 周靖人公布近期通义大模型和阿里云百炼平台的最新进展。近 2 个月，通义千问开源模型下载量增长 2 倍，突破 2000 万次，阿里云百炼服务客户数从 9 万增长至 23 万，涨幅超 150%。周靖人重申了阿里云拥抱开源开放的坚定立场，「到今天，通义千问已经实现真正意义上的全尺寸、全模态开源，拉平了开源、闭源模型之间的差距。」来源：极客公园

阿里通义 App 上线“追星星的 AI”：国内首个关照孤独症儿童的 AI 绘本

阿里巴巴官方公众号今天下午发文宣布，通义 App 现已上线一款特殊 AI 工具“追星星的 AI”。阿里巴巴表示，这是国内首个关照孤独症儿童的 AI 绘本工具，免费为孤独症儿童家庭提供定制 AI 绘本服务。其基于阿里自研的 Modelscope-Agent 框架，调用了通义大模型的多项服务，可实现从一句话故事梗概到完整有声绘本的生成。来源： IT之家

消息称黑客去年曾侵入OpenAI内部系统，部分AI设计细节被盗

据媒体援引知情人士透露，一名黑客去年曾成功“黑入”了OpenAI的内部消息系统，并窃取了该公司人工智能技术的设计细节。OpenAI高管在去年4月的全体员工大会上向员工和公司董事会通报了这一漏洞，但高管决定不对外公开这一消息。来源：财联社

蚂蚁百灵大模型最新进展：已具备原生多模态能力

7月5日，在2024世界人工智能大会“可信大模型助力产业创新发展”论坛上，蚂蚁集团公布了其自研的百灵大模型最新研发进展：百灵大模型已具备能“看”会“听”、能“说”会“画”的原生多模态能力，可以直接理解并训练音频、视频、图、文等多模态数据。来源：机器之心

支付宝发布多模态医疗大模型，支持千亿级视觉识别

在2024世界人工智能大会“可信大模型论坛”上，支付宝多模态医疗大模型正式亮相，成为国内首批多模态医疗大模型之一。基于蚂蚁百灵的多模态能力，该模型可实现直接理解并训练音频、视频、图、文等多模态数据，使其更像人一样感知和互动，能“看”会“听”、能“说”会“画”，支持千亿级别参数医疗视觉识别。来源：钛媒体

百度文心智能体平台升级，向开发者免费开放文心大模型4.0

据百度官方消息，百度文心智能体平台（AgentBuilder）免费开放了文心大模型 4.0。开发者在文心智能体平台上制作智能体时，可灵活选择文心大模型 3.5 或 4.0 版本。文心大模型 4.0 于 2023 年 10 月发布，实现了基础模型的全面升级，在理解、生成、逻辑和记忆能力上都有提升。来源： IT之家

B站亮相2024世界人工智能大会，首次展出自研大语言模型

在 2024 世界人工智能大会（WAIC 2024）上，哔哩哔哩（以下简称“B站”）公布了多项自主研发的 AI 技术成果和 AIGC 多元创意，包括最新定制的 AI 语音声库、自研音视频大模型必剪 Studio 以及自研 AI 动态漫技术等。此外，B站自研的大语言模型系列也在此次 WAIC 2024 大会上首次展出，包括开源的 Index-1.9B chat 和 Index-1.9B character 两个模型。来源：财经网

商汤科技发布日日新5.5大模型体系

商汤发布日日新5.5大模型体系，包括6000亿参数基础模型日日新5.5，性能提升30%；流式多模态交互模型日日新5o，是国内首个所见即所得模型，可进行实时多模态交互和问答；日日新5.5Lite在端侧模型进行升级，模型精度提升10%、首包延迟降低40%，推理效率提升15%。来源：财联社

软银集团宣布4亿英镑收购AI芯片公司Graphcore

近日，日本软银集团宣布将以4亿英镑收购陷入困境的人工智能初创公司 Graphcore，该交易还需要获得英国政府的审查批准才能生效。资料显示，Graphcore成立于2016年，生产称为智能处理器单元（IPU）的AI芯片，旨在挑战英伟达。由于英伟达的设备需求量很大，投资者们纷纷向这家初创公司注入资金，寻找替代英伟达的可行方案。2020年，Graphcore以28亿美元的估值筹集2.22亿美元，使其成为英国最有前途的初创公司之一。来源：芯智讯

王坚：美国AI发展的电力瓶颈短板我国不存在，最不缺就是电

近日，中国工程院院士、阿里云创始人王坚公开表示，美国AI人工智能发展的瓶颈是电力，这对中国来说不是问题。2024世界人工智能大会上，中国工程院院士、阿里云创始人王坚回答算力和电力是否是AI发展瓶颈，表示电力方面，中国是最不用担心的。“中国一年的发电量是美国、日本、俄罗斯的总和还要多”，王坚说道。另外他提出一个应用、模型、电力和算力的不等式，认为在此不等式下，目前从事人工智能的人还不用担心瓶颈问题。来源：快科技

MiniMax创始人闫俊杰：至少三年后才会出现“杀手级”AI应用

4日下午举行的世界人工智能大会产业发展主论坛上，国内 AI 大模型“独角兽”公司MiniMax创始人兼CEO闫俊杰参与了一场圆桌，并表示，虽然国内很多公司正在迎头赶上ChatGPT，但是目前模型的错误率在60%-70%的水平，远不及GPT-4的30%-40%。会后，闫俊杰在对钛媒体AGI等对话时表示，类似于微信、抖音、今日头条这种规模的“杀手级”AI超级应用（Killer App），至少要到三年之后才能实现。来源：钛媒体

英伟达今年在华销售额预计将达120亿美元，发货超100万颗芯片

芯片咨询公司SemiAnalysis报告预估，今年英伟达有望在中国销售价值约120亿美元的人工智能芯片。黄仁勋曾表示，希望借助新的芯片使得英伟达在中国的业务实现最大化。英伟达有望在未来几个月内在中国交付超过100万颗定制版H20芯片，这些芯片的设计不受美国对向中国客户销售人工智能处理器的限制。据悉，每颗H20芯片的价格在12000至13000美元之间。来源：第一财经

ElevenLabs 推出免费的 AI 语音分离工具，可消除环境噪音

ElevenLabs是一家以语音克隆、文本转语音和语音转语音模型而闻名的人工智能语音初创公司，最新在其产品组合中添加了另一种工具：AI语音分离工具（AI Voice Isolator）。该产品允许创作者从任何内容（从电影到播客或 YouTube 视频）中消除不需要的环境噪音和声音。来源： VentureBeat

无问芯穹发布全球首个单任务千卡异构芯片混合训练平台，算力利用率达 97.6%

无问芯穹联合创始人兼 CEO 夏立雪昨日在世界人工智能大会 AI 基础设施论坛上发布了无问芯穹大规模模型的异构分布式混合训练系统，称千卡异构混合训练集群算力利用率最高达到了 97.6%。夏立雪还宣布无问芯穹 Infini-AI 云平台已集成大模型异构千卡混训能力，是全球首个可进行单任务千卡规模异构芯片混合训练的平台，具备万卡扩展性。来源： IT之家

07月04日·周四

摩尔线程升级夸娥（KUAE）智算集群到首个国产全功能GPU的万卡规模集群

日前，国产GPU公司摩尔线程宣布其人工智能（AI）旗舰产品夸娥（KUAE）智算集群解决方案实现重大升级——从千卡扩展至万卡规模。总算力超过10EFLOPS，目标是做到有效计算效率超过60%、稳定性达99%，能支撑万亿参数级大模型训练。来源：智东西

腾讯混元DiT升级：推出6G小显存版本，支持Kohya训练

腾讯混元文生图大模型（混元DiT）宣布开源小显存版本，仅需6G显存即可运行，对使用个人电脑本地部署的开发者十分友好，该版本与LoRA、ControlNet等插件，都已适配至Diffusers库；并新增对Kohya图形化界面的支持，让开发者可以低门槛地训练个性化LoRA模型；同时，混元DiT模型升级至1.2版本，在图片质感与构图方面均有所提升。来源：腾讯混元

特斯拉二代人形机器人Optimus亮相WAIC，行走速度提升30%

7月4日，在2024世界人工智能大会（WAIC 2024）上，特斯拉二代人形机器人Optimus正式亮相。特斯拉相关负责人向上证报记者介绍，二代Optimus在直立行走的基础上，行走速度提升了30%；其手指还“进化”到除了感知和触觉，可以在轻握鸡蛋和搬运重物时做到“游刃有余”。来源：上证报

北京：2025年智算供给规模达45EFLOPS，两年打造AI原生城市

在 7 月 3 日召开的 2024 全球数字经济大会智能计算与决策技术论坛上，北京市经济和信息化局总经济师、数字经济专班执行长唐建国表示：“北京市明确提出，到 2025 年本地智算供给规模达到 45EFLOPS（每秒百亿亿次浮点运算次数），形成北京市内东西南北四个亿级以上算力中心，构建‘京津冀蒙’算力供给走廊，为人工智能大模型的训练和推理应用提供高效的算力供给。”来源：上观新闻

丘成桐：人工智能要重视上游的基础学科

“人工智能的上游、中游、下游要同步做，上游（基础学科）要领导，中、下游要帮忙，中国尤其要重视上游的工作。”在7月4日上午举行的2024世界人工智能大会暨人工智能全球治理高级别会议全体会议上，菲尔兹奖首位华人得主丘成桐接受第一财经独家采访时表示。来源：第一财经

阶跃星辰发布三款Step系列通用大模型新品

在2024年世界人工智能大会上，阶跃星辰发布了三款Step系列通用大模型新品：Step-2万亿参数语言大模型正式版、Step-1.5V多模态大模型、Step-1X图像生成大模型。其中，Step-2大幅提升了训练效率，在数学、逻辑、编程、知识、创作、多轮对话等方面体感逼近GPT-4。Step-1.5V 在图像感知和理解能力上全面提升，并具备较强的视频理解能力。来源：钛媒体

李彦宏：没有应用，基础模型一文不值，商业化闭源模型最能打

7月4日，在2024世界人工智能大会暨人工智能全球治理高级别会议产业发展主论坛上，百度创始人、董事长兼首席执行官李彦宏谈及，2023年，国内出现了百模大战，造成了社会资源的绝大浪费，但也使得国内追赶世界上最先进的基础模型能力得到建立。李彦宏再次强调闭源模型的优势，称激烈竞争环境下，商业化闭源模型最能打。另外，没有应用，基础模型一文不值。来源：澎湃新闻

联发科与快手推出端侧视频生成技术，支持天玑 9300/8300 移动平台

2024年7月4日，MediaTek与快手共同宣布，推出高效端侧视频生成技术，共同探索并推进生成式AI技术的革新。该技术是对2024 世界移动通信大会（MWC 2024）上初次亮相的视频生成技术的延续与提升，结合快手的AI模型I2V（image to video）Adapter与MediaTek天玑9300、天玑8300移动平台强劲的AI算力，在端侧实现由静态图像生成动态视频的创新体验。来源： PChome

商汤发布可控人物视频生成大模型Vimi，实现分钟级视频

世界人工智能大会（WAIC 2024）在上海隆重召开，由商汤科技打造的首个面向C端用户的可控人物视频生成大模型 Vimi 亮相。Vimi基于商汤日日新大模型的强大能力，仅通过一张任意风格的照片就能生成和目标动作一致的人物类视频，并支持多种驱动方式，可通过已有人物视频、动画、声音、文字等多种元素进行驱动。来源：猎云网

法国开源AI研究实验室Kyutai发布对标GPT-4O的实时语音多模态模型Moshi

7月4日凌晨，法国知名开源AI研究实验室Kyutai在官网发布了，具备看、听、说多模态大模型——Moshi。Moshi功能与OpenAI在5月14日展示的最新模型GPT-4o差不多，可以听取人的语音提问后进行实时推理回答内容。但GPT-4o的语音模式要在秋天才能全面开放使用，而Moshi已经提供使用了。来源：华尔街见闻

三星放缓汽车半导体开发，专注于人工智能芯片

三星负责芯片设计的系统LSI部门正在进行业务和组织重组，将优先发展AI芯片。此次从事汽车处理器“Exynos Auto”（代号KITT3）开发的的人员已在该部门内重新分配到AI系统级芯片（SoC）团队，该团队现在是三星设计工作的重点。目前，该部门集中了100-150名专门设计人员，致力于AI芯片设计。来源：科创板日报

袁进辉AI公司「硅基流动」获近亿元天使+轮融资

AI初创公司「硅基流动」（SiliconFlow）近日完成近亿元天使+轮融资。本轮融资由某知名产业方领投，跟投方包括智谱AI、360和水木清华校友基金等知名企业及机构，老股东耀途资本继续超额跟进，华兴资本担任独家财务顾问。硅基流动是一家专注于AI Infra（AI基础设施）领域的创业公司，成立于2023年8月。创始人袁进辉是前OneFlow（一流科技）创始人及CEO，曾任微软亚洲研究院主管研究员，获得微软亚洲研究院院长特别奖。来源： 36氪

macOS 版 ChatGPT 被指以纯文本存储 AI 对话，OpenAI 紧急更新修复

开发者 Pedro Vieito 于 2 天前在 Thread 平台发布动态，表示 macOS 版 ChatGPT 应用会以纯文本方式存储用户对话，OpenAI 公司今天回应称已更新其应用，对存储在 Mac 设备上的聊天记录进行了加密处理。来源： IT之家

07月03日·周三

巴西政府机构禁止 Meta 公司使用用户数据训练生成式 AI 模型

据美联社报道，巴西国家数据保护局当地时间周二（2 日）认定，拥有 Facebook、Instagram、WhatsApp 等平台的社交网络巨头 Meta 将不得使用来自巴西的数据来训练其生成式 AI 模型。Meta 近期更新了隐私政策，允许公司可将人们的公开帖子用于训练其模型。根据巴西国家数据保护局的公报，Meta 此举将会对受影响数据主体的基本权利造成严重的、不可挽回的或难以修复的损害，此次下达的禁令是“预防性措施”。来源： IT之家

世界知识产权组织：过去十年中国生成式AI专利申请量居全球第一

世界知识产权组织发布《生成式人工智能专利态势报告》。报告显示，2014年至2023年，中国发明人申请的生成式人工智能专利数量最多，远超美国、韩国、日本和印度等国。2014年至2023年，全球生成式人工智能相关的发明申请量达54000件，其中超过25%是在去年一年出现的。来源：央视新闻

Meta 发布 3D Gen AI 模型：1 分钟内生成高质量 3D 内容

Meta 公司昨日（7 月 2 日）发布研究论文，介绍了名为 Meta 3D Gen（3DGen）的全新 AI 模型，可以在 1 分钟内基于用户输入的提示词，生成高质量的 3D 内容。Meta 公司表示 Meta 3D Gen（3DGen）所生成的 3D 内容具备高分辨率纹理和材质贴图，还支持基于物理的渲染（PBR），并能对此前生成的 3D 内容重新再生成新纹理。来源： IT之家

苹果公司有望获得 OpenAI 董事会观察员席位

据报道，作为上个月宣布的里程碑式协议的一部分，苹果公司将获得OpenAI董事会观察员职位，这进一步加强了两家公司之间的联系。据知情人士透露，苹果应用商店（App Store）负责人、前营销主管Phil Schiller被选中担任这一职位。这位知情人士说，作为董事会观察员，他不会以正式董事的身份任职。来源：财联社

AI 音乐和歌曲生成平台 Suno 推出 iOS 移动端 APP

Suno是一款广受欢迎的人工智能音乐和歌曲生成器服务，在网络上已有超过1200万人使用，该公司推出了首款iOS设备移动应用程序。Suno iOS 版允许用户只需提供文字描述或用手机录制音频，就能轻松创建自己的音乐。用户可以生成 4 分钟长的歌曲和 2 分钟长的歌曲扩展。来源： cnBeta

Runway 正洽谈新一轮 4.5 亿美元融资，估值达 40 亿美元

根据 The Information 最新报道，Runway 正在与 General Atlantic 洽谈新一轮 4.5 亿美元融资，估值达 40 亿美元。2023 年 6 月，Runway 曾从包括 Google、Nvidia 和 Salesforce Ventures 在内的投资者那里筹集了 1.41 亿美元，当时的估值为 15 亿美元。据悉，Runway 在去年年底的 ARR 约为 2500 万美元，比六个月前的几百万美元大幅增加，但仍与 OpenAI 等头部玩家三四十亿美元的收入有较大差距。来源：有新Newin

AI 编程创企 Magic 正洽谈 2 亿美元融资，估值 15 亿美元

据路透社独家报道，美国AI编程创企Magic正在谈判筹集超过2亿美元的一轮融资，估值为15亿美元，距离其上次融资仅几个月。包括Jane Street在内的投资者预计将参与这一轮融资，这可能会使Magic的估值比上一轮高出3倍，尽管该公司没有收入，也没有产品出售。来源：智东西

Sentient获8500万美元种子轮融资，打造开放的AI开发平台

总部位于美国旧金山的人工智能研究与开发初创公司Sentient宣布筹集了8500万美元的种子轮融资。本轮融资由彼得·蒂尔的Founders Fund、Pantera Capital和Framework Ventures共同领投。Sentient致力于通过建立开放平台，确保AI技术的发展符合全人类的利益，并使AI的好处能够公平分配。来源： Decrypt

Phaidra获1200万美元新一轮融资，利用AI管理数据中心能源消耗

利用AI管理数据中心能源消耗的初创公司Phaidra宣布筹集了1200万美元的新一轮融资，本轮融资由Index Ventures领投，该公司计划将筹集的资金用于其产品的进一步研发和扩大市场推广。来源： GeekWire

07月02日·周二

马斯克：xAI 训练 Grok-3 大模型用了 10 万块英伟达 H100 芯片

马斯克已经宣布其人工智能初创公司 xAI 的大语言模型 Grok-2 将于 8 月推出，将带来更先进的 AI 功能。虽然 Grok-2 还没亮相，但马斯克已经开始为其 Grok-3 进行造势。他透露 xAI 的 Grok-3 用了 10 万块英伟达 H100 芯片进行训练，预计将于年底发布，相信它会“非常特别”。来源： IT之家

四部门印发《国家人工智能产业综合标准化体系建设指南(2024版)》

工业和信息化部等四部门印发《国家人工智能产业综合标准化体系建设指南（2024版）》。到2026年，标准与产业科技创新的联动水平持续提升，新制定国家标准和行业标准50项以上，引领人工智能产业高质量发展的标准体系加快形成。开展标准宣贯和实施推广的企业超过1000家，标准服务企业创新发展的成效更加凸显。参与制定国际标准20项以上，促进人工智能产业全球化发展。来源：财联社

英伟达被曝面临法国反垄断指控：罚金最高可达60.9亿美元

据外媒报道，法国反垄断监管机构计划指控英伟达涉嫌存在反竞争行为。有知情人士透露，该指控源自法国监管机构去年9月对GPU（图形处理芯片）行业的一次突击检查，而这次检查针对的目标便是英伟达。根据法国反垄断法的规定，违反反垄断法的公司可能面临高达其全球年营业额10%的罚款，但他们也可以做出让步以避免处罚。以英伟达2024财年609亿美元的营收来计算，罚款金额最高可达60.9亿美元（约合人民币442.63亿元）。来源：澎湃新闻

Character AI融资困难，计划出售给谷歌和Meta

由谷歌前员工创立的AI独角兽公司Character AI，曾因角色扮演聊天产品而备受瞩目。尽管A16Z曾以10亿美元估值投资1.5亿美元，但随着市场新鲜感消退和竞争加剧，公司面临融资困难，正考虑出售给谷歌或Meta。Character AI与这些科技巨头探讨了潜在合作，包括计算资源和知识产权共享。同时，公司也在寻求新的收入来源，如广告和API访问，以维持增长。来源： Z Finance

Runway 的文生视频模型 Gen-3 Alpha 向所有人开放

Runway宣布，文生视频模型Gen-3 Alpha向所有用户开放使用，每个月最少12美元才能使用。Gen-3一次性只能生成11秒的720P视频，也不会带任何背景音乐，有用户表示Gen-3的功能比Sora更好，并将再次改变文生视频赛道。来源：华尔街见闻

OpenAI CEO 奥特曼：GPT-5 将带来“巨大飞跃”

根据 Aspen Ideas Festival 上的一次访谈，OpenAI CEO 奥特曼提到，开发“GPT-5”还需要一些时间。“我们目前持乐观态度，但还有很多工作要做。”奥特曼表示。目前尚不清楚 GPT-5 的发布日期，但奥特曼表示它将是“巨大飞跃（significant leap forward）”，或许是相较于其前辈 GPT-4 而言。此前，奥特曼曾公开表示 GPT-4 “有些糟糕”，并委婉地称之为“充其量只是有点尴尬”。来源： IT之家

LeyLine 完成首轮数百万美元融资，为创意行业提供一站式AI工作流平台

位于西雅图初创企业「LeyLine」，已于近日完成首轮数百万美元融资，公司致力于推出全球首个针对游戏，短剧，动画，CG等内容制作行业的AI赋能人机混合智能生态系统。本轮融资的领投方为春华创投（春华资本旗下VC），跟投方包括总部位于波士顿的深科技基金Taihill Venture和多位著名天使投资人。来源： 36氪

桥水启动由机器学习决策的20亿美元规模基金

对冲基金巨头桥水公司最新推出了一只基金——一只由机器学习运行并进行决策的基金。据了解，该基金从不到10位客户那里获得了大约20亿美元的资金。新投资工具由联席首席投资官Greg Jensen牵头，已于周一（7月1日）开始交易。目前新基金依靠桥水公司研发了十多年的专有技术，据知情人士透露，新基金还将扩大范围，纳入OpenAI、Anthropic和Perplexity等公司开发的模型。来源：财联社

联大通过中国提出的加强人工智能能力建设国际合作决议

第78届联合国大会1日协商一致通过中国主提的加强人工智能能力建设国际合作决议，140多国参加决议联署。该决议强调人工智能发展应坚持以人为本、智能向善、造福人类的原则，鼓励通过国际合作和实际行动帮助各国特别是发展中国家加强人工智能能力建设，增强发展中国家在人工智能全球治理中的代表性和发言权，倡导开放、公平、非歧视的商业环境，支持联合国在国际合作中发挥中心作用，实现人工智能包容普惠可持续发展，助力实现联合国2030年可持续发展议程。来源：新华网

微软 AI 设计工具 Designer 测试定制贺卡功能

微软昨日发布新闻稿，邀请 Microsoft 365 Insider 项目成员，测试 Microsoft Designer 的个性化贺卡“Greeting Cards”功能。微软表示 Greeting Cards 是一款快速、直观的工具，可将用户输入的文字描述转化为符合其独特风格和信息的个性化贺卡。来源： IT之家

AI初创公司Abnormal Security估值将达50亿美元

最新消息，人工智能初创公司Abnormal Security估值将达到50亿美元。公开资料显示，Abnormal Security成立于2018年，该公司利用人工智能检测异常行为，防范商务电邮入侵（BEC）等网络安全威胁。此前，Abnormal Security已完成C轮融资2.1亿美元，由Insight Partners领投，Greylock Partners 和Menlo Ventures跟投，当时估值40亿美元。来源：第一财经

07月01日·周一

比尔·盖茨：Scaling Law快要走到尽头，超人AI还需新的突破

比尔·盖茨在一期 Next Big Idea 播客中讨论了人工智能的未来发展，强调其在医疗、教育和生产力中的重要性。他认为AI将深刻影响合成生物学和机器人技术，并预测个人智能体会通过耳机、眼镜等设备与人类交互。盖茨指出，AI的真正进步在于实现更接近人类的元认知能力，而非仅扩大模型规模。他预期AI将提升生产率并改善生活质量，但也提醒需警惕技术发展对社会的影响。来源： 36氪

谷歌 Gemini 模型今秋或将融入苹果智能生态系统

苹果知名爆料人马克·古尔曼（Mark Gurman）最新透露，苹果公司将于今年秋季宣布与Alphabet旗下的谷歌的大模型Gemini建立合作关系，届时Gemini模型将有望接入苹果的Apple Intelligence。此外，古尔曼还重申，苹果与人工智能初创公司Anthropic的潜在合作关系也在考虑之中，不过，苹果不会考虑整合Meta公司的人工智能服务。来源：财联社

腾讯元宝上线AI深度搜索，可一键生成脑图、表格

腾讯宣布旗下大模型应用“腾讯元宝”上线AI深度搜索，更新到最新版本后，腾讯元宝将在AI搜索深度模式下对问题进行扩展，可同步生成内容大纲、思维导图及相关人物事件梳理。来源：钛媒体

腾讯搜狗输入法上线 AI 对话、AI 宠物、快捷问答等功能

近日，腾讯搜狗输入法发布全新版本，升级了AI帮写、AI对话功能，同时推出快捷问答、AI宠物、AI自拍表情等多种新玩法。本次腾讯搜狗输入法对AI帮写模块进行了全面升级，针对社交、创作、评论评价、职场四个方向上线了21个帮写指令，覆盖日常聊天、种草笔记、撰写评论等130多种使用场景，可根据用户关键词进行优化、改进和丰富信息，提高文本的表达效果。来源：央广网

马斯克：xAI 将于 8 月推出 Grok-2 大语言模型

北京时间今日午间，马斯克在自己的 X（推特）平台上发文宣布，其人工智能初创公司 xAI 的大语言模型 Grok-2 将于 8 月推出。xAI 今年 3 月、4 月陆续推出了 Grok-1.5 大语言模型和首个多模态模型 Grok-1.5 Vision。xAI 曾表示，Grok-1.5V 在多学科推理、文档理解、科学图表、表格处理、屏幕截图和照片等多个领域“都能媲美现有的前沿多模态模型”。来源： IT之家

微软 AI CEO：今年年底，我们将拥有实时的语音界面，允许完全动态的交互

在近日阿斯彭思想节上，微软 AI 负责人Mustafa Suleyman与著名财经记者Andrew Ross Sorkin进行了一场深入对话。Suleyman 强调， AI 的发展并不会像加密货币那样成为一时的热潮，而是会持续对社会产生深远影响。他指出，当前的 AI 技术已经在多个领域展现了其价值，这与加密货币在短时间内的表现形成鲜明对比。在谈及中美技术竞争时，Suleyman 呼吁在保持竞争的同时，也应寻求合作的机会。他指出，尽管中美之间存在技术上的分裂，但全球化背景下的合作仍然是不可忽视的趋势。通过共同努力，双方可以在各自的技术生态系统中找到共存的方式。来源：有新Newin

谷歌 AI 视频编辑应用 Google Vids 上线测试

谷歌曾在今年 4 月发布了一款全新的 AI 视频编辑应用 Google Vids，并宣布预计 6 月登陆 Google Workspace Labs 测试版。据 Android Authority 报道，目前该应用已经于上周五前后悄悄上线并开启测试，功能齐全。来源： IT之家

版权声明：ai6 发表于 2025-02-06 19:10:01。
转载请注明：每日AI快讯热闻 | ai6

暂无评论

暂无评论...