AI教程资讯

Project Mariner – 谷歌推出的浏览网站智能体,能帮用户操作表格、在线购物

Project Mariner – 谷歌推出的浏览网站智能体,能帮用户操作表格、在线购物

发表时间:2025-01-10

Project Mariner 是谷歌 DeepMind 推出的浏览器助手。Project Mariner基于 Gemini 2 0 技术,用 Chrome 扩展程序实现浏览器自动化,理解和执行网页任务。Project Mariner能理解和推理浏览器屏幕上的信息,包括像素和网页元素,基于 Chrome 扩展程序使用这些信息完成任务。Project Mariner 能控制 Chrome 浏览器、移动屏幕上的光标、点击按钮和填写表格,像人类一样使用和浏览网站。

【全文阅读】
TEN Agent – 开源的实时多模态 AI 代理框架

TEN Agent – 开源的实时多模态 AI 代理框架

发表时间:2025-01-10

TEN Agent是集成OpenAI Realtime API和RTC技术的开源实时多模态AI代理框架。TEN Agent能实现语音、文本、图像的多模态交互,支持高性能的实时通信,具备低延迟的音视频交互能力。TEN Agent支持多语言和跨平台操作,支持开发者基于模块化设计轻松扩展功能,如集成视觉识别和RAG能力。

【全文阅读】
FLOAT – 基于流匹配的音频驱动说话人头像生成模型

FLOAT – 基于流匹配的音频驱动说话人头像生成模型

发表时间:2025-01-10

FLOAT是DeepBrain AI 和韩国先进科技研究院推出的音频驱动说话人头像生成模型,基于流匹配生成模型,学习运动潜在空间实现高效的时间一致性运动设计。模型基于Transformer架构的向量场预测器,实现帧间时间一致性,支持语音驱动的情感增强,让生成的说话动作更自然、富有表现力。

【全文阅读】
SynCamMaster – 快手联合浙大、清华等机构推出的多视角视频生成模型

SynCamMaster – 快手联合浙大、清华等机构推出的多视角视频生成模型

发表时间:2025-01-10

SynCamMaster是浙江大学、快手科技、清华大学和香港中文大学的研究人员共同合作推出的全球首个多视角视频生成模型,能结合6自由度相机姿势,从任意视点生成开放世界视频。SynCamMaster增强了预训练的文本到视频模型,确保不同视点的内容一致性,支持多摄像机视频生成。

【全文阅读】
STIV – 苹果公司推出的视频生成大模型

STIV – 苹果公司推出的视频生成大模型

发表时间:2025-01-10

STIV(Scalable Text and Image Conditioned Video Generation)是苹果公司推出的视频生成大模型。STIV拥有8 7亿参数,能处理文本到视频(T2V)和文本图像到视频(TI2V)任务,基于联合图像-文本分类器自由引导(JIT-CFG)提升视频生成质量。

【全文阅读】
DiffSensei – AI 漫画生成框架,能生成可控的黑白漫画面板

DiffSensei – AI 漫画生成框架,能生成可控的黑白漫画面板

发表时间:2025-01-10

DiffSensei是北京大学、上海AI实验室及南洋理工大学的研究人员共同推出的漫画生成框架,能生成可控的黑白漫画面板。DiffSensei整合基于扩散的图像生成器和多模态大型语言模型(MLLM),实现对漫画中多角色外观和互动的精确控制。

【全文阅读】
Maya – 开源多语言多模态模型,能处理和理解八种不同语言

Maya – 开源多语言多模态模型,能处理和理解八种不同语言

发表时间:2025-01-10

Maya是开源的多语言多模态模型,基于指令微调扩展模型在多种语言和文化背景下的能力。Maya基于LLaVA框架,包含新创建的包含八种语言的预训练数据集,提高视觉-语言任务中的文化和语言理解。Maya基于毒性分析和数据集过滤,确保训练数据的安全性和质量。

【全文阅读】
千影 QianYing – 巨人网络推出的有声游戏生成大模型

千影 QianYing – 巨人网络推出的有声游戏生成大模型

发表时间:2025-01-10

千影 QianYing是巨人网络推出的有声游戏生成大模型,包含游戏视频生成大模型YingGame和视频配音大模型YingSound。YingGame面向开放世界游戏,是巨人网络AI Lab与清华大学SATLab联合推出的,能实现角色多样动作交互控制和物理仿真特性,与YingSound结合可生成匹配画面的复杂音效。

【全文阅读】
Promptic – 轻量级LLM应用开发框架,通过一行代码切换不同LLM

Promptic – 轻量级LLM应用开发框架,通过一行代码切换不同LLM

发表时间:2025-01-10

Promptic是轻量级的LLM应用开发框架,提供高效且符合Python风格的开发方式。基于LiteLLM,Promptic支持开发者能轻松切换不同的LLM服务提供商,只需更改一行代码。Promptic支持流式响应、内置对话记忆、错误处理和重试,及可扩展的状态管理。

【全文阅读】
SwiftEdit – AI文本引导图像编辑框架,0.23秒内实现高质量的图像编辑

SwiftEdit – AI文本引导图像编辑框架,0.23秒内实现高质量的图像编辑

发表时间:2025-01-10

SwiftEdit是由VinAI Research团队推出的文本引导的图像编辑工具,基于创新的一步扩散技术,能在0 23秒内实现快速且高质量的图像编辑。工具的核心优势在于一步反演框架和掩码引导编辑技术,让编辑过程迅速,且能保持与文本提示的高匹配度,同时保留图像的关键背景元素。

【全文阅读】
ChatMCP – AI 聊天客户端,基于 MCP 支持多语言和自动化安装

ChatMCP – AI 聊天客户端,基于 MCP 支持多语言和自动化安装

发表时间:2025-01-10

ChatMCP 是基于模型上下文协议(MCP)的 AI 聊天客户端,支持与各种大型语言模型(LLM)如 OpenAI、Claude 和 OLLama 等进行交互。ChatMCP具备自动化安装 MCP 服务器、SSE 传输支持、自动选择服务器、聊天记录管理等功能,提供 MCP 服务器市场实现与不同数据源的聊天。

【全文阅读】
Multimodal Live API – 谷歌推出支持多模态交互、低延迟实时互动的AI接口

Multimodal Live API – 谷歌推出支持多模态交互、低延迟实时互动的AI接口

发表时间:2025-01-10

Multimodal Live API 是谷歌推出的低延迟、双向交互的AI接口,支持文本、音频和视频输入,用音频和文本形式输出,能帮助开发者构建具有实时音频和视频流功能的应用程序。Multimodal Live API让与AI的对话更加自然,支持用户随时打断AI,就像人类之间的对话一样。

【全文阅读】
CodeArena – 用于测试不同LLM编程能力的在线平台

CodeArena – 用于测试不同LLM编程能力的在线平台

发表时间:2025-01-10

CodeArena是在线平台,基于让多个大型语言模型(LLM)同时构建相同的应用程序,实时显示排名结果,比较LLM生成代码的能力。CodeArena平台主要评估和比较不同LLM的代码生成能力,帮助开发者选择适合的LLM,推动LLM技术的发展。

【全文阅读】
Phi-4 – 微软推出的14B参数小语言模型,擅长数学等领域的复杂推理

Phi-4 – 微软推出的14B参数小语言模型,擅长数学等领域的复杂推理

发表时间:2025-01-10

Phi-4是微软推出的14亿参数小型语言模型,在数学等领域的复杂推理以及传统语言处理方面表现出色。Phi-4用数据质量为核心训练重点,大量融入合成数据,提升模型在STEM问答和数学竞赛问题上的表现。Phi-4引入新的训练范式midtraining,增强长文本处理能力,窗口长度可达16K。

【全文阅读】
Insight-V – 提升长链视觉推理能力的多模态模型

Insight-V – 提升长链视觉推理能力的多模态模型

发表时间:2025-01-10

Insight-V是南洋理工大学、腾讯公司和清华大学的研究者们共同推出的多模态模型,能提升多模态大型语言模型在长链视觉推理方面的能力。基于可扩展的数据生成流程生产高质量的推理数据,采用多智能体系统将视觉推理任务分解为推理和总结两个步骤,结合两阶段训练流程,显著提高模型在视觉推理基准测试中的表现。

【全文阅读】
SVDQuant – MIT 推出的扩散模型后训练量化技术

SVDQuant – MIT 推出的扩散模型后训练量化技术

发表时间:2025-01-10

SVDQuant是MIT研究团队推出的后训练量化技术,针对扩散模型,将模型的权重和激活值量化至4位,减少内存占用加速推理过程。SVDQuant引入高精度的低秩分支吸收量化过程中的异常值,在保持图像质量的同时,实现在16GB 4090 GPU上3 5倍的显存优化和8 7倍的延迟减少。

【全文阅读】
Meta Motivo – Meta 推出控制数字智能体动作的人工智能模型

Meta Motivo – Meta 推出控制数字智能体动作的人工智能模型

发表时间:2025-01-10

Meta Motivo 是 Meta 公司推出的AI模型,能提升元宇宙体验的真实性。Meta Motivo基于控制虚拟人形智能体的全身动作,模拟人类行为,增强用户互动。模型采用无监督强化学习算法,特别是FB-CPR算法,用大量动作数据进行预训练,无需额外训练即可执行动作轨迹跟踪、姿势到达等多种任务。

【全文阅读】
Step-1o – 阶跃星辰推出的国内首个千亿参数端到端语音大模型

Step-1o – 阶跃星辰推出的国内首个千亿参数端到端语音大模型

发表时间:2025-01-10

Step-1o是阶跃星辰推出的国内首个千亿参数端到端语音大模型。模型支持语音、文本等混合形式的输入和输出,可以快速反应并随时打断,提供最便捷的互动体验;同时还可以通过自学和优化来不断进步。

【全文阅读】
360gpt2-o1 – 360 推出国产自研 AI 大模型,多项评测优于GPT-4o

360gpt2-o1 – 360 推出国产自研 AI 大模型,多项评测优于GPT-4o

发表时间:2025-01-09

360gpt2-o1 是 360 自研的 AI 大模型,在推理能力上有显著提升,特别是在数学和逻辑推理任务上表现出色。模型通过合成数据优化、模型后训练和“慢思考”范式实现了技术突破,在多项权威评测中取得了优异成绩。

【全文阅读】
POINTS 1.5 – 腾讯微信推出的多模态大模型

POINTS 1.5 – 腾讯微信推出的多模态大模型

发表时间:2025-01-09

POINTS 1 5 是腾讯微信发布的多模态大模型,是POINTS 1 0的升级版本。 模型继续沿用了POINTS 1 0中的LLaVA架构,由一个视觉编码器、一个投影器和一个大型语言模型组成。 POINTS 1 5在效率和性能上都进行了增强,特别是在全球10B以下开源模型的排名中,POINTS 1 5-7B位居榜首,超越了其他业界领先的模型,如Qwen2-VL、InternVL2和MiniCPM-V-2 5等。

【全文阅读】