一站式高效AI工具教程资讯平台-六六导航站

AI教程资讯

DynamicControl – 腾讯优图联合南洋理工等机构推出的动态条件控制图像生成新框架

发表时间：2025-01-03

DynamicControl是腾讯优图联合南洋理工、浙大等研究机构推出的集成多模态大语言模型（MLLM）推理能力的文本生成图像（T2I）任务新框架。DynamicControl通过自适应地选择不同条件，实现了动态多控制对齐，显著增强了图像生成的可控性，同时保持了图像质量和图像文本对齐。

【全文阅读】

VideoPhy – UCLA 联合谷歌推出评估视频生成模型物理常识能力的基准测试

发表时间：2025-01-03

VideoPhy是UCLA和谷歌研究研究院联合推出的，首个评估视频生成模型物理常识能力的基准测试，能衡量模型生成的视频是否遵循现实世界的物理规则。VideoPhy基准包含688个描述物理互动的字幕，用在从多种文本到视频模型中生成视频，进行人类及自动评估。

【全文阅读】

Large Motion Model – 商汤科技联合南洋理工推出的统一多模态运动生成模型

发表时间：2025-01-02

Large Motion Model（LMM）是统一的多模态运动生成模型，是新加坡南洋理工大学S-Lab和商汤科技研究团队共同推出的。LMM能处理包括文本到运动、音乐到舞蹈等多种运动生成任务，在多个基准测试中展现出与专家模型相媲美的性能。

【全文阅读】

StereoCrafter – 腾讯开源将任意2D视频转为立体3D视频的框架

发表时间：2025-01-02

StereoCrafter是腾讯AI Lab和ARC Lab共同推出的创新框架，能将单目视频（2D视频）转换为立体3D视频，满足日益增长的3D内容需求。StereoCrafter基于深度估计、视频splatting和立体视频修复三个核心步骤，实现高保真度的2D到3D视频转换。

【全文阅读】

AgiBot World – 智元机器人开源的百万真机数据集

发表时间：2025-01-02

AgiBot World是智元机器人开源的百万真机数据集，旨在推动具身智能的发展。数据集包含八十余种日常技能，覆盖家居、餐饮、工业等五大核心场景，数据规模和质量远超谷歌的Open X-Embodiment。

【全文阅读】

GraphAgent – 港大联合港科大开源的智能图形语言助手

发表时间：2025-01-02

GraphAgent是香港大学和香港科技大学（广州）联合推出的智能图形语言助手，能处理现实世界中结构化（如图连接）和非结构化（如文本、视觉信息）格式的数据，数据包含复杂关系和相互依赖性，能用知识图谱展示。

【全文阅读】

DeepSeek Engineer – 开源AI编程助手，处理用户对话生成结构化JSON

发表时间：2025-01-02

DeepSeek Engineer 是集成DeepSeek API 的AI编程助手，基于命令行界面让用户能读取本地文件、创建新文件及实时对现有文件进行差异编辑。DeepSeek Engineer用 Pydantic 进行类型安全的文件操作，遵循系统提示确保所有回应都以 JSON 格式输出，同时支持文件的创建和编辑。DeepSeek Engineer 能帮助开发者在对话中引用文件内容，生成代码或提出差异编辑建议。

【全文阅读】

Psi R0 – 灵初智能推出的端到端具身模型

发表时间：2025-01-02

Psi R0是灵初智能发布的首个基于强化学习的端到端具身模型。支持双灵巧手协同进行复杂操作，能够将多个技能串联混训，生成具有推理能力的智能体，完成并闭环长程灵巧操作任务。

【全文阅读】

FireCrawl – 开源 AI 网络爬虫工具，擅长处理动态网页内容、自动爬取网站及子页面

发表时间：2025-01-02

FireCrawl是开源的AI爬虫工具，专门用在Web数据提取，转换为Markdown或其他结构化数据。FireCrawl具备强大的抓取能力，支持动态网页内容处理，提供智能爬取状态管理和多样的输出格式。FireCrawl集成了LLM Extract功能，用大型语言模型快速完成数据提取。

【全文阅读】

VideoVAE+ – 香港科技大学推出的先进跨模态视频变分自编码器

发表时间：2025-01-02

VideoVAE+（VideoVAE Plus）是香港科技大学团队推出的先进的跨模态视频变分自编码器（Video VAE），通过引入新的时空分离压缩机制和文本指导，实现了对大幅运动视频的高效压缩与精准重建，同时保持了良好的时间一致性和运动恢复。

【全文阅读】

Languine – 面向开发者自动化应用程序的多语言翻译 AI 工具

发表时间：2025-01-02

Languine 是 AI 驱动的翻译工具，能帮助开发者简化应用程序的开发过程。Languine 基于智能检测、AI 翻译、自动化工作流程和开发者友好的设计，让翻译管理变得高效且一致。Languine 支持超过100种语言，与多种文件格式兼容，集成版本控制系统。

【全文阅读】

Figma-Low-Code – 将Figma设计转换为Vue.js应用程序的开源项目

发表时间：2025-01-02

Figma-Low-Code是开源的项目，基于Luisa框架，支持开发者直接将Figma设计转换为Vue js应用程序。大幅减少设计师与开发者之间的交接时间，减少前端编码工作，确保Figma设计作为唯一的数据源。Figma-Low-Code支持零代码渲染设计、原型和设计系统。

【全文阅读】

AI Dev Gallery – 微软推出面向Windows开发者本地运行AI模型的开源工具

发表时间：2025-01-02

AI Dev Gallery是微软推出的开源AI工具包和示例库，集成在Visual Studio中，帮助Windows开发者轻松集成端侧AI功能。AI Dev Gallery提供超过25个交互式示例，覆盖文本、图像、音频和视频等场景，支持从GitHub和Hugging Face下载热门的开源模型，支持在本地设备上运行，实现低延迟、高隐私的AI体验。

【全文阅读】

OpenEMMA – 德克萨斯联合多伦多等大学开源的端到端自动驾驶多模态模型

发表时间：2025-01-02

OpenEMMA是德州农工大学、密歇根大学和多伦多大学共同开源的端到端自动驾驶多模态模型框架，基于预训练的多模态大型语言模型（MLLMs）处理视觉数据和复杂驾驶场景的推理。框架基于链式思维推理过程，显著提高模型在轨迹规划和感知任务中的性能。

【全文阅读】

RAG Logger – 专为检索增强生成应用设计的开源日志工具

发表时间：2025-01-02

RAG Logger是开源的日志记录工具，专为检索增强生成（RAG）应用设计。作为LangSmith的轻量级替代品，专注于满足RAG应用的日志记录需求。RAG Logger提供查询跟踪、检索结果记录、LLM交互记录和性能监控等功能，支持JSON格式的日志存储，实现每日日志组织和自动文件管理。

【全文阅读】

GLM-Zero – 智谱AI推出的深度推理模型

发表时间：2025-01-02

GLM-Zero是智谱AI基于扩展强化学习技术的推理模型，专注于提升模型的深度推理能力。擅长处理数理逻辑、代码编写和复杂问题解决，在AIME 2024、MATH500和LiveCodeBench等评测中表现优异，与 OpenAI-o1-Preview 相当。

【全文阅读】

AutoRAG – 中科院开源的自主迭代检索模型

发表时间：2025-01-02

AutoRAG是中国科学院计算技术研究所（ICT CAS）、中国科学院的人工智能安全重点实验室及中国科学院大学的研究人员共同推出的新型自主迭代检索模型，专为大型语言模型（LLMs）设计，能增强在知识密集型任务中的表现。

【全文阅读】

MarS – 微软亚洲研究院开源的金融市场模拟预测引擎

发表时间：2025-01-02

MARS（Market Simulation）是微软亚洲研究院推出的金融市场模拟预测引擎，基于生成型基础模型LMM（Large Market Model）模拟金融市场中的订单流和市场动态。MARS能创建现实、互动和可控的市场环境，用在训练交易策略、风险管理、市场影响分析和预测等金融应用，无需承担实际的财务风险。

【全文阅读】

StoryWeaver – 厦大和网易伏羲联合推出的统一故事可视化 AI 模型

发表时间：2025-01-02

StoryWeaver是厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏羲人工智能实验室推出的AI模型，能用知识增强的故事角色定制实现高质量的故事可视化。StoryWeaver用新颖的知识图谱Character Graph丰富地表示故事中的角色、属性和关系。

【全文阅读】

StockMixer – 上海交大推出的股票价格预测架构

发表时间：2025-01-02

StockMixer是上海交通大学推出的用在股票价格预测的多层感知器（MLP）架构，具备简单和强大的预测能力。架构基于指标混合、时间混合和股票混合三个步骤处理和预测股票数据，有效捕捉股票指标、时间和股票间的复杂相关性。

【全文阅读】