AI教程资讯

NodeTool – AI工作流可视化构建器,拖放节点设计复杂工作流

NodeTool – AI工作流可视化构建器,拖放节点设计复杂工作流

发表时间:2025-01-08

NodeTool是开源的AI工作流可视化构建器。NodeTool集成广泛的AI工具和模型,基于简单、可视化的界面,让用户无需编码即可快速原型设计和测试。NodeTool支持在本地GPU上运行AI模型,并与Hugging Face、OpenAI等平台的集成,提供强大的模型访问能力。

【全文阅读】
VMB – 中科院联合多所高校机构推出增强多模态音乐生成的框架

VMB – 中科院联合多所高校机构推出增强多模态音乐生成的框架

发表时间:2025-01-08

VMB(Visuals Music Bridge)是中国科学院信息工程研究所、中国科学院大学网络空间安全学院、上海人工智能实验室、上海交通大学等机构推出的多模态音乐生成框架,能从文本、图像和视频等多种输入模态生成音乐。

【全文阅读】
豆包视觉理解模型 – 豆包推出视觉理解模型,具备识别和推理能力

豆包视觉理解模型 – 豆包推出视觉理解模型,具备识别和推理能力

发表时间:2025-01-08

豆包视觉理解模型是豆包推出的先进AI大模型,具备视觉识别和理解推理能力。豆包视觉理解模型能识别图像中物体的类别、形状、纹理等,还能理解物体间的关系和场景含义,进行复杂的逻辑计算任务,如解析学术论文图表、诊断代码问题等。

【全文阅读】
豆包3D生成模型 – 豆包推出3D生成模型,自然语言交互实时生成3D场景图

豆包3D生成模型 – 豆包推出3D生成模型,自然语言交互实时生成3D场景图

发表时间:2025-01-08

豆包3D生成模型是豆包推出的3D生成模型,属于豆包大模型家族。模型基于3D-DiT 架构,能生成高质量 3D 模块。与火山引擎数字孪生平台 veOmniverse 结合使用,能高效完成智能训练、数据合成和数字资产制作,成为一套支持 AIGC 创作的物理世界仿真模拟器。

【全文阅读】
MV-Adapter – 北航联合 VAST 等开源的多视图一致图像生成模型

MV-Adapter – 北航联合 VAST 等开源的多视图一致图像生成模型

发表时间:2025-01-08

MV-Adapter是多视图一致图像生成模型,是北京航空航天大学、VAST和上海交通大学的研究团队推出的。MV-Adapter能将预训练的文本到图像扩散模型转化为多视图图像生成器,无需改变原始网络结构或特征空间。

【全文阅读】
FACTS Grounding – 谷歌推出的评估大模型能力的基准测试

FACTS Grounding – 谷歌推出的评估大模型能力的基准测试

发表时间:2025-01-08

FACTS Grounding是谷歌DeepMind推出的评估大型语言模型(LLMs)能力的基准测试,衡量模型根据给定上下文生成事实准确且无捏造信息的文本的能力。FACTS Grounding测试集包含1719个跨多个领域的示例,要求模型响应必须基于长达32000个token的文档,涵盖摘要、问答和改写等任务。

【全文阅读】
MarkItDown – 微软开源的多功能、多格式文档转Markdown工具

MarkItDown – 微软开源的多功能、多格式文档转Markdown工具

发表时间:2025-01-08

MarkItDown是微软开源的多功能文档处理工具,能将PDF、PPT、Word、Excel、图像、音频、HTML等多种格式的文件转换成Markdown格式。支持OCR文字识别、语音转文字和元数据提取,适用于内容索引、数据挖掘、文档处理等场景,极大地简化文件处理流程,提升工作效率。

【全文阅读】
EMMA-X – 新加坡科技设计大学推出的具身多模态动作模型

EMMA-X – 新加坡科技设计大学推出的具身多模态动作模型

发表时间:2025-01-08

EMMA-X是新加坡科技设计大学推出的具有70亿参数的具身多模态动作模型,在有根据的链式思维(CoT)推理数据上微调OpenVLA创建。EMMA-X结合层次化的具身数据集,包含3D空间运动、2D夹爪位置和有根据的推理,及推出一种新颖的轨迹分割策略,用夹爪的开合状态和机器人手臂的运动轨迹,增强有根据的任务推理和前瞻性空间推理。

【全文阅读】
UniReal – 港大联合 Adobe 推出的通用图像生成和编辑框架

UniReal – 港大联合 Adobe 推出的通用图像生成和编辑框架

发表时间:2025-01-08

UniReal是什么 UniReal是香港大学和Adobe研究院共同推出的框架,专注于实现多种图像生成和编辑任务。框架基于模拟现实世界动态,能在单一模型中处理包括图像生成、编辑、定制和合成在内的广泛任务。UniReal将不同

【全文阅读】
X-AnyLabeling – AI图像标注工具,支持图像和视频多样化标注样式

X-AnyLabeling – AI图像标注工具,支持图像和视频多样化标注样式

发表时间:2025-01-08

X-AnyLabeling是集成多种深度学习算法的图像标注软件,专注于提升标注效率和精度。X-AnyLabeling支持图像和视频的多样化标注样式,适配多种AI训练场景,提供图像级与对象级标签分类。软件支持主流深度学习框架的数据格式导入导出,具备跨平台兼容性,支持CPU和GPU推理。

【全文阅读】
Explorer – AI 3D世界生成模型,文本图像秒变3D渲染场景

Explorer – AI 3D世界生成模型,文本图像秒变3D渲染场景

发表时间:2025-01-08

Explorer是Odyssey公司推出的生成性世界模型,能将任何图像转化为详细的3D世界。Explorer模型擅长生成真实感世界,且支持动态效果的生成。Explorer基于高斯溅射技术来重建场景,提供几乎无法察觉的真实细节。用户能在多种创意工具中编辑由Explorer生成的世界,实现所需的创意目标。

【全文阅读】
Gemini 2.0 Flash Thinking – 谷歌推出的实验性推理模型,展示详细思考过程

Gemini 2.0 Flash Thinking – 谷歌推出的实验性推理模型,展示详细思考过程

发表时间:2025-01-08

Gemini 2 0 Flash Thinking是谷歌推出的实验性AI模型,能快速思考和解决问题。Gemini 2 0 Flash Thinking展示详细的思考过程,与OpenAI的o1模型不同,Gemini 2 0 Flash Thinking提供结果,展示推理路径。

【全文阅读】
Genesis – CMU 联合 20 多所研究机构开源的生成式物理引擎

Genesis – CMU 联合 20 多所研究机构开源的生成式物理引擎

发表时间:2025-01-08

Genesis是卡内基梅隆大学、马里兰大学、斯坦福大学、麻省理工学院等研究机构联合推出的开源生成式物理引擎,能模拟世界万物。Genesis能用简单的语言描述,快速生成精确的物理模拟,包括物体运动、人物动作和机器人策略等。

【全文阅读】
AniDoc – 2D动画上色AI模型,基于视频扩散模型自动将草图序列转换成彩色动画

AniDoc – 2D动画上色AI模型,基于视频扩散模型自动将草图序列转换成彩色动画

发表时间:2025-01-08

AniDoc是香港科技大学、蚂蚁集团、南京大学、浙江大学和香港大学共同推出的简化2D动画上色AI模型,基于视频扩散模型自动将草图序列转换成彩色动画,遵循参考角色设计。模型用对应匹配技术处理角色设计与草图之间的差异,实现色彩和风格的准确传递。

【全文阅读】
ElevenLabs Flash – ElevenLabs推出的低延迟语音合成模型

ElevenLabs Flash – ElevenLabs推出的低延迟语音合成模型

发表时间:2025-01-08

ElevenLabs Flash是ElevenLabs推出的低延迟语音合成模型,专为快速对话型AI设计。ElevenLabs Flash有两个版本:Flash v2仅支持英语,Flash v2 5支持32种语言。ElevenLabs Flash模型以每两个字符消耗1信用点的成本提供服务,音质和情感深度略低于Turbo模型,延迟显著降低。

【全文阅读】
OpenAI o3 – OpenAI推出的新一代最强推理模型

OpenAI o3 – OpenAI推出的新一代最强推理模型

发表时间:2025-01-08

OpenAI o3模型是继o1之后的新一代推理模型,包括o3和o3-mini两个版本。o3在某些条件下接近于通用人工智能(AGI),在ARC-AGI基准测试中得分高达87 5%,远超人类平均水平。它在数学和编程任务中表现出色,在2024年美国数学邀请赛(AIME)中得分96 7%,在Codeforces评级中达到2727分。o3能够自我事实核查,通过“私人思维链”进行推理,提高答案的准确性。

【全文阅读】
StyleStudio – 文本驱动的风格迁移模型,能将参考图像的风格与文本提示内容融合

StyleStudio – 文本驱动的风格迁移模型,能将参考图像的风格与文本提示内容融合

发表时间:2025-01-08

StyleStudio是西湖大学AI实验室、复旦大学、南洋理工大学和香港科技大学(广州)联合推出的,文本驱动的风格迁移模型,能将参考图像的风格与文本提示的内容融合。StyleStudio基于三种策略解决风格过拟合、控制限制和文本错位问题:跨模态AdaIN机制增强风格与文本特征整合;基于风格的分类器自由引导(SCFG)支持选择性控制风格元素;及教师模型用在早期生成阶段稳定空间布局,减少伪影。

【全文阅读】
RWKV-7 – RWKV系列的最新大模型架构版本,有强大的上下文学习能力

RWKV-7 – RWKV系列的最新大模型架构版本,有强大的上下文学习能力

发表时间:2025-01-08

RWKV-7是RWKV系列的最新大模型架构版本,超越了传统的attention和linear attention范式,具有更灵活的状态演化能力,能在相同算力消耗下解决attention无法解决的问题。

【全文阅读】
PromptWizard – 微软开源的 AI 提示词自动化优化框架

PromptWizard – 微软开源的 AI 提示词自动化优化框架

发表时间:2025-01-08

PromptWizard是微软推出的自动化提示优化框架,改进大型语言模型(LLMs)在特定任务中的表现。基于自我演变和自我适应机制,PromptWizard用反馈驱动的批评和合成过程,在探索和利用之间找到平衡,迭代地优化提示指令和上下文示例,提高模型的准确性和效率,减少API调用和令牌使用,降低成本。

【全文阅读】
INFP – 音频驱动的生成逼真面部表情和头部姿态的AI框架

INFP – 音频驱动的生成逼真面部表情和头部姿态的AI框架

发表时间:2025-01-07

INFP是音频驱动的头部生成框架,专为双人对话交互设计。能自动在对话音频引导下进行角色的转换,无需手动分配角色和角色切换。INFP包括两个阶段:基于动作头部模仿阶段和音频引导动作生成阶段,通过实验和可视化展示,验证了INFP方法的卓越性能和有效性。

【全文阅读】