AI教程资讯
-
OOTDiffusion – 开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
发表时间:2025-01-13
OOTDiffusion是开源的AI虚拟试衣工具,能智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。OOTDiffusion支持半身和全身试穿模式,用户上传自己的模特和服装图片,实现高度自定义的试穿体验。
【全文阅读】
-
Willow 量子芯片 – 谷歌推出的最强量子芯片,成功解决30年纠错难题
发表时间:2025-01-13
Willow 量子芯片是谷歌最新推出的具有105个物理量子比特,在量子纠错和计算效率上取得了显著突破。Willow成功解决了量子计算领域近30年的纠错难题,实现了在增加量子比特数量的同时,显著降低错误率。
【全文阅读】
-
GenMAC – 港大、清华联合微软推出文本到视频生成的多代理协作框架
发表时间:2025-01-13
GenMAC是香港大学、清华大学和微软研究院推出的多代理协作的迭代框架,用在解决文本到视频生成中的复杂场景生成问题。基于将任务分解为设计、生成和重新设计三个阶段,在生成与重新设计之间建立迭代循环,逐步验证和优化视频内容。
【全文阅读】
-
Amurex – 开源AI会议助手,提供实时建议、智能摘要、快速回顾关键信息
发表时间:2025-01-13
Amurex是AI会议助手,基于实时建议、智能摘要、关键要点提取、迟到加入回顾和完整会议记录等功能,帮助用户提升会议效率。作为开源工具,Amurex强调透明度、安全性和隐私保护,让用户对数据的处理更放心。
【全文阅读】
-
易健EasyHealth – 北大健康推出的 AI 健康科普应用
发表时间:2025-01-13
易健EasyHealth是北京大学健康传播专业师生推出的微信小程序,基于大语言模型技术打造的健康科普智能问答系统。程序提供AI智能问答、情感智能算法、健康档案管理、健康数据分析和个性化健康咨询等功能,帮助用户根据个人健康状况定制健康信息。
【全文阅读】
-
See3D – 智源研究院开源的无标注视频学习3D生成模型
发表时间:2025-01-13
See3D(See Video, Get 3D)是北京智源人工智能研究院推出的3D生成模型,能基于大规模无标注的互联网视频进行学习,实现从视频中生成3D内容。与传统依赖相机参数的3D生成模型不同,See3D采用视觉条件技术,仅通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。
【全文阅读】
-
VISION XL – AI视频修复处理工具,修复缺失、支持四倍超分辨率
发表时间:2025-01-13
VISION XL是高效的视频修复和超分辨率工具,基于潜在扩散模型技术,专注于解决高清视频的逆问题。工具能修复视频缺失部分、去除模糊,显著提升视频清晰度,最高可达四倍超分辨率。
【全文阅读】
-
SPDL – Meta AI 推出的开源高性能AI模型数据加载解决方案
发表时间:2025-01-13
SPDL(Scalable and Performant Data Loading)是 Meta AI 推出的开源数据加载工具,能提高 AI 模型训练效率。基于多线程技术,实现高吞吐量数据加载,减少计算资源消耗。与传统基于进程的方法相比,SPDL 提升2-3倍的吞吐量,与 Free-Threaded Python 兼容,能在禁用 GIL 的环境中进一步提升30%的性能。
【全文阅读】
-
CausVid – Adobe 联合 MIT 推出的自回归实时视频生成技术
发表时间:2025-01-13
CausVid是Adobe和MIT共同推出的自回归实时视频生成技术,能实现视频的即时播放。基于蒸馏预训练的双向扩散模型构建出自回归生成模型,减少视频生成的延迟,首帧延迟仅1 3秒,生成速度达到9 4帧 秒。CausVid突破传统视频生成模型的限制,支持多种应用。
【全文阅读】
-
ClotheDreamer – 上海大学联合腾讯等高校推出的3D服装生成技术
发表时间:2025-01-13
ClotheDreamer是上海大学、上海交通大学、复旦大学和腾讯优图实验室共同推出的3D服装生成技术,能根据文本描述生成高保真、可穿戴的3D服装资产。ClotheDreamer用3D高斯为基础,基于Disentangled Clothe Gaussian Splatting (DCGS) 实现服装与人体分离优化,用双向Score Distillation Sampling (SDS) 提升服装渲染质量。
【全文阅读】
-
Director – 构建视频智能体AI框架,用自然语言执行搜索、总结等复杂视频任务
发表时间:2025-01-13
Director是构建视频智能体的框架,用户能用自然语言命令执行复杂的视频任务,如视频搜索、编辑、合成和生成,并能即时流式传输结果。基于VideoDB的“视频即数据”基础设施,Director集成多个预构建的视频代理和AI API,提供基于聊天的用户界面,与视频内容的交互变得直观便捷。
【全文阅读】
-
DeepSeek-V2.5-1210 – DeepSeek V2.5 的最终版微调模型,支持联网搜索
发表时间:2025-01-13
DeepSeek-V2 5-1210是DeepSeek 推出的 DeepSeek V2 系列收官AI模型,DeepSeek V2 5 的最终版微调模型。模型基于Post-Training迭代,在数学、编程、写作和角色扮演等方面实现能力提升(DeepSeek-V2 5-1210 在数学任务的完成率提升至82 8%,在实时编码得分提高至34 38%)。
【全文阅读】
-
EXAONE 3.5 – LG 推出的开源AI模型,擅长长文本处理降低模型幻觉问题
发表时间:2025-01-13
EXAONE 3 5是LG AI研究院推出的开源AI模型,包含24亿、78亿和320亿参数的三个版本。EXAONE 3 5擅长长文本处理,在基准测试中表现优异,特别是在实际应用、长文本处理和数学方面。模型采用检索增强生成技术和多步推理能力,有效降低错误信息,提高准确性。
【全文阅读】
-
DrivingDojo – 中科院联合美团推出的交互式驾驶世界模型数据集
发表时间:2025-01-13
DrivingDojo是中国科学院自动化研究所与美团无人车团队合作推出的数据集,用在训练和研究复杂的自动驾驶交互式世界模型。数据集包含18,000个视频片段,覆盖完整的驾驶操作、多智能体交互以及丰富的开放世界驾驶知识,为开发下一代自动驾驶模型提供了坚实的基础。
【全文阅读】
-
FineWeb 2 – Hugging Face推出的多语言预训练数据集
发表时间:2025-01-13
FineWeb 2是Hugging Face推出的多语言预训练数据集,覆盖超过1000种语言。FineWeb 2基于定制化的数据管道处理,包括语言识别、去重、内容过滤和PII匿名化,适应不同语言的特点。FineWeb 2数据集支持广泛的NLP任务,如机器翻译、文本分类等,帮助提升多语言模型的性能和泛化能力。
【全文阅读】
-
Gemini 2.0 – 谷歌推出的原生多模态输入输出 + Agent 为核心的AI模型
发表时间:2025-01-13
Gemini 2 0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini 2 0 Flash是2 0家族第一个模型,以多模态输入输出和Agent技术为核心,速度比 1 5 Pro快两倍,关键性能指标超过 1 5 Pro。模型支持原生工具调用和实时音视频流输入,提供文本、音频和图像的集成响应,具备多语言音频输出能力。
【全文阅读】
-
书生·万象InternVL 2.5 – 上海 AI Lab 开源的多模态大语言模型系列
发表时间:2025-01-10
书生·万象InternVL 2 5是上海AI实验室的OpenGVLab团队推出的开源多模态大型语言模型(MLLM)系列。该系列模型在InternVL 2 0的基础上进行显著增强,特别是在训练和测试策略及数据质量方面。
【全文阅读】
-
ChatTTSPlus – 开源文本转语音工具,ChatTTS扩展版支持语音克隆
发表时间:2025-01-10
ChatTTSPlus是ChatTTS的扩展版本,基于集成TensorRT加速、语音克隆和移动模型部署等先进技术,提升语音合成的性能和灵活性。在Windows平台上,能实现超过3倍的加速,从28 tokens s提升到110 tokens s,极大地提高处理速度。
【全文阅读】
-
MMAudio – 基于多模态联合训练实现高质量 AI 音频合成项目
发表时间:2025-01-10
MMAudio是先进视频到音频合成技术,基于多模态联合训练,让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块,确保生成的音频与视频帧精确匹配,实现高度同步。
【全文阅读】
-
Ultravox – 端到端多模态大模型,直接理解文本和人类语音
发表时间:2025-01-10
Ultravox是新型的多模态大型语言模型(LLM),能直接理解文本和人类语音,无需依赖单独的自动语音识别(ASR)阶段。基于多模态投影器技术将音频数据转换为高维空间表示,与LLM直接耦合,显著减少处理延迟,提高响应速度。
【全文阅读】