AI教程资讯

Enhance-A-Video – 上海AI Lab 联合新加坡国立等推出的视频生成质量增强算法

Enhance-A-Video – 上海AI Lab 联合新加坡国立等推出的视频生成质量增强算法

发表时间:2025-01-06

Enhance-A-Video 是新加坡国立大学、上海人工智能实验室和德克萨斯大学奥斯汀分校联合推出的视频生成增强算法。算法能够显著提升AI视频的生成质量,特别是在对比度、清晰度以及细节真实性上有显著改进。

【全文阅读】
Valley – 字节跳动推出的多模态大模型

Valley – 字节跳动推出的多模态大模型

发表时间:2025-01-03

Valley是字节跳动推出的多模态大模型,用于处理涉及文本、图像和视频数据的多样化任务。Valley在内部电子商务和短视频基准测试中取得了最佳成绩,并在OpenCompass测试中展现出色性能,尤其是在小于10B参数规模的模型中排名第二。

【全文阅读】
联通元景 – 中国联通AI开源的中文原生文生图模型

联通元景 – 中国联通AI开源的中文原生文生图模型

发表时间:2025-01-03

联通元景(UniT2IXL)是中国联通AI推出的中文原生文生图模型,完全在国产昇腾AI基础软硬件平台上实现训练和推理。模型采用复合语言编码模块,优化中文长文本和特色词汇理解,提升图像生成质量。

【全文阅读】
DiTCtrl – 港中文联合腾讯等机构推出的多提示视频生成方法

DiTCtrl – 港中文联合腾讯等机构推出的多提示视频生成方法

发表时间:2025-01-03

DiTCtrl是基于多模态扩散变换器(MM-DiT)架构的多提示视频生成方法,是香港中文大学和腾讯等机构联合推出的。DiTCtrl能在无需额外训练的情况下,实现多个文本提示之间的连贯视频生成,并保持内容和运动的一致性。

【全文阅读】
MNN – 阿里开源的移动端深度学习推理框架

MNN – 阿里开源的移动端深度学习推理框架

发表时间:2025-01-03

MNN(Mobile Neural Network)是阿里巴巴集团开源的轻量级深度学习推理框架,为移动端、服务器、个人电脑、嵌入式设备等多种设备提供高效的模型部署能力。MNN支持TensorFlow、Caffe、ONNX等主流模型格式,兼容CNN、RNN、GAN等多种网络结构。

【全文阅读】
启元重症大模型 – 腾讯和迈瑞医疗联合推出的重症医疗大模型

启元重症大模型 – 腾讯和迈瑞医疗联合推出的重症医疗大模型

发表时间:2025-01-03

启元重症大模型是腾讯和迈瑞医疗联合发布的全球首个重症医疗大模型,专为ICU病房设计,解决重症监护中的痛点问题。模型整体参数量达到万亿级别,经过大量医学文本数据训练,涵盖285万医学实体、1250万医学关系,覆盖98%医学知识的医学知识图谱和医学文献。

【全文阅读】
Poetry2Image – 专为中文古诗词图像生成设计的迭代校正框架

Poetry2Image – 专为中文古诗词图像生成设计的迭代校正框架

发表时间:2025-01-03

Poetry2Image是一个专为中文古诗词图像生成设计的迭代校正框架,哈尔滨工业大学提出。框架通过自动化的反馈和校正循环,增强了诗歌与图像之间的一致性,有效捕捉诗歌的语义和艺术精髓。解决文本到图像生成模型在处理中文古典诗歌时常见的关键元素丢失或语义混淆问题。

【全文阅读】
PeterCat – AI问答机器人,自动抓取 GitHub 上的文档和 issue 作为知识库

PeterCat – AI问答机器人,自动抓取 GitHub 上的文档和 issue 作为知识库

发表时间:2025-01-03

PeterCat是开源的智能答疑机器人助手。PeterCat能帮助开发者和社区维护者更高效地解决技术问题,提升社区支持效率。PeterCat基于自动构建知识库,能与GitHub的issue、PR和Discussion进行互动,提供对话式答疑服务。

【全文阅读】
PartGen – 牛津大学联合 Meta AI 推出的3D对象生成和重建框架

PartGen – 牛津大学联合 Meta AI 推出的3D对象生成和重建框架

发表时间:2025-01-03

PartGen是先进的3D对象生成和重建框架,是牛津大学的视觉几何小组和Meta AI共同推出的。PartGen能识别并生成由有意义部分组成的3D对象,3D对象能基于文本提示、图像或现有的3D模型生成。PartGen用多视图扩散模型自动提取和重建3D对象的各个部分,同时考虑上下文确保组件之间的正确配合。

【全文阅读】
Vision Parse – 开源的 PDF 转 Markdown 工具

Vision Parse – 开源的 PDF 转 Markdown 工具

发表时间:2025-01-03

Vision Parse是开源的PDF文档转换工具,基于视觉语言模型(Vision LLMs)将PDF文件转换成Markdown格式。Vision Parse能智能识别和提取PDF中的文本和表格,且保持原有的格式和结构。Vision Parse支持多种视觉语言模型,如OpenAI、LLama、Gemini等,来提高解析的准确性和速度。

【全文阅读】
The Language of Motion – 斯坦福李飞飞团队推出的统一多模态语言模型

The Language of Motion – 斯坦福李飞飞团队推出的统一多模态语言模型

发表时间:2025-01-03

The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言模型,能整合人类动作中的言语和非言语语言。模型能处理文本、语音和动作数据,生成对应的目标模态,对于创建自然交流的虚拟角色至关重要。

【全文阅读】
Mathtutor on Groq – AI数学辅导工具,支持用语音形式提出数学问题

Mathtutor on Groq – AI数学辅导工具,支持用语音形式提出数学问题

发表时间:2025-01-03

Mathtutor on Groq 是基于 Groq 架构的AI数学辅导工具,基于语音识别功能,支持用户用语音形式提出数学问题。工具内置强大的数学引擎,能实时计算并用 LaTeX 格式渲染出详细的解题过程和答案,极大地提升学习效率和交互性。

【全文阅读】
VE-Bench – 北京大学开源首个针对视频编辑质量评估的新指标

VE-Bench – 北京大学开源首个针对视频编辑质量评估的新指标

发表时间:2025-01-03

VE-Bench 是北京大学的研究团队 MMCAL 最近发布首个专门针对视频编辑质量评估的指标。VE-Bench 的设计目标是与人类感知能力高度一致,更准确地评估视频编辑效果。VE-Bench QA 在评估编辑视频时,不仅考虑了传统视频质量评估方法强调的审美、失真等视觉质量指标,还专注于文本与视频的对齐以及源视频与编辑后视频之间的相关性建模。

【全文阅读】
EDTalk – 上海交大联合网易推出高效解耦的情感说话头像合成模型

EDTalk – 上海交大联合网易推出高效解耦的情感说话头像合成模型

发表时间:2025-01-03

EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型,能实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一段音频和参考视频,就能驱动图片中的人物说话,支持自定义情感,如高兴、愤怒、悲伤等。

【全文阅读】
video-analyzer – AI 视频分析工具,提取视频关键帧、生成视频详细描述

video-analyzer – AI 视频分析工具,提取视频关键帧、生成视频详细描述

发表时间:2025-01-03

video-analyzer是开源的视频分析工具,结合Llama的11B视觉模型和OpenAI的Whisper模型来提取视频关键帧、转录音频内容,并生成视频的详细描述。工具支持完全本地运行,无需云服务或API密钥,或用OpenRouter的LLM服务提高处理速度和扩展性。

【全文阅读】
SPAR – 智谱团队推出的自我博弈训练框架

SPAR – 智谱团队推出的自我博弈训练框架

发表时间:2025-01-03

SPAR是智谱团队推出的自我博弈框架,能增强大型语言模型在遵循指令方面的能力。框架基于内部的生成者和完善者两个角色进行互动,生成者执行指令生成回复,完善者对回复进行分析和改进。SPAR基于树搜索技术精细化和优化回复,排除无关的干扰因素,从而突出对指令遵循至关重要的关键差异。

【全文阅读】
LowCodeEngine – 阿里开源的低代码开发框架

LowCodeEngine – 阿里开源的低代码开发框架

发表时间:2025-01-03

LowCodeEngine是阿里巴巴开源的低代码开发框架,基于提供拖拽、配置等简单操作,让开发者快速构建复杂的系统页面。框架以强大的定制能力、优雅的开发体验、丰富的API和插件支持而著称,能满足各种复杂的业务场景需求

【全文阅读】
Qwen-Agent – 阿里通义开源的 Agent 应用开发框架

Qwen-Agent – 阿里通义开源的 Agent 应用开发框架

发表时间:2025-01-03

Qwen-Agent是基于通义千问模型(Qwen)的开源Agent开发框架,支持开发者用Qwen模型的指令遵循、工具使用、规划和记忆能力构建智能代理应用。Qwen-Agent支持函数调用、代码解释器和RAG(检索增强生成)等功能,能处理从8K到100万tokens的文档,超越传统长上下文模型。

【全文阅读】
Mind GPT-3o – 理想汽车推出的多模态端到端大模型

Mind GPT-3o – 理想汽车推出的多模态端到端大模型

发表时间:2025-01-03

Mind GPT-3o是理想汽车推出的多模态端到端大模型,融合语音、视觉和语言理解技术,实现高效实时交互。Mind GPT-3o具备记忆、规划、工具使用和表达能力,能提升用户认知、完成任务并提供情感支持。

【全文阅读】
琅琊 – 中国科学院海洋研究所自主研发的海洋大模型1.0版本

琅琊 – 中国科学院海洋研究所自主研发的海洋大模型1.0版本

发表时间:2025-01-03

琅琊是中国科学院海洋研究所自主研发的新一代海洋人工智能大模型1 0版本,专注于海洋状态变量预报。模型结合了先进的人工智能算法和专业的海洋科学知识,能实现对全球海洋状态变量的中短期高精度预报。

【全文阅读】