AI教程资讯

QVQ – 阿里通义开源的视觉推理模型

QVQ – 阿里通义开源的视觉推理模型

发表时间:2025-01-06

QVQ是阿里基于Qwen2-VL-72B构建的开源多模态推理模型,结合视觉理解和复杂问题解决能力,提升人工智能的认知能力。QVQ在视觉推理任务中展现出增强的能力,尤其在需要复杂分析思维的领域表现出色。QVQ在MMMU评测中取得了70 3的高分,在各项数学相关基准测试中相比Qwen2-VL-72B-Instruct 有显著提升。

【全文阅读】
Open Notebook – 开源 AI 笔记工具,自动将多格式笔记转换成博客

Open Notebook – 开源 AI 笔记工具,自动将多格式笔记转换成博客

发表时间:2025-01-06

Open Notebook是开源、注重隐私的谷歌NotebookLM替代工具,能帮助用户管理研究工作流程,生成AI辅助笔记,并与内容互动。Open Notebook支持多笔记本、多模型,包括Open AI、Anthropic等,能处理多种文件格式,提供播客生成器、集成搜索引擎和细粒度上下文管理等功能。

【全文阅读】
PC Agent – 上海交大联合 GAIR 推出的电脑智能体AI系统

PC Agent – 上海交大联合 GAIR 推出的电脑智能体AI系统

发表时间:2025-01-06

PC Agent是上海交通大学和Generative AI Research Lab (GAIR)联合推出的先进AI系统。系统基于模拟人类认知过程,执行如组织研究材料、起草报告和创建演示文稿等复杂数字工作。PC Agent集成了PC Tracker用在高效收集人机交互数据,用两阶段认知完成流程将原始数据转化为认知轨迹。

【全文阅读】
Midscene.js – AI驱动的 UI 自动化测试框架

Midscene.js – AI驱动的 UI 自动化测试框架

发表时间:2025-01-06

Midscene js是基于AI技术的自动化SDK,通过用大型语言模型(LLM)简化UI自动化测试中的命令。用户用自然语言描述交互步骤或预期数据格式,Midscene js将执行相应的操作。Midscene js支持执行动作、查询数据和页面断言,减少脚本维护成本,提供可视化报告。

【全文阅读】
ASAL – Sakana AI 联合 OpenAI 等推出使用基础模型搜索人工生命的系统

ASAL – Sakana AI 联合 OpenAI 等推出使用基础模型搜索人工生命的系统

发表时间:2025-01-06

ASAL(Automated Search for Artificial Life)是用基础模型自动化搜索人工生命(ALife)系统。ASAL是Sakana AI及MIT、OpenAI等机构联合推出的,主要基于三种搜索机制实现:有监督目标搜索、开放式搜索和照明式搜索。

【全文阅读】
Browser Use – AI 浏览器助手,自动执行网页中的交互任务

Browser Use – AI 浏览器助手,自动执行网页中的交互任务

发表时间:2025-01-06

Browser Use是专门为大语言模型服务的智能浏览器工具,创新的Python工具库,让AI代理能像人类一样自然地浏览和操作网页。Browser Use支持多标签页管理、视觉识别、内容提取,并能记录和重复执行特定动作。

【全文阅读】
TRELLIS – 微软联合清华和中科大推出的高质量 3D 生成模型

TRELLIS – 微软联合清华和中科大推出的高质量 3D 生成模型

发表时间:2025-01-06

TRELLIS是清华大学、中国科学技术大学和微软研究院推出的3D生成模型,基于Structured LATent(SLAT)表示法,从文本或图像提示中生成高质量、多样化的3D资产。模型融合稀疏的3D网格结构和从多视角提取的密集视觉特征,全面捕捉3D资产的几何和外观信息。

【全文阅读】
WiS – 淘天联合阿里研究团队推出的多智能体博弈游戏平台

WiS – 淘天联合阿里研究团队推出的多智能体博弈游戏平台

发表时间:2025-01-06

WiS(Who is Spy)是淘天集团和阿里的技术研究团队推出的创新在线AI竞赛平台,专门设计用在测试和分析基于大型语言模型(LLMs)的多智能体系统(MAS)。WiS模拟“谁是卧底”游戏,参与者分为“卧底”和“平民”,基于描述各自手中的关键词互相识别。

【全文阅读】
DRT-o1 – 腾讯研究院推出的文学翻译系列AI模型

DRT-o1 – 腾讯研究院推出的文学翻译系列AI模型

发表时间:2025-01-06

DRT-o1是腾讯研究院推出的一系列AI模型,通过长链思考推理(CoT)技术显著提升了文学作品的翻译质量,尤其在处理比喻和隐喻等修辞手法时。模型能更深入地理解文本,保留原文的情感色彩和文化内涵。

【全文阅读】
FastExcel – 开源的高性能 Excel 处理工具

FastExcel – 开源的高性能 Excel 处理工具

发表时间:2025-01-06

FastExcel是基于Java的开源库,提供快速、简洁且能解决大文件内存溢出问题的Excel处理工具。FastExcel兼容EasyExcel,提供性能优化、bug修复,新增如读取指定行数和转换为PDF功能。

【全文阅读】
FinRobot – 开源 AI Agent 平台,解决金融领域应用的综合解决方案

FinRobot – 开源 AI Agent 平台,解决金融领域应用的综合解决方案

发表时间:2025-01-06

FinRobot是开源的AI代理平台,专注于金融领域的应用。基于大型语言模型(LLMs)来构建能进行复杂分析和决策的金融专业AI代理。平台通过金融思维链(CoT)提示功能,将难题分解成逻辑步骤,增强分析能力。

【全文阅读】
DeepSeek V3 – DeepSeek开源的最新版 AI 模型,编程能力超越Claude

DeepSeek V3 – DeepSeek开源的最新版 AI 模型,编程能力超越Claude

发表时间:2025-01-06

DeepSeek V3是知名私募巨头幻方量化旗下人工智能公司深度求索(DeepSeek)开源的最新版AI模型,在多语言编程能力上的进步显著。在aider多语言编程测评中的表现超越了Claude 3 5 Sonnet V2等竞争对手。DeepSeek V3采用了高达6850亿参数的混合专家(MoE)架构,包含256个专家,使用sigmoid路由方式,每次选取前8个专家参与计算,模型能更高效地处理复杂任务。

【全文阅读】
3DHM – 3D人体动作生成框架,单张图片生成任意视频动作

3DHM – 3D人体动作生成框架,单张图片生成任意视频动作

发表时间:2025-01-06

3DHM(3D Human Motions)是先进的3D人体动作生成技术,加州大学伯克利分校的研究人员推出。能从单张人物照片生成具有3D控制的动态人体视频,实现从静态图像到动态视频的转变。技术通过学习人体不可见部分的先验知识,结合给定的3D运动序列,渲染出具有适当服装和纹理的新身体姿势。

【全文阅读】
Diff-Instruct – 从预训练扩散模型中迁移知识的通用框架

Diff-Instruct – 从预训练扩散模型中迁移知识的通用框架

发表时间:2025-01-06

Diff-Instruct是先进的知识转移方法,用于从预训练的扩散模型中提取知识,指导其他生成模型的训练。它基于一种新的散度度量——积分Kullback-Leibler (IKL) 散度,专为扩散模型设计,通过计算沿扩散过程的KL散度积分来比较分布。

【全文阅读】
VidTok – 微软开源的视频分词器,支持连续和离散分词化

VidTok – 微软开源的视频分词器,支持连续和离散分词化

发表时间:2025-01-06

VidTok(Video Tokenizer)是微软开源的先进的视频分词器,通过高效的算法将视频内容转换成一系列“视频词”。支持连续和离散分词化,具有灵活的压缩率和多样化的隐空间,适用于不同的应用场景。

【全文阅读】
Infinity – 字节跳动推出的高分辨率图像生成模型

Infinity – 字节跳动推出的高分辨率图像生成模型

发表时间:2025-01-06

Infinity是字节跳动推出的基于位级自回归建模的视觉生成模型,能根据语言指令生成高分辨率、逼真的图像。Infinity通过无限词汇量的标记器、分类器和位自纠正机制,显著提升图像生成的细节和质量,超越现有的顶级扩散模型,生成一张1024×1024的高质量图像仅需0 8秒,比SD3-Medium快2 6倍,且具有更快的推理速度。

【全文阅读】
ModernBERT – 英伟达和 HuggingFace 等机构联合开源的新一代编码器模型

ModernBERT – 英伟达和 HuggingFace 等机构联合开源的新一代编码器模型

发表时间:2025-01-06

ModernBERT是Answer AI、LightOn、约翰斯·霍普金斯大学、英伟达和HuggingFace联合推出的现代编码器-only Transformer模型,是对经典BERT模型的一次重大升级。ModernBERT在2万亿token的大规模数据上训练,支持长达8192 token的序列长度,显著提升处理长上下文的能力。

【全文阅读】
cobalt – 开源的流媒体下载工具,支持全平台视频、音频和图片下载

cobalt – 开源的流媒体下载工具,支持全平台视频、音频和图片下载

发表时间:2025-01-06

cobalt是开源的流媒体下载工具,提供纯净、简洁无广告的体验。cobalt支持全平台视频、音频和图片下载,包括主流视频网站、社交媒体和音乐平台。cobalt提供个性化设置,支持多主题切换。用户能下载高达8K的视频和多种格式的音频,cobalt能自动提取字幕,使用简单,无需注册。

【全文阅读】
CogAgent-9B – 智谱AI开源 GLM-PC 的基座模型

CogAgent-9B – 智谱AI开源 GLM-PC 的基座模型

发表时间:2025-01-06

CogAgent-9B是基于 GLM-4V-9B 训练的专用Agent任务模型,仅依赖屏幕截图作为输入,无需HTML等文本表征。CogAgent-9B支持高分辨率图像处理,具备双语(中英文)交互能力,能预测并执行GUI操作,实现自动化任务。

【全文阅读】
AGUVIS – 香港大学联合 Salesforce 推出统一纯视觉的GUI自动化框架

AGUVIS – 香港大学联合 Salesforce 推出统一纯视觉的GUI自动化框架

发表时间:2025-01-06

AGUVIS是香港大学、Salesforce 联合推出的统一的纯视觉框架,专为自主GUI智能体设计,能在各种平台(如网页、桌面、移动设备)上操作。AGUVIS基于图像观察和自然语言指令与视觉元素的关联,采用一致的动作空间实现跨平台泛化。

【全文阅读】