首页
抖音
B站
老司机
热门
网络
投稿
首页
抖音
B站
老司机
热门
网络
互联网梗百科
Qwen3-ASR
Qwen3-ASR 是阿里云通义千问团队开源的系列语音识别模型,包含 1.7B 高精度版、0.6B 高效版两个 ASR 模型,以及专用的 Qwen3-ForcedAligner-0.6B 强制对齐模型...
查看更多
yuki亭
02-03
MOVA
MOVA(MOSS Video and Audio)是上海创智学院OpenMOSS团队与模思智能(MOSI)联合推出的,中国首个高性能开源音视频端到端生成模型。模型突破传统视频”静音”局限,采用异构双...
查看更多
芝麻对辣会限
02-03
SenseNova-MARS
SenseNova-MARS是商汤科技开源的多模态自主推理模型,提供8B和32B两种参数规模。作为首个支持动态视觉推理与图文搜索深度融合的Agentic VLM,模型能像智能体一样自主规划任务步骤,灵...
查看更多
audreyxxx
02-03
UnifoLM-VLA-0
UnifoLM-VLA-0 是宇树科技开源的通用视觉-语言-动作(VLA)大模型,基于 Qwen2.5-VL-7B 架构进行持续预训练。模型通过融合 2D/3D 空间感知、轨迹预测等多维监督信号,实现...
查看更多
糖心小包子
02-03
Project Genie
Project Genie 是谷歌 DeepMind 推出的实验性 AI 世界模型原型,基于 Genie 3、Nano Banana Pro 和 Gemini 技术驱动。用户通过文字提示或上传图片可创...
查看更多
unapussy
02-03
TTT-Discover
TTT-Discover(Test-Time Training to Discover)是斯坦福、英伟达等机构推出的AI科学发现方法。TTT-Discover在测试阶段对模型进行强化学习训练,非冻结权...
查看更多
加奈学姐
02-03
Step 3.5 Flash
Step 3.5 Flash 是阶跃星辰最新开源的基座模型,专为 Agent 场景推出。模型采用稀疏 MoE 架构,总参数 1960 亿,每 token 仅激活 110 亿参数,兼顾性能与效率。Ste...
查看更多
miumiul
02-03
Vidu Q3
Vidu Q3 是生数科技推出的全球首款 16 秒音画同步 AI 视频模型,专为短剧、漫剧、广告等叙事场景打造。一次提示即可直出 16 秒 1080p 成片,画面、对白、环境音效与 BGM 全部对齐,...
查看更多
shinnyhoney
02-03
Thinker
Thinker是优必选开源的具身智能视觉语言大模型,专为机器人场景打造。模型4B参数在9项权威基准测试中斩获全球第一。模型核心能力涵盖任务规划、空间理解、时间推理和视觉定位,能有效解决机器人”想得到但...
查看更多
XKVP077
02-03
Happy
Happy 是开源工具,能让用户通过手机或网页客户端远程控制电脑上运行的 Claude Code 或 Codex。支持实时查看代码进度、语音交互、消息推送,采用端到端加密保障数据安全。用户只需在电脑安...
查看更多
rouav
02-03
GLM-OCR
GLM-OCR是智谱AI开源的轻量级多模态OCR模型,仅0.9B参数在OmniDocBench V1.5榜单以94.6分登顶SOTA。模型基于GLM-V架构,集成自研CogViT视觉编码器与轻量跨模态...
查看更多
Haley Reed
02-03
点点ACG
点点ACG是一个专注于分享二次元美好事物的平台。在这里,你可以找到最新的动漫、漫画、游戏、音乐等作品,以及与二次元相关的各种资讯和活动。我们致力于为广大动漫爱好者提供一个交流和分享的平台,让大家能够更...
查看更多
elvababe
02-01
下一页