首页
抖音
B站
老司机
热门
网络
投稿
首页
抖音
B站
老司机
热门
网络
互联网梗百科
FG-CLIP 2
FG-CLIP 2是360推出的开源双语细粒度视觉语言对齐模型,专为解决视觉与语言的精准对齐问题而设计。在视觉语言理解领域取得了重大突破,尤其在中英文双语任务上表现出色。模型采用层次化对齐架构,通过全...
查看更多
彩库宝典
11-09
SAIL-Embedding
SAIL-Embedding是字节跳动抖音SAIL团队和香港中文大学MMLab联合开发的全模态(omni-modal)嵌入基础模型。解决多模态信息检索和推荐系统中的实际应用问题,通过支持任意模态输入(...
查看更多
糖心小爱
11-09
Ouro
Ouro是字节跳动Seed团队联合多家机构发布的循环语言模型(Looped Language Models,LoopLM)。名称源于象征循环与自我吞噬的“衔尾蛇”(Ouroboros)。Ouro模型通...
查看更多
烛灵儿
11-09
BettaFish
BettaFish(微舆) 是开源的多智能体舆情分析系统,能帮助用户快速了解公众对事件、品牌或产品的看法。系统通过自然语言驱动,用户只需像聊天一样提出需求,系统能自动完成全网舆情的采集、分析和预测。系...
查看更多
kimberliy
11-09
Open AgentKit
Open AgentKit(OAK)是零一万物开源的AI Agent开发平台,能为开发者提供开放、通用的Agent开发解决方案。平台受OpenAI AgentKit启发,支持多种模型和生态系统工具,集...
查看更多
Hansel & Grettel
11-09
AI Research Foundations
AI Research Foundations是Google DeepMind与伦敦大学学院(UCL)联合推出的免费在线课程。课程能帮助学习者深入理解Transformer模型,通过实践掌握现代语言模...
查看更多
nathalyn
11-09
LongCat-Flash-Omni
LongCat-Flash-Omni 是美团 LongCat 团队开源的全模态大语言模型,基于 LongCat-Flash 系列高效架构设计,创新性地集成多模态感知和语音重建模块,拥有 5600 亿总...
查看更多
宝书网
11-09
SWE-1.5
SWE-1.5 是AI独角兽 Cognition 推出的专为软件工程设计的高性能 AI 编程模型。拥有数百亿参数,具备接近最先进水平的编码能力,同时在速度上取得重大突破,推理速度高达 950 toke...
查看更多
小奈佳
11-09
Step-Audio-EditX
Step-Audio-EditX 是阶跃星辰开源的全球首个 LLM 级音频编辑大模型,主打“情感、说话风格、副语言”三轴细粒度迭代控制,可把愤怒、开心、悲伤等情绪强度任意增减,能把撒娇、耳语、老人等风...
查看更多
ladysosweet
11-09
OmniVinci
OmniVinci是NVIDIA推出的全模态大语言模型,专门处理视觉、听觉、语言和推理的多模态任务。通过独特的OmnialignNet技术实现跨模态语义对齐,Temporal Embedding Gr...
查看更多
多多影视
11-09
Open-o3 Video
Open-o3 Video 是北京大学和字节跳动联合开发的开源视频推理模型,通过整合显式的时空证据(关键时间戳和边界框)来实现精准的视频推理。通过精心策划的 STGR 数据集和两阶段的 SFT-RL ...
查看更多
diamondss
11-09
Kimi-k2 Thinking
Kimi-k2 Thinking 是月之暗面推出的具备通用 Agentic 能力和深度推理能力的人工智能模型。模型具备强大的多轮思考和工具调用能力,无需人类干预即可自主完成复杂任务,适合复杂任务的逐步...
查看更多
然然学姐
11-09
下一页