AI 自进化架构开源项目权属争议
PubMedQA
生物医学研究问答数据集和模型得分排行榜
H2O EvalGPT
H2O.ai推出的基于Elo评级方法的大模型评估系统
LLMEval3
由复旦大学NLP实验室推出的大模型评测基准
Chatbot Arena
以众包方式进行匿名随机对战的LLM基准平台
HELM
斯坦福大学推出的大模型评测体系
MMBench
全方位的多模态大模型能力评测体系
CMMLU
一个综合性的大模型中文评估基准
OpenCompass
上海人工智能实验室推出的大模型开放评测体系
SuperCLUE
中文通用大模型综合性测评基准
FlagEval
智源研究院推出的FlagEval(天秤)大模型评测平台
- Upscayl
- 链企AI
- Boxy
- 创客贴AI
- Bing Image Creator
- 博查AI搜索
- v0.dev
- Visual Electric
- Reddo
- ChatDev debug诊断信息需要在index.php文件中开启开发者模式才能查看
- PubMedQA
- H2O EvalGPT
- LLMEval3
- Chatbot Arena
- HELM
- MMBench
- CMMLU
- OpenCompass
- SuperCLUE
- FlagEval debug诊断信息需要在index.php文件中开启开发者模式才能查看
- OpenAI 革新编程助手Codex,正面对决Claude引爆AI编码...
- Anthropic产品负责人退出Figma董事会,新模型Opus 4....
- Snap裁撤千人,CEO:AI技术进步使人效显著提升
- MaxHermes云端沙箱问世,AI智能体可轻松驯马
- MiniMax推出全球首个云端沙箱MaxHermes,推动AI技能自主...
- 谷歌推出顶尖语音合成AI,覆盖约70种语言
- 印度新创推AI助手Wingman,深度融入即时聊天软件
- Nous Research驳斥架构抄袭:称代码结构雷同说法无依据
- AI教育工具Gizmo吸引超千万用户,再融两千万美元主攻大学校园
- 就业市场遇冷非AI之过?LinkedIn数据指认利率上升为主因 debug诊断信息需要在index.php文件中开启开发者模式才能查看
ICP备案:沪ICP备2026056879号