1225 条记录
52 私有链接
52 私有链接
内容总结:一位没有技术背景的用户编写了一个脚本来测试不同AI大模型的表现,测试问题来自网络和论坛。测试结果显示,Qwen/Qwen2.5-72B-Instruct-128K在所有模型中表现最佳,总得分为18/30。其他模型如deepseek-ai/DeepSeek-V2.5和Qwen/QwQ-32B-Preview等也参与了测试,但得分较低。用户希望有更多专业人士进行更全面的评测。
内容总结:一位没有技术背景的用户编写了一个脚本来测试不同AI大模型的表现,测试问题来自网络和论坛。测试结果显示,Qwen/Qwen2.5-72B-Instruct-128K在所有模型中表现最佳,总得分为18/30。其他模型如deepseek-ai/DeepSeek-V2.5和Qwen/QwQ-32B-Preview等也参与了测试,但得分较低。用户希望有更多专业人士进行更全面的评测。