网站地图官方微信:
网站首页 钟山乡 浒坑镇 公溪镇 贵屿镇 蓝塘镇 七股区

当前位置: 首页 >

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

  • | 微软宣布 5 月 28 日开始下架「Microsoft 远程桌面」应用,背后原因有哪些? |

    咦这事和我之前参加过的讨论有关,我应该可以回答至少一部分原因...

    查看详情>>
  • | 5 月 28 日 DeepSeek R1 模型完成小版本试升级并开源,具体有哪些提升?使用体验如何? |

  • | 如果你是《一帘幽梦》里的绿萍,你会不会最后原谅紫菱? |

  • | 如何看待不超过1879元的Mac mini(M4+16/256GB+票),易用性吊打同级其他台式电脑? |

  • | 怎么才能有尤雨溪一半强,该怎么学习? |

  • | 如何看待日本小学校园餐只有一小块鸡肉? |

  • | 为什么linux桌面那么丑? |

  • | rust 解决了什么问题? |

  • | 最后买了一个树莓派,想用python控制摄像头读取***流,再利用socket发送出去。大家觉得可行么? |

  • | JetBrains 放弃 AppCode 是否是一个错误决定? |

  • | 用J***a写Android的时代是不是要结束了? |

  • 一个写程序超过二十年的老家伙说: 凡是国企写的软件都是垃圾,...

    2025-06-21
  • 我是三月份去的新德里,出机场就坐车去萨克特,吃了正宗印度餐,...

    2025-06-21
  • 前言很多人刚接触 Spring 的时候,对 @Autowir...

    2025-06-21
  • 哈哈,这个问题嘛,其实挺常见的。 先给个结论:为啥很多 Sp...

    2025-06-21

关注我们

添加微信好友,关注最新动态