以现实谈话,讯飞星火X1跟DeepSeek数学才能简测
1月15日,科年夜讯飞宣布了以后天下产算力平台上独一的深度推理模子——讯飞星火X1。3月3日,星火X1迎来进级,数学才能片面对标DeepSeek R1跟OpenAI o1,明显晋升比赛级困难应答才能及中小学数学功课修改、领导等义务表示。同时,首发星火医疗年夜模子X1,并推出包含星火一体机在内的系列新品。科年夜讯飞在官宣中表现,进级后的星火X1之以是会在数学才能上有冲破性停顿,重要是该版本采取了两年夜翻新技巧。一是经由过程高效的范畴数据主动化发掘跟多范例数据分解算法,构建了海量的数学范畴预练习皇冠新体育APP最新版数据,从而明显晋升了基座模子的数学专业才能;二是基于考语模子与强化进修算法,实现了年夜模子长头脑链的激起,同时考语模子还促使年夜模子在推理进程中停止反思验证,进一步晋升了模子在推理阶段的正确性。那么,这款进级后的星火X1能否真如科年夜讯飞所说,在数学才能方面可片面对标在业内以推理著称的DeepSeek R1?上面咱们就来做一个简略评测。为保障测试公正性,两款年夜模子均以初次天生的谜底为准。测试题为《2024年山东省济南市中考数学试卷》中的解答题,8个小题,共72分。为确保输入准确,每题均先截图,而后由两年夜模子辨认图片中的字符并解答。这一方式,除了能测验两年夜模子的解题才能外,还能验证其OCR辨认才能。究竟对数学、物理、化学等学科来说,图形、公式、标记是常态,用键盘输入的方法很难实现。假如OCR辨认才能差,无奈准确辨认笔墨、字符、公式、图片,不只会极年夜影响年夜模子的解题准确率,同时也会令其实用场景变窄,如无奈赋能字纸功课跟试卷等。试题1:
星火X1解答如下:
DeepSeek R1解答如下:
该题分值为6分,准确谜底是4,星火X1答复准确得6分,DeepSeek完善答错,答错起因,应当是DeepSeek在辨认图片中的字符时,误将“-Sin30°”当成π/2次方数的一局部了。试题2:
星火X1解答如下:
DeepSeek R1解答如下:
该题DeepSeek R1犯了与第一题相似的弊病,字符辨认不准确,误把3x+1①辨认成了3X+10,最后招致谜底过错。该题满分6分,星火X1答复准确,得6分。试题3:
星火X1解答如下:
DeepSeek R1解答如下:








- 上一篇:google搜寻测试上线AI模式:整合多模态跟及时信息
- 下一篇:没有了