以现实谈话，讯飞星火X1跟DeepSeek数学才能简测

时间：2025-03-08 09:18 作者：admin

1月15日，科年夜讯飞宣布了以后天下产算力平台上独一的深度推理模子——讯飞星火X1。3月3日，星火X1迎来进级，数学才能片面对标DeepSeek R1跟OpenAI o1，明显晋升比赛级困难应答才能及中小学数学功课修改、领导等义务表示。同时，首发星火医疗年夜模子X1，并推出包含星火一体机在内的系列新品。科年夜讯飞在官宣中表现，进级后的星火X1之以是会在数学才能上有冲破性停顿，重要是该版本采取了两年夜翻新技巧。一是经由过程高效的范畴数据主动化发掘跟多范例数据分解算法，构建了海量的数学范畴预练习皇冠新体育APP最新版数据，从而明显晋升了基座模子的数学专业才能；二是基于考语模子与强化进修算法，实现了年夜模子长头脑链的激起，同时考语模子还促使年夜模子在推理进程中停止反思验证，进一步晋升了模子在推理阶段的正确性。那么，这款进级后的星火X1能否真如科年夜讯飞所说，在数学才能方面可片面对标在业内以推理著称的DeepSeek R1？上面咱们就来做一个简略评测。为保障测试公正性，两款年夜模子均以初次天生的谜底为准。测试题为《2024年山东省济南市中考数学试卷》中的解答题，8个小题，共72分。为确保输入准确，每题均先截图，而后由两年夜模子辨认图片中的字符并解答。这一方式，除了能测验两年夜模子的解题才能外，还能验证其OCR辨认才能。究竟对数学、物理、化学等学科来说，图形、公式、标记是常态，用键盘输入的方法很难实现。假如OCR辨认才能差，无奈准确辨认笔墨、字符、公式、图片，不只会极年夜影响年夜模子的解题准确率，同时也会令其实用场景变窄，如无奈赋能字纸功课跟试卷等。试题1：

星火X1解答如下：

DeepSeek R1解答如下：

该题分值为6分，准确谜底是4，星火X1答复准确得6分，DeepSeek完善答错，答错起因，应当是DeepSeek在辨认图片中的字符时，误将“-Sin30°”当成π/2次方数的一局部了。试题2：

星火X1解答如下：

DeepSeek R1解答如下：

该题DeepSeek R1犯了与第一题相似的弊病，字符辨认不准确，误把3x+1①辨认成了3X+10，最后招致谜底过错。该题满分6分，星火X1答复准确，得6分。试题3：

星火X1解答如下：

DeepSeek R1解答如下：

上一篇：google搜寻测试上线AI模式：整合多模态跟及时信息
下一篇：没有了