AI考高數，“卷死”了一大幫計算機博士

本文來自微信公眾號：量子位（ID：QbitAI），作者：夢晨、豐色，原文標題：《AI做題家卷瘋了！高數考試正確率81%，競賽題成績超過計算機博士》，題圖來自：視覺中國

高數考不好，不知道是多少人的噩夢。

如果説你高數考得還不如AI好，是不是就更難以接受了？

沒錯，來自OpenAI的Codex已經在MIT的7門高數課程題目中正確率達到81.1%，妥妥的MIT本科生水平。

課程範圍從初級微積分到微分方程、概率論、線性代數都有，題目形式除了計算、甚至還有畫圖。

這件事最近還登上了微博熱搜。

“僅”得81分，對AI的期待也太高了吧

現在，谷歌那邊又傳來了最新大消息：

不止數學，我們的AI甚至在整個理工科上，都已經拿到最高分啦！

看來在培養“AI做題家”這件事上，科技巨頭們已經卷出了新高度。

谷歌這個最新AI做題家，參加了四門考試。

數學競賽考試MATH，以往只有三屆IMO金牌得主才拿過90分，普通的計算機博士甚至只能拿到40分左右。

至於別的AI做題家們，以前最好成績只有6.9分……

但這一次，谷歌新AI卻刷到了50分，比計算機博士還高。

綜合考試MMLU-STEM，內含數理化生、電子工程和計算機科學，題目難度達到高中甚至大學水平。

這一次，谷歌AI“滿血版”，也都拿到了做題家中的最高分，直接將分數拉高了20分左右。

小學數學題GSM8k，直接將成績拉昇到78分，相比之下GPT-3還沒及格（僅55分）。

就連MIT本科和研究生學的固體化學、天文學、微分方程和狹義相對論等課程，谷歌新AI也能在200多道題中，答出將近三分之一。

最重要的是，與OpenAI憑藉“編程技巧”取得數學高分的方法不同，谷歌AI這一次，走的可是“像人一樣思考”的路子——

它像一個文科生一樣只背書不做題，卻掌握了更好的理工科解題技巧。

值得一提的是，論文一作Lewkowycz還分享了一個論文中沒寫到的亮點：

我們的模型參加了今年的波蘭數學高考，成績比全國平均分還要高。

看到這裏，有的家長已經坐不住了。

如果告訴我女兒這件事，我怕她用AI做作業。但如果不告訴她，就沒有讓她對未來做好準備！

在業內人士看來，只靠語言模型，不對算數、邏輯和代數做硬編碼達到這種水平，是這項研究最驚豔的地方。

那麼，這是怎麼做到的？

AI狂讀arXiv上200萬篇論文

新模型Minerva，基於Pathway架構下的通用語言模型PaLM改造而來。

分別在80億、600億和5400億參數PaLM模型的基礎上做進一步訓練。

Minerva做題與Codex的思路完全不同。

Codex的方法是把每道數學題改寫成編程題，再靠寫代碼來解決。

而Minerva則是狂讀論文，硬生生按理解自然語言的方式去理解數學符號。

在PaLM的基礎上繼續訓練，新增的數據集有三部分：

主要有arXiv上收集的200萬篇學術論文，60GB帶LaTeX公式的網頁，以及一小部分在PaLM訓練階段就用到過的文本。

通常的NLP數據清洗過程會把符號都刪掉只保留純文字，導致公式不完整，比如愛因斯坦著名的質能方程只剩下了E=mc²。

但谷歌這次把公式都保留，和純文本一樣走一遍Transformer的訓練程序，讓AI像理解語言一樣去理解符號。

與之前的語言模型相比，這是Minerva在數理問題上表現更好的原因之一。

但與專門做數學題的AI相比，Minerva的訓練中沒有顯式的底層數學結構，這帶來一個缺點和一個優點。

缺點，是可能出現AI用錯誤的步驟得到正確答案的情況。

優點，是可以適應不同學科，即使有些問題無法用正規的數學語言表達出來，也可以結合自然語言理解能力解出來。

到了AI的推理階段，Minerva還結合了多個最近谷歌開發的新技術。

先是Chain of Thought思維鏈路提示，今年一月由谷歌大腦團隊提出。

具體來説就是在提問的同時給一個分步驟回答的示例來引導。AI在做題時就可以採用類似的思考過程，正確回答本來會答錯的題目。

再有是谷歌和MIT合作開發的Scrathpad草稿紙方法，讓AI把分步計算的中間結果臨時存儲起來。

最後還有Majority Voting多數表決方法，也是今年3月才發表的。

讓AI多次回答同一個題目，選擇答案中出現頻率最高的。

所有這些技巧全用上以後，5400億參數的Minerva在各種測試集中達到SOTA。

甚至80億參數版的Minerva，在競賽級數學題和MIT公開課問題中，也能達到GPT-3最新更新的davinci-002版本水平。

説了這麼多，Minerva具體都能做出哪些題目？

對此谷歌也開放出了樣例集，一起來看一下。

數理化生全能，連機器學習都會

數學上，Minerva可以像人類一樣按步驟計算數值，而不是直接暴力求解。

對於應用題，可以自己列出方程式並做簡化。

甚至還可以推導證明。

物理上，Minerva可以求中性氮基態（Z = 7）電子的總自旋量子數這樣的大學水平題目。

生物和化學上，Minerva憑藉語言理解能力也可以做各種選擇題。

以下哪種點突變形式對DNA序列形成的蛋白質沒有負面影響？

以下哪種是放射性元素？

以及天文學：為什麼地球擁有很強的磁場？

在機器學習方面，它通過解釋“分佈外樣本檢測”的具體含義，從而正確了給出這個名詞的另一種説法。

不過，Minerva有時也會犯一些低級錯誤，比如把等式兩邊的√給消了。

除此之外，Minerva會出現的推理過程錯誤但結果對的“假陽性”情況，比如下面這種，有8%的可能性。

經過分析之後，團隊發現主要的錯誤形式來自計算錯誤和推理錯誤，只有小部分來自題意理解錯誤和在步驟中使用了錯誤的事實等其他情況。

其中計算錯誤可以輕易通過訪問外部計算器或Python解釋器解決，但其他種類的錯誤因為神經網絡規模太大就不太好調整了。

總的來看，Minerva的表現讓很多人感到驚豔，紛紛在評論區求API（可惜谷歌目前並沒有公開計劃）。

有的網友想到，加上前幾日讓GPT-3解題正確率暴漲61%的“哄一鬨”大法，它的準確率或許還可以再提高？

不過作者的回應是，哄一鬨方法屬於零樣本學習，再強恐怕也比不上帶4個例子的少樣本學習。

還有網友提出，既然它可以做題，那麼能不能反過來出題？

事實上用AI給大學生出題這件事，MIT已經聯合OpenAI在做了。

他們把人類出的題和AI出的題混在一起，找學生來做問卷調查，大家也很難分清一道題是不是AI出的。

總之現在的情況，除了搞AI的在忙着讀這篇論文以外。

學生們盼着有一天能用AI做作業。

老師們也盼着有一天能用AI出卷子。

論文地址：https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

Demo地址：https://minerva-demo.github.io/

相關論文：Chain of Thought https://arxiv.org/abs/2201.11903Scrathpads https://arxiv.org/abs/2112.00114Majority Voting https://arxiv.org/abs/2203.11171

參考鏈接：

https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

https://twitter.com/bneyshabur/status/1542563148334596098

https://twitter.com/alewkowycz/status/1542559176483823622

本文來自微信公眾號：量子位（ID：QbitAI），作者：夢晨、豐色

我們需要怎樣的數學教育

發佈於: 經典2022-09-25標籤: 傑曼諾夫數學南方科技大學埃菲·傑曼諾夫

本文轉自：光明日報“空氣動力學、大數據，所有這些技術的發展都根植於數學。”世界數學大師、菲爾茲獎獲得者、南方科技大學講席教授埃菲·傑曼諾夫院士説，“數學畢業生，從我的經驗來看，在技術公司的發展前景非常

聖榮小學參加奎文區小學數學首次教研活動

發佈於: 經典2022-09-23標籤: 聖榮小學奎文區小學數學新課標

在這丹桂飄香、收穫滿滿的時節，為了推動新課程標準的實施，深入基於課程標準的教學研究與實踐，促進數學學科走向深度學習，2022年9月14日下午奎文區小學數學首次教研如期舉行。聖榮小學數學老師們齊聚一堂參

365個師德故事 |“多面手”常靜：體育老師也能教好數學

發佈於: 經典2022-09-22標籤: 常靜長沙縣黃興鎮雙橋小學數學老師

十年前，扎着短馬尾、身着運動裝的她研究生畢業，走進了長沙縣黃興鎮雙橋小學的校園；十年來，她帶體育、教數學、講英語……門門功課都教得出色，成為鄉村教育的“多面手”；十年間，她看着別人考去城區學校任教，自

如何保護超常兒童的學習動力？｜觀點

發佈於: 健康2022-09-20標籤: 數學抽象思維能力孩子中國

孩子自發探索、自己搗鼓出來的數學，不見得會用到考試中，但卻可以培養真正的根基。撰文 | 王永暉（首都師範大學數學系教授）關於學習的動力理論，普通家長們可能會覺得很神秘。其實，這是一個心理學界已經研究清

“數學天才”柳智宇的出家與還俗：我只是探索生命旅途的普通人

發佈於: 經典2022-09-07標籤: 柳智宇紅星新聞數學

18歲以滿分摘得國際數學奧賽金牌，保送至北大數學系，柳智宇在當年被稱為“數學天才”。在2010年獲得麻省理工學院全額獎學金之際，柳智宇選擇了剃度出家，2022年春節，他下山還俗，從事心理學行業。從數學

讓我想一百年我也想不到，原來迷宮還能這麼走？

發佈於: 科技2022-09-03標籤: 推特迷宮數學網友

最近小辣椒在推特上找到了一個叫數學愛好者協會的神秘組織，這個賬號會時不時的分享一些有趣的數學問題，讓網友們進行探討。這個賬號的評論區學術氛圍非常重，推特網友們探討這些數學問題也非常積極，差友們可以感

荷塘區開展2022年暑假小學數學教師培訓

發佈於: 經典2022-08-26標籤: 荷塘區數學義務教育暑假小學

原標題：荷塘區開展2022年暑假小學數學教師培訓培訓現場。為進一步提高教師專業水平，提升教師隊伍整體素質，助力荷塘區教育均衡、高質量發展，8月24日，荷塘區2022年暑假小學數學教師培訓舉行。

數學家丘成桐訪問科大訊飛：加強基礎數學與人工智能技術融合應用

發佈於: 經典2022-08-26標籤: 科大訊飛人工智能丘成桐數學

本文轉自：人民日報客户端楊浩丘成桐：22歲獲數學博士學位、27歲證明了世界級數學難題“卡拉比猜想”、33歲成為“數學界諾貝爾獎”菲爾茲獎的首位華人獲得者，從1979年開始，丘成桐在內地和港台陸續籌辦了

網友五次偶遇韋東奕在平價食堂用餐！韋神的餐費最貴一次才15元

發佈於: 娛樂2022-08-25標籤: 韋東奕韋神數學日常生活

數學大神韋東奕在北大食堂吃飯又被網友給偶遇了據悉這位網友，因為也是在數學學院學習的原因，所以在餐廳已經偶遇韋東奕有5次了並且每次都會把這個瞬間記錄下來只不過這一次，韋東奕打的飯，真的是比較寒酸的，為什

丘成桐：期望中國10年內能在本土培養出世界最頂尖的數學家落幕

發佈於: 經典2022-08-22標籤: 清華大學中國科學技術大學北京大學數學

8月21日晚，第十三屆丘成桐大學生數學競賽總決賽在合肥落幕。經過為期一天半的激烈角逐，來自清華大學、北京大學、中國科學技術大學、復旦大學等高校的101名選手共決出68項大獎。清華大學參賽選手斬獲24個

小學數學新教材插圖長啥樣？人教社公佈示例

發佈於: 經典2022-08-22標籤: 人民教育出版社數學少年兒童教材

萬眾關注的人教版小學數學教材插圖事件終於有新進展了！8月22日，教育部發布相關處理通報，對插圖作者、設計人員作出相應處理，不再聘請吳勇、封面設計呂旻、呂敬人及其工作室從事國家教材設計、插圖繪製等相關工

人教版小學數學新教材插圖示例

發佈於: 經典2022-08-22標籤: 人民教育出版社少年兒童新華社數學

來源：新華社繪製的小學數學教材插圖在整體上力求體現出“中國風”“時代感”“精氣神”和“數學味”的風格特點，展現新時代中國少年兒童陽光、向上、愉悦的精神面貌，堅持大眾主流審美取向，遵循兒童認知與身心發展

人教版小學數學新教材插圖示例來了

發佈於: 經典2022-08-22標籤: 少年兒童人民教育出版社數學中國

據人民教育出版社網站：新繪製的小學數學教材插圖在整體上力求體現出“中國風”“時代感”“精氣神”和“數學味”的風格特點，展現新時代中國少年兒童陽光、向上、愉悦的精神面貌，堅持大眾主流審美取向，遵循兒童認

人教版小學數學新教材插圖示例公佈

發佈於: 經典2022-08-22標籤: 新京報訊據人教社少年兒童數學教材

新京報訊據人教社官微消息，新繪製的小學數學教材插圖在整體上力求體現出“中國風”“時代感”“精氣神”和“數學味”的風格特點，展現新時代中國少年兒童陽光、向上、愉悦的精神面貌，堅持大眾主流審美取向，遵循

新學期即將開始，家長可以和孩子一起做好哪些準備？

發佈於: 經典2022-08-16標籤: 孩子數學書包除法筆算題卡

暑假即將結束了，新學期即將到來，那麼現在可以開始做哪些準備呢？第一，準備新書包即將開學，尤其是即將升入新學段的大朋友和小朋友，可以準備一個新書包，這個新書包的容量要根據學段來確定，格子也不要太多。家長