做研究最重要的,其實是探索與理解事物的本質,而不是一味地追求模型表現

許多剛踏入研究領域的學生,常會把「做研究」與「追求模型表現」劃上等號,認為只有做到好的模型表現才算創新、才有機會發paper,其實這樣的想法有點本末倒置了。

研究的真正目的,往往是為了探索與理解一個方法為什麼有效。要能清楚地告訴別人什麼會work、什麼不會、哪個設計才是模型性能進步的根本原因、以及在什麼樣的條件下方法特別有效。這些原則性的結論和理解,才是研究最有價值的部分。

當我們真正理解了模型背後的機制與原因,就能據此設計出更合理的方法,進而獲得更好的表現。換句話說,好的表現只是理解本質後的附加成果,而不是研究唯一目的。

這也解釋了為什麼許多「A+B」型的工作常常被質疑缺乏創新。這類研究通常只是嘗試各種既有技術的組合,看看哪種能帶來最大的性能提升或達到最好的表現。看似有動機,但往往缺乏證據說明這些改動實際上解決了哪些本質問題,也無法確定在其他情境下是否同樣有效。以結果為導向的工作或許在產品端有相當的價值,但對學術研究而言,更重要的是能夠提供insight的工作。

舉例來說,像之前的post提到過的,如果方法A提升模型在任務X上的表現,那是方法A中哪個設計B起了關鍵作用?設計B改進了模型的哪項基礎能力C?其他同樣需要能力C的任務W、Y、Z 是否也能受益於設計B? 如果設計B是關鍵,方法A的其他設計是否可以拿掉?基礎能力C還有哪些情況是設計B不能改進的?如此一來,我們就能更了解設計B和基礎能力C之間的關聯,並提供關於設計B什麼時候有用的insight。

所以與其設計各種pipeline想辦法讓模型進步,不如能深入探討某個module在什麼條件下能發揮作用,提出充分的實驗與理論證據,並證明結論不僅限於某一個特定任務,即使結果沒有最好的模型表現,也更有可能啟發其他人,推動整個領域的進步。