Something Big Is Happening. 真的嗎?

Cal Newport 對全網瘋傳的文章做出的批評,我的整理和一點感想。


背景

日前,用 AI agents 翻譯一批篇幅不小的文件,過程很平順、迅速,而且全部是在免費方案的額度內完成。當時是用最新的模型(為了避免失焦,這裡不具體說哪個模型),我驚訝又驚喜:這新模型似乎更厲害,以後可以和另一個 AI agent 交替使用。


翻譯完成後,接著用同一個工具進行校稿,出現了免費 token 用量到頂的訊息。於是,我切換至另一個 AI agent 和付費模型,接手進行譯文校稿。AI 一邊校稿,我一邊快速查看它校稿的結果。但很快就發現,昨天那個大量翻譯的成果並不完整——很多段落被略過了!


我問 AI agent 何以如此,它跑了好幾個任務去分析最近的幾次 git commit 歷史,然後告訴我,凶手不是它,而是原本的譯稿(之前用另一個 AI agent 翻譯的結果)本身就已經被嚴重刪減了:




回想起來,我猜可能跟我下的 prompt 沒有明確要求「完整翻譯」有關,但也可能是工具在處理長文本時的策略。總之,結果就是 AI 把部分段落當成可省略內容(摘要翻譯)。我只好讓 AI 重頭檢查一遍:原稿跟譯文一對一、系統性的比對遺漏,然後補上。在此過程中,又有新發現:先前的翻譯,不只遺漏(省略)某些段落,連一些程式碼範例都有攔腰斬斷的情形。這就讓我有點嚇到。


我在臉書寫短文記錄此事之後,想起數日前在 Youtube 平台看到 Cal Newport 的影片:Has AI Changed Work Forever? Not Really...,內容針對網路上瘋傳的一篇關於 AI 劇變論的文章提出蠻嚴厲的批評(其中使用了「一級胡扯」這樣的詞彙)。該影片的發布時間是九天前(2/26)。

對,就是《Deep Work 深度工作力》、《深度學習力》的作者。他也是喬治城大學 Computer Science 學系的全職教授。


他批評的那篇全網瘋傳的文章是 Matt Shumer 寫的 "Something Big Is Happening"。(網路上能找到中文翻譯)


以下內容是由 AI 生成的影片摘要,我稍微修過。最後加上一點我自己的小感想。

========

影片內容摘要

Newport 指出該文章充滿情緒煽動且內容不實,特別是針對 AI 發展速度與程式開發自主性的描述與現實嚴重脫節。他向數百位工程師做過一個非正式調查,結果顯示 AI 雖然能處理瑣碎任務,但仍需高度人工監督,絕非文章所稱能完全取代人類。此外,他駁斥了 AI 能透過自我編寫來實現「無限進化」的理論,認為這僅是科技圈的科幻幻想。最後,Newport 強調目前的進展多屬於局部且漸進式的改善,並非如文章所述正處於改變世界的爆發轉折點。


Cal Newport 自稱是一位「AI 現實主義者」(AI realist)。他認為 AI 確實對編程工作帶來了實質的幫助與改變,但他強烈駁斥那些充滿科幻色彩、認為 AI 即將完全取代程式設計師或呈現「指數級爆發」的恐慌性言論。


綜合他在影片中的分析,他對 AI 改變編程工作的真實看法可以歸納為以下幾個重點:

█ AI 的進步是「漸進且穩定」的,而非指數級爆發

Newport 指出,近期 AI 在整體能力上的進展其實是放緩的註:有嗎?不知道,我是覺得仍在快速進展。AI 在寫程式方面的提升,是建立在對特定任務的微調(fine-tuning)與訓練上,這是一種漸進但穩定(incremental but steady)的進步,完全不是外界吹捧的指數級飛躍。


AI 公司之所以專注於開發寫程式的工具,是因為程式語言具備高度結構化,且這是目前少數能帶來實際市場訂閱收入的利基領域,而不是為了讓 AI 達成科幻小說中「自己寫程式來開發更聰明的 AI」的自我進化循環,他稱這種說法為「一等一的胡說八道」(grade-A nonsense)。

█ 打破「全自動寫程式」的神話

對於網路上流傳「只需用英文描述需求,離開電腦 4 小時後 AI 就能自動寫好完美應用程式」的說法,Newport 根據他對超過 250 位專業程式設計師進行的調查指出,這完全偏離事實。這種全自動的生成只適用於非常簡單、常見的業餘愛好專案(例如寫一個結合「龍與地下城」角色的俄羅斯方塊遊戲)。在專業領域中,沒有任何工程師會這樣使用 AI。

█ AI 實際上是「消除繁瑣工作」的助手,且需要高度監督

在實際的專業工作流程中,程式設計師主要將 AI 用來處理繁瑣、枯燥的任務,例如建立介面元素、整合不同的資料來源,或是幫忙查詢特定的函式庫語法(library call)。這確實為工程師節省了大量查閱資料和撰寫樣板程式碼的時間。


然而,使用 AI 需要高度的監督(heavily supervised)。真實的工作模式如下:

  • 工程師必須給予 AI 非常明確的規格說明。因為 AI 大約有 20% 的機率會犯錯,所以生成的程式碼必須經過大量的測試與單元測試。
  • 有時候(大約五分之一的機率),AI 會完全無法理解需求,工程師最終還是得放棄並自己手動撰寫。

█ 這是工作流程的改變,不是人類被取代的轉捩點

Newport 總結,AI 寫程式工具的進步確實已經好到足以影響許多程式設計師的日常工作節奏,這是一個很酷且有趣的產業故事,也可能帶來工作機會的增減。但這絕不是一個「AI 即將崛起並改變一切」的科幻轉捩點(inflection point)。AI 只是在執行它非常擅長的特定任務,它並不能發明新的機器學習模型,也無法取代人類工程師的核心專業知識。


==== AI 摘要內容到此結束  ====

我的感想

我自己在看那篇 "Something Big Is Happening" 文章時的感受是:這是一篇非常情真意切、且用詞謹慎的文章,但實際的作用仍免不了散播恐懼、以偏概全、基於不夠具體的描述來下結論。例如文章裡面寫說,他下了一個提示給 AI,然後離開電腦四個小時,回來就看到工作順利完成了。但沒有具體說是甚麼工作。


如果能具體說明是什麼專案、多少程式碼、是否需要人工修正,那整個論點的說服力會完全不同。


以生成某些常見功能的網站來說,那應該沒有太大問題。我自己也有類似體驗:下完提示詞,離開去做別的事,回來就看到 AI 做完了,還做得很棒。但問題是,具體的任務類型和內容是什麼?如果只因為一個常見的、AI 特別擅長的任務,就這樣擴大推論 AI 翻轉時代、取代人類的轉折點已經來到,未免太跳躍了。


也許是因為我看文章時總帶著一點防衛心理,常留意是否有隱藏的謬誤、刻意略過的細節、誇大等等。如果前提是有疑問的,那麼推導出的結論也得持保留態度。


簡單講,就是媒體識讀。


這不是說那篇文章一無是處。例如 Shumer 在文章裡面也提供了一些好建議:認真地去使用 AI、不要因為某件事看起來太難就斷定它做不到、養成適應的習慣(註:這在每個時代都一樣是好建議)。


FWIW,Newport 教授在影片中提到「grade-A nonsense」的地方是這段:



我沒有想要去評斷或預測「AI 自己寫程式來自我進化」這件事情到底會不會或者何時成真。我也沒有那個預測能力。但是就我自己的粗淺認知,LLM 的底層運作是基於「機率分布」,所以通常是 nondeterministic。在此前提下,AI 到底能不能實現自我進化、以及能做到什麼樣的可靠度,還是個問號。
Newport 教授在影片裡斬釘截鐵:那根本不是目前 AI 運作的方式(These AI agents do not let us make better AI models. That's not how that works)。建議觀看完整影片,以免我的筆記遺漏甚麼細節而造成誤會。

總之,把訴諸情緒的字句剝掉,看看剩下多少「事實」,再搭配自己的實際經驗去判斷。

然後,再決定自己要相信多少。

看看,想想。


沒有留言:

技術提供:Blogger.
回頂端⬆️