欧美丰满大黑帍在线播放,99re视频热这里只有精品38,国产成人av一区二区在线观看 ,国产午夜人做人免费视频,伊人久久精品无码麻豆一区,亚洲一区二区三区自拍天堂,成人国产精品免费视频,超薄丝袜足j好爽在线观看

廣晟德手游資訊速遞 → 五大疑點曝光:Llama-4-逐層扒皮-NYU-教授稱-AI-Scaling-徹底結束

五大疑點曝光:Llama-4-逐層扒皮-NYU-教授稱-AI-Scaling-徹底結束

2025-04-10 18:00:33      小編:廣晟德手游      

剛剛,一位 AI 公司 CEO 細細扒皮了關于 Llama 4 的五大疑點。甚至有圈內人表示,Llama 4 證明 Scaling 已經結束了,LLM 并不能可靠推理。但更可怕的事,就是全球的 AI 進步恐將徹底停滯。

五大疑點曝光

令人失望的 Llama 4,只是前奏而已。接下來我們恐將看到 —— 全球局勢的改變,將徹底阻止 AI 進步!Anthropic CEO Dario 做出長視頻,逐級對 Llama 4 身上的六大疑點進行了扒皮。

五大疑點曝光

同時,紐約大學教授馬庫斯發出博客,總結了目前這段時間 AI 圈的狀況。

Scaling 已經結束;模型仍然無法可靠推理;金融泡沫正在破裂;依然沒有 GPT-5;對不可靠的語言模型的過度依賴讓世界陷入了困境。我的 25 個 2025 年預測中的每一個,目前看起來都是對的。

大語言模型不是解決之道。我們確實需要一些更可靠的方法。

OpenAI 和 Anthropic 這樣的公司,需要籌集資金來資助新模型本后的大規模訓練運行,但他們的銀行賬戶里并沒有 400 億或 1000 億美元,來支撐龐大的數據中心和其他費用。

問題在于,如果投資者預見到了經濟衰退,那就要么不會投資,要么投資較少。

更少的資金,就意味著更少的計算,也就是更慢的 AI 進展。

布魯金斯學會 2025 年的一份報告稱,若科研成本持續上升,美國在人工智能、生物技術和量子計算等關鍵領域的領先地位可能受到威脅。據估算,當前政策若持續實施五年,美國科研產出可能會下降 8%-12%。

在以前的一個采訪里,Anthropic CEO Dario 曾被問到:到了如今這個階段,還有什么可以阻止 AI 的進步?他提到了一種可能 —— 戰爭。

五大疑點曝光

沒想到,在這個可能性之外,我們居然提前見證了系統的另一種混沌。

而 Dario 也提前預測到,如果出現「技術不會向前發展」的信念,資本化不足,AI 進步就將停止。

逐級扒皮 Llama 4

最近鬧出大丑聞的 Llama 4,已經證明了這一點。

五大疑點曝光

我們很難說,Llama 4 系列三款模型中的兩款代表了多少進展,顯然在這個系列的發布中,夸大宣傳的水分要比誠實的分析多得多。

疑點 1:長上下文大海撈針,其實是騙人?

Llama 擁有所謂業界領先的一千萬個 token 的上下文窗口,聽起來似乎很酷炫。

可是等等,24 年 2 月,Gemini 1.5 Pro 的模型,就已經達到 1000 萬 token 的上下文了!

在極端情況下,它可以在視頻、音頻和共同文本上,執行驚人的大海撈針任務,或許,是谷歌忽然意識到,大海撈針任務意義非常重大。

正如這篇 Llama 4 博客所說,如果把所有哈利波特的書都放進去,模型都能檢索到放入其中的一個密碼。

五大疑點曝光

不過,這位 CEO 表示,這些 48h 前發布的結果,不如 24 小時前更新的這個 fiction livebench 基準測試這么重要。

這個基準測試,用于長上下文的深度理解,LLM 必須將數萬或數十萬個 token 或單詞拼湊在一起。

在這里,在這個基準測試中,Gemini 2.5 Pro 的表現非常好,而相比之下,Llama 4 的中等模型和小模型,性能極其糟糕。

而且隨著 token 長度的增加,它們的表現越來越差。

五大疑點曝光

疑點 2:為何周六發布?

這位 CEO 察覺到的第二大疑點就在于,Llama 4 為何選在周六發布?

在整個美國 AI 技術圈里,這個發布日期都是史無前例的。

如果陰謀論一點想,之所以選在周六發布,是因為 Meta 自己也心虛了,希望盡量減少人們的注意力。

此外,Llama 4 的最新訓練數據截止時間是 2024 年 8 月,這就很奇怪。

要知道,Gemini 2.5 的訓練知識截止時間是 2025 年 1 月。

這就意味著,在過去的 9 個月里,Meta 一直在使盡渾身解數,拼命讓這個模型達到標準。

有一種可能性是,或許他們本打算早點發布 Llama 4,但就在 9 月,OpenAI 推出了 o 系列模型,今年 1 月,DeepSeek R1 又來了,所以 Meta 的所有計劃都被打亂了。

五大疑點曝光

疑點 3:大模型競技場,究竟有沒有作弊?

不過,這位 CEO 也承認,盡管全網充斥著對 Llama 4 群嘲的聲音,但它的確也展示出了一些堅實的進展。

五大疑點曝光

比如 Llama 4 Maverick 的活動參數量大概只有 DeepSeek V3 的一半,卻取得了相當的性能。

五大疑點曝光

那現在的核心問題就在于,Meta 究竟有沒有在 LM Arena 上進行作弊,在測試集上進行訓練?

目前,LM Arena 已經迅速滑跪,公開了 2000 多組對戰數據給公眾檢閱,并且表示會重新評估排行榜。

五大疑點曝光

目前姑且按照沒有算,那就意味著我們擁有一個強大得驚人的基礎模型了。

五大疑點曝光

看看這些真實數字,假設沒有任何答案進入 Llama 4 的訓練數據,這個模型在 GPQA Diamond 上的性能(谷歌驗證的極其嚴格的 STEM 基準測試)實際上是比 DeepSeek V3 更好的。

而在這個基礎上,Meta 就完全可以創建一個 SOTA 級別的思維模型。

唯一的問題是,Gemini 2.5 Pro 已經存在了,而 DeepSeek R2 也隨時會問世。

疑點 4:代碼很差

還有一點,當 Llama 4 走出舒適區時,性能就會開始狂降。

以 ADA 的 Polyglot 這個編碼基準測試為例,它測驗了一些系列編程語言的性能。

但與許多基準不同,它不僅僅關注 Python,而是一系列編程語言,現在依然是 Gemini 2.5 Pro 名列前茅。

但是想要找到 Llama 4 Maverick,可就很難了,得把鼠標滾動很久。

它的得分當然慘不忍睹 —— 只有 15.6%。

五大疑點曝光

這就跟小扎的言論出入很大了,顯得相當諷刺。

就在不久前,他還信誓旦旦地斷定說,Meta 的 AI 模型將很快取代中級程序員。

五大疑點曝光

疑點 5:「結果僅代表目前最好的內部運行」

這一點,同樣已經在 AI 社區引發了群嘲。

在下面這個表格中,Meta 將 Llama 4 和 Gemini2.0 Pro、GPT-4.5 等模型進行了比較,數字非常漂亮。

但仔細看腳注,卻說的是 Llama 模型的結果代表了目前最好的內部運行情況,所以很大可能是,Meta 把 Llama 4 跑了 5 遍或 10 遍,取了其中的最好結果。

五大疑點曝光

而且,他們還故意不將 Llama 4 Behemoth 跟 DeepSeek V3 進行比較,后者比它在整體參數上小三倍,在互動參數上小八倍,性能卻相似。

五大疑點曝光

如果從消極的角度下判斷,就可以說 Llama 4 最大的模型參數上 DeepSeek V3 基礎模型的許多倍,性能卻基本處于同一水平。

還有在 Simple Bench 中,Llama 4 Maverick 的得分大概為 27.7%,跟 DeepSeek V3 處于同一水平,還低于 Claude 3.5 Sonnet 這類非思維模型。

五大疑點曝光

另外,這位 CEO 還在 Llama 4 的使用條款中發現了這么一條。

如果你在歐洲,仍然可以成為它的最終用戶,但卻沒有權利在它的基礎上進行構建模型。

五大疑點曝光

馬庫斯:Llama 4 的慘痛教訓表明,Scaling 已經結束

而 Llama 4 的慘淡表現,也讓 NYU 教授馬庫斯寫出長文,斷言 Scaling 已經結束,LLM 仍然無法推理。

五大疑點曝光

他的主要觀點如下。

大模型的 Scaling 已經徹底結束了,這證實了我三年前在深度學習正在撞墻中的預測。

一位 AI 博士這樣寫道:Llama 4 的發布已經證實,即使 30 萬億 token 和 2 萬億參數,也不能讓非推理模型比小型推理模型更好。

五大疑點曝光

規模化并不奏效,真正的智能需要的是意圖,而意圖需要遠見,這都不是 AI 能做到的。

五大疑點曝光

即使 LLM 偶爾能提供正確的答案,往往也是通過模式識別或啟發式的捷徑,而非真正的數學推理。

比如最近 ETU 團隊關于 LLM 在美國奧數上糟糕表現的研究,就徹底擊碎了「LLM 會做數學題」這個神話。

五大疑點曝光

最終,生成式 AI 很可能會變成一個在經濟回報上失敗的產品。

泡沫可能真的要破滅了。英偉達在 2025 年的跌幅,就已經超過了三分之一。

而 Meta 的 Llama 4 的殘酷真相,再次證實了馬庫斯在 2024 年 3 月預測 ——

達到 GPT-5 級別的模型,將會非常困難。很多公司都會有類似模型,但沒有護城河。隨著價格戰進一步升級,許多只會有微薄的利潤。

五大疑點曝光

最終,馬庫斯以這樣的方式總結了自己的發言 —— 大語言模型絕對不是解決之道,我們需要一些更可靠的方法。Gary Marcus 正在尋找對開發更可靠替代方法有興趣的投資者。

參考資料:

//www.youtube.com/watch?v=wOBqh9JqCDY

//garymarcus.substack.com/p/scaling-is-over-the-bubble-may-be

主站蜘蛛池模板: 国产精品视频色尤物yw 久久精品国产久精国产一老狼 97人人超碰国产精品最新o 最新国模无码国产在线视频 国产中文成人精品久久久 老司机午夜精品99久久免费 天天天天做夜夜夜做 7777奇米成人狠狠成人影视 又黄又爽又色又刺激的视频 美女内射毛片在线看免费人动物 色妞av永久一区二区国产av 超碰曰口干天天种夜夜爽 妇女性内射冈站hdwwwooo 人人婷婷人人澡人人爽 精品999久久久久久中文字幕 亚洲在av人极品无码网站 国产高清在线精品二区 亚洲欧洲日产国码综合在线 亚洲已满18点击进入在线看片 四虎国产精品一区二区 狠狠综合久久狠狠88亚洲 色婷婷五月综合久久 av东京热无码专区 在线观看国产网址你懂的 97久久久人妻一区精品 亚洲性夜夜综合久久7777 国产亚洲精品资源在线26u 国产成人亚洲综合色就色 欧洲性久久精品 欧美日韩国产专区一区二区 免费无码黄十八禁网站在线观看| 在线精品动漫一区二区无码 | 国产欧美二区综合| 国产精品无码久久四虎| 亚洲国产天堂久久综合网| 亚洲精品久久久久午夜福利| 亚洲精品无码伊人久久| 野花社区视频www官网| 日韩午夜理论片 中文字幕| 国产片av国语在线观看手机版| 欧美多毛肥胖老妇做爰|