蘋果AI模型OpenELM解析:具備離線處理、小容量高性能

自從去年OpenAI、微軟(Microsoft)、Google、三星等科技公司都陸續推出生成式AI技術與應用後,如今蘋果也在近日釋出開源生成式人工智慧模型 OpenELM,AI模型主要特色能夠在設備上獨立運作,無需雲端服務即可透過手機或電腦即時處理,同時蘋果也將在今年WWDC全球開發者大會上公開多項生成式AI研發結果與應用。

蘋果AI模型OpenELM解析:具備離線處理、小容量高性能

蘋果釋出 AI 開源大型語言模型 OpenELM

蘋果為了加速生成式 AI 領域發展,提前透過開源 AI 平台 Hugging Face 發表「OpenELM」具有開源的高效率文本生成模型家族,OpenELM採用了分層擴展(layer-wise scaling)技術策略,能在模型的每一層中有效分配參數,能讓 OpenELM 轉換器具有不同的配置與參數,近而夠提高準確性。

蘋果表示OpenELM是使用神經網路庫CoreNet作為訓練框架,並且搭配 Adam 優化演算法進行35萬次模型訓練,連同蘋果MobileOne、CVNets、MobileViT、FastVit等知名研究也同樣都是靠CoreNet完成。

OpenELM分別為4款經過預訓練以及4款針對指令優化調校過的版本,在參數規模也分成2.7億、4.5億、11億和30億四種參數,每款規模也都比起高性能模型(70億參數)要來得更小,比起微軟 Phi-3 模型 38億更小。

蘋果釋出 AI 開源大型語言模型 OpenELM

外媒指出,對於OpenELM訓練資料全來自維基百科、Wikiboos、Reddit、arXivx論文、StackExchange 問答,以及 GitHub 的 RedPajama 資料集、Project Gutenberg等公共資料集,總計有1.8兆 tokens 的數據進行訓練。

儘管OpenELM以開源許可證發布,並沒有過度的限制,但蘋果明確表示,任何基於 OpenELM 的衍生作品都將被視為侵犯權利,蘋果保留提出專利索賠的權利。

OpenELM 模型小、性能表現優異

蘋果分享的 OpenELM 模型特別是 4.5 億參數的變體效能表現相當優異,另外 11 億參數的 OpenELM 變體性能表現方面,也超越具備艾倫人工智慧研究所所發佈的開源大型語言模型 OLMo,預訓練 token 數量減少一半,OpenELM 在性能比 OLMo 提高 2.36%。

至於 30 億參數的 OpenELM 變體,在經由 ARC-C 基準測試中,知識和推理能力準確率達到了 42.24%,且 MMLU 和 HellaSwag 得分也分別獲得 26.76% 和 73.28%。

雖然蘋果的 OpenELM 模型在 AI 領域算不上是最頂尖,在回應也被多方證實相當可靠,與人類思考邏輯幾乎一致,也能實現小參數達到超強性能。但是蘋果 AI 模型在創造力方面,OpenELM 就容易出現稍顯不足情況。

OpenELM 支援iPhone或Mac電腦獨立運作

蘋果在 OpenELM 公開說明中提到「將模型轉換為 MLX 資料庫的程式碼,以便在蘋果設備上進行推理和微調」,其中MLX是去年釋出能在蘋果晶片上運行機器學習的框架,能夠在非連網路狀態下,直接透過蘋果設備本機執行。

蘋果一直都是封閉系統領導者,如今罕見公開 AI 大模型,外界認為這有可能就類似 Google 操作方式,先透過開源拉攏開發人員,再利用封閉產品進行商業化。

如今蘋果選在 WWDC 2024 開發者大會前,對外釋出大模型用來展現將進軍 AI 領域的決心,那也代表 iOS 18 和 iPhone 16 新機將導入 AI 功能應用將成為今年最熱門的話題。

延伸閱讀:

喜歡這篇文章教學,後續想了解更多Apple資訊、iPhone、Mac、3C隱藏技巧,歡迎追蹤 瘋先生FB粉絲團瘋先生LINE@訂閱瘋先生Google新聞TelegramInstagram以及 訂閱YouTube頻道,將會有更多非常實用的技巧教學分享給大家。

返回頂端
Share to...