Groq成立于2016年,由前谷歌員工Jonathan Ross創(chuàng)立。他曾發(fā)明了驅動谷歌機器學習軟件的張量處理單元(TPU),這兩項技術當時為AlphaGo提供了重要的技術支撐。
字節(jié)跳動發(fā)布萬卡集群系統MegaScale論文
2月23日,字節(jié)跳動發(fā)布萬卡集群論文,展示了構建和部署 MegaScale 的設計、實施和工程經驗,這是一個用于訓練超過1萬個GPU規(guī)模的大型語言模型生產系統。
在12288個GPU上訓練175B LLM模型時,MegaScale實現了55.2%的模型FLOP利用率 (MFU),與Megatron-LM相比,MFU提高了1.34倍。
中國為人工智能初創(chuàng)企業(yè)提供14萬至28萬美元的“算力券”
為了支持蓬勃發(fā)展的人工智能行業(yè),中國向初創(chuàng)企業(yè)提供“算力券”,來降低企業(yè)數據中心運營相關的成本。至少有17個中國城市政府承諾提供這些補貼,代金券價值從14萬美元到28萬美元不等。
meta 推出2個24K GPU集群
3月13日,meta披露了有關萬卡集群的硬件、網絡、存儲、設計、性能和軟件的詳細信息,并聲稱到2024年底將完成350000個英偉達H100 GPU集群的構建。屆時,其整個資源池計算能力將相當于近600000個H100。
Cerebras發(fā)布了世界上最快的芯片,擁有4萬億個晶體管
3月14日,Cerebras發(fā)布了大尺寸芯片WSE-3,包含4萬億個晶體管,在相同的功耗和價格下,WSE-3的性能是之前記錄保持者WSE-2的兩倍。
相比H100 GPU ,WSE-3大了57倍,內核數量增加了52倍,芯片內存增加了800倍,內存帶寬增加了7000倍,結構帶寬增加了3700倍以上。這些都是芯片實現高性能的基礎。
WSE-3是專為訓練業(yè)界最大的AI模型而打造的,基于5納米制程、將為Cerebras CS-3人工智能超級計算機提供動力,通過90萬個人工智能優(yōu)化的計算核心,提供每秒125 petaflops峰值AI性能(1 petaflops是指每秒1萬億次浮點運算)。
AI模型
大語言模型
谷歌發(fā)布多模態(tài)模型Gemini 1.5 Pro,支持100萬token上下文
2月16日,谷歌發(fā)布多模態(tài)大模型Gemini 1.5 Pro,建立在谷歌Transformer和MoE架構的領先研究之上。
通過一系列機器學習創(chuàng)新,谷歌增加了Gemini 1.5 Pro的上下文窗口容量,并實現在生產中運行高達100萬個Token,遠超32k的Gemini 1.0、128k的GPT-4 Turbo、200k的Claude 2.1。
Gemini 1.5 Pro可以一次性處理大量信息——包括1小時的視頻、11小時的音頻、超過30000行代碼的代碼庫或超過700000個單詞。
谷歌發(fā)布開源大模型Gemma
2月22日,谷歌推出了“開源”大模型Gemma。Gemma采用了與Gemini相同的技術,由谷歌DeepMind與谷歌其他團隊共同合作開發(fā),在拉丁文中意為 “寶石”。
Gemma包括兩種權重規(guī)模的模型:Gemma 2B 與Gemma 7B,每種規(guī)模都有預訓練與指令微調版本。同時,谷歌還推出了一系列工具,旨在支持開發(fā)者創(chuàng)新,促進合作,并指導如何負責任地使用Gemma模型。
Mistral獲微軟投資,發(fā)布旗艦模型Mistral Large
2月27日,Mistral AI發(fā)布Mistral Large旗艦模型,并且推出對標ChatGPT的對話產品:Le Chat。
Mistral Large達到了頂級的推理能力。它可以用于復雜的多語言推理任務,包括文本理解、轉換和代碼生成。
據Mistral AI CEO Arthur Mensch透露,開發(fā)這款新模型的成本不到2000萬歐元(約合2200萬美元)。
同時,微軟宣布與Mistral AI達成深度合作,并對其進行了投資。未來,Mistral AI直接將模型資源放在微軟云當中售賣,成為OpenAI之后第二家在微軟Azure云平臺上提供商業(yè)AI模型的公司。
Anthropic發(fā)布Claude 3模型,全面超越GPT-4
3月4日,Anthropic推出了最新的Claude 3大模型。