今天(3月17日),距離Sora發(fā)布剛好一個月。這一個月時間可能是科技史上最密集的AI動態(tài)發(fā)布月。
在AI算力層,英偉達獨孤求敗,市值突破了2.2萬億美元,一躍成為全球市值第三大科技公司,僅次于微軟與蘋果。
但仍然有源源不斷的挑戰(zhàn)者出現(xiàn),Groq、Cerebras都在近期發(fā)布了最新的AI芯片。他們會對英偉達構成威脅嗎?
在AI生成視頻領域,Sora開啟了AI視頻的“Midjourney時刻”,多模態(tài)模型元年開啟,比人們預期的時刻提前了至少半年。
在大語言模型層,除了OpenAI沒有發(fā)布大的產(chǎn)品更新之外,它的一眾競爭對手,從大廠的谷歌、蘋果,到AI獨角獸Anthropic、Mistral、Inflection,都發(fā)布了最新代的大模型。
在AI應用層,人們期待的AI原生“super app”似乎還沒有出現(xiàn)。A16z近期剛剛公布AI應用Top 100,ChatGPT仍然牢牢占據(jù)首位。
而且,A16z發(fā)現(xiàn),與2023年9月發(fā)布的報告相比,榜單上超過40%的公司都是新公司。
具身智能是過去一個月最熱門的AI落地方向,英偉達成立了具身智能實驗室,并且投資了Figure AI。Figure AI的首款人形機器人產(chǎn)品,在演示Demo中已經(jīng)可以實現(xiàn)端到端的自然語言交互。
今天也剛好是GPT-4發(fā)布一周年。但與去年GPT-4發(fā)布所帶來的一整年的熱度相比,人們對Sora的熱情似乎消退的更快。
一方面是因為Sora沒有公測,一切討論都僅限于官方的幾十個視頻與沒有技術細節(jié)的技術報告,另一方面是因為大家對于AI沖擊的感受閾值在變高,變得更加理性。
大模型改變了很多,但目前為止沒有改變的更多。對待大模型的態(tài)度,人們也被分成了技術信仰派與市場信仰派。
沒有人能準確預測行業(yè)的變化,但通過記錄與了解行業(yè)正在發(fā)生的信息,可以幫助我們更好地做出判斷。
以下是「甲子光年」匯總的Sora發(fā)布一個月以來發(fā)生的重要AI事件。
AI算力
Lambda完成3.2億美元C輪融資
2月16日,人工智能云服務提供商Lambda獲得了3.2億美元的C輪融資,用于構建基于GPU的服務,提供由數(shù)千個英偉達加速器組成的人工智能訓練集群。
該輪融資由多家風險投資基金領投,包括B Capital、SK Telecom、T. Rowe Price Associates, Inc.,以及現(xiàn)有投資者Crescent Cove、Mercato Partners、1517 Fund、Bloomberg Beta和Gradient Ventures等。
Lambda正準備部署“數(shù)以萬計”的英偉達GPU,包括目前最頂級的H100 Hopper加速器以及英偉達即將推出的G200 GPU加速器,后者的性能將是H100的兩倍。Lambda還希望部署英偉達的混合GH200 CPU/GPU超級芯片。
英偉達首次公開目前最快AI超算:搭載4608個H100 GPU
2月18日,英偉達首次向外界公布了其最新的面向企業(yè)的AI超級計算機Eos,同時也是英偉達目前速度最快的AI超級計算機。
Eos共配備了4608個英偉達H100 GPU,同時還配備了1152個英特爾Xeon Platinum 8480C處理器(每個CPU有56個內核)。Eos還采用了英偉達Mellanox Quantum-2 InfiniBand技術,數(shù)據(jù)傳輸速度高達400 Gb/s,對訓練大型AI模型和系統(tǒng)擴展至關重要。
英偉達公布數(shù)據(jù)顯示,在最新的全球Top500超級計算機當中,Eos位居全球第九,其峰值性能更是達到了188.65 Peta FLOPS。
三星電子在硅谷成立新團隊,開發(fā)通用人工智能芯片
2月20日消息,知情人士透露,三星電子已在硅谷成立新團隊,開發(fā)通用人工智能芯片。據(jù)悉,谷歌前開發(fā)人員Woo Dong-hyuk將領導該團隊。
Groq發(fā)布LPU,推理速度較英偉達GPU提高十倍
2月23日,Groq推出了一款全新的AI芯片LPU,宣稱做到了“地表最強推理”——在Groq上運行大模型的推理速度,較英偉達GPU提高10倍,而成本只有其十分之一。
Groq的芯片采用成熟的14nm制程,搭載了230MB的SRAM來保證內存帶寬,片上內存帶寬達到了80TB/s。在算力層面,Gorq芯片的整型(8位)運算速度為750TOPs,浮點(16位)運算速度則為188TFLOPs。
Groq成立于2016年,由前谷歌員工Jonathan Ross創(chuàng)立。他曾發(fā)明了驅動谷歌機器學習軟件的張量處理單元(TPU),這兩項技術當時為AlphaGo提供了重要的技術支撐。
字節(jié)跳動發(fā)布萬卡集群系統(tǒng)MegaScale論文
2月23日,字節(jié)跳動發(fā)布萬卡集群論文,展示了構建和部署 MegaScale 的設計、實施和工程經(jīng)驗,這是一個用于訓練超過1萬個GPU規(guī)模的大型語言模型生產(chǎn)系統(tǒng)。
在12288個GPU上訓練175B LLM模型時,MegaScale實現(xiàn)了55.2%的模型FLOP利用率 (MFU),與Megatron-LM相比,MFU提高了1.34倍。
中國為人工智能初創(chuàng)企業(yè)提供14萬至28萬美元的“算力券”
為了支持蓬勃發(fā)展的人工智能行業(yè),中國向初創(chuàng)企業(yè)提供“算力券”,來降低企業(yè)數(shù)據(jù)中心運營相關的成本。至少有17個中國城市政府承諾提供這些補貼,代金券價值從14萬美元到28萬美元不等。
meta 推出2個24K GPU集群
3月13日,meta披露了有關萬卡集群的硬件、網(wǎng)絡、存儲、設計、性能和軟件的詳細信息,并聲稱到2024年底將完成350000個英偉達H100 GPU集群的構建。屆時,其整個資源池計算能力將相當于近600000個H100。
Cerebras發(fā)布了世界上最快的芯片,擁有4萬億個晶體管
3月14日,Cerebras發(fā)布了大尺寸芯片WSE-3,包含4萬億個晶體管,在相同的功耗和價格下,WSE-3的性能是之前記錄保持者WSE-2的兩倍。
相比H100 GPU ,WSE-3大了57倍,內核數(shù)量增加了52倍,芯片內存增加了800倍,內存帶寬增加了7000倍,結構帶寬增加了3700倍以上。這些都是芯片實現(xiàn)高性能的基礎。
WSE-3是專為訓練業(yè)界最大的AI模型而打造的,基于5納米制程、將為Cerebras CS-3人工智能超級計算機提供動力,通過90萬個人工智能優(yōu)化的計算核心,提供每秒125 petaflops峰值AI性能(1 petaflops是指每秒1萬億次浮點運算)。
AI模型
大語言模型
谷歌發(fā)布多模態(tài)模型Gemini 1.5 Pro,支持100萬token上下文
2月16日,谷歌發(fā)布多模態(tài)大模型Gemini 1.5 Pro,建立在谷歌Transformer和MoE架構的領先研究之上。
通過一系列機器學習創(chuàng)新,谷歌增加了Gemini 1.5 Pro的上下文窗口容量,并實現(xiàn)在生產(chǎn)中運行高達100萬個Token,遠超32k的Gemini 1.0、128k的GPT-4 Turbo、200k的Claude 2.1。
Gemini 1.5 Pro可以一次性處理大量信息——包括1小時的視頻、11小時的音頻、超過30000行代碼的代碼庫或超過700000個單詞。
谷歌發(fā)布開源大模型Gemma
2月22日,谷歌推出了“開源”大模型Gemma。Gemma采用了與Gemini相同的技術,由谷歌DeepMind與谷歌其他團隊共同合作開發(fā),在拉丁文中意為 “寶石”。
Gemma包括兩種權重規(guī)模的模型:Gemma 2B 與Gemma 7B,每種規(guī)模都有預訓練與指令微調版本。同時,谷歌還推出了一系列工具,旨在支持開發(fā)者創(chuàng)新,促進合作,并指導如何負責任地使用Gemma模型。
Mistral獲微軟投資,發(fā)布旗艦模型Mistral Large
2月27日,Mistral AI發(fā)布Mistral Large旗艦模型,并且推出對標ChatGPT的對話產(chǎn)品:Le Chat。
Mistral Large達到了頂級的推理能力。它可以用于復雜的多語言推理任務,包括文本理解、轉換和代碼生成。
據(jù)Mistral AI CEO Arthur Mensch透露,開發(fā)這款新模型的成本不到2000萬歐元(約合2200萬美元)。
同時,微軟宣布與Mistral AI達成深度合作,并對其進行了投資。未來,Mistral AI直接將模型資源放在微軟云當中售賣,成為OpenAI之后第二家在微軟Azure云平臺上提供商業(yè)AI模型的公司。
Anthropic發(fā)布Claude 3模型,全面超越GPT-4
3月4日,Anthropic推出了最新的Claude 3大模型。
Claude 3模型家族包括三種最先進的型號:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。Haiku、Sonnet和Opus分別指“俳句、十四行詩、音樂藝術大作”。
Opus和Sonnet現(xiàn)已可在claude.ai中使用,而 Claude API現(xiàn)已在159個國家/地區(qū)廣泛使用。Haiku在3月15日正式推出。
Anthropic由OpenAI前高管創(chuàng)立,投資者包括谷歌、Salesforce、亞馬遜、高通等科技巨頭,估值超過150億美元。
零一萬物發(fā)布并開源 Yi-9B,代碼數(shù)學綜合能力全面增強
3月6日,零一萬物開源了Yi-9B模型,是目前 Yi 系列模型中代碼和數(shù)學能力最強的模型。
Yi-9B的實際參數(shù)為8.8B,與Yi系列其他模型一樣,默認上下文長度是4K tokens。Yi-9B是在 Yi-6B (使用了3.1T tokens訓練)的基礎上,使用了0.8T tokens進行繼續(xù)訓練,使用截止至2023年6月的數(shù)據(jù)。
Inflection.ai發(fā)布 Inflection-2.5,升級對話模型Pi
3月7日,Inflection.ai推出Inflection-2.5,這是升級后的內部模型,它將原始能力與標志性個性和獨特的同理心微調結合在一起。Inflection-2.5現(xiàn)已向所有Pi用戶開放,可通過網(wǎng)頁、iOS、Android或桌面應用程序使用。
Inflection-2.5接近GPT-4的性能,但僅使用了40%的計算量用于訓練。每天有100萬活躍用戶和每月600萬活躍用戶與Pi交換了超過40億條消息。
Inflection.ai的大模型通過微軟Azure、CoreWeave上對用戶提供服務。
馬斯克宣布xAI本周開源Grok
馬斯克在去年成立了大模型公司xAI,并與去年11月發(fā)布AI聊天機器人Grok。
Grok基于Grok-1大模型,開發(fā)大約花了四個月的時間(包括2個月的訓練),上下文長度為8192,訓練數(shù)據(jù)截至2023年第三季度。Grok可以提供生成文本、代碼、郵件、信息檢索等功能。Grok對所有X Premium+訂閱用戶開放,每月費用為16美元。
3月11日,馬斯克宣布本周開源Grok。在這一帖子下面,有網(wǎng)友回復“OpenAI也應該這么做”。馬斯克則回復該評論稱:“OpenAI是個謊言?!?
蘋果發(fā)布300億參數(shù)大語言模型MM1
3月14日,蘋果發(fā)布了一個300億參數(shù)的多模態(tài)大模型MM1。
通過細致的消融研究,作者們發(fā)現(xiàn),對于大規(guī)模多模態(tài)預訓練,混合使用圖像標題、交錯的圖像-文本數(shù)據(jù)和純文本數(shù)據(jù)對于在多個基準測試中實現(xiàn)最先進的少次學習結果至關重要。此外,圖像編碼器、圖像分辨率和圖像標記數(shù)量對性能有顯著影響,而視覺-語言連接器的設計相對不那么重要。
研究結果表明,通過擴大模型規(guī)模,構建的MM1模型系列在預訓練指標上達到了最先進的水平,并在一系列多模態(tài)基準測試中的監(jiān)督微調后取得了有競爭力的性能。大規(guī)模預訓練使得MM1具備了上下文學習、多圖像推理等吸引人的特性,能夠進行少次鏈式思維提示。
多模態(tài)模型
meta發(fā)布非生成路線視頻模型V-JEPA
2月15日,meta公開發(fā)布視頻聯(lián)合嵌入預測架構 (V-JEPA) 模型。meta的副總裁兼首席人工智能科學家Yann LeCun表示:“V-JEPA 是朝著更深入地理解世界邁出的一步,因此機器可以實現(xiàn)更通用的推理和規(guī)劃?!?
他于2022年提出了最初的聯(lián)合嵌入預測架構 (JEPA)。 “我們的目標是建立先進的機器智能,它可以像人類一樣學習,形成周圍世界的內部模型,以便有效地學習、適應和制定計劃,以完成復雜的任務。”
Stability AI發(fā)布Stable Diffusion 3,與Sora同源技術
2月22日,Stability AI在早期預覽版中發(fā)布了 Stable Diffusion 3,這是Stability AI最強大的文本到圖像模型,在多主題提示、圖像質量和拼寫能力方面的性能得到了極大提高。Stable Diffusion 3模型套件目前的參數(shù)范圍為800M 到8B。
3月5日,Stability AI公布了Stable Diffusion 3的技術論文,采用了一種新的多模態(tài)DiT(MMDiT,Multimodal Diffusion Transformer)模型架構,對圖像與語言表示使用單獨的權重集。
谷歌Gemini文生圖功能緊急關閉
2月22日,谷歌宣布將暫停Gemini的人物圖像生成,努力解決與Gemini圖像生成功能相關的最新問題;將很快重新發(fā)布改進版本。
此前,Gemini在圖片中生成了各種性別、種族的人群,即使生成的結果與史實不符,例如以“美國開國元勛華盛頓”為主題的圖片中,出現(xiàn)了婦女和有色人種。
3月2日,50歲的谷歌聯(lián)合創(chuàng)始人謝爾蓋·布林在加州的“AGI之家”與企業(yè)家們進行了交談,談及此事時評價道:“我們在圖像生成方面搞砸得很徹底,我認為這主要由于沒有進行徹底的測試。出發(fā)點是好的,但結果卻讓很多人感到沮喪?!?
谷歌發(fā)布基礎世界模型Genie
2月27日,谷歌發(fā)布了生成式AI的全新范式——生成式交互環(huán)境(Genie,Generative Interactive Environments)。
Genie是一個110億參數(shù)的基礎世界模型,可以通過單張圖像提示生成可玩的交互式環(huán)境。GenieAI是一個利用互聯(lián)網(wǎng)視頻訓練的基礎世界模型,可以從合成圖像、照片甚至素描中生成無限多的可玩(可控制動作的)世界。它的使用范圍廣泛,可以用于從圖像或文本生成整個互動世界,是訓練未來通用AI代理的有利工具。
螞蟻集團推出百靈大模型
2月28日,螞蟻集團推出20億參數(shù)多模態(tài)遙感基礎模型SkySense,其論文已被世界計算機視覺頂會CVPR 2024接收。
數(shù)據(jù)顯示,SkySense在17項測試場景中指標均超過國際同類產(chǎn)品,這也是迄今為止國際上參數(shù)規(guī)模最大、覆蓋任務最全、識別精度最高的多模態(tài)遙感基礎模型。SkySense可用于地貌、農(nóng)作物觀測和解譯等,有效輔助農(nóng)業(yè)生產(chǎn)和經(jīng)營。
潞晨科技復現(xiàn)Sora并開源
3月4日,國內著名開源團隊Colossal-AI(潞晨科技旗下)根據(jù)Sora技術報告、VideoGPT、擴散Transformers等資料,復現(xiàn)了Sora模型架構方案并將其開源——Open-Sora。
值得一提的是,Colossal-AI還將復現(xiàn)成本降低了46%,同時將模型訓練輸入序列長度擴充至819K patches。目前,Open-Sora在Github超過1200顆星。
Midjourney封禁Stability AI:惡意爬取數(shù)據(jù),致服務器癱瘓24小時
3月7日,Midjourney封禁Stability AI引發(fā)了一場關于數(shù)據(jù)安全和道德責任的爭議。事件起因于Stability AI的數(shù)據(jù)收集工程師對Midjourney服務器發(fā)起了惡意攻擊,導致其服務中斷24小時。盡管Stability AI CEO Emad聲稱公司并未授權此行為,但Midjourney決定暫時封禁其員工使用其軟件。
華為諾亞發(fā)布0.6B文生圖模型PixArt-Σ,可直出4K圖像
3月10日,華為諾亞方舟實驗室聯(lián)合多個研究機構共同開發(fā)的項目,推出了一款名為PixArt-Σ的擴散變換器模型(DiT)。
PixArt-Σ 的進步有兩個方面。一是高質量訓練數(shù)據(jù),引入了更高質量的圖像數(shù)據(jù),配合更精確和詳細的圖像標題;二是高效的token壓縮:在DiT框架內提出了一個新的注意力模塊,能夠壓縮鍵和值,顯著提高效率,從而支持超高分辨率圖像的生成。
這些改進使得PixArt-Σ在模型大小(0.6B參數(shù))上遠小于現(xiàn)有的文本到圖像擴散模型,如SDXL(2.6B參數(shù))和SD Cascade(5.1B參數(shù)),同時在圖像質量和用戶提示遵循能力上都有了顯著提升。此外,PixArt-Σ生成4K圖像的能力,為電影和游戲等行業(yè)的高質量視覺內容制作提供了強大支持。
Pika推出自動生成音效功能Sound Effects
3月11日,Pika 發(fā)布了全新的功能Sound Effects,實現(xiàn)了視頻和音效的無縫生成。用戶可以通過簡單的操作,通過描述prompt或讓 AI 自動生成音效,為視頻增添更多氛圍。
Sound Effects的操作十分簡單,用戶只需一個 prompt或簡單的描述就能生成音效,使視頻更加生動。通過選擇不同的音效,用戶可以為視頻增添各種聲音,從車鳴聲到煙花聲,音效都與視頻畫面高度匹配。此外,用戶還可以在生成視頻后,針對單個視頻添加音效,提升視頻質量和趣味性。
Midjourney發(fā)布角色一致性新功能
3月12日,Midjourney推出了一項新功能,使得在生成多張圖片時,能夠保持同一人物的一致性。通過使用“-cref”(角色參考)標簽,可以保留輸入圖片中的角色特征,使得在不同場景中的臉部特征、體型和服裝保持一致。
此外,Midjourney還提供了“-cw”標簽,用戶可以通過這個標簽來調整與指定圖片的相似程度,從而微調角色的樣貌。
騰訊聯(lián)合清華、港科大推出圖生視頻大模型“Follow Your Click”
3月15日,騰訊和清華大學、香港科技大學聯(lián)合推出全新圖生視頻模型“Follow-Your-Click“,基于輸入模型的圖片,只需點擊對應區(qū)域,加上少量提示詞,就可以讓圖片中原本靜態(tài)的區(qū)域動起來,一鍵轉換成視頻。
據(jù)了解,本聯(lián)合項目組中的騰訊混元大模型團隊,正在持續(xù)研究和探索多模態(tài)技術,擁有行業(yè)領先的視頻生成能力。此前,騰訊混元大模型作為技術合作伙伴,支持《人民日報》打造原創(chuàng)視頻《江山如此多嬌》,生成中國大美河山的精美視頻片段,展示出了較強的內容理解、邏輯推理和畫面生成能力。
生物模型
前Google DeepMind科學家聯(lián)手創(chuàng)建Biooptimus,構建首個通用生物學大模型
2月20日,總部位于巴黎的Biooptimus在獲得3500萬美元的種子輪融資,其使命是建立第一個用于生物學的通用人工智能基礎模型。這一新的開放科學模型將把不同規(guī)模的生物學與生成人工智能連接起來——從分子到細胞、組織和整個生物體。
Bioptimus聯(lián)合了一個由Google DeepMind alumni和Owkin科學家組成的團隊,其中AI生物技術初創(chuàng)公司Owkin本身就是一家法國獨角獸,他們將利用AWS計算和Owkin的數(shù)據(jù)生成功能,并訪問來自全球領先學術醫(yī)院的多模態(tài)患者數(shù)據(jù)。
AI應用
具身智能
英偉達成立具身智能實驗室GEAR
2月24日,英偉達宣布成立通用具身智能體研究實驗室GEAR,標志著英偉達正式入局具身智能領域的研究,加速人工智能具身化進程。
機英偉達GEAR實驗室的聯(lián)合創(chuàng)始人Jim Fan博士在X平臺上表示:“我們相信,在未來,每一臺移動的機器都將是自主的,機器人和模擬智能體將像iPhone一樣無處不在。我們正在構建基礎智能體:一個具有通用能力的AI,可以在許多虛擬和現(xiàn)實的世界中學習如何熟練地行動。2024年將是屬于機器人、游戲AI和模擬的一年。”
Jim Fan還補充道:“我們有足夠的資金一次性解決機器人基礎模型、游戲基礎模型和生成式模擬。我們團隊可能是全球最有錢的具身智能實驗室?!?
特斯拉人形機器人更新,步態(tài)達到最快
2月25日,特斯拉人形機器人Optimus發(fā)布更新,達到了有史以來最快的步態(tài),速度約為 0.6m/s,比去年12月速度提升了30%以上。
Optimus改善了前庭系統(tǒng)、足部軌跡和地面接觸邏輯,升級了運動規(guī)劃器,并減少了機器人的循環(huán)延遲。Optimus整體上更加穩(wěn)定、更加自信——即使在轉彎時也是如此。此外,還添加了輕微的軀干和手臂擺動。
Figure AI宣布獲得6.75億美元融資,估值達到26億美元
2月29日,具身智能公司Figure宣布獲得6.75億美元融資,估值達到26億美元。投資方包括微軟、OpenAI創(chuàng)業(yè)基金、英偉達、杰夫·貝索斯(通過Bezos Expeditions)、Parkway Venture Capital、英特爾、Align Ventures。
Figure AI還與OpenAI簽署了合作協(xié)議,為人形機器人開發(fā)下一代人工智能模型。Figure將利用Microsoft Azure進行人工智能基礎設施、培訓和存儲。
3月13日,F(xiàn)igure AI的第一款產(chǎn)品Figure 01發(fā)布Demo視頻,能夠實現(xiàn)端到端的機器人指令操作。其中,OpenAI模型提供高級視覺和語言智能,圖形神經(jīng)網(wǎng)絡提供快速、低級、靈巧的機器人動作。
伯克利團隊發(fā)布具身智能論文,用訓練GPT的方法訓練人形機器人
3月3日,伯克利團隊發(fā)布論文,名為《Humanoid Locomotion as Next Token Prediction》,論文的核心思想,就是把OpenAI訓練ChatGPT時所用到的“預測下一個token”的思路,用在人形機器人的運動控制中。
該模型是一個通過自回歸預測訓練的causal transformer(因果轉換器)。
該模型即使只在27小時的行走數(shù)據(jù)上訓練,也能轉移到現(xiàn)實世界,并且能夠泛化到訓練期間未見過的命令,比如向后行走。這些發(fā)現(xiàn)為通過生成模型學習具有挑戰(zhàn)性的現(xiàn)實世界控制任務提供了一個有希望的路徑。
谷歌發(fā)布具身智能機器人RT-H
3月4日,谷歌DeepMind團隊發(fā)布論文,發(fā)布了最新版的 RT 機器人——RT-H,它能通過將復雜任務分解成簡單的語言指令,再將這些指令轉化為機器人行動,來提高任務執(zhí)行的準確性和學習效率。
舉例來說,給定一項任務,如「蓋上開心果罐的蓋子」和場景圖像,RT-H會利用視覺語言模型(VLM)預測語言動作(motion),如「向前移動手臂」和「向右旋轉手臂」,然后根據(jù)這些語言動作,預測機器人的行動(action)。
這個行動層級(action hierarchy)對于提高機器人完成任務的準確性和學習效率非常有幫助,使得RT-H在一系列機器人任務中的表現(xiàn)都優(yōu)于RT-2。
AI+應用
Perplexity接近敲定新融資,估值或翻番至10億美元
3月5日消息,知情人士透露,旨在挑戰(zhàn)谷歌網(wǎng)絡搜索主導地位的AI初創(chuàng)公司Perplexity即將敲定一筆新的融資交易,公司估值有望達到近10億美元,較幾個月前的最新融資估值大約翻番。
Perplexity利用先進的AI模型為搜索查詢提供直接答案,而不是提供網(wǎng)站鏈接列表,這也是谷歌正在研究的。知情人士稱,Perplexity最近的年收入超過1000萬美元。根據(jù)數(shù)據(jù)服務公司Similarweb的初步估計,該公司移動和桌面應用程序的訪問量在2月增長8.6%,達到約5000萬用戶。
兩個月前,Perplexity剛剛宣布已籌集到7400萬美元資金,得到亞馬遜前CEO貝索斯和風險投資公司Institutional Venture Partners的支持。這筆交易對這家初創(chuàng)公司的估值為5.2億美元。
華人團隊打造第一個AI軟件工程師Devin
3月13日,Cognition AI在X上推出了全球首個AI軟件工程師Devin。
Devin是一個自主代理(Autonomous Agent),掌握全棧技能,能自主學習不熟悉的技術,端到端地構建和部署應用程序,自己改bug,甚至還能訓練和微調自己的AI模型。
在SWE-bench基準測試中,它無需人類幫助,可解決13.86%的問題。相比之下,GPT-4只能處理1.74%的問題,且都需要人類提示告知處理哪些文件。據(jù)介紹,Devin已經(jīng)成功通過一家AI公司的面試,并在Upwork上完成了實際工作。
此前,Cognition AI已經(jīng)獲得了彼得·蒂爾的Founders Fund基金領投的2100萬美元A輪融資。
DeepMind發(fā)布3D通用智能體SIMA
3月13日,Google DeepMind發(fā)布了適用于3D虛擬環(huán)境的通用智能體(A generalist AI agent for 3D virtual environments),名字命名為“SIMA”。
SIMA是一個針對游戲和3D虛擬環(huán)境的通用智能體。這標志著首次有一個智能體能夠證明它可以遵循自然語言指令,在大量游戲世界中執(zhí)行廣泛任務,類似于人類的游玩方式。
SIMA僅依賴于3D環(huán)境提供的圖像和用戶給出的自然語言指令。通過鼠標和鍵盤的輸出,它在600項技能上進行評估,這些技能涵蓋了導航和對象交互等領域——例如“向左轉”或“砍倒樹”。
A16z發(fā)布消費級AI應用Top 100
3月13日,A16z發(fā)布了最新的全球AI產(chǎn)品的 Top100 榜單,分為網(wǎng)絡產(chǎn)品與移動產(chǎn)品。16z發(fā)現(xiàn),與2023年9月發(fā)布的報告相比,榜單上超過40%的公司都是新公司。
AI融資
傳月之暗面獲得8億美元融資
據(jù)知情人士對外透露,月之暗面近期獲得了8億美元新融資,其中阿里投資了7.9億美元,礪思資本投資1000萬美元。
小紅書、美團原計劃戰(zhàn)略投資,但阿里將月之暗面估值提高了50%,并且重倉持股40%,所以后者主動退出了。
本輪融資后,月之暗面估值已達約23億美元,為國內大模型領域的頭部企業(yè)之一。
宇樹科技完成近10億元B2輪融資
2月23日,智能機器人公司宇樹科技Unitree宣布完成近10億元B2輪融資,本輪投資方包括美團、金石投資、源碼,老股東深創(chuàng)投、中網(wǎng)投、容億、敦鴻和米達鈞石跟投。宇樹科技Unitree表示,資金將主要用于產(chǎn)品研發(fā),業(yè)務拓展以及團隊搭建等方面。
宇樹科技創(chuàng)立于2016年8月。宇樹科技創(chuàng)始人王興興2013年開始碩士在讀期間,通過改造無人機使用的盤式無刷電機,并針對其自研了小尺寸電機驅動器,并基于此,自研整機機械結構和控制算法等等,獨自設計開發(fā)了他的第一款產(chǎn)品——XDog。不同于當時波士頓動力機器人的高成本液壓驅動技術路線,XDog采用了高性能純電驅動,開創(chuàng)了全球低成本高性能足式機器人技術方案的先河。
香港大模型公司W(wǎng)eitu AI完成天使輪融資,估值一億美元
2月25日,多模態(tài)大模型初創(chuàng)公司香港Weitu AI 公司完成了天使輪融資,估值一億美金。天使輪投資人為擁有全球數(shù)億月活的互聯(lián)網(wǎng)科技公司和著名天使投資人。
據(jù)了解,該公司目前剛剛成立,超過半數(shù)成員來自北美名校畢業(yè)并擁有海外大廠的工作經(jīng)驗。同時,目前的團隊成員中也包括了數(shù)位長期活躍在人工智能多模態(tài)領域的研究專家,以及去年初曾率隊研發(fā)國內首批中文大語言模型代表之一的技術負責人。
多模態(tài)大模型企業(yè)聯(lián)匯科技宣布完成新一輪數(shù)億元戰(zhàn)略融資
3月1日,杭州聯(lián)匯科技股份有限公司(以下簡稱 “聯(lián)匯科技”)宣布完成新一輪數(shù)億元戰(zhàn)略融資,投資方由中國移動產(chǎn)業(yè)鏈發(fā)展基金中移和創(chuàng)投資、前海方舟(前海母基金管理機構)旗下中原前?;鸷妄R魯前?;鸬榷嗉翌^部國資與市場化機構組成。
據(jù)悉,本輪融資將主要用于多模態(tài)大模型及自主智能體的技術研發(fā)、產(chǎn)品創(chuàng)新及市場拓展,擴大其在運營商、能源電力、媒體等國家基礎行業(yè)與重點細分市場的領先優(yōu)勢。
新旦智能完成了千萬級別的天使輪融資
3月4日,總部位于深圳的AI初創(chuàng)公司新旦智能完成了千萬級別的天使輪融資,由全球化人工智能企業(yè)APUS與AI行業(yè)資深投資人周弘揚聯(lián)合投資。
相比國內其他大模型公司,新旦智能略顯年輕,但創(chuàng)始團隊陣容卻頗為豪華:這是一支由清華、伯克利、騰訊、meta等頂尖學術與工程界精英組成的團隊,成員包括全球頂尖的開源AI社區(qū)知名開發(fā)者、資深騰訊云架構師等。
傳阿里領投Minimax新一輪融資
3月5日,《科創(chuàng)板日報》報道稱通用大模型初創(chuàng)項目MiniMax正在進行新一輪大規(guī)模融資,阿里為其中的核心領投方。
五源資本投資了一家華人AI視頻團隊
3月6日,兩位Deepmind的校友Yishu Miao和Ziyu Wang公開發(fā)布了他們的視頻生成工具Haiper,其底層有自己的AI模型。
Haiper在由Octopus Ventures領投、5Y Capital參與的種子輪融資中籌集了1380萬美元。在此之前,像Geoffrey Hinton和Nando de Freitas這樣的天使投資者幫助該公司在2022年4月籌集了540萬美元的前種子輪融資。
愛詩科技完成億級人民幣A1輪融資,發(fā)布視頻大模型
3月11日,愛詩科技完成億級人民幣A1輪融資,本輪融資由國內一線投資機構達晨財智領投,光源資本擔任獨家財務顧問。
愛詩科技創(chuàng)立于2023年4月,專注解決AI視頻大模型及應用,海外版產(chǎn)品PixVerse于2024年1月正式上線,目前已是全球用戶量最大的國產(chǎn)AI視頻生成產(chǎn)品,并搭建了穩(wěn)定的創(chuàng)作者生態(tài),目前已處于全球視頻生成產(chǎn)品第一梯隊,國內版(愛詩視頻大模型)也于今日上線內測。本輪融資將用于人才建設和資源儲備,進一步鞏固愛詩科技產(chǎn)品技術護城河。
多模態(tài)大模型創(chuàng)企生數(shù)科技完成新一輪數(shù)億元融資
3月12日,生數(shù)科技宣布完成新一輪數(shù)億元融資,由啟明創(chuàng)投領投,達泰資本、鴻福厚德、智譜AI、老股東BV百度風投和卓源亞洲繼續(xù)跟投,華興資本擔任獨家財務顧問。據(jù)生數(shù)科技介紹,本輪融資將主要用于多模態(tài)基礎大模型的迭代研發(fā)、應用產(chǎn)品創(chuàng)新及市場拓展。
生數(shù)科技成立于2023年3月,致力于圖像、3D、視頻等原生多模態(tài)大模型的研發(fā)。公司核心團隊來自清華大學人工智能研究院,此外還包括來自北京大學和阿里巴巴、騰訊、字節(jié)跳動等科技公司的多位技術人才。
3月5日,甲子光年智庫發(fā)布報告,通過系統(tǒng)梳理以Sora為代表的AIGC視頻生成技術路線和演進趨勢,全面解析Sora的展現(xiàn)效果、技術貢獻、技術原理、實施路徑、局限性等,并探討其引發(fā)的世界模型之爭背后的本質。