2025年最新開源LLM成績徹底對比

2025最新開源LLM完整指南：性能、許可和實用性的徹底比較

在本文中，2025年出現的代表性開源LLM的徹底比較我會。它全面地解釋了決策所需的信息，不僅包括每個型號的技術特徵和性能指標，還包括許可條件和商業使用可用性，這些在實際開發站點中非常重要，因此請將此作為選擇最佳型號的實用指南。

2025最新開源LLM完整指南：性能、許可和實用性的徹底比較

①Meta Llama 4：實現大規模上下文處理和圖像識別
②Mistral AI Mistral Small 3.2：體積雖小，效率與精度卻驚人
③Google DeepMind Gemma 3：輕量級多語言通用移動法學碩士
④阿里巴巴Qwen 3：切換思維模式的“混合推理”AI
⑤DeepSeek團隊DeepSeek-R1：開放LLM中首個GPT-4級別推理能力
⑥OpenAI gpt-oss-120b/gpt-oss-20b：完全開放Apache授權版本的GPT
⑦微軟Phi-4家族：輕量級、高推理、MIT許可的通用模型
開源LLM模型對照表
摘要：開源法學碩士

①Meta Llama 4：實現大規模上下文處理和圖像識別

Meta 的 Llama 4 系列採用混合專家 (MoE) 架構，具有多模式功能，不僅支持文本輸入，還支持圖像輸入。

駱駝4的主要特點

Llama 4是Meta發布的最新一代LLM。採用專家混合 (MoE) 架構它具有支持文本和圖像輸入的多模式功能。

模型有兩種類型：“Scout”，總共 1090 億個參數（約 170 億個活躍參數）和“Maverick”，總共 4000 億個參數（約 170 億個活躍參數）。 Maverick 能夠處理多達約 100 萬個令牌的上下文，而 Scout 能夠處理 1000 萬個令牌的更長上下文，使其能夠同時處理大型文檔和復雜的交互歷史記錄。

駱駝4的表演

Meta 宣布 Llama 4 在某些基準測試中優於 OpenAI 的 GPT-4o。特別是，據說在“LMArena”評估中優於GPT-4o，但這是經過對話優化的私有版本的結果，並且已經指出了與公共模型的差異。

然而，4000億參數類模型的開放提供是革命性的，它在代碼生成和數學問題等廣泛領域展示了接近GPT-4的高性能。

Llama 4 許可和商業用途

Llama 4 是根據 Meta 獨特的“社區許可證”提供的。月活躍用戶超過7億的服務的商業使用受到限制。因此，需要單獨的許可。

此外，禁止使用輸出來訓練其他模型，方便中小型開發者使用，但對大型平台公司施加限制。

②Mistral AI Mistral Small 3.2：體積雖小，效率與精度卻驚人

Mistral Small 3.2 於 2025 年 6 月發布240 億個參數雖然是比較小的模型，但由於獨特的優化極其高效和高性能我們正在意識到這一點。

Mistral Small 3.2的主要特點

Mistral Small 3.2是法國Mistral AI公司發布的具有240億個參數的中型模型。其前身 Mistral 3.1 與 Llama 3.3 具有相同的質量（700 億個參數），但在響應速度上優於 Llama 3.3。

3.2中，跟隨指令的能力和穩定性得到了提高，函數調用的可靠性也得到了提高。在HumanEval基準測試中達到了92.90%的準確率，編程性能也得到了增強。它還支持高達 128k 令牌和圖像輸入的長上下文處理，使其適合 RAG 和多模式代理應用程序。

Mistral Small 3.2的性能

3.1 的改進已被證實可以減少無限循環響應並提高對指令的遵從性。此外，雖然重量輕，但與 OpenAI GPT-4o mini 相比，其品質和響應速度更出色，具有效率和性能兼具的特點。

Mistral Small 3 系列許可和商業用途

它是在 Apache 2.0 許可下發布的，可以免費用於商業和非商業目的。修改或重新分發沒有限制，這使其成為小型企業和初創公司的經濟高效的選擇。

③Google DeepMind Gemma 3：輕量級多語言通用移動法學碩士

Google DeepMind 的 Gemma 3 系列採用了 Google 內部尖端模型“Gemini”的技術，輕便高效機型它被設計為。

Gemma 3的主要特點

Gemma 3 是 Google DeepMind 發布的一組開放模型，設計時強調輕量級和高效性。它是一個多模態模型，除了文本之外還支持圖像輸入，並且有多個陣容，參數大小從2.7億到270億不等。即使是最大的模型，也能通過單個 GPU/TPU 實現實時運算的效率。

上下文長度高達 128k token，多語言支持約 140 種語言，適用於翻譯和國際 QA 系統。移動版 Gemma 3n 也已推出，可在邊緣設備上使用。

傑瑪3的表現

這個 270 億個模型使用 14 萬億個代幣進行訓練，比其他同等規模的模型效率更高。除了文本生成、摘要和推理之外，還可以進行圖像分析和解釋。谷歌強調效率與準確性的結合，得到了開發者社區的高度評價。

Gemma 3 許可和商業用途

它是根據 Google 自己的許可證（稱為“Gemma 許可證”）提供的，可以進行商業用途，但 Google 保留在檢測到未經授權的使用時暫停使用的權利。對於中小型使用沒有大問題，但對於關鍵任務應用程序需要風險管理。

④阿里巴巴Qwen 3：切換思維模式的“混合推理”AI

Qwen 3系列是中國阿里雲於2025年4月發布的最新一代開源LLM，具有“混合推理”能力。

Qwen 3主要特點

阿里雲發布的Qwen 3系列是一個大家族，一次性發布了8類模型，參數數量從6000萬到2350億不等。旗艦產品 Qwen3-235B-A22B 包括 MoE 和緊密耦合模型，在代碼生成和數學任務方面可與最先進的模型相媲美。它的特點是“混合推理”，可以讓你在思維模式之間切換，讓你使用快速反應和逐步反思推理。

Qwen 3的性能

它使用思維模式來提高複雜任務的準確性，並具有快速響應簡單問題的靈活性。學習 119 種語言，在翻譯和多語言 QA 方面具有優勢。背後有36萬億代幣的學習數據，被評為中國最強的開放模型之一。

Qwen 3 許可和商業用途

它根據 Apache 2.0 許可證提供，可免費用於商業用途、修改和重新分發。阿里巴巴官方允許抱臉等網站商業使用並分配權重。此外由於法規的原因，一些高級型號僅限於 API。整體而言，作為一個純粹的開源正在引起全世界的關注。

⑤DeepSeek團隊DeepSeek-R1：開放LLM中首個GPT-4級別推理能力

DeepSeek-R1DeepSeek-R1將於2025年初推出。深度搜索它是一個開源的LLM，由一個名為（可能是來自中國的初創公司）的研究團隊發布。

DeepSeek-R1的主要特點

DeepSeek 團隊發布的開源法學碩士，利用獨特的強化學習來增強邏輯推理能力。「GRPO」介紹了。基礎模型為MoE結構的DeepSeek-V3，通過自我驗證學習獲得高級思維能力。

DeepSeek-R1 性能

它在 AIME 2024 中取得了 79.8% 的高分，表現優於 GPT-4 和 Claude。它可與 OpenAI 在 MATH-500 和 SWE-bench 中的推理專業模型“o1”相媲美，並作為“第一個推理能力可與 GPT-4 相媲美的開放式 LLM”而受到關注。它還用於將知識提煉成小模型，有助於提高整個開放社區的性能。

DeepSeek-R1 許可和商業用途

最初是在 MIT 許可證下發布的，現在已轉移到 Apache 2.0。它完全免費用於商業用途、修改和重新分發，並且公司也可以將其合併到他們的服務中。事實上，廣泛的應用正在取得進展，基於 R1 的小型模型出現在競賽中。

⑥OpenAI gpt-oss-120b/gpt-oss-20b：完全開放Apache授權版本的GPT

gpt-oss系列陣容包括大型“gpt-oss-120b”和輕量級“gpt-oss-20b”。

gpt-oss的主要特點

gpt-oss-120b是一個專家混合 (MoE) 結構化模型，具有約 1170 億個參數，能夠對多達 128K 個令牌進行長上下文處理。經過優化，可在單個 80 GB GPU 上運行，以提高計算效率。

另一方面，gpt-oss-20b是一個輕量級模型，擁有約 210 億個參數，並具有資源節約型設計，使其可以在配備 16 GB 內存的筆記本電腦和智能手機上運行。

gpt-oss性能

在性能方面，gpt-oss-120b表現出了與OpenAI內部模型“o4-mini”相當的性能，並在數學（AIME 2024/25）、一般問題（MMLU、HLE）、代碼生成（Codeforces）和醫療信息（HealthBench）等各種基準測試中獲得了很高的評價。

此外，gpt-oss-20b還表現出與o3-mini相同或更好的性能，即使在小規模環境下也能實現尖端的AI處理。

gpt-oss系列許可及商業使用

一個主要特點是它是在完全開放的Apache 2.0許可證下提供的，可以免費用於商業和非商業目的。

⑦微軟Phi-4家族：輕量級、高推理、MIT許可的通用模型

Phi-4系列由微軟研究院開發，是一個開源的LLM家族，輕量級、高效、具有先進的推理性能。

Phi-4（基本型）

Phi-4是一個14B參數規模的基礎模型，支持16k token的上下文長度。它在結合了合成數據、高質量公共領域數據、學術書籍和問答的數據集上進行訓練，使用 SFT（監督微調）和 DPO（直接選擇優化）來增強安全性並遵循指令。它在 MMLU (84.8)、MATH (80.4) 和 HumanEval (82.6) 等基準測試中表現出色，為通用模型奠定了良好的基礎。

Phi-4-推理 / Phi-4-推理-Plus

推理專用型模型組，前者基於Phi-4並通過SFT進行調整，後者通過引入RL進一步增強。在 AIME 和科學領域的困難基準測試中表現出超越 DeepSeek-R1 系列大型模型的性能。它的優勢在於即使在計算資源有限的環境中也能實現高推理能力和效率。

Phi-4-迷你推理

雖然是3.8B參數的輕量級模型，但是號稱128k token。支持超長上下文處理。通過利用來自 DeepSeek-R1 等高性能模型的提取和合成數據，我們以緊湊的尺寸實現了高級數學推理功能。它適用於教育用途、移動邊緣推理應用，並且在資源減少的環境中運行良好。

Phi-4-迷你指令

它也是一個輕量級模型，支持 3.8B 參數和 128k 代幣，但是這個是強調指令遵循性能這是一種設計。使用合成數據和公共領域數據的 SFT/DPO 提高了安全性和穩定性，並且在 MMLU-Pro、GPQA、ARC 和 BoolQ 等各種基准上與 Llama 3.2-3B 和 Mistral-3B 等類似模型競爭或優於類似模型。

許可和商業使用

所有 Phi-4 系列成員均在 MIT 許可下發布。商業用途沒有限制。它有多種變體，從輕量級到專門用於推理，其特點是能夠部署在從教育領域到邊緣環境、研究和開發以及商業應用的廣泛應用中。

下表總結了每種型號的主要功能、性能點、許可證形式和商業可用性。

摘要：開源法學碩士

在快速發展的LLM開源領域，選項在性能和實用性方面不斷擴大，但關注許可證的內容也很重要。對於工程師和研究人員來說，從性能和許可角度考慮適合其項目的模型非常重要。讓我們明智地使用開源法學碩士，並考慮到每個模型的特點。