Raymond SOTA AIGC: 大模型有何不同

2024年4月28日星期日

大模型有何不同

儘管 Instruct 模型和 Chat 模型看起來有些相似,但它們在訓練目標、對話風格、生成方式和上下文理解等方面有一些細微的區別。

Instruct 模型主要針對指令進行優化,目的是讓模型能夠更好地理解和執行用戶的指令。它的對話風格通常較為正式,以完成任務為目標。生成的內容基於用戶指令的明確要求,回答較為直接。此外,Instruct 模型對上下文的理解能力相對較強,能夠根據上下文內容執行複雜的指令。

而 Chat 模型則主要針對日常對話進行優化,旨在讓模型能夠與用戶進行更加自然、流暢的對話。它的對話風格更加自然親切,注重與用戶的互動和情感交流。生成的內容可能更加豐富多樣,包括觀點、建議、幽默等元素。不過,Chat 模型對上下文的理解能力相對較弱,更注重當前對話的流暢性。

在推理問題和小語種問題上,GPT-4 的效果仍然更好。但是像中文模型 Kimi 從 GPT 蒸餾大量資料,支持長文本上下文,並使用中文網路資料進行 RAG(Retrieval-Augmented Generation),在中文問答場景有一些優勢。但在英文、中文和其他小語種的召回和排序效果上,Embedding 模型和 rerank 模型的差異比較大。Embedding 嵌入模型的差別可能不會太大。從回答結果來看,雖然模型能夠理解意思,但回答方式的情商還有待提高。特別指出的是 RAG 架構,有的知識庫使用檢索增強,檢索的是資料庫;而 Kimi 則是搜索增強,搜索的是網路。

目前,Agent 開發平台的局面有點類似於當年"雲"的發展。當然,也有許多公司選擇不使用雲服務,而是自建機房。平台相的優勢在於:更低的門檻、更完善的生態,以及在大數據和商業化方面的豐富經驗。

在推理框架方面,目前最快的是 vllm。

ChatGPT 是基於 GPT-4 模型開發的,我們也能調用 GPT-4 模型。但你會發現,對於同一個問題,ChatGPT 的回答比直接調用 GPT-4 模型的 API 要好一些,情商也更高。這是因為 ChatGPT 背後的 GPT-4 模型經過了額外的訓練,比我們直接使用的 GPT-4 模型更擅長對話。

Raymond SOTA AIGC

code window

2024年4月28日星期日

大模型有何不同

沒有留言:

發佈留言

SambaNova SN40L: 利用Dataflow和專家組合(COE)來克服AI記憶牆的大模型

網誌封存

Code

舉報濫用