給Javaer看的大模型開發指南

作者：羊羽 2025-06-26 02:24:00

人工智能

在大模型API交互模式、業務集成模式經百家爭鳴現已趨于穩定的背景下，Spring作為Java生態里的OSS巨頭也下場為LLM提供生態支持，于近期釋出?spring-ai?正式版。

一、概述

二、什么是大模型

三、大模型的特點

1. 無狀態

2. 結構化輸出

3. 函數調用

四、大模型接口

1. 模型封裝

2. 接口輸入

3. 接口輸出

五、RAG架構

六、MCP協議

七、Spring-AI

1. 模型抽象

2. 聊天會話

3. RAG拓展

4. 代碼示例

八、智能體示例

1. 接口骨架

2. 構造外部函數定義

3. 系統提示詞

4. 發起調用

九、總結

一、概述

伴隨著大模型的性能提升、成本下降，在Web在線對話場景以外，大模型也越來越多的被集成到傳統業務場景。

在大模型API交互模式、業務集成模式經百家爭鳴現已趨于穩定的背景下，Spring作為Java生態里的OSS巨頭也下場為LLM提供生態支持，于近期釋出 spring-ai 正式版。

需要說明的是，Spring-AI 所提供的能力并不神秘，業務上也并非必須用Spring-AI不可。但是，就像過去Spring對新的數據庫、新的中間件提供生態支持一樣，Spring-AI提供了一套和Spring全家桶兼容并且語義一致、良好設計、易拓展的大模型交互的Java API，可以極大的降低LLM集成和開發的成本。

從大模型的工程化、實用化角度來說，當你厘清Spring-AI這一套API設施的邏輯后，事情最后還是會回歸到業務開發人最熟悉的CRUD領域。就像使用Mybatis操作MySQL一樣，我們會用 spring-ai 來操作大模型。

那我們開始今天的討論吧！

二、什么是大模型

大模型的舞臺上，從來不缺新面孔。自ChatGPT開啟AI新紀元后，各類大模型層出不窮。

但是我們不去考慮大模型的訓練原理、推理/運算架構、參數調優等較為復雜的數學范疇的東西，就像我們很少關心MySQL是怎么用代碼來實現效果的一樣。

此處類比我們熟悉的知識，對大模型有一個盲人摸象式的基礎且能夠自洽的認識即可。

從某種意義上來說，模型訓練就是通過分析海量文本（如維基百科、圖書、網頁等）尋找到人類語言的規律，再將這個規律固化成一個包含數十億【參數】的超級【數學公式】。就像簡單公式 y = 5x + 8 中的 5 和 8 ，這兩個【參數】決定了將輸入X如何轉化為輸出Y。
訓練好的【數學公式】就像代碼，需要部署在算力平臺上，借助【顯卡】的并行運算能力來實現高效運算。
用戶的輸入作為這個【數學公式】的入參，經公式運算后，得到相關的【輸出】。

圖片

假設大模型是上述的數學公式，不同的大模型「ChatGPT/DeepSeek」是不同的架構、不同的公式，那么模型訓練就是通過對海量文本的分析、學習，找到合適的參數值。

三、大模型的特點

接下來我們關注在工程應用場景下，需要開發人關注的大模型特點。

就像MySQL，我們集成時也需要關注不同的存儲引擎（InnoDB/MyISAM）的特點。

無狀態

圖片

大模型是沒有記憶、沒有狀態的，它是一個純函數。

它不知道之前跟你說過什么。所以每次進行大模型輸入的時候，我們需要根據業務場景把之前的【輸入】，【反饋】一并給它，避免大模型失憶導致的對話不流暢。

圖片

結構化輸出

大模型是具備結構化輸出能力的，雖然有些模型支持的不夠好，但是沒關系，只是支持的程度不同，重要的是它們都支持！

所謂的結構化輸出是指，大模型除了可以返回口語化、沒有模式的自然語言文本外，還可以按你需求給你返回其他的文本格式，比如：JSON。

圖片

你看，這像不像在調一個REST接口？甚至是一個萬能接口，畢竟大模型什么都會，不會的也可以現編。

圖片

函數調用

其實看到這里我們就可以實現一個大模型驅動的RPC調用引擎了！

圖片

大模型幫你推理、規劃得到了需要執行的函數和對應的函數參數，至于這個【函數名】對應的到底是一個進程內的方法、HTTP接口、Dubbo接口還是MCP接口都沒有那么重要，這只是智能體實現的一個技術細節而已。

我們可以用自然語言表述需求，同時告訴大模型有哪些輔助【工具/函數】可以供它備用。它會推理、編排這些工具來達成需求。

圖片

把用戶輸入和可用函數輸入給大模型，大模型推理發現需要調用外部函數，于是返回函數名+函數調用參數。
智能體捕獲輸出，對指定函數發起調用，再將用戶輸入和函數結果一起輸入到大模型，大模型基于這些上下文推理輸出結果。

考慮到大模型發起函數調用的普遍需求，大模型供應商一般都在API層面提供了【function call】能力，用于將文本輸出和函數調用輸出區分開，明白了原理，我們知道這只是API抽象層次的問題。

四、大模型接口

考慮到大模型對硬件資源的特別需求（如顯卡），所以大模型一般是獨立部署，以SaaS模式提供能力。就像MySQL對資源有特別的需求（如大內存），所以一般也是進行獨立部署。

圖片

訓練好的大模型就是一套二進制數據集，SaaS化需要做外圍的服務化、產品化封裝，同一套模型可以在不同的算力平臺部署，提供截然不同的服務化API。

模型封裝

示例偽代碼如下：

圖片

我們可以簡單看下當下比較熱門的幾大供應商提供的API文檔：

OpenAI-會話補全https://openai.apifox.cn/api-67883981
DeepSeek-會話補全https://api-docs.deepseek.com/zh-cn/api/create-chat-completion
硅基流動-會話補全https://docs.siliconflow.cn/cn/api-reference/chat-completions/chat-completions
Ollama-會話補全https://www.runoob.com/ollama/ollama-api.html

硅基流動和Ollama都屬于大模型算力/治理平臺。他們不研發大模型，只是大模型的搬運工。可以把大模型理解成微服務集群，把硅基流動和Ollama理解成微服務構建/發布平臺即可。

大概瀏覽一下，會發現核心API都差不多，畢竟有OpenAI珠玉在前，許多系統都已對接了OpenAI的API。后發的大模型為了兼容，降低接入難度，基本上也都和OpenAI的API大差不差。

就像是MySQL，盡管數據庫產品類型百花齊放，但都兼容SQL語法。

我們在此只討論【會話補全】這一點，會發現會話補全接口的輸入/輸出大概都是以下情況：

接口輸入

{
  "stream": false, // 是否是流式輸出(要不要SSE)
  "model": "deepseek-chat", //選用的哪個模型
  "messages": [ // 歷史對話消息，因為大模型無狀態，所以按場景提供一定數量的歷史消息
    {
      "content": "You are a helpful assistant",
      "role": "system"
    },
    {
      "content": "Hi", //消息內容
      "role": "user" //消息類型
    }
  ],
  "tools": null, //外部函數列表，【函數調用】能力在 API 層面的支持
  "frequency_penalty": 0,  //無關緊要的模型行為控制參數
  "presence_penalty": 0, //無關緊要的模型行為控制參數
  "temperature": 1, //無關緊要的模型行為控制參數
  "top_p": 1, //無關緊要的模型行為控制參數
  "logprobs": false, //無關緊要的模型行為控制參數
  "top_logprobs": null //無關緊要的模型行為控制參數
}

這里以目標達成作為要點，內容中部分不理解的參數可以忽略。

接口輸出

{
  "id": "<string>", //無關緊要
  "choices": [
    {
      "message": {
        "role": "assistant",
        "content": "<string>", // 大模型生成的內容
        "reasoning_content": "<string>",
        "tool_calls": [  //需要發起的【函數調用】
          {
            "id": "<string>",
            "type": "function",
            "function": {
              "name": "<string>",
              "arguments": "<string>"
            }
          }
        ]
      },
      "finish_reason": "stop" //有點重要，但是我們先不管
    }
  ],
  "usage": {  //token使用量 計數、計費
    "prompt_tokens": 123,
    "completion_tokens": 123,
    "total_tokens": 123
  },
  "created": 123,  //無關緊要
  "model": "<string>",  //無關緊要
  "object": "chat.completion"  //無關緊要
}

看到這里時，你是不是已經開始躍躍欲試了？是不是感覺打造一個垂直領域的智能體沒有想象中那么困難了~