成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

這就翻車了?Reflection 70B遭質疑基模為Llama 3,作者:重新訓練

人工智能 新聞
Reflection 70B 能不能經受住社區的考驗呢?今天 AI 模型獨立分析機構 Artificial Analysis 進行了獨立評估測試,結果有點出乎意料。

最近,開源大模型社區再次「熱鬧」了起來,主角是 AI 寫作初創公司 HyperWrite 開發的新模型 Reflection 70B。最近,開源大模型社區再次「熱鬧」了起來,主角是 AI 寫作初創公司 HyperWrite 開發的新模型 Reflection 70B。

它的底層模型建立在 Meta Llama 3.1 70B Instruct 上,并使用原始的 Llama chat 格式,確保了與現有工具和 pipeline 的兼容性。

這個模型橫掃了 MMLU、MATH、IFEval、GSM8K,在每項基準測試上都超過了 GPT-4o,還擊敗了 405B 的 Llama 3.1。

憑借如此驚艷的效果,Reflection 70B 被冠以開源大模型新王。該模型更是由兩位開發者(HyperWrite CEO Matt Shumer 和 Glaive AI 創始人 Sahil Chaudhary)花了 3 周完成,效率可謂驚人。

Reflection 70B 能不能經受住社區的考驗呢?今天 AI 模型獨立分析機構 Artificial Analysis 進行了獨立評估測試,結果有點出乎意料。

該機構表示,Reflection Llama 3.1 70B 的 MMLU 得分僅與 Llama 3 70B 相同,并且明顯低于 Llama 3.1 70B。

圖源:https://x.com/ArtificialAnlys/status/1832505338991395131

還有科學推理與知識(GPQA)和定量推理(MATH)基準測試的結果,同樣不如 Llama 3.1 70B。

圖源:https://x.com/ArtificialAnlys/status/1832457791010959539

此外,Reddit 上 LocalLLaMA 社區的一個帖子比較了 Reflection 70B 與Llama 3.1、Llama 3 權重的差異,結果顯示,Reflection 模型似乎是使用了經過 LoRA 調整的 Llama 3 而不是 Llama 3.1。

貼主還提供了以上模型權重比較結果的代碼來源。


from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
import matplotlib.pyplot as plt
import seaborn as sns

base_model_name = "meta-llama/Meta-Llama-3-70B-Instruct"
chat_model_name = "mattshumer/Reflection-Llama-3.1-70B"
base_model = AutoModelForCausalLM.from_pretrained(base_model_name, torch_dtype=torch.bfloat16)
chat_model = AutoModelForCausalLM.from_pretrained(chat_model_name, torch_dtype=torch.bfloat16)

def calculate_weight_diff(base_weight, chat_weight):
    return torch.abs(base_weight - chat_weight).mean().item()

def calculate_layer_diffs(base_model, chat_model):
    layer_diffs = []
    for base_layer, chat_layer in zip(base_model.model.layers, chat_model.model.layers):
        layer_diff = {
            'input_layernorm': calculate_weight_diff(base_layer.input_layernorm.weight, chat_layer.input_layernorm.weight),
            # 'mlp_down_proj': calculate_weight_diff(base_layer.mlp.down_proj.weight, chat_layer.mlp.down_proj.weight),
            # 'mlp_gate_proj': calculate_weight_diff(base_layer.mlp.gate_proj.weight, chat_layer.mlp.gate_proj.weight),
            # 'mlp_up_proj': calculate_weight_diff(base_layer.mlp.up_proj.weight, chat_layer.mlp.up_proj.weight),
            'post_attention_layernorm': calculate_weight_diff(base_layer.post_attention_layernorm.weight, chat_layer.post_attention_layernorm.weight),
            'self_attn_q_proj': calculate_weight_diff(base_layer.self_attn.q_proj.weight, chat_layer.self_attn.q_proj.weight),
            'self_attn_k_proj': calculate_weight_diff(base_layer.self_attn.k_proj.weight, chat_layer.self_attn.k_proj.weight),
            'self_attn_v_proj': calculate_weight_diff(base_layer.self_attn.v_proj.weight, chat_layer.self_attn.v_proj.weight),
            'self_attn_o_proj': calculate_weight_diff(base_layer.self_attn.o_proj.weight, chat_layer.self_attn.o_proj.weight)
        }
        layer_diffs.append(layer_diff)
    return layer_diffs

def visualize_layer_diffs(layer_diffs):
    num_layers = len(layer_diffs)
    num_components = len(layer_diffs[0])

    fig, axs = plt.subplots(1, num_components, figsize=(24, 8))
    fig.suptitle(f"{base_model_name} <> {chat_model_name}", fontsize=16)

    for i, component in enumerate(layer_diffs[0].keys()):
        component_diffs = [[layer_diff[component]] for layer_diff in layer_diffs]
        sns.heatmap(component_diffs, annot=True, fmt=".6f", cmap="YlGnBu", ax=axs[i], cbar_kws={"shrink": 0.8})
        axs[i].set_title(component)
        axs[i].set_xlabel("Layer")
        axs[i].set_ylabel("Difference")
        axs[i].set_xticks([])
        axs[i].set_yticks(range(num_layers))
        axs[i].set_yticklabels(range(num_layers))
        axs[i].invert_yaxis()

    plt.tight_layout()
    plt.show()

layer_diffs = calculate_layer_diffs(base_model, chat_model)

visualize_layer_diffs(layer_diffs)

還有人貼出了 Matt Shumer 在 Hugging Face 對 Reflection 70B 配置文件名稱的更改,可以看到從 Llama 3 70B Instruct 到 Llama 3.1 70B Instruct 的變化。

圖片圖片

這樣的事實擺在眼前,似乎讓人不得不信。各路網友也開始發聲附和,有人表示自己從一開始就懷疑它是 Llama 3,當用德語問模型一些事情時,它卻用英語回答。這種行為對于 Llama 3 非常常見。

圖片圖片

還有人奇怪為什么 Reflection 70B 模型一開始就得到了如此多的炒作和關注,畢竟第一個談論它是「頂級開源模型」的人是開發者本人(Matt)。而且更確切地說,模型是微調的。

圖片圖片

更有人開始質疑開發者(Matt),認為他只是這家公司(GlaiveAI)的利益相關者,試圖通過炒作來增加價值,實際上卻對這項技術一無所知。

圖片圖片

在被質疑 Reflection 70B 的基礎模型可能是 Llama 3 而非 Llama 3.1 70B 時,Matt Shumer 坐不住了,現身進行了澄清,并表示是 Hugging Face 權重出現了問題。

圖片圖片

就在幾個小時前,Matt Shumer 稱已經重新上傳了權重,但仍然存在問題。同時他們開始重新訓練模型并上傳,從而消除任何可能出現的問題,應該很快就會完成。

圖片圖片

當被問到為何需要重新訓練時,Matt Shumer 表示本不需要這樣做,但已經嘗試了所有方法。無論做什么,Hugging Face 上 Reflection 70B 模型都會出現問題,導致離預期中的性能差得遠。

圖片圖片

當然 Matt Shumer 還面臨更多質疑,比如對 GlaiveAI 的投資情況、為什么 Hugging Face 上的基礎模型為 Llama 3 而不是 Llama 3.1 以及基準中有關 LORAing 的問題。

圖片圖片

Matt Shumer 一一進行了解釋。(以下標引用)

  1. 我是一個超級小的投資者(1000 美元),只是一次支持性的投資,因為我認為 Sahil Chaudhary 很棒。
  2. 至于為什么基礎模型是 Llama 3,我們不知道。這就是為什么我們從頭開始再訓練,應該很快完成。
  3. 那些嘗試了 Playground 并擁有早期訪問權限的用戶獲得了與托管 API 截然不同的體驗,我們需要弄清楚這一點。
  4. 不確定什么是 LORAing,但我們檢查了污染,將在下周與 405B(或更早)一起發布數據集,到時候可以查看。

至于重新訓練后的 Reflection 70B 表現如何?我們拭目以待。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-06-05 08:33:29

2024-12-09 07:10:00

Llama 3.3GeminiGPT-4.5

2024-07-02 09:20:59

2024-04-09 13:21:00

AI開源

2024-05-30 12:50:05

2024-08-26 10:00:00

模型數據

2024-09-09 08:50:00

2024-04-19 10:32:08

2024-04-26 07:48:45

DockerLLama3模型

2024-09-14 09:31:00

2024-11-25 08:10:00

2024-12-13 14:03:44

模型訓練AI

2024-11-13 15:00:42

2024-04-30 08:28:44

開源大模型Llama

2025-03-31 09:46:00

2024-07-23 09:20:35

2024-04-19 08:01:01

Llama 3 8BMeta

2024-04-29 12:14:03

模型數據開源

2011-12-06 10:04:03

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产香蕉视频在线播放 | 久久综合一区 | 午夜久久久久久久久久一区二区 | 一区二区久久 | 久久久久亚洲精品中文字幕 | www.婷婷 | 日韩一区二区在线视频 | 久久久久久国产精品 | 亚洲成人一区 | 亚洲一二三在线观看 | 视频在线亚洲 | 成年人免费在线视频 | 99pao成人国产永久免费视频 | 日韩精品一二三 | 中文字幕日本一区二区 | 国产精品视频在线播放 | 久久国产精品视频 | 国产精品久久久久久久一区探花 | 日韩欧美不卡 | 国产免费一区二区三区免费视频 | 欧洲性生活视频 | 欧美性受xxxx白人性爽 | 国产精品久久久久久久久免费桃花 | 欧美bondage紧缚视频 | 国产精品视频一区二区三区四蜜臂 | 91看片网 | 国产1区2区3区 | 亚洲综合视频 | 欧美四虎 | 久久久久久国产 | 黄色大片视频 | 成人免费毛片片v | 午夜精品久久久 | 天天操 天天操 | 欧美激情一区二区 | 国产无套一区二区三区久久 | 久久国产欧美日韩精品 | www.毛片| 欧美亚洲国产成人 | 国产线视频精品免费观看视频 | 国产精品视频免费观看 |