Sebastian Raschka著作免費開放!《機器學習與AI核心30問》,新手專家皆宜
知名 AI 技術博主、《Python 機器學習》作者 Sebastian Raschka 又來放福利了!
今天,他宣布,正值夏季實習和技術面試之際,自己著作《機器學習 Q 與 AI:30 個必備問答》的全部 30 章內容免費開放。他希望能為大家帶來幫助,并祝面試的小伙伴好運。
這本書紙質版(+ 電子版)原價 49.99 美元(約合 358 元),電子版原價 39.9 美元(約合 286 元)。
如今,機器學習和人工智能領域正以前所未有的速度發展。研究人員和從業者常常疲于追趕層出不窮的概念與技術。
本書為你的成長旅途提供了碎片化的知識精華 —— 從機器學習新手到專家,涵蓋多個領域的主題。即便是經驗豐富的機器學習研究者和從業者,也能從中發現可納入自身技能庫的新內容。
評論區有人問,「這本書是用 AI 寫的嗎?」Sebastian 稱當然不是,這樣做違背他的個人倫理。有趣的是:這本書的大部分內容寫于 2022 年 11 月第一版 ChatGPT 發布前的幾個月,最開始是在 LeanPub 上發布,后來在 2024 年由 No Starch 出版社出版。這本書可能曾是 ChatGPT 的訓練數據。
Sebastian 還鏈接到了自己 2023 年 1 月關于本書的一則動態,他向書中添加了很多新內容,包括無狀態與有狀態訓練、恰當評估指標以及有限標注數據。
Sebastian 的這本書收獲了很多普通讀者與業界同行的好評。
《Designing Machine Learning Systems》一書的作者 Chip Huyen 表示,「Sebastian 獨特地融合了學術深度、工程敏捷性以及化繁為簡的能力。他能深入探討任何理論主題,通過實驗驗證新想法,然后用簡單的語言向你解釋清楚。如果你正開啟機器學習之旅,這本書就是你的向導。」
《How AI Works》一書的作者 Ronald T. Kneusel 稱,Sebastian 的書籍《機器學習 Q 和 AI》,是關于大多數入門課程未涵蓋的關鍵 AI 主題概述的一站式指南…… 如果你已經通過深度神經網絡踏入了 AI 世界,那么這本書將為你提供定位和理解下一階段所需的知識。
接下來,我們看看這本書涵蓋了哪些內容。
書籍介紹
本書共有 5 大部分,30 個章節。
第一部分講「神經網絡和機器學習」,包括如下主題:
第 1 章:嵌入、隱空間與表征。
深入解析嵌入向量、隱向量與表示的異同,闡述這些概念如何幫助機器學習模型編碼信息。
第 2 章:自監督學習。
聚焦自監督學習方法,該技術使神經網絡能夠以監督學習的方式利用大規模無標注數據集。
第 3 章:少樣本學習。
介紹專為小規模訓練數據集設計的監督學習技術 —— 少樣本學習。
第 4 章:彩票假設。
探討「隨機初始化的神經網絡中包含更小的有效子網絡」這一理論。
第 5 章:利用數據減少過擬合。
針對機器學習中的過擬合問題,討論以數據增強和無標注數據利用為核心的解決方案。
第 6 章:通過模型修改減少過擬合。
延續過擬合討論,重點分析正則化、簡化模型結構和集成學習等模型層面的解決方法。
第 7 章:多 GPU 訓練范式。
詳解數據并行與模型并行等多 GPU 加速訓練方案。
第 8 章:Transformers 的成功。
解析 Transformer 架構流行起來的原因,包括注意力機制、并行化優勢和高參數量等關鍵特性。
第 9 章:生成式 AI 模型。
全面綜述能生成圖像、文本和音頻等多媒體內容的深度生成模型,分析各類模型的優缺點。
第 10 章:隨機性來源。
剖析深度神經網絡訓練中可能導致結果不一致的隨機性因素(包括訓練和推理階段)。這些隨機性既可能來自意外因素,也可能是設計者有意引入。
第二部分講「計算機視覺」,包含如下主題:
第 11 章:計算參數量。
詳細解析卷積神經網絡(CNN)中參數量的計算方法,該技術對于評估模型的存儲與內存需求至關重要。
第 12 章:全連接層和卷積層。
探討卷積層在何種場景下可完全替代全連接層,這對硬件優化或模型簡化具有重要實踐價值。
第 13 章:ViT(Vision Transformers)的大型訓練集。
深入研究視覺 Transformer(ViT)相比傳統卷積神經網絡(CNN)為何需要更大量訓練數據的內在機理。
第三部分講「自然語言處理」,包含如下主題:
第 14 章:分布假說。
深入探討分布假說,該語言學理論認為,出現在相同上下文中的詞語往往具有相似含義,這一理論對機器學習模型的訓練具有重要指導意義。
第 15 章:文本數據增強。
重點介紹文本數據增強技術,該方法通過人工擴展數據集規模,能有效提升模型性能。
第 16 章:自注意力。
解析自注意力機制,該技術使神經網絡的每個輸入片段都能與其他部分建立關聯,是現代大語言模型的核心組件。
第 17 章:編碼器 — 解碼器風格的 Transformers。
詳細對比編碼器和解碼器兩類 Transformer 架構的差異,并闡明不同架構在各類語言處理任務中的適用場景。
第 18 章:使用和微調預訓練 Transformers。
系統闡述預訓練大語言模型的微調方法,并分析不同方法的優勢與局限性。
第 19 章:評估生成式大語言模型。
列舉困惑度(Perplexity)、BLEU、ROUGE 和 BERTScore 等主流語言模型評估指標。
第四部分講「生產和部署」,包含如下主題:
第 20 章:無狀態和有狀態訓練。
區分模型部署中使用的無狀態與有狀態訓練方法,闡明兩者在實時推理與持續學習中的不同應用場景。
第 21 章:以數據為中心的 AI。
探討以數據為中心的 AI 范式,該范式通過優化數據集(而非調整模型架構)來提升性能,與傳統以模型為中心(Model-Centric)的方法形成鮮明對比。
第 22 章:加速推理。
介紹不改變模型架構且不損失精度的推理加速方法,包括模型量化、知識蒸餾等關鍵技術。
第 23 章:數據分布偏移。
解析 AI 模型部署后可能面臨的訓練數據與實際數據分布偏移問題,系統分類并闡述以下常見偏移類型:協變量偏移、概念漂移、標簽偏移和領域偏移。
第五部分講「預測性能和模型評估」,包含如下主題:
第 24 章:泊松回歸與有序回歸。
重點解析泊松回歸與有序回歸的區別,泊松回歸適用于符合泊松分布的計數數據(如飛機上感冒感染人數),而有序回歸則針對有序分類數據(如疾病嚴重程度分級),且不預設類別間距相等。
第 25 章:置信區間。
深入探討機器學習分類器置信區間的構建方法,首先闡述置信區間的核心作用 —— 估計未知總體參數,隨后系統介紹三大關鍵技術:正態近似區間法、自助法以及多隨機種子重訓練法。
第 26 章:置信區間 vs. 保形預測。
深入辨析置信區間與保形預測的本質差異:置信區間聚焦參數估計的不確定性,而保形預測則是構建具有確定概率保證(如 95%)的預測區間,確保能夠覆蓋真實觀測值的關鍵技術。
第 27 章:恰當評估指標。
著重闡釋優秀評估指標在數學與計算機科學領域應具備的核心特性,并系統驗證機器學習常用損失函數(如均方誤差 MSE、交叉熵損失 Cross-Entropy Loss)是否符合這些特性。
第 28 章:k 折交叉驗證中的 k。
深入探討 k 折交叉驗證中 k 值參數的核心作用,系統性地分析選擇較大 k 值時需要權衡的利弊關系。
第 29 章:訓練集與測試集分布差異。
針對模型在測試集上表現優于訓練集的情況,本文提出了解決方案。通過分析訓練集與測試集之間的分布差異,介紹了對抗驗證的概念及其應用策略,以識別并解決兩類數據集間的偏差問題。
第 30 章:有限標注數據。
介紹在數據有限的情況下提升模型性能的多種技術方法,涵蓋數據標注、自助采樣以及遷移學習、主動學習和多模態學習等范式,以有效應對小樣本場景下的機器學習挑戰。
- 書籍鏈接:https://sebastianraschka.com/books/ml-q-and-ai/#table-of-contents
- GitHub 地址:https://github.com/rasbt/MachineLearning-QandAI-book