一文講透深入理解邏輯回歸

發(fā)布于 2025-6-17 06:35

瀏覽

0收藏

什么是邏輯回歸

本文討論邏輯回歸的基礎(chǔ)知識(shí)及其在Python中的實(shí)現(xiàn)。邏輯回歸基本上是一種有監(jiān)督分類算法。在分類問(wèn)題中，目標(biāo)變量（或輸出）y 對(duì)于給定的一組特征（或輸入）X ，且X只能取離散值。
有一點(diǎn)與流行的看法相反地是，我認(rèn)為邏輯回歸是一種回歸模型。該模型建立一個(gè)回歸模型來(lái)預(yù)測(cè)給定數(shù)據(jù)條目屬于編號(hào)為“1”的類別的概率。就像線性回歸假設(shè)數(shù)據(jù)遵循線性函數(shù)一樣，邏輯回歸只是使用sigmoid函數(shù)對(duì)數(shù)據(jù)建模。

一文講透深入理解邏輯回歸-AI.x社區(qū)

僅當(dāng)將決策閾值引入時(shí)，邏輯回歸才成為一種分類技術(shù)。閾值的設(shè)置是Logistic回歸的一個(gè)很重要的方面，依賴于分類問(wèn)題本身。

閾值的取值主要受精確率和召回率的影響。理想情況下，我們希望精確率和召回率都為1，但這種情況很少發(fā)生。

高低精度/召回情況

在Precision-Recall平衡的情況下，我們使用以下參數(shù)來(lái)決定閾值：

低精度/高召回率：在我們一定要報(bào)出來(lái)但精度不要求高的應(yīng)用中，我們選擇具有低精度/高召回率的模型。例如，在癌癥診斷應(yīng)用程序中，我們不希望任何受影響的患者被歸類為未受影響，而無(wú)需過(guò)多注意患者是否被錯(cuò)誤診斷為癌癥。這是因?yàn)闆](méi)有癌癥可以通過(guò)進(jìn)一步的醫(yī)學(xué)疾病檢測(cè)到，但不能漏篩，如果漏篩會(huì)對(duì)患者造成嚴(yán)重后果，精度保證可以接著后續(xù)檢查得出。
高精度/低召回率：在我們想要預(yù)測(cè)準(zhǔn)的場(chǎng)景下，我們要選擇具有高精度/低召回率的模型。例如，如果我們要對(duì)客戶進(jìn)行分類，判斷他們對(duì)個(gè)性化廣告的反應(yīng)是積極還是消極，我們希望絕對(duì)確定客戶會(huì)對(duì)廣告做出積極反應(yīng)，否則錯(cuò)誤預(yù)測(cè)消極反應(yīng)可能會(huì)導(dǎo)致潛在銷(xiāo)售損失顧客。

根據(jù)類別的數(shù)量，邏輯回歸可以分為：

二項(xiàng)式：目標(biāo)變量只能有兩種可能的類型：“0”或“1”，可能代表“贏”與“輸”、“通過(guò)”與“失敗”、“死”與“活”等。
多項(xiàng)式：目標(biāo)變量可以有 3 種或更多可能的類型，這些類型沒(méi)有順序（即類型沒(méi)有數(shù)量意義），如“疾病 A”、“疾病 B”和“疾病 C”。
序數(shù)：它處理具有有序類別的目標(biāo)變量。例如，考試成績(jī)可以分為：“很差”、“差”、“好”、“很好”。在這里，可以為每個(gè)類別分配一個(gè)分?jǐn)?shù)，例如 0、1、2、3。

舉個(gè)栗子

首先，我們探索邏輯回歸的最簡(jiǎn)單形式，即二項(xiàng)式邏輯回歸。考慮一個(gè)示例數(shù)據(jù)集，它將學(xué)習(xí)的小時(shí)數(shù)與考試結(jié)果進(jìn)行映射。結(jié)果只能取兩個(gè)值，即 passed(1) 或 failed(0)：

小時(shí)(x)  通過(guò)(y)
0.50  0
0.75  0
1.00  0
1.25  0
1.50  1
1.75  0
2.00  1
2.25  1
2.50  1
2.75  1
3.00  0
3.25  0
3.50  0
3.75  1
4.00  0
4.25  0
4.50  1
4.75  0
5.00  0
5.50  0

所以，我們有

一文講透深入理解邏輯回歸-AI.x社區(qū)

即 y 是一個(gè)分類目標(biāo)變量，它只能采用兩種可能的類型：“0”或“1”。

為了推廣我們的模型，我們假設(shè)：

該數(shù)據(jù)集具有“p”個(gè)特征變量和“n”個(gè)觀測(cè)值。特征矩陣表示為：

一文講透深入理解邏輯回歸-AI.x社區(qū)

然后，以更緊湊的形式，

一文講透深入理解邏輯回歸-AI.x社區(qū)

所以，

一文講透深入理解邏輯回歸-AI.x社區(qū)

稱為邏輯函數(shù)或sigmoid函數(shù)。

這是顯示 g(z) 的圖：

一文講透深入理解邏輯回歸-AI.x社區(qū)

從上圖我們可以推斷：

一文講透深入理解邏輯回歸-AI.x社區(qū)

Python代碼示例

import csv
import numpy as np
import matplotlib.pyplot as plt


def loadCSV(filename):
 '''
 function to load dataset
 '''
 with open(filename,"r") as csvfile:
  lines = csv.reader(csvfile)
  dataset = list(lines)
  for i in range(len(dataset)):
   dataset[i] = [float(x) for x in dataset[i]] 
 return np.array(dataset)


def normalize(X):
 '''
 function to normalize feature matrix, X
 '''
 mins = np.min(X, axis = 0)
 maxs = np.max(X, axis = 0)
 rng = maxs - mins
 norm_X = 1 - ((maxs - X)/rng)
 return norm_X


def logistic_func(beta, X):
 '''
 logistic(sigmoid) function
 '''
 return 1.0/(1 + np.exp(-np.dot(X, beta.T)))


def log_gradient(beta, X, y):
 '''
 logistic gradient function
 '''
 first_calc = logistic_func(beta, X) - y.reshape(X.shape[0], -1)
 final_calc = np.dot(first_calc.T, X)
 return final_calc


def cost_func(beta, X, y):
 '''
 cost function, J
 '''
 log_func_v = logistic_func(beta, X)
 y = np.squeeze(y)
 step1 = y * np.log(log_func_v)
 step2 = (1 - y) * np.log(1 - log_func_v)
 final = -step1 - step2
 return np.mean(final)


def grad_desc(X, y, beta, lr=.01, converge_change=.001):
 '''
 gradient descent function
 '''
 cost = cost_func(beta, X, y)
 change_cost = 1
 num_iter = 1
 
 while(change_cost > converge_change):
  old_cost = cost
  beta = beta - (lr * log_gradient(beta, X, y))
  cost = cost_func(beta, X, y)
  change_cost = old_cost - cost
  num_iter += 1
 
 return beta, num_iter


def pred_values(beta, X):
 '''
 function to predict labels
 '''
 pred_prob = logistic_func(beta, X)
 pred_value = np.where(pred_prob >= .5, 1, 0)
 return np.squeeze(pred_value)


def plot_reg(X, y, beta):
 '''
 function to plot decision boundary
 '''
 # labelled observations
 x_0 = X[np.where(y == 0.0)]
 x_1 = X[np.where(y == 1.0)]
 
 # plotting points with diff color for diff label
 plt.scatter([x_0[:, 1]], [x_0[:, 2]], c='b', label='y = 0')
 plt.scatter([x_1[:, 1]], [x_1[:, 2]], c='r', label='y = 1')
 
 # plotting decision boundary
 x1 = np.arange(0, 1, 0.1)
 x2 = -(beta[0,0] + beta[0,1]*x1)/beta[0,2]
 plt.plot(x1, x2, c='k', label='reg line')

 plt.xlabel('x1')
 plt.ylabel('x2')
 plt.legend()
 plt.show()
 

 
if __name__ == "__main__":
 # load the dataset
 dataset = loadCSV('dataset1.csv')
 
 # normalizing feature matrix
 X = normalize(dataset[:, :-1])
 
 # stacking columns with all ones in feature matrix
 X = np.hstack((np.matrix(np.ones(X.shape[0])).T, X))

 # response vector
 y = dataset[:, -1]

 # initial beta values
 beta = np.matrix(np.zeros(X.shape[1]))

 # beta values after running gradient descent
 beta, num_iter = grad_desc(X, y, beta)

 # estimated beta values and number of iterations
 print("Estimated regression coefficients:", beta)
 print("No. of iterations:", num_iter)

 # predicted labels
 y_pred = pred_values(beta, X)
 
 # number of correctly predicted labels
 print("Correctly predicted labels:", np.sum(y == y_pred))
 
 # plotting regression line
 plot_reg(X, y, beta)

最終結(jié)果：

估計(jì)回歸系數(shù)：[[ 1.70474504 15.04062212 -20.47216021]]
迭代次數(shù)：2612
正確預(yù)測(cè)標(biāo)簽：100

一文講透深入理解邏輯回歸-AI.x社區(qū)

本文轉(zhuǎn)載自??????沐白AI筆記??????，作者：楊沐白

標(biāo)簽

邏輯回歸

Python

分類技術(shù)

贊

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

一文帶你了解OpenAI Sora

381972426 ? 2794瀏覽 ? 0回復(fù)
深入理解Sora技術(shù)原理

卓勝微wjp ? 3837瀏覽 ? 0回復(fù)
一文深入了解AI Agent -- 組成、方法、案例及展望

angel ? 2.0w瀏覽 ? 0回復(fù)
深入理解思維樹(shù) (ToT)策略提示詞設(shè)計(jì)

AIGC觀察者 ? 6687瀏覽 ? 0回復(fù)
一文徹底理解大模型 Agent 智能體原理和案例

玄姐聊AGI ? 4676瀏覽 ? 0回復(fù)
一文徹底搞懂GraphRAG

小虎哦哦 ? 3313瀏覽 ? 0回復(fù)
科普神文，一次性講透AI大模型的核心概念

ermulong ? 3280瀏覽 ? 0回復(fù)
一文徹底理解大模型 Agent 智能體原理和案例

玄姐聊AGI ? 4495瀏覽 ? 0回復(fù)
一文詳解MHA、GQA、MQA原理

大模型自然語(yǔ)言處理 ? 4462瀏覽 ? 0回復(fù)
深入理解預(yù)訓(xùn)練與微調(diào)，為什么需要預(yù)訓(xùn)練，什么是微調(diào)？

AI探索時(shí)代 ? 4351瀏覽 ? 0回復(fù)
一文圖解BERT注意力機(jī)制

石映飛云 ? 2906瀏覽 ? 0回復(fù)
一文教會(huì)如何動(dòng)手搭建AI Agent

數(shù)字化助推器 ? 6287瀏覽 ? 0回復(fù)
一文帶你了解機(jī)器學(xué)習(xí)

寶寶數(shù)模AI ? 2150瀏覽 ? 0回復(fù)
一文詳解集成學(xué)習(xí)算法原理

寶寶數(shù)模AI ? 2457瀏覽 ? 0回復(fù)
深入解析：ChatGPT與文心一言的異同，哪款A(yù)I助手更適合你？

風(fēng)云2002_1 ? 2455瀏覽 ? 0回復(fù)
一文吃透自注意力機(jī)制

人工智能訓(xùn)練營(yíng) ? 4450瀏覽 ? 0回復(fù)
一文讀懂 RAG 中的 embedding model

鴻煊的學(xué)習(xí)筆記 ? 3038瀏覽 ? 0回復(fù)
一文講透兩大框架的優(yōu)缺點(diǎn)和適用場(chǎng)景

AI博物院 ? 3079瀏覽 ? 0回復(fù)
一文帶你了解【SFT微調(diào)】與【Unsloth】

碼農(nóng)隨心筆記 ? 1839瀏覽 ? 0回復(fù)

石映飛云

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學(xué)堂

一文講透深入理解邏輯回歸

什么是邏輯回歸

高低精度/召回情況

舉個(gè)栗子

Python代碼示例

目錄