Linux 內核網絡之 Listen 的實現
作者:Linux碼農
listen 系統調用用于通知進程準備接受套接口上的連接請求,它同時也指定套接口上可以排隊等待的連接數的門限值。超過門限值時,套接口將拒絕新的連接請求,TCP 將忽略進入的連接請求。
listen 系統調用用于通知進程準備接受套接口上的連接請求,它同時也指定套接口上可以排隊等待的連接數的門限值。超過門限值時,套接口將拒絕新的連接請求,TCP 將忽略進入的連接請求。
/*
fd, 進行監聽的套接口的文件描述符
backlog,為指定連接隊列長度的最大值
*/
asmlinkage long sys_listen(int fd, int backlog)
{
struct socket *sock;
int err, fput_needed;
//根據文件描述符獲取套接口指針,同時返回是否需要減少對文件引用計數的標志
sock = sockfd_lookup_light(fd, &err, &fput_needed);
if (sock) {
//對參數門限值做檢驗,門限值不能超過上限
if ((unsigned)backlog > sysctl_somaxconn)
backlog = sysctl_somaxconn;
// 安全檢查
err = security_socket_listen(sock, backlog);
/*
通過套接口系統調用的跳轉表proto_ops結構,調用對應傳輸層協議中的 listen 操作。
SOCK_DGRAM 和 SOCK_RAW 類型不支持listen,只有 SOCK_STREAM 類型支持listen接口,
TCP中為 inet_listen()
*/
if (!err)
err = sock->ops->listen(sock, backlog); //inet_listen()
//根據 fput_needed,調用fput_light減少對文件引用計數操作
fput_light(sock->file, fput_needed);
}
return err;
}
上述的函數功能就是通過文件描述符獲取對應的套接口指針,然后調用 inet_listen 進行監聽操作。
int inet_listen(struct socket *sock, int backlog)
{
struct sock *sk = sock->sk;
unsigned char old_state;
int err;
lock_sock(sk);
/*
*只有插口的類型為 SOCK_STREAM,即“有連接”模式的插口,并且已經為其 bind()了插口地址,才允許 listen()。
*對于符合這些條件的插口也不是什么時候都可以調用 listen()的。
*插口的 sock結構中有個成分 state,用來實現一種“有限狀態機”。只有當這個狀態機處于 TCP_CLOSE 或 TCP_LISTEN
*這兩種狀態時才可以對其調用 listen()。
*在前面 sock_create()的代碼中可以看到在創建一個插口時要調用函數 sock_init_data()對分配的sock數據結構進行初始化,
*在那里state被設置成 TCP_CLOSE。
*狀態TCP_CLOSE 表示插口只是剛剛建立,尚未宣布成為 server 插口;
*TCP_LISTEN 則表示插口已經設置成 server 插口,當尚未建立起連接,并且不是在等待來自 client 一方的連接請求。
*只有在這兩種狀態下才允許改變插口的參數(主要是連接請求隊列的容量)。
*/
err = -EINVAL;
if (sock->state != SS_UNCONNECTED || sock->type != SOCK_STREAM)
goto out;
old_state = sk->sk_state;
if (!((1 << old_state) & (TCPF_CLOSE | TCPF_LISTEN)))
goto out;
/* Really, if the socket is already in listen state
? we can only allow the backlog to be adjusted.
/
if (old_state != TCP_LISTEN) {
err = inet_csk_listen_start(sk, backlog);/ 開始偵聽 */
if (err)
goto out;
}
sk->sk_max_ack_backlog = backlog;
err = 0;
out:
release_sock(sk);
return err;
}
int inet_csk_listen_start(struct sock *sk, const int nr_table_entries)
{
struct inet_sock *inet = inet_sk(sk);
struct inet_connection_sock *icsk = inet_csk(sk);
//創建接收隊列,并把該隊列和傳輸控制塊綁定
int rc = reqsk_queue_alloc(&icsk->icsk_accept_queue, nr_table_entries);
if (rc != 0)
return rc;
sk->sk_max_ack_backlog = 0;
sk->sk_ack_backlog = 0;
inet_csk_delack_init(sk);
/* There is race window here: we announce ourselves listening,
? but this transition is still not validated by get_port().
? It is OK, because this socket enters to hash table only
? after validation is complete.
/
/ 設置控制塊的狀態 /
sk->sk_state = TCP_LISTEN;
/ 檢查端口是否仍然可用,防止bind()后其它進程修改了端口信息 */
if (!sk->sk_prot->get_port(sk, inet->num)) { // tcp_v4_get_port()
inet->sport = htons(inet->num);
sk_dst_reset(sk);
/* 把sock鏈接入監聽哈希表中 */
sk->sk_prot->hash(sk); // tcp_v4_hash
return 0;
}
sk->sk_state = TCP_CLOSE;
__reqsk_queue_destroy(&icsk->icsk_accept_queue);
return -EADDRINUSE;
}
啟動監聽時,做的工作主要包括:
創建半連接隊列的實例,初始化全連接隊列。 初始化 sock 的一些變量,把它的狀態設為 TCP_LISTEN。 檢查端口是否可用,防止bind()后其它進程修改了端口信息。 把sock鏈接進入監聽哈希表 listening_hash 中。
創建半連接隊列
listen_sock 結構用于保存 SYN_RECV 狀態的連接請求塊,所以也叫半連接隊列。
queue 為連接請求控制塊,nr_table_entries 為半連接的最大個數,即 backlog。
int sysctl_max_syn_backlog = 256;
int reqsk_queue_alloc(struct request_sock_queue *queue,
unsigned int nr_table_entries)
{
size_t lopt_size = sizeof(struct listen_sock);
struct listen_sock *lopt;
/* nr_table_entries必需在[8, sysctl_max_syn_backlog]之間,默認是[8, 256]
? 但實際上在sys_listen()中要求backlog <= sysctl_somaxconn(默認為128)
? 所以此時默認區間為[8, 128]
/
nr_table_entries = min_t(u32, nr_table_entries, sysctl_max_syn_backlog);
nr_table_entries = max_t(u32, nr_table_entries, 8);
/ 使nr_table_entries = 2^n,向上取整 */
nr_table_entries = roundup_pow_of_two(nr_table_entries + 1);
//為半連接隊列申請內存
lopt_size += nr_table_entries * sizeof(struct request_sock );
if (lopt_size > PAGE_SIZE)
/ 如果申請內存大于1頁,則申請虛擬地址連續的空間 /
lopt = __vmalloc(lopt_size,
GFP_KERNEL | __GFP_HIGHMEM | __GFP_ZERO,
PAGE_KERNEL);
else
/ 申請內存在1頁內,則申請物理地址連續的空間 */
lopt = kzalloc(lopt_size, GFP_KERNEL);
if (lopt == NULL)
return -ENOMEM;
for (lopt->max_qlen_log = 3;
(1 << lopt->max_qlen_log) < nr_table_entries;
lopt->max_qlen_log++);
/* 獲取一個隨機數 */
get_random_bytes(&lopt->hash_rnd, sizeof(lopt->hash_rnd));
rwlock_init(&queue->syn_wait_lock);
//全連接隊列頭初始化
queue->rskq_accept_head = NULL;
// 半連接隊列的最大長度
lopt->nr_table_entries = nr_table_entries;
write_lock_bh(&queue->syn_wait_lock);
//半連接隊列設置
queue->listen_opt = lopt;
write_unlock_bh(&queue->syn_wait_lock);
return 0;
}
責任編輯:華軒
來源:
今日頭條