本文來(lái)自微信公號(hào):開(kāi)發(fā)內(nèi)功修 (ID:kfngxl),作者:張彥飛 allen大家好,我是飛哥!如果大長(zhǎng)乘有在容器中執(zhí)行 ps 命令的經(jīng)驗(yàn),都會(huì)知道在容器的進(jìn)程的 pid 一般是比較小的。例如下面我的個(gè)例子。#?ps?-efPID???USER?????TIME??COMMAND????1?root??????0:00?./demo-ie???13?root??????0:00?/bin/bash???21?root??????0:00?ps?-ef不知道大家是否和一樣好奇容器進(jìn)中的 pid 是如何申請(qǐng)出來(lái)的和宿主機(jī)中申請(qǐng) pid 有什么不同??jī)?nèi)核又是如顯示容器中的進(jìn)號(hào)的?前面我們《Linux 進(jìn)程是如何創(chuàng)建出的?》中介紹了程的創(chuàng)建過(guò)程。實(shí)上進(jìn)程的 pid 命名空間、pid 也都是在這個(gè)過(guò)程中申請(qǐng)的我今天就來(lái)帶大深入理解一下 docker 核心之一 pid 命名空間的工作原。一、Linux 的默認(rèn) pid 命名空間前面的文章《Linux 進(jìn)程是如何創(chuàng)建出來(lái)的?》中我提到了進(jìn)程的命空間成員 nsproxy。//file:include/linux/sched.hstruct?task_struct?{???struct?nsproxy?*nsproxy;}Linux 在啟動(dòng)的時(shí)候會(huì)有套默認(rèn)的命名空,定義在 kernel / nsproxy.c 文件下。//file:kernel/nsproxy.cstruct?nsproxy?init_nsproxy?=?{?.count?=?ATOMIC_INIT(1),?.uts_ns?=?&init_uts_ns,?.ipc_ns?=?&init_ipc_ns,?.mnt_ns?=?NULL,?.pid_ns?=?&init_pid_ns,?.net_ns?=?&init_net,};其中默認(rèn)的 pid 命名空間是 init_pid_ns,它定義在 kernel / pid.c 下。//file:kernel/pid.cstruct?pid_namespace?init_pid_ns?=?{?.kref?=?{??.refcount???????=?ATOMIC_INIT(2),?},?.pidmap?=?{??[?0??PIDMAP_ENTRIES-1]?=?{?ATOMIC_INIT(BITS_PER_PAGE),?NULL?}?},?.last_pid?=?0,?.level?=?0,?.child_reaper?=?&init_task,?.user_ns?=?&init_user_ns,?.proc_inum?=?PROC_PID_INIT_INO,};在 pid 命名空間里我覺(jué)得最需要關(guān)注是兩個(gè)字段。一是 level 表示當(dāng)前 pid 命名空間的層級(jí)。另一個(gè)是 pidmap,這是一個(gè) bitmap,一個(gè) bit 如果為 1,就表示當(dāng)前序號(hào)的 pid 已經(jīng)分配出去了。另外默認(rèn)名空間的 level 初始化是 0。這是一個(gè)表示樹(shù)的層次結(jié)構(gòu)的點(diǎn)。如果有多個(gè)名空間創(chuàng)建出來(lái)它們之間會(huì)組成棵樹(shù)。level 表示樹(shù)在第幾層。根節(jié)點(diǎn)的 level 是 0。INIT_TASK 0 號(hào)進(jìn)程,也叫 idle 進(jìn)程,它固定使這個(gè)默認(rèn)的 init_nsproxy。//file:include/linux/init_task.h#define?INIT_TASK(tsk)?\{??.state??=?0,??????\?.stack??=?&init_thread_info,????\?.usage??=?ATOMIC_INIT(2),????\?.flags??=?PF_KTHREAD,?????\?.prio??=?MAX_PRIO-20,?????\?.static_prio?=?MAX_PRIO-20,?????\?.normal_prio?=?MAX_PRIO-20,?????\??.nsproxy?=?&init_nsproxy,????\?}所有進(jìn)程都是一派生一個(gè)的方式成出來(lái)的。如果指定命名空間,有進(jìn)程使用的都使用缺省的命名間。二、Linux 新 pid 命名空間創(chuàng)建在里,我們假設(shè)我創(chuàng)建進(jìn)程時(shí)指定 CLONE_NEWPID 要?jiǎng)?chuàng)建一個(gè)獨(dú)立的 pid 命名空間出來(lái)(Docker 容器就是這么干的)。在 《Linux 進(jìn)程是如何創(chuàng)建出來(lái)的?一文中我們已經(jīng)解了進(jìn)程的創(chuàng)建程。整個(gè)創(chuàng)建過(guò)的核心是在于 copy_process 函數(shù)。在這個(gè)函數(shù)中會(huì)申和拷貝進(jìn)程的地空間、打開(kāi)文件表、文件目錄等鍵信息,另外就 pid 命名空間的創(chuàng)建也是在里完成的。//file:kernel/fork.cstatic?struct?task_struct?*copy_process(){??//2.1?拷貝進(jìn)程的命名空間?nsproxy?retval?=?copy_namespaces(clone_flags,?p);?//2.2?申請(qǐng)?pid??pid?=?alloc_pid(p-nsproxy-pid_ns);?//2.3?記錄?pid??p-pid?=?pid_nr(pid);?p-tgid?=?p-pid;?attach_pid(p,?PIDTYPE_PID,?pid);?}2.1 創(chuàng)建進(jìn)程時(shí)構(gòu)造新命名空間在上的 copy_process 代碼中我們看到對(duì) copy_namespaces 函數(shù)的調(diào)用。命空間就是在這個(gè)數(shù)中操作的。//file:kernel/nsproxy.cint?copy_namespaces(unsigned?long?flags,?struct?task_struct?*tsk){?struct?nsproxy?*old_ns?=?tsk-nsproxy;?if?(!(flags?&?(CLONE_NEWNS?|?CLONE_NEWUTS?|?CLONE_NEWIPC?|????CLONE_NEWPID?|?CLONE_NEWNET)))??return?0;?new_ns?=?create_new_namespaces(flags,?tsk,?user_ns,?tsk-fs);?tsk-nsproxy?=?new_ns;?}如果在創(chuàng)建進(jìn)程時(shí)候沒(méi)有傳入 CLONE_NEWNS 等幾個(gè) flag,還是會(huì)復(fù)用之前的默認(rèn)名空間。這幾個(gè) flag 的含義如下。CLONE_NEWPID: 是否創(chuàng)建新的進(jìn)程編號(hào)命名空間以便與宿主機(jī)的程 PID 進(jìn)行隔離CLONE_NEWNS: 是否創(chuàng)建新的掛載(文件系統(tǒng))命空間,以便隔離件系統(tǒng)和掛載點(diǎn)CLONE_NEWNET: 是否創(chuàng)建新的網(wǎng)絡(luò)命名間,以便隔離網(wǎng)、IP、端口、路由表等網(wǎng)絡(luò)資源CLONE_NEWUTS: 是否創(chuàng)建新的主機(jī)名與名命名空間,以在網(wǎng)絡(luò)中獨(dú)立標(biāo)自己CLONE_NEWIPC: 是否創(chuàng)建新的 IPC 命名空間,以便隔離信號(hào)量消息隊(duì)列和共享存CLONE_NEWUSER: 用來(lái)隔離用戶(hù)和戶(hù)組的。因?yàn)槲?本節(jié)開(kāi)頭假設(shè)傳了 CLONE_NEWPID 標(biāo)記。所以會(huì)進(jìn)入 create_new_namespaces 中來(lái)申請(qǐng)新的命名間。//file:kernel/nsproxy.cstatic?struct?nsproxy?*create_new_namespaces(unsigned?long?flags,?struct?task_struct?*tsk,?struct?user_namespace?*user_ns,?struct?fs_struct?*new_fs){?//申請(qǐng)新的?nsproxy?struct?nsproxy?*new_nsp;?new_nsp?=?create_nsproxy();??//拷貝或創(chuàng)建?PID?命名空間?new_nsp-pid_ns?=?copy_pid_ns(flags,?user_ns,?tsk-nsproxy-pid_ns);}create_new_namespaces 中會(huì)調(diào)用 copy_pid_ns 來(lái)完成實(shí)際的創(chuàng)建,正的創(chuàng)建過(guò)程是 create_pid_namespace 中完成的。//file:kernel/pid_namespace.cstatic?struct?pid_namespace?*create_pid_namespace(...){?struct?pid_namespace?*ns;?//新?pid?namespace?level?+?1?unsigned?int?level?=?parent_pid_ns->level?+?1;?//申請(qǐng)內(nèi)存?ns?=?kmem_cache_zalloc(pid_ns_cachep,?GFP_KERNEL);?ns->pidmap[0].page?=?kzalloc(PAGE_SIZE,?GFP_KERNEL);?ns->pid_cachep?=?create_pid_cachep(level?+?1);?//設(shè)置新命名空間?level?ns->level?=?level;?//新命名空間和舊名空間組成一棵?ns->parent?=?get_pid_ns(parent_pid_ns);?//初始化?pidmap?set_bit(0,?ns->pidmap[0].page);?atomic_set(&ns->pidmap[0].nr_free,?BITS_PER_PAGE?-?1);?for?(i?=?1;?i?pidmap[i].nr_free,?BITS_PER_PAGE);?return?ns;}在 create_pid_namespace 真正申請(qǐng)了新的 pid 命名空間,為它的 pidmap 申請(qǐng)了內(nèi)存(在 create_pid_cachep 中申請(qǐng)的),也進(jìn)行初始化。另外還一點(diǎn)比較重要的新命名空間和舊名空間通過(guò) parent、level 等字段組成了一棵樹(shù)。其中 parent 指向了上一級(jí)命名間,自己的 level 用來(lái)表示層次,設(shè)置成了一級(jí) level + 1。其最終的效果就是新進(jìn)擁有了新的 pid namespace,并且這個(gè)新 pid namespace 和父 pidnamespace 串聯(lián)了起來(lái),效如下圖。如果 pid 有多層的話(huà),會(huì)組成更直觀樹(shù)形結(jié)構(gòu)。2.2 申請(qǐng)進(jìn)程 id創(chuàng)建完命名空間,在 copy_process 中接下來(lái)接著就調(diào)用 alloc_pid 來(lái)分配 pid。//file:kernel/fork.cstatic?struct?task_struct?*copy_process(){??//2.1?拷貝進(jìn)程的命名空間?nsproxy?retval?=?copy_namespaces(clone_flags,?p);??//2.2?申請(qǐng)?pid??pid?=?alloc_pid(p-nsproxy-pid_ns);?}注意傳入的參數(shù)是 p->nsproxy->pid_ns。前面進(jìn)程創(chuàng)建了新的 pid namespace,這個(gè)時(shí)候該命名空間是 level 為 1 的新 pid_ns。我們繼續(xù)來(lái)看 alloc_pid 具體 pid 的過(guò)程。//file:kernel/pid.cstruct?pid?*alloc_pid(struct?pid_namespace?*ns){?//申請(qǐng)?pid?內(nèi)核對(duì)象?pid?=?kmem_cache_alloc(ns-pid_cachep,?GFP_KERNEL);?//調(diào)用到alloc_pidmap來(lái)分配一個(gè)空閑pid?tmp?=?ns;?pid-level?=?ns-level;?for?(i?=?ns-level;?i?=?0;?i--)???nr?=?alloc_pidmap(tmp);??if?nr?0???goto?out_free;??pid-numbers[i].nr?=?nr;??pid-numbers[i].ns?=?tmp;??tmp?=?tmp-parent;?}??return?pid;??}在上面的代碼中注意兩個(gè)細(xì)節(jié)。們平時(shí)說(shuō)的 pid 在內(nèi)核中并不是一個(gè)簡(jiǎn)單的整類(lèi)型,而是一個(gè)結(jié)構(gòu)體來(lái)表示的struct pid)。申請(qǐng) pid 并不是申請(qǐng)了一個(gè),而是使了一個(gè) for 循環(huán)申請(qǐng)多個(gè)出之所以要申請(qǐng)多,是因?yàn)閷?duì)于容里的進(jìn)程來(lái)說(shuō),不是在自己當(dāng)前命名空間申請(qǐng)就事了,還要到其命名空間中也申一個(gè)。我們把 for 循環(huán)的工作工程用下圖表示下。首先到當(dāng)前次的命名空間申一個(gè) pid 出來(lái),然后順著命空間的父節(jié)點(diǎn),一層也都要申請(qǐng)個(gè),并都記錄到 pid->numbers 數(shù)組中。這里多說(shuō)一下如果 pid 申請(qǐng)失敗的話(huà),會(huì) -ENOMEM 錯(cuò)誤,在用戶(hù)層看起來(lái)就是“fork: 無(wú)法分配內(nèi)存”,實(shí)際是 pid 不足引起的。這個(gè)問(wèn)題在《明明還有大內(nèi)存,為啥報(bào)錯(cuò)無(wú)法分配內(nèi)存”》 提到過(guò)。2.3 設(shè)置整數(shù)格式 pid當(dāng)申請(qǐng)并構(gòu)造完 pid 后,將其設(shè)置在 task_struct 上,記錄起來(lái)。//file:kernel/fork.cstatic?struct?task_struct?*copy_process(){??//2.2?申請(qǐng)?pid??pid?=?alloc_pid(p-nsproxy-pid_ns);?//2.3?記錄?pid??p-pid?=?pid_nr(pid);?p-tgid?=?p-pid;?attach_pid(p,?PIDTYPE_PID,?pid);?}其中 pid_nr 是獲取的根 pid 命名空間下的 pid 編號(hào),參見(jiàn) pid_nr 源碼。//file:include/linux/pid.hstatic?inline?pid_t?pid_nr(struct?pid?*pid){?pid_t?nr?=?0;?if?(pid)??nr?=?pid-numbers[0].nr;?return?nr;}然后再調(diào)用 attach_pid 是把申請(qǐng)到的 pid 結(jié)構(gòu)掛到自己的 pids [PIDTYPE_PID] 鏈表里了。//file:kernel/pid.cvoid?attach_pid(struct?task_struct?*task,?enum?pid_type?type,??struct?pid?*pid){??link?=?&task-pids[type];?link-pid?=?pid;?hlist_add_head_rcu(&link-node,?&pid-tasks[type]);}task->pids 是一組鏈表。三、容器進(jìn)程 pid 查看pid 已經(jīng)申請(qǐng)好了,在容器中是如何看當(dāng)前層次的進(jìn)號(hào)的呢?比如我在容器中看到的 demo-ie 進(jìn)程的 id 就是 1。#?ps?-efPID???USER?????TIME??COMMAND????1?root??????0:00?./demo-ie????...內(nèi)核提供了個(gè)函數(shù)用來(lái)看進(jìn)程在當(dāng)前某命名空間的命名。//file:kernel/pid.cpid_t?pid_vnr(struct?pid?*pid){?return?pid_nr_ns(pid,?task_active_pid_ns(current));}其中在容器中查進(jìn)程 pid 使用的是 pid_vnr,pid_vnr 調(diào)用 pid_nr_ns 來(lái)查看進(jìn)程在特定命名空間里的程號(hào)。函數(shù) pid_nr_ns 接收連個(gè)參數(shù)第個(gè)參數(shù)是進(jìn)程里錄的 pid 對(duì)象(保存有在各層次申請(qǐng)到的 pid 號(hào))第二個(gè)參數(shù)是指定的 pid 命名空間(通過(guò) task_active_pid_ns (current) 獲?。?。當(dāng)具備兩個(gè)參數(shù)后,就以根據(jù) pid 命名空間里記錄層次 level 取得容器進(jìn)程的當(dāng)前 pid 了//file:kernel/pid.cpid_t?pid_nr_ns(struct?pid?*pid,?struct?pid_namespace?*ns){?struct?upid?*upid;?pid_t?nr?=?0;?if?pid?&&?ns-level?=?pid-level?{??upid?=?&pid-numbers[ns-level];??if?upid-ns?==?ns)???nr?=?upid-nr;?}?return?nr;}在 pid_nr_ns 中通過(guò)判斷 level 就把容器 pid 整數(shù)值查出來(lái)了。四、總結(jié)最,舉個(gè)例子,假有一個(gè)進(jìn)程在 level 0 級(jí)別的 pid 命名空間里申請(qǐng)到進(jìn)程號(hào)是 1256,在 level 1 容器 pid 命名空間里申請(qǐng)到的進(jìn)程號(hào) 5。那么這個(gè)進(jìn)程以及其 pid 在內(nèi)存中的形式是下圖這個(gè)樣子。那么容器在查進(jìn)程的 pid 號(hào)的時(shí)候,傳入器的 pid 命名空間,就可以該進(jìn)程在容器中 pid 號(hào) 5 給打印出來(lái)了!?