nsenter 命令是一個可以在指定進程的命令空間下運行指定程序的命令。它位于 util-linux 包中。
用途
一個最典型的用途就是進入容器的網絡命令空間。相當多的容器為了輕量級,是不包含較為基礎的命令的,比如說ip address,ping,telnet,ss,tcpdump等等命令,這就給調試容器網絡帶來相當大的困擾:只能通過?docker inspect ContainerID?命令獲取到容器 IP,以及無法測試和其他網絡的連通性。這時就可以使用 nsenter 命令僅進入該容器的網絡命名空間,使用宿主機的命令調試容器網絡。
此外,nsenter 也可以進入mnt,uts,ipc,pid,user命令空間,以及指定根目錄和工作目錄。
使用
首先看下 nsenter 命令的語法:
nsenter [options] [program [arguments]] options: -t, --target pid:指定被進入命名空間的目標進程的pid -m, --mount[=file]:進入mount命令空間。如果指定了file,則進入file的命令空間 -u, --uts[=file]:進入uts命令空間。如果指定了file,則進入file的命令空間 -i, --ipc[=file]:進入ipc命令空間。如果指定了file,則進入file的命令空間 -n, --net[=file]:進入net命令空間。如果指定了file,則進入file的命令空間 -p, --pid[=file]:進入pid命令空間。如果指定了file,則進入file的命令空間 -U, --user[=file]:進入user命令空間。如果指定了file,則進入file的命令空間 -G, --setgid gid:設置運行程序的gid -S, --setuid uid:設置運行程序的uid -r, --root[=directory]:設置根目錄 -w, --wd[=directory]:設置工作目錄 如果沒有給出program,則默認執行$SHELL。
示例:
運行一個 nginx 容器,查看該容器的 pid:
[root@staight ~]# docker inspect -f {{.State.Pid}} nginx 5645
然后,使用 nsenter 命令進入該容器的網絡命令空間:
[root@staight ~]# nsenter -n -t5645 [root@staight ~]# ip addr 1: lo:mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000 link/loopback 000000:00 brd 000000:00 inet 127.0.0.1/8 scope host lo valid_lft forever preferred_lft forever 18: eth0@if19: mtu 1500 qdisc noqueue state UP group default link/ether 02ac00:02 brd ffffff:ff link-netnsid 0 inet 172.17.0.2/16 brd 172.17.255.255 scope global eth0 valid_lft forever preferred_lft forever
進入成功~
在 Kubernetes 中,在得到容器 pid 之前還需獲取容器的 ID,可以使用如下命令獲取:
[root@node1 test]# kubectl get pod test -oyaml|grep containerID - containerID: docker://cf0873782d587dbca6aa32f49605229da3748600a9926e85b36916141597ec85
或者更為精確地獲取 containerID :
[root@node1 test]# kubectl get pod test -o template --template='{{range .status.containerStatuses}}{{.containerID}}{{end}}' docker://cf0873782d587dbca6aa32f49605229da3748600a9926e85b36916141597ec85
原理
namespace
namespace 是 Linux 中一些進程的屬性的作用域,使用命名空間,可以隔離不同的進程。
Linux在不斷的添加命名空間,目前有:
mount:掛載命名空間,使進程有一個獨立的掛載文件系統,始于Linux 2.4.19
ipc:ipc命名空間,使進程有一個獨立的ipc,包括消息隊列,共享內存和信號量,始于Linux 2.6.19
uts:uts命名空間,使進程有一個獨立的hostname和domainname,始于Linux 2.6.19
net:network命令空間,使進程有一個獨立的網絡棧,始于Linux 2.6.24
pid:pid命名空間,使進程有一個獨立的pid空間,始于Linux 2.6.24
user:user命名空間,是進程有一個獨立的user空間,始于Linux 2.6.23,結束于Linux 3.8
cgroup:cgroup命名空間,使進程有一個獨立的cgroup控制組,始于Linux 4.6
Linux 的每個進程都具有命名空間,可以在 /proc/PID/ns 目錄中看到命名空間的文件描述符。
[root@staight ns]# pwd /proc/1/ns [root@staight ns]# ll total 0 lrwxrwxrwx 1 root root 0 Sep 23 19:53 ipc -> ipc:[4026531839] lrwxrwxrwx 1 root root 0 Sep 23 19:53 mnt -> mnt:[4026531840] lrwxrwxrwx 1 root root 0 Sep 23 19:53 net -> net:[4026531956] lrwxrwxrwx 1 root root 0 Sep 23 19:53 pid -> pid:[4026531836] lrwxrwxrwx 1 root root 0 Sep 23 19:53 user -> user:[4026531837] lrwxrwxrwx 1 root root 0 Sep 23 19:53 uts -> uts:[4026531838]
clone
clone 是 Linux 的系統調用函數,用于創建一個新的進程。
clone 和 fork 比較類似,但更為精細化,比如說使用 clone 創建出的子進程可以共享父進程的虛擬地址空間,文件描述符表,信號處理表等等。不過這里要強調的是,clone 函數還能為新進程指定命名空間。
clone的語法:
#define _GNU_SOURCE #includeint clone(int (*fn)(void *), void *child_stack, int flags, void *arg, ... /* pid_t *ptid, void *newtls, pid_t *ctid */ );
其中 flags 即可指定命名空間,包括:
CLONE_NEWCGROUP:cgroup
CLONE_NEWIPC:ipc
CLONE_NEWNET:net
CLONE_NEWNS:mount
CLONE_NEWPID:pid
CLONE_NEWUSER:user
CLONE_NEWUTS:uts
使用示例:
pid = clone(childFunc, stackTop, CLONE_NEWUTS | SIGCHLD, argv[1]);
setns
clone 用于創建新的命令空間,而 setns 則用來讓當前線程(單線程即進程)加入一個命名空間。 語法:
#define _GNU_SOURCE /* See feature_test_macros(7) */ #includeint setns(int fd, int nstype); fd參數是一個指向一個命名空間的文件描述符,位于/proc/PID/ns/目錄。 nstype指定了允許進入的命名空間,一般可設置為0,表示允許進入所有命名空間。
因此,往往該函數的用法為:
調用setns函數:指定該線程的命名空間。
調用execvp函數:執行指定路徑的程序,創建子進程并替換父進程。
這樣,就可以指定命名空間運行新的程序了。
代碼示例:
#define _GNU_SOURCE #include#include #include #include #include #define errExit(msg) do { perror(msg); exit(EXIT_FAILURE); } while (0) int main(int argc, char *argv[]) { int fd; if (argc < 3) { fprintf(stderr, "%s /proc/PID/ns/FILE cmd args... ", argv[0]); exit(EXIT_FAILURE); } fd = open(argv[1], O_RDONLY); /* Get file descriptor for namespace */ if (fd == -1) errExit("open"); if (setns(fd, 0) == -1) /* Join that namespace */ errExit("setns"); execvp(argv[2], &argv[2]); /* Execute a command in namespace */ errExit("execvp"); }
使用示例:
./ns_exec /proc/3550/ns/uts /bin/bash
nsenter
那么,最后就是 nsenter 了,nsenter 相當于在setns的示例程序之上做了一層封裝,使我們無需指定命名空間的文件描述符,而是指定進程號即可。
指定進程號PID以及需要進入的命名空間后,nsenter會幫我們找到對應的命名空間文件描述符/proc/PID/ns/FD,然后使用該命名空間運行新的程序。
參考文檔
容器內抓包定位網絡問題:https://tencentcloudcontainerteam.github.io/tke-handbook/skill/capture-packets-in-container.html
man-page:nsenter:http://www.man7.org/linux/man-pages/man1/nsenter.1.html#top_of_page
man-page:clone:http://www.man7.org/linux/man-pages/man2/clone.2.html
man-page:setns:http://www.man7.org/linux/man-pages/man2/setns.2.html
編輯:黃飛
評論
查看更多