diff options
Diffstat (limited to 'notes.md')
-rw-r--r-- | notes.md | 318 |
1 files changed, 318 insertions, 0 deletions
diff --git a/notes.md b/notes.md new file mode 100644 index 0000000..932e811 --- /dev/null +++ b/notes.md | |||
@@ -0,0 +1,318 @@ | |||
1 | # 背景说明 | ||
2 | |||
3 | 本文档对[godo](https://git.qin-juan-ge-zhu.top/godo)编写过程中新了解到的技术、遇到的问题进行简要说明,以备所需。 | ||
4 | |||
5 | # 系统调用 | ||
6 | |||
7 | As is universually acknowledged, 操作系统、尤其是类 Unix 操作系统,以系统调用的形式对应用程序提供服务。系统调用是名称,有系统调用号与之对应(同一版本的内核在不同架构的 cpu 上,系统调用号可能不一样)。有的时候我们需要了解一些内核行为,但却不知道从何下手。可以通过查看内核源码来学习。 | ||
8 | |||
9 | 系统调用可以在源码中查找到。由于本项目使用的是 centos 7,内核版本 3.10.0-1160、cpu 为 x86-64 架构,兹以该版本内核为例说明。 | ||
10 | |||
11 | 要查看 fork 的系统调用号,查看`arch/x86/syscalls/syscall_64.tbl`。想要查看其具体的实现,则在源码根目录下执行`grep -rInP "SYSCALL_DEFINE\d\(fork"`,其中 SYSCALL_DEFINE+数字是 kernel 中定义的宏,展开即完整的函数声明。通过这种查找办法,我们可以快速地定位内核中对系统调用的处理函数,查看其工作原理。查看其他的内核相关内容也可以采取类似办法,即先用 grep 定位大致范围、看都有什么地方用到,然后找到真正起作用的地方,读相关代码。 | ||
12 | |||
13 | 使用这些系统调用有两种办法: | ||
14 | |||
15 | - 在 C 语言中直接调用同名函数,但大概率经过了 glibc 的封装 | ||
16 | - 手动封装。如下: | ||
17 | |||
18 | ```c | ||
19 | #include <stdio.h> | ||
20 | #include <sys/syscall.h> | ||
21 | #include <sys/types.h> | ||
22 | #include <sys/wait.h> | ||
23 | #include <unistd.h> | ||
24 | |||
25 | int main(){ | ||
26 | pid_t pid = syscall(SYS_fork); | ||
27 | // syscall是一个变参函数,第一个参数是系统调用号,接下来的是系统调用的各个参数 | ||
28 | // syscall定义在 unistd.h | ||
29 | // SYS_fork定义在 sys/syscall.h | ||
30 | if(pid == 0) { | ||
31 | printf("Child!\n"); | ||
32 | } else { | ||
33 | printf("Parent!\n"); | ||
34 | } | ||
35 | return 0; | ||
36 | } | ||
37 | ``` | ||
38 | |||
39 | 这种封装方式与经常被用来当作 os 教材的 Linux-0.11/0.12 有所区别。Linux-0.11 环境上,unistd.h 大致如下: | ||
40 | |||
41 | ```c | ||
42 | #ifndef _UNISTD_H | ||
43 | #define _UNISTD_H | ||
44 | |||
45 | ... | ||
46 | #include <sys/stat.h> | ||
47 | #include <sys/times.h> | ||
48 | #include <sys/utsname.h> | ||
49 | #include <utime.h> | ||
50 | |||
51 | #ifdef __LIBRARY__ | ||
52 | |||
53 | #define __NR_setup 0 /* used only by init, to get system going */ | ||
54 | #define __NR_exit 1 | ||
55 | #define __NR_fork 2 | ||
56 | #define __NR_read 3 | ||
57 | #define __NR_write 4 | ||
58 | #define __NR_open 5 | ||
59 | #define __NR_close 6 | ||
60 | ... | ||
61 | |||
62 | #define _syscall0(type,name) \ | ||
63 | type name(void) \ | ||
64 | { \ | ||
65 | long __res; \ | ||
66 | __asm__ volatile ("int $0x80" \ | ||
67 | : "=a" (__res) \ | ||
68 | : "0" (__NR_##name)); \ | ||
69 | if (__res >= 0) \ | ||
70 | return (type) __res; \ | ||
71 | errno = -__res; \ | ||
72 | return -1; \ | ||
73 | } | ||
74 | |||
75 | #define _syscall1(type,name,atype,a) \ | ||
76 | type name(atype a) \ | ||
77 | { \ | ||
78 | long __res; \ | ||
79 | __asm__ volatile ("int $0x80" \ | ||
80 | : "=a" (__res) \ | ||
81 | : "0" (__NR_##name),"b" ((long)(a))); \ | ||
82 | if (__res >= 0) \ | ||
83 | return (type) __res; \ | ||
84 | errno = -__res; \ | ||
85 | return -1; \ | ||
86 | } | ||
87 | |||
88 | ... | ||
89 | #endif /* __LIBRARY__ */ | ||
90 | ... | ||
91 | |||
92 | #endif | ||
93 | ``` | ||
94 | |||
95 | 可以看到,Linux-0.11 上,封装的一般方法为: | ||
96 | |||
97 | ```c | ||
98 | #define __LIBRARY__ // 一定要在unistd.h之前 | ||
99 | #include <unistd.h> | ||
100 | #include <stdio.h> | ||
101 | |||
102 | syscall0(int, fork); // 宏替换后这就是个名为fork的函数的具体实现了 | ||
103 | int main() { | ||
104 | if(fork() == 0) { | ||
105 | printf("Child!\n"); | ||
106 | } else { | ||
107 | printf("Parent!\n"); | ||
108 | } | ||
109 | return 0; | ||
110 | } | ||
111 | ``` | ||
112 | |||
113 | 但是无论如何,一般情况下不推荐手动封装,这不是 release 版该有的做法。 | ||
114 | |||
115 | 此外,从汇编代码来看,Linux-0.11 所用的 80386 芯片,不提供专门的系统调用指令,因而该系统使用的是`int 0x80`中断指令,通过注册中断处理函数进行对应处理;而现代 x86 提供了专门的 syscall 指令,Linux 系统直接用该指令进行系统调用。 | ||
116 | |||
117 | ## 系统调用中的进程与线程 | ||
118 | |||
119 | 一般地,在 Linux 系统上,我们以 pid 指代进程号,而进程可以有多个线程。很显然,真正被调度执行的单元应该是线程,换言之,**是 thread 而非 process 真正地对应着内核中 tasks 表里的一个 task,而每个 task 才具有独一无二的 id**。 | ||
120 | |||
121 | ### 常见系统调用的分析 | ||
122 | |||
123 | 看看这个: | ||
124 | |||
125 | ```c | ||
126 | extern int pthread_create (pthread_t *__restrict __newthread, | ||
127 | const pthread_attr_t *__restrict __attr, | ||
128 | void *(*__start_routine) (void *), | ||
129 | void *__restrict __arg) __THROWNL __nonnull ((1, 3)); | ||
130 | ``` | ||
131 | |||
132 | `pthread_create`函数的第一个参数,就是一个 pthread_t 类型的指针,处理后将 task 的 id 写到指针指向的区域。 | ||
133 | |||
134 | 让我们来看一段简单的代码: | ||
135 | |||
136 | ```c | ||
137 | // test.c | ||
138 | #include <stdio.h> | ||
139 | #include <pthread.h> | ||
140 | #include <sys/syscall.h> | ||
141 | #include <sys/types.h> | ||
142 | #include <unistd.h> | ||
143 | |||
144 | void *test(void *args) { | ||
145 | printf("Hello, I'm %d\n", getpid()); | ||
146 | } | ||
147 | |||
148 | int main() { | ||
149 | pthread_t pthid; | ||
150 | int pid; | ||
151 | pthread_create(&pthid, NULL, test, NULL); | ||
152 | printf("main: thread %ld\n", pthid); | ||
153 | pthread_join(pthid, NULL); | ||
154 | if ((pid = fork()) == 0) { | ||
155 | printf("Hello, I'm %d\n", getpid()); | ||
156 | return 0; | ||
157 | } | ||
158 | printf("main: child process %d\n",pid); | ||
159 | if ((pid = syscall(SYS_fork)) == 0) { | ||
160 | printf("Hello, I'm %d\n", getpid()); | ||
161 | return 0; | ||
162 | } | ||
163 | printf("main: child process %d\n",pid); | ||
164 | return 0; | ||
165 | } | ||
166 | ``` | ||
167 | |||
168 | 当我们使用`strace ./test`来查看上述代码时,会发现情况如下: | ||
169 | |||
170 | ```c | ||
171 | clone(child_stack=0x7f3dd28bbff0, flags=CLONE_VM|CLONE_FS|CLONE_FILES|CLONE_SIGHAND|CLONE_THREAD|CLONE_SYSVSEM|CLONE_SETTLS|CLONE_PARENT_SETTID|CLONE_CHILD_CLEARTID, parent_tidptr=0x7f3dd28bc9d0, tls=0x7f3dd28bc700, child_tidptr=0x7f3dd28bc9d0) = 21756 | ||
172 | write(1, "main: thread 139903502108416\n", 29) = 29 | ||
173 | clone(child_stack=NULL, flags=CLONE_CHILD_CLEARTID|CLONE_CHILD_SETTID|SIGCHLD, child_tidptr=0x7f3dd308e9d0) = 21757 | ||
174 | --- SIGCHLD {si_signo=SIGCHLD, si_code=CLD_EXITED, si_pid=21757, si_uid=1000, si_status=0, si_utime=0, si_stime=0} --- | ||
175 | write(1, "main: child process 21757\n", 26) = 26 | ||
176 | fork() = 21758 | ||
177 | --- SIGCHLD {si_signo=SIGCHLD, si_code=CLD_EXITED, si_pid=21758, si_uid=1000, si_status=0, si_utime=0, si_stime=0} --- | ||
178 | write(1, "main: child process 21758\n", 26) = 26 | ||
179 | exit_group(0) = ? | ||
180 | +++ exited with 0 +++ | ||
181 | ``` | ||
182 | |||
183 | 从这样的输出里,我们可以清晰地看到,无论是`pthread_create`还是`fork`(指库函数),本质上都是封装了`clone`系统调用,即使 Linux 本身提供了专门的 fork 系统调用。也许这是 glibc 和 Linux 都想在添加功能的基础上保证代码兼容性?花开两朵各表一枝了属于是。 | ||
184 | |||
185 | 这一结论也可以从 glibc 的代码中得到验证: | ||
186 | |||
187 | ```c | ||
188 | // 文件 glibc-2.18/nptl/sysdeps/unix/sysv/linux/pt-fork.c | ||
189 | pid_t | ||
190 | __fork (void) | ||
191 | { | ||
192 | return __libc_fork (); | ||
193 | } | ||
194 | strong_alias (__fork, fork) | ||
195 | |||
196 | |||
197 | // 文件 glibc-2.18/nptl/sysdeps/unix/sysv/linux/fork.c | ||
198 | pid_t | ||
199 | __libc_fork (void) | ||
200 | { | ||
201 | ... // 一堆不知所云的代码 | ||
202 | #ifdef ARCH_FORK | ||
203 | pid = ARCH_FORK (); | ||
204 | #else | ||
205 | # error "ARCH_FORK must be defined so that the CLONE_SETTID flag is used" | ||
206 | pid = INLINE_SYSCALL (fork, 0); | ||
207 | #endif | ||
208 | ... // 又是一堆不知所云的代码 | ||
209 | } | ||
210 | |||
211 | // 文件 glibc-2.18/nptl/sysdeps/unix/sysv/linux/x86_64/fork.c | ||
212 | #define ARCH_FORK() \ | ||
213 | INLINE_SYSCALL (clone, 4, \ | ||
214 | CLONE_CHILD_SETTID | CLONE_CHILD_CLEARTID | SIGCHLD, 0, \ | ||
215 | NULL, &THREAD_SELF->tid) | ||
216 | |||
217 | // 文件 glibc-2.18/sysdeps/unix/sysv/linux/x86_64/syscall.S | ||
218 | |||
219 | /* Please consult the file sysdeps/unix/sysv/linux/x86-64/sysdep.h for | ||
220 | more information about the value -4095 used below. */ | ||
221 | .text | ||
222 | ENTRY (syscall) | ||
223 | movq %rdi, %rax /* Syscall number -> rax. */ | ||
224 | movq %rsi, %rdi /* shift arg1 - arg5. */ | ||
225 | movq %rdx, %rsi | ||
226 | movq %rcx, %rdx | ||
227 | movq %r8, %r10 | ||
228 | movq %r9, %r8 | ||
229 | movq 8(%rsp),%r9 /* arg6 is on the stack. */ | ||
230 | syscall /* Do the system call. */ | ||
231 | cmpq $-4095, %rax /* Check %rax for error. */ | ||
232 | jae SYSCALL_ERROR_LABEL /* Jump to error handler if error. */ | ||
233 | ret /* Return to caller. */ | ||
234 | |||
235 | PSEUDO_END (syscall) | ||
236 | ``` | ||
237 | |||
238 | 可以看到,fork 库函数实际上是掉入了`__libc_fork`,在经过各种处理之后,如果 glibc 中该平台的相关代码里定义了 ARCH_FORK 宏,则调用之;否则会直接调用`INLINE_SYSCALL`(这是 glibc 各个平台的代码里都有的宏);而如果直接调用`syscall`函数手动封装系统调用,则调用什么就是什么。`syscall`函数调用过程涉及延迟绑定等问题,就不是这里的重点了,而且我也没太搞明白,有机会单开一篇吧。 | ||
239 | |||
240 | ### 进程与线程 | ||
241 | |||
242 | 对于一个进程而言,它有很多线程,每个线程有一个号,但整个进程都有主线程的号,称为 tgid,只有一个 tgid 能真正地代表一个进程,而 pid 事实上是 task 的编号。 | ||
243 | |||
244 | 对于 netlink connector 而言,它听到的 fork 并不是 fork,而是 clone;对于 audit,也只能听到 clone 而听不到 fork。这是因为在内核中,fork 也是通过调用 clone 的处理函数来进行的。clone 创建的是一个 task,至于具体是进程还是线程,取决于用的 flag 参数,参见 manual 手册。 | ||
245 | |||
246 | 因而,无论使用 connector 还是 audit,拿到的都是 pid,只不过 connector 可以直接拿到 tgid、据此确定是进程还是线程,而 audit 只能拿到 pid,需要从 clone 的参数里查看是进程还是线程,且拿不到 tgid。这也就是我在项目中选择使用 connector 听进程消息的原因。 | ||
247 | |||
248 | 干巴巴说了这么多,其实就是想说,pid 也许在不同的语境下有不同含义。 | ||
249 | |||
250 | # docker 使用的技术 | ||
251 | |||
252 | ## cgroup | ||
253 | |||
254 | Linux 下用来控制进程资源的东西。没学明白,留缺。姑且抄点书上的内容来占个位置吧。 | ||
255 | |||
256 | cgroup 是 control group 的简写,是 Linux 内核提供的一个特性,用于限制和隔离一组进程对系统资源的使用,也即做进程的 QoS。控制的资源主要包括 cpu、内存、block IO、网络带宽等。该特性自 2.6.24 开始进入内核主线,目前各大发行版都默认打开了该特性。 | ||
257 | |||
258 | 从实现角度,cgroup 实现了一个通用的进程分组框架,而不同类型资源的具体管理由各个 cgroup 子系统实现。截至内核 4.1,已经实现的子系统及其作用如下: | ||
259 | |||
260 | | 子系统 | 作用 | | ||
261 | | ---------- | ----------------------------------------- | | ||
262 | | devices | 设备权限控制 | | ||
263 | | cpuset | 分配指定的 cpu 和内存节点 | | ||
264 | | cpu | 控制 cpu 占用率 | | ||
265 | | cpuacct | 统计 cpu 使用情况 | | ||
266 | | memory | 限制内存使用上限 | | ||
267 | | freezer | 冻结暂停 cgroup 中的进程 | | ||
268 | | net_cls | 配合 tc(traffic controller)限制网络带宽 | | ||
269 | | net_prio | 设置进程网络流量优先级 | | ||
270 | | huge_tlb | 限制 huge_tlb 的使用 | | ||
271 | | perf_event | 允许 Perf 工具基于 cgroup 分组做性能监测 | | ||
272 | |||
273 | cgroup 原生接口通过 cgroupfs 提供,类似于 procfs 和 sysfs,是一种虚拟文件系统。具体使用与分析参见《Docker 进阶与实战》。 | ||
274 | |||
275 | ## namespace | ||
276 | |||
277 | namespace 是将内核的全局资源做封装,使每个 namespace 拥有独立的资源,进程在各自的 namespace 中对相同资源的使用不会互相干扰。比如主机名 hostname 作为全局资源,执行 sethostname 系统调用会影响到其他进程;内核通过实现 UTS namespace,将不同进程分割在不同的 namespace 中,实现了隔离,一个 namespace 修改主机名不影响别的 namespace。 | ||
278 | |||
279 | 目前内核实现了以下几种 namespace: | ||
280 | |||
281 | | namespace | 作用 | | ||
282 | | --------- | ----------------------------------- | | ||
283 | | IPC | 隔离 System V IPC 和 POSIX 消息队列 | | ||
284 | | Network | 隔离网络资源 | | ||
285 | | Mount | 隔离文件系统挂载点 | | ||
286 | | PID | 隔离进程 ID | | ||
287 | | UTS | 隔离主机名和域名 | | ||
288 | | User | 隔离用户 ID 与组 ID | | ||
289 | |||
290 | 对 namespace 的操作主要通过`clone/setns/unshare`三个系统调用来实现。详细的使用也不写了,没用过的东西就不全抄。记得读书和自己实验,补到这里。 | ||
291 | |||
292 | ### 文件系统 | ||
293 | |||
294 | 众所周知,docker 的文件系统是分层的,有镜像文件等一堆东西。文件系统分为若干层,在开启 docker 的时候会被联合挂载到同一个点下,作为 docker 的根目录。这叫做联合挂载,即将多个目录和文件系统挂载到同一个目录下,其中可能有覆盖等。 | ||
295 | |||
296 | docker 进程运行在宿主机的内核上,但是根文件系统又要用 docker 自己挂载的目录,且后来的进程也需要进入该目录。这里采用的技术是 pivot_root,该系统调用允许进程切换根目录。 | ||
297 | |||
298 | 在根目录挂载完成之后,docker 拉起一个初始 shell(正如 Linux-0.11 启动的时候也会有一个 shell 干活),这是 docker 中第一个进程,它调用 pivot_root 切换根目录。在切换完成之后,当我们执行 docker exec 时,这是一个 docker 的新的进程,但该进程不再 pivot_root,而是打开第一个进程的 namespace,通过 setns 系统调用,将自己的 namespace 设置为与其相同。由于 mnt 的 namespace 的存在,进程的根目录也就与第一个进程一样了。 | ||
299 | |||
300 | # 书籍列表 | ||
301 | |||
302 | **毕业之前读完这些属实是有点难为人了,一个比一个硬,一次性啃完能给我门牙崩了;但是定点投放耗材市场之后,估计也不会有啥精力琢磨这些玩意了**。能读一点是一点吧。 | ||
303 | |||
304 | 感觉自己现在已经染上班味了,绝症,没得治。 | ||
305 | |||
306 | - SRE:Google 运维解密 | ||
307 | - Linker and Loader | ||
308 | - 有空自己解析一下 ELF? | ||
309 | - Docker 进阶与实战 | ||
310 | - containerd 原理剖析与实战 | ||
311 | - Linux 内核源码情景分析 | ||
312 | - [LFS](https://www.linuxfromscratch.org/lfs/) 网站,自己从软件包开始搭建 Linux | ||
313 | - 构建嵌入式 Linux 系统 | ||
314 | |||
315 | 也许我应该把它们列入进阶版: | ||
316 | |||
317 | - gcc 技术大全 | ||
318 | - 黑客调试技术大全 | ||