C++服务器框架:协程库——hook模块
hook
模块封装了一些C标准库提供的API
,socket IO
相关的API
。能够使同步API
实现异步的性能。
1. hook
概述
1.1 什么是hook
hook
实际上就是对系统调用API
进行一次封装,将其封装成一个与原始的系统调用API
同名的接口,应用在调用这个接口时,会先执行封装中的操作,再执行原始的系统调用API
。hook
技术可以使应用程序在执行系统调用之前进行一些隐藏的操作,比如可以对系统提供malloc()
和free()
进行hook
,在真正进行内存分配和释放之前,统计内存的引用计数,以排查内存泄露问题。
还可以用C++
的子类重载来理解hook
。在C++
中,子类在重载父类的同名方法时,一种常见的实现方式是子类先完成自己的操作,再调用父类的操作,如下:
1 |
|
在上面的代码实现中,调用子类的Print
方法,会先执行子类的语句,然后再调用父类的Print
方法,这就相当于子类hook
了父类的Print
方法。由于hook
之后的系统调用与原始的系统系统调用同名,所以对于程序开发者来说也很方便,不需要重新学习新的接口,只需要按老的接口调用惯例直接写代码就行了。
1.2 hook
的功能
hook
的目的是在不重新编写代码的情况下,把老代码中的socket IO
相关的API
都转成异步,以提高性能。hook
和IO
协程调度是密切相关的,如果不使用IO
协程调度器,那hook
没有任何意义,考虑IOManager
要在一个线程上按顺序调度以下协程: 1. 协程1
:sleep(2)
睡眠两秒后返回。 2. 协程2
:在scoket fd1
上send 100k
数据。 3. 协程3
:在socket fd2
上recv
直到数据接收成功。
在未hook
的情况下,IOManager
要调度上面的协程,流程是下面这样的: 1. 调度协程1
,协程阻塞在sleep
上,等2秒后返回,这两秒内调度线程是被协程1
占用的,其他协程无法在当前线程上调度。 2. 调度协程2
,协程阻塞send 100k
数据上,这个操作一般问题不大,因为send
数据无论如何都要占用时间,但如果fd
迟迟不可写,那send
会阻塞直到套接字可写,同样,在阻塞期间,其他协程也无法在当前线程上调度。 3. 调度协程3
,协程阻塞在recv
上,这个操作要直到recv
超时或是有数据时才返回,期间调度器也无法调度其他协程。
上面的调度流程最终总结起来就是,协程只能按顺序调度,一旦有一个协程阻塞住了,那整个调度线程也就阻塞住了,其他的协程都无法在当前线程上执行。像这种一条路走到黑的方式其实并不是完全不可避免,以sleep
为例,调度器完全可以在检测到协程sleep
后,将协程yield
以让出执行权,同时设置一个定时器,2
秒后再将协程重新resume
。这样,调度器就可以在这2
秒期间调度其他的任务,同时还可以顺利的实现sleep 2
秒后再继续执行协程的效果,send/recv
与此类似。在完全实现hook
后,IOManager
的执行流程将变成下面的方式:
- 调度协程
1
,检测到协程sleep
,那么先添加一个2秒的定时器,定时器回调函数是在调度器上继续调度本协程,接着协程yield
,等定时器超时。 - 因为上一步协程
1
已经yield
了,所以协徎2并不需要等2秒后才可以执行,而是立刻可以执行。同样,调度器检测到协程send
,由于不知道fd
是不是马上可写,所以先在IOManager
上给fd
注册一个写事件,回调函数是让当前协程resume
并执行实际的send
操作,然后当前协程yield
,等可写事件发生。 - 上一步协徎2也
yield
了,可以马上调度协程3
。协程3
与协程2
类似,也是给fd
注册一个读事件,回调函数是让当前协程resume
并继续recv
,然后本协程yield
,等事件发生。 - 等2秒超时后,执行定时器回调函数,将协程
1
resume
以便继续执行。 - 等协程
2
的fd
可写,一旦可写,调用写事件回调函数将协程2
resume
以便继续执行send
。 - 等协程
3
的fd
可读,一旦可读,调用回调函数将协程3
resume
以便继续执行recv
。
上面的4
、5
、6
步都是异步的,调度线程并不会阻塞,IOManager
仍然可以调度其他的任务,只在相关的事件发生后,再继续执行对应的任务即可。并且,由于hook
的函数签名与原函数一样,所以对调用方也很方便,只需要以同步的方式编写代码,实现的效果却是异步执行的,效率很高。
总而言之,在IO
协程调度中对相关的系统调用进行hook
,可以让调度线程尽可能得把时间片都花在有意义的操作上,而不是浪费在阻塞等待中。
hook
的重点是在替换API
的底层实现的同时完全模拟其原本的行为,因为调用方是不知道hook
的细节的,在调用被hook
的API
时,如果其行为与原本的行为不一致,就会给调用方造成困惑。比如,所有的socket fd
在进行IO
调度时都会被设置成NONBLOCK
模式,如果用户未显式地对fd
设置NONBLOCK
,那就要处理好fcntl
,不要对用户暴露fd
已经是NONBLOCK
的事实,这点也说明,除了IO
相关的函数要进行hook
外,对fcntl
, setsockopt
之类的功能函数也要进行hook
,才能保证API
的一致性。
1.3 hook
实现基础
hook
的实现机制非常简单,就是通过动态库的全局符号介入功能,用自定义的接口来替换掉同名的系统调用接口。由于系统调用接口基本上是由C
标准函数库libc
提供的,所以这里要做的事情就是用自定义的动态库来覆盖掉libc
中的同名符号。
由于动态库的全局符号介入问题,全局符号表只会记录第一次识别到的符号,后续的同名符号都被忽略,但这并不表示同名符号所在的动态库完全不会加载,因为有可能其他的符号会用到。以libc
库举例,如果用户在链接libc
库之前链接了一个指定的库,并且在这个库里实现了read/write
接口,那么在程序运行时,程序调用的read/write
接口就是指定库里的,而不是libc
库里的。libc
库仍然会被加载,因为libc
库是程序的运行时库,程序不可能不依赖libc
里的其他接口。因为libc
库也被加载了,所以,通过一定的手段,仍然可以从libc
中拿到属于libc
的read/write
接口,这就为hook
创建了条件。程序可以定义自己的read/write
接口,在接口内部先实现一些相关的操作,然后再调用libc
里的read/write
接口。而将libc
库中的接口重新找回来的方法就是使用dlsym()
。
1 |
|
1.4 hook
模块设计
sylar
的hook
功能是以线程为单位的,可以自由设置当前线程是否使用hook
。默认情况下,协程调度器的调度线程会开启hook
,而其他线程则不会开启。对以下和函数进行了hook
,并且只对socket fd
进行了hook
,如果操作的不是socket fd
,那会直接调用系统原本的API
,而不是hook
之后的API
: 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21sleep
usleep
nanosleep
socket
connect
accept
read
readv
recv
recvfrom
recvmsg
write
writev
send
sendto
sendmsg
close
fcntl
ioctl
getsockopt
setsockoptsylar
还增加了一个connect_with_timeout
接口用于实现带超时的connect
。为了管理所有的socket fd
,sylar
设计了一个FdManager
类来记录所有分配过的fd
的上下文,这是一个单例类,每个socket fd
上下文记录了当前fd
的读写超时,是否设置非阻塞等信息。
关于hook
模块和IO
协程调度的整合。一共有三类接口需要hook
,如下:
sleep
延时系列接口,包括sleep/usleep/nanosleep
。对于这些接口的hook
,只需要给IO
协程调度器注册一个定时事件,在定时事件触发后再继续执行当前协程即可。当前协程在注册完定时事件后即可yield
让出执行权。socket IO
系列接口,包括read/write/recv/send...
等,connect
及accept
也可以归到这类接口中。这类接口的hook
首先需要判断操作的fd
是否是socket fd
,以及用户是否显式地对该fd
设置过非阻塞模式,如果不是socket fd
或是用户显式设置过非阻塞模式,那么就不需要hook
了,直接调用操作系统的IO
接口即可。如果需要hook
,那么首先在IO
协程调度器上注册对应的读写事件,等事件发生后再继续执行当前协程。当前协程在注册完IO
事件即可yield
让出执行权。socket/fcntl/ioctl/close
等接口,这类接口主要处理的是边缘情况,比如分配fd
上下文,处理超时及用户显式设置非阻塞问题。
2. 模块实现
2.1 FdCtx
类
FdCtx
存储每一个fd
相关的信息,并由FdManager
管理每一个FdCtx
,FdManager
为单例类。
成员变量如下: 1
2
3
4
5
6
7
8bool m_isInit: 1; /// 是否初始化
bool m_isSocket: 1; /// 是否socket
bool m_sysNonblock: 1; /// 是否hook非阻塞
bool m_userNonblock: 1; /// 是否用户主动设置非阻塞
bool m_isClosed: 1; /// 是否关闭
int m_fd; /// 文件句柄
uint64_t m_recvTimeout; /// 读超时时间毫秒
uint64_t m_sendTimeout; /// 写超时时间毫秒
2.1.1 FdCtx()
构造函数,初始化FdCtx
。
1 | FdCtx::FdCtx(int fd) |
2.1.2 init()
初始化FdCtx
。
1 | bool FdCtx::init() { |
2.1.3 setTimeout()
设置fd
的读写超时时间。
1 | void FdCtx::setTimeout(int type, uint64_t v) { |
2.2 FdManager
类
FdManager
是一个单例类,用于管理所有的FdCtx
。
成员变量如下: 1
2RWMutexType m_mutex; /// 读写锁
std::vector<FdCtx::ptr> m_datas;/// 文件句柄集合
2.2.1 FdManager()
构造函数。
1 | FdManager::FdManager() { |
2.2.2 get()
获取或创建fd
的上下文。
1 | FdCtx::ptr FdManager::get(int fd, bool auto_create) { |
2.2.3 del()
删除fd
的上下文。
1 | void FdManager::del(int fd) { |
2.3 hook
模块实现
将函数接口都存放到extern "C"
作用域下,指定函数按照C
语言的方式进行编译和链接。它的作用是为了解决C++
中函数名重载的问题,使得C++
代码可以和C
语言代码进行互操作。
2.3.1 定义接口函数指针
定义hook
模块的接口函数指针,只列举部分。
1 | // sleep_fun 为函数指针 |
2.3.2 获取接口原始地址
使用宏来封装对每个原始接口地址的获取。将hook_init()
封装到一个结构体的构造函数中,并创建静态对象,能够在main
函数运行之前就能将地址保存到函数指针变量当中。
1 |
|
宏展开如下: 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18extern "C" {
sleep_fun sleep_f = nullptr;
usleep_fun usleep_f = nullptr;
.....
setsocketopt_fun setsocket_f = nullptr;
}
void hook_init() {
static bool is_inited = false;
if (is_inited) {
return;
}
sleep_f = (sleep_fun)dlsym(RTLD_NEXT, "sleep");
usleep_f = (usleep_fun)dlsym(RTLD_NEXT, "usleep");
...
setsocketopt_f = (setsocketopt_fun)dlsym(RTLD_NEXT, "setsocketopt");
}
2.3.3 set_hook_enable()
设置是否hook
,定义线程局部变量,来控制是否开启hook
1 | static thread_local bool t_hook_enable = false; |
2.3.4 is_hook_enable()
获取是否hook
。
1 | bool is_hook_enable() { |
2.3.5 do_io()
IO
操作,hook
的核心函数。需要注意的是,这段代码使用了模板和可变参数,可以适用于不同类型的IO
操作,能够以写同步的方式实现异步的效果。该函数的主要思想如下: 1. 先进行一系列判断,是否按原函数执行。 2. 执行原始函数进行操作,若errno = EINTR
,则为系统中断,应该不断重新尝试操作。 3. 若errno = EAGIN
,系统已经隐式的将socket
设置为非阻塞模式,此时资源咱不可用。 4. 若设置了超时时间,则设置一个执行周期为超时时间的条件定时器,它保证若在超时之前数据就已经来了,然后操作完do_io
执行完毕,智能指针tinfo
已经销毁了,但是定时器还在,此时弱指针拿到的就是个空指针,将不会执行定时器的回调函数。 5. 在条件定时器的回调函数中设置错误为ETIMEDOUT
超时,并且使用cancelEvent
强制执行该任务,继续回到该协程执行。 6. 通过addEvent
添加事件,若添加事件失败,则将条件定时器删除并返回错误。成功则让出协程执行权。 7. 只有两种情况协程会被拉起: - 超时了,通过定时器回调函数 cancelEvent
---> triggerEvent
会唤醒回来 - addEvent
数据回来了会唤醒回来 8. 将定时器取消,若为超时则返回-1并设置errno = ETIMEDOUT
,并返回-1。 9. 若为数据来了则retry
,重新操作。
1 | template<typename OriginFun, typename... Args> |
2.3.6 sleep()
设置一个定时器然后让出执行权,超时后继续执行该协程。回调函数使用std::bind
函数将sylar::IOManager::schedule
函数绑定到iom
对象上,并传入fiber
和-1
两个参数。由于schedule
是个模板类,如果直接与函数绑定,就无法确定函数的类型,从而无法使用std::bind
函数。因此,需要先声明函数指针,将函数的类型确定下来,然后再将函数指针与std::bind
函数进行绑定。
1 | unsigned int sleep(unsigned int seconds) { |
2.3.7 socket()
socket
函数,并将fd
放入到文件管理中。
1 | int socket(int domain, int type, int protocol) { |
2.3.8 connect()
socket
连接,和do_io
思路差不多。
1 | int connect_with_timeout(int fd, const struct sockaddr* addr, socklen_t addrlen, uint64_t timeout_ms) { |
2.3.9 close()
关闭socket
1 | int close(int fd) { |
2.3.10 fcntl()
对用户反馈是否是用户设置了非阻塞模式。
1 | int fcntl(int fd, int cmd, ... /* arg */) { |
2.3.11 ioctl()
对设备进行控制操作。
1 | /* value为指向int类型的指针,如果该指针指向的值为0,则表示关闭非阻塞模式;如果该指针指向的值为非0,则表示打开非阻塞模式。 |
2.3.12 setsockopt()
设置socket
选项。
1 | int setsockopt(int sockfd, int level, int optname, const void *optval, socklen_t optlen) { |
3. 总结
有了hook
模块的加持,在使用IO
协程调度器时,如果不想该操作导致整个线程的阻塞,我们可以使用scheduler
将该任务加入到任务队列中,这样当任务阻塞时,只会使执行该任务的协程挂起,去执行别的任务,在消息来后或者达到超时时间继续执行该协程任务,这样就实现了异步操作。