1.7 Linux 内核中链表的实现及应用

链表是Linux内核中最简单、最常用的一种数据结构。与数组相比，链表中可以动态插入或删除元素，在编译时不必知道要创建的元素个数。也因为链表中每个元素的创建时间各不相同，因此，它们在内存无需占用连续的内存单元，因为单元的不连续，因此各元素需要通过某种方式被链接在一起，于是，每个元素都包含一个指向下一个元素的指针，当有元素加入链表或者从链表中删除元素时，只需要调整下一个节点的指针就可以了。

1.7.1 链表的演化

在C 语言中，一个基本的双向链表定义如下：

struct my_list{ 
void *mydata; 
struct my_list *next;
struct my_list *prev;
};

图1.6是一双链表，通过前趋（prev）和后继（next）两个指针域，就可以从两个方向遍历双链表，这使得遍历链表的代价减少。如果打乱前驱、后继的依赖关系，就可以构成"二叉树"；如果再让首节点的前趋指向链表尾节点、尾节点的后继指向首节点（如图1.6中虚线部分），就构成了循环链表；如果设计更多的指针域，就可以构成各种复杂的树状数据结构。

如果减少一个指针域，就退化成单链表，如果只能对链表的首尾进行插入或删除操作，就演变为队结构，如果只能对链表的头进行插入或删除操作，就退化为栈结构。

1.7.2. 链表的定义和操作

如上所述，在众多数据结构中，选取双向链表作为基本数据结构，并将其嵌入到其他数据结构中，从而可以演化出其他复杂数据结构。Linux内核实现方式与众不同，对链表给出了一种抽象的定义。

1. 链表的定义

struct list_head {                     
struct list_head *next, *prev;  
};

这个不含数据域的链表，可以嵌入到任何结构中，例如可以按如下方式定义含有数据域的链表：

struct my_list{ 
void *mydata; 
struct list_head list;
};

在此，进一步说明几点：

1） list域隐藏了链表的指针特性。

2） struct list_head可以位于结构的任何位置，可以给其起任何名字

3）在一个结构中可以有多个list 域

以struct list_head为基本对象，对链表进行插入、删除、合并以及遍历等各种操作。

2 链表的声明和初始化宏

实际上， struct list_head只定义了链表节点，并没有专门定义链表头，那么一个链表结构是如何建立起来的？内核代码list.h中定义了两个宏：

#define LIST_HEAD_INIT(name) { &(name), &(name) } /*仅初始化*/
#define LIST_HEAD(name) struct list_head name = LIST_HEAD_INIT(name) /*声明并初始化*/

如果我们要申明并初始化自己的链表头mylist，则直接调用LIST_HEAD：

LIST_HEAD(mylist_head)

调用之后，mylist_head的next、prev指针都初始化为指向自己，这样，我们就有了一个空链表，如何判断链表是否为空，自己写一下这个简单的函数list_empty ，也就是让头指针的next指向自己。

3 在链表中增加一个结点

list.h中增加节点的函数为：

 static inline void __list_add();
 static inline void list_add();
 static inline void list_add_tail();

在内核代码中，函数名前加两个下划线表示内部函数，第一个函数的具体代码如下：

static inline void __list_add(struct list_head *new,
          struct list_head *prev,
          struct list_head *next)
{
  next->prev = new;
  new->next = next;
  new->prev = prev;
  prev->next = new;
}

调用这个内部函数以分别在链表头和尾增加节点：

static inline void list_add(struct list_head *new, struct list_head *head)
{
__list_add(new, head, head->next);
}

该函数向指定链表的head节点后插入new节点。因为链表是循环的，而且通常没有首尾节点的概念，所以可以将任何节点传递给head。但是如果传递最后一个元素传给head，那么该函数可以用来实现一个栈。

static inline void list_add_tail(struct list_head *new, struct list_head *head)
{
__list_add(new, head->prev, head);
}

该函数向指定链表的head节点前插入new节点。和list_add()函数类似，因为链表是环形的，而且可以将任何节点传递给head。但是如果传递第一个元素给head那么，该函数可以用来实现一个队列。

另外，对函数名前面的staitic inline 关键字给予说明。“static”加在函数前，表示这个函数是静态函数，所谓静态函数，实际上是对函数作用域的限制，指该函数的作用域仅局限于本文件。所以说，static具有信息隐藏的作用。而关键字"inline“加在函数前，说明这个函数对编译程序是可见的，也就是说，编译程序在调用这个函数时就立即展开该函数。所以，关键字inline 必须与函数定义体放在一起才能使函数成为内联。inline函数一般放在头文件中。

关于节点的删除，将结合后面的例子给予具体说明。至于节点的搬移和合并，读者自行分析，在此不一一讨论，下面主要分析链表的遍历。

4. 遍历链表

list.h中定义了如下遍历链表本的宏：

#define list_for_each(pos, head) \
  for (pos = (head)->next; pos != (head); \
        pos = pos->next)

这种遍历仅仅是找到一个个节点在链表中的偏移位置pos，如图1.7所示。

问题在于，如何通过pos获得节点的起始地址，从而可以引用节点中的域？于是 list.h中定义了晦涩难懂的list_entry（）宏：

#define list_entry(ptr, type, member) \
((type *)((char *)(ptr)-(unsigned long)(&((type *)0)->member)))

指针ptr指向结构体type中的成员member；通过指针ptr，返回结构体type的起始地址，也就是list_entry返回指向type类型的指针，如图1.8所示。

进一步仔细分析list_entry（）宏：

((unsigned long) &(type )0)->member)把0地址转化为type结构的指针，然后获取该结构中member域的指针，也就是获得了member在type结构中的偏移量。其中(char )(ptr)求出的是ptr的绝对地址，二者相减，于是得到type类型结构体的起始地址，如图1.9所示。

到此，我们对链表的实现机制有初步了解，更多的函数和实现查看include/linux/list.h 中的代码。如何应用这些函数，下面举例说明。尽管list.h是内核代码中的头文件，但我们稍加修改后也可以把它移植到用户空间使用。

1.7.3 链表的应用

linclude/linux/list.h中的函数和宏，是一组精心设计的接口，有比较完整的注释和清晰的思路，请详细阅读该文件中的代码。

下面编写一个linux 内核模块，用以创建、增加、删除和遍历一个双向链表。

#include <linux/kernel.h>
#include <linux/module.h>
#include <linux/slab.h>
#include <linux/list.h>

MODULE_LICENSE("GPL");
MODULE_AUTHOR("XIYOU");

#define N 10   //链表节点
struct numlist {
  int num;//数据
  struct list_head list;//指向双联表前后节点的指针
};

struct numlist numhead;//头节点

static int __init doublelist_init(void)
{
//初始化头节点
struct numlist *listnode;//每次申请链表节点时所用的指针
struct list_head *pos;
struct numlist *p;
int i;

printk("doublelist is starting...\n");
INIT_LIST_HEAD(&numhead.list);

//建立N个节点，依次加入到链表当中
for (i = 0; i < N; i++) {
    listnode = (struct numlist *)kmalloc(sizeof(struct numlist), GFP_KERNEL); // kmalloc（）在内核空间申请内存，类似于malloc,参见第四章
    listnode->num = i+1;
    list_add_tail(&listnode->list, &numhead.list);
    printk("Node %d has added to the doublelist...\n", i+1);
}

//遍历链表
i = 1;
list_for_each(pos, &numhead.list) {
    p = list_entry(pos, struct numlist, list);
    printk("Node %d's data:%d\n", i, p->num);
    i++;
}

return 0;
}

static void __exit doublelist_exit(void)
{
struct list_head *pos, *n;
struct numlist *p;
int i;

//依次删除N个节点
i = 1;
list_for_each_safe(pos, n, &numhead.list) {  //为了安全删除节点而进行的遍历
    list_del(pos);//从双链表中删除当前节点
    p = list_entry(pos, struct numlist, list);//得到当前数据节点的首地址，即指针
    kfree(p);//释放该数据节点所占空间
    printk("Node %d has removed from the doublelist...\n", i++);
}
printk("doublelist is exiting..\n");
}

module_init(doublelist_init);
module_exit(doublelist_exit);

说明：关于删除元素的安全性问题

在上面的代码中，为什么不调用list_for_each（）宏而调用 list_for_each_safe（）进行删除前的遍历？具体看删除函数的源代码：

static inline void __list_del(struct list_head * prev, struct list_head * next)
{
    next->prev = prev;
    prev->next = next;
}
static inline void list_del(struct list_head *entry)
{
    __list_del(entry->prev, entry->next);
    entry->next = LIST_POISON1;
    entry->prev = LIST_POISON2;
}

可以看出，当执行删除操作的时候，被删除的节点的两个指针被指向一个固定的位置（LIST_POISON1和LIST_POISON2是内核空间的两个地址）。而list_for_each(pos, head)中的pos指针在遍历过程中向后移动，即pos = pos->next，如果执行了list_del()操作，pos将指向这个固定位置的next, prev,而此时的next, prev没有任何指向了，必然出错。

而list_for_each_safe(p, n, head) 宏解决了上面的问题：

 #define list_for_each_safe(pos, n, head) \
 for (pos = (head)->next, n = pos->next; pos != (head); \
  pos = n, n = pos->next)

它采用了一个同pos同样类型的指针n 来暂存将要被删除的节点指针pos，从而使得删除操作不影响pos指针！

这里要说明的是，哈希表也是链表的一种衍生，在list.h中也有相关的代码，在此不仔细讨论，读者可自行分析。

1.7 Linux内核中链表的实现及应用