OOMキラー2

out_of_memory()内のselect_bad_process()で選択された削除プロセスを、oom_kill_process()の引数としてOOMキルの処理が行われます。てっきりこのプロセスを無条件にKILLする。と思っていましたが、直接このプロセスをKILLするのでなく、まず子をKILLすることで、その処理を終了しています。確かに親をKILLすると、子もキルされて、必要以上に多くのプロセスがKILLされることに成ってしまうからだと思います。OOMキラーによるシステムへの悪影響は最小限に留めたいものです。

if (p->flags & PF_EXITING)でKILLされるプロセスがゾンビだった場合で、（これはアロケートして失敗したプロセスです。）__oom_kill_task1()でシグナルSIGKILLを送信することになります。そうでないなら、それ以降の処理です。大抵はこちらで処理されることになると思います。

list_for_each_entry(c, &p->children, sibling)で対処となっているプロセスの子プロセスをチェックし、それをoom_kill_task()でKILLしています。ちゃんとKILLできたらreturnしています。注目すべき所は、対象元のpはKILLされ無いことです。そのためにもループ処理の中で、if (c->mm == p->mm)とし、親と同じメモリー空間を有するプロセスは除外しています。

static int oom_kill_process(struct task_struct *p, gfp_t gfp_mask, int order,
                           unsigned long points, struct mem_cgroup *mem,
                           const char *message)
{
       struct task_struct *c;
  :
  :
       if (p->flags & PF_EXITING) {
               __oom_kill_task(p, 0);
               return 0;
       }

       printk(KERN_ERR "%s: kill process %d (%s) score %li or a child\n",
                                       message, task_pid_nr(p), p->comm, points);

       list_for_each_entry(c, &p->children, sibling) {
               if (c->mm == p->mm)
                       continue;
               if (!oom_kill_task(c))
                       return 0;
       }
       return oom_kill_task(p);
}

oom_kill_task()で最終のKILLプロセスが決定されます。do_each_thread(g, q)で最終候補となったプロセスpとメモリー空間を共有するプロセスを検索します。そしてそのプロセスのどれかにOOM_DISABLEが設定されているなら、このプロセスは対象外です。以降の処理で、同じメモリ空間を有するプロセスSにも、IGKILLを送信するようになっているからです。

/proc下のwould_have_oomkilledで設定されるカーネル変数で、if (sysctl_would_have_oomkilled == 1)なら、最終的にOOMキラーとなったプロセスを表示して、実際のKILL処理は行いません。（たんか意味あるのでしょうか？OOMキラー発生した時の対策としてのデバッグ情報ということかな？）

__oom_kill_task()で対象となったプロセスに、SIGKILLを送信します。

do_each_thread(g, q)では、同じメモリ空間(COLON_VM)で作成された子プロセス群(スレッド群でない)に対して、直接SIGKILLを送信しています。この場合__oom_kill_task()で削除しないで直接SIGKILLを送信しています。たぶんOOMでKILLされたプロセスは、優先的にその処理のためにメモリを使うことが許され、従って複数にプロセスをOOMキルとして、そのメモリを分けるより、１つのプロセスのみにその限られたメモリを与えるためでは。と勝手に解釈しちますが・・・

static int oom_kill_task(struct task_struct *p)
{
       struct mm_struct *mm;
       struct task_struct *g, *q;

       mm = p->mm;

       if (mm == NULL)
               return 1;

       do_each_thread(g, q) {
               if (q->mm == mm && q->oomkilladj == OOM_DISABLE)
                       return 1;
       } while_each_thread(g, q);

       if (sysctl_would_have_oomkilled == 1) {
               printk(KERN_ERR "Would have killed process %d (%s). But continuing instead.\n",
                               task_pid_nr(p), p->comm);
               return 1;
       }

       __oom_kill_task(p, 1);

       do_each_thread(g, q) {
               if (q->mm == mm && !same_thread_group(q, p))
                       force_sig(SIGKILL, q);
       } while_each_thread(g, q);

       return 0;
}

__oom_kill_task()はメッセージを表示して、KILLプロセスにTIF_MEMDIEをセットした後、force_sig(SIGKILL, p)でSIGKILLを送信しています。

static void __oom_kill_task(struct task_struct *p, int verbose)
{
       if (is_global_init(p)) {
               WARN_ON(1);
               printk(KERN_WARNING "tried to kill init!\n");
               return;
       }

       if (!p->mm) {
               WARN_ON(1);
               printk(KERN_WARNING "tried to kill an mm-less task!\n");
               return;
       }

       if (sysctl_would_have_oomkilled == 1) {
               printk(KERN_ERR "Would have killed process %d (%s). But continuing instead.\n",
                               task_pid_nr(p), p->comm);
               return;
       }

       if (verbose)
               printk(KERN_ERR "Killed process %d (%s)\n",
                               task_pid_nr(p), p->comm);

       p->rt.time_slice = HZ;
       set_tsk_thread_flag(p, TIF_MEMDIE);

       force_sig(SIGKILL, p);
}