move HPUXCOMPAT code to MD files and account for new stack alignment
[unix-history] / usr / src / sys / kern / kern_clock.c
index 012d281..9873bb3 100644 (file)
-/*     kern_clock.c    4.38    82/09/06        */
-
-#include "../h/param.h"
-#include "../h/systm.h"
-#include "../h/dk.h"
-#include "../h/callout.h"
-#include "../h/dir.h"
-#include "../h/user.h"
-#include "../h/kernel.h"
-#include "../h/proc.h"
-#include "../h/psl.h"
-#include "../h/vm.h"
-#include "../h/text.h"
-#ifdef MUSH
-#include "../h/quota.h"
-#include "../h/share.h"
-#endif
+/*-
+ * Copyright (c) 1982, 1986, 1991 The Regents of the University of California.
+ * All rights reserved.
+ *
+ * %sccs.include.redist.c%
+ *
+ *     @(#)kern_clock.c        7.28 (Berkeley) %G%
+ */
 
 
-#include "dh.h"
-#include "dz.h"
-#include "ps.h"
+#include <sys/param.h>
+#include <sys/systm.h>
+#include <sys/dkstat.h>
+#include <sys/callout.h>
+#include <sys/kernel.h>
+#include <sys/proc.h>
+#include <sys/resourcevar.h>
+
+#include <machine/cpu.h>
 
 #ifdef GPROF
 
 #ifdef GPROF
-extern int profiling;
-extern char *s_lowpc;
-extern u_long s_textsize;
-extern u_short *kcount;
+#include <sys/gmon.h>
+extern u_short *kcount;
 #endif
 
 #endif
 
-#define        bumptime(tp)    \
-       (tp)->tv_usec += tick; \
-       if ((tp)->tv_usec >= 1000000) { \
-               (tp)->tv_usec -= 1000000; \
-               (tp)->tv_sec++; \
-       }
+#define ADJTIME                /* For now... */
+#define        ADJ_TICK 1000
+int    adjtimedelta;
 
 
-/*ARGSUSED*/
-hardclock(pc, ps)
-       caddr_t pc;
+/*
+ * Clock handling routines.
+ *
+ * This code is written to operate with two timers that run independently of
+ * each other.  The main clock, running hz times per second, is used to keep
+ * track of real time.  The second timer handles kernel and user profiling,
+ * and does resource use estimation.  If the second timer is programmable,
+ * it is randomized to avoid aliasing between the two clocks.  For example,
+ * the randomization prevents an adversary from always giving up the cpu
+ * just before its quantum expires.  Otherwise, it would never accumulate
+ * cpu ticks.  The mean frequency of the second timer is stathz.
+ *
+ * If no second timer exists, stathz will be zero; in this case we drive
+ * profiling and statistics off the main clock.  This WILL NOT be accurate;
+ * do not do it unless absolutely necessary.
+ *
+ * The statistics clock may (or may not) be run at a higher rate while
+ * profiling.  This profile clock runs at profhz.  We require that profhz
+ * be an integral multiple of stathz.
+ *
+ * If the statistics clock is running fast, it must be divided by the ratio
+ * profhz/stathz for statistics.  (For profiling, every tick counts.)
+ */
+
+/*
+ * TODO:
+ *     allocate more timeout table slots when table overflows.
+ */
+
+/*
+ * Bump a timeval by a small number of usec's.
+ */
+#define BUMPTIME(t, usec) { \
+       register volatile struct timeval *tp = (t); \
+       register long us; \
+ \
+       tp->tv_usec = us = tp->tv_usec + (usec); \
+       if (us >= 1000000) { \
+               tp->tv_usec = us - 1000000; \
+               tp->tv_sec++; \
+       } \
+}
+
+int    stathz;
+int    profhz;
+int    profprocs;
+int    ticks;
+static int psdiv, pscnt;       /* prof => stat divider */
+int    psratio;                /* ratio: prof / stat */
+
+volatile struct        timeval time;
+volatile struct        timeval mono_time;
+
+/*
+ * Initialize clock frequencies and start both clocks running.
+ */
+void
+initclocks()
+{
+       register int i;
+
+       /*
+        * Set divisors to 1 (normal case) and let the machine-specific
+        * code do its bit.
+        */
+       psdiv = pscnt = 1;
+       cpu_initclocks();
+
+       /*
+        * Compute profhz/stathz, and fix profhz if needed.
+        */
+       i = stathz ? stathz : hz;
+       if (profhz == 0)
+               profhz = i;
+       psratio = profhz / i;
+}
+
+/*
+ * The real-time timer, interrupting hz times per second.
+ */
+void
+hardclock(frame)
+       register struct clockframe *frame;
 {
        register struct callout *p1;
 {
        register struct callout *p1;
-       register struct proc *p;
-       register int s, cpstate;
-       extern double avenrun[];
 
 
-#if NPS > 0
-       psextsync(pc, ps);
-#endif
+       /*
+        * Update real-time timeout queue.
+        * At front of queue are some number of events which are ``due''.
+        * The time to these is <= 0 and if negative represents the
+        * number of ticks which have passed since it was supposed to happen.
+        * The rest of the q elements (times > 0) are events yet to happen,
+        * where the time for each is given as a delta from the previous.
+        * Decrementing just the first of these serves to decrement the time
+        * to all events.
+        */
+       needsoft = 0;
+       for (p1 = calltodo.c_next; p1 != NULL; p1 = p1->c_next) {
+               if (--p1->c_time > 0)
+                       break;
+               if (p1->c_time == 0)
+                       break;
+       }
 
 
-/* update callout times */
-       for (p1 = calltodo.c_next; p1 && p1->c_time <= 0; p1 = p1->c_next)
-               ;
-       if (p1)
-               p1->c_time--;
-
-/* charge process for resource usage... statistically! */
-       if (!noproc) {
-               s = u.u_procp->p_rssize;
-               u.u_ru.ru_idrss += s; u.u_ru.ru_isrss += 0;     /* XXX */
-               if (u.u_procp->p_textp) {
-                       register int xrss = u.u_procp->p_textp->x_rssize;
-
-                       s += xrss;
-                       u.u_ru.ru_ixrss += xrss;
-               }
-               if (s > u.u_ru.ru_maxrss)
-                       u.u_ru.ru_maxrss = s;
-               if ((u.u_ru.ru_utime.tv_sec+u.u_ru.ru_stime.tv_sec+1) >
-                   u.u_rlimit[RLIMIT_CPU].rlim_cur) {
-                       psignal(u.u_procp, SIGXCPU);
-                       if (u.u_rlimit[RLIMIT_CPU].rlim_cur <
-                           u.u_rlimit[RLIMIT_CPU].rlim_max)
-                               u.u_rlimit[RLIMIT_CPU].rlim_cur += 5;
-               }
-               if (timerisset(&u.u_timer[ITIMER_PROF].it_value) &&
-                   itimerdecr(&u.u_timer[ITIMER_PROF], tick) == 0)
-                       psignal(u.u_procp, SIGPROF);
+               /*
+                * Run current process's virtual and profile time, as needed.
+                */
+               pstats = p->p_stats;
+               if (CLKF_USERMODE(frame) &&
+                   timerisset(&pstats->p_timer[ITIMER_VIRTUAL].it_value) &&
+                   itimerdecr(&pstats->p_timer[ITIMER_VIRTUAL], tick) == 0)
+                       psignal(p, SIGVTALRM);
+               if (timerisset(&pstats->p_timer[ITIMER_PROF].it_value) &&
+                   itimerdecr(&pstats->p_timer[ITIMER_PROF], tick) == 0)
+                       psignal(p, SIGPROF);
        }
 
        }
 
-/* charge for cpu */
-       if (USERMODE(ps)) {
-               bumptime(&u.u_ru.ru_utime);
-               if (timerisset(&u.u_timer[ITIMER_VIRTUAL].it_value) &&
-                   itimerdecr(&u.u_timer[ITIMER_VIRTUAL], tick) == 0)
-                       psignal(u.u_procp, SIGVTALRM);
-               if (u.u_procp->p_nice > NZERO)
-                       cpstate = CP_NICE;
-               else
-                       cpstate = CP_USER;
-       } else {
-#ifdef GPROF
-               int k = pc - s_lowpc;
-               if (profiling < 2 && k < s_textsize)
-                       kcount[k / sizeof (*kcount)]++;
-#endif
-               cpstate = CP_SYS;
-               if (noproc) {
-                       if ((ps&PSL_IPL) != 0)
-                               cpstate = CP_IDLE;
+       /*
+        * If no separate statistics clock is available, run it from here.
+        */
+       if (stathz == 0)
+               statclock(frame);
+
+       /*
+        * Increment the time-of-day.  The increment is just ``tick'' unless
+        * we are still adjusting the clock; see adjtime().
+        */
+       ticks++;
+#ifdef ADJTIME
+       if (adjtimedelta == 0)
+               bumptime(&time, tick);
+       else {
+               if (adjtimedelta < 0) {
+                       bumptime(&time, tick-ADJ_TICK);
+                       adjtimedelta++;
                } else {
                } else {
-                       bumptime(&u.u_ru.ru_stime);
+                       bumptime(&time, tick+ADJ_TICK);
+                       adjtimedelta--;
                }
        }
                }
        }
+#else
+       if (timedelta == 0)
+               delta = tick;
+       else {
+               delta = tick + tickdelta;
+               timedelta -= tickdelta;
+       }
+       BUMPTIME(&time, delta);
+       BUMPTIME(&mono_time, delta);
 
 
-/* iostat statistics */
-       cp_time[cpstate]++;
-       for (s = 0; s < DK_NDRIVE; s++)
-               if (dk_busy&(1<<s))
-                       dk_time[s]++;
-
-/* adjust priority of current process */
-       if (!noproc) {
-               p = u.u_procp;
-               p->p_cpticks++;
-               if (++p->p_cpu == 0)
-                       p->p_cpu--;
-#ifdef MUSH
-               p->p_quota->q_cost += (p->p_nice > NZERO ?
-                   (shconsts.sc_tic * ((2*NZERO)-p->p_nice)) / NZERO :
-                   shconsts.sc_tic) * (((int)avenrun[0]+2)/3);
+       /*
+        * Process callouts at a very low cpu priority, so we don't keep the
+        * relatively high clock interrupt priority any longer than necessary.
+        */
 #endif
 #endif
-               if (p->p_cpu % 4 == 0) {
-                       (void) setpri(p);
-                       if (p->p_pri >= PUSER)
-                               p->p_pri = p->p_usrpri;
-               }
-       }
-       bumptime(&time);
        setsoftclock();
 }
 
        setsoftclock();
 }
 
+/*
+ * Software (low priority) clock interrupt.
+ * Run periodic events from timeout queue.
+ */
 /*ARGSUSED*/
 /*ARGSUSED*/
-softclock(pc, ps)
-       caddr_t pc;
+void
+softclock()
 {
 {
-       register struct callout *p1;
-       register int a, s;
-       caddr_t arg;
-       int (*func)();
-
-       if (panicstr)
-               goto nocallout;
-       for (;;) {
-               s = spl7();
-               if ((p1 = calltodo.c_next) == 0 || p1->c_time > 0) {
-                       splx(s);
-                       break;
-               }
-               calltodo.c_next = p1->c_next;
-               arg = p1->c_arg;
-               func = p1->c_func;
-               p1->c_next = callfree;
-               callfree = p1;
-               (void) splx(s);
-               (*func)(arg);
-       }
-nocallout:
-
-#if NDH > 0
-       s = spl5(); dhtimer(); splx(s);
-#endif
-#if NDZ > 0
-       s = spl5(); dztimer(); splx(s);
-#endif
+       register struct callout *c;
+       register void *arg;
+       register void (*func) __P((void *));
+       register int s;
 
 
-/* if nothing to do, try swapin */
-       if (noproc && runin) {
-               runin = 0;
-               wakeup((caddr_t)&runin);
+       s = splhigh();
+       while ((c = calltodo.c_next) != NULL && c->c_time <= 0) {
+               func = c->c_func;
+               arg = c->c_arg;
+               calltodo.c_next = c->c_next;
+               c->c_next = callfree;
+               callfree = c;
+               splx(s);
+               (*func)(arg);
+               (void) splhigh();
        }
        }
+       splx(s);
 }
 
 /*
 }
 
 /*
- * Arrange that (*fun)(arg) is called in tim/hz seconds.
+ * Arrange that (*func)(arg) is called in t/hz seconds.
  */
  */
-timeout(fun, arg, tim)
-       int (*fun)();
-       caddr_t arg;
-       int tim;
+void
+timeout(func, arg, t)
+       void (*func) __P((void *));
+       void *arg;
+       register int t;
 {
        register struct callout *p1, *p2, *pnew;
 {
        register struct callout *p1, *p2, *pnew;
-       register int t;
-       int s;
+       register int s;
 
 
-       t = tim;
-       s = spl7();
+       s = splhigh();
+       if (t <= 0)
+               t = 1;
        pnew = callfree;
        if (pnew == NULL)
                panic("timeout table overflow");
        callfree = pnew->c_next;
        pnew->c_arg = arg;
        pnew = callfree;
        if (pnew == NULL)
                panic("timeout table overflow");
        callfree = pnew->c_next;
        pnew->c_arg = arg;
-       pnew->c_func = fun;
+       pnew->c_func = func;
        for (p1 = &calltodo; (p2 = p1->c_next) && p2->c_time < t; p1 = p2)
        for (p1 = &calltodo; (p2 = p1->c_next) && p2->c_time < t; p1 = p2)
-               t -= p2->c_time;
+               if (p2->c_time > 0)
+                       t -= p2->c_time;
        p1->c_next = pnew;
        pnew->c_next = p2;
        pnew->c_time = t;
        p1->c_next = pnew;
        pnew->c_next = p2;
        pnew->c_time = t;
@@ -200,23 +243,22 @@ timeout(fun, arg, tim)
        splx(s);
 }
 
        splx(s);
 }
 
-#ifdef notdef
 /*
  * untimeout is called to remove a function timeout call
  * from the callout structure.
  */
 /*
  * untimeout is called to remove a function timeout call
  * from the callout structure.
  */
-untimeout(fun, arg)
-       int (*fun)();
-       caddr_t arg;
+void
+untimeout(func, arg)
+       void (*func) __P((void *));
+       void *arg;
 {
 {
-
        register struct callout *p1, *p2;
        register int s;
 
        register struct callout *p1, *p2;
        register int s;
 
-       s = spl7();
-       for (p1 = &calltodo; (p2 = p1->c_next) != 0; p1 = p2) {
-               if (p2->c_func == fun && p2->c_arg == arg) {
-                       if (p2->c_next)
+       s = splhigh();
+       for (p1 = &calltodo; (p2 = p1->c_next) != NULL; p1 = p2) {
+               if (p2->c_func == func && p2->c_arg == arg) {
+                       if (p2->c_next && p2->c_time > 0)
                                p2->c_next->c_time += p2->c_time;
                        p1->c_next = p2->c_next;
                        p2->c_next = callfree;
                                p2->c_next->c_time += p2->c_time;
                        p1->c_next = p2->c_next;
                        p2->c_next = callfree;
@@ -226,4 +268,225 @@ untimeout(fun, arg)
        }
        splx(s);
 }
        }
        splx(s);
 }
+
+/*
+ * Compute number of hz until specified time.
+ * Used to compute third argument to timeout() from an
+ * absolute time.
+ */
+int
+hzto(tv)
+       struct timeval *tv;
+{
+       register long ticks, sec;
+       int s;
+
+       /*
+        * If number of milliseconds will fit in 32 bit arithmetic,
+        * then compute number of milliseconds to time and scale to
+        * ticks.  Otherwise just compute number of hz in time, rounding
+        * times greater than representible to maximum value.
+        *
+        * Delta times less than 25 days can be computed ``exactly''.
+        * Maximum value for any timeout in 10ms ticks is 250 days.
+        */
+       s = splhigh();
+       sec = tv->tv_sec - time.tv_sec;
+       if (sec <= 0x7fffffff / 1000 - 1000)
+               ticks = ((tv->tv_sec - time.tv_sec) * 1000 +
+                       (tv->tv_usec - time.tv_usec) / 1000) / (tick / 1000);
+       else if (sec <= 0x7fffffff / hz)
+               ticks = sec * hz;
+       else
+               ticks = 0x7fffffff;
+       splx(s);
+       return (ticks);
+}
+
+/*
+ * Start profiling on a process.
+ *
+ * Kernel profiling passes proc0 which never exits and hence
+ * keeps the profile clock running constantly.
+ */
+void
+startprofclock(p)
+       register struct proc *p;
+{
+       int s;
+
+       if ((p->p_flag & SPROFIL) == 0) {
+               p->p_flag |= SPROFIL;
+               if (++profprocs == 1 && stathz != 0) {
+                       s = splstatclock();
+                       psdiv = pscnt = psratio;
+                       setstatclockrate(profhz);
+                       splx(s);
+               }
+       }
+}
+
+/*
+ * Stop profiling on a process.
+ */
+void
+stopprofclock(p)
+       register struct proc *p;
+{
+       int s;
+
+       if (p->p_flag & SPROFIL) {
+               p->p_flag &= ~SPROFIL;
+               if (--profprocs == 0 && stathz != 0) {
+                       s = splstatclock();
+                       psdiv = pscnt = 1;
+                       setstatclockrate(stathz);
+                       splx(s);
+               }
+       }
+}
+
+int    dk_ndrive = DK_NDRIVE;
+
+/*
+ * Statistics clock.  Grab profile sample, and if divider reaches 0,
+ * do process and kernel statistics.
+ */
+void
+statclock(frame)
+       register struct clockframe *frame;
+{
+#ifdef GPROF
+       register struct gmonparam *g;
+#endif
+       register struct proc *p;
+       register int i;
+
+       if (CLKF_USERMODE(frame)) {
+               p = curproc;
+               if (p->p_flag & SPROFIL)
+                       addupc_intr(p, CLKF_PC(frame), 1);
+               if (--pscnt > 0)
+                       return;
+               /*
+                * Came from user mode; CPU was in user state.
+                * If this process is being profiled record the tick.
+                */
+               p->p_uticks++;
+               if (p->p_nice > NZERO)
+                       cp_time[CP_NICE]++;
+               else
+                       cp_time[CP_USER]++;
+       } else {
+#ifdef GPROF
+               /*
+                * Kernel statistics are just like addupc_intr, only easier.
+                */
+               g = &_gmonparam;
+               if (g->state == GMON_PROF_ON) {
+                       i = CLKF_PC(frame) - g->lowpc;
+                       if (i < g->textsize)
+                               kcount[i / (HISTFRACTION * sizeof(*kcount))]++;
+               }
 #endif
 #endif
+               if (--pscnt > 0)
+                       return;
+               /*
+                * Came from kernel mode, so we were:
+                * - handling an interrupt,
+                * - doing syscall or trap work on behalf of the current
+                *   user process, or
+                * - spinning in the idle loop.
+                * Whichever it is, charge the time as appropriate.
+                * Note that we charge interrupts to the current process,
+                * regardless of whether they are ``for'' that process,
+                * so that we know how much of its real time was spent
+                * in ``non-process'' (i.e., interrupt) work.
+                */
+               p = curproc;
+               if (CLKF_INTR(frame)) {
+                       if (p != NULL)
+                               p->p_iticks++;
+                       cp_time[CP_INTR]++;
+               } else if (p != NULL) {
+                       p->p_sticks++;
+                       cp_time[CP_SYS]++;
+               } else
+                       cp_time[CP_IDLE]++;
+       }
+       pscnt = psdiv;
+
+       /*
+        * We maintain statistics shown by user-level statistics
+        * programs:  the amount of time in each cpu state, and
+        * the amount of time each of DK_NDRIVE ``drives'' is busy.
+        *
+        * XXX  should either run linked list of drives, or (better)
+        *      grab timestamps in the start & done code.
+        */
+       for (i = 0; i < DK_NDRIVE; i++)
+               if (dk_busy & (1 << i))
+                       dk_time[i]++;
+
+       /*
+        * We adjust the priority of the current process.
+        * The priority of a process gets worse as it accumulates
+        * CPU time.  The cpu usage estimator (p_cpu) is increased here
+        * and the formula for computing priorities (in kern_synch.c)
+        * will compute a different value each time the p_cpu increases
+        * by 4.  The cpu usage estimator ramps up quite quickly when
+        * the process is running (linearly), and decays away
+        * exponentially, at a rate which is proportionally slower
+        * when the system is busy.  The basic principal is that the
+        * system will 90% forget that a process used a lot of CPU
+        * time in 5*loadav seconds.  This causes the system to favor
+        * processes which haven't run much recently, and to
+        * round-robin among other processes.
+        */
+       if (p != NULL) {
+               p->p_cpticks++;
+               if (++p->p_cpu == 0)
+                       p->p_cpu--;
+               if ((p->p_cpu & 3) == 0) {
+                       setpri(p);
+                       if (p->p_pri >= PUSER)
+                               p->p_pri = p->p_usrpri;
+               }
+       }
+}
+
+/*
+ * Return information about system clocks.
+ */
+/* ARGSUSED */
+kinfo_clockrate(op, where, acopysize, arg, aneeded)
+       int op;
+       register char *where;
+       int *acopysize, arg, *aneeded;
+{
+       int buflen, error;
+       struct clockinfo clockinfo;
+
+       *aneeded = sizeof(clockinfo);
+       if (where == NULL)
+               return (0);
+       /*
+        * Check for enough buffering.
+        */
+       buflen = *acopysize;
+       if (buflen < sizeof(clockinfo)) {
+               *acopysize = 0;
+               return (0);
+       }
+       /*
+        * Copyout clockinfo structure.
+        */
+       clockinfo.hz = hz;
+       clockinfo.tick = tick;
+       clockinfo.profhz = profhz;
+       clockinfo.stathz = stathz ? stathz : hz;
+       if (error = copyout((caddr_t)&clockinfo, where, sizeof(clockinfo)))
+               return (error);
+       *acopysize = sizeof(clockinfo);
+       return (0);
+}