Cleanups for 4.4BSD-Lite
[unix-history] / usr / src / sys / kern / kern_clock.c
index af7f00a..237cc30 100644 (file)
-/*     kern_clock.c    4.40    82/09/08        */
-
-#include "../h/param.h"
-#include "../h/systm.h"
-#include "../h/dk.h"
-#include "../h/callout.h"
-#include "../h/dir.h"
-#include "../h/user.h"
-#include "../h/kernel.h"
-#include "../h/proc.h"
-#include "../h/psl.h"
-#include "../h/vm.h"
-#include "../h/text.h"
-#ifdef MUSH
-#include "../h/quota.h"
-#include "../h/share.h"
+/*-
+ * Copyright (c) 1982, 1986, 1991, 1993
+ *     The Regents of the University of California.  All rights reserved.
+ *
+ * %sccs.include.redist.c%
+ *
+ *     @(#)kern_clock.c        8.2 (Berkeley) %G%
+ */
+
+#include <sys/param.h>
+#include <sys/systm.h>
+#include <sys/dkstat.h>
+#include <sys/callout.h>
+#include <sys/kernel.h>
+#include <sys/proc.h>
+#include <sys/resourcevar.h>
+
+#include <machine/cpu.h>
+
+#ifdef GPROF
+#include <sys/gmon.h>
 #endif
 
 #endif
 
+#define ADJTIME                /* For now... */
+#define        ADJ_TICK 1000
+int    adjtimedelta;
+
 /*
  * Clock handling routines.
  *
 /*
  * Clock handling routines.
  *
- * This code is written for a machine with only one interval timer,
- * and does timing and resource utilization estimation statistically
- * based on the state of the machine hz times a second.  A machine
- * with proper clocks (running separately in user state, system state,
- * interrupt state and idle state) as well as a time-of-day clock
- * would allow a non-approximate implementation.
+ * This code is written to operate with two timers that run independently of
+ * each other.  The main clock, running hz times per second, is used to keep
+ * track of real time.  The second timer handles kernel and user profiling,
+ * and does resource use estimation.  If the second timer is programmable,
+ * it is randomized to avoid aliasing between the two clocks.  For example,
+ * the randomization prevents an adversary from always giving up the cpu
+ * just before its quantum expires.  Otherwise, it would never accumulate
+ * cpu ticks.  The mean frequency of the second timer is stathz.
+ *
+ * If no second timer exists, stathz will be zero; in this case we drive
+ * profiling and statistics off the main clock.  This WILL NOT be accurate;
+ * do not do it unless absolutely necessary.
+ *
+ * The statistics clock may (or may not) be run at a higher rate while
+ * profiling.  This profile clock runs at profhz.  We require that profhz
+ * be an integral multiple of stathz.
+ *
+ * If the statistics clock is running fast, it must be divided by the ratio
+ * profhz/stathz for statistics.  (For profiling, every tick counts.)
  */
 
 /*
  * TODO:
  */
 
 /*
  * TODO:
- *     * Keep more accurate statistics by simulating good interval timers.
- *     * Use the time-of-day clock on the VAX to keep more accurate time
- *       than is possible by repeated use of the interval timer.
- *     * Allocate more timeout table slots when table overflows.
+ *     allocate more timeout table slots when table overflows.
  */
 
  */
 
-/* bump a timeval by a small number of usec's */
-#define        bumptime(tp, usec) \
-       (tp)->tv_usec += usec; \
-       if ((tp)->tv_usec >= 1000000) { \
-               (tp)->tv_usec -= 1000000; \
-               (tp)->tv_sec++; \
-       }
+/*
+ * Bump a timeval by a small number of usec's.
+ */
+#define BUMPTIME(t, usec) { \
+       register volatile struct timeval *tp = (t); \
+       register long us; \
+ \
+       tp->tv_usec = us = tp->tv_usec + (usec); \
+       if (us >= 1000000) { \
+               tp->tv_usec = us - 1000000; \
+               tp->tv_sec++; \
+       } \
+}
+
+int    stathz;
+int    profhz;
+int    profprocs;
+int    ticks;
+static int psdiv, pscnt;       /* prof => stat divider */
+int    psratio;                /* ratio: prof / stat */
+
+volatile struct        timeval time;
+volatile struct        timeval mono_time;
 
 /*
 
 /*
- * The (single) hardware interval timer.
- * We update the events relating to real time, and then
- * make a gross assumption: that the system has been in the
- * state it is in (user state, kernel state, interrupt state,
- * or idle state) for the entire last time interval, and
- * update statistics accordingly.
+ * Initialize clock frequencies and start both clocks running.
  */
  */
-/*ARGSUSED*/
-hardclock(pc, ps)
-       caddr_t pc;
+void
+initclocks()
+{
+       register int i;
+
+       /*
+        * Set divisors to 1 (normal case) and let the machine-specific
+        * code do its bit.
+        */
+       psdiv = pscnt = 1;
+       cpu_initclocks();
+
+       /*
+        * Compute profhz/stathz, and fix profhz if needed.
+        */
+       i = stathz ? stathz : hz;
+       if (profhz == 0)
+               profhz = i;
+       psratio = profhz / i;
+}
+
+/*
+ * The real-time timer, interrupting hz times per second.
+ */
+void
+hardclock(frame)
+       register struct clockframe *frame;
 {
        register struct callout *p1;
 {
        register struct callout *p1;
-       register struct proc *p;
-       register int s, cpstate;
-       extern double avenrun[];
 
        /*
         * Update real-time timeout queue.
 
        /*
         * Update real-time timeout queue.
@@ -70,234 +121,184 @@ hardclock(pc, ps)
         * Decrementing just the first of these serves to decrement the time
         * to all events.
         */
         * Decrementing just the first of these serves to decrement the time
         * to all events.
         */
-       for (p1 = calltodo.c_next; p1 && p1->c_time <= 0; p1 = p1->c_next)
-               --p1->c_time;
-       if (p1)
-               --p1->c_time;
-
-       /*
-        * If the cpu is currently scheduled to a process, then
-        * charge it with resource utilization for a tick, updating
-        * statistics which run in (user+system) virtual time,
-        * such as the cpu time limit and profiling timers.
-        * This assumes that the current process has been running
-        * the entire last tick.
-        */
-       if (!noproc) {
-               s = u.u_procp->p_rssize;
-               u.u_ru.ru_idrss += s; u.u_ru.ru_isrss += 0;     /* XXX */
-               if (u.u_procp->p_textp) {
-                       register int xrss = u.u_procp->p_textp->x_rssize;
-
-                       s += xrss;
-                       u.u_ru.ru_ixrss += xrss;
-               }
-               if (s > u.u_ru.ru_maxrss)
-                       u.u_ru.ru_maxrss = s;
-               if ((u.u_ru.ru_utime.tv_sec+u.u_ru.ru_stime.tv_sec+1) >
-                   u.u_rlimit[RLIMIT_CPU].rlim_cur) {
-                       psignal(u.u_procp, SIGXCPU);
-                       if (u.u_rlimit[RLIMIT_CPU].rlim_cur <
-                           u.u_rlimit[RLIMIT_CPU].rlim_max)
-                               u.u_rlimit[RLIMIT_CPU].rlim_cur += 5;
-               }
-               if (timerisset(&u.u_timer[ITIMER_PROF].it_value) &&
-                   itimerdecr(&u.u_timer[ITIMER_PROF], tick) == 0)
-                       psignal(u.u_procp, SIGPROF);
+       needsoft = 0;
+       for (p1 = calltodo.c_next; p1 != NULL; p1 = p1->c_next) {
+               if (--p1->c_time > 0)
+                       break;
+               if (p1->c_time == 0)
+                       break;
        }
 
        }
 
-       /*
-        * Charge the time out based on the mode the cpu is in.
-        * Here again we fudge for the lack of proper interval timers
-        * assuming that the current state has been around at least
-        * one tick.
-        */
-       if (USERMODE(ps)) {
                /*
                /*
-                * CPU was in user state.  Increment
-                * user time counter, and process process-virtual time
-                * interval timer.
+                * Run current process's virtual and profile time, as needed.
                 */
                 */
-               bumptime(&u.u_ru.ru_utime, tick);
-               if (timerisset(&u.u_timer[ITIMER_VIRTUAL].it_value) &&
-                   itimerdecr(&u.u_timer[ITIMER_VIRTUAL], tick) == 0)
-                       psignal(u.u_procp, SIGVTALRM);
-               if (u.u_procp->p_nice > NZERO)
-                       cpstate = CP_NICE;
-               else
-                       cpstate = CP_USER;
-       } else {
-               /*
-                * CPU was in system state.  If profiling kernel
-                * increment a counter.  If no process is running
-                * then this is a system tick if we were running
-                * at a non-zero IPL (in a driver).  If a process is running,
-                * then we charge it with system time even if we were
-                * at a non-zero IPL, since the system often runs
-                * this way during processing of system calls.
-                * This is approximate, but the lack of true interval
-                * timers makes doing anything else difficult.
-                */
-#ifdef GPROF
-               int k = pc - s_lowpc;
-               if (profiling < 2 && k < s_textsize)
-                       kcount[k / sizeof (*kcount)]++;
-#endif
-               cpstate = CP_SYS;
-               if (noproc) {
-                       if ((ps&PSL_IPL) != 0)
-                               cpstate = CP_IDLE;
-               } else {
-                       bumptime(&u.u_ru.ru_stime, tick);
-               }
+               pstats = p->p_stats;
+               if (CLKF_USERMODE(frame) &&
+                   timerisset(&pstats->p_timer[ITIMER_VIRTUAL].it_value) &&
+                   itimerdecr(&pstats->p_timer[ITIMER_VIRTUAL], tick) == 0)
+                       psignal(p, SIGVTALRM);
+               if (timerisset(&pstats->p_timer[ITIMER_PROF].it_value) &&
+                   itimerdecr(&pstats->p_timer[ITIMER_PROF], tick) == 0)
+                       psignal(p, SIGPROF);
        }
 
        /*
        }
 
        /*
-        * We maintain statistics shown by user-level statistics
-        * programs:  the amount of time in each cpu state, and
-        * the amount of time each of DK_NDRIVE ``drives'' is busy.
+        * If no separate statistics clock is available, run it from here.
         */
         */
-       cp_time[cpstate]++;
-       for (s = 0; s < DK_NDRIVE; s++)
-               if (dk_busy&(1<<s))
-                       dk_time[s]++;
+       if (stathz == 0)
+               statclock(frame);
 
        /*
 
        /*
-        * We adjust the priority of the current process.
-        * The priority of a process gets worse as it accumulates
-        * CPU time.  The cpu usage estimator (p_cpu) is increased here
-        * and the formula for computing priorities (in kern_synch.c)
-        * will compute a different value each time the p_cpu increases
-        * by 4.  The cpu usage estimator ramps up quite quickly when
-        * the process is running (linearly), and decays away exponentially,
-        * at a rate which is proportionally slower when the system is
-        * busy.  The basic principal is that the system will 90% forget
-        * that a process used a lot of CPU time in 5*loadav seconds.
-        * This causes the system to favor processes which haven't run
-        * much recently, and to round-robin among other processes.
+        * Increment the time-of-day.  The increment is just ``tick'' unless
+        * we are still adjusting the clock; see adjtime().
         */
         */
-       if (!noproc) {
-               p = u.u_procp;
-               p->p_cpticks++;
-               if (++p->p_cpu == 0)
-                       p->p_cpu--;
-#ifdef MUSH
-               p->p_quota->q_cost += (p->p_nice > NZERO ?
-                   (shconsts.sc_tic * ((2*NZERO)-p->p_nice)) / NZERO :
-                   shconsts.sc_tic) * (((int)avenrun[0]+2)/3);
-#endif
-               if ((p->p_cpu&3) == 0) {
-                       (void) setpri(p);
-                       if (p->p_pri >= PUSER)
-                               p->p_pri = p->p_usrpri;
+       ticks++;
+#ifdef ADJTIME
+       if (adjtimedelta == 0)
+               bumptime(&time, tick);
+       else {
+               if (adjtimedelta < 0) {
+                       bumptime(&time, tick-ADJ_TICK);
+                       adjtimedelta++;
+               } else {
+                       bumptime(&time, tick+ADJ_TICK);
+                       adjtimedelta--;
                }
        }
                }
        }
+#else
+       if (timedelta == 0)
+               delta = tick;
+       else {
+               delta = tick + tickdelta;
+               timedelta -= tickdelta;
+       }
+       BUMPTIME(&time, delta);
+       BUMPTIME(&mono_time, delta);
 
        /*
 
        /*
-        * Increment the time-of-day, and schedule
-        * processing of the callouts at a very low cpu priority,
-        * so we don't keep the relatively high clock interrupt
-        * priority any longer than necessary.
+        * Process callouts at a very low cpu priority, so we don't keep the
+        * relatively high clock interrupt priority any longer than necessary.
         */
         */
-       bumptime(&time, tick);
+#endif
        setsoftclock();
 }
 
 /*
        setsoftclock();
 }
 
 /*
- * Software priority level clock interrupt.
+ * Software (low priority) clock interrupt.
  * Run periodic events from timeout queue.
  */
 /*ARGSUSED*/
  * Run periodic events from timeout queue.
  */
 /*ARGSUSED*/
-softclock(pc, ps)
-       caddr_t pc;
+void
+softclock()
 {
 {
+       register struct callout *c;
+       register void *arg;
+       register void (*func) __P((void *));
+       register int s;
 
 
-       for (;;) {
-               register struct callout *p1;
-               register caddr_t arg;
-               register int (*func)();
-               register int a, s;
-
-               s = spl7();
-               if ((p1 = calltodo.c_next) == 0 || p1->c_time > 0) {
-                       splx(s);
-                       break;
-               }
-               arg = p1->c_arg; func = p1->c_func; a = p1->c_time;
-               calltodo.c_next = p1->c_next;
-               p1->c_next = callfree;
-               callfree = p1;
-               (void) splx(s);
-               (*func)(arg, a);
+       s = splhigh();
+       while ((c = calltodo.c_next) != NULL && c->c_time <= 0) {
+               func = c->c_func;
+               arg = c->c_arg;
+               calltodo.c_next = c->c_next;
+               c->c_next = callfree;
+               callfree = c;
+               splx(s);
+               (*func)(arg);
+               (void) splhigh();
        }
        }
+       splx(s);
 }
 
 /*
 }
 
 /*
- * Arrange that (*fun)(arg) is called in tim/hz seconds.
+ * timeout --
+ *     Execute a function after a specified length of time.
+ *
+ * untimeout --
+ *     Cancel previous timeout function call.
+ *
+ *     See AT&T BCI Driver Reference Manual for specification.  This
+ *     implementation differs from that one in that no identification
+ *     value is returned from timeout, rather, the original arguments
+ *     to timeout are used to identify entries for untimeout.
  */
  */
-timeout(fun, arg, tim)
-       int (*fun)();
-       caddr_t arg;
-       int tim;
+void
+timeout(ftn, arg, ticks)
+       void (*ftn) __P((void *));
+       void *arg;
+       register int ticks;
 {
 {
-       register struct callout *p1, *p2, *pnew;
-       register int t;
-       int s;
+       register struct callout *new, *p, *t;
+       register int s;
+
+       if (ticks <= 0)
+               ticks = 1;
+
+       /* Lock out the clock. */
+       s = splhigh();
+
+       /* Fill in the next free callout structure. */
+       if (callfree == NULL)
+               panic("timeout table full");
+       new = callfree;
+       callfree = new->c_next;
+       new->c_arg = arg;
+       new->c_func = ftn;
+
+       /*
+        * The time for each event is stored as a difference from the time
+        * of the previous event on the queue.  Walk the queue, correcting
+        * the ticks argument for queue entries passed.  Correct the ticks
+        * value for the queue entry immediately after the insertion point
+        * as well.
+        */
+       for (p = &calltodo;
+           (t = p->c_next) != NULL && ticks > t->c_time; p = t)
+               ticks -= t->c_time;
+       new->c_time = ticks;
+       if (t != NULL)
+               t->c_time -= ticks;
 
 
-       t = tim;
-       s = spl7();
-       pnew = callfree;
-       if (pnew == NULL)
-               panic("timeout table overflow");
-       callfree = pnew->c_next;
-       pnew->c_arg = arg;
-       pnew->c_func = fun;
-       for (p1 = &calltodo; (p2 = p1->c_next) && p2->c_time < t; p1 = p2)
-               t -= p2->c_time;
-       p1->c_next = pnew;
-       pnew->c_next = p2;
-       pnew->c_time = t;
-       if (p2)
-               p2->c_time -= t;
+       /* Insert the new entry into the queue. */
+       p->c_next = new;
+       new->c_next = t;
        splx(s);
 }
 
        splx(s);
 }
 
-/*
- * untimeout is called to remove a function timeout call
- * from the callout structure.
- */
-untimeout(fun, arg)
-       int (*fun)();
-       caddr_t arg;
+void
+untimeout(ftn, arg)
+       void (*ftn) __P((void *));
+       void *arg;
 {
 {
-       register struct callout *p1, *p2;
+       register struct callout *p, *t;
        register int s;
 
        register int s;
 
-       s = spl7();
-       for (p1 = &calltodo; (p2 = p1->c_next) != 0; p1 = p2) {
-               if (p2->c_func == fun && p2->c_arg == arg) {
-                       if (p2->c_next && p2->c_time > 0)
-                               p2->c_next->c_time += p2->c_time;
-                       p1->c_next = p2->c_next;
-                       p2->c_next = callfree;
-                       callfree = p2;
+       s = splhigh();
+       for (p = &calltodo; (t = p->c_next) != NULL; p = t)
+               if (t->c_func == ftn && t->c_arg == arg) {
+                       /* Increment next entry's tick count. */
+                       if (t->c_next && t->c_time > 0)
+                               t->c_next->c_time += t->c_time;
+
+                       /* Move entry from callout queue to callfree queue. */
+                       p->c_next = t->c_next;
+                       t->c_next = callfree;
+                       callfree = t;
                        break;
                }
                        break;
                }
-       }
        splx(s);
 }
 
 /*
        splx(s);
 }
 
 /*
- * Compute number of hz until specified time.
- * Used to compute third argument to timeout() from an
- * absolute time.
+ * Compute number of hz until specified time.  Used to
+ * compute third argument to timeout() from an absolute time.
  */
  */
+int
 hzto(tv)
        struct timeval *tv;
 {
 hzto(tv)
        struct timeval *tv;
 {
-       register long ticks;
-       register long sec;
-       int s = spl7();
+       register long ticks, sec;
+       int s;
 
        /*
         * If number of milliseconds will fit in 32 bit arithmetic,
 
        /*
         * If number of milliseconds will fit in 32 bit arithmetic,
@@ -308,6 +309,7 @@ hzto(tv)
         * Delta times less than 25 days can be computed ``exactly''.
         * Maximum value for any timeout in 10ms ticks is 250 days.
         */
         * Delta times less than 25 days can be computed ``exactly''.
         * Maximum value for any timeout in 10ms ticks is 250 days.
         */
+       s = splhigh();
        sec = tv->tv_sec - time.tv_sec;
        if (sec <= 0x7fffffff / 1000 - 1000)
                ticks = ((tv->tv_sec - time.tv_sec) * 1000 +
        sec = tv->tv_sec - time.tv_sec;
        if (sec <= 0x7fffffff / 1000 - 1000)
                ticks = ((tv->tv_sec - time.tv_sec) * 1000 +
@@ -319,3 +321,176 @@ hzto(tv)
        splx(s);
        return (ticks);
 }
        splx(s);
        return (ticks);
 }
+
+/*
+ * Start profiling on a process.
+ *
+ * Kernel profiling passes proc0 which never exits and hence
+ * keeps the profile clock running constantly.
+ */
+void
+startprofclock(p)
+       register struct proc *p;
+{
+       int s;
+
+       if ((p->p_flag & SPROFIL) == 0) {
+               p->p_flag |= SPROFIL;
+               if (++profprocs == 1 && stathz != 0) {
+                       s = splstatclock();
+                       psdiv = pscnt = psratio;
+                       setstatclockrate(profhz);
+                       splx(s);
+               }
+       }
+}
+
+/*
+ * Stop profiling on a process.
+ */
+void
+stopprofclock(p)
+       register struct proc *p;
+{
+       int s;
+
+       if (p->p_flag & SPROFIL) {
+               p->p_flag &= ~SPROFIL;
+               if (--profprocs == 0 && stathz != 0) {
+                       s = splstatclock();
+                       psdiv = pscnt = 1;
+                       setstatclockrate(stathz);
+                       splx(s);
+               }
+       }
+}
+
+int    dk_ndrive = DK_NDRIVE;
+
+/*
+ * Statistics clock.  Grab profile sample, and if divider reaches 0,
+ * do process and kernel statistics.
+ */
+void
+statclock(frame)
+       register struct clockframe *frame;
+{
+#ifdef GPROF
+       register struct gmonparam *g;
+#endif
+       register struct proc *p;
+       register int i;
+
+       if (CLKF_USERMODE(frame)) {
+               p = curproc;
+               if (p->p_flag & SPROFIL)
+                       addupc_intr(p, CLKF_PC(frame), 1);
+               if (--pscnt > 0)
+                       return;
+               /*
+                * Came from user mode; CPU was in user state.
+                * If this process is being profiled record the tick.
+                */
+               p->p_uticks++;
+               if (p->p_nice > NZERO)
+                       cp_time[CP_NICE]++;
+               else
+                       cp_time[CP_USER]++;
+       } else {
+#ifdef GPROF
+               /*
+                * Kernel statistics are just like addupc_intr, only easier.
+                */
+               g = &_gmonparam;
+               if (g->state == GMON_PROF_ON) {
+                       i = CLKF_PC(frame) - g->lowpc;
+                       if (i < g->textsize) {
+                               i /= HISTFRACTION * sizeof(*g->kcount);
+                               g->kcount[i]++;
+                       }
+               }
+#endif
+               if (--pscnt > 0)
+                       return;
+               /*
+                * Came from kernel mode, so we were:
+                * - handling an interrupt,
+                * - doing syscall or trap work on behalf of the current
+                *   user process, or
+                * - spinning in the idle loop.
+                * Whichever it is, charge the time as appropriate.
+                * Note that we charge interrupts to the current process,
+                * regardless of whether they are ``for'' that process,
+                * so that we know how much of its real time was spent
+                * in ``non-process'' (i.e., interrupt) work.
+                */
+               p = curproc;
+               if (CLKF_INTR(frame)) {
+                       if (p != NULL)
+                               p->p_iticks++;
+                       cp_time[CP_INTR]++;
+               } else if (p != NULL) {
+                       p->p_sticks++;
+                       cp_time[CP_SYS]++;
+               } else
+                       cp_time[CP_IDLE]++;
+       }
+       pscnt = psdiv;
+
+       /*
+        * We maintain statistics shown by user-level statistics
+        * programs:  the amount of time in each cpu state, and
+        * the amount of time each of DK_NDRIVE ``drives'' is busy.
+        *
+        * XXX  should either run linked list of drives, or (better)
+        *      grab timestamps in the start & done code.
+        */
+       for (i = 0; i < DK_NDRIVE; i++)
+               if (dk_busy & (1 << i))
+                       dk_time[i]++;
+
+       /*
+        * We adjust the priority of the current process.
+        * The priority of a process gets worse as it accumulates
+        * CPU time.  The cpu usage estimator (p_cpu) is increased here
+        * and the formula for computing priorities (in kern_synch.c)
+        * will compute a different value each time the p_cpu increases
+        * by 4.  The cpu usage estimator ramps up quite quickly when
+        * the process is running (linearly), and decays away
+        * exponentially, at a rate which is proportionally slower
+        * when the system is busy.  The basic principal is that the
+        * system will 90% forget that a process used a lot of CPU
+        * time in 5*loadav seconds.  This causes the system to favor
+        * processes which haven't run much recently, and to
+        * round-robin among other processes.
+        */
+       if (p != NULL) {
+               p->p_cpticks++;
+               if (++p->p_cpu == 0)
+                       p->p_cpu--;
+               if ((p->p_cpu & 3) == 0) {
+                       resetpriority(p);
+                       if (p->p_pri >= PUSER)
+                               p->p_pri = p->p_usrpri;
+               }
+       }
+}
+
+/*
+ * Return information about system clocks.
+ */
+sysctl_clockrate(where, sizep)
+       register char *where;
+       size_t *sizep;
+{
+       struct clockinfo clkinfo;
+
+       /*
+        * Construct clockinfo structure.
+        */
+       clkinfo.hz = hz;
+       clkinfo.tick = tick;
+       clkinfo.profhz = profhz;
+       clkinfo.stathz = stathz ? stathz : hz;
+       return (sysctl_rdstruct(where, sizep, NULL, &clkinfo, sizeof(clkinfo)));
+}