net/lwip/bpfdev.c

*ef8d499eSDavid van Moolenbroek/* LWIP service - bpfdev.c - Berkeley Packet Filter (/dev/bpf) interface */
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * BPF is a cloning device: opening /dev/bpf returns a new BPF device which is
*ef8d499eSDavid van Moolenbroek * independent from any other opened BPF devices.  We assume that each BPF
*ef8d499eSDavid van Moolenbroek * device is used by one single user process, and this implementation therefore
*ef8d499eSDavid van Moolenbroek * does not support multiple concurrent device calls on the same BPF device.
*ef8d499eSDavid van Moolenbroek *
*ef8d499eSDavid van Moolenbroek * Packet buffering basically follows the BSD model: each BPF device that is
*ef8d499eSDavid van Moolenbroek * configured (that is, it has been attached to an interface) has two buffers,
*ef8d499eSDavid van Moolenbroek * each of the configured size: a store buffer, where new packets are stored,
*ef8d499eSDavid van Moolenbroek * and a hold buffer, which is typically full and awaiting retrieval through a
*ef8d499eSDavid van Moolenbroek * read call from userland.  The buffers are swapped ("rotated") when the store
*ef8d499eSDavid van Moolenbroek * buffer is filled up and the hold buffer is empty - if the hold buffer is not
*ef8d499eSDavid van Moolenbroek * empty is not empty either, additional packets are dropped.
*ef8d499eSDavid van Moolenbroek *
*ef8d499eSDavid van Moolenbroek * These buffers are allocated when the BPF device is attached to an interface.
*ef8d499eSDavid van Moolenbroek * The interface may later disappear, in which case the BPF device is detached
*ef8d499eSDavid van Moolenbroek * from it, allowing any final packets to be read before read requests start
*ef8d499eSDavid van Moolenbroek * returning I/O errors.  The buffers are freed only when the device is closed.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek#include "lwip.h"
*ef8d499eSDavid van Moolenbroek#include "bpfdev.h"
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek#include <minix/chardriver.h>
*ef8d499eSDavid van Moolenbroek#include <net/if.h>
*ef8d499eSDavid van Moolenbroek#include <net/bpfdesc.h>
*ef8d499eSDavid van Moolenbroek#include <minix/bpf.h>
*ef8d499eSDavid van Moolenbroek#include <sys/mman.h>
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Make sure that our implementation matches the BPF version in the NetBSD
*ef8d499eSDavid van Moolenbroek * headers.  If they change the version number, we may have to make changes
*ef8d499eSDavid van Moolenbroek * here accordingly.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroek#if BPF_MAJOR_VERSION != 1 || BPF_MINOR_VERSION != 1
*ef8d499eSDavid van Moolenbroek#error "NetBSD BPF version has changed"
*ef8d499eSDavid van Moolenbroek#endif
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/* The number of BPF devices. */
*ef8d499eSDavid van Moolenbroek#define NR_BPFDEV		16
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/* BPF receive buffer size: allowed range and default. */
*ef8d499eSDavid van Moolenbroek#define BPF_BUF_MIN		BPF_WORDALIGN(sizeof(struct bpf_hdr))
*ef8d499eSDavid van Moolenbroek#define BPF_BUF_DEF		32768
*ef8d499eSDavid van Moolenbroek#define BPF_BUF_MAX		262144
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * By opening /dev/bpf, one will obtain a cloned device with a different minor
*ef8d499eSDavid van Moolenbroek * number, which maps to one of the BPF devices.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroek#define BPFDEV_MINOR		0	/* minor number of /dev/bpf */
*ef8d499eSDavid van Moolenbroek#define BPFDEV_BASE_MINOR	1	/* base minor number for BPF devices */
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroekstatic struct bpfdev {
*ef8d499eSDavid van Moolenbroek	struct bpfdev_link bpf_link;	/* structure link, MUST be first */
*ef8d499eSDavid van Moolenbroek	TAILQ_ENTRY(bpfdev) bpf_next;	/* next on free or interface list */
*ef8d499eSDavid van Moolenbroek	struct ifdev *bpf_ifdev;	/* associated interface, or NULL */
*ef8d499eSDavid van Moolenbroek	unsigned int bpf_flags;		/* flags (BPFF_) */
*ef8d499eSDavid van Moolenbroek	size_t bpf_size;		/* size of packet buffers */
*ef8d499eSDavid van Moolenbroek	char *bpf_sbuf;			/* store buffer (mmap'd, or NULL) */
*ef8d499eSDavid van Moolenbroek	char *bpf_hbuf;			/* hold buffer (mmap'd, or NULL) */
*ef8d499eSDavid van Moolenbroek	size_t bpf_slen;		/* used part of store buffer */
*ef8d499eSDavid van Moolenbroek	size_t bpf_hlen;		/* used part of hold buffer */
*ef8d499eSDavid van Moolenbroek	struct bpf_insn *bpf_filter;	/* verified BPF filter, or NULL */
*ef8d499eSDavid van Moolenbroek	size_t bpf_filterlen;		/* length of filter, for munmap */
*ef8d499eSDavid van Moolenbroek	pid_t bpf_pid;			/* process ID of last using process */
*ef8d499eSDavid van Moolenbroek	clock_t bpf_timeout;		/* timeout for read calls (0 = none) */
*ef8d499eSDavid van Moolenbroek	struct {			/* state for pending read request */
*ef8d499eSDavid van Moolenbroek		endpoint_t br_endpt;	/* reading endpoint, or NONE */
*ef8d499eSDavid van Moolenbroek		cp_grant_id_t br_grant;	/* grant for reader's buffer */
*ef8d499eSDavid van Moolenbroek		cdev_id_t br_id;	/* read request identifier */
*ef8d499eSDavid van Moolenbroek		minix_timer_t br_timer;	/* timer for read timeout */
*ef8d499eSDavid van Moolenbroek	} bpf_read;
*ef8d499eSDavid van Moolenbroek	struct {			/* state for pending select request */
*ef8d499eSDavid van Moolenbroek		endpoint_t bs_endpt;	/* selecting endpoint, or NONE */
*ef8d499eSDavid van Moolenbroek		unsigned int bs_selops;	/* pending select operations */
*ef8d499eSDavid van Moolenbroek	} bpf_select;
*ef8d499eSDavid van Moolenbroek	struct {			/* packet capture statistics */
*ef8d499eSDavid van Moolenbroek		uint64_t bs_recv;	/* # of packets run through filter */
*ef8d499eSDavid van Moolenbroek		uint64_t bs_drop;	/* # of packets dropped: buffer full */
*ef8d499eSDavid van Moolenbroek		uint64_t bs_capt;	/* # of packets accepted by filter */
*ef8d499eSDavid van Moolenbroek	} bpf_stat;
*ef8d499eSDavid van Moolenbroek} bpf_array[NR_BPFDEV];
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek#define BPFF_IN_USE	0x01		/* this BPF device object is in use */
*ef8d499eSDavid van Moolenbroek#define BPFF_PROMISC	0x02		/* promiscuous mode enabled */
*ef8d499eSDavid van Moolenbroek#define BPFF_IMMEDIATE	0x04		/* immediate mode is enabled */
*ef8d499eSDavid van Moolenbroek#define BPFF_SEESENT	0x08		/* also process host-sent packets */
*ef8d499eSDavid van Moolenbroek#define BPFF_HDRCMPLT	0x10		/* do not fill in link-layer source */
*ef8d499eSDavid van Moolenbroek#define BPFF_FEEDBACK	0x20		/* feed back written packet as input */
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroekstatic TAILQ_HEAD(, bpfdev_link) bpfl_freelist;	/* list of free BPF devices */
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroekstatic struct bpf_stat bpf_stat;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroekstatic ssize_t bpfdev_peers(struct rmib_call *, struct rmib_node *,
*ef8d499eSDavid van Moolenbroek	struct rmib_oldp *, struct rmib_newp *);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/* The CTL_NET NET_BPF subtree.  All nodes are dynamically numbered. */
*ef8d499eSDavid van Moolenbroekstatic struct rmib_node net_bpf_table[] = {
*ef8d499eSDavid van Moolenbroek	RMIB_INT(RMIB_RO, BPF_BUF_MAX, "maxbufsize",
*ef8d499eSDavid van Moolenbroek	    "Maximum size for data capture buffer"), /* TODO: read-write */
*ef8d499eSDavid van Moolenbroek	RMIB_STRUCT(RMIB_RO, sizeof(bpf_stat), &bpf_stat, "stats",
*ef8d499eSDavid van Moolenbroek	    "BPF stats"),
*ef8d499eSDavid van Moolenbroek	RMIB_FUNC(RMIB_RO | CTLTYPE_NODE, 0, bpfdev_peers, "peers",
*ef8d499eSDavid van Moolenbroek	    "BPF peers"),
*ef8d499eSDavid van Moolenbroek};
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroekstatic struct rmib_node net_bpf_node =
*ef8d499eSDavid van Moolenbroek    RMIB_NODE(RMIB_RO, net_bpf_table, "bpf", "BPF options");
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Initialize the BPF module.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekvoid
*ef8d499eSDavid van Moolenbroekbpfdev_init(void)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek	const int mib[] = { CTL_NET, NET_BPF };
*ef8d499eSDavid van Moolenbroek	unsigned int slot;
*ef8d499eSDavid van Moolenbroek	int r;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* Initialize data structures. */
*ef8d499eSDavid van Moolenbroek	TAILQ_INIT(&bpfl_freelist);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	for (slot = 0; slot < __arraycount(bpf_array); slot++) {
*ef8d499eSDavid van Moolenbroek		bpf_array[slot].bpf_flags = 0;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		TAILQ_INSERT_TAIL(&bpfl_freelist, &bpf_array[slot].bpf_link,
*ef8d499eSDavid van Moolenbroek		    bpfl_next);
*ef8d499eSDavid van Moolenbroek	}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	memset(&bpf_stat, 0, sizeof(bpf_stat));
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* Register the "net.bpf" subtree with the MIB service. */
*ef8d499eSDavid van Moolenbroek	if ((r = rmib_register(mib, __arraycount(mib), &net_bpf_node)) != OK)
*ef8d499eSDavid van Moolenbroek		panic("unable to register net.bpf RMIB tree: %d", r);
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Given a BPF device object, return the corresponding minor number.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekstatic devminor_t
*ef8d499eSDavid van Moolenbroekbpfdev_get_minor(struct bpfdev * bpfdev)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	assert(bpfdev != NULL);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	return BPFDEV_BASE_MINOR + (devminor_t)(bpfdev - bpf_array);
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Given a minor number, return the corresponding BPF device object, or NULL if
*ef8d499eSDavid van Moolenbroek * the minor number does not identify a BPF device.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekstatic struct bpfdev *
*ef8d499eSDavid van Moolenbroekbpfdev_get_by_minor(devminor_t minor)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if (minor < BPFDEV_BASE_MINOR ||
*ef8d499eSDavid van Moolenbroek	    (unsigned int)minor >= BPFDEV_BASE_MINOR + __arraycount(bpf_array))
*ef8d499eSDavid van Moolenbroek		return NULL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	return &bpf_array[minor - BPFDEV_BASE_MINOR];
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Open a BPF device, returning a cloned device instance.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekstatic int
*ef8d499eSDavid van Moolenbroekbpfdev_open(devminor_t minor, int access __unused, endpoint_t user_endpt)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek	struct bpfdev_link *bpfl;
*ef8d499eSDavid van Moolenbroek	struct bpfdev *bpf;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* Disallow opening cloned devices through device nodes. */
*ef8d499eSDavid van Moolenbroek	if (minor != BPFDEV_MINOR)
*ef8d499eSDavid van Moolenbroek		return ENXIO;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if (TAILQ_EMPTY(&bpfl_freelist))
*ef8d499eSDavid van Moolenbroek		return ENOBUFS;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	bpfl = TAILQ_FIRST(&bpfl_freelist);
*ef8d499eSDavid van Moolenbroek	TAILQ_REMOVE(&bpfl_freelist, bpfl, bpfl_next);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	bpf = (struct bpfdev *)bpfl;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	memset(bpf, 0, sizeof(*bpf));
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	bpf->bpf_flags = BPFF_IN_USE | BPFF_SEESENT;
*ef8d499eSDavid van Moolenbroek	bpf->bpf_size = BPF_BUF_DEF;
*ef8d499eSDavid van Moolenbroek	bpf->bpf_pid = getnpid(user_endpt);
*ef8d499eSDavid van Moolenbroek	bpf->bpf_read.br_endpt = NONE;
*ef8d499eSDavid van Moolenbroek	bpf->bpf_select.bs_endpt = NONE;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	return CDEV_CLONED | bpfdev_get_minor(bpf);
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Close a BPF device.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekstatic int
*ef8d499eSDavid van Moolenbroekbpfdev_close(devminor_t minor)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek	struct bpfdev *bpf;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if ((bpf = bpfdev_get_by_minor(minor)) == NULL)
*ef8d499eSDavid van Moolenbroek		return EINVAL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * There cannot possibly be a pending read request, so we never need to
*ef8d499eSDavid van Moolenbroek	 * cancel the read timer from here either.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	assert(bpf->bpf_read.br_endpt == NONE);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_sbuf != NULL) {
*ef8d499eSDavid van Moolenbroek		assert(bpf->bpf_hbuf != NULL);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if (munmap(bpf->bpf_sbuf, bpf->bpf_size) != 0)
*ef8d499eSDavid van Moolenbroek			panic("munmap failed: %d", -errno);
*ef8d499eSDavid van Moolenbroek		if (munmap(bpf->bpf_hbuf, bpf->bpf_size) != 0)
*ef8d499eSDavid van Moolenbroek			panic("munmap failed: %d", -errno);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		bpf->bpf_sbuf = NULL;
*ef8d499eSDavid van Moolenbroek		bpf->bpf_hbuf = NULL;
*ef8d499eSDavid van Moolenbroek	} else
*ef8d499eSDavid van Moolenbroek		assert(bpf->bpf_hbuf == NULL);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_filter != NULL) {
*ef8d499eSDavid van Moolenbroek		assert(bpf->bpf_filterlen > 0);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if (munmap(bpf->bpf_filter, bpf->bpf_filterlen) != 0)
*ef8d499eSDavid van Moolenbroek			panic("munmap failed: %d", -errno);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		bpf->bpf_filter = NULL;
*ef8d499eSDavid van Moolenbroek	}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * If the BPF device was attached to an interface, and that interface
*ef8d499eSDavid van Moolenbroek	 * has not disappeared in the meantime, detach from it now.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_ifdev != NULL) {
*ef8d499eSDavid van Moolenbroek		if (bpf->bpf_flags & BPFF_PROMISC)
*ef8d499eSDavid van Moolenbroek			ifdev_clear_promisc(bpf->bpf_ifdev);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		ifdev_detach_bpf(bpf->bpf_ifdev, &bpf->bpf_link);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		bpf->bpf_ifdev = NULL;
*ef8d499eSDavid van Moolenbroek	}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	bpf->bpf_flags = 0;		/* mark as no longer in use */
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	TAILQ_INSERT_HEAD(&bpfl_freelist, &bpf->bpf_link, bpfl_next);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	return OK;
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Rotate buffers for the BPF device, by swapping the store buffer and the hold
*ef8d499eSDavid van Moolenbroek * buffer.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekstatic void
*ef8d499eSDavid van Moolenbroekbpfdev_rotate(struct bpfdev * bpf)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek	char *buf;
*ef8d499eSDavid van Moolenbroek	size_t len;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * When rotating, the store buffer may or may not be empty, but the
*ef8d499eSDavid van Moolenbroek	 * hold buffer must always be empty.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	assert(bpf->bpf_hlen == 0);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	buf = bpf->bpf_sbuf;
*ef8d499eSDavid van Moolenbroek	len = bpf->bpf_slen;
*ef8d499eSDavid van Moolenbroek	bpf->bpf_sbuf = bpf->bpf_hbuf;
*ef8d499eSDavid van Moolenbroek	bpf->bpf_slen = bpf->bpf_hlen;
*ef8d499eSDavid van Moolenbroek	bpf->bpf_hbuf = buf;
*ef8d499eSDavid van Moolenbroek	bpf->bpf_hlen = len;
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Test whether any of the given select operations are ready on the BPF device,
*ef8d499eSDavid van Moolenbroek * and return the set of ready operations.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekstatic unsigned int
*ef8d499eSDavid van Moolenbroekbpfdev_test_select(struct bpfdev * bpf, unsigned int ops)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek	unsigned int ready_ops;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	ready_ops = 0;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * The BPF device is ready for reading if the hold buffer is not empty
*ef8d499eSDavid van Moolenbroek	 * (i.e.: the store buffer has been filled up completely and was
*ef8d499eSDavid van Moolenbroek	 * therefore rotated) or if immediate mode is set and the store buffer
*ef8d499eSDavid van Moolenbroek	 * is not empty (i.e.: any packet is available at all).  In the latter
*ef8d499eSDavid van Moolenbroek	 * case, the buffers will be rotated during the read.  We do not
*ef8d499eSDavid van Moolenbroek	 * support applying the read timeout to selects and maintaining state
*ef8d499eSDavid van Moolenbroek	 * between the select and the following read, because despite that
*ef8d499eSDavid van Moolenbroek	 * libpcap claims that it is the right behavior, that is just insane.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	if (ops & CDEV_OP_RD) {
*ef8d499eSDavid van Moolenbroek		if (bpf->bpf_ifdev == NULL)
*ef8d499eSDavid van Moolenbroek			ready_ops |= CDEV_OP_RD;
*ef8d499eSDavid van Moolenbroek		else if (bpf->bpf_hlen > 0)
*ef8d499eSDavid van Moolenbroek			ready_ops |= CDEV_OP_RD;
*ef8d499eSDavid van Moolenbroek		else if ((bpf->bpf_flags & BPFF_IMMEDIATE) &&
*ef8d499eSDavid van Moolenbroek		    bpf->bpf_slen > 0)
*ef8d499eSDavid van Moolenbroek			ready_ops |= CDEV_OP_RD;
*ef8d499eSDavid van Moolenbroek	}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if (ops & CDEV_OP_WR)
*ef8d499eSDavid van Moolenbroek		ready_ops |= CDEV_OP_WR;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	return ready_ops;
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * There has been a state change on the BPF device.  If now possible, resume a
*ef8d499eSDavid van Moolenbroek * pending select query, if any.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekstatic void
*ef8d499eSDavid van Moolenbroekbpfdev_resume_select(struct bpfdev * bpf)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek	unsigned int ops, ready_ops;
*ef8d499eSDavid van Moolenbroek	endpoint_t endpt;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* First see if there is a pending select request at all. */
*ef8d499eSDavid van Moolenbroek	if ((endpt = bpf->bpf_select.bs_endpt) == NONE)
*ef8d499eSDavid van Moolenbroek		return;
*ef8d499eSDavid van Moolenbroek	ops = bpf->bpf_select.bs_selops;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	assert(ops != 0);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* Then see if any of the pending operations are now ready. */
*ef8d499eSDavid van Moolenbroek	if ((ready_ops = bpfdev_test_select(bpf, ops)) == 0)
*ef8d499eSDavid van Moolenbroek		return;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* If so, notify VFS about the ready operations. */
*ef8d499eSDavid van Moolenbroek	chardriver_reply_select(bpf->bpf_select.bs_endpt,
*ef8d499eSDavid van Moolenbroek	    bpfdev_get_minor(bpf), ready_ops);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * Forget about the ready operations.  If that leaves no pending
*ef8d499eSDavid van Moolenbroek	 * operations, forget about the select request altogether.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	if ((bpf->bpf_select.bs_selops &= ~ready_ops) == 0)
*ef8d499eSDavid van Moolenbroek		bpf->bpf_select.bs_endpt = NONE;
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * There has been a state change on the BPF device.  If now possible, resume a
*ef8d499eSDavid van Moolenbroek * pending read request, if any.  If the call is a result of a timeout,
*ef8d499eSDavid van Moolenbroek * 'is_timeout' is set.  In that case, the read request must be resumed with an
*ef8d499eSDavid van Moolenbroek * EAGAIN error if no packets are available, and the running timer must be
*ef8d499eSDavid van Moolenbroek * canceled.  Otherwise, the resumption is due to a full buffer or a
*ef8d499eSDavid van Moolenbroek * disappeared interface, and 'is_timeout' is not set.  In this case, the read
*ef8d499eSDavid van Moolenbroek * request must be resumed with an I/O error if no packets are available.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekstatic void
*ef8d499eSDavid van Moolenbroekbpfdev_resume_read(struct bpfdev * bpf, int is_timeout)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek	ssize_t r;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	assert(bpf->bpf_read.br_endpt != NONE);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * If the hold buffer is still empty, see if the store buffer has
*ef8d499eSDavid van Moolenbroek	 * any packets to copy out.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_hlen == 0)
*ef8d499eSDavid van Moolenbroek		bpfdev_rotate(bpf);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* Return any available packets, or otherwise an error. */
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_hlen > 0) {
*ef8d499eSDavid van Moolenbroek		assert(bpf->bpf_hlen <= bpf->bpf_size);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		r = sys_safecopyto(bpf->bpf_read.br_endpt,
*ef8d499eSDavid van Moolenbroek		    bpf->bpf_read.br_grant, 0, (vir_bytes)bpf->bpf_hbuf,
*ef8d499eSDavid van Moolenbroek		    bpf->bpf_hlen);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if (r == OK) {
*ef8d499eSDavid van Moolenbroek			r = (ssize_t)bpf->bpf_hlen;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek			bpf->bpf_hlen = 0;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek			assert(bpf->bpf_slen != bpf->bpf_size);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek			/*
*ef8d499eSDavid van Moolenbroek			 * Allow readers to get the last packets after the
*ef8d499eSDavid van Moolenbroek			 * interface has disappeared, before getting errors.
*ef8d499eSDavid van Moolenbroek			 */
*ef8d499eSDavid van Moolenbroek			if (bpf->bpf_ifdev == NULL)
*ef8d499eSDavid van Moolenbroek				bpfdev_rotate(bpf);
*ef8d499eSDavid van Moolenbroek		}
*ef8d499eSDavid van Moolenbroek	} else
*ef8d499eSDavid van Moolenbroek		r = (is_timeout) ? EAGAIN : EIO;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	chardriver_reply_task(bpf->bpf_read.br_endpt, bpf->bpf_read.br_id, r);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	bpf->bpf_read.br_endpt = NONE;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* Was there still a timer running?  Then cancel it now. */
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_timeout > 0 && !is_timeout)
*ef8d499eSDavid van Moolenbroek		cancel_timer(&bpf->bpf_read.br_timer);
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * A read timeout has triggered for the BPF device.  Wake up the pending read
*ef8d499eSDavid van Moolenbroek * request.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekstatic void
*ef8d499eSDavid van Moolenbroekbpfdev_timeout(int arg)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek	struct bpfdev *bpf;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	assert(arg >= 0 && (unsigned int)arg < __arraycount(bpf_array));
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	bpf = &bpf_array[arg];
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	assert(bpf->bpf_read.br_endpt != NONE);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	bpfdev_resume_read(bpf, TRUE /*is_timeout*/);
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Read from a BPF device.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekstatic ssize_t
*ef8d499eSDavid van Moolenbroekbpfdev_read(devminor_t minor, uint64_t position, endpoint_t endpt,
*ef8d499eSDavid van Moolenbroek	cp_grant_id_t grant, size_t size, int flags, cdev_id_t id)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek	struct bpfdev *bpf;
*ef8d499eSDavid van Moolenbroek	ssize_t r;
*ef8d499eSDavid van Moolenbroek	int suspend;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if ((bpf = bpfdev_get_by_minor(minor)) == NULL)
*ef8d499eSDavid van Moolenbroek		return EINVAL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* Allow only one read call at a time. */
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_read.br_endpt != NONE)
*ef8d499eSDavid van Moolenbroek		return EIO;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* Has this BPF device been configured at all yet? */
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_sbuf == NULL)
*ef8d499eSDavid van Moolenbroek		return EINVAL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * Does the read call size match the entire buffer size?  This is a
*ef8d499eSDavid van Moolenbroek	 * ridiculous requirement but it makes our job quite a bit easier..
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	if (size != bpf->bpf_size)
*ef8d499eSDavid van Moolenbroek		return EINVAL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * Following standard receive semantics, if the interface is gone,
*ef8d499eSDavid van Moolenbroek	 * return all the packets that were pending before returning an error.
*ef8d499eSDavid van Moolenbroek	 * This requires extra buffer rotations after read completion, too.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_ifdev == NULL && bpf->bpf_hlen == 0)
*ef8d499eSDavid van Moolenbroek		return EIO;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * If immediate mode is not enabled, we should always suspend the read
*ef8d499eSDavid van Moolenbroek	 * call if the hold buffer is empty.  If immediate mode is enabled, we
*ef8d499eSDavid van Moolenbroek	 * should only suspend the read call if both buffers are empty, and
*ef8d499eSDavid van Moolenbroek	 * return data from the hold buffer or otherwise the store buffer,
*ef8d499eSDavid van Moolenbroek	 * whichever is not empty.  A non-blocking call behaves as though
*ef8d499eSDavid van Moolenbroek	 * immediate mode is enabled, except it will return EAGAIN instead of
*ef8d499eSDavid van Moolenbroek	 * suspending the read call if both buffers are empty.  Thus, we may
*ef8d499eSDavid van Moolenbroek	 * have to rotate buffers for both immediate mode and non-blocking
*ef8d499eSDavid van Moolenbroek	 * calls.  The latter is necessary for libpcap to behave correctly.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	if ((flags & CDEV_NONBLOCK) || (bpf->bpf_flags & BPFF_IMMEDIATE))
*ef8d499eSDavid van Moolenbroek		suspend = (bpf->bpf_hlen == 0 && bpf->bpf_slen == 0);
*ef8d499eSDavid van Moolenbroek	else
*ef8d499eSDavid van Moolenbroek		suspend = (bpf->bpf_hlen == 0);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if (suspend) {
*ef8d499eSDavid van Moolenbroek		if (flags & CDEV_NONBLOCK)
*ef8d499eSDavid van Moolenbroek			return EAGAIN;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		/* Suspend the read call for later. */
*ef8d499eSDavid van Moolenbroek		bpf->bpf_read.br_endpt = endpt;
*ef8d499eSDavid van Moolenbroek		bpf->bpf_read.br_grant = grant;
*ef8d499eSDavid van Moolenbroek		bpf->bpf_read.br_id = id;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		/* Set a timer if requested. */
*ef8d499eSDavid van Moolenbroek		if (bpf->bpf_timeout > 0)
*ef8d499eSDavid van Moolenbroek			set_timer(&bpf->bpf_read.br_timer, bpf->bpf_timeout,
*ef8d499eSDavid van Moolenbroek			    bpfdev_timeout, (int)(bpf - bpf_array));
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return EDONTREPLY;
*ef8d499eSDavid van Moolenbroek	}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* If we get here, either buffer has data; rotate buffers if needed. */
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_hlen == 0)
*ef8d499eSDavid van Moolenbroek		bpfdev_rotate(bpf);
*ef8d499eSDavid van Moolenbroek	assert(bpf->bpf_hlen > 0);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if ((r = sys_safecopyto(endpt, grant, 0, (vir_bytes)bpf->bpf_hbuf,
*ef8d499eSDavid van Moolenbroek	    bpf->bpf_hlen)) != OK)
*ef8d499eSDavid van Moolenbroek		return r;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	r = (ssize_t)bpf->bpf_hlen;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	bpf->bpf_hlen = 0;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * If the store buffer is exactly full, rotate it now.  Also, if the
*ef8d499eSDavid van Moolenbroek	 * interface has disappeared, the store buffer will never fill up.
*ef8d499eSDavid van Moolenbroek	 * Rotate it so that the application will get any remaining data before
*ef8d499eSDavid van Moolenbroek	 * getting errors about the interface being gone.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_slen == bpf->bpf_size || bpf->bpf_ifdev == NULL)
*ef8d499eSDavid van Moolenbroek		bpfdev_rotate(bpf);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	return r;
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Write to a BPF device.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekstatic ssize_t
*ef8d499eSDavid van Moolenbroekbpfdev_write(devminor_t minor, uint64_t position, endpoint_t endpt,
*ef8d499eSDavid van Moolenbroek	cp_grant_id_t grant, size_t size, int flags, cdev_id_t id)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek	struct bpfdev *bpf;
*ef8d499eSDavid van Moolenbroek	struct pbuf *pbuf, *pptr, *pcopy;
*ef8d499eSDavid van Moolenbroek	size_t off;
*ef8d499eSDavid van Moolenbroek	err_t err;
*ef8d499eSDavid van Moolenbroek	int r;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if ((bpf = bpfdev_get_by_minor(minor)) == NULL)
*ef8d499eSDavid van Moolenbroek		return EINVAL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_ifdev == NULL)
*ef8d499eSDavid van Moolenbroek		return EINVAL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* VFS skips zero-sized I/O calls right now, but that may change. */
*ef8d499eSDavid van Moolenbroek	if (size == 0)
*ef8d499eSDavid van Moolenbroek		return 0;	/* nothing to do */
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if (size > ifdev_get_hdrlen(bpf->bpf_ifdev) +
*ef8d499eSDavid van Moolenbroek	    ifdev_get_mtu(bpf->bpf_ifdev))
*ef8d499eSDavid van Moolenbroek		return EMSGSIZE;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if ((pbuf = pchain_alloc(PBUF_LINK, size)) == NULL)
*ef8d499eSDavid van Moolenbroek		return ENOMEM;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* TODO: turn this into a series of vector copies. */
*ef8d499eSDavid van Moolenbroek	off = 0;
*ef8d499eSDavid van Moolenbroek	for (pptr = pbuf; pptr != NULL; pptr = pptr->next) {
*ef8d499eSDavid van Moolenbroek		if ((r = sys_safecopyfrom(endpt, grant, off,
*ef8d499eSDavid van Moolenbroek		    (vir_bytes)pptr->payload, pptr->len)) != OK) {
*ef8d499eSDavid van Moolenbroek			pbuf_free(pbuf);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek			return r;
*ef8d499eSDavid van Moolenbroek		}
*ef8d499eSDavid van Moolenbroek		off += pptr->len;
*ef8d499eSDavid van Moolenbroek	}
*ef8d499eSDavid van Moolenbroek	assert(off == size);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * In feedback mode, we cannot use the same packet buffers for both
*ef8d499eSDavid van Moolenbroek	 * output and input, so make a copy.  We do this before calling the
*ef8d499eSDavid van Moolenbroek	 * output function, which may change part of the buffers, because the
*ef8d499eSDavid van Moolenbroek	 * BSDs take this approach as well.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_flags & BPFF_FEEDBACK) {
*ef8d499eSDavid van Moolenbroek		if ((pcopy = pchain_alloc(PBUF_LINK, size)) == NULL) {
*ef8d499eSDavid van Moolenbroek			pbuf_free(pbuf);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek			return ENOMEM;
*ef8d499eSDavid van Moolenbroek		}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if (pbuf_copy(pcopy, pbuf) != ERR_OK)
*ef8d499eSDavid van Moolenbroek			panic("unexpected pbuf copy failure");
*ef8d499eSDavid van Moolenbroek	} else
*ef8d499eSDavid van Moolenbroek		pcopy = NULL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* Pass in the packet as output, and free it again. */
*ef8d499eSDavid van Moolenbroek	err = ifdev_output(bpf->bpf_ifdev, pbuf, NULL /*netif*/,
*ef8d499eSDavid van Moolenbroek	    TRUE /*to_bpf*/, !!(bpf->bpf_flags & BPFF_HDRCMPLT));
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	pbuf_free(pbuf);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* In feedback mode, pass in the copy as input, if output succeeded. */
*ef8d499eSDavid van Moolenbroek	if (err == ERR_OK && (bpf->bpf_flags & BPFF_FEEDBACK))
*ef8d499eSDavid van Moolenbroek		ifdev_input(bpf->bpf_ifdev, pcopy, NULL /*netif*/,
*ef8d499eSDavid van Moolenbroek		    FALSE /*to_bpf*/);
*ef8d499eSDavid van Moolenbroek	else if (pcopy != NULL)
*ef8d499eSDavid van Moolenbroek		pbuf_free(pcopy);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	return (err == ERR_OK) ? (ssize_t)size : util_convert_err(err);
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Attach a BPF device to a network interface, using the interface name given
*ef8d499eSDavid van Moolenbroek * in an ifreq structure.  As side effect, allocate hold and store buffers for
*ef8d499eSDavid van Moolenbroek * the device.  These buffers will stay allocated until the device is closed,
*ef8d499eSDavid van Moolenbroek * even though the interface may disappear before that.  Return OK if the BPF
*ef8d499eSDavid van Moolenbroek * device was successfully attached to the interface, or a negative error code
*ef8d499eSDavid van Moolenbroek * otherwise.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekstatic int
*ef8d499eSDavid van Moolenbroekbpfdev_attach(struct bpfdev * bpf, struct ifreq * ifr)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek	struct ifdev *ifdev;
*ef8d499eSDavid van Moolenbroek	void *sbuf, *hbuf;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* Find the interface with the given name. */
*ef8d499eSDavid van Moolenbroek	ifr->ifr_name[sizeof(ifr->ifr_name) - 1] = '\0';
*ef8d499eSDavid van Moolenbroek	if ((ifdev = ifdev_find_by_name(ifr->ifr_name)) == NULL)
*ef8d499eSDavid van Moolenbroek		return ENXIO;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * Allocate a store buffer and a hold buffer.  Preallocate the memory,
*ef8d499eSDavid van Moolenbroek	 * or we might get killed later during low-memory conditions.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	if ((sbuf = (char *)mmap(NULL, bpf->bpf_size, PROT_READ | PROT_WRITE,
*ef8d499eSDavid van Moolenbroek	    MAP_ANON | MAP_PRIVATE | MAP_PREALLOC, -1, 0)) == MAP_FAILED)
*ef8d499eSDavid van Moolenbroek		return ENOMEM;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if ((hbuf = (char *)mmap(NULL, bpf->bpf_size, PROT_READ | PROT_WRITE,
*ef8d499eSDavid van Moolenbroek	    MAP_ANON | MAP_PRIVATE | MAP_PREALLOC, -1, 0)) == MAP_FAILED) {
*ef8d499eSDavid van Moolenbroek		(void)munmap(sbuf, bpf->bpf_size);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return ENOMEM;
*ef8d499eSDavid van Moolenbroek	}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	bpf->bpf_ifdev = ifdev;
*ef8d499eSDavid van Moolenbroek	bpf->bpf_sbuf = sbuf;
*ef8d499eSDavid van Moolenbroek	bpf->bpf_hbuf = hbuf;
*ef8d499eSDavid van Moolenbroek	assert(bpf->bpf_slen == 0);
*ef8d499eSDavid van Moolenbroek	assert(bpf->bpf_hlen == 0);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	ifdev_attach_bpf(ifdev, &bpf->bpf_link);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	return OK;
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Detach the BPF device from its interface, which is about to disappear.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekvoid
*ef8d499eSDavid van Moolenbroekbpfdev_detach(struct bpfdev_link * bpfl)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek	struct bpfdev *bpf = (struct bpfdev *)bpfl;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	assert(bpf->bpf_flags & BPFF_IN_USE);
*ef8d499eSDavid van Moolenbroek	assert(bpf->bpf_ifdev != NULL);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * We deliberately leave the buffers allocated here, for two reasons:
*ef8d499eSDavid van Moolenbroek	 *
*ef8d499eSDavid van Moolenbroek	 * 1) it lets applications to read any last packets in the buffers;
*ef8d499eSDavid van Moolenbroek	 * 2) it prevents reattaching the BPF device to another interface.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	bpf->bpf_ifdev = NULL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * Resume pending read and select requests, returning any data left,
*ef8d499eSDavid van Moolenbroek	 * or an error if none.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_hlen == 0)
*ef8d499eSDavid van Moolenbroek		bpfdev_rotate(bpf);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_read.br_endpt != NONE)
*ef8d499eSDavid van Moolenbroek		bpfdev_resume_read(bpf, FALSE /*is_timeout*/);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	bpfdev_resume_select(bpf);
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Flush the given BPF device, resetting its buffer contents and statistics
*ef8d499eSDavid van Moolenbroek * counters.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekstatic void
*ef8d499eSDavid van Moolenbroekbpfdev_flush(struct bpfdev * bpf)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	bpf->bpf_slen = 0;
*ef8d499eSDavid van Moolenbroek	bpf->bpf_hlen = 0;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	bpf->bpf_stat.bs_recv = 0;
*ef8d499eSDavid van Moolenbroek	bpf->bpf_stat.bs_drop = 0;
*ef8d499eSDavid van Moolenbroek	bpf->bpf_stat.bs_capt = 0;
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Install a filter program on the BPF device.  A new filter replaces any old
*ef8d499eSDavid van Moolenbroek * one.  A zero-sized filter simply clears a previous filter.  On success,
*ef8d499eSDavid van Moolenbroek * perform a flush and return OK.  On failure, return a negative error code
*ef8d499eSDavid van Moolenbroek * without making any modifications to the current filter.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekstatic int
*ef8d499eSDavid van Moolenbroekbpfdev_setfilter(struct bpfdev * bpf, endpoint_t endpt, cp_grant_id_t grant)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek	struct bpf_insn *filter;
*ef8d499eSDavid van Moolenbroek	unsigned int count;
*ef8d499eSDavid van Moolenbroek	size_t len;
*ef8d499eSDavid van Moolenbroek	int r;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if ((r = sys_safecopyfrom(endpt, grant,
*ef8d499eSDavid van Moolenbroek	    offsetof(struct minix_bpf_program, mbf_len), (vir_bytes)&count,
*ef8d499eSDavid van Moolenbroek	    sizeof(count))) != OK)
*ef8d499eSDavid van Moolenbroek		return r;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if (count > BPF_MAXINSNS)
*ef8d499eSDavid van Moolenbroek		return EINVAL;
*ef8d499eSDavid van Moolenbroek	len = count * sizeof(struct bpf_insn);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if (len > 0) {
*ef8d499eSDavid van Moolenbroek		if ((filter = (struct bpf_insn *)mmap(NULL, len,
*ef8d499eSDavid van Moolenbroek		    PROT_READ | PROT_WRITE, MAP_ANON | MAP_PRIVATE, -1, 0)) ==
*ef8d499eSDavid van Moolenbroek		    MAP_FAILED)
*ef8d499eSDavid van Moolenbroek			return ENOMEM;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if ((r = sys_safecopyfrom(endpt, grant,
*ef8d499eSDavid van Moolenbroek		    offsetof(struct minix_bpf_program, mbf_insns),
*ef8d499eSDavid van Moolenbroek		    (vir_bytes)filter, len)) != OK) {
*ef8d499eSDavid van Moolenbroek			(void)munmap(filter, len);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek			return r;
*ef8d499eSDavid van Moolenbroek		}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if (!bpf_validate(filter, count)) {
*ef8d499eSDavid van Moolenbroek			(void)munmap(filter, len);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek			return EINVAL;
*ef8d499eSDavid van Moolenbroek		}
*ef8d499eSDavid van Moolenbroek	} else
*ef8d499eSDavid van Moolenbroek		filter = NULL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_filter != NULL)
*ef8d499eSDavid van Moolenbroek		(void)munmap(bpf->bpf_filter, bpf->bpf_filterlen);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	bpf->bpf_filter = filter;
*ef8d499eSDavid van Moolenbroek	bpf->bpf_filterlen = len;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	bpfdev_flush(bpf);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	return OK;
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Process an I/O control request on the BPF device.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekstatic int
*ef8d499eSDavid van Moolenbroekbpfdev_ioctl(devminor_t minor, unsigned long request, endpoint_t endpt,
*ef8d499eSDavid van Moolenbroek	cp_grant_id_t grant, int flags, endpoint_t user_endpt, cdev_id_t id)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek	struct bpfdev *bpf;
*ef8d499eSDavid van Moolenbroek	struct bpf_stat bs;
*ef8d499eSDavid van Moolenbroek	struct bpf_version bv;
*ef8d499eSDavid van Moolenbroek	struct bpf_dltlist bfl;
*ef8d499eSDavid van Moolenbroek	struct timeval tv;
*ef8d499eSDavid van Moolenbroek	struct ifreq ifr;
*ef8d499eSDavid van Moolenbroek	unsigned int uval;
*ef8d499eSDavid van Moolenbroek	int r, val;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if ((bpf = bpfdev_get_by_minor(minor)) == NULL)
*ef8d499eSDavid van Moolenbroek		return EINVAL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * We do not support multiple concurrent requests in this module.  That
*ef8d499eSDavid van Moolenbroek	 * not only means that we forbid a read(2) call on a BPF device object
*ef8d499eSDavid van Moolenbroek	 * while another read(2) is already pending: we also disallow IOCTL
*ef8d499eSDavid van Moolenbroek	 * IOCTL calls while such a read(2) call is in progress.  This
*ef8d499eSDavid van Moolenbroek	 * restriction should never be a problem for user programs, and allows
*ef8d499eSDavid van Moolenbroek	 * us to rely on the fact that that no settings can change between the
*ef8d499eSDavid van Moolenbroek	 * start and end of any read call.  As a side note, pending select(2)
*ef8d499eSDavid van Moolenbroek	 * queries may be similarly affected, and will also not be fully
*ef8d499eSDavid van Moolenbroek	 * accurate if any options are changed while pending.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_read.br_endpt != NONE)
*ef8d499eSDavid van Moolenbroek		return EIO;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	bpf->bpf_pid = getnpid(user_endpt);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* These are in order of the NetBSD BIOC.. IOCTL numbers. */
*ef8d499eSDavid van Moolenbroek	switch (request) {
*ef8d499eSDavid van Moolenbroek	case BIOCGBLEN:
*ef8d499eSDavid van Moolenbroek		uval = bpf->bpf_size;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return sys_safecopyto(endpt, grant, 0, (vir_bytes)&uval,
*ef8d499eSDavid van Moolenbroek		    sizeof(uval));
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case BIOCSBLEN:
*ef8d499eSDavid van Moolenbroek		if (bpf->bpf_sbuf != NULL)
*ef8d499eSDavid van Moolenbroek			return EINVAL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if ((r = sys_safecopyfrom(endpt, grant, 0, (vir_bytes)&uval,
*ef8d499eSDavid van Moolenbroek		    sizeof(uval))) != OK)
*ef8d499eSDavid van Moolenbroek			return r;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if (uval < BPF_BUF_MIN)
*ef8d499eSDavid van Moolenbroek			uval = BPF_BUF_MIN;
*ef8d499eSDavid van Moolenbroek		else if (uval > BPF_BUF_MAX)
*ef8d499eSDavid van Moolenbroek			uval = BPF_BUF_MAX;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		/* Is this the right thing to do?  It doesn't matter for us. */
*ef8d499eSDavid van Moolenbroek		uval = BPF_WORDALIGN(uval);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if ((r = sys_safecopyto(endpt, grant, 0, (vir_bytes)&uval,
*ef8d499eSDavid van Moolenbroek		    sizeof(uval))) != OK)
*ef8d499eSDavid van Moolenbroek			return r;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		bpf->bpf_size = uval;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return OK;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case MINIX_BIOCSETF:
*ef8d499eSDavid van Moolenbroek		return bpfdev_setfilter(bpf, endpt, grant);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case BIOCPROMISC:
*ef8d499eSDavid van Moolenbroek		if (bpf->bpf_ifdev == NULL)
*ef8d499eSDavid van Moolenbroek			return EINVAL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if (!(bpf->bpf_flags & BPFF_PROMISC)) {
*ef8d499eSDavid van Moolenbroek			if (!ifdev_set_promisc(bpf->bpf_ifdev))
*ef8d499eSDavid van Moolenbroek				return EINVAL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek			bpf->bpf_flags |= BPFF_PROMISC;
*ef8d499eSDavid van Moolenbroek		}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return OK;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case BIOCFLUSH:
*ef8d499eSDavid van Moolenbroek		bpfdev_flush(bpf);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return OK;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case BIOCGDLT:
*ef8d499eSDavid van Moolenbroek		if (bpf->bpf_ifdev == NULL)
*ef8d499eSDavid van Moolenbroek			return EINVAL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		/* TODO: support for type configuration per BPF device. */
*ef8d499eSDavid van Moolenbroek		uval = ifdev_get_dlt(bpf->bpf_ifdev);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return sys_safecopyto(endpt, grant, 0, (vir_bytes)&uval,
*ef8d499eSDavid van Moolenbroek		    sizeof(uval));
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case BIOCGETIF:
*ef8d499eSDavid van Moolenbroek		if (bpf->bpf_ifdev == NULL)
*ef8d499eSDavid van Moolenbroek			return EINVAL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		memset(&ifr, 0, sizeof(ifr));
*ef8d499eSDavid van Moolenbroek		strlcpy(ifr.ifr_name, ifdev_get_name(bpf->bpf_ifdev),
*ef8d499eSDavid van Moolenbroek		    sizeof(ifr.ifr_name));
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return sys_safecopyto(endpt, grant, 0, (vir_bytes)&ifr,
*ef8d499eSDavid van Moolenbroek		    sizeof(ifr));
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case BIOCSETIF:
*ef8d499eSDavid van Moolenbroek		/*
*ef8d499eSDavid van Moolenbroek		 * Test on the presence of a buffer rather than on an interface
*ef8d499eSDavid van Moolenbroek		 * since the latter may disappear and thus be reset to NULL, in
*ef8d499eSDavid van Moolenbroek		 * which case we do not want to allow rebinding to another.
*ef8d499eSDavid van Moolenbroek		 */
*ef8d499eSDavid van Moolenbroek		if (bpf->bpf_sbuf != NULL)
*ef8d499eSDavid van Moolenbroek			return EINVAL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if ((r = sys_safecopyfrom(endpt, grant, 0, (vir_bytes)&ifr,
*ef8d499eSDavid van Moolenbroek		    sizeof(ifr))) != OK)
*ef8d499eSDavid van Moolenbroek			return r;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return bpfdev_attach(bpf, &ifr);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case BIOCGSTATS:
*ef8d499eSDavid van Moolenbroek		/*
*ef8d499eSDavid van Moolenbroek		 * Why do we not embed a bpf_stat structure directly in the
*ef8d499eSDavid van Moolenbroek		 * BPF device structure?  Well, bpf_stat has massive padding..
*ef8d499eSDavid van Moolenbroek		 */
*ef8d499eSDavid van Moolenbroek		memset(&bs, 0, sizeof(bs));
*ef8d499eSDavid van Moolenbroek		bs.bs_recv = bpf->bpf_stat.bs_recv;
*ef8d499eSDavid van Moolenbroek		bs.bs_drop = bpf->bpf_stat.bs_drop;
*ef8d499eSDavid van Moolenbroek		bs.bs_capt = bpf->bpf_stat.bs_capt;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return sys_safecopyto(endpt, grant, 0, (vir_bytes)&bs,
*ef8d499eSDavid van Moolenbroek		    sizeof(bs));
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case BIOCIMMEDIATE:
*ef8d499eSDavid van Moolenbroek		if ((r = sys_safecopyfrom(endpt, grant, 0, (vir_bytes)&uval,
*ef8d499eSDavid van Moolenbroek		    sizeof(uval))) != OK)
*ef8d499eSDavid van Moolenbroek			return r;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if (uval)
*ef8d499eSDavid van Moolenbroek			bpf->bpf_flags |= BPFF_IMMEDIATE;
*ef8d499eSDavid van Moolenbroek		else
*ef8d499eSDavid van Moolenbroek			bpf->bpf_flags &= ~BPFF_IMMEDIATE;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return OK;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case BIOCVERSION:
*ef8d499eSDavid van Moolenbroek		memset(&bv, 0, sizeof(bv));
*ef8d499eSDavid van Moolenbroek		bv.bv_major = BPF_MAJOR_VERSION;
*ef8d499eSDavid van Moolenbroek		bv.bv_minor = BPF_MINOR_VERSION;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return sys_safecopyto(endpt, grant, 0, (vir_bytes)&bv,
*ef8d499eSDavid van Moolenbroek		    sizeof(bv));
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case BIOCGHDRCMPLT:
*ef8d499eSDavid van Moolenbroek		uval = !!(bpf->bpf_flags & BPFF_HDRCMPLT);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return sys_safecopyto(endpt, grant, 0, (vir_bytes)&uval,
*ef8d499eSDavid van Moolenbroek		    sizeof(uval));
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case BIOCSHDRCMPLT:
*ef8d499eSDavid van Moolenbroek		if ((r = sys_safecopyfrom(endpt, grant, 0, (vir_bytes)&uval,
*ef8d499eSDavid van Moolenbroek		    sizeof(uval))) != OK)
*ef8d499eSDavid van Moolenbroek			return r;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if (uval)
*ef8d499eSDavid van Moolenbroek			bpf->bpf_flags |= BPFF_HDRCMPLT;
*ef8d499eSDavid van Moolenbroek		else
*ef8d499eSDavid van Moolenbroek			bpf->bpf_flags &= ~BPFF_HDRCMPLT;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return OK;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case BIOCSDLT:
*ef8d499eSDavid van Moolenbroek		if (bpf->bpf_ifdev == NULL)
*ef8d499eSDavid van Moolenbroek			return EINVAL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if ((r = sys_safecopyfrom(endpt, grant, 0, (vir_bytes)&uval,
*ef8d499eSDavid van Moolenbroek		    sizeof(uval))) != OK)
*ef8d499eSDavid van Moolenbroek			return r;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		/* TODO: support for type configuration per BPF device. */
*ef8d499eSDavid van Moolenbroek		if (uval != ifdev_get_dlt(bpf->bpf_ifdev))
*ef8d499eSDavid van Moolenbroek			return EINVAL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return OK;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case MINIX_BIOCGDLTLIST:
*ef8d499eSDavid van Moolenbroek		if (bpf->bpf_ifdev == NULL)
*ef8d499eSDavid van Moolenbroek			return EINVAL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if ((r = sys_safecopyfrom(endpt, grant, 0, (vir_bytes)&bfl,
*ef8d499eSDavid van Moolenbroek		    sizeof(bfl))) != OK)
*ef8d499eSDavid van Moolenbroek			return r;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if (bfl.bfl_list != NULL) {
*ef8d499eSDavid van Moolenbroek			if (bfl.bfl_len < 1)
*ef8d499eSDavid van Moolenbroek				return ENOMEM;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek			/*
*ef8d499eSDavid van Moolenbroek			 * Copy out the 'list', which consists of one entry.
*ef8d499eSDavid van Moolenbroek			 * If we were to produce multiple entries, we would
*ef8d499eSDavid van Moolenbroek			 * have to check against the MINIX_BPF_MAXDLT limit.
*ef8d499eSDavid van Moolenbroek			 */
*ef8d499eSDavid van Moolenbroek			uval = ifdev_get_dlt(bpf->bpf_ifdev);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek			if ((r = sys_safecopyto(endpt, grant,
*ef8d499eSDavid van Moolenbroek			    offsetof(struct minix_bpf_dltlist, mbfl_list),
*ef8d499eSDavid van Moolenbroek			    (vir_bytes)&uval, sizeof(uval))) != OK)
*ef8d499eSDavid van Moolenbroek				return r;
*ef8d499eSDavid van Moolenbroek		}
*ef8d499eSDavid van Moolenbroek		bfl.bfl_len = 1;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return sys_safecopyto(endpt, grant, 0, (vir_bytes)&bfl,
*ef8d499eSDavid van Moolenbroek		    sizeof(bfl));
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case BIOCGSEESENT:
*ef8d499eSDavid van Moolenbroek		uval = !!(bpf->bpf_flags & BPFF_SEESENT);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return sys_safecopyto(endpt, grant, 0, (vir_bytes)&uval,
*ef8d499eSDavid van Moolenbroek		    sizeof(uval));
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case BIOCSSEESENT:
*ef8d499eSDavid van Moolenbroek		if ((r = sys_safecopyfrom(endpt, grant, 0, (vir_bytes)&uval,
*ef8d499eSDavid van Moolenbroek		    sizeof(uval))) != OK)
*ef8d499eSDavid van Moolenbroek			return r;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if (uval)
*ef8d499eSDavid van Moolenbroek			bpf->bpf_flags |= BPFF_SEESENT;
*ef8d499eSDavid van Moolenbroek		else
*ef8d499eSDavid van Moolenbroek			bpf->bpf_flags &= ~BPFF_SEESENT;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return OK;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case BIOCSRTIMEOUT:
*ef8d499eSDavid van Moolenbroek		if ((r = sys_safecopyfrom(endpt, grant, 0, (vir_bytes)&tv,
*ef8d499eSDavid van Moolenbroek		    sizeof(tv))) != OK)
*ef8d499eSDavid van Moolenbroek			return r;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if ((r = util_timeval_to_ticks(&tv, &bpf->bpf_timeout)) != OK)
*ef8d499eSDavid van Moolenbroek			return r;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return OK;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case BIOCGRTIMEOUT:
*ef8d499eSDavid van Moolenbroek		util_ticks_to_timeval(bpf->bpf_timeout, &tv);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return sys_safecopyto(endpt, grant, 0, (vir_bytes)&tv,
*ef8d499eSDavid van Moolenbroek		    sizeof(tv));
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case BIOCGFEEDBACK:
*ef8d499eSDavid van Moolenbroek		uval = !!(bpf->bpf_flags & BPFF_FEEDBACK);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return sys_safecopyto(endpt, grant, 0, (vir_bytes)&uval,
*ef8d499eSDavid van Moolenbroek		    sizeof(uval));
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case BIOCSFEEDBACK:
*ef8d499eSDavid van Moolenbroek		if ((r = sys_safecopyfrom(endpt, grant, 0, (vir_bytes)&uval,
*ef8d499eSDavid van Moolenbroek		    sizeof(uval))) != OK)
*ef8d499eSDavid van Moolenbroek			return r;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if (uval)
*ef8d499eSDavid van Moolenbroek			bpf->bpf_flags |= BPFF_FEEDBACK;
*ef8d499eSDavid van Moolenbroek		else
*ef8d499eSDavid van Moolenbroek			bpf->bpf_flags &= ~BPFF_FEEDBACK;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return OK;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	case FIONREAD:
*ef8d499eSDavid van Moolenbroek		val = 0;
*ef8d499eSDavid van Moolenbroek		if (bpf->bpf_hlen > 0)
*ef8d499eSDavid van Moolenbroek			val = bpf->bpf_hlen;
*ef8d499eSDavid van Moolenbroek		else if ((bpf->bpf_flags & BPFF_IMMEDIATE) &&
*ef8d499eSDavid van Moolenbroek		    bpf->bpf_slen > 0)
*ef8d499eSDavid van Moolenbroek			val = bpf->bpf_slen;
*ef8d499eSDavid van Moolenbroek		else
*ef8d499eSDavid van Moolenbroek			val = 0;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		return sys_safecopyto(endpt, grant, 0, (vir_bytes)&val,
*ef8d499eSDavid van Moolenbroek		    sizeof(val));
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	default:
*ef8d499eSDavid van Moolenbroek		return ENOTTY;
*ef8d499eSDavid van Moolenbroek	}
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Cancel a previously suspended request on a BPF device.  Since only read
*ef8d499eSDavid van Moolenbroek * requests may be suspended (select is handled differently), the cancel
*ef8d499eSDavid van Moolenbroek * request must be for a read request.  Note that character devices currently
*ef8d499eSDavid van Moolenbroek * (still) behave slightly differently from socket devices here: while socket
*ef8d499eSDavid van Moolenbroek * drivers are supposed to respond to the original request, character drivers
*ef8d499eSDavid van Moolenbroek * must respond to the original request from the cancel callback.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekstatic int
*ef8d499eSDavid van Moolenbroekbpfdev_cancel(devminor_t minor, endpoint_t endpt, cdev_id_t id)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek	struct bpfdev *bpf;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if ((bpf = bpfdev_get_by_minor(minor)) == NULL)
*ef8d499eSDavid van Moolenbroek		return EDONTREPLY;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* Is this a cancel request for the currently pending read request? */
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_read.br_endpt != endpt || bpf->bpf_read.br_id != id)
*ef8d499eSDavid van Moolenbroek		return EDONTREPLY;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* If so, cancel the read request. */
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_timeout > 0)
*ef8d499eSDavid van Moolenbroek		cancel_timer(&bpf->bpf_read.br_timer);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	bpf->bpf_read.br_endpt = NONE;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	return EINTR; /* the return value for the canceled read request */
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Perform a select query on a BPF device.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekstatic int
*ef8d499eSDavid van Moolenbroekbpfdev_select(devminor_t minor, unsigned int ops, endpoint_t endpt)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek	struct bpfdev *bpf;
*ef8d499eSDavid van Moolenbroek	unsigned int r, notify;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if ((bpf = bpfdev_get_by_minor(minor)) == NULL)
*ef8d499eSDavid van Moolenbroek		return EINVAL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	notify = (ops & CDEV_NOTIFY);
*ef8d499eSDavid van Moolenbroek	ops &= (CDEV_OP_RD | CDEV_OP_WR | CDEV_OP_ERR);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	r = bpfdev_test_select(bpf, ops);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * For the operations that were not immediately ready, if requested,
*ef8d499eSDavid van Moolenbroek	 * save the select request for later.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	ops &= ~r;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if (ops != 0 && notify) {
*ef8d499eSDavid van Moolenbroek		if (bpf->bpf_select.bs_endpt != NONE) {
*ef8d499eSDavid van Moolenbroek			/* Merge in the operations with any earlier request. */
*ef8d499eSDavid van Moolenbroek			if (bpf->bpf_select.bs_endpt != endpt)
*ef8d499eSDavid van Moolenbroek				return EIO;
*ef8d499eSDavid van Moolenbroek			bpf->bpf_select.bs_selops |= ops;
*ef8d499eSDavid van Moolenbroek		} else {
*ef8d499eSDavid van Moolenbroek			bpf->bpf_select.bs_endpt = endpt;
*ef8d499eSDavid van Moolenbroek			bpf->bpf_select.bs_selops = ops;
*ef8d499eSDavid van Moolenbroek		}
*ef8d499eSDavid van Moolenbroek	}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	return r;
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Process an incoming packet on the interface to which the given BPF device is
*ef8d499eSDavid van Moolenbroek * attached.  If the packet passes the filter (if any), store as much as
*ef8d499eSDavid van Moolenbroek * requested of it in the store buffer, rotating buffers if needed and resuming
*ef8d499eSDavid van Moolenbroek * suspended read and select requests as appropriate.  This function is also
*ef8d499eSDavid van Moolenbroek * called through bpfdev_output() below.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekvoid
*ef8d499eSDavid van Moolenbroekbpfdev_input(struct bpfdev_link * bpfl, const struct pbuf * pbuf)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek	struct bpfdev *bpf = (struct bpfdev *)bpfl;
*ef8d499eSDavid van Moolenbroek	struct timespec ts;
*ef8d499eSDavid van Moolenbroek	struct bpf_hdr bh;
*ef8d499eSDavid van Moolenbroek	const struct pbuf *pptr;
*ef8d499eSDavid van Moolenbroek	size_t caplen, hdrlen, totlen, off, chunk;
*ef8d499eSDavid van Moolenbroek	int hfull;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * Apparently bs_recv is the counter of packets that were run through
*ef8d499eSDavid van Moolenbroek	 * the filter, not the number of packets that were or could be received
*ef8d499eSDavid van Moolenbroek	 * by the user (which is what I got from the manual page.. oh well).
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	bpf->bpf_stat.bs_recv++;
*ef8d499eSDavid van Moolenbroek	bpf_stat.bs_recv++;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * Run the packet through the BPF device's filter to see whether the
*ef8d499eSDavid van Moolenbroek	 * packet should be stored and if so, how much of it.  If no filter is
*ef8d499eSDavid van Moolenbroek	 * set, all packets will be stored in their entirety.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	caplen = bpf_filter_ext(bpf->bpf_filter, pbuf, (u_char *)pbuf->payload,
*ef8d499eSDavid van Moolenbroek	    pbuf->tot_len, pbuf->len);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if (caplen == 0)
*ef8d499eSDavid van Moolenbroek		return;		/* no match; ignore packet */
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if (caplen > pbuf->tot_len)
*ef8d499eSDavid van Moolenbroek		caplen = pbuf->tot_len;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* Truncate packet entries to the full size of the buffers. */
*ef8d499eSDavid van Moolenbroek	hdrlen = BPF_WORDALIGN(sizeof(bh));
*ef8d499eSDavid van Moolenbroek	totlen = BPF_WORDALIGN(hdrlen + caplen);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if (totlen > bpf->bpf_size) {
*ef8d499eSDavid van Moolenbroek		totlen = bpf->bpf_size;
*ef8d499eSDavid van Moolenbroek		caplen = totlen - hdrlen;
*ef8d499eSDavid van Moolenbroek	}
*ef8d499eSDavid van Moolenbroek	assert(totlen >= hdrlen);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	bpf->bpf_stat.bs_capt++;
*ef8d499eSDavid van Moolenbroek	bpf_stat.bs_capt++;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	assert(bpf->bpf_sbuf != NULL);
*ef8d499eSDavid van Moolenbroek	if (totlen > bpf->bpf_size - bpf->bpf_slen) {
*ef8d499eSDavid van Moolenbroek		/*
*ef8d499eSDavid van Moolenbroek		 * If the store buffer is full and the hold buffer is not
*ef8d499eSDavid van Moolenbroek		 * empty, we cannot swap the two buffers, and so we must drop
*ef8d499eSDavid van Moolenbroek		 * the current packet.
*ef8d499eSDavid van Moolenbroek		 */
*ef8d499eSDavid van Moolenbroek		if (bpf->bpf_hlen > 0) {
*ef8d499eSDavid van Moolenbroek			bpf->bpf_stat.bs_drop++;
*ef8d499eSDavid van Moolenbroek			bpf_stat.bs_drop++;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek			return;
*ef8d499eSDavid van Moolenbroek		}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		/*
*ef8d499eSDavid van Moolenbroek		 * Rotate the buffers: the hold buffer will now be "full" and
*ef8d499eSDavid van Moolenbroek		 * ready to be read - it may not actually be entirely full, but
*ef8d499eSDavid van Moolenbroek		 * we could not fit this packet and we are not going to deliver
*ef8d499eSDavid van Moolenbroek		 * packets out of order..
*ef8d499eSDavid van Moolenbroek		 */
*ef8d499eSDavid van Moolenbroek		bpfdev_rotate(bpf);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		hfull = TRUE;
*ef8d499eSDavid van Moolenbroek	} else
*ef8d499eSDavid van Moolenbroek		hfull = FALSE;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * Retrieve the capture time for the packet.  Ideally this would be
*ef8d499eSDavid van Moolenbroek	 * done only once per accepted packet, but we do not expect many BPF
*ef8d499eSDavid van Moolenbroek	 * devices to be receiving the same packets often enough to make that
*ef8d499eSDavid van Moolenbroek	 * worth it.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	clock_time(&ts);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * Copy the packet into the store buffer, including a newly generated
*ef8d499eSDavid van Moolenbroek	 * header.  Zero any padding areas, even if strictly not necessary.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	memset(&bh, 0, sizeof(bh));
*ef8d499eSDavid van Moolenbroek	bh.bh_tstamp.tv_sec = ts.tv_sec;
*ef8d499eSDavid van Moolenbroek	bh.bh_tstamp.tv_usec = ts.tv_nsec / 1000;
*ef8d499eSDavid van Moolenbroek	bh.bh_caplen = caplen;
*ef8d499eSDavid van Moolenbroek	bh.bh_datalen = pbuf->tot_len;
*ef8d499eSDavid van Moolenbroek	bh.bh_hdrlen = hdrlen;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	assert(bpf->bpf_sbuf != NULL);
*ef8d499eSDavid van Moolenbroek	off = bpf->bpf_slen;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	memcpy(&bpf->bpf_sbuf[off], &bh, sizeof(bh));
*ef8d499eSDavid van Moolenbroek	if (hdrlen > sizeof(bh))
*ef8d499eSDavid van Moolenbroek		memset(&bpf->bpf_sbuf[off + sizeof(bh)], 0,
*ef8d499eSDavid van Moolenbroek		    hdrlen - sizeof(bh));
*ef8d499eSDavid van Moolenbroek	off += hdrlen;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	for (pptr = pbuf; pptr != NULL && caplen > 0; pptr = pptr->next) {
*ef8d499eSDavid van Moolenbroek		chunk = pptr->len;
*ef8d499eSDavid van Moolenbroek		if (chunk > caplen)
*ef8d499eSDavid van Moolenbroek			chunk = caplen;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		memcpy(&bpf->bpf_sbuf[off], pptr->payload, chunk);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		off += chunk;
*ef8d499eSDavid van Moolenbroek		caplen -= chunk;
*ef8d499eSDavid van Moolenbroek	}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	assert(off <= bpf->bpf_slen + totlen);
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_slen + totlen > off)
*ef8d499eSDavid van Moolenbroek		memset(&bpf->bpf_sbuf[off], 0, bpf->bpf_slen + totlen - off);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	bpf->bpf_slen += totlen;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * Edge case: if the hold buffer is empty and the store buffer is now
*ef8d499eSDavid van Moolenbroek	 * exactly full, rotate buffers so that the packets can be read
*ef8d499eSDavid van Moolenbroek	 * immediately, without waiting for the next packet to cause rotation.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_hlen == 0 && bpf->bpf_slen == bpf->bpf_size) {
*ef8d499eSDavid van Moolenbroek		bpfdev_rotate(bpf);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		hfull = TRUE;
*ef8d499eSDavid van Moolenbroek	}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * If the hold buffer is now full, or if immediate mode is enabled,
*ef8d499eSDavid van Moolenbroek	 * then we now have data to deliver to userland.  See if we can wake up
*ef8d499eSDavid van Moolenbroek	 * any read or select call (either but not both here).
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	if (hfull || (bpf->bpf_flags & BPFF_IMMEDIATE)) {
*ef8d499eSDavid van Moolenbroek		if (bpf->bpf_read.br_endpt != NONE)
*ef8d499eSDavid van Moolenbroek			bpfdev_resume_read(bpf, FALSE /*is_timeout*/);
*ef8d499eSDavid van Moolenbroek		else
*ef8d499eSDavid van Moolenbroek			bpfdev_resume_select(bpf);
*ef8d499eSDavid van Moolenbroek	}
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Process an outgoing packet on the interface to which the given BPF device is
*ef8d499eSDavid van Moolenbroek * attached.  If the BPF device is configured to capture outgoing packets as
*ef8d499eSDavid van Moolenbroek * well, attempt to capture the packet as per bpfdev_input().
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekvoid
*ef8d499eSDavid van Moolenbroekbpfdev_output(struct bpfdev_link * bpfl, const struct pbuf * pbuf)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek	struct bpfdev *bpf = (struct bpfdev *)bpfl;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_flags & BPFF_SEESENT)
*ef8d499eSDavid van Moolenbroek		bpfdev_input(bpfl, pbuf);
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Fill the given 'bde' structure with information about BPF device 'bpf'.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekstatic void
*ef8d499eSDavid van Moolenbroekbpfdev_get_info(struct bpf_d_ext * bde, const struct bpfdev * bpf)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	bde->bde_bufsize = bpf->bpf_size;
*ef8d499eSDavid van Moolenbroek	bde->bde_promisc = !!(bpf->bpf_flags & BPFF_PROMISC);
*ef8d499eSDavid van Moolenbroek	bde->bde_state = BPF_IDLE;
*ef8d499eSDavid van Moolenbroek	bde->bde_immediate = !!(bpf->bpf_flags & BPFF_IMMEDIATE);
*ef8d499eSDavid van Moolenbroek	bde->bde_hdrcmplt = !!(bpf->bpf_flags & BPFF_HDRCMPLT);
*ef8d499eSDavid van Moolenbroek	bde->bde_seesent = !!(bpf->bpf_flags & BPFF_SEESENT);
*ef8d499eSDavid van Moolenbroek	/*
*ef8d499eSDavid van Moolenbroek	 * NetBSD updates the process ID upon device open, close, ioctl, and
*ef8d499eSDavid van Moolenbroek	 * poll.  From those, only open and ioctl make sense for us.  Sadly
*ef8d499eSDavid van Moolenbroek	 * there is no way to indicate "no known PID" to netstat(1), so we
*ef8d499eSDavid van Moolenbroek	 * cannot even save just the endpoint and look up the corresponding PID
*ef8d499eSDavid van Moolenbroek	 * later, since the user process may be gone by then.
*ef8d499eSDavid van Moolenbroek	 */
*ef8d499eSDavid van Moolenbroek	bde->bde_pid = bpf->bpf_pid;
*ef8d499eSDavid van Moolenbroek	bde->bde_rcount = bpf->bpf_stat.bs_recv;
*ef8d499eSDavid van Moolenbroek	bde->bde_dcount = bpf->bpf_stat.bs_drop;
*ef8d499eSDavid van Moolenbroek	bde->bde_ccount = bpf->bpf_stat.bs_capt;
*ef8d499eSDavid van Moolenbroek	if (bpf->bpf_ifdev != NULL)
*ef8d499eSDavid van Moolenbroek		strlcpy(bde->bde_ifname, ifdev_get_name(bpf->bpf_ifdev),
*ef8d499eSDavid van Moolenbroek		    sizeof(bde->bde_ifname));
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Obtain statistics about open BPF devices ("peers").  This node may be
*ef8d499eSDavid van Moolenbroek * accessed by the superuser only.  Used by netstat(1).
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekstatic ssize_t
*ef8d499eSDavid van Moolenbroekbpfdev_peers(struct rmib_call * call, struct rmib_node * node __unused,
*ef8d499eSDavid van Moolenbroek	struct rmib_oldp * oldp, struct rmib_newp * newp __unused)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek	struct bpfdev *bpf;
*ef8d499eSDavid van Moolenbroek	struct bpf_d_ext bde;
*ef8d499eSDavid van Moolenbroek	unsigned int slot;
*ef8d499eSDavid van Moolenbroek	ssize_t off;
*ef8d499eSDavid van Moolenbroek	int r, size, max;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if (!(call->call_flags & RMIB_FLAG_AUTH))
*ef8d499eSDavid van Moolenbroek		return EPERM;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	if (call->call_namelen != 2)
*ef8d499eSDavid van Moolenbroek		return EINVAL;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	size = call->call_name[0];
*ef8d499eSDavid van Moolenbroek	if (size < 0 || (size_t)size > sizeof(bde))
*ef8d499eSDavid van Moolenbroek		return EINVAL;
*ef8d499eSDavid van Moolenbroek	if (size == 0)
*ef8d499eSDavid van Moolenbroek		size = sizeof(bde);
*ef8d499eSDavid van Moolenbroek	max = call->call_name[1];
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	off = 0;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	for (slot = 0; slot < __arraycount(bpf_array); slot++) {
*ef8d499eSDavid van Moolenbroek		bpf = &bpf_array[slot];
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if (!(bpf->bpf_flags & BPFF_IN_USE))
*ef8d499eSDavid van Moolenbroek			continue;
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		if (rmib_inrange(oldp, off)) {
*ef8d499eSDavid van Moolenbroek			memset(&bde, 0, sizeof(bde));
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek			bpfdev_get_info(&bde, bpf);
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek			if ((r = rmib_copyout(oldp, off, &bde, size)) < 0)
*ef8d499eSDavid van Moolenbroek				return r;
*ef8d499eSDavid van Moolenbroek		}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek		off += sizeof(bde);
*ef8d499eSDavid van Moolenbroek		if (max > 0 && --max == 0)
*ef8d499eSDavid van Moolenbroek			break;
*ef8d499eSDavid van Moolenbroek	}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	/* No slack needed: netstat(1) resizes its buffer as needed. */
*ef8d499eSDavid van Moolenbroek	return off;
*ef8d499eSDavid van Moolenbroek}
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroekstatic const struct chardriver bpfdev_tab = {
*ef8d499eSDavid van Moolenbroek	.cdr_open		= bpfdev_open,
*ef8d499eSDavid van Moolenbroek	.cdr_close		= bpfdev_close,
*ef8d499eSDavid van Moolenbroek	.cdr_read		= bpfdev_read,
*ef8d499eSDavid van Moolenbroek	.cdr_write		= bpfdev_write,
*ef8d499eSDavid van Moolenbroek	.cdr_ioctl		= bpfdev_ioctl,
*ef8d499eSDavid van Moolenbroek	.cdr_cancel		= bpfdev_cancel,
*ef8d499eSDavid van Moolenbroek	.cdr_select		= bpfdev_select
*ef8d499eSDavid van Moolenbroek};
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek/*
*ef8d499eSDavid van Moolenbroek * Process a character driver request.  Since the LWIP service offers character
*ef8d499eSDavid van Moolenbroek * devices for BPF only, it must be a request for a BPF device.
*ef8d499eSDavid van Moolenbroek */
*ef8d499eSDavid van Moolenbroekvoid
*ef8d499eSDavid van Moolenbroekbpfdev_process(message * m_ptr, int ipc_status)
*ef8d499eSDavid van Moolenbroek{
*ef8d499eSDavid van Moolenbroek
*ef8d499eSDavid van Moolenbroek	chardriver_process(&bpfdev_tab, m_ptr, ipc_status);
*ef8d499eSDavid van Moolenbroek}