miscfs/genfs/genfs_io.c

*fda613dfSriastradh/*	$NetBSD: genfs_io.c,v 1.104 2024/04/05 13:05:40 riastradh Exp $	*/
735dd21eSpooka
735dd21eSpooka/*
735dd21eSpooka * Copyright (c) 1982, 1986, 1989, 1993
735dd21eSpooka *	The Regents of the University of California.  All rights reserved.
735dd21eSpooka *
735dd21eSpooka * Redistribution and use in source and binary forms, with or without
735dd21eSpooka * modification, are permitted provided that the following conditions
735dd21eSpooka * are met:
735dd21eSpooka * 1. Redistributions of source code must retain the above copyright
735dd21eSpooka *    notice, this list of conditions and the following disclaimer.
735dd21eSpooka * 2. Redistributions in binary form must reproduce the above copyright
735dd21eSpooka *    notice, this list of conditions and the following disclaimer in the
735dd21eSpooka *    documentation and/or other materials provided with the distribution.
735dd21eSpooka * 3. Neither the name of the University nor the names of its contributors
735dd21eSpooka *    may be used to endorse or promote products derived from this software
735dd21eSpooka *    without specific prior written permission.
735dd21eSpooka *
735dd21eSpooka * THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND
735dd21eSpooka * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
735dd21eSpooka * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
735dd21eSpooka * ARE DISCLAIMED.  IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE
735dd21eSpooka * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
735dd21eSpooka * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
735dd21eSpooka * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
735dd21eSpooka * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
735dd21eSpooka * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
735dd21eSpooka * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
735dd21eSpooka * SUCH DAMAGE.
735dd21eSpooka *
735dd21eSpooka */
735dd21eSpooka
735dd21eSpooka#include <sys/cdefs.h>
*fda613dfSriastradh__KERNEL_RCSID(0, "$NetBSD: genfs_io.c,v 1.104 2024/04/05 13:05:40 riastradh Exp $");
735dd21eSpooka
735dd21eSpooka#include <sys/param.h>
735dd21eSpooka#include <sys/systm.h>
735dd21eSpooka#include <sys/proc.h>
735dd21eSpooka#include <sys/kernel.h>
735dd21eSpooka#include <sys/mount.h>
735dd21eSpooka#include <sys/vnode.h>
735dd21eSpooka#include <sys/kmem.h>
735dd21eSpooka#include <sys/kauth.h>
735dd21eSpooka#include <sys/fstrans.h>
010ce493Spooka#include <sys/buf.h>
1d7848adSad#include <sys/atomic.h>
735dd21eSpooka
735dd21eSpooka#include <miscfs/genfs/genfs.h>
735dd21eSpooka#include <miscfs/genfs/genfs_node.h>
735dd21eSpooka#include <miscfs/specfs/specdev.h>
735dd21eSpooka
735dd21eSpooka#include <uvm/uvm.h>
735dd21eSpooka#include <uvm/uvm_pager.h>
881d12e6Sad#include <uvm/uvm_page_array.h>
735dd21eSpooka
735dd21eSpookastatic int genfs_do_directio(struct vmspace *, vaddr_t, size_t, struct vnode *,
735dd21eSpooka    off_t, enum uio_rw);
735dd21eSpookastatic void genfs_dio_iodone(struct buf *);
735dd21eSpooka
2b81644cSriastradhstatic int genfs_getpages_read(struct vnode *, struct vm_page **, int, off_t,
2b81644cSriastradh    off_t, bool, bool, bool, bool);
735dd21eSpookastatic int genfs_do_io(struct vnode *, off_t, vaddr_t, size_t, int, enum uio_rw,
735dd21eSpooka    void (*)(struct buf *));
4f2ae943Syamtstatic void genfs_rel_pages(struct vm_page **, unsigned int);
735dd21eSpooka
735dd21eSpookaint genfs_maxdio = MAXPHYS;
735dd21eSpooka
e15697fcSchsstatic void
4f2ae943Syamtgenfs_rel_pages(struct vm_page **pgs, unsigned int npages)
735dd21eSpooka{
4f2ae943Syamt	unsigned int i;
735dd21eSpooka
735dd21eSpooka	for (i = 0; i < npages; i++) {
735dd21eSpooka		struct vm_page *pg = pgs[i];
735dd21eSpooka
735dd21eSpooka		if (pg == NULL || pg == PGO_DONTCARE)
735dd21eSpooka			continue;
d2a0ebb6Sad		KASSERT(uvm_page_owner_locked_p(pg, true));
735dd21eSpooka		if (pg->flags & PG_FAKE) {
735dd21eSpooka			pg->flags |= PG_RELEASED;
735dd21eSpooka		}
735dd21eSpooka	}
735dd21eSpooka	uvm_page_unbusy(pgs, npages);
735dd21eSpooka}
735dd21eSpooka
735dd21eSpooka/*
735dd21eSpooka * generic VM getpages routine.
735dd21eSpooka * Return PG_BUSY pages for the given range,
735dd21eSpooka * reading from backing store if necessary.
735dd21eSpooka */
735dd21eSpooka
735dd21eSpookaint
735dd21eSpookagenfs_getpages(void *v)
735dd21eSpooka{
735dd21eSpooka	struct vop_getpages_args /* {
735dd21eSpooka		struct vnode *a_vp;
735dd21eSpooka		voff_t a_offset;
735dd21eSpooka		struct vm_page **a_m;
735dd21eSpooka		int *a_count;
735dd21eSpooka		int a_centeridx;
735dd21eSpooka		vm_prot_t a_access_type;
735dd21eSpooka		int a_advice;
735dd21eSpooka		int a_flags;
2372674cSuebayasi	} */ * const ap = v;
735dd21eSpooka
6903a054Suebayasi	off_t diskeof, memeof;
1d7848adSad	int i, error, npages, iflag;
1907407bSyamt	const int flags = ap->a_flags;
2372674cSuebayasi	struct vnode * const vp = ap->a_vp;
2372674cSuebayasi	struct uvm_object * const uobj = &vp->v_uobj;
1907407bSyamt	const bool async = (flags & PGO_SYNCIO) == 0;
64cb3c88Suebayasi	const bool memwrite = (ap->a_access_type & VM_PROT_WRITE) != 0;
1907407bSyamt	const bool overwrite = (flags & PGO_OVERWRITE) != 0;
64cb3c88Suebayasi	const bool blockalloc = memwrite && (flags & PGO_NOBLOCKALLOC) == 0;
5f7e4301Sjdolecek	const bool need_wapbl = (vp->v_mount->mnt_wapbl &&
5f7e4301Sjdolecek			(flags & PGO_JOURNALLOCKED) == 0);
fca58884Schs	const bool glocked = (flags & PGO_GLOCKHELD) != 0;
f36a7657Shannken	bool holds_wapbl = false;
f36a7657Shannken	struct mount *trans_mount = NULL;
735dd21eSpooka	UVMHIST_FUNC("genfs_getpages"); UVMHIST_CALLED(ubchist);
735dd21eSpooka
cb32a134Spgoyette	UVMHIST_LOG(ubchist, "vp %#jx off 0x%jx/%jx count %jd",
cb32a134Spgoyette	    (uintptr_t)vp, ap->a_offset >> 32, ap->a_offset, *ap->a_count);
735dd21eSpooka
05a3457eSad	KASSERT(memwrite >= overwrite);
735dd21eSpooka	KASSERT(vp->v_type == VREG || vp->v_type == VDIR ||
735dd21eSpooka	    vp->v_type == VLNK || vp->v_type == VBLK);
735dd21eSpooka
1d7848adSad	/*
1d7848adSad	 * the object must be locked.  it can only be a read lock when
ff872804Sad	 * processing a read fault with PGO_LOCKED.
1d7848adSad	 */
1d7848adSad
1d7848adSad	KASSERT(rw_lock_held(uobj->vmobjlock));
1d7848adSad	KASSERT(rw_write_held(uobj->vmobjlock) ||
ff872804Sad	   ((flags & PGO_LOCKED) != 0 && !memwrite));
1d7848adSad
560071c2Sjdolecek#ifdef DIAGNOSTIC
560071c2Sjdolecek	if ((flags & PGO_JOURNALLOCKED) && vp->v_mount->mnt_wapbl)
560071c2Sjdolecek                WAPBL_JLOCK_ASSERT(vp->v_mount);
560071c2Sjdolecek#endif
560071c2Sjdolecek
1d7848adSad	/*
1d7848adSad	 * check for reclaimed vnode.  v_interlock is not held here, but
1d7848adSad	 * VI_DEADCHECK is set with vmobjlock held.
1d7848adSad	 */
1d7848adSad
1d7848adSad	iflag = atomic_load_relaxed(&vp->v_iflag);
1d7848adSad	if (__predict_false((iflag & VI_DEADCHECK) != 0)) {
d2a0ebb6Sad		mutex_enter(vp->v_interlock);
ad2fab45Shannken		error = vdead_check(vp, VDEAD_NOWAIT);
d2a0ebb6Sad		mutex_exit(vp->v_interlock);
ad2fab45Shannken		if (error) {
ad2fab45Shannken			if ((flags & PGO_LOCKED) == 0)
d2a0ebb6Sad				rw_exit(uobj->vmobjlock);
ad2fab45Shannken			return error;
ad2fab45Shannken		}
1d7848adSad	}
ad2fab45Shannken
735dd21eSpookastartover:
735dd21eSpooka	error = 0;
680e7444Suebayasi	const voff_t origvsize = vp->v_size;
680e7444Suebayasi	const off_t origoffset = ap->a_offset;
bb4b25cfSuebayasi	const int orignpages = *ap->a_count;
f4e16ac9Suebayasi
735dd21eSpooka	GOP_SIZE(vp, origvsize, &diskeof, 0);
735dd21eSpooka	if (flags & PGO_PASTEOF) {
6903a054Suebayasi		off_t newsize;
735dd21eSpooka#if defined(DIAGNOSTIC)
735dd21eSpooka		off_t writeeof;
735dd21eSpooka#endif /* defined(DIAGNOSTIC) */
735dd21eSpooka
735dd21eSpooka		newsize = MAX(origvsize,
735dd21eSpooka		    origoffset + (orignpages << PAGE_SHIFT));
735dd21eSpooka		GOP_SIZE(vp, newsize, &memeof, GOP_SIZE_MEM);
735dd21eSpooka#if defined(DIAGNOSTIC)
735dd21eSpooka		GOP_SIZE(vp, vp->v_writesize, &writeeof, GOP_SIZE_MEM);
735dd21eSpooka		if (newsize > round_page(writeeof)) {
6cd7b7a7Spooka			panic("%s: past eof: %" PRId64 " vs. %" PRId64,
6cd7b7a7Spooka			    __func__, newsize, round_page(writeeof));
735dd21eSpooka		}
735dd21eSpooka#endif /* defined(DIAGNOSTIC) */
735dd21eSpooka	} else {
735dd21eSpooka		GOP_SIZE(vp, origvsize, &memeof, GOP_SIZE_MEM);
735dd21eSpooka	}
735dd21eSpooka	KASSERT(ap->a_centeridx >= 0 || ap->a_centeridx <= orignpages);
ab579ad8Sriastradh	KASSERT((origoffset & (PAGE_SIZE - 1)) == 0);
ab579ad8Sriastradh	KASSERT(origoffset >= 0);
735dd21eSpooka	KASSERT(orignpages > 0);
735dd21eSpooka
735dd21eSpooka	/*
735dd21eSpooka	 * Bounds-check the request.
735dd21eSpooka	 */
735dd21eSpooka
735dd21eSpooka	if (origoffset + (ap->a_centeridx << PAGE_SHIFT) >= memeof) {
735dd21eSpooka		if ((flags & PGO_LOCKED) == 0) {
d2a0ebb6Sad			rw_exit(uobj->vmobjlock);
735dd21eSpooka		}
cb32a134Spgoyette		UVMHIST_LOG(ubchist, "off 0x%jx count %jd goes past EOF 0x%jx",
735dd21eSpooka		    origoffset, *ap->a_count, memeof,0);
735dd21eSpooka		error = EINVAL;
735dd21eSpooka		goto out_err;
735dd21eSpooka	}
735dd21eSpooka
735dd21eSpooka	/* uobj is locked */
735dd21eSpooka
735dd21eSpooka	if ((flags & PGO_NOTIMESTAMP) == 0 &&
735dd21eSpooka	    (vp->v_type != VBLK ||
735dd21eSpooka	    (vp->v_mount->mnt_flag & MNT_NODEVMTIME) == 0)) {
735dd21eSpooka		int updflags = 0;
735dd21eSpooka
735dd21eSpooka		if ((vp->v_mount->mnt_flag & MNT_NOATIME) == 0) {
735dd21eSpooka			updflags = GOP_UPDATE_ACCESSED;
735dd21eSpooka		}
64cb3c88Suebayasi		if (memwrite) {
735dd21eSpooka			updflags |= GOP_UPDATE_MODIFIED;
735dd21eSpooka		}
735dd21eSpooka		if (updflags != 0) {
735dd21eSpooka			GOP_MARKUPDATE(vp, updflags);
735dd21eSpooka		}
735dd21eSpooka	}
735dd21eSpooka
735dd21eSpooka	/*
735dd21eSpooka	 * For PGO_LOCKED requests, just return whatever's in memory.
735dd21eSpooka	 */
735dd21eSpooka
735dd21eSpooka	if (flags & PGO_LOCKED) {
735dd21eSpooka		int nfound;
9fa66d7aSuebayasi		struct vm_page *pg;
735dd21eSpooka
fca58884Schs		KASSERT(!glocked);
735dd21eSpooka		npages = *ap->a_count;
735dd21eSpooka#if defined(DEBUG)
735dd21eSpooka		for (i = 0; i < npages; i++) {
735dd21eSpooka			pg = ap->a_m[i];
735dd21eSpooka			KASSERT(pg == NULL || pg == PGO_DONTCARE);
735dd21eSpooka		}
735dd21eSpooka#endif /* defined(DEBUG) */
735dd21eSpooka 		nfound = uvn_findpages(uobj, origoffset, &npages,
05a3457eSad		    ap->a_m, NULL,
ff872804Sad		    UFP_NOWAIT | UFP_NOALLOC | UFP_NOBUSY |
ff872804Sad		    (memwrite ? UFP_NORDONLY : 0));
735dd21eSpooka		KASSERT(npages == *ap->a_count);
735dd21eSpooka		if (nfound == 0) {
735dd21eSpooka			error = EBUSY;
735dd21eSpooka			goto out_err;
735dd21eSpooka		}
05a3457eSad		/*
05a3457eSad		 * lock and unlock g_glock to ensure that no one is truncating
05a3457eSad		 * the file behind us.
05a3457eSad		 */
a75c80a0Suebayasi		if (!genfs_node_rdtrylock(vp)) {
735dd21eSpooka			/*
735dd21eSpooka			 * restore the array.
735dd21eSpooka			 */
735dd21eSpooka
735dd21eSpooka			for (i = 0; i < npages; i++) {
735dd21eSpooka				pg = ap->a_m[i];
735dd21eSpooka
c87cbe9fSuebayasi				if (pg != NULL && pg != PGO_DONTCARE) {
735dd21eSpooka					ap->a_m[i] = NULL;
735dd21eSpooka				}
3c4c042eSuebayasi				KASSERT(ap->a_m[i] == NULL ||
3c4c042eSuebayasi				    ap->a_m[i] == PGO_DONTCARE);
735dd21eSpooka			}
735dd21eSpooka		} else {
a75c80a0Suebayasi			genfs_node_unlock(vp);
735dd21eSpooka		}
735dd21eSpooka		error = (ap->a_m[ap->a_centeridx] == NULL ? EBUSY : 0);
e15697fcSchs		if (error == 0 && memwrite) {
05a3457eSad			for (i = 0; i < npages; i++) {
05a3457eSad				pg = ap->a_m[i];
05a3457eSad				if (pg == NULL || pg == PGO_DONTCARE) {
05a3457eSad					continue;
05a3457eSad				}
05a3457eSad				if (uvm_pagegetdirty(pg) ==
05a3457eSad				    UVM_PAGE_STATUS_CLEAN) {
05a3457eSad					uvm_pagemarkdirty(pg,
05a3457eSad					    UVM_PAGE_STATUS_UNKNOWN);
05a3457eSad				}
05a3457eSad			}
e15697fcSchs		}
735dd21eSpooka		goto out_err;
735dd21eSpooka	}
d2a0ebb6Sad	rw_exit(uobj->vmobjlock);
735dd21eSpooka
735dd21eSpooka	/*
735dd21eSpooka	 * find the requested pages and make some simple checks.
735dd21eSpooka	 * leave space in the page array for a whole block.
735dd21eSpooka	 */
735dd21eSpooka
680e7444Suebayasi	const int fs_bshift = (vp->v_type != VBLK) ?
680e7444Suebayasi	    vp->v_mount->mnt_fs_bshift : DEV_BSHIFT;
680e7444Suebayasi	const int fs_bsize = 1 << fs_bshift;
a0629265Suebayasi#define	blk_mask	(fs_bsize - 1)
a0629265Suebayasi#define	trunc_blk(x)	((x) & ~blk_mask)
a0629265Suebayasi#define	round_blk(x)	(((x) + blk_mask) & ~blk_mask)
735dd21eSpooka
bb4b25cfSuebayasi	const int orignmempages = MIN(orignpages,
735dd21eSpooka	    round_page(memeof - origoffset) >> PAGE_SHIFT);
bb4b25cfSuebayasi	npages = orignmempages;
a0629265Suebayasi	const off_t startoffset = trunc_blk(origoffset);
a0629265Suebayasi	const off_t endoffset = MIN(
a0629265Suebayasi	    round_page(round_blk(origoffset + (npages << PAGE_SHIFT))),
a0629265Suebayasi	    round_page(memeof));
9fa66d7aSuebayasi	const int ridx = (origoffset - startoffset) >> PAGE_SHIFT;
735dd21eSpooka
f4e16ac9Suebayasi	const int pgs_size = sizeof(struct vm_page *) *
735dd21eSpooka	    ((endoffset - startoffset) >> PAGE_SHIFT);
f4e16ac9Suebayasi	struct vm_page **pgs, *pgs_onstack[UBC_MAX_PAGES];
9fa66d7aSuebayasi
735dd21eSpooka	if (pgs_size > sizeof(pgs_onstack)) {
735dd21eSpooka		pgs = kmem_zalloc(pgs_size, async ? KM_NOSLEEP : KM_SLEEP);
735dd21eSpooka		if (pgs == NULL) {
735dd21eSpooka			pgs = pgs_onstack;
735dd21eSpooka			error = ENOMEM;
29f5c078Suebayasi			goto out_err;
735dd21eSpooka		}
735dd21eSpooka	} else {
2a274197Schristos		pgs = pgs_onstack;
2a274197Schristos		(void)memset(pgs, 0, pgs_size);
735dd21eSpooka	}
2a274197Schristos
3123ec52Srin	UVMHIST_LOG(ubchist, "ridx %jd npages %jd startoff %#jx endoff %#jx",
735dd21eSpooka	    ridx, npages, startoffset, endoffset);
735dd21eSpooka
f36a7657Shannken	if (trans_mount == NULL) {
f36a7657Shannken		trans_mount = vp->v_mount;
287643b0Shannken		fstrans_start(trans_mount);
f36a7657Shannken		/*
f36a7657Shannken		 * check if this vnode is still valid.
f36a7657Shannken		 */
f36a7657Shannken		mutex_enter(vp->v_interlock);
f36a7657Shannken		error = vdead_check(vp, 0);
f36a7657Shannken		mutex_exit(vp->v_interlock);
f36a7657Shannken		if (error)
f36a7657Shannken			goto out_err_free;
1c9818e8Shannken		/*
1c9818e8Shannken		 * XXX: This assumes that we come here only via
1c9818e8Shannken		 * the mmio path
1c9818e8Shannken		 */
5f7e4301Sjdolecek		if (blockalloc && need_wapbl) {
f36a7657Shannken			error = WAPBL_BEGIN(trans_mount);
f36a7657Shannken			if (error)
1c9818e8Shannken				goto out_err_free;
f36a7657Shannken			holds_wapbl = true;
1c9818e8Shannken		}
1c9818e8Shannken	}
735dd21eSpooka
735dd21eSpooka	/*
735dd21eSpooka	 * hold g_glock to prevent a race with truncate.
735dd21eSpooka	 *
735dd21eSpooka	 * check if our idea of v_size is still valid.
735dd21eSpooka	 */
735dd21eSpooka
fca58884Schs	KASSERT(!glocked || genfs_node_wrlocked(vp));
fca58884Schs	if (!glocked) {
735dd21eSpooka		if (blockalloc) {
fca58884Schs			genfs_node_wrlock(vp);
735dd21eSpooka		} else {
fca58884Schs			genfs_node_rdlock(vp);
fca58884Schs		}
735dd21eSpooka	}
d2a0ebb6Sad	rw_enter(uobj->vmobjlock, RW_WRITER);
735dd21eSpooka	if (vp->v_size < origvsize) {
fca58884Schs		if (!glocked) {
a75c80a0Suebayasi			genfs_node_unlock(vp);
fca58884Schs		}
735dd21eSpooka		if (pgs != pgs_onstack)
735dd21eSpooka			kmem_free(pgs, pgs_size);
735dd21eSpooka		goto startover;
735dd21eSpooka	}
735dd21eSpooka
05a3457eSad	if (uvn_findpages(uobj, origoffset, &npages, &pgs[ridx], NULL,
bb4b25cfSuebayasi	    async ? UFP_NOWAIT : UFP_ALL) != orignmempages) {
fca58884Schs		if (!glocked) {
a75c80a0Suebayasi			genfs_node_unlock(vp);
fca58884Schs		}
735dd21eSpooka		KASSERT(async != 0);
bb4b25cfSuebayasi		genfs_rel_pages(&pgs[ridx], orignmempages);
d2a0ebb6Sad		rw_exit(uobj->vmobjlock);
735dd21eSpooka		error = EBUSY;
f4e16ac9Suebayasi		goto out_err_free;
735dd21eSpooka	}
735dd21eSpooka
735dd21eSpooka	/*
735dd21eSpooka	 * if PGO_OVERWRITE is set, don't bother reading the pages.
735dd21eSpooka	 */
735dd21eSpooka
735dd21eSpooka	if (overwrite) {
fca58884Schs		if (!glocked) {
a75c80a0Suebayasi			genfs_node_unlock(vp);
fca58884Schs		}
735dd21eSpooka		UVMHIST_LOG(ubchist, "PGO_OVERWRITE",0,0,0,0);
735dd21eSpooka
735dd21eSpooka		for (i = 0; i < npages; i++) {
9fa66d7aSuebayasi			struct vm_page *pg = pgs[ridx + i];
735dd21eSpooka
05a3457eSad			/*
05a3457eSad			 * it's caller's responsibility to allocate blocks
05a3457eSad			 * beforehand for the overwrite case.
05a3457eSad			 */
05a3457eSad
05a3457eSad			KASSERT((pg->flags & PG_RDONLY) == 0 || !blockalloc);
05a3457eSad			pg->flags &= ~PG_RDONLY;
05a3457eSad
05a3457eSad			/*
05a3457eSad			 * mark the page DIRTY.
05a3457eSad			 * otherwise another thread can do putpages and pull
05a3457eSad			 * our vnode from syncer's queue before our caller does
05a3457eSad			 * ubc_release.  note that putpages won't see CLEAN
05a3457eSad			 * pages even if they are BUSY.
05a3457eSad			 */
05a3457eSad
05a3457eSad			uvm_pagemarkdirty(pg, UVM_PAGE_STATUS_DIRTY);
735dd21eSpooka		}
735dd21eSpooka		npages += ridx;
735dd21eSpooka		goto out;
735dd21eSpooka	}
735dd21eSpooka
735dd21eSpooka	/*
05a3457eSad	 * if the pages are already resident, just return them.
05a3457eSad	 */
05a3457eSad
05a3457eSad	for (i = 0; i < npages; i++) {
05a3457eSad		struct vm_page *pg = pgs[ridx + i];
05a3457eSad
05a3457eSad		if ((pg->flags & PG_FAKE) ||
05a3457eSad		    (blockalloc && (pg->flags & PG_RDONLY) != 0)) {
05a3457eSad			break;
05a3457eSad		}
05a3457eSad	}
05a3457eSad	if (i == npages) {
05a3457eSad		if (!glocked) {
05a3457eSad			genfs_node_unlock(vp);
05a3457eSad		}
05a3457eSad		UVMHIST_LOG(ubchist, "returning cached pages", 0,0,0,0);
05a3457eSad		npages += ridx;
05a3457eSad		goto out;
05a3457eSad	}
05a3457eSad
05a3457eSad	/*
735dd21eSpooka	 * the page wasn't resident and we're not overwriting,
735dd21eSpooka	 * so we're going to have to do some i/o.
735dd21eSpooka	 * find any additional pages needed to cover the expanded range.
735dd21eSpooka	 */
735dd21eSpooka
735dd21eSpooka	npages = (endoffset - startoffset) >> PAGE_SHIFT;
bb4b25cfSuebayasi	if (startoffset != origoffset || npages != orignmempages) {
9fa66d7aSuebayasi		int npgs;
735dd21eSpooka
735dd21eSpooka		/*
735dd21eSpooka		 * we need to avoid deadlocks caused by locking
735dd21eSpooka		 * additional pages at lower offsets than pages we
735dd21eSpooka		 * already have locked.  unlock them all and start over.
735dd21eSpooka		 */
735dd21eSpooka
bb4b25cfSuebayasi		genfs_rel_pages(&pgs[ridx], orignmempages);
735dd21eSpooka		memset(pgs, 0, pgs_size);
735dd21eSpooka
cb32a134Spgoyette		UVMHIST_LOG(ubchist, "reset npages start 0x%jx end 0x%jx",
735dd21eSpooka		    startoffset, endoffset, 0,0);
735dd21eSpooka		npgs = npages;
05a3457eSad		if (uvn_findpages(uobj, startoffset, &npgs, pgs, NULL,
735dd21eSpooka		    async ? UFP_NOWAIT : UFP_ALL) != npages) {
fca58884Schs			if (!glocked) {
a75c80a0Suebayasi				genfs_node_unlock(vp);
fca58884Schs			}
735dd21eSpooka			KASSERT(async != 0);
735dd21eSpooka			genfs_rel_pages(pgs, npages);
d2a0ebb6Sad			rw_exit(uobj->vmobjlock);
735dd21eSpooka			error = EBUSY;
f4e16ac9Suebayasi			goto out_err_free;
735dd21eSpooka		}
735dd21eSpooka	}
53000cecSuebayasi
d2a0ebb6Sad	rw_exit(uobj->vmobjlock);
2b81644cSriastradh	error = genfs_getpages_read(vp, pgs, npages, startoffset, diskeof,
2b81644cSriastradh	    async, memwrite, blockalloc, glocked);
2b81644cSriastradh	if (!glocked) {
2b81644cSriastradh		genfs_node_unlock(vp);
2b81644cSriastradh	}
446694baSriastradh	if (error == 0 && async)
446694baSriastradh		goto out_err_free;
d2a0ebb6Sad	rw_enter(uobj->vmobjlock, RW_WRITER);
735dd21eSpooka
2b81644cSriastradh	/*
2b81644cSriastradh	 * we're almost done!  release the pages...
2b81644cSriastradh	 * for errors, we free the pages.
2b81644cSriastradh	 * otherwise we activate them and mark them as valid and clean.
2b81644cSriastradh	 * also, unbusy pages that were not actually requested.
2b81644cSriastradh	 */
2b81644cSriastradh
2b81644cSriastradh	if (error) {
2b81644cSriastradh		genfs_rel_pages(pgs, npages);
d2a0ebb6Sad		rw_exit(uobj->vmobjlock);
cb32a134Spgoyette		UVMHIST_LOG(ubchist, "returning error %jd", error,0,0,0);
2b81644cSriastradh		goto out_err_free;
2b81644cSriastradh	}
2b81644cSriastradh
2b81644cSriastradhout:
cb32a134Spgoyette	UVMHIST_LOG(ubchist, "succeeding, npages %jd", npages,0,0,0);
2b81644cSriastradh	error = 0;
2b81644cSriastradh	for (i = 0; i < npages; i++) {
2b81644cSriastradh		struct vm_page *pg = pgs[i];
2b81644cSriastradh		if (pg == NULL) {
2b81644cSriastradh			continue;
2b81644cSriastradh		}
cb32a134Spgoyette		UVMHIST_LOG(ubchist, "examining pg %#jx flags 0x%jx",
cb32a134Spgoyette		    (uintptr_t)pg, pg->flags, 0,0);
2b81644cSriastradh		if (pg->flags & PG_FAKE && !overwrite) {
05a3457eSad			/*
05a3457eSad			 * we've read page's contents from the backing storage.
05a3457eSad			 *
05a3457eSad			 * for a read fault, we keep them CLEAN;  if we
05a3457eSad			 * encountered a hole while reading, the pages can
05a3457eSad			 * already been dirtied with zeros.
05a3457eSad			 */
05a3457eSad			KASSERTMSG(blockalloc || uvm_pagegetdirty(pg) ==
05a3457eSad			    UVM_PAGE_STATUS_CLEAN, "page %p not clean", pg);
05a3457eSad			pg->flags &= ~PG_FAKE;
2b81644cSriastradh		}
2b81644cSriastradh		KASSERT(!memwrite || !blockalloc || (pg->flags & PG_RDONLY) == 0);
2b81644cSriastradh		if (i < ridx || i >= ridx + orignmempages || async) {
cb32a134Spgoyette			UVMHIST_LOG(ubchist, "unbusy pg %#jx offset 0x%jx",
cb32a134Spgoyette			    (uintptr_t)pg, pg->offset,0,0);
2b81644cSriastradh			if (pg->flags & PG_FAKE) {
2b81644cSriastradh				KASSERT(overwrite);
2b81644cSriastradh				uvm_pagezero(pg);
2b81644cSriastradh			}
2b81644cSriastradh			if (pg->flags & PG_RELEASED) {
2b81644cSriastradh				uvm_pagefree(pg);
2b81644cSriastradh				continue;
2b81644cSriastradh			}
94843b13Sad			uvm_pagelock(pg);
2b81644cSriastradh			uvm_pageenqueue(pg);
1912643fSad			uvm_pagewakeup(pg);
94843b13Sad			uvm_pageunlock(pg);
1912643fSad			pg->flags &= ~(PG_BUSY|PG_FAKE);
2b81644cSriastradh			UVM_PAGE_OWN(pg, NULL);
05a3457eSad		} else if (memwrite && !overwrite &&
05a3457eSad		    uvm_pagegetdirty(pg) == UVM_PAGE_STATUS_CLEAN) {
05a3457eSad			/*
05a3457eSad			 * for a write fault, start dirtiness tracking of
05a3457eSad			 * requested pages.
05a3457eSad			 */
05a3457eSad			uvm_pagemarkdirty(pg, UVM_PAGE_STATUS_UNKNOWN);
2b81644cSriastradh		}
2b81644cSriastradh	}
d2a0ebb6Sad	rw_exit(uobj->vmobjlock);
2b81644cSriastradh	if (ap->a_m != NULL) {
2b81644cSriastradh		memcpy(ap->a_m, &pgs[ridx],
2b81644cSriastradh		    orignmempages * sizeof(struct vm_page *));
2b81644cSriastradh	}
2b81644cSriastradh
2b81644cSriastradhout_err_free:
2b81644cSriastradh	if (pgs != NULL && pgs != pgs_onstack)
2b81644cSriastradh		kmem_free(pgs, pgs_size);
2b81644cSriastradhout_err:
f36a7657Shannken	if (trans_mount != NULL) {
f36a7657Shannken		if (holds_wapbl)
f36a7657Shannken			WAPBL_END(trans_mount);
f36a7657Shannken		fstrans_done(trans_mount);
2b81644cSriastradh	}
2b81644cSriastradh	return error;
2b81644cSriastradh}
2b81644cSriastradh
2b81644cSriastradh/*
2b81644cSriastradh * genfs_getpages_read: Read the pages in with VOP_BMAP/VOP_STRATEGY.
03a2126fSdholland *
03a2126fSdholland * "glocked" (which is currently not actually used) tells us not whether
03a2126fSdholland * the genfs_node is locked on entry (it always is) but whether it was
03a2126fSdholland * locked on entry to genfs_getpages.
2b81644cSriastradh */
2b81644cSriastradhstatic int
2b81644cSriastradhgenfs_getpages_read(struct vnode *vp, struct vm_page **pgs, int npages,
2b81644cSriastradh    off_t startoffset, off_t diskeof,
2b81644cSriastradh    bool async, bool memwrite, bool blockalloc, bool glocked)
53000cecSuebayasi{
2b81644cSriastradh	struct uvm_object * const uobj = &vp->v_uobj;
2b81644cSriastradh	const int fs_bshift = (vp->v_type != VBLK) ?
2b81644cSriastradh	    vp->v_mount->mnt_fs_bshift : DEV_BSHIFT;
2b81644cSriastradh	const int dev_bshift = (vp->v_type != VBLK) ?
2b81644cSriastradh	    vp->v_mount->mnt_dev_bshift : DEV_BSHIFT;
2b81644cSriastradh	kauth_cred_t const cred = curlwp->l_cred;		/* XXXUBC curlwp */
53000cecSuebayasi	size_t bytes, iobytes, tailstart, tailbytes, totalbytes, skipbytes;
53000cecSuebayasi	vaddr_t kva;
53000cecSuebayasi	struct buf *bp, *mbp;
53000cecSuebayasi	bool sawhole = false;
2b81644cSriastradh	int i;
2b81644cSriastradh	int error = 0;
53000cecSuebayasi
61497d42Sskrll	UVMHIST_FUNC(__func__); UVMHIST_CALLED(ubchist);
61497d42Sskrll
735dd21eSpooka	/*
735dd21eSpooka	 * read the desired page(s).
735dd21eSpooka	 */
735dd21eSpooka
735dd21eSpooka	totalbytes = npages << PAGE_SHIFT;
735dd21eSpooka	bytes = MIN(totalbytes, MAX(diskeof - startoffset, 0));
735dd21eSpooka	tailbytes = totalbytes - bytes;
735dd21eSpooka	skipbytes = 0;
735dd21eSpooka
735dd21eSpooka	kva = uvm_pagermapin(pgs, npages,
4f2ae943Syamt	    UVMPAGER_MAPIN_READ | (async ? 0 : UVMPAGER_MAPIN_WAITOK));
2b81644cSriastradh	if (kva == 0)
2b81644cSriastradh		return EBUSY;
735dd21eSpooka
4a780c9aSad	mbp = getiobuf(vp, true);
735dd21eSpooka	mbp->b_bufsize = totalbytes;
735dd21eSpooka	mbp->b_data = (void *)kva;
735dd21eSpooka	mbp->b_resid = mbp->b_bcount = bytes;
01f564d8Sad	mbp->b_cflags |= BC_BUSY;
4a780c9aSad	if (async) {
4a780c9aSad		mbp->b_flags = B_READ | B_ASYNC;
5232c510Schs		mbp->b_iodone = uvm_aio_aiodone;
4a780c9aSad	} else {
4a780c9aSad		mbp->b_flags = B_READ;
4a780c9aSad		mbp->b_iodone = NULL;
4a780c9aSad	}
735dd21eSpooka	if (async)
735dd21eSpooka		BIO_SETPRIO(mbp, BPRIO_TIMELIMITED);
735dd21eSpooka	else
735dd21eSpooka		BIO_SETPRIO(mbp, BPRIO_TIMECRITICAL);
735dd21eSpooka
735dd21eSpooka	/*
735dd21eSpooka	 * if EOF is in the middle of the range, zero the part past EOF.
735dd21eSpooka	 * skip over pages which are not PG_FAKE since in that case they have
735dd21eSpooka	 * valid data that we need to preserve.
735dd21eSpooka	 */
735dd21eSpooka
735dd21eSpooka	tailstart = bytes;
735dd21eSpooka	while (tailbytes > 0) {
735dd21eSpooka		const int len = PAGE_SIZE - (tailstart & PAGE_MASK);
735dd21eSpooka
735dd21eSpooka		KASSERT(len <= tailbytes);
735dd21eSpooka		if ((pgs[tailstart >> PAGE_SHIFT]->flags & PG_FAKE) != 0) {
735dd21eSpooka			memset((void *)(kva + tailstart), 0, len);
cb32a134Spgoyette			UVMHIST_LOG(ubchist, "tailbytes %#jx 0x%jx 0x%jx",
cb32a134Spgoyette			    (uintptr_t)kva, tailstart, len, 0);
735dd21eSpooka		}
735dd21eSpooka		tailstart += len;
735dd21eSpooka		tailbytes -= len;
735dd21eSpooka	}
735dd21eSpooka
735dd21eSpooka	/*
735dd21eSpooka	 * now loop over the pages, reading as needed.
735dd21eSpooka	 */
735dd21eSpooka
735dd21eSpooka	bp = NULL;
b0b6ddc3Suebayasi	off_t offset;
b0b6ddc3Suebayasi	for (offset = startoffset;
735dd21eSpooka	    bytes > 0;
735dd21eSpooka	    offset += iobytes, bytes -= iobytes) {
a0629265Suebayasi		int run;
64e0246aSuebayasi		daddr_t lbn, blkno;
6903a054Suebayasi		int pidx;
1a2a3af3Suebayasi		struct vnode *devvp;
735dd21eSpooka
735dd21eSpooka		/*
735dd21eSpooka		 * skip pages which don't need to be read.
735dd21eSpooka		 */
735dd21eSpooka
735dd21eSpooka		pidx = (offset - startoffset) >> PAGE_SHIFT;
735dd21eSpooka		while ((pgs[pidx]->flags & PG_FAKE) == 0) {
735dd21eSpooka			size_t b;
735dd21eSpooka
735dd21eSpooka			KASSERT((offset & (PAGE_SIZE - 1)) == 0);
735dd21eSpooka			if ((pgs[pidx]->flags & PG_RDONLY)) {
735dd21eSpooka				sawhole = true;
735dd21eSpooka			}
735dd21eSpooka			b = MIN(PAGE_SIZE, bytes);
735dd21eSpooka			offset += b;
735dd21eSpooka			bytes -= b;
735dd21eSpooka			skipbytes += b;
735dd21eSpooka			pidx++;
cb32a134Spgoyette			UVMHIST_LOG(ubchist, "skipping, new offset 0x%jx",
735dd21eSpooka			    offset, 0,0,0);
735dd21eSpooka			if (bytes == 0) {
735dd21eSpooka				goto loopdone;
735dd21eSpooka			}
735dd21eSpooka		}
735dd21eSpooka
735dd21eSpooka		/*
735dd21eSpooka		 * bmap the file to find out the blkno to read from and
735dd21eSpooka		 * how much we can read in one i/o.  if bmap returns an error,
735dd21eSpooka		 * skip the rest of the top-level i/o.
735dd21eSpooka		 */
735dd21eSpooka
735dd21eSpooka		lbn = offset >> fs_bshift;
735dd21eSpooka		error = VOP_BMAP(vp, lbn, &devvp, &blkno, &run);
735dd21eSpooka		if (error) {
bf748078Ssimonb			UVMHIST_LOG(ubchist, "VOP_BMAP lbn 0x%jx -> %jd",
735dd21eSpooka			    lbn,error,0,0);
735dd21eSpooka			skipbytes += bytes;
1b9d02ceSuebayasi			bytes = 0;
735dd21eSpooka			goto loopdone;
735dd21eSpooka		}
735dd21eSpooka
735dd21eSpooka		/*
735dd21eSpooka		 * see how many pages can be read with this i/o.
735dd21eSpooka		 * reduce the i/o size if necessary to avoid
735dd21eSpooka		 * overwriting pages with valid data.
735dd21eSpooka		 */
735dd21eSpooka
735dd21eSpooka		iobytes = MIN((((off_t)lbn + 1 + run) << fs_bshift) - offset,
735dd21eSpooka		    bytes);
735dd21eSpooka		if (offset + iobytes > round_page(offset)) {
6903a054Suebayasi			int pcount;
6903a054Suebayasi
735dd21eSpooka			pcount = 1;
735dd21eSpooka			while (pidx + pcount < npages &&
735dd21eSpooka			    pgs[pidx + pcount]->flags & PG_FAKE) {
735dd21eSpooka				pcount++;
735dd21eSpooka			}
735dd21eSpooka			iobytes = MIN(iobytes, (pcount << PAGE_SHIFT) -
735dd21eSpooka			    (offset - trunc_page(offset)));
735dd21eSpooka		}
735dd21eSpooka
735dd21eSpooka		/*
735dd21eSpooka		 * if this block isn't allocated, zero it instead of
735dd21eSpooka		 * reading it.  unless we are going to allocate blocks,
735dd21eSpooka		 * mark the pages we zeroed PG_RDONLY.
735dd21eSpooka		 */
735dd21eSpooka
1b9d02ceSuebayasi		if (blkno == (daddr_t)-1) {
735dd21eSpooka			int holepages = (round_page(offset + iobytes) -
735dd21eSpooka			    trunc_page(offset)) >> PAGE_SHIFT;
cb32a134Spgoyette			UVMHIST_LOG(ubchist, "lbn 0x%jx -> HOLE", lbn,0,0,0);
735dd21eSpooka
735dd21eSpooka			sawhole = true;
735dd21eSpooka			memset((char *)kva + (offset - startoffset), 0,
735dd21eSpooka			    iobytes);
735dd21eSpooka			skipbytes += iobytes;
735dd21eSpooka
05a3457eSad			if (!blockalloc) {
d2a0ebb6Sad				rw_enter(uobj->vmobjlock, RW_WRITER);
735dd21eSpooka				for (i = 0; i < holepages; i++) {
735dd21eSpooka					pgs[pidx + i]->flags |= PG_RDONLY;
735dd21eSpooka				}
d2a0ebb6Sad				rw_exit(uobj->vmobjlock);
05a3457eSad			}
735dd21eSpooka			continue;
735dd21eSpooka		}
735dd21eSpooka
735dd21eSpooka		/*
735dd21eSpooka		 * allocate a sub-buf for this piece of the i/o
735dd21eSpooka		 * (or just use mbp if there's only 1 piece),
735dd21eSpooka		 * and start it going.
735dd21eSpooka		 */
735dd21eSpooka
735dd21eSpooka		if (offset == startoffset && iobytes == bytes) {
735dd21eSpooka			bp = mbp;
735dd21eSpooka		} else {
cb32a134Spgoyette			UVMHIST_LOG(ubchist, "vp %#jx bp %#jx num now %jd",
cb32a134Spgoyette			    (uintptr_t)vp, (uintptr_t)bp, vp->v_numoutput, 0);
4a780c9aSad			bp = getiobuf(vp, true);
735dd21eSpooka			nestiobuf_setup(mbp, bp, offset - startoffset, iobytes);
735dd21eSpooka		}
735dd21eSpooka		bp->b_lblkno = 0;
735dd21eSpooka
735dd21eSpooka		/* adjust physical blkno for partial blocks */
735dd21eSpooka		bp->b_blkno = blkno + ((offset - ((off_t)lbn << fs_bshift)) >>
735dd21eSpooka		    dev_bshift);
735dd21eSpooka
735dd21eSpooka		UVMHIST_LOG(ubchist,
cb32a134Spgoyette		    "bp %#jx offset 0x%x bcount 0x%x blkno 0x%x",
cb32a134Spgoyette		    (uintptr_t)bp, offset, bp->b_bcount, bp->b_blkno);
735dd21eSpooka
735dd21eSpooka		VOP_STRATEGY(devvp, bp);
735dd21eSpooka	}
735dd21eSpooka
735dd21eSpookaloopdone:
735dd21eSpooka	nestiobuf_done(mbp, skipbytes, error);
735dd21eSpooka	if (async) {
735dd21eSpooka		UVMHIST_LOG(ubchist, "returning 0 (async)",0,0,0,0);
2b81644cSriastradh		return 0;
735dd21eSpooka	}
735dd21eSpooka	if (bp != NULL) {
735dd21eSpooka		error = biowait(mbp);
735dd21eSpooka	}
735dd21eSpooka
e52fb162Srmind	/* Remove the mapping (make KVA available as soon as possible) */
e52fb162Srmind	uvm_pagermapout(kva, npages);
e52fb162Srmind
735dd21eSpooka	/*
735dd21eSpooka	 * if this we encountered a hole then we have to do a little more work.
735dd21eSpooka	 * for read faults, we marked the page PG_RDONLY so that future
735dd21eSpooka	 * write accesses to the page will fault again.
735dd21eSpooka	 * for write faults, we must make sure that the backing store for
735dd21eSpooka	 * the page is completely allocated while the pages are locked.
735dd21eSpooka	 */
735dd21eSpooka
735dd21eSpooka	if (!error && sawhole && blockalloc) {
36d65f11Ssimonb		error = GOP_ALLOC(vp, startoffset,
36d65f11Ssimonb		    npages << PAGE_SHIFT, 0, cred);
cb32a134Spgoyette		UVMHIST_LOG(ubchist, "gop_alloc off 0x%jx/0x%jx -> %jd",
735dd21eSpooka		    startoffset, npages << PAGE_SHIFT, error,0);
735dd21eSpooka		if (!error) {
d2a0ebb6Sad			rw_enter(uobj->vmobjlock, RW_WRITER);
735dd21eSpooka			for (i = 0; i < npages; i++) {
9fa66d7aSuebayasi				struct vm_page *pg = pgs[i];
9fa66d7aSuebayasi
9fa66d7aSuebayasi				if (pg == NULL) {
735dd21eSpooka					continue;
735dd21eSpooka				}
05a3457eSad				pg->flags &= ~PG_RDONLY;
05a3457eSad				uvm_pagemarkdirty(pg, UVM_PAGE_STATUS_DIRTY);
cb32a134Spgoyette				UVMHIST_LOG(ubchist, "mark dirty pg %#jx",
cb32a134Spgoyette				    (uintptr_t)pg, 0, 0, 0);
735dd21eSpooka			}
d2a0ebb6Sad			rw_exit(uobj->vmobjlock);
735dd21eSpooka		}
735dd21eSpooka	}
78a982c8Srmind
78a982c8Srmind	putiobuf(mbp);
e15697fcSchs	return error;
735dd21eSpooka}
735dd21eSpooka
735dd21eSpooka/*
735dd21eSpooka * generic VM putpages routine.
735dd21eSpooka * Write the given range of pages to backing store.
735dd21eSpooka *
735dd21eSpooka * => "offhi == 0" means flush all pages at or after "offlo".
735dd21eSpooka * => object should be locked by caller.  we return with the
735dd21eSpooka *      object unlocked.
735dd21eSpooka * => if PGO_CLEANIT or PGO_SYNCIO is set, we may block (due to I/O).
735dd21eSpooka *	thus, a caller might want to unlock higher level resources
735dd21eSpooka *	(e.g. vm_map) before calling flush.
735dd21eSpooka * => if neither PGO_CLEANIT nor PGO_SYNCIO is set, we will not block
735dd21eSpooka * => if PGO_ALLPAGES is set, then all pages in the object will be processed.
735dd21eSpooka *
735dd21eSpooka * note on "cleaning" object and PG_BUSY pages:
735dd21eSpooka *	this routine is holding the lock on the object.   the only time
735dd21eSpooka *	that it can run into a PG_BUSY page that it does not own is if
735dd21eSpooka *	some other process has started I/O on the page (e.g. either
735dd21eSpooka *	a pagein, or a pageout).  if the PG_BUSY page is being paged
05a3457eSad *	in, then it can not be dirty (!UVM_PAGE_STATUS_CLEAN) because no
05a3457eSad *	one has	had a chance to modify it yet.  if the PG_BUSY page is
05a3457eSad *	being paged out then it means that someone else has already started
735dd21eSpooka *	cleaning the page for us (how nice!).  in this case, if we
735dd21eSpooka *	have syncio specified, then after we make our pass through the
735dd21eSpooka *	object we need to wait for the other PG_BUSY pages to clear
735dd21eSpooka *	off (i.e. we need to do an iosync).   also note that once a
735dd21eSpooka *	page is PG_BUSY it must stay in its object until it is un-busyed.
735dd21eSpooka */
735dd21eSpooka
735dd21eSpookaint
735dd21eSpookagenfs_putpages(void *v)
735dd21eSpooka{
735dd21eSpooka	struct vop_putpages_args /* {
735dd21eSpooka		struct vnode *a_vp;
735dd21eSpooka		voff_t a_offlo;
735dd21eSpooka		voff_t a_offhi;
735dd21eSpooka		int a_flags;
2372674cSuebayasi	} */ * const ap = v;
735dd21eSpooka
735dd21eSpooka	return genfs_do_putpages(ap->a_vp, ap->a_offlo, ap->a_offhi,
735dd21eSpooka	    ap->a_flags, NULL);
735dd21eSpooka}
735dd21eSpooka
735dd21eSpookaint
36c701bcSyamtgenfs_do_putpages(struct vnode *vp, off_t startoff, off_t endoff,
36c701bcSyamt    int origflags, struct vm_page **busypg)
735dd21eSpooka{
2372674cSuebayasi	struct uvm_object * const uobj = &vp->v_uobj;
d2a0ebb6Sad	krwlock_t * const slock = uobj->vmobjlock;
881d12e6Sad	off_t nextoff;
4a780c9aSad	int i, error, npages, nback;
735dd21eSpooka	int freeflag;
600f58d6Schristos	/*
600f58d6Schristos	 * This array is larger than it should so that it's size is constant.
600f58d6Schristos	 * The right size is MAXPAGES.
600f58d6Schristos	 */
600f58d6Schristos	struct vm_page *pgs[MAXPHYS / MIN_PAGE_SIZE];
600f58d6Schristos#define MAXPAGES (MAXPHYS / PAGE_SIZE)
881d12e6Sad	struct vm_page *pg, *tpg;
881d12e6Sad	struct uvm_page_array a;
881d12e6Sad	bool wasclean, needs_clean;
36c701bcSyamt	bool async = (origflags & PGO_SYNCIO) == 0;
735dd21eSpooka	bool pagedaemon = curlwp == uvm.pagedaemon_lwp;
06a21e4cShannken	struct mount *trans_mp;
36c701bcSyamt	int flags;
05a3457eSad	bool modified;		/* if we write out any pages */
06a21e4cShannken	bool holds_wapbl;
05a3457eSad	bool cleanall;		/* try to pull off from the syncer's list */
36c701bcSyamt	bool onworklst;
d2a0ebb6Sad	bool nodirty;
05a3457eSad	const bool dirtyonly = (origflags & (PGO_DEACTIVATE|PGO_FREE)) == 0;
735dd21eSpooka
735dd21eSpooka	UVMHIST_FUNC("genfs_putpages"); UVMHIST_CALLED(ubchist);
735dd21eSpooka
36c701bcSyamt	KASSERT(origflags & (PGO_CLEANIT|PGO_FREE|PGO_DEACTIVATE));
ab579ad8Sriastradh	KASSERT((startoff & PAGE_MASK) == 0);
ab579ad8Sriastradh	KASSERT((endoff & PAGE_MASK) == 0);
735dd21eSpooka	KASSERT(startoff < endoff || endoff == 0);
d2a0ebb6Sad	KASSERT(rw_write_held(slock));
735dd21eSpooka
cb32a134Spgoyette	UVMHIST_LOG(ubchist, "vp %#jx pages %jd off 0x%jx len 0x%jx",
cb32a134Spgoyette	    (uintptr_t)vp, uobj->uo_npages, startoff, endoff - startoff);
735dd21eSpooka
560071c2Sjdolecek#ifdef DIAGNOSTIC
560071c2Sjdolecek	if ((origflags & PGO_JOURNALLOCKED) && vp->v_mount->mnt_wapbl)
560071c2Sjdolecek                WAPBL_JLOCK_ASSERT(vp->v_mount);
560071c2Sjdolecek#endif
560071c2Sjdolecek
06a21e4cShannken	trans_mp = NULL;
06a21e4cShannken	holds_wapbl = false;
0789b071Shannken
36c701bcSyamtretry:
36c701bcSyamt	modified = false;
36c701bcSyamt	flags = origflags;
05a3457eSad
05a3457eSad	/*
05a3457eSad	 * shortcut if we have no pages to process.
05a3457eSad	 */
05a3457eSad
19303cecSchs	nodirty = uvm_obj_clean_p(uobj);
da3ef92bSad#ifdef DIAGNOSTIC
da3ef92bSad	mutex_enter(vp->v_interlock);
da3ef92bSad	KASSERT((vp->v_iflag & VI_ONWORKLST) != 0 || nodirty);
da3ef92bSad	mutex_exit(vp->v_interlock);
da3ef92bSad#endif
d2a0ebb6Sad	if (uobj->uo_npages == 0 || (dirtyonly && nodirty)) {
d2a0ebb6Sad		mutex_enter(vp->v_interlock);
19303cecSchs		if (vp->v_iflag & VI_ONWORKLST && LIST_EMPTY(&vp->v_dirtyblkhd)) {
735dd21eSpooka			vn_syncer_remove_from_worklist(vp);
735dd21eSpooka		}
d2a0ebb6Sad		mutex_exit(vp->v_interlock);
06a21e4cShannken		if (trans_mp) {
06a21e4cShannken			if (holds_wapbl)
06a21e4cShannken				WAPBL_END(trans_mp);
06a21e4cShannken			fstrans_done(trans_mp);
44f3404fShannken		}
d2a0ebb6Sad		rw_exit(slock);
735dd21eSpooka		return (0);
735dd21eSpooka	}
735dd21eSpooka
735dd21eSpooka	/*
735dd21eSpooka	 * the vnode has pages, set up to process the request.
735dd21eSpooka	 */
735dd21eSpooka
06a21e4cShannken	if (trans_mp == NULL && (flags & PGO_CLEANIT) != 0) {
735dd21eSpooka		if (pagedaemon) {
06a21e4cShannken			/* Pagedaemon must not sleep here. */
06a21e4cShannken			trans_mp = vp->v_mount;
287643b0Shannken			error = fstrans_start_nowait(trans_mp);
44f3404fShannken			if (error) {
d2a0ebb6Sad				rw_exit(slock);
06a21e4cShannken				return error;
06a21e4cShannken			}
06a21e4cShannken		} else {
06a21e4cShannken			/*
06a21e4cShannken			 * Cannot use vdeadcheck() here as this operation
06a21e4cShannken			 * usually gets used from VOP_RECLAIM().  Test for
06a21e4cShannken			 * change of v_mount instead and retry on change.
06a21e4cShannken			 */
d2a0ebb6Sad			rw_exit(slock);
06a21e4cShannken			trans_mp = vp->v_mount;
287643b0Shannken			fstrans_start(trans_mp);
06a21e4cShannken			if (vp->v_mount != trans_mp) {
06a21e4cShannken				fstrans_done(trans_mp);
06a21e4cShannken				trans_mp = NULL;
06a21e4cShannken			} else {
06a21e4cShannken				holds_wapbl = (trans_mp->mnt_wapbl &&
06a21e4cShannken				    (origflags & PGO_JOURNALLOCKED) == 0);
06a21e4cShannken				if (holds_wapbl) {
06a21e4cShannken					error = WAPBL_BEGIN(trans_mp);
06a21e4cShannken					if (error) {
06a21e4cShannken						fstrans_done(trans_mp);
44f3404fShannken						return error;
44f3404fShannken					}
44f3404fShannken				}
06a21e4cShannken			}
d2a0ebb6Sad			rw_enter(slock, RW_WRITER);
0789b071Shannken			goto retry;
735dd21eSpooka		}
06a21e4cShannken	}
735dd21eSpooka
735dd21eSpooka	error = 0;
19303cecSchs	wasclean = uvm_obj_nowriteback_p(uobj);
881d12e6Sad	nextoff = startoff;
735dd21eSpooka	if (endoff == 0 || flags & PGO_ALLPAGES) {
735dd21eSpooka		endoff = trunc_page(LLONG_MAX);
735dd21eSpooka	}
735dd21eSpooka
735dd21eSpooka	/*
735dd21eSpooka	 * if this vnode is known not to have dirty pages,
735dd21eSpooka	 * don't bother to clean it out.
735dd21eSpooka	 */
735dd21eSpooka
d2a0ebb6Sad	if (nodirty) {
06a7b095Sriastradh		/* We handled the dirtyonly && nodirty case above.  */
06a7b095Sriastradh		KASSERT(!dirtyonly);
735dd21eSpooka		flags &= ~PGO_CLEANIT;
735dd21eSpooka	}
735dd21eSpooka
735dd21eSpooka	/*
881d12e6Sad	 * start the loop to scan pages.
735dd21eSpooka	 */
735dd21eSpooka
05a3457eSad	cleanall = true;
735dd21eSpooka	freeflag = pagedaemon ? PG_PAGEOUT : PG_RELEASED;
4bfe0439Sad	uvm_page_array_init(&a, uobj, dirtyonly ? (UVM_PAGE_ARRAY_FILL_DIRTY |
4bfe0439Sad	    (!async ? UVM_PAGE_ARRAY_FILL_WRITEBACK : 0)) : 0);
881d12e6Sad	for (;;) {
05a3457eSad		bool pgprotected;
05a3457eSad
735dd21eSpooka		/*
05a3457eSad		 * if !dirtyonly, iterate over all resident pages in the range.
05a3457eSad		 *
05a3457eSad		 * if dirtyonly, only possibly dirty pages are interesting.
05a3457eSad		 * however, if we are asked to sync for integrity, we should
05a3457eSad		 * wait on pages being written back by other threads as well.
735dd21eSpooka		 */
735dd21eSpooka
4bfe0439Sad		pg = uvm_page_array_fill_and_peek(&a, nextoff, 0);
881d12e6Sad		if (pg == NULL) {
735dd21eSpooka			break;
735dd21eSpooka		}
881d12e6Sad
881d12e6Sad		KASSERT(pg->uobject == uobj);
881d12e6Sad		KASSERT((pg->flags & (PG_RELEASED|PG_PAGEOUT)) == 0 ||
881d12e6Sad		    (pg->flags & (PG_BUSY)) != 0);
881d12e6Sad		KASSERT(pg->offset >= startoff);
881d12e6Sad		KASSERT(pg->offset >= nextoff);
05a3457eSad		KASSERT(!dirtyonly ||
05a3457eSad		    uvm_pagegetdirty(pg) != UVM_PAGE_STATUS_CLEAN ||
19303cecSchs		    uvm_obj_page_writeback_p(pg));
881d12e6Sad
881d12e6Sad		if (pg->offset >= endoff) {
881d12e6Sad			break;
c84e81caShannken		}
881d12e6Sad
881d12e6Sad		/*
881d12e6Sad		 * a preempt point.
881d12e6Sad		 */
881d12e6Sad
16d4fad6Sad		if (preempt_needed()) {
881d12e6Sad			nextoff = pg->offset; /* visit this page again */
d2a0ebb6Sad			rw_exit(slock);
881d12e6Sad			preempt();
881d12e6Sad			/*
881d12e6Sad			 * as we dropped the object lock, our cached pages can
881d12e6Sad			 * be stale.
881d12e6Sad			 */
881d12e6Sad			uvm_page_array_clear(&a);
d2a0ebb6Sad			rw_enter(slock, RW_WRITER);
735dd21eSpooka			continue;
735dd21eSpooka		}
735dd21eSpooka
735dd21eSpooka		/*
05a3457eSad		 * if the current page is busy, wait for it to become unbusy.
735dd21eSpooka		 */
735dd21eSpooka
05a3457eSad		if ((pg->flags & PG_BUSY) != 0) {
cb32a134Spgoyette			UVMHIST_LOG(ubchist, "busy %#jx", (uintptr_t)pg,
cb32a134Spgoyette			   0, 0, 0);
05a3457eSad			if ((pg->flags & (PG_RELEASED|PG_PAGEOUT)) != 0
05a3457eSad			    && (flags & PGO_BUSYFAIL) != 0) {
cb32a134Spgoyette				UVMHIST_LOG(ubchist, "busyfail %#jx",
cb32a134Spgoyette				    (uintptr_t)pg, 0, 0, 0);
735dd21eSpooka				error = EDEADLK;
735dd21eSpooka				if (busypg != NULL)
735dd21eSpooka					*busypg = pg;
735dd21eSpooka				break;
735dd21eSpooka			}
735dd21eSpooka			if (pagedaemon) {
735dd21eSpooka				/*
735dd21eSpooka				 * someone has taken the page while we
735dd21eSpooka				 * dropped the lock for fstrans_start.
735dd21eSpooka				 */
735dd21eSpooka				break;
735dd21eSpooka			}
05a3457eSad			/*
05a3457eSad			 * don't bother to wait on other's activities
05a3457eSad			 * unless we are asked to sync for integrity.
05a3457eSad			 */
05a3457eSad			if (!async && (flags & PGO_RECLAIM) == 0) {
05a3457eSad				wasclean = false;
05a3457eSad				nextoff = pg->offset + PAGE_SIZE;
05a3457eSad				uvm_page_array_advance(&a);
05a3457eSad				continue;
05a3457eSad			}
881d12e6Sad			nextoff = pg->offset; /* visit this page again */
5972ba16Sad			uvm_pagewait(pg, slock, "genput");
881d12e6Sad			/*
881d12e6Sad			 * as we dropped the object lock, our cached pages can
881d12e6Sad			 * be stale.
881d12e6Sad			 */
881d12e6Sad			uvm_page_array_clear(&a);
d2a0ebb6Sad			rw_enter(slock, RW_WRITER);
735dd21eSpooka			continue;
735dd21eSpooka		}
735dd21eSpooka
881d12e6Sad		nextoff = pg->offset + PAGE_SIZE;
881d12e6Sad		uvm_page_array_advance(&a);
881d12e6Sad
735dd21eSpooka		/*
735dd21eSpooka		 * if we're freeing, remove all mappings of the page now.
735dd21eSpooka		 * if we're cleaning, check if the page is needs to be cleaned.
735dd21eSpooka		 */
735dd21eSpooka
05a3457eSad		pgprotected = false;
735dd21eSpooka		if (flags & PGO_FREE) {
735dd21eSpooka			pmap_page_protect(pg, VM_PROT_NONE);
05a3457eSad			pgprotected = true;
735dd21eSpooka		} else if (flags & PGO_CLEANIT) {
735dd21eSpooka
735dd21eSpooka			/*
735dd21eSpooka			 * if we still have some hope to pull this vnode off
735dd21eSpooka			 * from the syncer queue, write-protect the page.
735dd21eSpooka			 */
735dd21eSpooka
05a3457eSad			if (cleanall && wasclean) {
735dd21eSpooka
735dd21eSpooka				/*
735dd21eSpooka				 * uobj pages get wired only by uvm_fault
735dd21eSpooka				 * where uobj is locked.
735dd21eSpooka				 */
735dd21eSpooka
735dd21eSpooka				if (pg->wire_count == 0) {
735dd21eSpooka					pmap_page_protect(pg,
735dd21eSpooka					    VM_PROT_READ|VM_PROT_EXECUTE);
05a3457eSad					pgprotected = true;
735dd21eSpooka				} else {
735dd21eSpooka					cleanall = false;
735dd21eSpooka				}
735dd21eSpooka			}
735dd21eSpooka		}
735dd21eSpooka
735dd21eSpooka		if (flags & PGO_CLEANIT) {
05a3457eSad			needs_clean = uvm_pagecheckdirty(pg, pgprotected);
735dd21eSpooka		} else {
735dd21eSpooka			needs_clean = false;
735dd21eSpooka		}
735dd21eSpooka
735dd21eSpooka		/*
735dd21eSpooka		 * if we're cleaning, build a cluster.
05a3457eSad		 * the cluster will consist of pages which are currently dirty.
735dd21eSpooka		 * if not cleaning, just operate on the one page.
735dd21eSpooka		 */
735dd21eSpooka
735dd21eSpooka		if (needs_clean) {
735dd21eSpooka			wasclean = false;
735dd21eSpooka			memset(pgs, 0, sizeof(pgs));
735dd21eSpooka			pg->flags |= PG_BUSY;
735dd21eSpooka			UVM_PAGE_OWN(pg, "genfs_putpages");
735dd21eSpooka
735dd21eSpooka			/*
e406c140Schs			 * let the fs constrain the offset range of the cluster.
e406c140Schs			 * we additionally constrain the range here such that
e406c140Schs			 * it fits in the "pgs" pages array.
e406c140Schs			 */
e406c140Schs
881d12e6Sad			off_t fslo, fshi, genlo, lo, off = pg->offset;
e406c140Schs			GOP_PUTRANGE(vp, off, &fslo, &fshi);
e406c140Schs			KASSERT(fslo == trunc_page(fslo));
e406c140Schs			KASSERT(fslo <= off);
e406c140Schs			KASSERT(fshi == trunc_page(fshi));
e406c140Schs			KASSERT(fshi == 0 || off < fshi);
e406c140Schs
e406c140Schs			if (off > MAXPHYS / 2)
e406c140Schs				genlo = trunc_page(off - (MAXPHYS / 2));
e406c140Schs			else
e406c140Schs				genlo = 0;
e406c140Schs			lo = MAX(fslo, genlo);
e406c140Schs
e406c140Schs			/*
735dd21eSpooka			 * first look backward.
735dd21eSpooka			 */
735dd21eSpooka
e406c140Schs			npages = (off - lo) >> PAGE_SHIFT;
735dd21eSpooka			nback = npages;
05a3457eSad			uvn_findpages(uobj, off - PAGE_SIZE, &nback,
05a3457eSad			    &pgs[0], NULL,
735dd21eSpooka			    UFP_NOWAIT|UFP_NOALLOC|UFP_DIRTYONLY|UFP_BACKWARD);
735dd21eSpooka			if (nback) {
735dd21eSpooka				memmove(&pgs[0], &pgs[npages - nback],
735dd21eSpooka				    nback * sizeof(pgs[0]));
735dd21eSpooka				if (npages - nback < nback)
735dd21eSpooka					memset(&pgs[nback], 0,
735dd21eSpooka					    (npages - nback) * sizeof(pgs[0]));
735dd21eSpooka				else
735dd21eSpooka					memset(&pgs[npages - nback], 0,
735dd21eSpooka					    nback * sizeof(pgs[0]));
735dd21eSpooka			}
735dd21eSpooka
735dd21eSpooka			/*
735dd21eSpooka			 * then plug in our page of interest.
735dd21eSpooka			 */
735dd21eSpooka
735dd21eSpooka			pgs[nback] = pg;
735dd21eSpooka
735dd21eSpooka			/*
735dd21eSpooka			 * then look forward to fill in the remaining space in
735dd21eSpooka			 * the array of pages.
05a3457eSad			 *
05a3457eSad			 * pass our cached array of pages so that hopefully
05a3457eSad			 * uvn_findpages can find some good pages in it.
05a3457eSad			 * the array a was filled above with the one of
05a3457eSad			 * following sets of flags:
05a3457eSad			 *	0
05a3457eSad			 *	UVM_PAGE_ARRAY_FILL_DIRTY
05a3457eSad			 *	UVM_PAGE_ARRAY_FILL_DIRTY|WRITEBACK
2806b3daSad			 *
2806b3daSad			 * XXX this is fragile but it'll work: the array
2806b3daSad			 * was earlier filled sparsely, but UFP_DIRTYONLY
2806b3daSad			 * implies dense.  see corresponding comment in
2806b3daSad			 * uvn_findpages().
735dd21eSpooka			 */
735dd21eSpooka
d18e278dSchristos			npages = MAXPAGES - nback - 1;
e406c140Schs			if (fshi)
e406c140Schs				npages = MIN(npages,
e406c140Schs					     (fshi - off - 1) >> PAGE_SHIFT);
735dd21eSpooka			uvn_findpages(uobj, off + PAGE_SIZE, &npages,
2806b3daSad			    &pgs[nback + 1], &a,
735dd21eSpooka			    UFP_NOWAIT|UFP_NOALLOC|UFP_DIRTYONLY);
735dd21eSpooka			npages += nback + 1;
735dd21eSpooka		} else {
735dd21eSpooka			pgs[0] = pg;
735dd21eSpooka			npages = 1;
735dd21eSpooka			nback = 0;
735dd21eSpooka		}
735dd21eSpooka
735dd21eSpooka		/*
735dd21eSpooka		 * apply FREE or DEACTIVATE options if requested.
735dd21eSpooka		 */
735dd21eSpooka
735dd21eSpooka		for (i = 0; i < npages; i++) {
735dd21eSpooka			tpg = pgs[i];
735dd21eSpooka			KASSERT(tpg->uobject == uobj);
05a3457eSad			KASSERT(i == 0 ||
05a3457eSad			    pgs[i-1]->offset + PAGE_SIZE == tpg->offset);
05a3457eSad			KASSERT(!needs_clean || uvm_pagegetdirty(pgs[i]) !=
05a3457eSad			    UVM_PAGE_STATUS_DIRTY);
05a3457eSad			if (needs_clean) {
05a3457eSad				/*
05a3457eSad				 * mark pages as WRITEBACK so that concurrent
05a3457eSad				 * fsync can find and wait for our activities.
05a3457eSad				 */
19303cecSchs				uvm_obj_page_set_writeback(pgs[i]);
05a3457eSad			}
735dd21eSpooka			if (tpg->offset < startoff || tpg->offset >= endoff)
735dd21eSpooka				continue;
735dd21eSpooka			if (flags & PGO_DEACTIVATE && tpg->wire_count == 0) {
94843b13Sad				uvm_pagelock(tpg);
735dd21eSpooka				uvm_pagedeactivate(tpg);
94843b13Sad				uvm_pageunlock(tpg);
735dd21eSpooka			} else if (flags & PGO_FREE) {
735dd21eSpooka				pmap_page_protect(tpg, VM_PROT_NONE);
735dd21eSpooka				if (tpg->flags & PG_BUSY) {
735dd21eSpooka					tpg->flags |= freeflag;
735dd21eSpooka					if (pagedaemon) {
4a780c9aSad						uvm_pageout_start(1);
94843b13Sad						uvm_pagelock(tpg);
735dd21eSpooka						uvm_pagedequeue(tpg);
94843b13Sad						uvm_pageunlock(tpg);
735dd21eSpooka					}
735dd21eSpooka				} else {
735dd21eSpooka
735dd21eSpooka					/*
735dd21eSpooka					 * ``page is not busy''
735dd21eSpooka					 * implies that npages is 1
735dd21eSpooka					 * and needs_clean is false.
735dd21eSpooka					 */
735dd21eSpooka
881d12e6Sad					KASSERT(npages == 1);
881d12e6Sad					KASSERT(!needs_clean);
881d12e6Sad					KASSERT(pg == tpg);
881d12e6Sad					KASSERT(nextoff ==
881d12e6Sad					    tpg->offset + PAGE_SIZE);
735dd21eSpooka					uvm_pagefree(tpg);
735dd21eSpooka					if (pagedaemon)
735dd21eSpooka						uvmexp.pdfreed++;
735dd21eSpooka				}
735dd21eSpooka			}
735dd21eSpooka		}
735dd21eSpooka		if (needs_clean) {
735dd21eSpooka			modified = true;
881d12e6Sad			KASSERT(nextoff == pg->offset + PAGE_SIZE);
881d12e6Sad			KASSERT(nback < npages);
881d12e6Sad			nextoff = pg->offset + ((npages - nback) << PAGE_SHIFT);
881d12e6Sad			KASSERT(pgs[nback] == pg);
881d12e6Sad			KASSERT(nextoff == pgs[npages - 1]->offset + PAGE_SIZE);
735dd21eSpooka
735dd21eSpooka			/*
881d12e6Sad			 * start the i/o.
735dd21eSpooka			 */
d2a0ebb6Sad			rw_exit(slock);
735dd21eSpooka			error = GOP_WRITE(vp, pgs, npages, flags);
881d12e6Sad			/*
881d12e6Sad			 * as we dropped the object lock, our cached pages can
881d12e6Sad			 * be stale.
881d12e6Sad			 */
881d12e6Sad			uvm_page_array_clear(&a);
d2a0ebb6Sad			rw_enter(slock, RW_WRITER);
735dd21eSpooka			if (error) {
735dd21eSpooka				break;
735dd21eSpooka			}
735dd21eSpooka		}
735dd21eSpooka	}
881d12e6Sad	uvm_page_array_fini(&a);
735dd21eSpooka
05a3457eSad	/*
05a3457eSad	 * update ctime/mtime if the modification we started writing out might
05a3457eSad	 * be from mmap'ed write.
05a3457eSad	 *
05a3457eSad	 * this is necessary when an application keeps a file mmaped and
05a3457eSad	 * repeatedly modifies it via the window.  note that, because we
05a3457eSad	 * don't always write-protect pages when cleaning, such modifications
05a3457eSad	 * might not involve any page faults.
05a3457eSad	 */
05a3457eSad
d2a0ebb6Sad	mutex_enter(vp->v_interlock);
da3ef92bSad	if (modified && (vp->v_iflag & VI_WRMAP) != 0 &&
735dd21eSpooka	    (vp->v_type != VBLK ||
735dd21eSpooka	    (vp->v_mount->mnt_flag & MNT_NODEVMTIME) == 0)) {
735dd21eSpooka		GOP_MARKUPDATE(vp, GOP_UPDATE_MODIFIED);
735dd21eSpooka	}
735dd21eSpooka
735dd21eSpooka	/*
05a3457eSad	 * if we no longer have any possibly dirty pages, take us off the
05a3457eSad	 * syncer list.
735dd21eSpooka	 */
735dd21eSpooka
19303cecSchs	if ((vp->v_iflag & VI_ONWORKLST) != 0 && uvm_obj_clean_p(uobj) &&
19303cecSchs	    LIST_EMPTY(&vp->v_dirtyblkhd)) {
735dd21eSpooka		vn_syncer_remove_from_worklist(vp);
735dd21eSpooka	}
735dd21eSpooka
4a780c9aSad	/* Wait for output to complete. */
d2a0ebb6Sad	rw_exit(slock);
4a780c9aSad	if (!wasclean && !async && vp->v_numoutput != 0) {
4a780c9aSad		while (vp->v_numoutput != 0)
d2a0ebb6Sad			cv_wait(&vp->v_cv, vp->v_interlock);
735dd21eSpooka	}
36c701bcSyamt	onworklst = (vp->v_iflag & VI_ONWORKLST) != 0;
d2a0ebb6Sad	mutex_exit(vp->v_interlock);
735dd21eSpooka
36c701bcSyamt	if ((flags & PGO_RECLAIM) != 0 && onworklst) {
36c701bcSyamt		/*
36c701bcSyamt		 * in the case of PGO_RECLAIM, ensure to make the vnode clean.
36c701bcSyamt		 * retrying is not a big deal because, in many cases,
36c701bcSyamt		 * uobj->uo_npages is already 0 here.
36c701bcSyamt		 */
d2a0ebb6Sad		rw_enter(slock, RW_WRITER);
36c701bcSyamt		goto retry;
36c701bcSyamt	}
36c701bcSyamt
06a21e4cShannken	if (trans_mp) {
06a21e4cShannken		if (holds_wapbl)
06a21e4cShannken			WAPBL_END(trans_mp);
06a21e4cShannken		fstrans_done(trans_mp);
44f3404fShannken	}
0789b071Shannken
735dd21eSpooka	return (error);
735dd21eSpooka}
735dd21eSpooka
e406c140Schs/*
e406c140Schs * Default putrange method for file systems that do not care
e406c140Schs * how many pages are given to one GOP_WRITE() call.
e406c140Schs */
e406c140Schsvoid
e406c140Schsgenfs_gop_putrange(struct vnode *vp, off_t off, off_t *lop, off_t *hip)
e406c140Schs{
e406c140Schs
e406c140Schs	*lop = 0;
e406c140Schs	*hip = 0;
e406c140Schs}
e406c140Schs
735dd21eSpookaint
735dd21eSpookagenfs_gop_write(struct vnode *vp, struct vm_page **pgs, int npages, int flags)
735dd21eSpooka{
735dd21eSpooka	off_t off;
735dd21eSpooka	vaddr_t kva;
735dd21eSpooka	size_t len;
735dd21eSpooka	int error;
735dd21eSpooka	UVMHIST_FUNC(__func__); UVMHIST_CALLED(ubchist);
735dd21eSpooka
cb32a134Spgoyette	UVMHIST_LOG(ubchist, "vp %#jx pgs %#jx npages %jd flags 0x%jx",
cb32a134Spgoyette	    (uintptr_t)vp, (uintptr_t)pgs, npages, flags);
735dd21eSpooka
735dd21eSpooka	off = pgs[0]->offset;
735dd21eSpooka	kva = uvm_pagermapin(pgs, npages,
735dd21eSpooka	    UVMPAGER_MAPIN_WRITE | UVMPAGER_MAPIN_WAITOK);
735dd21eSpooka	len = npages << PAGE_SHIFT;
735dd21eSpooka
735dd21eSpooka	error = genfs_do_io(vp, off, kva, len, flags, UIO_WRITE,
5232c510Schs			    uvm_aio_aiodone);
735dd21eSpooka
735dd21eSpooka	return error;
735dd21eSpooka}
735dd21eSpooka
881d12e6Sad/*
881d12e6Sad * genfs_gop_write_rwmap:
881d12e6Sad *
881d12e6Sad * a variant of genfs_gop_write.  it's used by UDF for its directory buffers.
881d12e6Sad * this maps pages with PROT_WRITE so that VOP_STRATEGY can modifies
881d12e6Sad * the contents before writing it out to the underlying storage.
881d12e6Sad */
881d12e6Sad
e979c658Sreinoudint
881d12e6Sadgenfs_gop_write_rwmap(struct vnode *vp, struct vm_page **pgs, int npages,
881d12e6Sad    int flags)
e979c658Sreinoud{
e979c658Sreinoud	off_t off;
e979c658Sreinoud	vaddr_t kva;
e979c658Sreinoud	size_t len;
e979c658Sreinoud	int error;
e979c658Sreinoud	UVMHIST_FUNC(__func__); UVMHIST_CALLED(ubchist);
e979c658Sreinoud
cb32a134Spgoyette	UVMHIST_LOG(ubchist, "vp %#jx pgs %#jx npages %jd flags 0x%jx",
cb32a134Spgoyette	    (uintptr_t)vp, (uintptr_t)pgs, npages, flags);
e979c658Sreinoud
e979c658Sreinoud	off = pgs[0]->offset;
e979c658Sreinoud	kva = uvm_pagermapin(pgs, npages,
e979c658Sreinoud	    UVMPAGER_MAPIN_READ | UVMPAGER_MAPIN_WAITOK);
e979c658Sreinoud	len = npages << PAGE_SHIFT;
e979c658Sreinoud
e979c658Sreinoud	error = genfs_do_io(vp, off, kva, len, flags, UIO_WRITE,
5232c510Schs			    uvm_aio_aiodone);
e979c658Sreinoud
e979c658Sreinoud	return error;
e979c658Sreinoud}
e979c658Sreinoud
735dd21eSpooka/*
735dd21eSpooka * Backend routine for doing I/O to vnode pages.  Pages are already locked
735dd21eSpooka * and mapped into kernel memory.  Here we just look up the underlying
735dd21eSpooka * device block addresses and call the strategy routine.
735dd21eSpooka */
735dd21eSpooka
735dd21eSpookastatic int
735dd21eSpookagenfs_do_io(struct vnode *vp, off_t off, vaddr_t kva, size_t len, int flags,
735dd21eSpooka    enum uio_rw rw, void (*iodone)(struct buf *))
735dd21eSpooka{
1b9d02ceSuebayasi	int s, error;
735dd21eSpooka	int fs_bshift, dev_bshift;
735dd21eSpooka	off_t eof, offset, startoffset;
735dd21eSpooka	size_t bytes, iobytes, skipbytes;
735dd21eSpooka	struct buf *mbp, *bp;
64cb3c88Suebayasi	const bool async = (flags & PGO_SYNCIO) == 0;
8306a9edSchs	const bool lazy = (flags & PGO_LAZY) == 0;
64cb3c88Suebayasi	const bool iowrite = rw == UIO_WRITE;
64cb3c88Suebayasi	const int brw = iowrite ? B_WRITE : B_READ;
735dd21eSpooka	UVMHIST_FUNC(__func__); UVMHIST_CALLED(ubchist);
735dd21eSpooka
cb32a134Spgoyette	UVMHIST_LOG(ubchist, "vp %#jx kva %#jx len 0x%jx flags 0x%jx",
cb32a134Spgoyette	    (uintptr_t)vp, (uintptr_t)kva, len, flags);
735dd21eSpooka
*fda613dfSriastradh	KASSERT(vp->v_size != VSIZENOTSET);
*fda613dfSriastradh	KASSERT(vp->v_writesize != VSIZENOTSET);
*fda613dfSriastradh	KASSERTMSG(vp->v_size <= vp->v_writesize, "vp=%p"
*fda613dfSriastradh	    " v_size=0x%llx v_writesize=0x%llx", vp,
*fda613dfSriastradh	    (unsigned long long)vp->v_size,
*fda613dfSriastradh	    (unsigned long long)vp->v_writesize);
735dd21eSpooka	GOP_SIZE(vp, vp->v_writesize, &eof, 0);
735dd21eSpooka	if (vp->v_type != VBLK) {
735dd21eSpooka		fs_bshift = vp->v_mount->mnt_fs_bshift;
735dd21eSpooka		dev_bshift = vp->v_mount->mnt_dev_bshift;
735dd21eSpooka	} else {
735dd21eSpooka		fs_bshift = DEV_BSHIFT;
735dd21eSpooka		dev_bshift = DEV_BSHIFT;
735dd21eSpooka	}
735dd21eSpooka	error = 0;
735dd21eSpooka	startoffset = off;
735dd21eSpooka	bytes = MIN(len, eof - startoffset);
735dd21eSpooka	skipbytes = 0;
735dd21eSpooka	KASSERT(bytes != 0);
735dd21eSpooka
64cb3c88Suebayasi	if (iowrite) {
881d12e6Sad		/*
881d12e6Sad		 * why += 2?
881d12e6Sad		 * 1 for biodone, 1 for uvm_aio_aiodone.
881d12e6Sad		 */
e225b7bdSrmind		mutex_enter(vp->v_interlock);
735dd21eSpooka		vp->v_numoutput += 2;
e225b7bdSrmind		mutex_exit(vp->v_interlock);
735dd21eSpooka	}
4a780c9aSad	mbp = getiobuf(vp, true);
cb32a134Spgoyette	UVMHIST_LOG(ubchist, "vp %#jx mbp %#jx num now %jd bytes 0x%jx",
cb32a134Spgoyette	    (uintptr_t)vp, (uintptr_t)mbp, vp->v_numoutput, bytes);
735dd21eSpooka	mbp->b_bufsize = len;
735dd21eSpooka	mbp->b_data = (void *)kva;
735dd21eSpooka	mbp->b_resid = mbp->b_bcount = bytes;
01f564d8Sad	mbp->b_cflags |= BC_BUSY | BC_AGE;
4a780c9aSad	if (async) {
4a780c9aSad		mbp->b_flags = brw | B_ASYNC;
735dd21eSpooka		mbp->b_iodone = iodone;
4a780c9aSad	} else {
4a780c9aSad		mbp->b_flags = brw;
4a780c9aSad		mbp->b_iodone = NULL;
4a780c9aSad	}
735dd21eSpooka	if (curlwp == uvm.pagedaemon_lwp)
735dd21eSpooka		BIO_SETPRIO(mbp, BPRIO_TIMELIMITED);
8306a9edSchs	else if (async || lazy)
735dd21eSpooka		BIO_SETPRIO(mbp, BPRIO_TIMENONCRITICAL);
735dd21eSpooka	else
735dd21eSpooka		BIO_SETPRIO(mbp, BPRIO_TIMECRITICAL);
735dd21eSpooka
735dd21eSpooka	bp = NULL;
735dd21eSpooka	for (offset = startoffset;
735dd21eSpooka	    bytes > 0;
735dd21eSpooka	    offset += iobytes, bytes -= iobytes) {
1b9d02ceSuebayasi		int run;
1b9d02ceSuebayasi		daddr_t lbn, blkno;
1b9d02ceSuebayasi		struct vnode *devvp;
1b9d02ceSuebayasi
1b9d02ceSuebayasi		/*
1b9d02ceSuebayasi		 * bmap the file to find out the blkno to read from and
1b9d02ceSuebayasi		 * how much we can read in one i/o.  if bmap returns an error,
1b9d02ceSuebayasi		 * skip the rest of the top-level i/o.
1b9d02ceSuebayasi		 */
1b9d02ceSuebayasi
735dd21eSpooka		lbn = offset >> fs_bshift;
735dd21eSpooka		error = VOP_BMAP(vp, lbn, &devvp, &blkno, &run);
735dd21eSpooka		if (error) {
bf748078Ssimonb			UVMHIST_LOG(ubchist, "VOP_BMAP lbn 0x%jx -> %jd",
1b9d02ceSuebayasi			    lbn, error, 0, 0);
735dd21eSpooka			skipbytes += bytes;
735dd21eSpooka			bytes = 0;
1b9d02ceSuebayasi			goto loopdone;
735dd21eSpooka		}
735dd21eSpooka
1b9d02ceSuebayasi		/*
1b9d02ceSuebayasi		 * see how many pages can be read with this i/o.
1b9d02ceSuebayasi		 * reduce the i/o size if necessary to avoid
1b9d02ceSuebayasi		 * overwriting pages with valid data.
1b9d02ceSuebayasi		 */
1b9d02ceSuebayasi
735dd21eSpooka		iobytes = MIN((((off_t)lbn + 1 + run) << fs_bshift) - offset,
735dd21eSpooka		    bytes);
1b9d02ceSuebayasi
1b9d02ceSuebayasi		/*
1b9d02ceSuebayasi		 * if this block isn't allocated, zero it instead of
1b9d02ceSuebayasi		 * reading it.  unless we are going to allocate blocks,
1b9d02ceSuebayasi		 * mark the pages we zeroed PG_RDONLY.
1b9d02ceSuebayasi		 */
1b9d02ceSuebayasi
735dd21eSpooka		if (blkno == (daddr_t)-1) {
64cb3c88Suebayasi			if (!iowrite) {
735dd21eSpooka				memset((char *)kva + (offset - startoffset), 0,
735dd21eSpooka				    iobytes);
735dd21eSpooka			}
735dd21eSpooka			skipbytes += iobytes;
735dd21eSpooka			continue;
735dd21eSpooka		}
735dd21eSpooka
1b9d02ceSuebayasi		/*
1b9d02ceSuebayasi		 * allocate a sub-buf for this piece of the i/o
1b9d02ceSuebayasi		 * (or just use mbp if there's only 1 piece),
1b9d02ceSuebayasi		 * and start it going.
1b9d02ceSuebayasi		 */
1b9d02ceSuebayasi
735dd21eSpooka		if (offset == startoffset && iobytes == bytes) {
735dd21eSpooka			bp = mbp;
735dd21eSpooka		} else {
cb32a134Spgoyette			UVMHIST_LOG(ubchist, "vp %#jx bp %#jx num now %jd",
cb32a134Spgoyette			    (uintptr_t)vp, (uintptr_t)bp, vp->v_numoutput, 0);
4a780c9aSad			bp = getiobuf(vp, true);
735dd21eSpooka			nestiobuf_setup(mbp, bp, offset - startoffset, iobytes);
735dd21eSpooka		}
735dd21eSpooka		bp->b_lblkno = 0;
735dd21eSpooka
735dd21eSpooka		/* adjust physical blkno for partial blocks */
735dd21eSpooka		bp->b_blkno = blkno + ((offset - ((off_t)lbn << fs_bshift)) >>
735dd21eSpooka		    dev_bshift);
1b9d02ceSuebayasi
735dd21eSpooka		UVMHIST_LOG(ubchist,
cb32a134Spgoyette		    "bp %#jx offset 0x%jx bcount 0x%jx blkno 0x%jx",
cb32a134Spgoyette		    (uintptr_t)bp, offset, bp->b_bcount, bp->b_blkno);
735dd21eSpooka
735dd21eSpooka		VOP_STRATEGY(devvp, bp);
735dd21eSpooka	}
1b9d02ceSuebayasi
1b9d02ceSuebayasiloopdone:
735dd21eSpooka	if (skipbytes) {
cb32a134Spgoyette		UVMHIST_LOG(ubchist, "skipbytes %jd", skipbytes, 0,0,0);
735dd21eSpooka	}
735dd21eSpooka	nestiobuf_done(mbp, skipbytes, error);
735dd21eSpooka	if (async) {
735dd21eSpooka		UVMHIST_LOG(ubchist, "returning 0 (async)", 0,0,0,0);
735dd21eSpooka		return (0);
735dd21eSpooka	}
cb32a134Spgoyette	UVMHIST_LOG(ubchist, "waiting for mbp %#jx", (uintptr_t)mbp, 0, 0, 0);
735dd21eSpooka	error = biowait(mbp);
735dd21eSpooka	s = splbio();
735dd21eSpooka	(*iodone)(mbp);
735dd21eSpooka	splx(s);
cb32a134Spgoyette	UVMHIST_LOG(ubchist, "returning, error %jd", error, 0, 0, 0);
735dd21eSpooka	return (error);
735dd21eSpooka}
735dd21eSpooka
735dd21eSpookaint
735dd21eSpookagenfs_compat_getpages(void *v)
735dd21eSpooka{
735dd21eSpooka	struct vop_getpages_args /* {
735dd21eSpooka		struct vnode *a_vp;
735dd21eSpooka		voff_t a_offset;
735dd21eSpooka		struct vm_page **a_m;
735dd21eSpooka		int *a_count;
735dd21eSpooka		int a_centeridx;
735dd21eSpooka		vm_prot_t a_access_type;
735dd21eSpooka		int a_advice;
735dd21eSpooka		int a_flags;
735dd21eSpooka	} */ *ap = v;
735dd21eSpooka
735dd21eSpooka	off_t origoffset;
735dd21eSpooka	struct vnode *vp = ap->a_vp;
735dd21eSpooka	struct uvm_object *uobj = &vp->v_uobj;
735dd21eSpooka	struct vm_page *pg, **pgs;
735dd21eSpooka	vaddr_t kva;
735dd21eSpooka	int i, error, orignpages, npages;
735dd21eSpooka	struct iovec iov;
735dd21eSpooka	struct uio uio;
735dd21eSpooka	kauth_cred_t cred = curlwp->l_cred;
64cb3c88Suebayasi	const bool memwrite = (ap->a_access_type & VM_PROT_WRITE) != 0;
735dd21eSpooka
735dd21eSpooka	error = 0;
735dd21eSpooka	origoffset = ap->a_offset;
735dd21eSpooka	orignpages = *ap->a_count;
735dd21eSpooka	pgs = ap->a_m;
735dd21eSpooka
735dd21eSpooka	if (ap->a_flags & PGO_LOCKED) {
05a3457eSad		uvn_findpages(uobj, origoffset, ap->a_count, ap->a_m, NULL,
64cb3c88Suebayasi		    UFP_NOWAIT|UFP_NOALLOC| (memwrite ? UFP_NORDONLY : 0));
735dd21eSpooka
e15697fcSchs		error = ap->a_m[ap->a_centeridx] == NULL ? EBUSY : 0;
e15697fcSchs		return error;
735dd21eSpooka	}
735dd21eSpooka	if (origoffset + (ap->a_centeridx << PAGE_SHIFT) >= vp->v_size) {
d2a0ebb6Sad		rw_exit(uobj->vmobjlock);
e15697fcSchs		return EINVAL;
735dd21eSpooka	}
735dd21eSpooka	if ((ap->a_flags & PGO_SYNCIO) == 0) {
d2a0ebb6Sad		rw_exit(uobj->vmobjlock);
735dd21eSpooka		return 0;
735dd21eSpooka	}
735dd21eSpooka	npages = orignpages;
05a3457eSad	uvn_findpages(uobj, origoffset, &npages, pgs, NULL, UFP_ALL);
d2a0ebb6Sad	rw_exit(uobj->vmobjlock);
735dd21eSpooka	kva = uvm_pagermapin(pgs, npages,
735dd21eSpooka	    UVMPAGER_MAPIN_READ | UVMPAGER_MAPIN_WAITOK);
735dd21eSpooka	for (i = 0; i < npages; i++) {
735dd21eSpooka		pg = pgs[i];
735dd21eSpooka		if ((pg->flags & PG_FAKE) == 0) {
735dd21eSpooka			continue;
735dd21eSpooka		}
735dd21eSpooka		iov.iov_base = (char *)kva + (i << PAGE_SHIFT);
735dd21eSpooka		iov.iov_len = PAGE_SIZE;
735dd21eSpooka		uio.uio_iov = &iov;
735dd21eSpooka		uio.uio_iovcnt = 1;
735dd21eSpooka		uio.uio_offset = origoffset + (i << PAGE_SHIFT);
735dd21eSpooka		uio.uio_rw = UIO_READ;
735dd21eSpooka		uio.uio_resid = PAGE_SIZE;
735dd21eSpooka		UIO_SETUP_SYSSPACE(&uio);
735dd21eSpooka		/* XXX vn_lock */
735dd21eSpooka		error = VOP_READ(vp, &uio, 0, cred);
735dd21eSpooka		if (error) {
735dd21eSpooka			break;
735dd21eSpooka		}
735dd21eSpooka		if (uio.uio_resid) {
735dd21eSpooka			memset(iov.iov_base, 0, uio.uio_resid);
735dd21eSpooka		}
735dd21eSpooka	}
735dd21eSpooka	uvm_pagermapout(kva, npages);
d2a0ebb6Sad	rw_enter(uobj->vmobjlock, RW_WRITER);
735dd21eSpooka	for (i = 0; i < npages; i++) {
735dd21eSpooka		pg = pgs[i];
735dd21eSpooka		if (error && (pg->flags & PG_FAKE) != 0) {
735dd21eSpooka			pg->flags |= PG_RELEASED;
735dd21eSpooka		} else {
05a3457eSad			uvm_pagemarkdirty(pg, UVM_PAGE_STATUS_UNKNOWN);
94843b13Sad			uvm_pagelock(pg);
735dd21eSpooka			uvm_pageactivate(pg);
94843b13Sad			uvm_pageunlock(pg);
735dd21eSpooka		}
735dd21eSpooka	}
735dd21eSpooka	if (error) {
735dd21eSpooka		uvm_page_unbusy(pgs, npages);
735dd21eSpooka	}
d2a0ebb6Sad	rw_exit(uobj->vmobjlock);
e15697fcSchs	return error;
735dd21eSpooka}
735dd21eSpooka
735dd21eSpookaint
735dd21eSpookagenfs_compat_gop_write(struct vnode *vp, struct vm_page **pgs, int npages,
735dd21eSpooka    int flags)
735dd21eSpooka{
735dd21eSpooka	off_t offset;
735dd21eSpooka	struct iovec iov;
735dd21eSpooka	struct uio uio;
735dd21eSpooka	kauth_cred_t cred = curlwp->l_cred;
735dd21eSpooka	struct buf *bp;
735dd21eSpooka	vaddr_t kva;
4a780c9aSad	int error;
735dd21eSpooka
735dd21eSpooka	offset = pgs[0]->offset;
735dd21eSpooka	kva = uvm_pagermapin(pgs, npages,
735dd21eSpooka	    UVMPAGER_MAPIN_WRITE | UVMPAGER_MAPIN_WAITOK);
735dd21eSpooka
735dd21eSpooka	iov.iov_base = (void *)kva;
735dd21eSpooka	iov.iov_len = npages << PAGE_SHIFT;
735dd21eSpooka	uio.uio_iov = &iov;
735dd21eSpooka	uio.uio_iovcnt = 1;
735dd21eSpooka	uio.uio_offset = offset;
735dd21eSpooka	uio.uio_rw = UIO_WRITE;
735dd21eSpooka	uio.uio_resid = npages << PAGE_SHIFT;
735dd21eSpooka	UIO_SETUP_SYSSPACE(&uio);
735dd21eSpooka	/* XXX vn_lock */
735dd21eSpooka	error = VOP_WRITE(vp, &uio, 0, cred);
735dd21eSpooka
e225b7bdSrmind	mutex_enter(vp->v_interlock);
4a780c9aSad	vp->v_numoutput++;
e225b7bdSrmind	mutex_exit(vp->v_interlock);
735dd21eSpooka
4a780c9aSad	bp = getiobuf(vp, true);
01f564d8Sad	bp->b_cflags |= BC_BUSY | BC_AGE;
735dd21eSpooka	bp->b_lblkno = offset >> vp->v_mount->mnt_fs_bshift;
735dd21eSpooka	bp->b_data = (char *)kva;
735dd21eSpooka	bp->b_bcount = npages << PAGE_SHIFT;
735dd21eSpooka	bp->b_bufsize = npages << PAGE_SHIFT;
735dd21eSpooka	bp->b_resid = 0;
735dd21eSpooka	bp->b_error = error;
735dd21eSpooka	uvm_aio_aiodone(bp);
735dd21eSpooka	return (error);
735dd21eSpooka}
735dd21eSpooka
735dd21eSpooka/*
735dd21eSpooka * Process a uio using direct I/O.  If we reach a part of the request
735dd21eSpooka * which cannot be processed in this fashion for some reason, just return.
735dd21eSpooka * The caller must handle some additional part of the request using
735dd21eSpooka * buffered I/O before trying direct I/O again.
735dd21eSpooka */
735dd21eSpooka
735dd21eSpookavoid
735dd21eSpookagenfs_directio(struct vnode *vp, struct uio *uio, int ioflag)
735dd21eSpooka{
735dd21eSpooka	struct vmspace *vs;
735dd21eSpooka	struct iovec *iov;
735dd21eSpooka	vaddr_t va;
735dd21eSpooka	size_t len;
735dd21eSpooka	const int mask = DEV_BSIZE - 1;
735dd21eSpooka	int error;
f5bbefdbSjoerg	bool need_wapbl = (vp->v_mount && vp->v_mount->mnt_wapbl &&
f5bbefdbSjoerg	    (ioflag & IO_JOURNALLOCKED) == 0);
735dd21eSpooka
560071c2Sjdolecek#ifdef DIAGNOSTIC
560071c2Sjdolecek	if ((ioflag & IO_JOURNALLOCKED) && vp->v_mount->mnt_wapbl)
560071c2Sjdolecek                WAPBL_JLOCK_ASSERT(vp->v_mount);
560071c2Sjdolecek#endif
560071c2Sjdolecek
735dd21eSpooka	/*
735dd21eSpooka	 * We only support direct I/O to user space for now.
735dd21eSpooka	 */
735dd21eSpooka
735dd21eSpooka	if (VMSPACE_IS_KERNEL_P(uio->uio_vmspace)) {
735dd21eSpooka		return;
735dd21eSpooka	}
735dd21eSpooka
735dd21eSpooka	/*
735dd21eSpooka	 * If the vnode is mapped, we would need to get the getpages lock
735dd21eSpooka	 * to stabilize the bmap, but then we would get into trouble while
735dd21eSpooka	 * locking the pages if the pages belong to this same vnode (or a
735dd21eSpooka	 * multi-vnode cascade to the same effect).  Just fall back to
735dd21eSpooka	 * buffered I/O if the vnode is mapped to avoid this mess.
735dd21eSpooka	 */
735dd21eSpooka
735dd21eSpooka	if (vp->v_vflag & VV_MAPPED) {
735dd21eSpooka		return;
735dd21eSpooka	}
735dd21eSpooka
f5bbefdbSjoerg	if (need_wapbl) {
ac6b1617Shannken		error = WAPBL_BEGIN(vp->v_mount);
ac6b1617Shannken		if (error)
ac6b1617Shannken			return;
ac6b1617Shannken	}
ac6b1617Shannken
735dd21eSpooka	/*
735dd21eSpooka	 * Do as much of the uio as possible with direct I/O.
735dd21eSpooka	 */
735dd21eSpooka
735dd21eSpooka	vs = uio->uio_vmspace;
735dd21eSpooka	while (uio->uio_resid) {
735dd21eSpooka		iov = uio->uio_iov;
735dd21eSpooka		if (iov->iov_len == 0) {
735dd21eSpooka			uio->uio_iov++;
735dd21eSpooka			uio->uio_iovcnt--;
735dd21eSpooka			continue;
735dd21eSpooka		}
735dd21eSpooka		va = (vaddr_t)iov->iov_base;
735dd21eSpooka		len = MIN(iov->iov_len, genfs_maxdio);
735dd21eSpooka		len &= ~mask;
735dd21eSpooka
735dd21eSpooka		/*
735dd21eSpooka		 * If the next chunk is smaller than DEV_BSIZE or extends past
735dd21eSpooka		 * the current EOF, then fall back to buffered I/O.
735dd21eSpooka		 */
735dd21eSpooka
735dd21eSpooka		if (len == 0 || uio->uio_offset + len > vp->v_size) {
ac6b1617Shannken			break;
735dd21eSpooka		}
735dd21eSpooka
735dd21eSpooka		/*
735dd21eSpooka		 * Check alignment.  The file offset must be at least
735dd21eSpooka		 * sector-aligned.  The exact constraint on memory alignment
735dd21eSpooka		 * is very hardware-dependent, but requiring sector-aligned
735dd21eSpooka		 * addresses there too is safe.
735dd21eSpooka		 */
735dd21eSpooka
735dd21eSpooka		if (uio->uio_offset & mask || va & mask) {
ac6b1617Shannken			break;
735dd21eSpooka		}
735dd21eSpooka		error = genfs_do_directio(vs, va, len, vp, uio->uio_offset,
735dd21eSpooka					  uio->uio_rw);
735dd21eSpooka		if (error) {
735dd21eSpooka			break;
735dd21eSpooka		}
735dd21eSpooka		iov->iov_base = (char *)iov->iov_base + len;
735dd21eSpooka		iov->iov_len -= len;
735dd21eSpooka		uio->uio_offset += len;
735dd21eSpooka		uio->uio_resid -= len;
735dd21eSpooka	}
ac6b1617Shannken
f5bbefdbSjoerg	if (need_wapbl)
ac6b1617Shannken		WAPBL_END(vp->v_mount);
735dd21eSpooka}
735dd21eSpooka
735dd21eSpooka/*
735dd21eSpooka * Iodone routine for direct I/O.  We don't do much here since the request is
735dd21eSpooka * always synchronous, so the caller will do most of the work after biowait().
735dd21eSpooka */
735dd21eSpooka
735dd21eSpookastatic void
735dd21eSpookagenfs_dio_iodone(struct buf *bp)
735dd21eSpooka{
735dd21eSpooka
735dd21eSpooka	KASSERT((bp->b_flags & B_ASYNC) == 0);
4a780c9aSad	if ((bp->b_flags & B_READ) == 0 && (bp->b_cflags & BC_AGE) != 0) {
4a780c9aSad		mutex_enter(bp->b_objlock);
735dd21eSpooka		vwakeup(bp);
4a780c9aSad		mutex_exit(bp->b_objlock);
735dd21eSpooka	}
735dd21eSpooka	putiobuf(bp);
735dd21eSpooka}
735dd21eSpooka
735dd21eSpooka/*
735dd21eSpooka * Process one chunk of a direct I/O request.
735dd21eSpooka */
735dd21eSpooka
735dd21eSpookastatic int
735dd21eSpookagenfs_do_directio(struct vmspace *vs, vaddr_t uva, size_t len, struct vnode *vp,
735dd21eSpooka    off_t off, enum uio_rw rw)
735dd21eSpooka{
735dd21eSpooka	struct vm_map *map;
69d5d9c0Smartin	struct pmap *upm, *kpm __unused;
735dd21eSpooka	size_t klen = round_page(uva + len) - trunc_page(uva);
735dd21eSpooka	off_t spoff, epoff;
735dd21eSpooka	vaddr_t kva, puva;
735dd21eSpooka	paddr_t pa;
735dd21eSpooka	vm_prot_t prot;
6a2419feSmartin	int error, rv __diagused, poff, koff;
ac6b1617Shannken	const int pgoflags = PGO_CLEANIT | PGO_SYNCIO | PGO_JOURNALLOCKED |
735dd21eSpooka		(rw == UIO_WRITE ? PGO_FREE : 0);
735dd21eSpooka
735dd21eSpooka	/*
735dd21eSpooka	 * For writes, verify that this range of the file already has fully
735dd21eSpooka	 * allocated backing store.  If there are any holes, just punt and
735dd21eSpooka	 * make the caller take the buffered write path.
735dd21eSpooka	 */
735dd21eSpooka
735dd21eSpooka	if (rw == UIO_WRITE) {
735dd21eSpooka		daddr_t lbn, elbn, blkno;
735dd21eSpooka		int bsize, bshift, run;
735dd21eSpooka
735dd21eSpooka		bshift = vp->v_mount->mnt_fs_bshift;
735dd21eSpooka		bsize = 1 << bshift;
735dd21eSpooka		lbn = off >> bshift;
735dd21eSpooka		elbn = (off + len + bsize - 1) >> bshift;
735dd21eSpooka		while (lbn < elbn) {
735dd21eSpooka			error = VOP_BMAP(vp, lbn, NULL, &blkno, &run);
735dd21eSpooka			if (error) {
735dd21eSpooka				return error;
735dd21eSpooka			}
735dd21eSpooka			if (blkno == (daddr_t)-1) {
735dd21eSpooka				return ENOSPC;
735dd21eSpooka			}
735dd21eSpooka			lbn += 1 + run;
735dd21eSpooka		}
735dd21eSpooka	}
735dd21eSpooka
735dd21eSpooka	/*
735dd21eSpooka	 * Flush any cached pages for parts of the file that we're about to
735dd21eSpooka	 * access.  If we're writing, invalidate pages as well.
735dd21eSpooka	 */
735dd21eSpooka
735dd21eSpooka	spoff = trunc_page(off);
735dd21eSpooka	epoff = round_page(off + len);
13162282Sad	rw_enter(vp->v_uobj.vmobjlock, RW_WRITER);
735dd21eSpooka	error = VOP_PUTPAGES(vp, spoff, epoff, pgoflags);
735dd21eSpooka	if (error) {
735dd21eSpooka		return error;
735dd21eSpooka	}
735dd21eSpooka
735dd21eSpooka	/*
735dd21eSpooka	 * Wire the user pages and remap them into kernel memory.
735dd21eSpooka	 */
735dd21eSpooka
735dd21eSpooka	prot = rw == UIO_READ ? VM_PROT_READ | VM_PROT_WRITE : VM_PROT_READ;
735dd21eSpooka	error = uvm_vslock(vs, (void *)uva, len, prot);
735dd21eSpooka	if (error) {
735dd21eSpooka		return error;
735dd21eSpooka	}
735dd21eSpooka
735dd21eSpooka	map = &vs->vm_map;
735dd21eSpooka	upm = vm_map_pmap(map);
735dd21eSpooka	kpm = vm_map_pmap(kernel_map);
735dd21eSpooka	puva = trunc_page(uva);
2c6de4b4Smatt	kva = uvm_km_alloc(kernel_map, klen, atop(puva) & uvmexp.colormask,
2c6de4b4Smatt	    UVM_KMF_VAONLY | UVM_KMF_WAITVA | UVM_KMF_COLORMATCH);
735dd21eSpooka	for (poff = 0; poff < klen; poff += PAGE_SIZE) {
735dd21eSpooka		rv = pmap_extract(upm, puva + poff, &pa);
735dd21eSpooka		KASSERT(rv);
2c6de4b4Smatt		pmap_kenter_pa(kva + poff, pa, prot, PMAP_WIRED);
8c8246dcSrmind	}
735dd21eSpooka	pmap_update(kpm);
735dd21eSpooka
735dd21eSpooka	/*
735dd21eSpooka	 * Do the I/O.
735dd21eSpooka	 */
735dd21eSpooka
735dd21eSpooka	koff = uva - trunc_page(uva);
735dd21eSpooka	error = genfs_do_io(vp, off, kva + koff, len, PGO_SYNCIO, rw,
735dd21eSpooka			    genfs_dio_iodone);
735dd21eSpooka
735dd21eSpooka	/*
735dd21eSpooka	 * Tear down the kernel mapping.
735dd21eSpooka	 */
735dd21eSpooka
2c6de4b4Smatt	pmap_kremove(kva, klen);
735dd21eSpooka	pmap_update(kpm);
735dd21eSpooka	uvm_km_free(kernel_map, kva, klen, UVM_KMF_VAONLY);
735dd21eSpooka
735dd21eSpooka	/*
735dd21eSpooka	 * Unwire the user pages.
735dd21eSpooka	 */
735dd21eSpooka
735dd21eSpooka	uvm_vsunlock(vs, (void *)uva, len);
735dd21eSpooka	return error;
735dd21eSpooka}