include/parallel/multiway_mergesort.h

*38fd1498Szrj// -*- C++ -*-
*38fd1498Szrj
*38fd1498Szrj// Copyright (C) 2007-2018 Free Software Foundation, Inc.
*38fd1498Szrj//
*38fd1498Szrj// This file is part of the GNU ISO C++ Library.  This library is free
*38fd1498Szrj// software; you can redistribute it and/or modify it under the terms
*38fd1498Szrj// of the GNU General Public License as published by the Free Software
*38fd1498Szrj// Foundation; either version 3, or (at your option) any later
*38fd1498Szrj// version.
*38fd1498Szrj
*38fd1498Szrj// This library is distributed in the hope that it will be useful, but
*38fd1498Szrj// WITHOUT ANY WARRANTY; without even the implied warranty of
*38fd1498Szrj// MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
*38fd1498Szrj// General Public License for more details.
*38fd1498Szrj
*38fd1498Szrj// Under Section 7 of GPL version 3, you are granted additional
*38fd1498Szrj// permissions described in the GCC Runtime Library Exception, version
*38fd1498Szrj// 3.1, as published by the Free Software Foundation.
*38fd1498Szrj
*38fd1498Szrj// You should have received a copy of the GNU General Public License and
*38fd1498Szrj// a copy of the GCC Runtime Library Exception along with this program;
*38fd1498Szrj// see the files COPYING3 and COPYING.RUNTIME respectively.  If not, see
*38fd1498Szrj// <http://www.gnu.org/licenses/>.
*38fd1498Szrj
*38fd1498Szrj/** @file parallel/multiway_mergesort.h
*38fd1498Szrj *  @brief Parallel multiway merge sort.
*38fd1498Szrj *  This file is a GNU parallel extension to the Standard C++ Library.
*38fd1498Szrj */
*38fd1498Szrj
*38fd1498Szrj// Written by Johannes Singler.
*38fd1498Szrj
*38fd1498Szrj#ifndef _GLIBCXX_PARALLEL_MULTIWAY_MERGESORT_H
*38fd1498Szrj#define _GLIBCXX_PARALLEL_MULTIWAY_MERGESORT_H 1
*38fd1498Szrj
*38fd1498Szrj#include <vector>
*38fd1498Szrj
*38fd1498Szrj#include <parallel/basic_iterator.h>
*38fd1498Szrj#include <bits/stl_algo.h>
*38fd1498Szrj#include <parallel/parallel.h>
*38fd1498Szrj#include <parallel/multiway_merge.h>
*38fd1498Szrj
*38fd1498Szrjnamespace __gnu_parallel
*38fd1498Szrj{
*38fd1498Szrj  /** @brief Subsequence description. */
*38fd1498Szrj  template<typename _DifferenceTp>
*38fd1498Szrj    struct _Piece
*38fd1498Szrj    {
*38fd1498Szrj      typedef _DifferenceTp _DifferenceType;
*38fd1498Szrj
*38fd1498Szrj      /** @brief Begin of subsequence. */
*38fd1498Szrj      _DifferenceType _M_begin;
*38fd1498Szrj
*38fd1498Szrj      /** @brief End of subsequence. */
*38fd1498Szrj      _DifferenceType _M_end;
*38fd1498Szrj    };
*38fd1498Szrj
*38fd1498Szrj  /** @brief Data accessed by all threads.
*38fd1498Szrj   *
*38fd1498Szrj   *  PMWMS = parallel multiway mergesort */
*38fd1498Szrj  template<typename _RAIter>
*38fd1498Szrj    struct _PMWMSSortingData
*38fd1498Szrj    {
*38fd1498Szrj      typedef std::iterator_traits<_RAIter> _TraitsType;
*38fd1498Szrj      typedef typename _TraitsType::value_type _ValueType;
*38fd1498Szrj      typedef typename _TraitsType::difference_type _DifferenceType;
*38fd1498Szrj
*38fd1498Szrj      /** @brief Number of threads involved. */
*38fd1498Szrj      _ThreadIndex _M_num_threads;
*38fd1498Szrj
*38fd1498Szrj      /** @brief Input __begin. */
*38fd1498Szrj      _RAIter _M_source;
*38fd1498Szrj
*38fd1498Szrj      /** @brief Start indices, per thread. */
*38fd1498Szrj      _DifferenceType* _M_starts;
*38fd1498Szrj
*38fd1498Szrj      /** @brief Storage in which to sort. */
*38fd1498Szrj      _ValueType** _M_temporary;
*38fd1498Szrj
*38fd1498Szrj      /** @brief Samples. */
*38fd1498Szrj      _ValueType* _M_samples;
*38fd1498Szrj
*38fd1498Szrj      /** @brief Offsets to add to the found positions. */
*38fd1498Szrj      _DifferenceType* _M_offsets;
*38fd1498Szrj
*38fd1498Szrj      /** @brief Pieces of data to merge @c [thread][__sequence] */
*38fd1498Szrj      std::vector<_Piece<_DifferenceType> >* _M_pieces;
*38fd1498Szrj  };
*38fd1498Szrj
*38fd1498Szrj  /**
*38fd1498Szrj   *  @brief Select _M_samples from a sequence.
*38fd1498Szrj   *  @param __sd Pointer to algorithm data. _Result will be placed in
*38fd1498Szrj   *  @c __sd->_M_samples.
*38fd1498Szrj   *  @param __num_samples Number of _M_samples to select.
*38fd1498Szrj   */
*38fd1498Szrj  template<typename _RAIter, typename _DifferenceTp>
*38fd1498Szrj    void
*38fd1498Szrj    __determine_samples(_PMWMSSortingData<_RAIter>* __sd,
*38fd1498Szrj			_DifferenceTp __num_samples)
*38fd1498Szrj    {
*38fd1498Szrj      typedef std::iterator_traits<_RAIter> _TraitsType;
*38fd1498Szrj      typedef typename _TraitsType::value_type _ValueType;
*38fd1498Szrj      typedef _DifferenceTp _DifferenceType;
*38fd1498Szrj
*38fd1498Szrj      _ThreadIndex __iam = omp_get_thread_num();
*38fd1498Szrj
*38fd1498Szrj      _DifferenceType* __es = new _DifferenceType[__num_samples + 2];
*38fd1498Szrj
*38fd1498Szrj      __equally_split(__sd->_M_starts[__iam + 1] - __sd->_M_starts[__iam],
*38fd1498Szrj		      __num_samples + 1, __es);
*38fd1498Szrj
*38fd1498Szrj      for (_DifferenceType __i = 0; __i < __num_samples; ++__i)
*38fd1498Szrj	::new(&(__sd->_M_samples[__iam * __num_samples + __i]))
*38fd1498Szrj	    _ValueType(__sd->_M_source[__sd->_M_starts[__iam]
*38fd1498Szrj				       + __es[__i + 1]]);
*38fd1498Szrj
*38fd1498Szrj      delete[] __es;
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  /** @brief Split consistently. */
*38fd1498Szrj  template<bool __exact, typename _RAIter,
*38fd1498Szrj	   typename _Compare, typename _SortingPlacesIterator>
*38fd1498Szrj    struct _SplitConsistently
*38fd1498Szrj    { };
*38fd1498Szrj
*38fd1498Szrj  /** @brief Split by exact splitting. */
*38fd1498Szrj  template<typename _RAIter, typename _Compare,
*38fd1498Szrj	   typename _SortingPlacesIterator>
*38fd1498Szrj    struct _SplitConsistently<true, _RAIter, _Compare, _SortingPlacesIterator>
*38fd1498Szrj    {
*38fd1498Szrj      void
*38fd1498Szrj      operator()(const _ThreadIndex __iam,
*38fd1498Szrj		 _PMWMSSortingData<_RAIter>* __sd,
*38fd1498Szrj		 _Compare& __comp,
*38fd1498Szrj		 const typename
*38fd1498Szrj		 std::iterator_traits<_RAIter>::difference_type
*38fd1498Szrj		 __num_samples) const
*38fd1498Szrj      {
*38fd1498Szrj#       pragma omp barrier
*38fd1498Szrj
*38fd1498Szrj	std::vector<std::pair<_SortingPlacesIterator,
*38fd1498Szrj	                      _SortingPlacesIterator> >
*38fd1498Szrj	  __seqs(__sd->_M_num_threads);
*38fd1498Szrj	for (_ThreadIndex __s = 0; __s < __sd->_M_num_threads; __s++)
*38fd1498Szrj	  __seqs[__s] = std::make_pair(__sd->_M_temporary[__s],
*38fd1498Szrj				       __sd->_M_temporary[__s]
*38fd1498Szrj				       + (__sd->_M_starts[__s + 1]
*38fd1498Szrj					  - __sd->_M_starts[__s]));
*38fd1498Szrj
*38fd1498Szrj	std::vector<_SortingPlacesIterator> __offsets(__sd->_M_num_threads);
*38fd1498Szrj
*38fd1498Szrj	// if not last thread
*38fd1498Szrj	if (__iam < __sd->_M_num_threads - 1)
*38fd1498Szrj	  multiseq_partition(__seqs.begin(), __seqs.end(),
*38fd1498Szrj			     __sd->_M_starts[__iam + 1], __offsets.begin(),
*38fd1498Szrj			     __comp);
*38fd1498Szrj
*38fd1498Szrj	for (_ThreadIndex __seq = 0; __seq < __sd->_M_num_threads; __seq++)
*38fd1498Szrj	  {
*38fd1498Szrj	    // for each sequence
*38fd1498Szrj	    if (__iam < (__sd->_M_num_threads - 1))
*38fd1498Szrj	      __sd->_M_pieces[__iam][__seq]._M_end
*38fd1498Szrj		= __offsets[__seq] - __seqs[__seq].first;
*38fd1498Szrj	    else
*38fd1498Szrj	      // very end of this sequence
*38fd1498Szrj	      __sd->_M_pieces[__iam][__seq]._M_end =
*38fd1498Szrj		__sd->_M_starts[__seq + 1] - __sd->_M_starts[__seq];
*38fd1498Szrj	  }
*38fd1498Szrj
*38fd1498Szrj#       pragma omp barrier
*38fd1498Szrj
*38fd1498Szrj	for (_ThreadIndex __seq = 0; __seq < __sd->_M_num_threads; __seq++)
*38fd1498Szrj	  {
*38fd1498Szrj	    // For each sequence.
*38fd1498Szrj	    if (__iam > 0)
*38fd1498Szrj	      __sd->_M_pieces[__iam][__seq]._M_begin =
*38fd1498Szrj		__sd->_M_pieces[__iam - 1][__seq]._M_end;
*38fd1498Szrj	    else
*38fd1498Szrj	      // Absolute beginning.
*38fd1498Szrj	      __sd->_M_pieces[__iam][__seq]._M_begin = 0;
*38fd1498Szrj	  }
*38fd1498Szrj      }
*38fd1498Szrj  };
*38fd1498Szrj
*38fd1498Szrj  /** @brief Split by sampling. */
*38fd1498Szrj  template<typename _RAIter, typename _Compare,
*38fd1498Szrj	   typename _SortingPlacesIterator>
*38fd1498Szrj    struct _SplitConsistently<false, _RAIter, _Compare, _SortingPlacesIterator>
*38fd1498Szrj    {
*38fd1498Szrj      void
*38fd1498Szrj      operator()(const _ThreadIndex __iam,
*38fd1498Szrj		 _PMWMSSortingData<_RAIter>* __sd,
*38fd1498Szrj		 _Compare& __comp,
*38fd1498Szrj		 const typename
*38fd1498Szrj		 std::iterator_traits<_RAIter>::difference_type
*38fd1498Szrj		 __num_samples) const
*38fd1498Szrj      {
*38fd1498Szrj	typedef std::iterator_traits<_RAIter> _TraitsType;
*38fd1498Szrj	typedef typename _TraitsType::value_type _ValueType;
*38fd1498Szrj	typedef typename _TraitsType::difference_type _DifferenceType;
*38fd1498Szrj
*38fd1498Szrj	__determine_samples(__sd, __num_samples);
*38fd1498Szrj
*38fd1498Szrj#       pragma omp barrier
*38fd1498Szrj
*38fd1498Szrj#       pragma omp single
*38fd1498Szrj	__gnu_sequential::sort(__sd->_M_samples,
*38fd1498Szrj			       __sd->_M_samples
*38fd1498Szrj			       + (__num_samples * __sd->_M_num_threads),
*38fd1498Szrj			       __comp);
*38fd1498Szrj
*38fd1498Szrj#       pragma omp barrier
*38fd1498Szrj
*38fd1498Szrj	for (_ThreadIndex __s = 0; __s < __sd->_M_num_threads; ++__s)
*38fd1498Szrj	  {
*38fd1498Szrj	    // For each sequence.
*38fd1498Szrj	    if (__num_samples * __iam > 0)
*38fd1498Szrj	      __sd->_M_pieces[__iam][__s]._M_begin =
*38fd1498Szrj                std::lower_bound(__sd->_M_temporary[__s],
*38fd1498Szrj				 __sd->_M_temporary[__s]
*38fd1498Szrj				 + (__sd->_M_starts[__s + 1]
*38fd1498Szrj				    - __sd->_M_starts[__s]),
*38fd1498Szrj				 __sd->_M_samples[__num_samples * __iam],
*38fd1498Szrj				 __comp)
*38fd1498Szrj                - __sd->_M_temporary[__s];
*38fd1498Szrj	    else
*38fd1498Szrj	      // Absolute beginning.
*38fd1498Szrj	      __sd->_M_pieces[__iam][__s]._M_begin = 0;
*38fd1498Szrj
*38fd1498Szrj	    if ((__num_samples * (__iam + 1)) <
*38fd1498Szrj		(__num_samples * __sd->_M_num_threads))
*38fd1498Szrj	      __sd->_M_pieces[__iam][__s]._M_end =
*38fd1498Szrj                std::lower_bound(__sd->_M_temporary[__s],
*38fd1498Szrj				 __sd->_M_temporary[__s]
*38fd1498Szrj				 + (__sd->_M_starts[__s + 1]
*38fd1498Szrj				    - __sd->_M_starts[__s]),
*38fd1498Szrj				 __sd->_M_samples[__num_samples * (__iam + 1)],
*38fd1498Szrj				 __comp)
*38fd1498Szrj                - __sd->_M_temporary[__s];
*38fd1498Szrj	    else
*38fd1498Szrj	      // Absolute end.
*38fd1498Szrj	      __sd->_M_pieces[__iam][__s]._M_end = (__sd->_M_starts[__s + 1]
*38fd1498Szrj						    - __sd->_M_starts[__s]);
*38fd1498Szrj	  }
*38fd1498Szrj      }
*38fd1498Szrj  };
*38fd1498Szrj
*38fd1498Szrj  template<bool __stable, typename _RAIter, typename _Compare>
*38fd1498Szrj    struct __possibly_stable_sort
*38fd1498Szrj    { };
*38fd1498Szrj
*38fd1498Szrj  template<typename _RAIter, typename _Compare>
*38fd1498Szrj    struct __possibly_stable_sort<true, _RAIter, _Compare>
*38fd1498Szrj    {
*38fd1498Szrj      void operator()(const _RAIter& __begin,
*38fd1498Szrj		      const _RAIter& __end, _Compare& __comp) const
*38fd1498Szrj      { __gnu_sequential::stable_sort(__begin, __end, __comp); }
*38fd1498Szrj    };
*38fd1498Szrj
*38fd1498Szrj  template<typename _RAIter, typename _Compare>
*38fd1498Szrj    struct __possibly_stable_sort<false, _RAIter, _Compare>
*38fd1498Szrj    {
*38fd1498Szrj      void operator()(const _RAIter __begin,
*38fd1498Szrj		      const _RAIter __end, _Compare& __comp) const
*38fd1498Szrj      { __gnu_sequential::sort(__begin, __end, __comp); }
*38fd1498Szrj    };
*38fd1498Szrj
*38fd1498Szrj  template<bool __stable, typename Seq_RAIter,
*38fd1498Szrj	   typename _RAIter, typename _Compare,
*38fd1498Szrj	   typename DiffType>
*38fd1498Szrj    struct __possibly_stable_multiway_merge
*38fd1498Szrj    { };
*38fd1498Szrj
*38fd1498Szrj  template<typename Seq_RAIter, typename _RAIter,
*38fd1498Szrj	   typename _Compare, typename _DiffType>
*38fd1498Szrj    struct __possibly_stable_multiway_merge<true, Seq_RAIter,
*38fd1498Szrj					    _RAIter, _Compare, _DiffType>
*38fd1498Szrj    {
*38fd1498Szrj      void operator()(const Seq_RAIter& __seqs_begin,
*38fd1498Szrj		      const Seq_RAIter& __seqs_end,
*38fd1498Szrj		      const _RAIter& __target,
*38fd1498Szrj		      _Compare& __comp,
*38fd1498Szrj		      _DiffType __length_am) const
*38fd1498Szrj      { stable_multiway_merge(__seqs_begin, __seqs_end, __target,
*38fd1498Szrj			      __length_am, __comp, sequential_tag()); }
*38fd1498Szrj    };
*38fd1498Szrj
*38fd1498Szrj  template<typename Seq_RAIter, typename _RAIter,
*38fd1498Szrj	   typename _Compare, typename _DiffType>
*38fd1498Szrj    struct __possibly_stable_multiway_merge<false, Seq_RAIter,
*38fd1498Szrj					    _RAIter, _Compare, _DiffType>
*38fd1498Szrj    {
*38fd1498Szrj      void operator()(const Seq_RAIter& __seqs_begin,
*38fd1498Szrj                      const Seq_RAIter& __seqs_end,
*38fd1498Szrj                      const _RAIter& __target,
*38fd1498Szrj                      _Compare& __comp,
*38fd1498Szrj                      _DiffType __length_am) const
*38fd1498Szrj      { multiway_merge(__seqs_begin, __seqs_end, __target, __length_am,
*38fd1498Szrj		       __comp, sequential_tag()); }
*38fd1498Szrj    };
*38fd1498Szrj
*38fd1498Szrj  /** @brief PMWMS code executed by each thread.
*38fd1498Szrj   *  @param __sd Pointer to algorithm data.
*38fd1498Szrj   *  @param __comp Comparator.
*38fd1498Szrj   */
*38fd1498Szrj  template<bool __stable, bool __exact, typename _RAIter,
*38fd1498Szrj	   typename _Compare>
*38fd1498Szrj    void
*38fd1498Szrj    parallel_sort_mwms_pu(_PMWMSSortingData<_RAIter>* __sd,
*38fd1498Szrj			  _Compare& __comp)
*38fd1498Szrj    {
*38fd1498Szrj      typedef std::iterator_traits<_RAIter> _TraitsType;
*38fd1498Szrj      typedef typename _TraitsType::value_type _ValueType;
*38fd1498Szrj      typedef typename _TraitsType::difference_type _DifferenceType;
*38fd1498Szrj
*38fd1498Szrj      _ThreadIndex __iam = omp_get_thread_num();
*38fd1498Szrj
*38fd1498Szrj      // Length of this thread's chunk, before merging.
*38fd1498Szrj      _DifferenceType __length_local =
*38fd1498Szrj	__sd->_M_starts[__iam + 1] - __sd->_M_starts[__iam];
*38fd1498Szrj
*38fd1498Szrj      // Sort in temporary storage, leave space for sentinel.
*38fd1498Szrj
*38fd1498Szrj      typedef _ValueType* _SortingPlacesIterator;
*38fd1498Szrj
*38fd1498Szrj      __sd->_M_temporary[__iam] =
*38fd1498Szrj        static_cast<_ValueType*>(::operator new(sizeof(_ValueType)
*38fd1498Szrj						* (__length_local + 1)));
*38fd1498Szrj
*38fd1498Szrj      // Copy there.
*38fd1498Szrj      std::uninitialized_copy(__sd->_M_source + __sd->_M_starts[__iam],
*38fd1498Szrj			      __sd->_M_source + __sd->_M_starts[__iam]
*38fd1498Szrj			      + __length_local,
*38fd1498Szrj			      __sd->_M_temporary[__iam]);
*38fd1498Szrj
*38fd1498Szrj      __possibly_stable_sort<__stable, _SortingPlacesIterator, _Compare>()
*38fd1498Szrj        (__sd->_M_temporary[__iam],
*38fd1498Szrj	 __sd->_M_temporary[__iam] + __length_local,
*38fd1498Szrj         __comp);
*38fd1498Szrj
*38fd1498Szrj      // Invariant: locally sorted subsequence in sd->_M_temporary[__iam],
*38fd1498Szrj      // __sd->_M_temporary[__iam] + __length_local.
*38fd1498Szrj
*38fd1498Szrj      // No barrier here: Synchronization is done by the splitting routine.
*38fd1498Szrj
*38fd1498Szrj      _DifferenceType __num_samples =
*38fd1498Szrj        _Settings::get().sort_mwms_oversampling * __sd->_M_num_threads - 1;
*38fd1498Szrj      _SplitConsistently<__exact, _RAIter, _Compare, _SortingPlacesIterator>()
*38fd1498Szrj        (__iam, __sd, __comp, __num_samples);
*38fd1498Szrj
*38fd1498Szrj      // Offset from __target __begin, __length after merging.
*38fd1498Szrj      _DifferenceType __offset = 0, __length_am = 0;
*38fd1498Szrj      for (_ThreadIndex __s = 0; __s < __sd->_M_num_threads; __s++)
*38fd1498Szrj	{
*38fd1498Szrj	  __length_am += (__sd->_M_pieces[__iam][__s]._M_end
*38fd1498Szrj			  - __sd->_M_pieces[__iam][__s]._M_begin);
*38fd1498Szrj	  __offset += __sd->_M_pieces[__iam][__s]._M_begin;
*38fd1498Szrj	}
*38fd1498Szrj
*38fd1498Szrj      typedef std::vector<
*38fd1498Szrj        std::pair<_SortingPlacesIterator, _SortingPlacesIterator> >
*38fd1498Szrj        _SeqVector;
*38fd1498Szrj      _SeqVector __seqs(__sd->_M_num_threads);
*38fd1498Szrj
*38fd1498Szrj      for (_ThreadIndex __s = 0; __s < __sd->_M_num_threads; ++__s)
*38fd1498Szrj	{
*38fd1498Szrj	  __seqs[__s] =
*38fd1498Szrj	    std::make_pair(__sd->_M_temporary[__s]
*38fd1498Szrj			   + __sd->_M_pieces[__iam][__s]._M_begin,
*38fd1498Szrj			   __sd->_M_temporary[__s]
*38fd1498Szrj			   + __sd->_M_pieces[__iam][__s]._M_end);
*38fd1498Szrj	}
*38fd1498Szrj
*38fd1498Szrj      __possibly_stable_multiway_merge<
*38fd1498Szrj        __stable, typename _SeqVector::iterator,
*38fd1498Szrj	_RAIter, _Compare, _DifferenceType>()(__seqs.begin(), __seqs.end(),
*38fd1498Szrj				     __sd->_M_source + __offset, __comp,
*38fd1498Szrj				     __length_am);
*38fd1498Szrj
*38fd1498Szrj#     pragma omp barrier
*38fd1498Szrj
*38fd1498Szrj      for (_DifferenceType __i = 0; __i < __length_local; ++__i)
*38fd1498Szrj	__sd->_M_temporary[__iam][__i].~_ValueType();
*38fd1498Szrj      ::operator delete(__sd->_M_temporary[__iam]);
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj  /** @brief PMWMS main call.
*38fd1498Szrj   *  @param __begin Begin iterator of sequence.
*38fd1498Szrj   *  @param __end End iterator of sequence.
*38fd1498Szrj   *  @param __comp Comparator.
*38fd1498Szrj   *  @param __num_threads Number of threads to use.
*38fd1498Szrj   */
*38fd1498Szrj  template<bool __stable, bool __exact, typename _RAIter,
*38fd1498Szrj           typename _Compare>
*38fd1498Szrj    void
*38fd1498Szrj    parallel_sort_mwms(_RAIter __begin, _RAIter __end,
*38fd1498Szrj		       _Compare __comp,
*38fd1498Szrj		       _ThreadIndex __num_threads)
*38fd1498Szrj    {
*38fd1498Szrj      _GLIBCXX_CALL(__end - __begin)
*38fd1498Szrj
*38fd1498Szrj      typedef std::iterator_traits<_RAIter> _TraitsType;
*38fd1498Szrj      typedef typename _TraitsType::value_type _ValueType;
*38fd1498Szrj      typedef typename _TraitsType::difference_type _DifferenceType;
*38fd1498Szrj
*38fd1498Szrj      _DifferenceType __n = __end - __begin;
*38fd1498Szrj
*38fd1498Szrj      if (__n <= 1)
*38fd1498Szrj	return;
*38fd1498Szrj
*38fd1498Szrj      // at least one element per thread
*38fd1498Szrj      if (__num_threads > __n)
*38fd1498Szrj	__num_threads = static_cast<_ThreadIndex>(__n);
*38fd1498Szrj
*38fd1498Szrj      // shared variables
*38fd1498Szrj      _PMWMSSortingData<_RAIter> __sd;
*38fd1498Szrj      _DifferenceType* __starts;
*38fd1498Szrj      _DifferenceType __size;
*38fd1498Szrj
*38fd1498Szrj#     pragma omp parallel num_threads(__num_threads)
*38fd1498Szrj      {
*38fd1498Szrj        __num_threads = omp_get_num_threads(); //no more threads than requested
*38fd1498Szrj
*38fd1498Szrj#       pragma omp single
*38fd1498Szrj	{
*38fd1498Szrj	  __sd._M_num_threads = __num_threads;
*38fd1498Szrj	  __sd._M_source = __begin;
*38fd1498Szrj
*38fd1498Szrj	  __sd._M_temporary = new _ValueType*[__num_threads];
*38fd1498Szrj
*38fd1498Szrj	  if (!__exact)
*38fd1498Szrj	    {
*38fd1498Szrj	      __size =
*38fd1498Szrj		(_Settings::get().sort_mwms_oversampling * __num_threads - 1)
*38fd1498Szrj		* __num_threads;
*38fd1498Szrj	      __sd._M_samples = static_cast<_ValueType*>
*38fd1498Szrj		(::operator new(__size * sizeof(_ValueType)));
*38fd1498Szrj	    }
*38fd1498Szrj	  else
*38fd1498Szrj	    __sd._M_samples = 0;
*38fd1498Szrj
*38fd1498Szrj	  __sd._M_offsets = new _DifferenceType[__num_threads - 1];
*38fd1498Szrj	  __sd._M_pieces
*38fd1498Szrj	    = new std::vector<_Piece<_DifferenceType> >[__num_threads];
*38fd1498Szrj	  for (_ThreadIndex __s = 0; __s < __num_threads; ++__s)
*38fd1498Szrj	    __sd._M_pieces[__s].resize(__num_threads);
*38fd1498Szrj	  __starts = __sd._M_starts = new _DifferenceType[__num_threads + 1];
*38fd1498Szrj
*38fd1498Szrj	  _DifferenceType __chunk_length = __n / __num_threads;
*38fd1498Szrj	  _DifferenceType __split = __n % __num_threads;
*38fd1498Szrj	  _DifferenceType __pos = 0;
*38fd1498Szrj	  for (_ThreadIndex __i = 0; __i < __num_threads; ++__i)
*38fd1498Szrj	    {
*38fd1498Szrj	      __starts[__i] = __pos;
*38fd1498Szrj	      __pos += ((__i < __split)
*38fd1498Szrj			? (__chunk_length + 1) : __chunk_length);
*38fd1498Szrj	    }
*38fd1498Szrj	  __starts[__num_threads] = __pos;
*38fd1498Szrj	} //single
*38fd1498Szrj
*38fd1498Szrj        // Now sort in parallel.
*38fd1498Szrj        parallel_sort_mwms_pu<__stable, __exact>(&__sd, __comp);
*38fd1498Szrj      } //parallel
*38fd1498Szrj
*38fd1498Szrj      delete[] __starts;
*38fd1498Szrj      delete[] __sd._M_temporary;
*38fd1498Szrj
*38fd1498Szrj      if (!__exact)
*38fd1498Szrj	{
*38fd1498Szrj	  for (_DifferenceType __i = 0; __i < __size; ++__i)
*38fd1498Szrj	    __sd._M_samples[__i].~_ValueType();
*38fd1498Szrj	  ::operator delete(__sd._M_samples);
*38fd1498Szrj	}
*38fd1498Szrj
*38fd1498Szrj      delete[] __sd._M_offsets;
*38fd1498Szrj      delete[] __sd._M_pieces;
*38fd1498Szrj    }
*38fd1498Szrj
*38fd1498Szrj} //namespace __gnu_parallel
*38fd1498Szrj
*38fd1498Szrj#endif /* _GLIBCXX_PARALLEL_MULTIWAY_MERGESORT_H */