JUC并发编程(9):Fork/Join分支合并框架

Fork/Join分支合并框架

参考:

1、概述

java.util.concurrent.ForkJoinPoolJava大师Doug Lea主持编写,它可以将一个大的任务拆分成多个子任务进行并行处理,最后将子任务结果合并成最后的计算结果,并进行输出。本文中对Fork/Join框架的讲解,基于JDK1.8+中的Fork/Join框架实现,参考的Fork/Join框架主要源代码也基于JDK1.8+

forkJoin是由JDK1.7后提供多线并发处理框架,ForkJoin的框架的基本思想是分而治之。使用ForkJoin将相同的计算任务通过多线程的进行执行。从而能提高数据的计算速度。在google的中的大数据处理框架mapreduce就通过类似ForkJoin的思想。通过多线程提高大数据的处理。

这种机制策略在分布式数据库中也非常常见,数据分布在不同的数据库的副本中,在执行查询时,每个服务都要跑查询任务,最后在一个服务上做数据合并,或者提供一个中间引擎层,用来汇总数据

2、分而治之

分而治之就是将一个复杂的计算,按照设定的阈值进行分解成多个计算,然后将各个计算结果进行汇总。相应的ForkJoin将复杂的计算当做一个任务。而分解的多个计算则是当做一个子任务。

  • Fork:把一个复杂任务进行分拆
  • Join:把分拆任务的结果进行合并

image.png

  • 任务分割:首先 Fork/Join 框架需要把大的任务分割成足够小的子任务,如果子任务比较大的话还要对子任务进行继续分割
  • 执行任务并合并结果:分割的子任务分别放到双端队列里,然后几个启动线程分别从双端队列里获取任务执行。子任务执行完的结果都放在另外一个队列里,启动一个线程从队列里取数据,然后合并这些数据。

3、ForkJoin框架的使用

在 Java 的 Fork/Join 框架中,使用两个类完成上述操作

  • ForkJoinTask:我们要使用 Fork/Join 框架,首先需要创建一个 ForkJoin 任务。该类提供了在任务中执行 fork 和 join 的机制。通常情况下我们不需要直接集成 ForkJoinTask 类,只需要继承它的子类,Fork/Join 框架提供了两个子类:
    • RecursiveAction:用于没有返回结果的任务
    • RecursiveTask:用于有返回结果的任务,继承后可以实现递归(自己调自己)调用的任务
  • ForkJoinPool:ForkJoinTask 需要通过 ForkJoinPool 来执行

3.1、ForkJoinTask

使用ForkJoin框架,需要创建一个ForkJoin的任务。因为ForkJoin框架为我们提供了RecursiveActionRecursiveTask。我们只需要继承ForkJoin为我们提供的抽象类的其中一个并且实现compute方法。

RecursiveTask在进行exec之后会使用一个result的变量进行接受返回的结果。而RecursiveActionexec后是不会保存返回结果。

private static class SumTask extends RecursiveTask<Integer> {

    private  int threshold;
    private static final int segmentation = 10;

    private int[] src;

    private int fromIndex;
    private int toIndex;

    public SumTask(int formIndex,int toIndex,int[] src){
        this.fromIndex = formIndex;
        this.toIndex = toIndex;
        this.src = src;
        this.threshold = src.length/segmentation;
    }

    @Override
    protected Integer compute() {
        if ((toIndex - fromIndex) < threshold){
            int count = 0;
            System.out.println(" from index = "+fromIndex
                               +" toIndex="+toIndex);
            for(int i = fromIndex;i<=toIndex;i++){
                count+=src[i];
            }

            return count;
        } else {
            int mid = (fromIndex+toIndex)/2;
            SumTask left =  new SumTask(fromIndex,mid,src);
            SumTask right = new SumTask(mid+1,toIndex,src);
            invokeAll(left, right);
            return left.join() + right.join();
        }
    }
}
复制代码

3.2、ForkJoinPool

ForkJoinTask 需要通过 ForkJoinPool 来执行,分割的子任务也会添加到当前工作线程的双端队列中,进入队列的头部。当一个工作线程中没有任务时,会从其他工作线程的队列尾部获取一个任务(工作窃取)。

public static void main(String[] args) {
    int[]  array = MakeArray.createIntArray();
    ForkJoinPool forkJoinPool= new ForkJoinPool();
    SumTask sumTask  = new SumTask(0, array.length - 1, array);

    long start = System.currentTimeMillis();

    forkJoinPool.invoke(sumTask);

    System.out.println("The count is " + sumTask.join()
                       +" spend time:" + (System.currentTimeMillis()-start) + "ms");
}
复制代码

4、工作窃取(work-stealing)

任务进行分解成多个子任务的时候,每个子任务的处理时间都不一样。

例如分别有子任务A和B。如果子任务A的1ms的时候已经执行,子任务B还在执行。那么如果子任务A的线程等待子任务B完毕后在进行汇总,那么子任务A线程就会在浪费执行时间,最终的执行时间就以最耗时的子任务为准。

而如果子任务A执行完毕后,处理子任务B的任务,并且执行完毕后将任务归还给子任务B的线程。这样就可以提高执行效率,这就是工作窃取。而这就是双端队列的好处

image.png

5、使用中可能遇到的问题

  • 使用这种多线程带来的数据共享问题,在处理结果的合并的时候如果涉及到数据共享的问题,我们尽可能使用JDK为我们提供的并发容器。
  • 在使用JVM的时候我们要考虑OOM的问题,如果我们的任务处理时间非常耗时,并且处理的数据非常大的时候。会造成OOM。
  • ForkJoin也是通过多线程的方式进行处理任务。那么我们不得不考虑是否应该使用ForkJoin。因为当数据量不是特别大的时候,我们没有必要使用ForkJoin。因为多线程会涉及到上下文的切换。所以数据量不大的时候使用串行比使用多线程快。

6、Fork/Join 框架的实现原理(了解)

ForkJoinPoolForkJoinTask 数组和 ForkJoinWorkerThread 数组组成,ForkJoinTask 数组负责将存放以及将程序提交给 ForkJoinPool,而ForkJoinWorkerThread 负责执行这些任务。

6.1、Fork 方法

ForkJoinPool:分支合并池,类比线程池

image.png

Fork 方法的实现原理: 当我们调用 ForkJoinTask 的 fork 方法时,程序会把任务放在 ForkJoinWorkerThread 的 pushTask 的 workQueue 中,异步地执行这个任务,然后立即返回结果.

public final ForkJoinTask<V> fork(){
	Thread t;
	if ( (t = Thread.currentThread() ) instanceof ForkJoinWorkerThread )
		( (ForkJoinWorkerThread) t).workQueue.push( this );
	else
		ForkJoinPool.common.externalPush( this );
	return(this);
}
复制代码

pushTask 方法把当前任务存放在 ForkJoinTask 数组队列里。然后再调用ForkJoinPool 的 signalWork()方法唤醒或创建一个工作线程来执行任务。代码如下:

final void push(ForkJoinTask <? > task){
    ForkJoinTask <? > [] a;
    ForkJoinPool p;
    int b = base, s = top, n;
    if((a = array) != null){ // ignore if queue removed
        int m = a.length - 1; // fenced write for task visibility
        U.putOrderedObject(a, ((m & s) << ASHIFT) + ABASE, task);
        U.putOrderedInt(this, QTOP, s + 1);
        if((n = s - b) <= 1){
            if((p = pool) != null) p.signalWork(p.workQueues, this); //执行
        }
        else if(n >= m) growArray();
    }
}
复制代码

6.2、Join 方法

Join 方法的主要作用是阻塞当前线程并等待获取结果。让我们一起看看ForkJoinTask 的 join 方法的实现,代码如下:

public final V join(){
    int s;
    if((s = doJoin() & DONE_MASK) != NORMAL) reportException(s);
    return getRawResult();
}
复制代码

它首先调用 doJoin 方法,通过 doJoin()方法得到当前任务的状态来判断返回什么结果,任务状态有 4 种:已完成(NORMAL)、被取消(CANCELLED)、信号(SIGNAL)和出现异常(EXCEPTIONAL)

  • 如果任务状态是已完成,则直接返回任务结果。
  • 如果任务状态是被取消,则直接抛出 CancellationException
  • 如果任务状态是抛出异常,则直接抛出对应的异常
  • 让我们分析一下 doJoin 方法的实现
private int doJoin(){
    int s;
    Thread t;
    ForkJoinWorkerThread wt;
    ForkJoinPool.WorkQueue
    w;
    return(s = status) < 0 ? s : ((t = Thread.currentThread()) instanceof ForkJoinWorkerThread) ? (w = (wt = (ForkJoinWorkerThread) t).workQueue).
    tryUnpush(this) && (s = doExec()) < 0 ? s : wt.pool.awaitJoin(w, this, 0 L): externalAwaitDone();
}
final int doExec(){
    int s;
    boolean completed;
    if((s = status) >= 0){
        try{
            completed = exec();
        }
        catch(Throwable rex){
            return setExceptionalCompletion(rex);
        }
        if(completed) s = setCompletion(NORMAL);
    }
    return s;
}

复制代码

在 doJoin()方法流程如下:

  • 首先通过查看任务的状态,看任务是否已经执行完成,如果执行完成,则直接返回任务状态;
  • 如果没有执行完,则从任务数组里取出任务并执行。
  • 如果任务顺利执行完成,则设置任务状态为 NORMAL,如果出现异常,则记录异常,并将任务状态设置为 EXCEPTIONAL。

6.3、Fork/Join 框架的异常处理

ForkJoinTask 在执行的时候可能会抛出异常,但是我们没办法在主线程里直接捕获异常,所以 ForkJoinTask 提供了 isCompletedAbnormally()方法来检查任务是否已经抛出异常或已经被取消了,并且可以通过 ForkJoinTask 的getException 方法获取异常。

getException 方法返回 Throwable 对象,如果任务被取消了则返回CancellationException。如果任务没有完成或者没有抛出异常则返回 null。

7、入门案例

场景: 生成一个计算任务,计算 1+2+3…+1000, 每 100 个数切分一个子任务

package com.forkjoin;

import java.util.concurrent.ExecutionException;
import java.util.concurrent.ForkJoinPool;
import java.util.concurrent.ForkJoinTask;
import java.util.concurrent.RecursiveTask;

/**
 * 用的是算法中的二分查找法
 */
class MyTask extends RecursiveTask<Integer> {

    //拆分值不能超过10,计算10以内运算
    private static final Integer VALUE = 10;
    private int begin; // 拆分开始
    private int end; // 拆分结束
    private int result; //返回结果

    //创建有参数构造
    public MyTask(int begin, int end) {
        this.begin = begin;
        this.end = end;
    }

    //拆分合并的过程
    @Override
    protected Integer compute() {
        //判断相加两个数是否大于10
        if ((end - begin) <= VALUE) {
            //相加操作
            for (int i = begin; i <= end; i++) {
                result = result + i;
            }
        } else {//进一步拆分
            //获取中间值
            int middle = (begin + end) / 2;
            //拆分左边
            MyTask myTask01 = new MyTask( begin, middle );
            //拆分右边
            MyTask myTask02 = new MyTask( middle + 1, end );

            //调用方法,拆分
            myTask01.fork();
            myTask02.fork();

            //合并
            result = myTask01.join() + myTask02.join();
        }
        return result;
    }
}

public class ForkJoinDemo {
    public static void main(String[] args) throws ExecutionException, InterruptedException {
        //创建MyTask对象
        MyTask myTask = new MyTask( 0, 100 );
        //创建分支合并对象
        ForkJoinPool forkJoinPool = new ForkJoinPool();
        ForkJoinTask<Integer> forkJoinTask = forkJoinPool.submit( myTask );
        //获取最终合并的结果
        Integer result = forkJoinTask.get();
        System.out.println(result);
        //关闭池对象
        forkJoinPool.shutdown();
    }
}
复制代码
© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享