Fork/Join分支合并框架
参考:
1、概述
java.util.concurrent.ForkJoinPool
由Java大师Doug Lea主持编写,它可以将一个大的任务拆分成多个子任务进行并行处理,最后将子任务结果合并成最后的计算结果,并进行输出。本文中对Fork/Join
框架的讲解,基于JDK1.8+
中的Fork/Join
框架实现,参考的Fork/Join
框架主要源代码也基于JDK1.8+
。
forkJoin
是由JDK1.7后提供多线并发处理框架,ForkJoin的框架的基本思想是分而治之。使用ForkJoin将相同的计算任务通过多线程的进行执行。从而能提高数据的计算速度。在google的中的大数据处理框架mapreduce就通过类似ForkJoin的思想。通过多线程提高大数据的处理。
这种机制策略在分布式数据库中也非常常见,数据分布在不同的数据库的副本中,在执行查询时,每个服务都要跑查询任务,最后在一个服务上做数据合并,或者提供一个中间引擎层,用来汇总数据
2、分而治之
分而治之就是将一个复杂的计算,按照设定的阈值进行分解成多个计算,然后将各个计算结果进行汇总。相应的ForkJoin将复杂的计算当做一个任务。而分解的多个计算则是当做一个子任务。
Fork
:把一个复杂任务进行分拆Join
:把分拆任务的结果进行合并
- 任务分割:首先 Fork/Join 框架需要把大的任务分割成足够小的子任务,如果子任务比较大的话还要对子任务进行继续分割
- 执行任务并合并结果:分割的子任务分别放到双端队列里,然后几个启动线程分别从双端队列里获取任务执行。子任务执行完的结果都放在另外一个队列里,启动一个线程从队列里取数据,然后合并这些数据。
3、ForkJoin框架的使用
在 Java 的 Fork/Join 框架中,使用两个类完成上述操作
ForkJoinTask
:我们要使用 Fork/Join 框架,首先需要创建一个 ForkJoin 任务。该类提供了在任务中执行 fork 和 join 的机制。通常情况下我们不需要直接集成 ForkJoinTask 类,只需要继承它的子类,Fork/Join 框架提供了两个子类:RecursiveAction
:用于没有返回结果的任务RecursiveTask
:用于有返回结果的任务,继承后可以实现递归(自己调自己)调用的任务
ForkJoinPool
:ForkJoinTask 需要通过 ForkJoinPool 来执行
3.1、ForkJoinTask
使用ForkJoin框架,需要创建一个ForkJoin的任务。因为ForkJoin框架为我们提供了RecursiveAction
和RecursiveTask
。我们只需要继承ForkJoin
为我们提供的抽象类的其中一个并且实现compute
方法。
RecursiveTask
在进行exec
之后会使用一个result
的变量进行接受返回的结果。而RecursiveAction
在exec
后是不会保存返回结果。
private static class SumTask extends RecursiveTask<Integer> {
private int threshold;
private static final int segmentation = 10;
private int[] src;
private int fromIndex;
private int toIndex;
public SumTask(int formIndex,int toIndex,int[] src){
this.fromIndex = formIndex;
this.toIndex = toIndex;
this.src = src;
this.threshold = src.length/segmentation;
}
@Override
protected Integer compute() {
if ((toIndex - fromIndex) < threshold){
int count = 0;
System.out.println(" from index = "+fromIndex
+" toIndex="+toIndex);
for(int i = fromIndex;i<=toIndex;i++){
count+=src[i];
}
return count;
} else {
int mid = (fromIndex+toIndex)/2;
SumTask left = new SumTask(fromIndex,mid,src);
SumTask right = new SumTask(mid+1,toIndex,src);
invokeAll(left, right);
return left.join() + right.join();
}
}
}
复制代码
3.2、ForkJoinPool
ForkJoinTask
需要通过 ForkJoinPool
来执行,分割的子任务也会添加到当前工作线程的双端队列中,进入队列的头部。当一个工作线程中没有任务时,会从其他工作线程的队列尾部获取一个任务(工作窃取)。
public static void main(String[] args) {
int[] array = MakeArray.createIntArray();
ForkJoinPool forkJoinPool= new ForkJoinPool();
SumTask sumTask = new SumTask(0, array.length - 1, array);
long start = System.currentTimeMillis();
forkJoinPool.invoke(sumTask);
System.out.println("The count is " + sumTask.join()
+" spend time:" + (System.currentTimeMillis()-start) + "ms");
}
复制代码
4、工作窃取(work-stealing)
任务进行分解成多个子任务的时候,每个子任务的处理时间都不一样。
例如分别有子任务A和B。如果子任务A的1ms的时候已经执行,子任务B还在执行。那么如果子任务A的线程等待子任务B完毕后在进行汇总,那么子任务A线程就会在浪费执行时间,最终的执行时间就以最耗时的子任务为准。
而如果子任务A执行完毕后,处理子任务B的任务,并且执行完毕后将任务归还给子任务B的线程。这样就可以提高执行效率,这就是工作窃取。而这就是双端队列的好处
5、使用中可能遇到的问题
- 使用这种多线程带来的数据共享问题,在处理结果的合并的时候如果涉及到数据共享的问题,我们尽可能使用JDK为我们提供的并发容器。
- 在使用JVM的时候我们要考虑OOM的问题,如果我们的任务处理时间非常耗时,并且处理的数据非常大的时候。会造成OOM。
- ForkJoin也是通过多线程的方式进行处理任务。那么我们不得不考虑是否应该使用ForkJoin。因为当数据量不是特别大的时候,我们没有必要使用ForkJoin。因为多线程会涉及到上下文的切换。所以数据量不大的时候使用串行比使用多线程快。
6、Fork/Join 框架的实现原理(了解)
ForkJoinPool
由 ForkJoinTask
数组和 ForkJoinWorkerThread
数组组成,ForkJoinTask
数组负责将存放以及将程序提交给 ForkJoinPool
,而ForkJoinWorkerThread
负责执行这些任务。
6.1、Fork 方法
ForkJoinPool
:分支合并池,类比线程池
Fork 方法的实现原理: 当我们调用 ForkJoinTask 的 fork 方法时,程序会把任务放在 ForkJoinWorkerThread 的 pushTask 的 workQueue 中,异步地执行这个任务,然后立即返回结果.
public final ForkJoinTask<V> fork(){
Thread t;
if ( (t = Thread.currentThread() ) instanceof ForkJoinWorkerThread )
( (ForkJoinWorkerThread) t).workQueue.push( this );
else
ForkJoinPool.common.externalPush( this );
return(this);
}
复制代码
pushTask 方法把当前任务存放在 ForkJoinTask 数组队列里。然后再调用ForkJoinPool 的 signalWork()方法唤醒或创建一个工作线程来执行任务。代码如下:
final void push(ForkJoinTask <? > task){
ForkJoinTask <? > [] a;
ForkJoinPool p;
int b = base, s = top, n;
if((a = array) != null){ // ignore if queue removed
int m = a.length - 1; // fenced write for task visibility
U.putOrderedObject(a, ((m & s) << ASHIFT) + ABASE, task);
U.putOrderedInt(this, QTOP, s + 1);
if((n = s - b) <= 1){
if((p = pool) != null) p.signalWork(p.workQueues, this); //执行
}
else if(n >= m) growArray();
}
}
复制代码
6.2、Join 方法
Join 方法的主要作用是阻塞当前线程并等待获取结果。让我们一起看看ForkJoinTask 的 join 方法的实现,代码如下:
public final V join(){
int s;
if((s = doJoin() & DONE_MASK) != NORMAL) reportException(s);
return getRawResult();
}
复制代码
它首先调用 doJoin 方法,通过 doJoin()方法得到当前任务的状态来判断返回什么结果,任务状态有 4 种:已完成(NORMAL)、被取消(CANCELLED)、信号(SIGNAL)和出现异常(EXCEPTIONAL)
- 如果任务状态是已完成,则直接返回任务结果。
- 如果任务状态是被取消,则直接抛出 CancellationException
- 如果任务状态是抛出异常,则直接抛出对应的异常
- 让我们分析一下 doJoin 方法的实现
private int doJoin(){
int s;
Thread t;
ForkJoinWorkerThread wt;
ForkJoinPool.WorkQueue
w;
return(s = status) < 0 ? s : ((t = Thread.currentThread()) instanceof ForkJoinWorkerThread) ? (w = (wt = (ForkJoinWorkerThread) t).workQueue).
tryUnpush(this) && (s = doExec()) < 0 ? s : wt.pool.awaitJoin(w, this, 0 L): externalAwaitDone();
}
final int doExec(){
int s;
boolean completed;
if((s = status) >= 0){
try{
completed = exec();
}
catch(Throwable rex){
return setExceptionalCompletion(rex);
}
if(completed) s = setCompletion(NORMAL);
}
return s;
}
复制代码
在 doJoin()方法流程如下:
- 首先通过查看任务的状态,看任务是否已经执行完成,如果执行完成,则直接返回任务状态;
- 如果没有执行完,则从任务数组里取出任务并执行。
- 如果任务顺利执行完成,则设置任务状态为 NORMAL,如果出现异常,则记录异常,并将任务状态设置为 EXCEPTIONAL。
6.3、Fork/Join 框架的异常处理
ForkJoinTask
在执行的时候可能会抛出异常,但是我们没办法在主线程里直接捕获异常,所以 ForkJoinTask 提供了 isCompletedAbnormally()
方法来检查任务是否已经抛出异常或已经被取消了,并且可以通过 ForkJoinTask 的getException
方法获取异常。
getException
方法返回 Throwable 对象,如果任务被取消了则返回CancellationException
。如果任务没有完成或者没有抛出异常则返回 null。
7、入门案例
场景: 生成一个计算任务,计算 1+2+3…+1000, 每 100 个数切分一个子任务
package com.forkjoin;
import java.util.concurrent.ExecutionException;
import java.util.concurrent.ForkJoinPool;
import java.util.concurrent.ForkJoinTask;
import java.util.concurrent.RecursiveTask;
/**
* 用的是算法中的二分查找法
*/
class MyTask extends RecursiveTask<Integer> {
//拆分值不能超过10,计算10以内运算
private static final Integer VALUE = 10;
private int begin; // 拆分开始
private int end; // 拆分结束
private int result; //返回结果
//创建有参数构造
public MyTask(int begin, int end) {
this.begin = begin;
this.end = end;
}
//拆分合并的过程
@Override
protected Integer compute() {
//判断相加两个数是否大于10
if ((end - begin) <= VALUE) {
//相加操作
for (int i = begin; i <= end; i++) {
result = result + i;
}
} else {//进一步拆分
//获取中间值
int middle = (begin + end) / 2;
//拆分左边
MyTask myTask01 = new MyTask( begin, middle );
//拆分右边
MyTask myTask02 = new MyTask( middle + 1, end );
//调用方法,拆分
myTask01.fork();
myTask02.fork();
//合并
result = myTask01.join() + myTask02.join();
}
return result;
}
}
public class ForkJoinDemo {
public static void main(String[] args) throws ExecutionException, InterruptedException {
//创建MyTask对象
MyTask myTask = new MyTask( 0, 100 );
//创建分支合并对象
ForkJoinPool forkJoinPool = new ForkJoinPool();
ForkJoinTask<Integer> forkJoinTask = forkJoinPool.submit( myTask );
//获取最终合并的结果
Integer result = forkJoinTask.get();
System.out.println(result);
//关闭池对象
forkJoinPool.shutdown();
}
}
复制代码