hadoop任务常见的OOM问题及解决方案

原创韩余之家技术

2021年12月24日 16:00

总篇123篇 2021年第14篇

前言

本文主要讲述了在使用MapReduce计算框架时发生Java.lang.OutOfMemory（OOM)的故障及其处理方式。通过本文可以了解到OOM问题在MapReduce框架发生的四个具体位置，以及不同位置的解决方案，给予广大读友们类似问题的解决思路。

介绍

正如大家所知的，Hadoop早已成为了大数据行业的事实标准。作为一个可靠，可扩展的分布式项目Hadoop的核心组成模块有YARN，HDFS和MapReduce，其中YARN是用于作业调度和集群资源管理的框架，HDFS为海量数据提供了存储服务，MapReduce为海量数据提供计算框架。本文我们主要介绍在使用MapReduce计算框架时发生java.lang.OutOfMemoryError的处理方式。

先简单的介绍一下java.lang.OutOfMemoryError错误，当 Java 虚拟机由于内存不足而无法分配对象并且垃圾收集器无法回收已使用的内存时java虚拟机就会抛出java.lang.OutOfMemoryError 错误。造成 OOM错误的原因大体可以分为两类：

1、内存泄漏：

内存泄漏是指程序申请内存后，无法释放已申请的内存。通常的解决方法是通过java分析工具定位到泄漏代码位置。通过优化代码来避免内存泄漏。常用的分析工具有：MAT,JProfile

2、内存溢出：

即内存没有泄漏，内存中的对象确实都需要存活。这时我们首先需要检查JVM堆参数（-Xmx和-Xms）将JVM堆参数调大，先让程序正常运行。然后检查程序代码判断对象存活周期长是否合理，通过优化程序减少对象内存的占用。

武林秘笈（解决办法）

在生产环境中无论是内存泄漏还是内存溢出原因造成的服务故障，首先要做的最重要事情是保服务，使服务依旧可以正常对外提供服务，这时就需要我们平台管理员介入，在资源允许的前提下调整增加JVM参数重启服务来缓解OOM问题。然后监控服务在服务发生故障前重启服务避免OOM。

Hadoop框架是以java为主要开发语言的，如果你使用过Java语言那么你一定也遇到过OOM堆内存溢出的错误。接下来我们来详细看看MapReduce分布式计算框架运行过程中可能出现OOM问题的位置和每个位置相应的可配置参数，如果遇到了OOM问题并且需要保证服务正常运行，那么就可以通过管理员介入调节JVM参数来保障服务运行。

1、hadoop客户端

在Hadoop客户端提交Jar包时遇到报错OOM问题截图：

java.lang.OutOfMemoryError: Java heap space
        at java.util.Arrays.copyOf(Arrays.java:3236)
        at sun.misc.Resource.getBytes(Resource.java:117)
        at java.net.URLClassLoader.defineClass(URLClassLoader.java:462)
        at java.net.URLClassLoader.access$100(URLClassLoader.java:73)
        at java.net.URLClassLoader$l.run(URLClassLoader.java:368)
        at java.net.URLClassLoader$l.run(URLClassLoader.java:362)
        at java.security.AccessController.doPrivileged(Native Method)
        at java.net.URLClassLoader.findClass(URLClassLoader.java:361)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
        at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
        at org.apache.hadoop.hdfs.DistributedFileSystem.initialize(DistributedFileSystem.java:171)
        at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:3303)
        at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:124)
        at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:3352)
        at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:3320)
        at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:479)
        at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:227)
        at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:463)
        at org.apache.hadoop.fs.Path.getFileSystem(Path.java:365)
        at org.apache.hadoop.map reduce.lib.input.FilelnputFormat.addInputPath(FileInputFormat.java :542)
        at org.apache.hadoop.examples.WordCount.main(WordCount.java:83)
        at sun.reflect.NativeMethodAccessorlmpl.invoke©(Native Method)
        at sun.reflect.NativeMethodAccessorlmpl.invoke(NativeMethodAccessorlmpl.java:62)
        at sun.reflect.DelegatingMethodAccessorlmpl.invoke(DelegatingMethodAccessorlmpl.java:43)
        at java.lang.reflect.Method.invoke (Method.java:498)
        at org.apache.hadoop.util.ProgramDriver$ProgramDescription.invoke(ProgramDriver.java:71)
        at org.apache.hadoop.util.ProgramDriver.run(ProgramDriver.java:144)
        at org.apache.hadoop.examples .Exampl.eDriver.main(ExampleDriver, java:74)
        at sun.reflect.NativeMethodAccessorlmpl.invoke©(Native Method)
        at sun.reflect.NativeMethodAccessorlmpl.invoke(NativeMethodAccessorlmpl.java:62)
        at sun.reflect.DelegatingMethodAccessorlmpl. invoke(DelegatingMethodAccessorlmpl.java:43)

若遇到上图问题，可以直接通过修改hadoop客户端的hadoop-env.sh文件中HADOOP_CLIENT_OPTS来永久的修改客户端HADOOP_CLIENT_OPTS JVM参数，也可以通过命令行临时修改：

export HADOOP_CLIENT_OPTS="-Xmx128m $HADOOP_CLIENT_OPTS"

2、APPMaster阶段

APPMaster启动运行时遇到内存不足问题：

2021-12-13 14:46:27,465 ERROR [Listener at 0.0.0.0/30046]org.apache,hadoop.mapreduce.v2.app.MRAppMaster:Error starting MRAppMaster java.lang.OutOfMemoryError:GC overhead limit exceeded
        at java.util.Arrays.copyOfRange(Arrays,java:3664)
        at java.lang.String.<init>(String,java:207)
        at java.lang.StringBuilder.toString(StringBuilder.java:407)
        at org.apache,hadoop.conf.Configuration$Parser.handleEndElement(Configuration,java:3246)
        at org.apache,hadoop.conf.Configuration$Parser.parseNext(Configuration,java:3331)
        at org.apache,hadoop.conf.Configuration$Parser.parse(Configuration,java :3114)
        at org.apache,hadoop.conf.Configuration.loadResource(Configuration,java:3007)
        at org.apache,hadoop.conf.Configuration.loadResources(Configuration,java:2973)
        at org.apache,hadoop.conf.Configuration.getProps(Configuration,java:2848)
        at org.apache,hadoop.conf.Configuration,get(Configuration.java:1460)
        at org.apache,hadoop.security,authorize.ServiceAuthorizationManager.refreshWithLoadedConfiguration(ServiceAuthorizationManager.java:161)
        at org.apache,hadoop.security,authorize.ServiceAuthorizationManager.refresh(ServiceAuthorizationManager.java:150)
        at org.apache,hadoop.ipc.Server.refreshServiceAcl(Server,java :664)
        at org.apache,hadoop.mapreduce.v2.app.client.MRClientService.refreshServiceAcls(MRClientService.java:156)
        at org.apache,hadoop.mapreduce.v2.app.client.MRClientService.serviceStart(MRClientService.java:131)
        at org.apache,hadoop.service.AbstractService.start(AbstractService.java:194)
        at org.apache,hadoop.mapreduce.v2.app.MRAppMaster.serviceStart(MRAppMaster.java:1290)
        at org.apache,hadoop.service.AbstractService.start(AbstractService.java:194)
        at org.apache,hadoop.mapreduce.v2.app.MRAppMaster$6.run(MRAppMaster.java:1761)
        at java,security.AccessController.doPrivileged(Native Method)
        at javax.security,auth.Subject.doAs(Subject, java:422)
        at org.apache,hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1730)
        at org.apache,hadoop.mapreduce.v2.app.MRAppMaster.initAndStartAppMaster(MRAppMaster.java:1757)
        at org.apache,hadoop.mapreduce.v2.app.MRAppMaster.main(MRAppMaster.java:1691)
2021-12-13 14:46:29,478 INFO [Listener at 0.0.0.0/30046]org.apache,hadoop.util.ExitUtil:Exiting with status 1:java.lang.OutOfMemoryError:GC overhead limit exceeded

若遇上述问题可修改客户端配置文件mapred-site.xml

##为AM分配的内存
<property>
        <name>yarn.app.mapreduce.am.resource.mb</name>
        <value>516</value>
</property>
##给AM分配的JVM启动参数
<property>
        <name>yarn.app.mapreduce.am.command-opts</name>
        <value>-Xmx2048m</value>
</property>

3、Map阶段

Map阶段运行时报出OOM问题截图:

2021-12-10 15:22:10, 475 ERROR [main] org. apache, hadoop. mapred. YarnChild: Error running child : java. lang. OutOfMemoryError: Java heap space
            at org.apache,hadoop.mapred.MapTask$MapOutputBuffer.init(MapTask. java:1000)
            at org.apache,hadoop.mapred.MapTask.createSortingCollector(MapTask. java:408)
            at org.apache,hadoop.mapred.MapTask.access$100(MapTask. java :82)
            at org.apache,hadoop.mapred.MapTask$NewOutputCollector.<init>(MapTask. java :710)
            at org.apache,hadoop.mapred. MapTask.runNewMapper(MapTask. java :782)
            at org.apache,hadoop.mapred. MapTask.run(MapTask. java:347)
            at org.apache,hadoop.mapred.YarnChild$2.run(YarnChiId. java:174)
            at java,security.AccessController.doPrivileged(Native Method)
            at javax.ecurity,auth.Subject.doAs(Subject, java:422)
            at org.apache,hadoop.security.UserGroupInformation.doAs(UserGroupInformation. java:1730)
            at org.apache,hadoop.mapred.YarnChiId.main(YarnChiId. java:168)

若遇上述问题可修改客户端配置文件mapred-site.xml

<property>
        <name>mapreduce.map.memory.mb</name>
        <value>2048</value>
</property>
#Map Jvm启动参数
<property>
        <name>mapreduce.map.java.opts</name>
        <value>-Xmx1024m</value>
        <final>true</final>
</property>

4、Reduce阶段

Reduce阶段运行时报出OOM问题截图:

2021-12-10 15:09:30,740 ERROR[main]org.apache,hadoop.mapred.YarnChild:Error running child:java.lang.OutOfMemoryError:Java heap space
            at java.nio.CharBuffer.allocate(CharBuffer.java:335)
            at java.nio.charset.CharsetDecoder.decode(CharsetDecoder.java:795)
            at org.apache,hadoop.io.Text,decode(Text,java:412)
            at org.apache,hadoop.io.Text,decode(Text,java:389)
            at org.apache,hadoop.io.Text.toString(Text,java:280)
            at org.apache,hadoop.examples.WordCount1$IntSumReducer.reduce(WordCount1.java:68)
            at org.apache,hadoop.examples.WordCount1$IntSumReducer.reduce(WordCount1.java:54)
            at org.apache,hadoop.mapreduce.Reducer,run(Reducer,java:171)
            at org.apache,hadoop.mapred.Task$NewCombinerRunner.combine(Task,java:1912)
            at org.apache,hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1662)
            at org.apache,hadoop.mapred.MapTask$MapOutputBuffer.flush(MapTask.java:1505)
            at org.apache,hadoop.mapred.MapTask$NewOutputCollector.close(MapTask.java:735)
            at org.apache,hadoop.mapred.MapTask.closeQuietly(MapTask.java:2076)
            at org.apache,hadoop.mapred.MapTask.runNewMapper(MapTask.java:809)
            at org.apache,hadoop.mapred.MapTask.run(MapTask.java:347)
            at org.apache,hadoop.mapred.YarnChild$2.run(YarnChiId.java:174)
            at java,security.AccessController.doPrivileged(Native Method)
            at javax.security,auth.Subject.doAs(Subject,java:422)
            at org.apache,hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1730)
            at org.apache,hadoop.mapred.YarnChiId.main(YarnChiId.java:168)

若遇上述问题可修改客户端配置文件mapred-site.xml

<property>
        <name>mapreduce.reduce.memory.mb</name>
        <value>2048</value>
</property>
#Reduce Jvm启动参数
<property>
        <name>mapreduce.reduce.java.opts</name>
        <value>-Xmx1024m</value>
        <final>true</final>
</property>

MR在遇到OOM问题时通过上述修改配置可以很大程度上使作业暂时运行起来，然后开发人员就可以在不影响业务的前提下通过程序日志和专业的Java分析工具来排查优化程序代码了。

作者简介

韩余

任职于云平台部、云基础平台研发团队、大数据开发工程师

阅读更多

▼ 关注「之家技术」，获取更多技术干货 ▼

▼ 关注「之家技术」视频号，遇见更多技术大咖 ▼

继续滑动看下一个