spark.eventLog.enabled | false | 执行spark job时是否需要输出eventLog到指定目录,建议开启 |
spark.eventLog.dir | /tmp/spark-events | eventLog输出的hdfs路径 |
spark.history.fs.update.interval | 10s | history server每隔一段时间就会检查一下eventLog日志目录下的文件是否发生变动,然后进行解析或者更新。如果想要更及时的查看到任务的最新信息,这个时间可以设置的短一些,但太短的周期也会加重服务器的负担。 |
spark.history.ui.maxApplication | intMaxValue | 限制web界面最多查询多少个任务信息。该值如果设置的太小,会导致webUI上看不到排在后面的一些任务。 |
spark.history.ui.port | 18080 | history server监听端口 |
spark.history.fs.cleaner.enabled | false | 是否开启过期eventLog日志清除,建议开启。否则eventLog就非常多 |
spark.history.fs.cleaner.interval | 1d | eventLog日志清除线程执行的周期。规定每隔多久检查一次eventLog并清除过期的eventLog日志 |
spark.history.fs.cleaner.maxAge | 7d | 规定eventLog的过期时间 |
spark.eventLog.compress | false | 是否压缩eventLog日志文件。 |
spark.history.retainedApplications | 50 | 在内存中缓存任务信息详情的个数,不建议设置的太大。后面就详细介绍这个缓存机制。 |
spark.history.fs.numReplayThreads | ceil(cpu核数/4) | 解析eventLog的线程数量 |