日志实践推荐

背景

软件系统生产稳定，依靠着各种高可用、高吞吐、高性能的设计。一旦出现生产问题，常常需要线上定位问题。

日志则是必备的，问题定位利器。常常出现线上问题，我们都可以通过日志精确定位。同时在开发过程中，由于极长的调用链难以快速定位问题或难以复现时，它是极好的利器。

日志级别

一个项目各个log级别的定义应该是清楚明确的，是每个开发人员所遵循的；

即使是TRACE或者DEBUG级别的日志，也应该有一定的规范，要保证除了开发人员自己以外，包括测试人员和运维人员都可以方便地通过日志定位问题；

FATAL

表示需要立即被处理的系统级错误。

当该错误发生时，表示服务已经出现了某种程度的不可用，系统管理员需要立即介入。

这属于最严重的日志级别，因此该日志级别必须慎用，如果这种级别的日志经常出现，则该日志也失去了意义。

通常情况下，一个进程的生命周期中应该只记录一次FATAL级别的日志，即该进程遇到无法恢复的错误而退出时。

当然，如果某个系统的子系统遇到了不可恢复的错误，那该子系统的调用方也可以记入FATAL级别日志，以便通过日志报警提醒系统管理员修复；

ERROR

该级别的错误也需要马上被处理，但是紧急程度要低于FATAL级别。

当ERROR错误发生时，已经影响了用户的正常访问。从该意义上来说，实际上 ERROR错误和FATAL错误对用户的影响是相当的。

FATAL相当于服务已经挂了，而ERROR相当于好死不如赖活着，然而活着却无法提供正常的服务，只能不断地打印ERROR日志。

特别需要注意的是，ERROR和FATAL都属于服务器自己的异常，是需要马上得到人工介入并处理的。

而对于用户自己操作不当，如请求参数错误等等，是绝对不应该记为ERROR日志的；

WARN

该日志表示系统可能出现问题，也可能没有，这种情况如网络的波动等。

对于那些目前还不是错误，然而不及时处理也会变为错误的情况，也可以记为WARN日志，例如一个存储系统的磁盘使用量超过阀值，或者系统中某个用户的存储配额快用完等等。

对于WARN级别的日志，虽然不需要系统管理员马上处理，也是需要即使查看并处理的。

因此此种级别的日志也不应太多，能不打WARN级别的日志，就尽量不要打；

INFO

该种日志记录系统的正常运行状态，例如某个子系统的初始化，某个请求的成功执行等等。

通过查看INFO级别的日志，可以很快地对系统中出现的 WARN,ERROR,FATAL错误进行定位。

INFO日志不宜过多，通常情况下，INFO级别的日志应该不大于TRACE日志的10%；

DEBUG or TRACE

这两种日志具体的规范应该由项目组自己定义，该级别日志的主要作用是对系统每一步的运行状态进行精确的记录。

通过该种日志，可以查看某一个操作每一步的执行过程，可以准确定位是何种操作，何种参数，何种顺序导致了某种错误的发生。

可以保证在不重现错误的情况下，也可以通过DEBUG（或TRACE）级别的日志对问题进行诊断。

需要注意的是，DEBUG日志也需要规范日志格式，应该保证除了记录日志的开发人员自己外，其他的如运维，测试人员等也可以通过 DEBUG（或TRACE）日志来定位问题；

在出错时，日志中包含尽量多的有用上下文信息

为什么可以这么做？

日志过多大家伙会说影响性能，但是值得指出的是出错是小概率分支。如果是出错是大概率分支那，打日志以外操作更会成为瓶颈！

多打日志减少支持时间，比起开发所用的实现时间，线上和线下的排查/支持要花费很多时间；

别吞噬异常！

抓住异常没有书写人和响应日志，将导致难以定位。
    @Override
    public UserAmountStat getUserYestodayStat(Long userId, String day) throws GlobalServiceException {
        // TODO Auto-generated method stub
        try {
            UserAmountStat stat = userAmountStatMapper.getUserYestodayStat(userId, day);
            if (stat == null) {
                stat = new UserAmountStat();
                stat.setBet(0l);
                stat.setPrize(0l);
                stat.setBonus(0l);
            }
            return stat;
        } catch (Exception e) {
            // TODO: handle exception
            throw new GlobalServiceException(e);
        }
    }

此处推荐的需要在日志中记录的内容

在系统启动或初始化时记录重要的系统初始化参数
记录系统运行过程中的所有的错误
记录系统运行过程中的所有的警告
在持久化数据修改时记录修改前和修改后的值
记录系统各主要模块之间的请求和响应
重要的状态变化（如对系统白名单的修改等）
系统中一些长期执行的任务的执行进度
服务信息：接口、方法、版本等等
如果是超时，配置的超时时间，本次处理所用的时间，是Server端超时还Client超时？
重试的次数，本次重试的是第几次（fail over）

RequestID

将一个请求的整个处理流程和唯一的requestID关联起来，requestID规则另行定义。

日志输出级别

在设置日志输出级别时，推荐如下：

开发、测试环境打开DEBUG；
线上生产环境保证设置为WARN级别；

关于日志分类

日志从功能来说，可分为诊断日志、统计日志、审计日志。

诊断日志：

请求入口和出口
外部服务调用和返回
资源消耗操作: 打开文件等
容错行为：譬如云硬盘的副本修复操作
程序异常：譬如数据库无法连接
后台操作：清理程序
启动、关闭、配置加载
抛出异常时，不记录日志

统计日志：

用户访问统计
计费日志（如记录用户交易流水日志，格式较为严格，便于统计）

审计日志：

管理操作（类似于登录信息记录）

关于日志格式

日志格式一定要统一，不能任由开发人员的喜好来。举例来说，对于NOS视频截图超时的ERROR日志，有以下几种方式打印：

第一种：
logger.error(“Gearman timeout exception for request ” + getRequestID() + ” value: ” + value, e);
第二种：
logger.error(“RequestID: ” + getRequestID() + “, Error Message: Gearman timeout exception: ” + e);
第三种：
logger.error(getErrorMessage(getRequestID(), getErrorMessage(), e));

第一种方式打印日志即是开发人员按照自己的喜好来的，这种方法带来的问题是：

系统中日志格式不统一，不利于自动化处理
有些日志可能只有开发人员自己才能看懂
代码规范性不好

而第三种方式，通过一个函数来规范日志格式，所有开发人员便可以通过该接口实现统一的日志。

关于日志语义

日志书写语义一定要明确，定义明确语义的异常类信息，在此列举linux环境下两个报错信息作为示例；

[root@ip-172-31-1-43 ~]# cd /file
-bash: cd: /file: 没有那个文件或目录
[root@ip-172-31-1-43 ~]# cd build-public-ult_6.0-2015-09-02-17_6d3c3ee51a.tar.gz
-bash: cd: build-public-ult_6.0-2015-09-02-17_6d3c3ee51a.tar.gz: 不是目录

我们可以看到同样是cd命令，在遇到不同的错误行为时，分别针对性的给出了报错信息。

posted on 2016-10-29 12:56 潦草白纸阅读(635) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

潦草白纸