【工作】解决ACPI Error: No handler for Region错误导致linux系统自动重启

Dell服务器频繁重启、IBM服务器频繁重启、惠普服务器频繁重启、R410R420R710R720

报错现象:

线上有台服务器运行了了大概半年多,突然收到报警服务器重启了,可以确定不是人为操作导致的重启,以下是排查过程。
服务器品牌:Dell PowerEdge R720
系统版本:CentOS Linux release 7.1.1503
内核版本:3.10.0-229.el7.x86_64
查看messages日志报错信息如下:
# tail -1000 /var/log/messages | grep -i error
20170824173356
查看dmesg报错信息如下:
# dmesg | grep -E “error|Error|ERROR|fail|Fail|FAIL”
20170824173452

报错原因:

由于BIOS中开启了中断重映射,在ERST(芯片集中的错误校验表)校验时发生错误,导致高级配置电源管理模块无法处理IPMI驱动请求,预存数据到内存发生错误,造成kernel寻找了空指针。
网上说这是kernel的一个bug,它不会立即造成重启,会在服务器200多天内没重启过就会自动重启,但是我觉得这种说法不准确,线上有台服务器和这台无论是硬件品牌型号,系统版本、内核版本都是一样的,但是运行了440多天了也没有重启过,目前不知道具体是什么原因会诱发这个问题。
发现有问题的内核版本:
Centos 6:2.6.32-220.el6.x86_64 、2.6.32-431.el6.x86_64 、2.6.32-71.el6.x86_64
Centos 7:3.10.0-229.el7.x86_64

解决方法:

方法一:

# vi /boot/grub/grub.conf
在kernel一行最后加上添加 intremap=off 或者 intremap=no_x2apic_optout
然后重启服务器即可。
参数解释:
intremap={on,off,nosid,no_x2apic_optout}
on:(默认值)开启中断重映射,BIOS中默认开启
off:关闭中断重映射
nosid:重映射时不对SID(Source ID)做检查
no_x2apic_optout:无视BIOS的设置,强制禁用x2APIC特性,主要用于解决某些对x2APIC支持有缺陷的BIOS导致的故障

方法二:(此方法会导致多核变单核,生成环境不要使用)

# vi /boot/grub/grub.conf
在kernel一行最后加上acpi=off noacip,关闭高级电源管理接口如下:
kernel … acpi=off noacip
然后重启服务器即可。

方法三:更新系统内核

# yum install kernel
我升级到3.10.0-514.26.2.el7内核后,问题解决。关于内核升级的方法,请参看本站文章:
参考文章:
http://www.mamicode.com/info-detail-1724724.html
http://www.bubuko.com/infodetail-1781180.html

免责声明:务必仔细阅读

  • 本站为个人博客,博客所转载的一切破解、path、补丁、注册机和注册信息及软件等资源文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。

  • 本站为非盈利性站点,打赏作为用户喜欢本站捐赠打赏功能,本站不贩卖软件等资源,所有内容不作为商业行为。

  • 本博客的文章中涉及的任何解锁和解密分析脚本,仅用于测试和学习研究,禁止用于商业用途,不能保证其合法性,准确性,完整性和有效性,请根据情况自行判断.

  • 本博客的任何内容,未经许可禁止任何公众号、自媒体进行任何形式的转载、发布。

  • 博客对任何脚本资源教程问题概不负责,包括但不限于由任何脚本资源教程错误导致的任何损失或损害.

  • 间接使用相关资源或者参照文章的任何用户,包括但不限于建立VPS或在某些行为违反国家/地区法律或相关法规的情况下进行传播, 博客对于由此引起的任何隐私泄漏或其他后果概不负责.

  • 请勿将博客的任何内容用于商业或非法目的,否则后果自负.

  • 如果任何单位或个人认为该博客的任何内容可能涉嫌侵犯其权利,则应及时通知并提供身份证明,所有权证明至admin@proyy.com.我们将在收到认证文件后删除相关内容.

  • 任何以任何方式查看此博客的任何内容的人或直接或间接使用该博客的任何内容的使用者都应仔细阅读此声明。博客保留随时更改或补充此免责声明的权利。一旦使用并复制了博客的任何内容,则视为您已接受此免责声明.

您必须在下载后的24小时内从计算机或手机中完全删除以上内容.

您使用或者复制了本博客的任何内容,则视为已接受此声明,请仔细阅读


更多福利请关注一一网络微信公众号或者小程序

一一网络微信公众号
打个小广告,宝塔服务器面板,我用的也是,很方便,重点是免费的也能用,没钱太难了,穷鬼一个,一键全能部署及管理,送你3188元礼包,点我领取https://www.bt.cn/?invite_code=MV9kY3ZwbXo=


一一网络 » 【工作】解决ACPI Error: No handler for Region错误导致linux系统自动重启

发表评论

发表评论

一一网络-提供最优质的文章集合

立即查看 了解详情