« 上一篇下一篇 »

数据库MySQL服务器购买,数据库MySQL案例:一次单核CPU占用过高问题的处理,数据库CPU占用100%

  最近有客户反馈,top的例行检查结果中,一个CPU的占用一直是100%。实际上现场有4个CPU,而且这个服务器是mysql专属服务器。

我的第一反应是io_thread一类的参数设置有问题,检查以后发现read和write的thread设置都是4,这和CPU数一致,因此可以断定这并不是单颗CPU占用过高的问题。

接下来需要确认MySQL究竟有没有利用到多核CPU,这个时候需要的工具叫做pidstat,命令如下:

pidstat -u -t -p 18158
得到的结果如下图所示:

 

可以看出其实mysqld是可以利用到多核CPU的,那么此时可以得到一个推断:

某个CPU上做的事情太占资源了

一般这种最占资源的工作一定会在INNODB_TRX里留下一些端倪,因此检查一下:

 

反复的检查TRX,发现mysql在不停的执行这个SQL,只是where条件里的值发生了变化,至此我可以推断出业务应该是写了一个循环来遍历一个list,然后对每个item都执行update操作。

应该是写了这么一段代码在处理问题:

for (item in list) {
   update_db(item);
}
检查这个表并没有索引,给where条件中的列加上索引,再次检查CPU的占用,发现现在的占用已经降低到了16%左右,虽然还是很高,但是已经实际上解决了该问题。

这里我有点感慨,DBA并不是你会写SQL就可以干的,DBA实际上是运维人员的一种,运维要掌握多少种技能恐怕只有运维小伙伴们清楚,其实技术难度并不比写Java代码低。DBA掌握多少种检查问题的手段,DBA面对问题时能不能第一时间找准方向,这都是经验和功力的展现。

 

解决原理:

   MySQL负载居高不下,如果打开了慢查询日志功能,最好的办法就是针对慢查询日志里执行慢的sql语句进行优化,如果sql语句用了大量的group by等语句,union联合查询等肯定会将mysql的占用率提高。所以就需要优化sql语句
除了优化sql语句外,也可以做一些配置上的优化。在mysql中运行show proceslist;出现下面回显结果:1.查询有大量的Copying to tmp table on disk状态明显是由于临时表过大导致mysql将临时表写入硬盘影响了整体性能。


1.Mysql中tmp_table_size的默认值仅为16MB,在当前的情况下显然是不够用的。mysql> show variables like "%tmp%";+-------------------+----------+| Variable_name | Value |+-------------------+----------+| max_tmp_tables | 32 || slave_load_tmpdir | /tmp || tmp_table_size | 16777216 || tmpdir | /tmp |+-------------------+----------+4 rows in set (0.00 sec)
解决办法:调整临时表大小1)进mysql终端命令修改,加上global,下次进mysql就会生效mysql> set global tmp_table_size=33554432;Query OK, 0 rows affected (0.00 sec)
再次登陆mysqlmysql> show variables like "%tmp%";+-------------------+----------+| Variable_name | Value |+-------------------+----------+| max_tmp_tables | 32 || slave_load_tmpdir | /tmp || tmp_table_size | 33554432 || tmpdir | /tmp |+-------------------+----------+4 rows in set (0.01 sec)
2)my.cnf配置文件修改[root@www ~]# vim my.cnf.....tmp_table_size = 32M
重启mysql[root@www ~]# /etc/init.d/mysqld restart


2.show processlist;命令的输出结果显示了有哪些线程在运行,可以帮助识别出有问题的查询语句。比如下面结果:Id User Host db Command Time State Info 207 root 192.168.1.25:51718 mytest Sleep 5 NULL 先简单说一下各列的含义和用途,第一列,id,不用说了吧,一个标识,你要kill一个语句的时候很有用。user列,显示单前用户,如果不是root,这个命令就只显示你权限范围内的sql语句。host列,显示这个语句是从哪个ip的哪个端口上发出的。呵呵,可以用来追踪出问题语句的用户。db列,显示这个进程目前连接的是哪个数据库 。command列,显示当前连接的执行的命令,一般就是休眠(sleep),查询(query),连接(connect)。time列,此这个状态持续的时间,单位是秒。state列,显示使用当前连接的sql语句的状态,很重要的列,后续会有所有的状态的描述,请注意,state只是语句执行中的某一个状态,一个sql语句,已查询为例,可能需要经过copying to tmp table,Sorting result,Sending data等状态才可以完成,info列,显示这个sql语句,因为长度有限,所以长的sql语句就显示不全,但是一个判断问题语句的重要依据。常见问题:一般是睡眠连接过多,严重消耗mysql服务器资源(主要是cpu, 内存),并可能导致mysql崩溃。
解决办法 :在mysql的配置my.cnf文件中,有一项wait_timeout参数设置.即可设置睡眠连接超时秒数,如果某个连接超时,会被mysql自然终止。 wait_timeout过大有弊端,其体现就是MySQL里大量的SLEEP进程无法及时释放,拖累系统性能,不过也不能把这个指设置的过小,否则你可能会遭遇到“MySQL has gone away”之类的问题。通常来说,把wait_timeout设置为10小时是个不错的选择,但某些情况下可能也会出问题,比如说有一个CRON脚本,其中两次SQL查询的间隔时间大于10秒的话,那么这个设置就有问题了(当然,这也不是不能解决的问题,你可以在程序里时不时mysql_ping一下,以便服务器知道你还活着,重新计算wait_timeout时间):
MySQL服务器默认的“wait_timeout”是28800秒即8小时,意味着如果一个连接的空闲时间超过8个小时,MySQL将自动断开该连接。然而连接池却认为该连接还是有效的(因为并未校验连接的有效性),当应用申请使用该连接时,就会导致下面的报错:The last packet successfully received from the server was 596,688 milliseconds ago.mysql> show variables like 'wait_timeout';+---------------+-------+| Variable_name | Value |+---------------+-------+| wait_timeout | 28800 |+---------------+-------+1 row in set (0.00 sec)
28800seconds,也就是8小时。如果在wait_timeout秒期间内,数据库连接(java.sql.Connection)一直处于等待状态,mysql就将该连接关闭。这时,你的Java应用的连接池仍然合法地持有该连接的引用。当用该连接来进行数据库操作时,就碰到上述错误。可以将mysql全局变量wait_timeout的缺省值改大。查看mysql手册,发现对wait_timeout的最大值分别是24天/365天(windows/linux)。
比如将其改成30天mysql> set global wait_timeout=124800;Query OK, 0 rows affected (0.00 sec)

 小结:

Mysql占用CPU过高的时候,该从哪些方面下手进行优化?占用CPU过高,可以做如下考虑:1)一般来讲,排除高并发的因素,还是要找到导致你CPU过高的哪几条在执行的SQL,show processlist语句,查找负荷最重的SQL语句,优化该SQL,比如适当建立某字段的索引;2)打开慢查询日志,将那些执行时间过长且占用资源过多的SQL拿来进行explain分析,导致CPU过高,多数是GroupBy、OrderBy排序问题所导致,然后慢慢进行优化改进。比如优化insert语句、优化group by语句、优化order by语句、优化join语句等等;3)考虑定时优化文件及索引;4)定期分析表,使用optimize table;5)优化数据库对象;6)考虑是否是锁问题;7)调整一些MySQL Server参数,比如key_buffer_size、table_cache、innodb_buffer_pool_size、innodb_log_file_size等等;8)如果数据量过大,可以考虑使用MySQL集群或者搭建高可用环境。9)可能由于内存latch(泄露)导致数据库CPU高10)在多用户高并发的情况下,任何系统都会hold不住的,所以,使用缓存是必须的,使用memcached或者redis缓存都可以;11)看看tmp_table_size大小是否偏小,如果允许,适当的增大一点;12)如果max_heap_table_size配置的过小,增大一点;13)mysql的sql语句睡眠连接超时时间设置问题(wait_timeout)14)使用show processlist查看mysql连接数,看看是否超过了mysql设置的连接