iis服务器助手广告广告
返回顶部
首页 > 资讯 > 数据库 >MySQL字符集不一致导致性能下降25%,你敢信?
  • 648
分享到

MySQL字符集不一致导致性能下降25%,你敢信?

MySQL字符集不一致导致性能下降25%,你敢信? 2015-01-13 06:01:21 648人浏览 无得
摘要

故事是这样的: 我在对Mysql进行性能测试时,发现CPU使用率接近100%,其中80%us, 16%sys,3%wa,iOStat发现磁盘iops2000以下,avgqu-sz不超过3,%util最高70%,看来瓶颈不在磁盘IO

MySQL字符集不一致导致性能下降25%,你敢信?

故事是这样的:

我在对Mysql进行性能测试时,发现CPU使用率接近100%,其中80%us, 16%sys,3%wa,iOStat发现磁盘iops2000以下,avgqu-sz不超过3,%util最高70%,看来瓶颈不在磁盘IO上面,而在CPU上。sys部分使用率有点高。

于是我果断使用perf top查看,赫然排在前面的2个,是my_ismbchar_utf8mb4和my_charpos_mb。

my_ismbchar_utf8mb4顾名思义,很明显是与字符集相关的;my_charpos_mb暂时不清楚。

 

 

经验告诉我,这很不正常!通常来说,消耗CPU最多的应该是数据页相关的操作才对啊。

我快速打开mysql internal文档搜索,没找到有价值的信息。

 

哦,你想要知道这个故事的前情提要?抱歉,我刚刚只说了压测,按照国际惯例,我这就贴出环境和版本信息:

硬件:8核16GB,200GB SSD,腾讯云虚拟机
操作系统版本:Centos release 6.9 (Final)
Mysql版本:5.7.28-log MySQL CommUnity Server (GPL),二进制方式安装
MySQL参数:innodb_buffer_pool_size = 10752M
          innodb_flush_log_at_trx_commit = 1
          sync_binlog = 1
          character-set-server = utf8mb4
sysbench版本:1.0.19
sysbench参数:sysbench /usr/share/sysbench/oltp_read_write.lua   --tables=3 --table-size=1000000  --mysql-passWord=*** --mysql-user=root --mysql-Socket=/usr/local/mysql5.7.28/mysql.sock --threads=128 --time=1800 run 

server的字符集是utf8mb4,接下来检查一下db和表的字符集吧:

 

 

 

 

 

 嗯嗯,看起来一切都是那么的正常……

server, DB, table的字符集都一致,现在只剩下sysbench的嫌疑最大!

可是,要怎么检查sysbench已经连接到MySQL的那些会话的字符集设置呢?

我的sysbench命令没有显式地指定字符集;show processlist没有character_set_client信息,infORMation_schema库和mysql库里面也没有与character_set_client信息。

sysbench --help 也没有字符集相关的选项和参数;https://GitHub.com/akopytov/sysbench/blob/master/src/drivers/mysql/drv_mysql.c  sysbench源码中也没有字符集相关的设置。

看来,sysbench连接MySQL的字符集设置,应该默认是latin1,应该是这里的字符集设置不一致导致的。

 

BUT,对于技术问题,我不能光靠猜测啊!我一定要刨根问底,查它个水落石出……

 

 

源码:

吃CPU最多的是my_ismbchar_utf8mb4函数对吧?那就先到源码中搜它:

在strings/ctype-utf8.c 中定义的:

static uint
my_ismbchar_utf8mb4(const CHARSET_INFO *cs, const char *b, const char *e)
{
  int res= my_valid_mbcharlen_utf8mb4(cs, (const uchar*)b, (const uchar*)e);
  return (res > 1) ? res : 0;
}

它本身没有复杂的逻辑,只是调用了my_valid_mbcharlen_utf8mb4,然后对返回值res 进行判断,如果>1,就返回res,否则返回0。

行,那我再看看my_valid_mbcharlen_utf8mb4吧,

static int
my_valid_mbcharlen_utf8mb4(const CHARSET_INFO *cs __attribute__((unused)),
                           const uchar *s, const uchar *e)
{
  uchar c;

  if (s >= e)
    return MY_CS_TOOSMALL;

  c= s[0];
  if (c < 0xf0)
    return my_valid_mbcharlen_utf8mb3(s, e);

  if (c < 0xf5)
  {
    if (s + 4 > e) 
      return MY_CS_TOOSMALL4;

    

    if (!(IS_CONTINUATION_BYTE(s[1]) &&
          IS_CONTINUATION_BYTE(s[2]) &&
          IS_CONTINUATION_BYTE(s[3]) &&
          (c >= 0xf1 || s[1] >= 0x90) &&
          (c <= 0xf3 || s[1] <= 0x8F)))
      return MY_CS_ILSEQ;

    return 4;
  }

  return MY_CS_ILSEQ;
}

这个函数对输入的字符进行比对,判断是utf8mb3还是utf8mb4。utf8mb3?以前没听说过啊!上知乎一搜,原来还有这么一段有趣的历史 ☜

不过,仅仅看这个函数的代码,是不会相信它居然会吃掉7%以上的CPU的。我也不信!

好吧,先做个perf record看看:

#第1步,查看mysqld进程的pid
ps -ef | grep mysqld 
#第2步,将mysqld进程相关的cpu
-clock事件及调用堆栈记录起来,默认保存在perf.data文件中 perf record -e cpu-clock -g -p 14345
#第3步,用perf script工具对perf.data进行解析 perf script
-i perf.data &> perf.unfold
#第4步,下载一个集漂亮、强大于一身的工具: git clone Https:
//github.com/brendangregg/FlameGraph.git

#第5步:将perf.unfold中的符号进行折叠 ./FlameGraph/stackcollapse-perf.pl perf.unfold &> perf.folded
#第6步,生成火焰图 .
/FlameGraph/flamegraph.pl perf.folded > perf.svg

效果就是这样的↓  可以看出,my_ismbchar_utf8mb4占比确实最高,达到了7.47%

 

 

 

去跟踪调用堆栈,可以发现是在sqlsql_lex.cc中的get_text()函数中,调用了宏use_mb和my_ismbchar来检查字符集。

这2个宏同样都是调用ismbchar() - detects whether the given string is a multi-byte sequence。   utf8mb4中的mb,全称就是multi-byte

static char *get_text(Lex_input_stream *lip, int pre_skip, int post_skip)
{
  uchar c,sep;
  uint found_escape=0;
  const CHARSET_INFO *cs= lip->m_thd->charset();

  lip->tok_bitmap= 0;
  sep= lip->yyGetLast();                        // String should end with this
  while (! lip->eof())
  {
    c= lip->yyGet();
    lip->tok_bitmap|= c;
    {
      int l;
      if (use_mb(cs) &&
          (l = my_ismbchar(cs,
                           lip->get_ptr() -1,
                           lip->get_end_of_query()))) {
        lip->skip_binary(l-1);
        continue;
      }
    }
    if (c == "\" &&
        !(lip->m_thd->variables.sql_mode & MODE_NO_BACKSLASH_ESCAPES))
    {                    // Escaped character
      found_escape=1;
      if (lip->eof())
    return 0;
      lip->yySkip();
    }
// 省略若干行……
  }
  return 0;                    // unexpected end of query
}

 

 

 解决方法:

上面说了一大通,可能有点云里雾里,抱歉哈,我能力有限,不能把它解释得更通俗一些。

简而言之,就是证明了确实是字符集不一致,导致MySQL在语法解析的时候,对每一个用户输入的字符(MySQL关键字除外),都要进行若干次字符集检查,所以才会发生my_ismbchar_utf8mb4吃掉很多CPU资源这样一个故事 。

要解决就很简单啦:保持character_set_server  &&  database characterset  &&  table characterset  &&  Client characterset一致!

我就是因为忽略了sysbench的字符集设置,所以才把自己给坑了。

既然sysbench没有提供字符集相关的选项和参数,那我就把MySQL的字符集统一成latin1来测吧(也可以去修改sysbench的mysql driver源码,让它支持设置字符集,但是我不擅长C……)

 

 

最后总结:

调整字符集之前,QPS最高只能压到73797,统一字符集之后,QPS达到了98272。  73797/98272*100%=75.09%

 

再来看看TPS,调整字符集之前,TPS最高只能压到3689,统一字符集之后,TPS达到了3689。  73797/4913*100%=75.08%

 

 

 多么痛的领悟……

 

您可能感兴趣的文档:

--结束END--

本文标题: MySQL字符集不一致导致性能下降25%,你敢信?

本文链接: https://www.lsjlt.com/news/4967.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • sql怎么查看表的索引
    通过查询系统表,可以获取表的索引信息,包括索引名称、是否唯一、索引类型、索引列和行数。常用系统表有:mysql 的 information_schema.statistics、postg...
    99+
    2024-05-14
    mysql oracle
  • sql怎么查看索引
    您可以使用 sql 通过以下方法查看索引:show indexes 语句:显示表中定义的索引列表及其信息。explain 语句:显示查询计划,其中包含用于执行查询的索引。informat...
    99+
    2024-05-14
  • sql怎么查看存储过程
    如何查看 sql 存储过程的源代码:使用 show create procedure 语句直接获取创建脚本。查询 information_schema.routines 表的 routi...
    99+
    2024-05-14
  • sql怎么查看视图表
    要查看视图表,可以使用以下步骤:使用 select 语句获取视图中的数据。使用 desc 语句查看视图的架构。使用 explain 语句分析视图的执行计划。使用 dbms 提供...
    99+
    2024-05-14
    oracle python
  • sql怎么查看创建的视图
    可以通过sql查询查看已创建的视图,具体步骤包括:连接到数据库并执行查询select * from information_schema.views;查询结果将显示视图的名称、...
    99+
    2024-05-14
    mysql
  • sql怎么用循环语句实现查询
    可以通过 do 和 while 语句创建循环,并在循环内执行查询,详细步骤包括:定义循环变量设置循环初始值循环执行查询更新循环变量执行查询循环退出条件 SQL 中使用循环语句实现查询 ...
    99+
    2024-05-14
  • sql怎么用代码修改表中数据
    通过 sql 代码修改表中数据的方法包括:修改单个记录:使用 update 语句设置列值并指定条件。修改多条记录:在 update 语句中指定多个条件来修改满足条件的所有记录。增加新列:...
    99+
    2024-05-14
  • sql怎么用命令创建数据库
    在 sql 中使用 create database 命令创建新数据库,其语法包含以下步骤:指定数据库名称。指定数据库文件和日志文件的位置(可选)。指定数据库大小、最大大小和文件增长(可选...
    99+
    2024-05-14
  • sql怎么用身份证提取年龄
    sql 中提取身份证号码中的年龄的方法:提取出生日期部分(身份证号码中第 7-14 位);使用 to_date 函数转换为日期格式;使用 extract 函数计算与当前日期之间的年差。 ...
    99+
    2024-05-14
  • sql怎么看字段长度
    有两种方法可查看 sql 中的字段长度:使用 information_schema 架构,其中包含元数据信息,可用于查询字段长度。使用内建函数,如 length(),其适用于字符串数据类...
    99+
    2024-05-14
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作