记一次MySQL semaphore crash的分析

记一次MySQL semaphore crash的分析

BA应该对InnoDB: Semaphore wait has lasted > 600 seconds. We intentionally crash the server because it appears to be hung. 一点都不陌生,MySQL后台线程srv_error_monitor_thread发现存在阻塞超过600s的latch锁时,如果连续10次检测该锁仍没有释放,就会触发panic避免服务持续hang下去。

 发生了什么

版本号:MySQL 5.5.40

日志中持续输出线程等待数据字典锁,位置是dict0dict.c line 305,等待时间超过了900s。

持有锁的线程是 139998697924352 ,其十六进制是7f53fca8a700。

–Thread 139998393616128 has waited at dict0dict.c line 305 for 934.00 seconds the semaphore:X-lock on RW-latch at 0x105a1b8 created in file dict0dict.c line 748a writer (thread id 139998697924352) has reserved it in mode  exclusivenumber of readers 0, waiters flag 1, lock_word: 0Last time read locked in file dict0dict.c line 302Last time write locked in file /pb2/build/sb_0-13157587-1410170252.03/rpm/BUILD/mysql-5.5.40/mysql-5.5.40/storage/innobase/dict/dict0dict.c line 305

 

上锁线程 139998697924352 的事务信息,查询数据字典表的操作。

—TRANSACTION 0, not started updating table statistics:MySQL thread id 14075, OS thread handle 0x7f53fca8a700, query id 110414021 21.14.5.139 jzjkusrSELECT ROUND(SUM(DATA_LENGTH+INDEX_LENGTH+DATA_FREE)/1024/1024/1024) AS MY_DB_TOTAL_SIZE FROM information_schema.TABLES

检查下持锁线程 139998697924352 是否存在其他锁等待。

发现线程 139998697924352 ,self-lock 在 btr0sea.c line 1134,该锁结构和 AHI 相关。

–Thread 139998697924352 has waited at btr0sea.c line 1134 for 934.00 seconds the semaphore:X-lock (wait_ex) on RW-latch at 0x1eb06448 created in file btr0sea.c line 178a writer (thread id 139998697924352) has reserved it in mode  wait exclusivenumber of readers 1, waiters flag 1, lock_word: ffffffffffffffffLast time read locked in file btr0sea.c line 1057Last time write locked in file /pb2/build/sb_0-13157587-1410170252.03/rpm/BUILD/mysql-5.5.40/mysql-5.5.40/storage/innobase/btr/btr0sea.c line 1134

接下来看下两处锁结构分别在哪个函数内:

dict0dict.c line 305在dict_table_stats_lock函数内

btr0sea.c line 1134在btr_search_drop_page_hash_index函数内

什么情况会调用这些函数?

启用 innodb_table_monitor,输出日志时调用 dict_table_stats_lock 上 X 锁,本案例未开启。

启用 innodb_stats_on_metadata 时,查询数据字典表会触发统计信息的更新操作,会调用 dict_table_stats_lock 上 X 锁。这与持锁线程的事务信息匹配。

Adaptive hash index(AHI) 是 InnoDB 用来加速索引页查找的 hash 表结构。当页面访问次数满足一定条件后,这个页面的地址将存入一个 hash 表中,减少 B 树查询的开销。

MySQL 5.5 版本 AHI 是由全局锁 btr_search_latch 维护 hash 表修改的一致性。

InnoDB buffer pool 状态显示 free buffer 基本保持0空闲。InnoDB buffer pool 驱逐数据页时,会调用 btr_search_drop_page_hash_index 函数,从 AHI 中清理该数据页。

—————————–BUFFER POOL AND MEMORY—————————–Total memory allocated 17582522368; in additional pool allocated 0

Dictionary memory allocated 4289681

Buffer pool size   1048576

Free buffers       0

Database pages     1040831

Old database pages 384193

Modified db pages  0

 

小结 

AHI 的全局锁 btr_search_latch 经常会是竞争热点影响性能,5.7版本后有所改善与 InnoDB buffer 一样做了多实例拆分。本案例在开启 Innodb_stats_on_metadata 参数,查询元数据信息时触发统计信息更新,上锁数据字典,阻塞了了大量业务操作,又由于 buffer pool 空间不足,导致表驱逐旧页触发 AHI 的 btr_search_latch 锁竞争,最终导致信号量超时 crash。

Shakker Shakker

多功能AI图像生成和编辑平台

Shakker 103 查看详情 Shakker

>>   彩蛋   <<

在动辄几兆的日志中分析 Semaphore crash,寻找锁、线程、事务之间的关系,相当令人抓狂的。借助 sed、awk、grep 三大法宝,虽有效率提升,但仍不够高效。

为了偷懒写了一个小程序,帮助DBA快速梳理出这些关系。

它的用法是这样的:

hongbin@MBP ~> mysqldba doctor -f /Users/hongbin/workbench/mysqld_safe.log

目标版本,查代码时找对应版本:

MySQL Server Version: ‘5.7.16-log’

日志中出现的 semaphore crash 次数和 mysql 启动次数,如果启动次数大于 crash 次数说明可能是正常启动或其他 crash 造成:

********** MySQL service start count **********

MySQL Semaphore crash -> 3 times [“2018-08-13 23:12:18” “2018-08-14 12:13:43” “2018-08-16 13:42:36”]

MySQL Service start -> 3 times [“2018-08-13 23:12:59” “2018-08-14 12:15:20” “2018-08-16 13:46:37”]

线程主要在等待哪些 RW-latch,内容包括:锁位置、出现次数、线程 id (出现次数),重点关注出现次数较多的:

********** Which thread waited lock **********row0purge.cc:861 ->  58  140477266503424:(57) 140617703745280:(1)gi.cc:14791 ->   1  140477035656960:(1)trx0undo.ic:171 ->   1  140617682765568:(1)ha_innodb.cc:14791 -> 620  140617389913856:(58) 140202719565568:(58) 140202716903168:(57) 140477029533440:(56) 140617407219456:(55) 140477035656960:(52) 140477035124480:(29) 140477108467456:(29) 140477025539840:(26) 140477031130880:(25) 140477027669760:(22) 140617634944768:(21) 140617634146048:(21) 140477019948800:(21) 140477026604800:(20) 140477022078720:(18) 140477018883840:(16) 140477038585600:(15) 140477028734720:(10) 140477022877440:(9) 140477034325760:(1) 140477031663360:(1)srv0srv.cc:1968 -> 208  140477276993280:(185) 140617714235136:(23)ha_innodb.cc:5510 -> 601  140617398167296:(57) 140617409615616:(55) 140617392043776:(53) 140477110597376:(52) 140617395771136:(50) 140617636275968:(45) 140617632548608:(40) 140617634146048:(33) 140617639675648:(32) 140617397102336:(28) 140617639409408:(23) 140617635743488:(21) 140617637811968:(18) 140617638610688:(16) 140617399232256:(12) 140617638344448:(10) 140617638078208:(10) 140477033793280:(10) 140477029267200:(10) 140617397368576:(9) 140617635211008:(6) 140617393641216:(5) 140617637545728:(3) 140617402693376:(2) 140477037254400:(1)dict0dict.cc:1239 -> 136  140477122623232:(50) 140617392842496:(35) 140202726487808:(26) 140477123688192:(12) 140477038851840:(5) 140477030065920:(4) 140617634412288:(4)row0trunc.cc:1835 ->   1  140477109798656:(1)

上述锁被哪些写线程持有 X 锁,重点关注出现次数较多的:

********** Which writer threads block at **********

140616681907968 ->   1  trx0undo.ic:171:(1)140477173069568 -> 243  srv0srv.cc:1968:(185) row0purge.cc:861:(57) row0trunc.cc:1835:(1)140617682765568 ->  29  srv0srv.cc:1968:(23) ha_innodb.cc:5510:(5) row0purge.cc:861:(1)

写线程对应的事务信息,也可能存在日志记录没有输出事务信息:

********** These writer threads trx state **********MySQL thread id 83874, OS thread handle 140477173069568, query id 13139674 10.0.1.146 aml deleting from reference tables

统计写线程持有 S 锁情况:

****These writer threads at last time reads locked ****

140477173069568 -> 243  row0purge.cc:861:(243)140617682765568 ->  24  row0purge.cc:861:(24)140616681907968 ->   1  trx0undo.ic:190:(1)

统计写线程持有 X 锁情况:

****These writer threads at last time write locked ****

140477173069568 -> 243  dict0stats.cc:2366:(243)140617682765568 ->  24  dict0stats.cc:2366:(24)140616681907968 ->   1  buf0flu.cc:1198:(1)

通过事后日志分析,有可能出现线程的事务信息没有输出到日志中的情况,无法获知事务具体执行了什么操作。应对这种情况,小程序加入了事中采集事务信息。

用法是这样的:

hongbin@MBP ~> mysqldba -uxxx -pxxx doctor -w

它会监视目标 mysql 的错误日志,一旦出现“a writer (thread id 140616681907968) has reserved it in mode” 关键字就查询 ps 中的事务信息,并保存下来。

以上只是小程序一个用法,作为一个为DBA服务的小程序,还有其他功能等你去发现。欢迎与我交流你的想法。

更多SQL的相关技术文章,请访问SQL教程栏目进行学习!

以上就是记一次MySQL semaphore crash的分析的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1078903.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月2日 17:32:39
下一篇 2025年12月2日 17:33:00

相关推荐

  • html如何读取数据库

    答案:使用 HTML 本身无法读取数据库,需要借助后端编程语言。步骤:连接到数据库。执行查询以获取数据。处理查询结果。在 HTML 中显示获取的数据。 使用 HTML 读取数据库 HTML(超文本标记语言)本身无法直接与数据库交互。要实现 HTML 中的数据库操作,需要使用后端编程语言,如 PHP、…

    2025年12月22日
    000
  • 利用HTML读取数据库之技巧与方法

    为了使用 html 从数据库读取数据,有几种方法:使用 ajax 调用,通过异步通信以无缝方式检索数据;使用 websockets,建立持久连接以实现实时数据传输;并且将响应格式化为 json,以便轻松客户端解析和处理。 利用 HTML 读取数据库:技巧与方法 简介 在 Web 应用程序中,从数据库…

    2025年12月22日
    000
  • HTML与数据库查询的协同效应

    html 与数据库查询相辅相成,赋能构建交互式且数据驱动的 web 应用程序:html 表单处理:收集用户输入并从数据库检索数据,响应用户操作。ajax 数据请求:异步发送数据库查询,不刷新页面,更新数据。数据库驱动的搜索功能:用户输入查询,应用程序使用 sql 查询数据库返回相关结果。 HTML …

    2025年12月22日
    000
  • 数据库查询与HTML整合

    通过以下步骤,您可以将数据库查询结果整合到 html 页面中:建立数据库连接。执行查询并存储结果。遍历查询结果并将其显示在 html 元素中。 使用 PHP 将数据库查询与 HTML 整合 整合数据库查询结果和 HTML 页面可使您创建动态和交互式 Web 应用程序。本文将引导您完成使用 PHP 执…

    2025年12月22日
    000
  • 深入解析HTML如何读取数据库

    html 无法直接读取数据库,但可以通过 javascript 和 ajax 实现。其步骤包括建立数据库连接、发送查询、处理响应和更新页面。本文提供了利用 javascript、ajax 和 php 来从 mysql 数据库读取数据的实战示例,展示了如何在 html 页面中动态显示查询结果。该示例使…

    2025年12月22日
    000
  • html怎么获取数据库数据

    在 HTML 中,无法直接访问数据库。需要使用后端技术(如 PHP、JavaScript 或 Python)从数据库中获取数据。这些技术可以通过建立连接、准备查询、执行查询和检索数据来完成此操作。 如何用 HTML 获取数据库数据 引入数据库 在 HTML 中,无法直接访问数据库。需要使用后端技术,…

    2025年12月22日
    000
  • html设置下拉框

    html下拉框是一种常用的网页表单控件,用户可以从下拉菜单中选择一个选项。html提供了多种方式来设置下拉框,包括使用标准的html下拉框元素以及使用javascript或css等高级技术来自定义下拉框的外观和功能。 一、标准HTML下拉框设置 最基本的HTML下拉框使用和元素来创建。下面是一个简单…

    好文分享 2025年12月21日
    000
  • javascript历史记录API是什么_如何操作浏览器的历史栈?

    History API 通过 history.pushState() 和 replaceState() 实现无刷新 URL 变更与历史管理,配合 popstate 事件监听导航,支持 SPA 的前进/后退体验;需注意同源限制、state 持久化及刷新兜底。 JavaScript 历史记录 API(H…

    2025年12月21日
    000
  • javascript如何实现表单验证_有哪些最佳实践

    JavaScript表单验证核心是提交前快速反馈错误以提升体验,但不可替代后端校验;需结合原生API、解耦规则、无障碍支持及前后端协同。 JavaScript 表单验证的核心目标是:在用户提交前快速反馈错误,提升体验,同时不能替代后端校验。实现上应兼顾即时性、可访问性与健壮性,而非仅靠 onsubm…

    2025年12月21日
    000
  • javascript如何实现拖放功能_相关的事件有哪些

    关键拖放事件包括源元素的dragstart、drag、dragend和目标元素的dragenter、dragover、dragleave、drop;需设置draggable=”true”,在dragstart中setData,在dragover中preventDefault,…

    2025年12月21日 好文分享
    000
  • Javascript如何实现函数组合_如何构建管道数据流?

    函数组合(compose)从右到左执行,如f(g(h(x)));管道(pipe)从左到右执行,更符合阅读顺序;二者均通过reduce或reduceRight实现,依赖纯函数与一元化设计以保障可靠性。 函数组合和管道数据流的核心是把多个小函数像积木一样串起来,让数据从一个函数“流”向下一个,最终得到结…

    2025年12月21日
    000
  • javascript如何实现算法_如何用js解决常见的算法问题

    JavaScript算法核心是理解本质、选合适数据结构、写可读可维护代码,强调灵活性与工程实用性,而非极致性能。 JavaScript 实现算法,核心在于理解问题本质、选择合适的数据结构,并用清晰的逻辑写出可读、可维护、可测试的代码。它不追求极致性能(如 C++),但强调灵活性与工程实用性。 掌握基…

    2025年12月21日
    000
  • javascript如何操作iframe_如何安全地进行跨域通信

    JavaScript操作iframe需分同源与跨域:同源时用contentWindow直接访问DOM或调用函数,须等load事件;跨域唯一安全方式是postMessage,需校验origin、约定消息结构并支持双向通信。 JavaScript 操作 iframe 的核心在于正确访问其内容,而跨域通信…

    2025年12月21日
    000
  • 如何实现JavaScript验证表单_前端验证的最佳实践是什么

    JavaScript表单验证核心是提升体验与保障基础数据质量,但不可替代后端验证;需结合HTML5原生属性与JS增强交互,确保提示清晰可访问,并始终信任后端校验。 JavaScript 表单验证的核心目标是提升用户体验和保障基础数据质量,但它不能替代后端验证。前端验证应快速反馈、友好提示、不干扰正常…

    2025年12月21日
    000
  • javascript中的Promise如何解决回调地狱_async和await又是如何简化代码

    Promise通过链式调用打破回调地狱,async/await进一步使异步代码同步化;前者用.then()扁平化嵌套并统一.catch()错误处理,后者以try/catch实现直观控制流,配合Promise.all()优化并行请求,共同提升可读性与可维护性。 Promise 通过链式调用(.then…

    2025年12月21日
    000
  • javascript如何实现错误边界_如何捕获组件错误

    错误边界是React class组件特性,需实现getDerivedStateFromError和componentDidCatch方法来捕获子组件渲染错误并降级UI,无法捕获事件、异步或SSR错误。 JavaScript 本身无法直接实现 React 的“错误边界”(Error Boundary)…

    2025年12月21日
    000
  • 什么是JavaScript顶层Await_它如何在模块中使用

    顶层 await 是 ES2022 正式标准,允许在 ESM 模块顶层直接使用 await,使模块变为异步模块并按序等待 Promise 完成,仅适用于模块环境,不可用于脚本或 CommonJS。 顶层 await 是指在 ECMAScript 模块(ESM)的最外层作用域(即模块顶层)直接使用 a…

    2025年12月21日
    000
  • javascript如何实现屏幕录制_MediaStream API怎样使用

    JavaScript屏幕录制依赖getDisplayMedia获取屏幕流、MediaRecorder录制,需用户手势触发并处理兼容性与权限问题。 JavaScript 实现屏幕录制主要依靠 MediaStream API 中的 navigator.mediaDevices.getDisplayMed…

    2025年12月21日
    000
  • javascript的Cookie是什么_如何设置和读取用户信息?

    Cookie是浏览器提供的客户端小型文本存储机制,用于保存登录状态等数据,由服务器通过Set-Cookie设置、浏览器自动回传,具大小限制、作用域控制及HttpOnly等安全属性。 Cookie 是浏览器提供的一种小型文本存储机制,用于在客户端(用户电脑)保存少量数据,比如登录状态、用户偏好或会话标…

    2025年12月21日
    000
  • javascript回调地狱是什么_如何避免代码嵌套过深

    回调地狱指多层嵌套异步回调导致代码难读难维护,如连续 readFile 嵌套;可用 Promise 链式调用、async/await、函数拆分与守卫语句优化。 JavaScript回调地狱(Callback Hell)指的是多层嵌套的异步回调函数导致代码难以阅读、维护和调试。它通常表现为一层套一层的…

    2025年12月21日
    000

发表回复

登录后才能评论
关注微信