iis服务器助手广告广告
返回顶部
首页 > 资讯 > 前端开发 > JavaScript >Node.js 子线程Crash 问题的排查方法
  • 784
分享到

Node.js 子线程Crash 问题的排查方法

2024-04-02 19:04:59 784人浏览 八月长安
摘要

前言:昨天碰到了一个 worker_threads crash 的问题,最终经过阅读源码和调试找到了具体原因。不得不说,阅读源码是解决问题的非常有效的方法。 代码例子如下。 inde

前言:昨天碰到了一个 worker_threads crash 的问题,最终经过阅读源码和调试找到了具体原因。不得不说,阅读源码是解决问题的非常有效的方法。

代码例子如下。

index.js:

const addon = require.resolve('./build/Release/addon.node');
// this makes addon not be unloaded
require(addon);
const { Worker } = require('worker_threads');
new Worker(`require('${addon}').start();`, {eval: true});

event_loop.cc:

#include "event_loop.h"
void on_close(uv_handle_t *handle){
    delete handle;
}
void cleanup(void* data){
    uv_close((uv_handle_t *)data, on_close);
}
void Start(const Napi::CallbackInfo &args){
    Napi::Env env = args.Env();
    uv_loop_t *loop;
    v8::Isolate* isolate = v8::Isolate::GetCurrent();
    napi_get_uv_event_loop(env, &loop);
    uv_prepare_t* prepare_handle = new uv_prepare_t;
    uv_prepare_init(loop, prepare_handle);
    uv_unref((uv_handle_t *)prepare_handle);
    uv_prepare_start(prepare_handle, [](uv_prepare_t *handle) {});
    node::AddEnvironmentCleanupHook(isolate, cleanup, prepare_handle);
}
Napi::Object Initialize(Napi::Env env, Napi::Object exports){
    exports.Set(Napi::String::New(env, "start"), Napi::Function::New(env, Start));
    return exports;
}
NODE_API_MODULE(NODE_GYP_MODULE_NAME, Initialize)

总的来说就是我需要在 worker_threads 里使用 addon,然后在子线程退出时发生了 segmentation fault,但是在主线程里是没问题的(完整代码可参考 https://GitHub.com/theanarkh/test_worker_thread)。首先分析下上面代码的过程,当在 JS 层执行 start 的时候,就会往 loop 里面插入一个任务,并通过 AddEnvironmentCleanupHook 注册了一个回调,这个回调在线程退出时会被执行,执行完 start 后线程就退出了,所以这时候 AddEnvironmentCleanupHook 的回调 cleanup 会被执行,cleanup 里调用 uv_close 关闭 handle,接着在线程真正退出时会执行一次 uv_run 处理 uv_close 的回调,从而释放内存。问题发生在执行 uv_close 的回调时出现了 crash。通过调试发现调用 uv_close 时传入的回调函数地址是 A,但是最终执行时地址变成了 B,而 B 是一个非法地址,从而导致了 crash。出现这个问题时,我就开始调试,尝试找出哪里修改了这个地址,但是无果,最终靠灵光一现,想到了动态链接库被卸载的问题,然后通过打断点发现果然如此。

下面通过 node.js 的源码来分析这个问题。

WorkerThreadData data(this);
  {
    Locker locker(isolate_);
    Isolate::Scope isolate_scope(isolate_);
    SealHandleScope outer_seal(isolate_);
    DeleteFnPtr<Environment, FreeEnvironment> env_;
    // 离开作用域时执行 env_.reset();
    auto cleanup_env = OnScopeLeave([&]() {
      isolate_->CancelTerminateExecution();
      env_.reset();
    });
    // 初始化子线程
    {
      HandleScope handle_scope(isolate_);
      Local<Context> context;
      {
        TryCatch try_catch(isolate_);
        context = NewContext(isolate_);
      }
      Context::Scope context_scope(context);
      {
        env_.reset(CreateEnvironment(
            data.isolate_data_.get(),
            context,
            std::move(argv_),
            std::move(exec_argv_),
            static_cast<EnvironmentFlags::Flags>(environment_flags_),
            thread_id_,
            std::move(inspector_parent_handle_)));
      }
      {
        Mutex::ScopedLock lock(mutex_);
        if (stopped_) return;
        this->env_ = env_.get();
      }
      {
        if (LoadEnvironment(env_.get(), StartExecutionCallback{}).IsEmpty())
          return;
      }
    }
    // 进入子线程事件循环
    {
      Maybe<int> exit_code = SpinEventLoop(env_.get());
      Mutex::ScopedLock lock(mutex_);
      if (exit_code_ == 0 && exit_code.IsJust()) {
        exit_code_ = exit_code.FromJust();
      }
    }
  }

上面是子线程执行时的核心逻辑,当子线程退出时,OnScopeLeave 的第一个函数参数会被执行,从而执行 env_.reset(),接着执行 FreeEnvironment。

void FreeEnvironment(Environment* env) {
  Isolate* isolate = env->isolate();
  Isolate::DisallowjavascriptExecutionScope disallow_js(isolate,
      Isolate::DisallowJavascriptExecutionScope::THROW_ON_FaiLURE);
  {
    HandleScope handle_scope(isolate);  // For env->context().
    Context::Scope context_scope(env->context());
    SealHandleScope seal_handle_scope(isolate);
    env->set_stopping(true);
    env->stop_sub_worker_contexts();
    // 执行 AddEnvironmentCleanupHook 回调
    env->RunCleanup();
    RunAtExit(env);
  }
  MultiIsolatePlatfORM* platform = env->isolate_data()->platform();
  if (platform != nullptr)
    platform->DrainTasks(isolate);
  // 删除 env 对象
  delete env;
}

FreeEnvironment 首先通过来 RunCleanup 执行通过 AddEnvironmentCleanupHook 注册的回调,回到开始的代码就是执行 uv_close 往 loop 里插入一个回调。接着 FreeEnvironment 删除了 env 对象,接下来看 env 的析构函数中相关的代码。

if (!is_main_thread()) {
    for (binding::DLib& addon : loaded_addons_) {
      addon.Close();
    }
  }

如果当前是子线程,析构函数会调用 addon.Close() 关闭动态链接库,也就是 addon,当 addon 的引用数为 0 就会被卸载。因为只有子线程里用到了 addon 所以 addon 会被卸载。这时候 uv_close 回调函数的地址就被修改了。env 处理完之后,接着是 WorkerThreadData 被析构,WorkerThreadData 析构函数中会再执行一次 uv_run 处理剩下的任务。

uv_run(&loop_, UV_RUN_ONCE);

所以 uv_close 的回调就会被执行,因为这时候回调函数的地址被修改成非法的了,所以导致了 crash。除了这个问题外,子线程退出前还会检查 loop,如果还有任务没有被关闭也会导致线程 crash。

void CheckedUvLoopClose(uv_loop_t* loop) {
  if (uv_loop_close(loop) == 0) return;
  PrintLibuvHandleInformation(loop, stderr);
  fflush(stderr);
  // Finally, abort.
  CHECK(0 && "uv_loop_close() while having open handles");
}

再看 uv_loop_close:

int uv_loop_close(uv_loop_t* loop) {
  QUEUE* q;
  uv_handle_t* h;
  if (uv__has_active_reqs(loop))
    return UV_EBUSY;
  QUEUE_FOREACH(q, &loop->handle_queue) {
    h = QUEUE_DATA(q, uv_handle_t, handle_queue);
    if (!(h->flags & UV_HANDLE_INTERNAL))
      return UV_EBUSY;
  }
  uv__loop_close(loop);
  if (loop == default_loop_ptr)
    default_loop_ptr = NULL;
  return 0;
}

总结:这个问题排查了很长的时间,最终靠一个切入点成功找到了问题,并通过源码深入了解了这个过程。源码,是学习一门技术非常重要的资料。

到此这篇关于Node.js 子线程Crash 问题的排查的文章就介绍到这了,更多相关Node.js 子线程Crash内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Node.js 子线程Crash 问题的排查方法

本文链接: https://www.lsjlt.com/news/152658.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Node.js 子线程Crash 问题的排查方法
    前言:昨天碰到了一个 worker_threads crash 的问题,最终经过阅读源码和调试找到了具体原因。不得不说,阅读源码是解决问题的非常有效的方法。 代码例子如下。 inde...
    99+
    2024-04-02
  • Node.js子线程Crash问题如何排查
    这篇文章主要介绍“Node.js子线程Crash问题如何排查”,在日常操作中,相信很多人在Node.js子线程Crash问题如何排查问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Node.js子线程Crash...
    99+
    2023-07-02
  • java线程卡死问题如何排查
    java线程卡死问题的排查可以遵循以下步骤:1. 查看线程堆栈:使用jstack命令或者在IDE中查看线程堆栈,定位到卡死的线程。查...
    99+
    2023-08-24
    java
  • SimpleDateFormat线程安全问题排查详解
    目录一. 问题现象二. 原因排查三. 原因分析四. 解决方案一. 问题现象 运营部门反馈使用小程序配置的拉新现金红包活动二维码,在扫码后跳转至404页面。 二. 原因排查 首先,检查...
    99+
    2022-11-13
    SimpleDateFormat线程安全排查 SimpleDateFormat线程安全
  • kubernetesk8s常用问题排查方法
    目录Pod 的那些状态镜像拉取失败启动后容器崩溃容器被驱逐总结Pod 的那些状态 使用 K8s 部署我们的服务之后,为了观察 Pod 是否成功,我们都会使用下面这个命令查询 Pod ...
    99+
    2024-04-02
  • Java子线程调用RequestContextHolder.getRequestAttributes()方法问题详解
    相信很多开发过程中都用过RequestContextHolder.getRequestAttributes(),没错,我也经常用,但今天出现了问题,获取到的实例是空的 原因是因为我新...
    99+
    2024-04-02
  • linux主机宕机排查问题方法
    1 排查思路 1.1 查看宕机的时间记录和历史登陆还有重启时间 1)查看历史重启 last rebootlast -F |grep crash 2)查看历史异常登录用户 last 1.2 首先查看系统日志 linux下的/var/log/下...
    99+
    2023-09-23
    linux 服务器 运维
  • Oracle锁表问题排查方法详解
    Oracle锁表问题排查方法详解 在使用Oracle数据库时,经常会遇到数据库表被锁住的情况,这会导致其他用户无法访问该表,从而影响系统的正常运行。本文将详细介绍Oracle锁表问题的...
    99+
    2024-03-10
    oracle 排查 锁表 数据丢失
  • Dubbo线程池事故排查的方法步骤
    这篇文章主要介绍“Dubbo线程池事故排查的方法步骤”,在日常操作中,相信很多人在Dubbo线程池事故排查的方法步骤问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Dubbo线...
    99+
    2024-04-02
  • go语言程序cpu过高问题排查的方法详解
    目录一、前言二、问题排查过程2.1 通过top查看高cpu的进程pid2.2 通过top查看高cpu的线程tid2.3 通过dlv附加到进程,分析线程/协程cpu过载的堆栈2.4 在...
    99+
    2023-05-16
    go cpu占用高 go cpu过高排查 go性能分析工具
  • python编程项目中线上问题排查与解决
    目录问题描述问题分析问题解决总结文 | 極光 来源:Python 技术「ID: pythonall」 最近开发中遇到个小问题,因为业务上的设计存在问题,导致数据库表总是被锁...
    99+
    2024-04-02
  • 线上排查问题的利器Btrace怎么用
    这篇文章主要介绍了线上排查问题的利器Btrace怎么用,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。Btrace 是一个安全,可以动态跟踪 java 程序的一种工具。他的操作...
    99+
    2023-06-17
  • Linux SysOps SSH登录问题排查与解决方法
    在解决Linux SysOps SSH登录问题时,可以采取以下排查和解决方法:1. 确认SSH服务是否正常运行:使用命令`sudo ...
    99+
    2023-10-09
    Linux
  • 怎么排查与解决python编程项目中线上问题
    这篇文章主要讲解了“怎么排查与解决python编程项目中线上问题”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么排查与解决python编程项目中线上问题”吧!问题描述最近因为公司业务需要,...
    99+
    2023-06-25
  • Redis中的BigKey问题排查与解决方法是什么
    这篇文章主要介绍“Redis中的BigKey问题排查与解决方法是什么”,在日常操作中,相信很多人在Redis中的BigKey问题排查与解决方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Redis中的...
    99+
    2023-07-05
  • tomcat 启动时卡住问题排查及解决方法
    正常项目无法访问(Linux 服务器),启动tomcat时卡在下图位置,项目无法启动。 1、先检查tomcat日志、项目日志没有报错信息,且没再产生新的日志信息。 2、jdk、tom...
    99+
    2023-03-14
    tomcat 启动卡住 tomcat报错
  • java生产问题排查及解决方法是什么
    Java生产问题排查及解决方法主要包括以下几个步骤: 收集信息:当出现问题时,首先需要收集相关信息,包括错误日志、异常堆栈信息、...
    99+
    2023-10-27
    java
  • MySQL子查询中order by不生效问题的解决方法
    一个偶然的机会,发现一条SQL语句在不同的MySQL实例上执行得到了不同的结果。 问题描述 创建商品表product_tbl和商品操作记录表product_operation_tb...
    99+
    2024-04-02
  • sql server卡慢问题定位与排查的方法是什么
    这篇“sql server卡慢问题定位与排查的方法是什么”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下...
    99+
    2023-03-08
    sqlserver
  • springboot项目启动慢的问题排查方式
    目录springboot项目启动慢的问题排查1.最开始查看的启动日志,是在输出:2. 启动项目,打印日志级别改为debug,查看更详细信息如何优化SpringBoot的项目的启动速度...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作