<div dir="ltr">Hi,<div><br></div><div>In one of my node glustershd process is killed due to OOM and this happened only in one node out of 40 node cluster.</div><div><br></div><div>Node running on Ubuntu 16.04.2.</div><div><br></div><div>dmesg output:</div><div><br></div><div><div>[Mon Apr 24 17:21:38 2017] nrpe invoked oom-killer: gfp_mask=0x26000c0, order=2, oom_score_adj=0</div><div>[Mon Apr 24 17:21:38 2017] nrpe cpuset=/ mems_allowed=0</div><div>[Mon Apr 24 17:21:38 2017] CPU: 0 PID: 12626 Comm: nrpe Not tainted 4.4.0-62-generic #83-Ubuntu</div><div>[Mon Apr 24 17:21:38 2017] Â 0000000000000286 00000000fc26b170 ffff88048bf27af0 ffffffff813f7c63<br></div><div>[Mon Apr 24 17:21:38 2017] Â ffff88048bf27cc8 ffff88082a663c00 ffff88048bf27b60 ffffffff8120ad4e</div><div>[Mon Apr 24 17:21:38 2017] Â ffff88087781a870 ffff88087781a860 ffffea0011285a80 0000000100000001</div><div>[Mon Apr 24 17:21:38 2017] Call Trace:</div><div>[Mon Apr 24 17:21:38 2017] Â [&lt;ffffffff813f7c63&gt;] dump_stack+0x63/0x90</div><div>[Mon Apr 24 17:21:38 2017] Â [&lt;ffffffff8120ad4e&gt;] dump_header+0x5a/0x1c5</div><div>[Mon Apr 24 17:21:38 2017] Â [&lt;ffffffff811926c2&gt;] oom_kill_process+0x202/0x3c0</div><div>[Mon Apr 24 17:21:38 2017] Â [&lt;ffffffff81192ae9&gt;] out_of_memory+0x219/0x460</div><div>[Mon Apr 24 17:21:38 2017] Â [&lt;ffffffff81198a5d&gt;] __alloc_pages_slowpath.constprop.88+0x8fd/0xa70</div><div>[Mon Apr 24 17:21:38 2017] Â [&lt;ffffffff81198e56&gt;] __alloc_pages_nodemask+0x286/0x2a0</div><div>[Mon Apr 24 17:21:38 2017] Â [&lt;ffffffff81198f0b&gt;] alloc_kmem_pages_node+0x4b/0xc0</div><div>[Mon Apr 24 17:21:38 2017] Â [&lt;ffffffff8107ea5e&gt;] copy_process+0x1be/0x1b70</div><div>[Mon Apr 24 17:21:38 2017] Â [&lt;ffffffff8122d013&gt;] ? __fd_install+0x33/0xe0</div><div>[Mon Apr 24 17:21:38 2017] Â [&lt;ffffffff81713d01&gt;] ? release_sock+0x111/0x160</div><div>[Mon Apr 24 17:21:38 2017] Â [&lt;ffffffff810805a0&gt;] _do_fork+0x80/0x360</div><div>[Mon Apr 24 17:21:38 2017] Â [&lt;ffffffff8122429c&gt;] ? SyS_select+0xcc/0x110</div><div>[Mon Apr 24 17:21:38 2017] Â [&lt;ffffffff81080929&gt;] SyS_clone+0x19/0x20</div><div>[Mon Apr 24 17:21:38 2017] Â [&lt;ffffffff818385f2&gt;] entry_SYSCALL_64_fastpath+0x16/0x71</div><div>[Mon Apr 24 17:21:38 2017] Mem-Info:</div><div>[Mon Apr 24 17:21:38 2017] active_anon:553952 inactive_anon:206987 isolated_anon:0</div><div>  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  active_file:3410764 inactive_file:3460179 isolated_file:0</div><div>  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  unevictable:4914 dirty:212868 writeback:0 unstable:0</div><div>  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  slab_reclaimable:386621 slab_unreclaimable:31829</div><div>  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  mapped:6112 shmem:211 pagetables:6178 bounce:0</div><div>  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  free:82623 free_pcp:213 free_cma:0</div><div>[Mon Apr 24 17:21:38 2017] Node 0 DMA free:15880kB min:32kB low:40kB high:48kB active_anon:0kB inactive_anon:0k</div><div>B active_file:0kB inactive_file:0kB unevictable:0kB isolated(anon):0kB isolated(file):0kB present:15964kB manag</div><div>ed:15880kB mlocked:0kB dirty:0kB writeback:0kB mapped:0kB shmem:0kB slab_reclaimable:0kB slab_unreclaimable:0kB</div><div> kernel_stack:0kB pagetables:0kB unstable:0kB bounce:0kB free_pcp:0kB local_pcp:0kB free_cma:0kB writeback_tmp:</div><div>0kB pages_scanned:0 all_unreclaimable? yes</div><div>[Mon Apr 24 17:21:38 2017] lowmem_reserve[]: 0 1868 31944 31944 31944</div><div>[Mon Apr 24 17:21:38 2017] Node 0 DMA32 free:133096kB min:3948kB low:4932kB high:5920kB active_anon:170764kB in</div><div>active_anon:206296kB active_file:394236kB inactive_file:525288kB unevictable:980kB isolated(anon):0kB isolated(</div><div>file):0kB present:2033596kB managed:1952976kB mlocked:980kB dirty:1552kB writeback:0kB mapped:3904kB shmem:724k</div><div>B slab_reclaimable:502176kB slab_unreclaimable:8916kB kernel_stack:1952kB pagetables:1408kB unstable:0kB bounce</div><div>:0kB free_pcp:0kB local_pcp:0kB free_cma:0kB writeback_tmp:0kB pages_scanned:0 all_unreclaimable? no</div><div>[Mon Apr 24 17:21:38 2017] lowmem_reserve[]: 0 0 30076 30076 30076</div><div>[Mon Apr 24 17:21:38 2017] Node 0 Normal free:181516kB min:63600kB low:79500kB high:95400kB active_anon:2045044</div><div>kB inactive_anon:621652kB active_file:13248820kB inactive_file:13315428kB unevictable:18676kB isolated(anon):0kB isolated(file):0kB present:31322112kB managed:30798036kB mlocked:18676kB dirty:849920kB writeback:0kB mapped:20544kB shmem:120kB slab_reclaimable:1044308kB slab_unreclaimable:118400kB kernel_stack:33792kB pagetables:23304kB unstable:0kB bounce:0kB free_pcp:852kB local_pcp:0kB free_cma:0kB writeback_tmp:0kB pages_scanned:0 all_unreclaimable? no</div><div>[Mon Apr 24 17:21:38 2017] lowmem_reserve[]: 0 0 0 0 0</div><div>[Mon Apr 24 17:21:38 2017] Node 0 DMA: 0*4kB 1*8kB (U) 0*16kB 0*32kB 2*64kB (U) 1*128kB (U) 1*256kB (U) 0*512kB</div><div> 1*1024kB (U) 1*2048kB (M) 3*4096kB (M) = 15880kB</div><div>[Mon Apr 24 17:21:38 2017] Node 0 DMA32: 18416*4kB (UME) 7480*8kB (UME) 0*16kB 0*32kB 0*64kB 0*128kB 0*256kB 0*</div><div>512kB 0*1024kB 0*2048kB 0*4096kB = 133504kB</div><div>[Mon Apr 24 17:21:38 2017] Node 0 Normal: 44972*4kB (UMEH) 13*8kB (EH) 13*16kB (H) 13*32kB (H) 8*64kB (H) 2*128</div><div>kB (H) 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 181384kB</div><div>[Mon Apr 24 17:21:38 2017] Node 0 hugepages_total=0 hugepages_free=0 hugepages_surp=0 hugepages_size=1048576kB</div><div>[Mon Apr 24 17:21:38 2017] Node 0 hugepages_total=0 hugepages_free=0 hugepages_surp=0 hugepages_size=2048kB</div><div>[Mon Apr 24 17:21:38 2017] 6878703 total pagecache pages</div><div>[Mon Apr 24 17:21:38 2017] 2484 pages in swap cache</div><div>[Mon Apr 24 17:21:38 2017] Swap cache stats: add 3533870, delete 3531386, find 3743168/4627884</div><div>[Mon Apr 24 17:21:38 2017] Free swap Â = 14976740kB</div><div>[Mon Apr 24 17:21:38 2017] Total swap = 15623164kB</div><div>[Mon Apr 24 17:21:38 2017] 8342918 pages RAM</div><div>[Mon Apr 24 17:21:38 2017] 0 pages HighMem/MovableOnly</div><div>[Mon Apr 24 17:21:38 2017] 151195 pages reserved</div><div>[Mon Apr 24 17:21:38 2017] 0 pages cma reserved</div><div>[Mon Apr 24 17:21:38 2017] 0 pages hwpoisoned</div><div>[Mon Apr 24 17:21:38 2017] [ pid ] Â  uid Â tgid total_vm Â  Â  Â rss nr_ptes nr_pmds swapents oom_score_adj name</div><div>[Mon Apr 24 17:21:38 2017] [ Â 566] Â  Â  0 Â  566 Â  Â 15064 Â  Â  Â 460 Â  Â  Â 33 Â  Â  Â  3 Â  Â  1108 Â  Â  Â  Â  Â  Â  0 systemd</div><div>-journal</div><div>[Mon Apr 24 17:21:38 2017] [ Â 602] Â  Â  0 Â  602 Â  Â 23693 Â  Â  Â 182 Â  Â  Â 16 Â  Â  Â  3 Â  Â  Â  Â 0 Â  Â  Â  Â  Â  Â  0 lvmetad</div><div>[Mon Apr 24 17:21:38 2017] [ Â 613] Â  Â  0 Â  613 Â  Â 11241 Â  Â  Â 589 Â  Â  Â 21 Â  Â  Â  3 Â  Â  Â 264 Â  Â  Â  Â  -1000 systemd</div><div>-udevd</div><div>[Mon Apr 24 17:21:38 2017] [ 1381] Â  100 Â 1381 Â  Â 25081 Â  Â  Â 440 Â  Â  Â 19 Â  Â  Â  3 Â  Â  Â  25 Â  Â  Â  Â  Â  Â  0 systemd</div><div>-timesyn</div><div>[Mon Apr 24 17:21:38 2017] [ 1447] Â  Â  0 Â 1447 Â  Â  1100 Â  Â  Â 307 Â  Â  Â  7 Â  Â  Â  3 Â  Â  Â  Â 0 Â  Â  Â  Â  Â  Â  0 acpid</div><div>[Mon Apr 24 17:21:38 2017] [ 1449] Â  Â  0 Â 1449 Â  Â  7252 Â  Â  Â 374 Â  Â  Â 21 Â  Â  Â  3 Â  Â  Â  47 Â  Â  Â  Â  Â  Â  0 cron</div><div><br></div><div>[Mon Apr 24 17:21:38 2017] [ 1451] Â  Â  0 Â 1451 Â  Â 77253 Â  Â  Â 994 Â  Â  Â 19 Â  Â  Â  3 Â  Â  Â  10 Â  Â  Â  Â  Â  Â  0 lxcfs</div><div>[Mon Apr 24 17:21:38 2017] [ 1483] Â  Â  0 Â 1483 Â  Â  6511 Â  Â  Â 413 Â  Â  Â 18 Â  Â  Â  3 Â  Â  Â  42 Â  Â  Â  Â  Â  Â  0 atd</div><div>[Mon Apr 24 17:21:38 2017] [ 1505] Â  Â  0 Â 1505 Â  Â  7157 Â  Â  Â 286 Â  Â  Â 18 Â  Â  Â  3 Â  Â  Â  36 Â  Â  Â  Â  Â  Â  0 systemd</div><div>-logind</div><div>[Mon Apr 24 17:21:38 2017] [ 1508] Â  104 Â 1508 Â  Â 64099 Â  Â  Â 376 Â  Â  Â 27 Â  Â  Â  4 Â  Â  Â 712 Â  Â  Â  Â  Â  Â  0 rsyslog</div><div>d</div><div>[Mon Apr 24 17:21:38 2017] [ 1510] Â  107 Â 1510 Â  Â 10723 Â  Â  Â 497 Â  Â  Â 25 Â  Â  Â  3 Â  Â  Â  45 Â  Â  Â  Â  Â -900 dbus-da</div><div>emon</div><div>[Mon Apr 24 17:21:38 2017] [ 1521] Â  Â  0 Â 1521 Â  Â 68970 Â  Â  Â 178 Â  Â  Â 38 Â  Â  Â  3 Â  Â  Â 170 Â  Â  Â  Â  Â  Â  0 account</div><div>s-daemon</div><div>[Mon Apr 24 17:21:38 2017] [ 1526] Â  Â  0 Â 1526 Â  Â  6548 Â  Â  Â 785 Â  Â  Â 16 Â  Â  Â  3 Â  Â  Â  63 Â  Â  Â  Â  Â  Â  0 smartd</div><div>[Mon Apr 24 17:21:38 2017] [ 1528] Â  Â  0 Â 1528 Â  Â 54412 Â  Â  Â 146 Â  Â  Â 31 Â  Â  Â  5 Â  Â  1806 Â  Â  Â  Â  Â  Â  0 snapd</div><div>[Mon Apr 24 17:21:38 2017] [ 1578] Â  Â  0 Â 1578 Â  Â  3416 Â  Â  Â 335 Â  Â  Â 11 Â  Â  Â  3 Â  Â  Â  24 Â  Â  Â  Â  Â  Â  0 mdadm</div><div>[Mon Apr 24 17:21:38 2017] [ 1595] Â  Â  0 Â 1595 Â  Â 16380 Â  Â  Â 470 Â  Â  Â 35 Â  Â  Â  3 Â  Â  Â 157 Â  Â  Â  Â  -1000 sshd</div><div>[Mon Apr 24 17:21:38 2017] [ 1610] Â  Â  0 Â 1610 Â  Â 69295 Â  Â  Â 303 Â  Â  Â 40 Â  Â  Â  4 Â  Â  Â  57 Â  Â  Â  Â  Â  Â  0 polkitd</div><div>[Mon Apr 24 17:21:38 2017] [ 1618] Â  Â  0 Â 1618 Â  Â  1306 Â  Â  Â  31 Â  Â  Â  8 Â  Â  Â  3 Â  Â  Â  Â 0 Â  Â  Â  Â  Â  Â  0 iscsid</div><div>[Mon Apr 24 17:21:38 2017] [ 1619] Â  Â  0 Â 1619 Â  Â  1431 Â  Â  Â 877 Â  Â  Â  8 Â  Â  Â  3 Â  Â  Â  Â 0 Â  Â  Â  Â  Â  -17 iscsid</div><div>[Mon Apr 24 17:21:38 2017] [ 1624] Â  Â  0 Â 1624 Â  126363 Â  Â  8027 Â  Â  122 Â  Â  Â  4 Â  Â 22441 Â  Â  Â  Â  Â  Â  0 gluster</div><div>d</div><div>[Mon Apr 24 17:21:38 2017] [ 1688] Â  Â  0 Â 1688 Â  Â  4884 Â  Â  Â 430 Â  Â  Â 15 Â  Â  Â  3 Â  Â  Â  46 Â  Â  Â  Â  Â  Â  0 irqbala</div><div>nce</div><div>[Mon Apr 24 17:21:38 2017] [ 1699] Â  Â  0 Â 1699 Â  Â  3985 Â  Â  Â 348 Â  Â  Â 13 Â  Â  Â  3 Â  Â  Â  Â 0 Â  Â  Â  Â  Â  Â  0 agetty</div><div>[Mon Apr 24 17:21:38 2017] [ 7001] Â  Â  0 Â 7001 Â  500631 Â  Â 27874 Â  Â  145 Â  Â  Â  5 Â  Â  3356 Â  Â  Â  Â  Â  Â  0 gluster</div><div>fsd</div><div>[Mon Apr 24 17:21:38 2017] [ 8136] Â  Â  0 Â 8136 Â  500631 Â  Â 28760 Â  Â  141 Â  Â  Â  5 Â  Â  2390 Â  Â  Â  Â  Â  Â  0 gluster</div><div>fsd</div><div>[Mon Apr 24 17:21:38 2017] [ 9280] Â  Â  0 Â 9280 Â  533529 Â  Â 27752 Â  Â  135 Â  Â  Â  5 Â  Â  3200 Â  Â  Â  Â  Â  Â  0 gluster</div><div>fsd</div><div>[Mon Apr 24 17:21:38 2017] [12626] Â  111 12626 Â  Â  5991 Â  Â  Â 420 Â  Â  Â 16 Â  Â  Â  3 Â  Â  Â 113 Â  Â  Â  Â  Â  Â  0 nrpe</div><div>[Mon Apr 24 17:21:38 2017] [14342] Â  Â  0 14342 Â  533529 Â  Â 28377 Â  Â  135 Â  Â  Â  5 Â  Â  2176 Â  Â  Â  Â  Â  Â  0 gluster</div><div>fsd</div><div>[Mon Apr 24 17:21:38 2017] [14361] Â  Â  0 14361 Â  534063 Â  Â 29190 Â  Â  136 Â  Â  Â  5 Â  Â  1972 Â  Â  Â  Â  Â  Â  0 gluster</div><div>fsd</div><div><br></div><div>[Mon Apr 24 17:21:38 2017] [14380] Â  Â  0 14380 Â  533529 Â  Â 28104 Â  Â  136 Â  Â  Â  6 Â  Â  2437 Â  Â  Â  Â  Â  Â  0 glusterfsd</div><div>[Mon Apr 24 17:21:38 2017] [14399] Â  Â  0 14399 Â  533529 Â  Â 27552 Â  Â  131 Â  Â  Â  5 Â  Â  2808 Â  Â  Â  Â  Â  Â  0 glusterfsd</div><div>[Mon Apr 24 17:21:38 2017] [14418] Â  Â  0 14418 Â  533529 Â  Â 29588 Â  Â  138 Â  Â  Â  5 Â  Â  2697 Â  Â  Â  Â  Â  Â  0 glusterfsd</div><div>[Mon Apr 24 17:21:38 2017] [14437] Â  Â  0 14437 Â  517080 Â  Â 28671 Â  Â  146 Â  Â  Â  5 Â  Â  2170 Â  Â  Â  Â  Â  Â  0 glusterfsd</div><div>[Mon Apr 24 17:21:38 2017] [14456] Â  Â  0 14456 Â  533529 Â  Â 28083 Â  Â  139 Â  Â  Â  5 Â  Â  3359 Â  Â  Â  Â  Â  Â  0 glusterfsd</div><div>[Mon Apr 24 17:21:38 2017] [14475] Â  Â  0 14475 Â  533529 Â  Â 28054 Â  Â  134 Â  Â  Â  5 Â  Â  2954 Â  Â  Â  Â  Â  Â  0 glusterfsd</div><div>[Mon Apr 24 17:21:38 2017] [14494] Â  Â  0 14494 Â  533529 Â  Â 28594 Â  Â  135 Â  Â  Â  5 Â  Â  2311 Â  Â  Â  Â  Â  Â  0 glusterfsd</div><div>[Mon Apr 24 17:21:38 2017] [14513] Â  Â  0 14513 Â  533529 Â  Â 28911 Â  Â  138 Â  Â  Â  5 Â  Â  2833 Â  Â  Â  Â  Â  Â  0 glusterfsd</div><div>[Mon Apr 24 17:21:38 2017] [14532] Â  Â  0 14532 Â  533529 Â  Â 28259 Â  Â  134 Â  Â  Â  6 Â  Â  3145 Â  Â  Â  Â  Â  Â  0 glusterfsd</div><div>[Mon Apr 24 17:21:38 2017] [14551] Â  Â  0 14551 Â  533529 Â  Â 27875 Â  Â  138 Â  Â  Â  5 Â  Â  2267 Â  Â  Â  Â  Â  Â  0 glusterfsd</div><div>[Mon Apr 24 17:21:38 2017] [14570] Â  Â  0 14570 Â  484716 Â  Â 28247 Â  Â  142 Â  Â  Â  5 Â  Â  2875 Â  Â  Â  Â  Â  Â  0 glusterfsd</div><div>[Mon Apr 24 17:21:38 2017] [27646] Â  Â  0 27646 Â 3697561 Â  202086 Â  Â 2830 Â  Â  Â 17 Â  Â 16528 Â  Â  Â  Â  Â  Â  0 glusterfs</div><div>[Mon Apr 24 17:21:38 2017] [27655] Â  Â  0 27655 Â  787371 Â  Â 29588 Â  Â  197 Â  Â  Â  6 Â  Â 25472 Â  Â  Â  Â  Â  Â  0 glusterfs</div><div>[Mon Apr 24 17:21:38 2017] [27665] Â  Â  0 27665 Â  689585 Â  Â  Â 605 Â  Â  108 Â  Â  Â  6 Â  Â  7008 Â  Â  Â  Â  Â  Â  0 glusterfs</div><div>[Mon Apr 24 17:21:38 2017] [29878] Â  Â  0 29878 Â  193833 Â  Â 36054 Â  Â  241 Â  Â  Â  4 Â  Â 41182 Â  Â  Â  Â  Â  Â  0 glusterfs</div><div>[Mon Apr 24 17:21:38 2017] Out of memory: Kill process 27646 (glusterfs) score 17 or sacrifice child</div><div>[Mon Apr 24 17:21:38 2017] Killed process 27646 (glusterfs) total-vm:14790244kB, anon-rss:795040kB, file-rss:13304kB</div></div><div><br></div><div><div>/var/log/glusterfs/glusterd.log</div><div>[2017-04-24 11:53:51.359603] I [MSGID: 106006] [glusterd-svc-mgmt.c:327:glusterd_svc_common_rpc_notify] 0-management: glustershd has disconnected from glusterd.</div></div><div><br></div><div>what would have gone wrong?</div><div><br></div><div>regards</div><div>Amudhan</div><div><br></div></div>