<div>Hi Kotresh,<br></div><div><br></div><div>Thanks for your feedback.<br></div><div><br></div><div>So do you mean I can simply login into the geo-replication slave node, mount the volume with fuse, and delete the problematic directory, and finally restart geo-replcation? <br></div><div class="protonmail_signature_block protonmail_signature_block-empty"><div class="protonmail_signature_block-user protonmail_signature_block-empty"><div><br></div></div><div class="protonmail_signature_block-proton protonmail_signature_block-empty"><br></div></div><div><br></div><div>I am planning to migrate to 3.8 as soon as I have a backup (geo-replication). Is this issue with DHT fixed in the latest 3.8.x release?<br></div><div><br></div><div>Regards,<br></div><div>M.<br></div><div><br></div><blockquote class="protonmail_quote" type="cite"><div>-------- Original Message --------<br></div><div>Subject: Re: [Gluster-users] Geo replication stuck (rsync: link_stat "(unreachable)")<br></div><div>Local Time: April 13, 2017 7:57 AM<br></div><div>UTC Time: April 13, 2017 5:57 AM<br></div><div>From: khiremat@redhat.com<br></div><div>To: mabi &lt;mabi@protonmail.ch&gt;<br></div><div>Gluster Users &lt;gluster-users@gluster.org&gt;<br></div><div><br></div><div>Hi,<br></div><div> <br></div><div> I think the directory Workhours_2017 is deleted on master and on<br></div><div> slave it's failing to delete because there might be stale linkto files<br></div><div> at the back end. These issues are fixed in DHT with latest versions.<br></div><div> Upgrading to latest version would solve these issues.<br></div><div> <br></div><div> To workaround the issue, you might need to cleanup the problematic<br></div><div> directory on slave from the backend.<br></div><div> <br></div><div> Thanks and Regards,<br></div><div> Kotresh H R<br></div><div> <br></div><div> ----- Original Message -----<br></div><div> &gt; From: "mabi" &lt;mabi@protonmail.ch&gt;<br></div><div> &gt; To: "Kotresh Hiremath Ravishankar" &lt;khiremat@redhat.com&gt;<br></div><div> &gt; Cc: "Gluster Users" &lt;gluster-users@gluster.org&gt;<br></div><div> &gt; Sent: Thursday, April 13, 2017 12:28:50 AM<br></div><div> &gt; Subject: Re: [Gluster-users] Geo replication stuck (rsync: link_stat "(unreachable)")<br></div><div> &gt; <br></div><div> &gt; Hi Kotresh,<br></div><div> &gt; <br></div><div> &gt; Thanks for your hint, adding the "--ignore-missing-args" option to rsync and<br></div><div> &gt; restarting geo-replication worked but it only managed to sync approximately<br></div><div> &gt; 1/3 of the data until it put the geo replication in status "Failed" this<br></div><div> &gt; time. Now I have a different type of error as you can see below from the log<br></div><div> &gt; extract on my geo replication slave node:<br></div><div> &gt; <br></div><div> &gt; [2017-04-12 18:01:55.268923] I [MSGID: 109066] [dht-rename.c:1574:dht_rename]<br></div><div> &gt; 0-myvol-private-geo-dht: renaming<br></div><div> &gt; /.gfid/1678ff37-f708-4197-bed0-3ecd87ae1314/Workhours_2017<br></div><div> &gt; empty.xls.ocTransferId2118183895.part<br></div><div> &gt; (hash=myvol-private-geo-client-0/cache=myvol-private-geo-client-0) =&gt;<br></div><div> &gt; /.gfid/1678ff37-f708-4197-bed0-3ecd87ae1314/Workhours_2017 empty.xls<br></div><div> &gt; (hash=myvol-private-geo-client-0/cache=myvol-private-geo-client-0)<br></div><div> &gt; [2017-04-12 18:01:55.269842] W [fuse-bridge.c:1787:fuse_rename_cbk]<br></div><div> &gt; 0-glusterfs-fuse: 4786:<br></div><div> &gt; /.gfid/1678ff37-f708-4197-bed0-3ecd87ae1314/Workhours_2017<br></div><div> &gt; empty.xls.ocTransferId2118183895.part -&gt;<br></div><div> &gt; /.gfid/1678ff37-f708-4197-bed0-3ecd87ae1314/Workhours_2017 empty.xls =&gt; -1<br></div><div> &gt; (Directory not empty)<br></div><div> &gt; [2017-04-12 18:01:55.314062] I [fuse-bridge.c:5016:fuse_thread_proc] 0-fuse:<br></div><div> &gt; unmounting /tmp/gsyncd-aux-mount-PNSR8s<br></div><div> &gt; [2017-04-12 18:01:55.314311] W [glusterfsd.c:1251:cleanup_and_exit]<br></div><div> &gt; (--&gt;/lib/x86_64-linux-gnu/libpthread.so.0(+0x8064) [0x7f97d3129064]<br></div><div> &gt; --&gt;/usr/sbin/glusterfs(glusterfs_sigwaiter+0xe5) [0x7f97d438a725]<br></div><div> &gt; --&gt;/usr/sbin/glusterfs(cleanup_and_exit+0x57) [0x7f97d438a5a7] ) 0-:<br></div><div> &gt; received signum (15), shutting down<br></div><div> &gt; [2017-04-12 18:01:55.314335] I [fuse-bridge.c:5720:fini] 0-fuse: Unmounting<br></div><div> &gt; '/tmp/gsyncd-aux-mount-PNSR8s'.<br></div><div> &gt; <br></div><div> &gt; How can I fix now this issue and have geo-replication continue synchronising<br></div><div> &gt; again?<br></div><div> &gt; <br></div><div> &gt; Best regards,<br></div><div> &gt; M.<br></div><div> &gt; <br></div><div> &gt; -------- Original Message --------<br></div><div> &gt; Subject: Re: [Gluster-users] Geo replication stuck (rsync: link_stat<br></div><div> &gt; "(unreachable)")<br></div><div> &gt; Local Time: April 11, 2017 9:18 AM<br></div><div> &gt; UTC Time: April 11, 2017 7:18 AM<br></div><div> &gt; From: khiremat@redhat.com<br></div><div> &gt; To: mabi &lt;mabi@protonmail.ch&gt;<br></div><div> &gt; Gluster Users &lt;gluster-users@gluster.org&gt;<br></div><div> &gt; <br></div><div> &gt; Hi,<br></div><div> &gt; <br></div><div> &gt; Then please use set the following rsync config and let us know if it helps.<br></div><div> &gt; <br></div><div> &gt; gluster vol geo-rep &lt;mastervol&gt; &lt;slavehost&gt;::&lt;slavevol&gt; config rsync-options<br></div><div> &gt; "--ignore-missing-args"<br></div><div> &gt; <br></div><div> &gt; Thanks and Regards,<br></div><div> &gt; Kotresh H R<br></div><div> &gt; <br></div><div> &gt; ----- Original Message -----<br></div><div> &gt; &gt; From: "mabi" &lt;mabi@protonmail.ch&gt;<br></div><div> &gt; &gt; To: "Kotresh Hiremath Ravishankar" &lt;khiremat@redhat.com&gt;<br></div><div> &gt; &gt; Cc: "Gluster Users" &lt;gluster-users@gluster.org&gt;<br></div><div> &gt; &gt; Sent: Tuesday, April 11, 2017 2:15:54 AM<br></div><div> &gt; &gt; Subject: Re: [Gluster-users] Geo replication stuck (rsync: link_stat<br></div><div> &gt; &gt; "(unreachable)")<br></div><div> &gt; &gt;<br></div><div> &gt; &gt; Hi Kotresh,<br></div><div> &gt; &gt;<br></div><div> &gt; &gt; I am using the official Debian 8 (jessie) package which has rsync version<br></div><div> &gt; &gt; 3.1.1.<br></div><div> &gt; &gt;<br></div><div> &gt; &gt; Regards,<br></div><div> &gt; &gt; M.<br></div><div> &gt; &gt;<br></div><div> &gt; &gt; -------- Original Message --------<br></div><div> &gt; &gt; Subject: Re: [Gluster-users] Geo replication stuck (rsync: link_stat<br></div><div> &gt; &gt; "(unreachable)")<br></div><div> &gt; &gt; Local Time: April 10, 2017 6:33 AM<br></div><div> &gt; &gt; UTC Time: April 10, 2017 4:33 AM<br></div><div> &gt; &gt; From: khiremat@redhat.com<br></div><div> &gt; &gt; To: mabi &lt;mabi@protonmail.ch&gt;<br></div><div> &gt; &gt; Gluster Users &lt;gluster-users@gluster.org&gt;<br></div><div> &gt; &gt;<br></div><div> &gt; &gt; Hi Mabi,<br></div><div> &gt; &gt;<br></div><div> &gt; &gt; What's the rsync version being used?<br></div><div> &gt; &gt;<br></div><div> &gt; &gt; Thanks and Regards,<br></div><div> &gt; &gt; Kotresh H R<br></div><div> &gt; &gt;<br></div><div> &gt; &gt; ----- Original Message -----<br></div><div> &gt; &gt; &gt; From: "mabi" &lt;mabi@protonmail.ch&gt;<br></div><div> &gt; &gt; &gt; To: "Gluster Users" &lt;gluster-users@gluster.org&gt;<br></div><div> &gt; &gt; &gt; Sent: Saturday, April 8, 2017 4:20:25 PM<br></div><div> &gt; &gt; &gt; Subject: [Gluster-users] Geo replication stuck (rsync: link_stat<br></div><div> &gt; &gt; &gt; "(unreachable)")<br></div><div> &gt; &gt; &gt;<br></div><div> &gt; &gt; &gt; Hello,<br></div><div> &gt; &gt; &gt;<br></div><div> &gt; &gt; &gt; I am using distributed geo replication with two of my GlusterFS 3.7.20<br></div><div> &gt; &gt; &gt; replicated volumes and just noticed that the geo replication for one<br></div><div> &gt; &gt; &gt; volume<br></div><div> &gt; &gt; &gt; is not working anymore. It is stuck since the 2017-02-23 22:39 and I<br></div><div> &gt; &gt; &gt; tried<br></div><div> &gt; &gt; &gt; to stop and restart geo replication but still it stays stuck at that<br></div><div> &gt; &gt; &gt; specific date and time under the DATA field of the geo replication<br></div><div> &gt; &gt; &gt; "status<br></div><div> &gt; &gt; &gt; detail" command I can see 3879 and that it has "Active" as STATUS but<br></div><div> &gt; &gt; &gt; still<br></div><div> &gt; &gt; &gt; nothing happens. I noticed that the rsync process is running but does not<br></div><div> &gt; &gt; &gt; do<br></div><div> &gt; &gt; &gt; anything, then I did a strace on the PID of rsync and saw the following:<br></div><div> &gt; &gt; &gt;<br></div><div> &gt; &gt; &gt; write(2, "rsync: link_stat \"(unreachable)/"..., 114<br></div><div> &gt; &gt; &gt;<br></div><div> &gt; &gt; &gt; It looks like rsync can't read or find a file and stays stuck on that. In<br></div><div> &gt; &gt; &gt; the<br></div><div> &gt; &gt; &gt; geo-replication log files of GlusterFS master I can't find any error<br></div><div> &gt; &gt; &gt; messages just informational message. For example when I restart the geo<br></div><div> &gt; &gt; &gt; replication I see the following log entries:<br></div><div> &gt; &gt; &gt;<br></div><div> &gt; &gt; &gt; [2017-04-07 21:43:05.664541] I [monitor(monitor):443:distribute] &lt;top&gt;:<br></div><div> &gt; &gt; &gt; slave<br></div><div> &gt; &gt; &gt; bricks: [{'host': 'gfs1geo.domain', 'dir': '/data/private-geo/brick'}]<br></div><div> &gt; &gt; &gt; [2017-04-07 21:43:05.666435] I [monitor(monitor):468:distribute] &lt;top&gt;:<br></div><div> &gt; &gt; &gt; worker specs: [('/data/private/brick', 'ssh:// root@gfs1geo.domain<br></div><div> &gt; &gt; &gt; :gluster://localhost:private-geo', '1', False)]<br></div><div> &gt; &gt; &gt; [2017-04-07 21:43:05.823931] I [monitor(monitor):267:monitor] Monitor:<br></div><div> &gt; &gt; &gt; ------------------------------------------------------------<br></div><div> &gt; &gt; &gt; [2017-04-07 21:43:05.824204] I [monitor(monitor):268:monitor] Monitor:<br></div><div> &gt; &gt; &gt; starting gsyncd worker<br></div><div> &gt; &gt; &gt; [2017-04-07 21:43:05.930124] I [gsyncd(/data/private/brick):733:main_i]<br></div><div> &gt; &gt; &gt; &lt;top&gt;: syncing: gluster://localhost:private -&gt; ssh:// root@gfs1geo.domain<br></div><div> &gt; &gt; &gt; :gluster://localhost:private-geo<br></div><div> &gt; &gt; &gt; [2017-04-07 21:43:05.931169] I [changelogagent(agent):73:__init__]<br></div><div> &gt; &gt; &gt; ChangelogAgent: Agent listining...<br></div><div> &gt; &gt; &gt; [2017-04-07 21:43:08.558648] I<br></div><div> &gt; &gt; &gt; [master(/data/private/brick):83:gmaster_builder] &lt;top&gt;: setting up xsync<br></div><div> &gt; &gt; &gt; change detection mode<br></div><div> &gt; &gt; &gt; [2017-04-07 21:43:08.559071] I [master(/data/private/brick):367:__init__]<br></div><div> &gt; &gt; &gt; _GMaster: using 'rsync' as the sync engine<br></div><div> &gt; &gt; &gt; [2017-04-07 21:43:08.560163] I<br></div><div> &gt; &gt; &gt; [master(/data/private/brick):83:gmaster_builder] &lt;top&gt;: setting up<br></div><div> &gt; &gt; &gt; changelog<br></div><div> &gt; &gt; &gt; change detection mode<br></div><div> &gt; &gt; &gt; [2017-04-07 21:43:08.560431] I [master(/data/private/brick):367:__init__]<br></div><div> &gt; &gt; &gt; _GMaster: using 'rsync' as the sync engine<br></div><div> &gt; &gt; &gt; [2017-04-07 21:43:08.561105] I<br></div><div> &gt; &gt; &gt; [master(/data/private/brick):83:gmaster_builder] &lt;top&gt;: setting up<br></div><div> &gt; &gt; &gt; changeloghistory change detection mode<br></div><div> &gt; &gt; &gt; [2017-04-07 21:43:08.561391] I [master(/data/private/brick):367:__init__]<br></div><div> &gt; &gt; &gt; _GMaster: using 'rsync' as the sync engine<br></div><div> &gt; &gt; &gt; [2017-04-07 21:43:11.354417] I<br></div><div> &gt; &gt; &gt; [master(/data/private/brick):1249:register]<br></div><div> &gt; &gt; &gt; _GMaster: xsync temp directory:<br></div><div> &gt; &gt; &gt; /var/lib/misc/glusterfsd/private/ssh%3A%2F%2Froot%40192.168.20.107%3Agluster%3A%2F%2F127.0.0.1%3Aprivate-geo/616931ac8f39da5dc5834f9d47fc7b1a/xsync<br></div><div> &gt; &gt; &gt; [2017-04-07 21:43:11.354751] I<br></div><div> &gt; &gt; &gt; [resource(/data/private/brick):1528:service_loop] GLUSTER: Register time:<br></div><div> &gt; &gt; &gt; 1491601391<br></div><div> &gt; &gt; &gt; [2017-04-07 21:43:11.357630] I<br></div><div> &gt; &gt; &gt; [master(/data/private/brick):510:crawlwrap]<br></div><div> &gt; &gt; &gt; _GMaster: primary master with volume id<br></div><div> &gt; &gt; &gt; e7a40a1b-45c9-4d3c-bb19-0c59b4eceec5<br></div><div> &gt; &gt; &gt; ...<br></div><div> &gt; &gt; &gt; [2017-04-07 21:43:11.489355] I<br></div><div> &gt; &gt; &gt; [master(/data/private/brick):519:crawlwrap]<br></div><div> &gt; &gt; &gt; _GMaster: crawl interval: 1 seconds<br></div><div> &gt; &gt; &gt; [2017-04-07 21:43:11.516710] I [master(/data/private/brick):1163:crawl]<br></div><div> &gt; &gt; &gt; _GMaster: starting history crawl... turns: 1, stime: (1487885974, 0),<br></div><div> &gt; &gt; &gt; etime:<br></div><div> &gt; &gt; &gt; 1491601391<br></div><div> &gt; &gt; &gt; [2017-04-07 21:43:12.607836] I [master(/data/private/brick):1192:crawl]<br></div><div> &gt; &gt; &gt; _GMaster: slave's time: (1487885974, 0)<br></div><div> &gt; &gt; &gt;<br></div><div> &gt; &gt; &gt; Does anyone know how I can find out the root cause of this problem and<br></div><div> &gt; &gt; &gt; make<br></div><div> &gt; &gt; &gt; geo replication work again from the time point it got stuck?<br></div><div> &gt; &gt; &gt;<br></div><div> &gt; &gt; &gt; Many thanks in advance for your help.<br></div><div> &gt; &gt; &gt;<br></div><div> &gt; &gt; &gt; Best regards,<br></div><div> &gt; &gt; &gt; Mabi<br></div><div> &gt; &gt; &gt;<br></div><div> &gt; &gt; &gt;<br></div><div> &gt; &gt; &gt;<br></div><div> &gt; &gt; &gt;<br></div><div> &gt; &gt; &gt; _______________________________________________<br></div><div> &gt; &gt; &gt; Gluster-users mailing list<br></div><div> &gt; &gt; &gt; Gluster-users@gluster.org<br></div><div> &gt; &gt; &gt; http://lists.gluster.org/mailman/listinfo/gluster-users<br></div></blockquote><div><br></div>