<div dir="ltr">Dear Gluster users,<div><br></div><div>i&#39;m a bit at a los here, and any help would be appreciated.</div><div><br></div><div>I&#39;ve lost a couple, since the disks suffered from severe XFS error&#39;s and of virtual machines and some won&#39;t boot because they can&#39;t resolve the size of the image as reported by vdsm: </div><div>&quot;VM kube-large-01 is down with error. Exit message: Unable to get volume size for domain 5f17d41f-d617-48b8-8881-a53460b02829 volume f16492a6-2d0e-4657-88e3-a9f4d8e48e74.&quot;</div><div><br></div><div>which is also reported by the vdsm-client;  vdsm-client Volume getSize storagepoolID=59cd53a9-0003-02d7-00eb-0000000001e3 storagedomainID=5f17d41f-d617-48b8-8881-a53460b02829 imageID=2f96fd46-1851-49c8-9f48-78bb50dbdffd volumeID=f16492a6-2d0e-4657-88e3-a9f4d8e48e74</div>vdsm-client: Command Volume.getSize with args {&#39;storagepoolID&#39;: &#39;59cd53a9-0003-02d7-00eb-0000000001e3&#39;, &#39;storagedomainID&#39;: &#39;5f17d41f-d617-48b8-8881-a53460b02829&#39;, &#39;volumeID&#39;: &#39;f16492a6-2d0e-4657-88e3-a9f4d8e48e74&#39;, &#39;imageID&#39;: &#39;2f96fd46-1851-49c8-9f48-78bb50dbdffd&#39;} failed:<br>(code=100, message=[Errno 107] Transport endpoint is not connected)<div><br></div><div>with corresponding gluster mount log;</div><div>[2020-01-27 19:42:22.678793] W [MSGID: 114031] [client-rpc-fops_v2.c:2634:client4_0_lookup_cbk] 0-ovirt-data-client-14: remote operation failed. Path: /5f17d41f-d617-48b8-8881-a53460b02829/images/2f96fd46-1851-49c8-9f48-78bb50dbdffd/f16492a6-2d0e-4657-88e3-a9f4d8e48e74 (a19abb2f-8e7e-42f0-a3c1-dad1eeb3a851) [Permission denied]<br>[2020-01-27 19:42:22.678828] W [MSGID: 114031] [client-rpc-fops_v2.c:2634:client4_0_lookup_cbk] 0-ovirt-data-client-13: remote operation failed. Path: /5f17d41f-d617-48b8-8881-a53460b02829/images/2f96fd46-1851-49c8-9f48-78bb50dbdffd/f16492a6-2d0e-4657-88e3-a9f4d8e48e74 (a19abb2f-8e7e-42f0-a3c1-dad1eeb3a851) [Permission denied]<br>[2020-01-27 19:42:22.679806] W [MSGID: 114031] [client-rpc-fops_v2.c:2634:client4_0_lookup_cbk] 0-ovirt-data-client-14: remote operation failed. Path: (null) (00000000-0000-0000-0000-000000000000) [Permission denied]<br>[2020-01-27 19:42:22.679862] W [MSGID: 114031] [client-rpc-fops_v2.c:2634:client4_0_lookup_cbk] 0-ovirt-data-client-13: remote operation failed. Path: (null) (00000000-0000-0000-0000-000000000000) [Permission denied]<br>[2020-01-27 19:42:22.679981] W [MSGID: 108027] [afr-common.c:2274:afr_attempt_readsubvol_set] 0-ovirt-data-replicate-3: no read subvols for /5f17d41f-d617-48b8-8881-a53460b02829/images/2f96fd46-1851-49c8-9f48-78bb50dbdffd/f16492a6-2d0e-4657-88e3-a9f4d8e48e74<br>[2020-01-27 19:42:22.680606] W [MSGID: 114031] [client-rpc-fops_v2.c:2634:client4_0_lookup_cbk] 0-ovirt-data-client-14: remote operation failed. Path: /5f17d41f-d617-48b8-8881-a53460b02829/images/2f96fd46-1851-49c8-9f48-78bb50dbdffd/f16492a6-2d0e-4657-88e3-a9f4d8e48e74 (00000000-0000-0000-0000-000000000000) [Permission denied]<br>[2020-01-27 19:42:22.680622] W [MSGID: 114031] [client-rpc-fops_v2.c:2634:client4_0_lookup_cbk] 0-ovirt-data-client-13: remote operation failed. Path: /5f17d41f-d617-48b8-8881-a53460b02829/images/2f96fd46-1851-49c8-9f48-78bb50dbdffd/f16492a6-2d0e-4657-88e3-a9f4d8e48e74 (00000000-0000-0000-0000-000000000000) [Permission denied]<br>[2020-01-27 19:42:22.681742] W [MSGID: 114031] [client-rpc-fops_v2.c:2634:client4_0_lookup_cbk] 0-ovirt-data-client-13: remote operation failed. Path: (null) (00000000-0000-0000-0000-000000000000) [Permission denied]<br>[2020-01-27 19:42:22.681871] W [MSGID: 108027] [afr-common.c:2274:afr_attempt_readsubvol_set] 0-ovirt-data-replicate-3: no read subvols for /5f17d41f-d617-48b8-8881-a53460b02829/images/2f96fd46-1851-49c8-9f48-78bb50dbdffd/f16492a6-2d0e-4657-88e3-a9f4d8e48e74<br>[2020-01-27 19:42:22.682344] W [MSGID: 114031] [client-rpc-fops_v2.c:2634:client4_0_lookup_cbk] 0-ovirt-data-client-14: remote operation failed. Path: /5f17d41f-d617-48b8-8881-a53460b02829/images/2f96fd46-1851-49c8-9f48-78bb50dbdffd/f16492a6-2d0e-4657-88e3-a9f4d8e48e74 (00000000-0000-0000-0000-000000000000) [Permission denied]<br>The message &quot;W [MSGID: 114031] [client-rpc-fops_v2.c:2634:client4_0_lookup_cbk] 0-ovirt-data-client-14: remote operation failed. Path: (null) (00000000-0000-0000-0000-000000000000) [Permission denied]&quot; repeated 2 times between [2020-01-27 19:42:22.679806] and [2020-01-27 19:42:22.683308]<br>[2020-01-27 19:42:22.683327] W [MSGID: 114031] [client-rpc-fops_v2.c:2634:client4_0_lookup_cbk] 0-ovirt-data-client-13: remote operation failed. Path: (null) (00000000-0000-0000-0000-000000000000) [Permission denied]<br>[2020-01-27 19:42:22.683438] W [MSGID: 108027] [afr-common.c:2274:afr_attempt_readsubvol_set] 0-ovirt-data-replicate-3: no read subvols for /5f17d41f-d617-48b8-8881-a53460b02829/images/2f96fd46-1851-49c8-9f48-78bb50dbdffd/f16492a6-2d0e-4657-88e3-a9f4d8e48e74<br>[2020-01-27 19:42:22.683495] I [dict.c:560:dict_get] (--&gt;/usr/lib64/glusterfs/6.7/xlator/cluster/replicate.so(+0x6e92b) [0x7faaaadeb92b] --&gt;/usr/lib64/glusterfs/6.7/xlator/cluster/distribute.so(+0x45c78) [0x7faaaab08c78] --&gt;/lib64/libglusterfs.so.0(dict_get+0x94) [0x7faab36ac254] ) 0-dict: !this || key=trusted.glusterfs.dht.mds [Invalid argument]<br>[2020-01-27 19:42:22.683506] W [fuse-bridge.c:942:fuse_entry_cbk] 0-glusterfs-fuse: 176728: LOOKUP() /5f17d41f-d617-48b8-8881-a53460b02829/images/2f96fd46-1851-49c8-9f48-78bb50dbdffd/f16492a6-2d0e-4657-88e3-a9f4d8e48e74 =&gt; -1 (Transport endpoint is not connected)<br></div><div><div><br></div><div>In addition to this, vdsm also reported it couldn&#39;t find the image of the HostedEngine, and refused to boot;</div><div>2020-01-25 10:03:45,345+0000 ERROR (vm/20d69acd) [storage.TaskManager.Task] (Task=&#39;ffdc4242-17ae-4ea1-9535-0e6fcb81944d&#39;) Unexpected error (task:875)<br>Traceback (most recent call last):<br>  File &quot;/usr/lib/python2.7/site-packages/vdsm/storage/task.py&quot;, line 882, in _run<br>    return fn(*args, **kargs)<br>  File &quot;&lt;string&gt;&quot;, line 2, in prepareImage<br>  File &quot;/usr/lib/python2.7/site-packages/vdsm/common/api.py&quot;, line 50, in method<br>    ret = func(*args, **kwargs)<br>  File &quot;/usr/lib/python2.7/site-packages/vdsm/storage/hsm.py&quot;, line 3203, in prepareImage<br>    raise se.VolumeDoesNotExist(leafUUID)<br>VolumeDoesNotExist: Volume does not exist: (&#39;38e4fba7-f140-4630-afab-0f744ebe3b57&#39;,)<br></div><div><br></div><div>2020-01-25 10:03:45,345+0000 ERROR (vm/20d69acd) [virt.vm] (vmId=&#39;20d69acd-edfd-4aeb-a2ae-49e9c121b7e9&#39;) The vm start process failed (vm:933)<br>Traceback (most recent call last):<br>  File &quot;/usr/lib/python2.7/site-packages/vdsm/virt/vm.py&quot;, line 867, in _startUnderlyingVm<br>    self._run()<br>  File &quot;/usr/lib/python2.7/site-packages/vdsm/virt/vm.py&quot;, line 2795, in _run<br>    self._devices = self._make_devices()<br>  File &quot;/usr/lib/python2.7/site-packages/vdsm/virt/vm.py&quot;, line 2635, in _make_devices<br>    disk_objs = self._perform_host_local_adjustment()<br>  File &quot;/usr/lib/python2.7/site-packages/vdsm/virt/vm.py&quot;, line 2708, in _perform_host_local_adjustment<br>    self._preparePathsForDrives(disk_params)<br>  File &quot;/usr/lib/python2.7/site-packages/vdsm/virt/vm.py&quot;, line 1036, in _preparePathsForDrives<br>    drive, <a href="http://self.id">self.id</a>, path=path<br>  File &quot;/usr/lib/python2.7/site-packages/vdsm/clientIF.py&quot;, line 426, in prepareVolumePath<br>    raise vm.VolumeError(drive)<br>VolumeError: Bad volume specification {&#39;protocol&#39;: &#39;gluster&#39;, &#39;address&#39;: {&#39;function&#39;: &#39;0x0&#39;, &#39;bus&#39;: &#39;0x00&#39;, &#39;domain&#39;: &#39;0x0000&#39;, &#39;type&#39;: &#39;pci&#39;, &#39;slot&#39;: &#39;0x06&#39;}, &#39;serial&#39;: &#39;9191ca25-536f-42cd-8373-c04ff9cc1a64&#39;, &#39;index&#39;: 0, &#39;iface&#39;: &#39;virtio&#39;, &#39;apparentsize&#39;: &#39;62277025792&#39;, &#39;specParams&#39;: {}, &#39;cache&#39;: &#39;none&#39;, &#39;imageID&#39;: &#39;9191ca25-536f-42cd-8373-c04ff9cc1a64&#39;, &#39;shared&#39;: &#39;exclusive&#39;, &#39;truesize&#39;: &#39;50591027712&#39;, &#39;type&#39;: &#39;disk&#39;, &#39;domainID&#39;: &#39;313f5d25-76af-4ecd-9a20-82a2fe815a3c&#39;, &#39;reqsize&#39;: &#39;0&#39;, &#39;format&#39;: &#39;raw&#39;, &#39;poolID&#39;: &#39;00000000-0000-0000-0000-000000000000&#39;, &#39;device&#39;: &#39;disk&#39;, &#39;path&#39;: &#39;ovirt-engine/313f5d25-76af-4ecd-9a20-82a2fe815a3c/images/9191ca25-536f-42cd-8373-c04ff9cc1a64/38e4fba7-f140-4630-afab-0f744ebe3b57&#39;, &#39;propagateErrors&#39;: &#39;off&#39;, &#39;name&#39;: &#39;vda&#39;, &#39;volumeID&#39;: &#39;38e4fba7-f140-4630-afab-0f744ebe3b57&#39;, &#39;diskType&#39;: &#39;network&#39;, &#39;alias&#39;: &#39;ua-9191ca25-536f-42cd-8373-c04ff9cc1a64&#39;, &#39;hosts&#39;: [{&#39;name&#39;: &#39;10.201.0.9&#39;, &#39;port&#39;: &#39;0&#39;}], &#39;discard&#39;: False}<br></div><div><br></div><div>And last, there is a storage domain which refuses to activate (from de vsdm.log);</div><div>2020-01-25 10:01:11,750+0000 ERROR (check/loop) [storage.Monitor] Error checking path /rhev/data-center/mnt/glusterSD/10.201.0.11:_ovirt-mon-2/47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md/metadata (monitor:499)<br>Traceback (most recent call last):<br>  File &quot;/usr/lib/python2.7/site-packages/vdsm/storage/monitor.py&quot;, line 497, in _pathChecked<br>    delay = result.delay()<br>  File &quot;/usr/lib/python2.7/site-packages/vdsm/storage/check.py&quot;, line 391, in delay<br>    raise exception.MiscFileReadException(self.path, self.rc, self.err)<br>MiscFileReadException: Internal file read failure: (u&#39;/rhev/data-center/mnt/glusterSD/10.201.0.11:_ovirt-mon-2/47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md/metadata&#39;, 1, bytearray(b&quot;/usr/bin/dd: failed to open \&#39;/rhev/data-center/mnt/glusterSD/10.201.0.11:_ovirt-mon-2/47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md/metadata\&#39;: Transport endpoint is not connected\n&quot;))<br></div><div><br></div><div>corresponding gluster mount log;</div><div>The message &quot;W [MSGID: 114031] [client-rpc-fops_v2.c:2634:client4_0_lookup_cbk] 0-ovirt-mon-2-client-0: remote operation failed. Path: /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md (00000000-0000-0000-0000-000000000000) [Permission denied]&quot; repeated 4 times between [2020-01-27 19:58:33.063826] and [2020-01-27 19:59:21.690134]<br>The message &quot;W [MSGID: 114031] [client-rpc-fops_v2.c:2634:client4_0_lookup_cbk] 0-ovirt-mon-2-client-1: remote operation failed. Path: /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md (00000000-0000-0000-0000-000000000000) [Permission denied]&quot; repeated 4 times between [2020-01-27 19:58:33.063734] and [2020-01-27 19:59:21.690150]<br>The message &quot;W [MSGID: 114031] [client-rpc-fops_v2.c:2634:client4_0_lookup_cbk] 0-ovirt-mon-2-client-0: remote operation failed. Path: (null) (00000000-0000-0000-0000-000000000000) [Permission denied]&quot; repeated 4 times between [2020-01-27 19:58:33.065027] and [2020-01-27 19:59:21.691313]<br>The message &quot;W [MSGID: 114031] [client-rpc-fops_v2.c:2634:client4_0_lookup_cbk] 0-ovirt-mon-2-client-1: remote operation failed. Path: (null) (00000000-0000-0000-0000-000000000000) [Permission denied]&quot; repeated 4 times between [2020-01-27 19:58:33.065106] and [2020-01-27 19:59:21.691328]<br>The message &quot;W [MSGID: 108027] [afr-common.c:2274:afr_attempt_readsubvol_set] 0-ovirt-mon-2-replicate-0: no read subvols for /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md&quot; repeated 4 times between [2020-01-27 19:58:33.065163] and [2020-01-27 19:59:21.691369]<br>[2020-01-27 19:59:50.539315] W [MSGID: 114031] [client-rpc-fops_v2.c:2634:client4_0_lookup_cbk] 0-ovirt-mon-2-client-0: remote operation failed. Path: /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md (00000000-0000-0000-0000-000000000000) [Permission denied]<br>[2020-01-27 19:59:50.539321] W [MSGID: 114031] [client-rpc-fops_v2.c:2634:client4_0_lookup_cbk] 0-ovirt-mon-2-client-1: remote operation failed. Path: /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md (00000000-0000-0000-0000-000000000000) [Permission denied]<br>[2020-01-27 19:59:50.540412] W [MSGID: 114031] [client-rpc-fops_v2.c:2634:client4_0_lookup_cbk] 0-ovirt-mon-2-client-1: remote operation failed. Path: (null) (00000000-0000-0000-0000-000000000000) [Permission denied]<br>[2020-01-27 19:59:50.540477] W [MSGID: 114031] [client-rpc-fops_v2.c:2634:client4_0_lookup_cbk] 0-ovirt-mon-2-client-0: remote operation failed. Path: (null) (00000000-0000-0000-0000-000000000000) [Permission denied]<br>[2020-01-27 19:59:50.540533] W [MSGID: 108027] [afr-common.c:2274:afr_attempt_readsubvol_set] 0-ovirt-mon-2-replicate-0: no read subvols for /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md<br>[2020-01-27 19:59:50.540604] W [fuse-bridge.c:942:fuse_entry_cbk] 0-glusterfs-fuse: 99: LOOKUP() /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md =&gt; -1 (Transport endpoint is not connected)<br>[2020-01-27 19:59:51.488775] W [fuse-bridge.c:942:fuse_entry_cbk] 0-glusterfs-fuse: 105: LOOKUP() /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md =&gt; -1 (Transport endpoint is not connected)<br>[2020-01-27 19:59:58.713818] W [fuse-bridge.c:942:fuse_entry_cbk] 0-glusterfs-fuse: 112: LOOKUP() /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md =&gt; -1 (Transport endpoint is not connected)<br>[2020-01-27 19:59:59.007467] W [fuse-bridge.c:942:fuse_entry_cbk] 0-glusterfs-fuse: 118: LOOKUP() /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md =&gt; -1 (Transport endpoint is not connected)<br>[2020-01-27 20:00:00.136599] W [fuse-bridge.c:942:fuse_entry_cbk] 0-glusterfs-fuse: 125: LOOKUP() /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md =&gt; -1 (Transport endpoint is not connected)<br>[2020-01-27 20:00:00.781763] W [fuse-bridge.c:942:fuse_entry_cbk] 0-glusterfs-fuse: 131: LOOKUP() /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md =&gt; -1 (Transport endpoint is not connected)<br>[2020-01-27 20:00:00.878852] W [fuse-bridge.c:942:fuse_entry_cbk] 0-glusterfs-fuse: 137: LOOKUP() /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md =&gt; -1 (Transport endpoint is not connected)<br>[2020-01-27 20:00:01.580272] W [fuse-bridge.c:942:fuse_entry_cbk] 0-glusterfs-fuse: 144: LOOKUP() /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md =&gt; -1 (Transport endpoint is not connected)<br>[2020-01-27 20:00:01.686464] W [fuse-bridge.c:942:fuse_entry_cbk] 0-glusterfs-fuse: 150: LOOKUP() /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md =&gt; -1 (Transport endpoint is not connected)<br>[2020-01-27 20:00:01.757087] W [fuse-bridge.c:942:fuse_entry_cbk] 0-glusterfs-fuse: 156: LOOKUP() /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md =&gt; -1 (Transport endpoint is not connected)<br>[2020-01-27 20:00:03.061635] W [fuse-bridge.c:942:fuse_entry_cbk] 0-glusterfs-fuse: 163: LOOKUP() /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md =&gt; -1 (Transport endpoint is not connected)<br>[2020-01-27 20:00:03.161894] W [fuse-bridge.c:942:fuse_entry_cbk] 0-glusterfs-fuse: 169: LOOKUP() /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md =&gt; -1 (Transport endpoint is not connected)<br>[2020-01-27 20:00:04.801107] W [fuse-bridge.c:942:fuse_entry_cbk] 0-glusterfs-fuse: 176: LOOKUP() /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md =&gt; -1 (Transport endpoint is not connected)<br>[2020-01-27 20:00:07.251125] W [fuse-bridge.c:942:fuse_entry_cbk] 0-glusterfs-fuse: 183: LOOKUP() /47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md =&gt; -1 (Transport endpoint is not connected)<br></div><div><br></div><div>and some apps directly connecting to gluster mounts report these error&#39;s;</div><div>2020-01-27  1:10:48 0 [ERROR] mysqld: File &#39;/binlog/binlog.~rec~&#39; not found (Errcode: 107 &quot;Transport endpoint is not connected&quot;)<br></div><div>2020-01-27  3:28:01 0 [ERROR] mysqld: File &#39;/binlog/binlog.000113&#39; not found (Errcode: 107 &quot;Transport endpoint is not connected&quot;)<br></div><div><br></div><div>So the errors seem to hint to either a connection issue or a quorum loss of some sort. However gluster is running on it&#39;s own private and separate network, with no firewall rules or anything else which could obstruct the connection.</div><div>In addition gluster volume status reports all bricks and nodes are up, and gluster volume heal reports no pending heals. </div><div>What makes this issue even more interesting is that when i manually check the files all seems fine;</div><div><br></div><div>for the first issue, where the machine won&#39;t start because vdsm cannot determine the size. </div><div>qemu is able to report the size;</div><div>qemu-img info /rhev/data-center/mnt/glusterSD/10.201.0.7:_ovirt-data/5f17d41f-d617-48b8-8881-a53460b02829/images/2f96fd46-1851-49c8-9f48-78bb50dbdffd/f16492a6-2d0e-46<br>57-88e3-a9f4d8e48e74<br>image: /rhev/data-center/mnt/glusterSD/10.201.0.7:_ovirt-data/5f17d41f-d617-48b8-8881-a53460b02829/images/2f96fd46-1851-49c8-9f48-78bb50dbdffd/f16492a6-2d0e-4657-88e3-a9f4d8e48e74<br>file format: raw<br>virtual size: 34T (37580963840000 bytes)<br>disk size: 7.1T<br></div><div>in addition i&#39;m able to mount the volume using a loop device;</div><div>losetup /dev/loop0 /rhev/data-center/mnt/glusterSD/10.201.0.7:_ovirt-data/5f17d41f-d617-48b8-8881-a53460b02829/images/2f96fd46-1851-49c8-9f48-78bb50dbdffd/f16492a6-2d0e-4657-88e3-a9f4d8e48e74<br></div><div>kpartx -av /dev/loop0<br></div><div>vgscan</div><div>vgchange -ay</div><div>mount /dev/mapper/cl--data5-data5 /data5/</div><div>after this i&#39;m able to see all contents of the disk, and in fact write to it. So the earlier reported connection error doesn&#39;t seem to apply here? </div><div>This is actually how i&#39;m currently running the VM, where i detached the disk, and mounted it  in the VM via the loop device. The disk is a data disk for a heavily loaded mysql instance, and mysql is reporting no errors, and has been running for about a day now.</div><div>Of course this not the way it should run, but it is at least working, only performance seems a bit off. So i would like to solve the issue and being able to attach the image as disk again.</div><div><br></div><div>for the second issue where the Image of the HostedEngine couldn&#39;t be found, also all seems correct;</div><div>The file is there and having the correct permissions;</div><div> ls -la /rhev/data-center/mnt/glusterSD/<a href="http://10.201.0.9">10.201.0.9</a>\:_ovirt-engine/313f5d25-76af-4ecd-9a20-82a2fe815a3c/images/9191ca25-536f-42cd-8373-c04ff9cc1a64/<br>total 49406333<br>drwxr-xr-x.  2 vdsm kvm        4096 Jan 25 12:03 .<br>drwxr-xr-x. 13 vdsm kvm        4096 Jan 25 14:16 ..<br>-rw-rw----.  1 vdsm kvm 62277025792 Jan 23 03:04 38e4fba7-f140-4630-afab-0f744ebe3b57<br>-rw-rw----.  1 vdsm kvm     1048576 Jan 25 21:48 38e4fba7-f140-4630-afab-0f744ebe3b57.lease<br>-rw-r--r--.  1 vdsm kvm         285 Jan 27  2018 38e4fba7-f140-4630-afab-0f744ebe3b57.meta<br></div><div>And i&#39;m able to mount the image using a loop device and access it&#39;s contents. </div><div>Unfortunate the VM wouldn&#39;t boot due to XFS error&#39;s. After tinkering with this for about a day to make it boot, i gave up and restored from a recent backup. But i took the data dir from postgress from the mounted old image to the new VM, and postgress was perfectly fine with it, also indicating the image wasn&#39;t a complete toast.</div><div><br></div><div>And the last issue where the storage domain wouldn&#39;t activate. The file it claims it cannot read in the log is perfectly readable and writable;</div><div>cat /rhev/data-center/mnt/glusterSD/10.201.0.11:_ovirt-mon-2/47edf8ee-83c4-4bd2-b275-20ccd9de4458/dom_md/metadata<br>CLASS=Data<br>DESCRIPTION=ovirt-mon-2<br>IOOPTIMEOUTSEC=10<br>LEASERETRIES=3<br>LEASETIMESEC=60<br>LOCKPOLICY=<br>LOCKRENEWALINTERVALSEC=5<br>POOL_UUID=59cd53a9-0003-02d7-00eb-0000000001e3<br>REMOTE_PATH=10.201.0.11:/ovirt-mon-2<br>ROLE=Regular<br>SDUUID=47edf8ee-83c4-4bd2-b275-20ccd9de4458<br>TYPE=GLUSTERFS<br>VERSION=4<br>_SHA_CKSUM=d49b4a74e70a22a1b816519e8ed4167994672807<br></div><div><br></div><div>So i&#39;ve no clue where these &quot;Transport endpoint is not connected&quot;  are coming from, and how to resolve them? </div><div><br></div><div>I think there are 4 possible causes for this issue;</div><div>1) I was trying to optimize the throughput of gluster on some volumes, since we recently gained some additional write load, which we had difficulty keeping up with. So I tried to incrementally add server.event-threads, via;</div><div>gluster v set ovirt-data server.event-threads X<br></div><div>since this didn&#39;t seem to improve the performance i changed it back to it&#39;s original values. But when i did that the VM&#39;s running on these volumes all locked-up, and required a reboot, which was by than still possible. Please note for the volumes ovirt-engine and ovirt-mon-2 this setting wasn&#39;t changed.</div><div><br></div><div>2) I had a mix of running gluster 6.6 and 6.7, since i was in the middle of upgrading all to 6.7</div><div><br></div><div>3) On one of the physical brick nodes, after a reboot xfs errors were reported, and resolved by xfs_repair, which did remove some inodes in the process. For which i wasn&#39;t too worried since i would expect the gluster self healing daemon would resolve them, which seemed true for all volumes, except 1, where 1 gfid was pending for about 2 days. in this case also exactly the image which vdsm reports it cannot resolve the size from. But there are other vm image with the same issue, which i left out for brevity. However the pending heal of the single gfid resolved once I mounted the image via the loop device and started writing to. Which is probably due the nature on how gluster resolves what needs healing. Despite a gluster heal X full was issued before. </div><div>I could also confirm the pending gfid was in fact missing on the brick node on the underlying brick directory, while the heal was still pending.</div><div><br></div><div>4) I did some brick replace&#39;s (only the ovirt-data volume) but only of arbiter bricks of the affected volume in the first issue. </div><div><br></div><div>the volume info&#39;s of the affected bricks look like this;</div><div><br></div><div>Volume Name: ovirt-data<br>Type: Distributed-Replicate<br>Volume ID: 2775dc10-c197-446e-a73f-275853d38666<br>Status: Started<br>Snapshot Count: 0<br>Number of Bricks: 4 x (2 + 1) = 12<br>Transport-type: tcp<br>Bricks:<br>Brick1: 10.201.0.5:/data5/gfs/bricks/brick1/ovirt-data<br>Brick2: 10.201.0.1:/data5/gfs/bricks/brick1/ovirt-data<br>Brick3: 10.201.0.9:/data0/gfs/bricks/bricka/ovirt-data (arbiter)<br>Brick4: 10.201.0.7:/data5/gfs/bricks/brick1/ovirt-data<br>Brick5: 10.201.0.9:/data5/gfs/bricks/brick1/ovirt-data<br>Brick6: 10.201.0.11:/data0/gfs/bricks/bricka/ovirt-data (arbiter)<br>Brick7: 10.201.0.6:/data5/gfs/bricks/brick1/ovirt-data<br>Brick8: 10.201.0.8:/data5/gfs/bricks/brick1/ovirt-data<br>Brick9: 10.201.0.12:/data0/gfs/bricks/bricka/ovirt-data (arbiter)<br>Brick10: 10.201.0.12:/data5/gfs/bricks/brick1/ovirt-data<br>Brick11: 10.201.0.11:/data5/gfs/bricks/brick1/ovirt-data<br>Brick12: 10.201.0.10:/data0/gfs/bricks/bricka/ovirt-data (arbiter)<br>Options Reconfigured:<br>cluster.choose-local: off<br>server.outstanding-rpc-limit: 1024<br>storage.owner-gid: 36<br>storage.owner-uid: 36<br>transport.address-family: inet<br>performance.readdir-ahead: on<br>nfs.disable: on<br>performance.quick-read: off<br>performance.read-ahead: off<br>performance.io-cache: off<br>performance.stat-prefetch: off<br>performance.low-prio-threads: 32<br>network.remote-dio: off<br>cluster.eager-lock: enable<br>cluster.quorum-type: auto<br>cluster.server-quorum-type: server<br>cluster.data-self-heal-algorithm: full<br>cluster.locking-scheme: granular<br>cluster.shd-max-threads: 8<br>cluster.shd-wait-qlength: 10000<br>features.shard: on<br>user.cifs: off<br>performance.write-behind-window-size: 512MB<br>performance.cache-size: 384MB<br>server.event-threads: 5<br>performance.strict-o-direct: on<br>cluster.brick-multiplex: on<br></div><div><br></div><div>Volume Name: ovirt-engine<br>Type: Distributed-Replicate<br>Volume ID: 9cc4dade-ef2e-4112-bcbf-e0fbc5df4ebc<br>Status: Started<br>Snapshot Count: 0<br>Number of Bricks: 3 x 3 = 9<br>Transport-type: tcp<br>Bricks:<br>Brick1: 10.201.0.5:/data5/gfs/bricks/brick1/ovirt-engine<br>Brick2: 10.201.0.1:/data5/gfs/bricks/brick1/ovirt-engine<br>Brick3: 10.201.0.2:/data5/gfs/bricks/brick1/ovirt-engine<br>Brick4: 10.201.0.8:/data5/gfs/bricks/brick1/ovirt-engine<br>Brick5: 10.201.0.9:/data5/gfs/bricks/brick1/ovirt-engine<br>Brick6: 10.201.0.3:/data5/gfs/bricks/brick1/ovirt-engine<br>Brick7: 10.201.0.12:/data5/gfs/bricks/brick1/ovirt-engine<br>Brick8: 10.201.0.11:/data5/gfs/bricks/brick1/ovirt-engine<br>Brick9: 10.201.0.7:/data5/gfs/bricks/brick1/ovirt-engine<br>Options Reconfigured:<br>performance.strict-o-direct: on<br>performance.write-behind-window-size: 512MB<br>features.shard-block-size: 64MB<br>performance.cache-size: 128MB<br>nfs.disable: on<br>transport.address-family: inet<br>performance.quick-read: off<br>performance.read-ahead: off<br>performance.io-cache: off<br>performance.low-prio-threads: 32<br>network.remote-dio: enable<br>cluster.eager-lock: enable<br>cluster.quorum-type: auto<br>cluster.server-quorum-type: server<br>cluster.data-self-heal-algorithm: full<br>cluster.locking-scheme: granular<br>cluster.shd-max-threads: 8<br>cluster.shd-wait-qlength: 10000<br>features.shard: on<br>user.cifs: off<br>storage.owner-uid: 36<br>storage.owner-gid: 36<br>cluster.brick-multiplex: on<br></div><div><br></div><div>Volume Name: ovirt-mon-2<br>Type: Replicate<br>Volume ID: 111ff79a-565a-4d31-9f31-4c839749bafd<br>Status: Started<br>Snapshot Count: 0<br>Number of Bricks: 1 x (2 + 1) = 3<br>Transport-type: tcp<br>Bricks:<br>Brick1: 10.201.0.10:/data0/gfs/bricks/brick1/ovirt-mon-2<br>Brick2: 10.201.0.11:/data0/gfs/bricks/brick1/ovirt-mon-2<br>Brick3: 10.201.0.12:/data0/gfs/bricks/bricka/ovirt-mon-2 (arbiter)<br>Options Reconfigured:<br>performance.client-io-threads: on<br>nfs.disable: on<br>transport.address-family: inet<br>performance.quick-read: off<br>performance.read-ahead: off<br>performance.io-cache: off<br>performance.low-prio-threads: 32<br>network.remote-dio: off<br>cluster.eager-lock: enable<br>cluster.quorum-type: auto<br>cluster.server-quorum-type: server<br>cluster.data-self-heal-algorithm: full<br>cluster.locking-scheme: granular<br>cluster.shd-max-threads: 8<br>cluster.shd-wait-qlength: 10000<br>features.shard: on<br>user.cifs: off<br>cluster.choose-local: off<br>client.event-threads: 4<br>server.event-threads: 4<br>storage.owner-uid: 36<br>storage.owner-gid: 36<br>performance.strict-o-direct: on<br>performance.cache-size: 64MB<br>performance.write-behind-window-size: 128MB<br>features.shard-block-size: 64MB<br>cluster.brick-multiplex: on<br></div><div><br></div><div>Thanks Olaf</div></div></div>