<div dir="ltr">Thanks a lot for advice. The rig is not bootable, so I use rescuecd live system to inspect/repair. There is no auto-import  in it.<div>I did a dd of=/dev/null for all my pool's devices (all 6 raidz2, ZIL and cache) overnight. all reads were successful, no messages in dmesg whatsoever related to storage/scsi/zfs. Night dd run produced only :</div><div><br></div><div><div><font face="monospace">[11271.659763] perf: interrupt took too long (2513 > 2500), lowering kernel.perf_event_max_sample_rate to 79000</font></div><div><font face="monospace">[15930.168897] perf: interrupt took too long (3153 > 3141), lowering kernel.perf_event_max_sample_rate to 63000</font></div><div><br></div>I don't believe this signifies any problems with my disks/controllers.</div><div><br></div><div>All 6 devices and ZIL show identical txg from zdb -l</div><div><br></div><div>Replacing all 6 drives is an overkill for my budget at the moment and total profanation of the idea I built this pool for - reliability, fault tolerance and backup. </div><div><br></div><div>Is there a way to get more information about the import error? Some command line switches/environmental variables to set? When I run zpool import, dmesg and/or system log has no messages. The diag message produced by zpool import command is not very helpful.</div><div><br></div><div>The ZFS-8000-4J message that is referenced in zpool import output relates to missing/failed devices, but there are no OFFLINE/REMOVED/UNAVAIL devices in the pool config. They are all present in /dev/disk/by-id and /dev and successful read is confirmed.</div><div><br></div><div>Thanks for your support.</div><div>KR</div><div>Anton.</div><div><br></div><div><br></div><div><br><div class="gmail_quote"><div dir="ltr">On Sat, Apr 21, 2018 at 10:24 PM Daniel Armengod via zfs-discuss <<a href="mailto:zfs-discuss@list.zfsonlinux.org">zfs-discuss@list.zfsonlinux.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
  
    
  
  <div text="#000000" bgcolor="#FFFFFF">
    <p>*Wait for someone more knowledgeable to provide advice*</p>
    <p>I was in a similar situation just yesterday. 4-drive RAIDz1, 1
      drive completely dead, the other one had acted up.</p>
    <p>What I did (again: wait for someone else to provide input on
      this) was to:</p>
    <p>* Disable ZFS automatic import on boot (in my case, systemctl
      disable zfs-import.target). Actually, boot the system as stripped
      of non-essential processes and services as you can.<br>
    </p>
    <p>* Check dmesg for error messages. Disks acting up will leave a
      very recognizable pattern there.</p>
    <p>* Make a full non-destructive read-only badblocks pass on each
      device. This will tell you if they can withstand reads. If any
      disks are not-yet-dead-but-dying the stress will leave logs in the
      kernel ring buffer; check dmesg regularly. Identify how many flaky
      drives you have. Pray you don't break the redundancy threshold.<br>
    </p>
    <p>* Check the ZFS data structures with zdb. With the pool
      unmounted, for each member drive, run zdb -l
      /dev/<path_to_drive>. Make sure to provide the
      partition/slice number, even if you gave ZFS the whole disks to
      build the pool. Of particular note is the txg number: it should be
      the same in all devices. I believe it should be the same in *at
      least* n-2 devices for a raidz2.</p>
    <p>* Go back and read the zdb manual, it's quite interesting.<br>
    </p>
    <p>In my case, 2 of the remaining RAIDZ1 disks - the healthy ones -
      showed a txg number higher than the faulty one.</p>
    <p>zpool import tank -XF did the trick for me. I was lucky and able
      to recover all the data (if anything was lost I've yet to notice,
      it mostly contains anime :P) I thought I'd lose.</p>
    <p>After successful recovery, re-import it with -o readonly=on and
      zfs send'd all the datasets you care about somewhere safe and
      reliable. Then you can do disk reshuffling until you can trust
      your pool again.</p>
    <p>Best of luck,</p></div><div text="#000000" bgcolor="#FFFFFF">
    <br>
    <div class="m_3337375305184736807moz-cite-prefix">On 2018-04-21 19:36, Anton Gubar'kov
      via zfs-discuss wrote:<br>
    </div>
    </div><div text="#000000" bgcolor="#FFFFFF"><blockquote type="cite">
      <div dir="ltr">Hi, 
        <div><br>
        </div>
        <div>My recent backup server freeze ended up with non-importable
          pool. Since it's a backup server - I have no further backups -
          so following the diag message is not a way for me. I would
          like to recover this pool as it contains some valuable data I
          cannot reproduce ever (video archive).</div>
        <div><br>
        </div>
        <div>So my status today is: </div>
        <div><br>
        </div>
        <div>
          <div><font face="monospace">root@sysresccd /root % zpool
              import -N -f  home</font></div>
          <div><font face="monospace">cannot import 'home': I/O error</font></div>
          <div><font face="monospace">        Destroy and re-create the
              pool from</font></div>
          <div><font face="monospace">        a backup source.</font></div>
        </div>
        <div><font face="monospace"><br>
          </font></div>
        <div>
          <div><font face="monospace">root@sysresccd /root %
              zpool import -N</font></div>
          <div><font face="monospace">   pool: home</font></div>
          <div><font face="monospace">     id:
              4810743847386909334</font></div>
          <div><font face="monospace">  state: ONLINE</font></div>
          <div><font face="monospace"> status: One or more
              devices contains corrupted data.</font></div>
          <div><font face="monospace"> action: The pool can be
              imported using its name or numeric identifier.</font></div>
          <div><font face="monospace">   see: <a href="http://zfsonlinux.org/msg/ZFS-8000-4J" target="_blank">http://zfsonlinux.org/msg/ZFS-8000-4J</a></font></div>
          <div><font face="monospace"> config:</font></div>
          <div><font face="monospace"><br>
            </font></div>
          <div><font face="monospace">        home             
                            ONLINE</font></div>
          <div><font face="monospace">          raidz2-0       
                            ONLINE</font></div>
          <div><font face="monospace">           
              wwn-0x5000c500a41a0a00      ONLINE</font></div>
          <div><font face="monospace">           
              wwn-0x5000c500a41ae340      ONLINE</font></div>
          <div><font face="monospace">           
              wwn-0x5000c500a41b4c57      ONLINE</font></div>
          <div><font face="monospace">           
              wwn-0x5000c500a41b7572      ONLINE</font></div>
          <div><font face="monospace">           
              wwn-0x5000c500a41ba99c      ONLINE</font></div>
          <div><font face="monospace">           
              wwn-0x5000c500a41babe8      ONLINE</font></div>
          <div><font face="monospace">        cache</font></div>
          <div><font face="monospace">          sdj3</font></div>
          <div><font face="monospace">        logs</font></div>
          <div><font face="monospace">         
              wwn-0x30000d1700d9d40f-part2  ONLINE</font></div>
          <div style="font-family:monospace"><br>
          </div>
        </div>
        <div>I tried import -F and import -FX too - no luck :-[<br>
        </div>
        <div>I have reviewed all similar cases that google search
          returned me. I'm really confused as I've built the 6-drive
          raidz2 just for the resiliense and now I face availability
          issues.</div>
        <div><br>
        </div>
        <div>Can someone experienced provide an advice on recovery?</div>
        <div><br>
        </div>
        <div>My ZFS versions:</div>
        <div>v0.7.7-r0-gentoo<br>
        </div>
        <div><br>
        </div>
        <div>This is also my root pool, so I can't boot my normal rig
          and booting the recovery environment using <a href="https://wiki.gentoo.org/wiki/User:Fearedbliss" target="_blank">https://wiki.gentoo.org/wiki/User:Fearedbliss</a> systemrescuecd
          based live system.</div>
        <div><br>
        </div>
        <div><br>
        </div>
        <div>Thanks in advance.</div>
        <div>Anton.</div>
        <div><br>
        </div>
        <div><br>
        </div>
        <div><br>
        </div>
        <div><br>
        </div>
        <div><br>
        </div>
      </div>
      <br>
      <fieldset class="m_3337375305184736807mimeAttachmentHeader"></fieldset>
      <br>
      </blockquote></div><div text="#000000" bgcolor="#FFFFFF"><blockquote type="cite"><pre>_______________________________________________
zfs-discuss mailing list
<a class="m_3337375305184736807moz-txt-link-abbreviated" href="mailto:zfs-discuss@list.zfsonlinux.org" target="_blank">zfs-discuss@list.zfsonlinux.org</a>
<a class="m_3337375305184736807moz-txt-link-freetext" href="http://list.zfsonlinux.org/cgi-bin/mailman/listinfo/zfs-discuss" target="_blank">http://list.zfsonlinux.org/cgi-bin/mailman/listinfo/zfs-discuss</a>
</pre>
    </blockquote>
    <br>
  </div>

_______________________________________________<br>
zfs-discuss mailing list<br>
<a href="mailto:zfs-discuss@list.zfsonlinux.org" target="_blank">zfs-discuss@list.zfsonlinux.org</a><br>
<a href="http://list.zfsonlinux.org/cgi-bin/mailman/listinfo/zfs-discuss" rel="noreferrer" target="_blank">http://list.zfsonlinux.org/cgi-bin/mailman/listinfo/zfs-discuss</a><br>
</blockquote></div></div></div>