<html><head><meta http-equiv="content-type" content="text/html; charset=utf-8"></head><body dir="auto"><div></div><div><br></div><div><br>On Apr 29, 2018, at 2:58 PM, Richard Yao via zfs-discuss <<a href="mailto:zfs-discuss@list.zfsonlinux.org">zfs-discuss@list.zfsonlinux.org</a>> wrote:<br><br></div><blockquote type="cite"><div><span></span><br><span></span><br><span>On Apr 29, 2018, at 2:50 PM, Edward Ned Harvey (zfsonlinux) via zfs-discuss <<a href="mailto:zfs-discuss@list.zfsonlinux.org">zfs-discuss@list.zfsonlinux.org</a>> wrote:</span><br><span></span><br><blockquote type="cite"><blockquote type="cite"><span>From: zfs-discuss <<a href="mailto:zfs-discuss-bounces@list.zfsonlinux.org">zfs-discuss-bounces@list.zfsonlinux.org</a>> On Behalf </span><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"><span>Of Gandalf Corvotempesta via zfs-discuss</span><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"><span></span><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"><span>This bitrot myth is totally nonsense today</span><br></blockquote></blockquote><blockquote type="cite"><span></span><br></blockquote><blockquote type="cite"><span>I have seen both cases - I've seen environments like Gandalf describes, where bitrot simply never occurs, and I've seen environments like Gordon, Steve, Richard, and Durval describe, where it occurs. I've also seen environments where if it occurs, it could result in millions of dollars lost, and environments where if it occurs, nobody cares.</span><br></blockquote><blockquote type="cite"><span></span><br></blockquote><blockquote type="cite"><span>It certainly is related to the hardware, and related to the price of the hardware, but that's not a pure indicator. You can't just blindly assume expensive SAS hardware will not do it, nor can you assume cheap SATA disks will do it. It partly comes down to manufacturer specifics in specific models of disk and specific factories... It also comes down to climate in the datacenter, cable management within the system chassis (interference and cross-talk) and various other factors.</span><br></blockquote><span></span><br><span>There is nothing in the hardware to protect against this. A misdirected write (likely caused by vibration) could be detected if a read is done afterward, but that has two problems. The first is that nobody does it because it hurts performance. The second is that there is no telling where the write went without stopping the world and scrutinizing everything (for several hours) and trying to make sense of how to fix it, which nobody does. It is in no way practical.</span><br></div></blockquote><div><br></div>Just to add to my remark, this video demonstrates vibrations can cause misdirected IOs:<div><br></div><div><a href="https://youtu.be/tDacjrSCeq4">https://youtu.be/tDacjrSCeq4</a></div><div><br></div><div>In that example, the vibrations are caused by yelling, but vibrations can come from anywhere, including other drives.</div><div><br></div><div>The IOPS drop because reading blocks from the wrong places is easy for the drive to detect and correct by reissuing the read. Misdirected writes should go undetected, but the detection of misdirected reads demonstrates that misdirected IOs occur. A write is as capable of being thrown off track as a read is.<br><blockquote type="cite"><div><span></span><br><span>That is not even talking about the case that more commonly occurs to people when they hear bitrot, which is sectors being damaged and going bad. That is the one case that traditional RAID is able to handle, but it is by no means the only issue, or the most common issue.</span><br><span></span><br><blockquote type="cite"><span>There's no way to have an absolute guarantee (if you buy this type of hardware you won't be affected) so the easiest and cheapest thing to do is simply use filesystems that provide data integrity. Poof, problem solved.</span><br></blockquote><span></span><br><span>Show me mechanical storage hardware and I can guarantee that I can find a way for something to go wrong with it.</span><br><span></span><br><blockquote type="cite"><span>To emphasize this point (you can't just assume because of the hardware) search for intel errata. Even in ubiquitous enterprise standard hardware, errors occur, and manufacturing flaws get designed in. Not to mention manufacturing imperfections. I once had a CPU where one instruction (a single instruction, related to multitasking) was flawed. So the CPU passed all diagnostics, and could run the OS installer (which was single threaded), but still could not boot the OS, the system crashed every time it tried to start the first multi-tasked process in the system. And I've seen other hardware that would do weird shit like this... But only sometimes. Called "flaky" hardware. Enterprise or commodity, it can happen to them all, but less often on the enterprise. It's just a random probability distribution.</span><br></blockquote><span></span><br><span>To add to this, ZFS has caught corruption caused by disk controllers.</span><br><blockquote type="cite"><span>_______________________________________________</span><br></blockquote><blockquote type="cite"><span>zfs-discuss mailing list</span><br></blockquote><blockquote type="cite"><span><a href="mailto:zfs-discuss@list.zfsonlinux.org">zfs-discuss@list.zfsonlinux.org</a></span><br></blockquote><blockquote type="cite"><span><a href="http://list.zfsonlinux.org/cgi-bin/mailman/listinfo/zfs-discuss">http://list.zfsonlinux.org/cgi-bin/mailman/listinfo/zfs-discuss</a></span><br></blockquote><span></span><br><span>_______________________________________________</span><br><span>zfs-discuss mailing list</span><br><span><a href="mailto:zfs-discuss@list.zfsonlinux.org">zfs-discuss@list.zfsonlinux.org</a></span><br><span><a href="http://list.zfsonlinux.org/cgi-bin/mailman/listinfo/zfs-discuss">http://list.zfsonlinux.org/cgi-bin/mailman/listinfo/zfs-discuss</a></span><br></div></blockquote></div></body></html>