如何在浏览器不崩溃的情况下过滤200万行数据?(6)

发布于2019-04-20 11:58:37

最近我分配到了一个非常有趣的任务:在前端显示1GB文件和200万行数据,并实现过滤,在这篇文章中,我将分享我是如何完成这个任务的。

背景

我曾经创建了一个简单的React应用程序。这个应用程序从服务器加载一些数据,并呈现在几个表格中。在成功演示了React应用程序后,客户授权我访问生产数据。然后,有趣的事情发生了。当我将应用程序从开发API连接到生产环境并重新加载页面时,看到了类似“显示此网页时出现问题”的错误。经过调试,我发现生产服务器的JSON文件大小约为500MB(而不是从开发服务器的2到5 MB)。

最新的需求是:

1.JSON文件最大可达到1 GB。

2.后端不会进行分页——只能接受这个事实。

首先,我尝试了react virtualized,一个React组件,可以通过虚拟渲染有效地渲染大型列表

但几天后又出现了新的需求:

3.“标准的浏览器搜索(Ctrl/Cmd + F)功能无法正常工作,必须修复这个问题!”

虚拟列表背后的主要思想是只渲染可见的内容。因此,如果用户在搜索框中输入一些东西,那么浏览器只会搜索虚拟列表的可见部分。

下图演示了浏览器是如何搜索虚拟列表的。请注意,滚动后出现的记录(虚拟列表进行了重新渲染)没有高亮显示,尽管包含了要搜索的值“@”。

搜索框

我决定创建一个具有类似默认浏览器搜索功能的自定义搜索框,但可以搜索所有的200万条记录。

对大量数据进行过滤操作会导致“堆内存不足”。截至2018年4月,我没有找到任何提供内置搜索/过滤功能的React虚拟列表实现。

经过几个小时的谷歌搜索和在Stack Overflow网站上提问之后,我想到了Web Worker,并使用了Simple Web Worker库。这个方法的主要思想是将一个大数组拆分成更小的部分,并使用Web Worker异步处理每个部分。

找到最佳的块长度是很有必要的。块的长度越短搜索速度就越慢,但长度越长,在低配置设备上出现“堆内存不足”的可能性就越大。在我的例子中,根据实验结果,3000是最佳长度。

华丽制胜

下图演示了自定义搜索框。在发生滚动后,高亮显示不会消失,用户可以通过箭头按键在行和表之间导航。是的,过滤数据确实需要一些时间,但它可以处理比之前更多的信息。为简单起见,数组只包含了9000个项,但可以随意添加,不过过滤时间也会随之增加(过滤200万行可能需要5-7分钟)。

这种方法帮助我解决了几个问题:

你可以在这里找到应用程序的源代码:

https://github.com/uptechteam/react-filter-demo

演示:https://uptechteam.github.io/react-filter-demo/

解决方案简短描述

这个React应用程序包含3个组件:

英文原文:

https://blog.uptech.team/https-medium-com-oleksii-kryvonosov-how-to-filter-1gb-json-on-the-frontend-and-not-crash-the-browser-ff59ebeb1baa

更多内容,请关注前端之巅。