echarts大量数据性能优化处理

海绵宝龙

5016人浏览 · 2024-11-18 11:32:01

海绵宝龙 · 2024-11-18 11:32:01 发布

当使用 ECharts 渲染大规模数据时，可能会出现性能问题例如渲染卡顿。这通常是因为浏览器在处理大量的 DOM 节点时会变得相当缓慢。

关闭动画：ECharts默认的动画效果会消耗一些性能，对于大数据量的图表，可以尝试关闭动画。
在数据量特别大的时候，为图形应用动画可能会导致应用的卡顿，这个时候我们可以设置animation: false关闭动画。
对于数据量会动态变化的图表，我们更推荐使用animationThreshold这个配置项，当画布中图形数量超过这个阈值的时候，ECharts 会自动关闭动画来提升绘制性能。这个配置往往是一个经验值，通常 ECharts 的性能足够实时渲染上千个图形的动画（我们默认值也是给了 2000），但是如果你的图表很复杂，或者你的用户环境比较恶劣，页面中又同时会运行很多其它复杂的代码，也可以适当的下调这个值保证整个应用的流畅性。

let option = {
  animation: false,
  series: [
    // ...
  ]
};
echarts.setOption(option);

使用 large 模式： ECharts 在 series 中提供了一个 large选项，当数据量特别大（如超过千条数据）时，可以尝试开启 large 模式，此模式下会对绘制进行优化。

let option = {
  series: [
    {
      type: 'scatter',
      large: true,
      data: largeData,
    },
  ],
};
echarts.setOption(option);

启用进度渲染：对于特别大的数据集，我们可以启用 ECharts
的渲染进度条。这可以让用户知道渲染的进度，同时也可以避免浏览器在渲染过程中出现无响应的现象。

这需要在初始化 ECharts 实例时，将 option 中的 progressive 和 progressiveThreshold 属性设置为合适的值。在数据量大于 progressiveThreshold 时，图表会启用渐进渲染。

let option = {
  series: [{
    type: 'lines',
    data: largeData,
    // 开启渐进式渲染
    progressive: 2000,
    // 渲染阈值，大于此值则启动渐进渲染
    progressiveThreshold: 5000,
  }],
};
echarts.setOption(option);

增加滑动轴和懒加载

const option = {
...
dataZoom: [
    {
      type: 'slider',
      xAxisIndex: 0,
      filterMode: 'none'
    }
  ]
...
}

myChart.on('dataZoom', function (params) {
...
｝

这种方法能够很好展示部分区间的数据，但是缺点也很明显，很难看到全局的数据，而且要重复的请求和监听，这对于大屏来说无疑不太合适

数据降维或者降采样

折线图在数据量远大于像素点时候的降采样策略，开启后可以有效的优化图表的绘制效率，默认关闭，也就是全部绘制不过滤数据点。

可选：


var option = {
  series: {
    type: "line",
    sampling: "lttb", // 最大程度保证采样后线条的趋势，形状和极值。
  },
};


'lttb' 采用 Largest-Triangle-Three-Bucket 算法，可以最大程度保证采样后线条的趋势，形状和极值。
'average' 取过滤点的平均值
'min' 取过滤点的最小值
'max' 取过滤点的最大值
'minmax' 取过滤点绝对值的最大极值 (从 v5.5.0 开始支持)
'sum' 取过滤点的和

优点

使用简单，ECharts 内部降采样算法，效果显著
可以完整的将曲线趋势展示出来，和原曲线基本一致

缺点

并不是展示的所有点，会删除一些无用的点，保证渲染性能
最大程度保证采样后线条的趋势，形状和极值，但是某些情况下，极值有偏差，测试中发现

数据进行筛选和抽样来减少渲染点数
简单随机抽样

在这个例子中，我们首先抓取所有的原始数据，然后从中随机抽取一定数量的样本。这会确保所有的数据都有相同的被选择为样本的机会。

const rawData = fetchAllData();  // 获取所有的原始数据
   const sampledData = [];
   const sampleSize = 1000;  // 设置我们想抽取的样本的数量
   
   // 循环我们想抽取的样本的数量
   for (let i = 0; i < sampleSize; i++) {
     // 随机地获取一个原始数据的索引
     const index = Math.floor(Math.random() * rawData.length);
     // 使用这个随机索引抽取一个样本，并添加到样本的数组
     sampledData.push(rawData[index]);
   }
   // 现在 sampledData 数组包含了我们的随机样本

方法定义

/**
 * This method is used to perform simple random sampling from the raw data.
 * @returns {Array} Sampled data
 */
function sampledData() {
    // 获取所有的原始数据
    const rawData = fetchAllData(); 
    
    // 初始化一个数组用作存放随机抽取的样本
    const sampledData = [];
   
    // 设置我们想要抽取的样本数量
    const sampleSize = 1000;
   
    // 循环sampleSize次，每次抽取一个样本
    for (let i = 0; i < sampleSize; i++) {
       // 从原始数据中随机选取一个索引
       const index = Math.floor(Math.random() * rawData.length);
     
       // 使用这个随机索引抽取一个样本，并添加到样本数组中
       sampledData.push(rawData[index]);
    }
   
    // 返回抽取的样本数组
    return sampledData;
}

这个sampledData函数使用了简单随机抽样的方法，从原始数据中抽取样本。所有的原始数据都有相同的被抽取的概率。这个函数首先获取所有的原始数据，然后选择要抽取的样本的数量。然后它在每个循环迭代中使用Math.random()产生一个随机数作为索引，这个随机索引用来从原始数据中选择样本。这个函数最后返回抽取的样本数组。

系统抽样

在系统抽样中，我们按照一定的间隔选择样本。例如，我们可以每10个数据抽取一个。这种方法可以在保留数据的整体趋势的同时，大大减少数据的数量。

const rawData = fetchAllData();  // 获取所有原始数据
   const sampledData = [];
   const interval = 10;  // 设置我们选择样本的间隔

   // 从原始数据中选择样本
   for (let i = 0; i < rawData.length; i += interval) {
     sampledData.push(rawData[i]);
   }

   // 现在，sampledData 数组已经包含了选择的样本

方法定义

/**
 * This method is used to perform systematic sampling from the raw data.
 * @returns {Array} Sampled data
 */
function sampledData() {
    // 获取所有的原始数据
    const rawData = fetchAllData();
    
    // 初始化一个数组用作存放选择的样本
    const sampledData = [];

    // 设置我们选择样本的间隔
    const interval = 10;

    // 按照给定的间隔，从原始数据中选择样本
    for (let i = 0; i < rawData.length; i += interval) {
       // 在每个间隔上，将数据添加到样本数组中
       sampledData.push(rawData[i]);
    }

    // 返回选择的样本数组
    return sampledData;
}

在上述sampledData函数中，我们实现了系统抽样方法。该方法按照预定的间隔（例如，每隔10个数据挑选一个）从原始数据中选择样本。这种方法既保留了数据的整体趋势，又显著减少了数据数量。

分层抽样

分层抽样首先需要将数据角色分层。这种情况下，我们可能按一定的规则把数据分为几个层次，比如按照某个特征的区间分层。然后，从每一层中随机抽取样本。我们可以保证我们的样本中含有所有不同层的数据。

const rawData = fetchAllData(); // 获取所有原始数据
   const sampledData = [];
   
   // 假设我们有三个层，每个层的数据量均一致
   const layers = splitDataIntoLayers(rawData, 3); // 函数自定义，用于数据分层
   const samplePerLayer = 100; 
   
   layers.forEach(layerData => {
       for (let i = 0; i < samplePerLayer; i++) {
           const index = Math.floor(Math.random() * layerData.length);
           sampledData.push(layerData[index]);
       }
   });
   
   // 现在，sampledData 数组包含了抽样的数据，这些数据等分自每个数据层

方法定义

const _ = require('lodash');
const dfd = require("danfojs-node");

// 假设我们有一个名为df的dataframe， 我们想根据'income' column把它分层

let df = new dfd.DataFrame(/*your data*/);

// 先把 'income'分成三类
let bins = [0, 1.5, 3.0, 4.5, 6, Infinity];
let labels = [1, 2, 3, 4, 5];
df['income_cat'] = df['income'].cut(bins, labels);

// Stratified sampling on 'income_cat'
let incomeCat = df['income_cat'].value_counts();
let trainSet = new dfd.DataFrame([], {columns: df.columns});
let testSet = new dfd.DataFrame([], {columns: df.columns});

// Get 80% train and 20% test for each category
for (let label in incomeCat) {
    let size = incomeCat[label];
    let sampleSize = Math.round(size * 0.8);
    let temp = df[df['income_cat'].eq(label)];
    
    let trainSample = temp.sample({n: sampleSize});
    let rest = temp.iloc[trainSample.index, 'index'];
    
    trainSet = trainSet.concat(trainSample);
    testSet = testSet.concat(rest);
}

// Remove 'income_cat' to get the data back to its original state
trainSet = trainSet.drop(['income_cat'], {axis: 1});
testSet = testSet.drop(['income_cat'], {axis: 1});

trainSet和testSet分别包含了训练样本和测试样本，里面的样本都是根据’income’列进行分层的。

聚类抽样

聚类抽样需要我们首先确定数据属于哪个聚类。例如，我们可以使用一种聚类算法如 K-均值聚类来确定每个数据点的类别。然后，我们就可以从每个类别中随机抽取样本了。

  const rawData = fetchAllData(); // 获取所有原始数据
   const sampledData = [];
   
   // 假设我们有三个类别，并且我们已经用 K-均值 聚类算法确定了每个数据点的类别
   const clusters = splitDataIntoClusters(rawData, 3); // 函数自定义，用于数据聚类
   const samplePerCluster = 100; 
   
   clusters.forEach(clusterData => {
       for (let i = 0; i < samplePerCluster; i++) {
           const index = Math.floor(Math.random() * clusterData.length);
           sampledData.push(clusterData[index]);
       }
   });

方法定义

  // 'df-js' is a package that simulates pandas in JavaScript
const DataFrame = require('df-js');
const kmeans = require('ml-kmeans');

// Assume we have matrix X for our data
let X = /* your data */;

// fit the model
let predictions = kmeans(X, 3, {initialization: 'random', seed: 42});

// Add the cluster labels for each data point to the dataframe
let df = new DataFrame(/* your data */);
df.addColumn('cluster', predictions.clusters);

// Extract a random sample from each cluster
let sample_1 = df.subset(df.get('cluster').eq(1)).sample(100);
let sample_2 = df.subset(df.get('cluster').eq(2)).sample(100);
let sample_3 = df.subset(df.get('cluster').eq(3)).sample(100);

// Combine the samples to create the final sample
let final_sample = sample_1.concat(sample_2, sample_3);

注意，这份代码假设你的数据在一个DataFrame对象中。df-js是一个非常简洁的库用来处理类似这样的数据结构，但它仍然在开发中，可能无法处理所有的情况。

7.其他

服务器提速
优化数据结构，精简数据返回字段，降低数据包大小
开启 gzip 压缩，加快海量数据下载速度
数据处理
数据聚合：对于特别密集的数据点，使用聚合算法在源头对数据降采样，进行数据聚合，减少渲染的数据点数量。
数据过滤：数据中存在一些无关的信息或数据噪音，服务端对数据进行过滤，只需要保留有用的数据即可，剔除无效的数据。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

机器人-从“性能参数领先”转向“工业化能力领先”

DAMO开发者矩阵

一文吃透LangChain核心概念与完整生态体系

随着大模型技术快速迭代，单纯调用模型API的开发方式早已无法满足企业级需求。原生大模型存在无长期记忆、无法对接外部数据、不能自主调用工具、流程不可控、无法溯源调试等痛点，很难落地复杂业务场景，比如智能知识库、自动化办公Agent、多轮对话机器人、智能数据分析等。而LangChain的出现，完美解决了大模型应用落地的核心难题。截至2026年，LangChain GitHub星标超9万，月下载量数百万