实时计算优化技术（GPU并行计算、SIMD指令、缓存优化），毫秒级本地解压逻辑实例

邝煜云

351人浏览 · 2025-11-06 10:03:37

邝煜云 · 2025-11-06 10:03:37 发布

详细介绍如何利用GPU并行计算、SIMD指令和缓存优化技术，实现毫秒级的三维数据本地解压逻辑。

1. GPU并行解压架构

1.1 CUDA/OpenCL解压内核设计

class GPUDecompressionEngine {
private:
    cl::Context m_context;
    cl::CommandQueue m_queue;
    cl::Kernel m_decompress_kernel;
    cl::Buffer m_input_buffer;
    cl::Buffer m_output_buffer;
    
public:
    bool initialize() {
        // 初始化OpenCL环境
        std::vector<cl::Platform> platforms;
        cl::Platform::get(&platforms);
        
        cl_context_properties properties[] = {
            CL_CONTEXT_PLATFORM, 
            (cl_context_properties)(platforms[0])(),
            0
        };
        
        m_context = cl::Context(CL_DEVICE_TYPE_GPU, properties);
        auto devices = m_context.getInfo<CL_CONTEXT_DEVICES>();
        m_queue = cl::CommandQueue(m_context, devices[0]);
        
        // 编译解压内核
        std::string kernel_source = load_kernel_source("decompression.cl");
        cl::Program::Sources sources(1, std::make_pair(
            kernel_source.c_str(), kernel_source.length() + 1));
        
        cl::Program program(m_context, sources);
        try {
            program.build(devices);
            m_decompress_kernel = cl::Kernel(program, "decompress_pointcloud");
        } catch (const cl::Error& e) {
            std::cerr << "Build error: " << e.what() << std::endl;
            std::cerr << program.getBuildInfo<CL_PROGRAM_BUILD_LOG>(devices[0]);
            return false;
        }
        
        return true;
    }
    
    // 异步GPU解压
    template<typename T>
    std::future<std::vector<T>> decompress_async_gpu(
        const CompressedData& compressed, 
        const DecompressionConfig& config) {
        
        return std::async(std::launch::async, [this, compressed, config]() {
            return this->decompress_gpu_impl<T>(compressed, config);
        });
    }
    
private:
    template<typename T>
    std::vector<T> decompress_gpu_impl(const CompressedData& compressed,
                                      const DecompressionConfig& config) {
        // 分配GPU内存
        size_t input_size = compressed.data.size();
        size_t output_size = compressed.original_size / sizeof(T);
        
        m_input_buffer = cl::Buffer(m_context, CL_MEM_READ_ONLY, input_size);
        m_output_buffer = cl::Buffer(m_context, CL_MEM_WRITE_ONLY, 
                                   output_size * sizeof(T));
        
        // 上传压缩数据到GPU
        m_queue.enqueueWriteBuffer(m_input_buffer, CL_TRUE, 0, 
                                 input_size, compressed.data.data());
        
        // 设置内核参数
        m_decompress_kernel.setArg(0, m_input_buffer);
        m_decompress_kernel.setArg(1, m_output_buffer);
        m_decompress_kernel.setArg(2, static_cast<uint32_t>(input_size));
        m_decompress_kernel.setArg(3, static_cast<uint32_t>(output_size));
        m_decompress_kernel.setArg(4, config.quantization_bits);
        
        // 执行内核 - 每个工作项处理一个输出元素
        size_t global_work_size = calculate_optimal_global_size(output_size);
        size_t local_work_size = 64; // 根据硬件调整
        
        cl::Event kernel_event;
        m_queue.enqueueNDRangeKernel(m_decompress_kernel, cl::NullRange,
                                   cl::NDRange(global_work_size),
                                   cl::NDRange(local_work_size),
                                   nullptr, &kernel_event);
        
        // 等待内核完成
        kernel_event.wait();
        
        // 下载解压结果
        std::vector<T> result(output_size);
        m_queue.enqueueReadBuffer(m_output_buffer, CL_TRUE, 0,
                                output_size * sizeof(T), result.data());
        
        return result;
    }
};

1.2 OpenCL解压内核实现

// decompression.cl
__kernel void decompress_pointcloud(
    __global const uchar* compressed_data,
    __global float* output_points,
    uint input_size,
    uint output_point_count,
    uint quantization_bits) {
    
    uint gid = get_global_id(0);
    uint total_work_items = get_global_size(0);
    
    // 每个工作项处理多个点以实现负载均衡
    uint points_per_work_item = (output_point_count + total_work_items - 1) / total_work_items;
    uint start_point = gid * points_per_work_item;
    uint end_point = min(start_point + points_per_work_item, output_point_count);
    
    // 共享解码状态（工作组内）
    __local uint shared_decode_state[64];
    __local uint current_input_offset;
    
    if (get_local_id(0) == 0) {
        current_input_offset = 0;
    }
    
    barrier(CLK_LOCAL_MEM_FENCE);
    
    for (uint point_idx = start_point; point_idx < end_point; point_idx++) {
        // 并行解码点坐标
        float3 point = decode_point_parallel(
            compressed_data, 
            &current_input_offset,
            quantization_bits,
            point_idx);
        
        // 写入输出
        uint output_offset = point_idx * 3;
        output_points[output_offset] = point.x;
        output_points[output_offset + 1] = point.y;
        output_points[output_offset + 2] = point.z;
    }
}

// 并行点解码函数
float3 decode_point_parallel(__global const uchar* data,
                            __local uint* current_offset,
                            uint quant_bits,
                            uint point_index) {
    
    // 基于八叉树的并行解码
    uint node_index = point_index;
    float3 bbox_min = (float3)(0.0f, 0.0f, 0.0f);
    float3 bbox_max = (float3)(1.0f, 1.0f, 1.0f);
    
    // 并行遍历八叉树
    for (int depth = 0; depth < 10; depth++) {
        // 读取当前节点的占用模式
        uint occupancy = read_occupancy_bit(data, current_offset);
        
        if (occupancy) {
            // 计算当前点在哪个子节点
            uint child_index = calculate_child_index(node_index, depth);
            
            if (child_index < 8) {
                // 更新边界框
                update_bbox_for_child(&bbox_min, &bbox_max, child_index);
                
                if (is_leaf_node(depth)) {
                    // 叶子节点，计算最终坐标
                    float3 local_offset = decode_local_offset(
                        data, current_offset, quant_bits);
                    
                    return bbox_min + (bbox_max - bbox_min) * local_offset;
                }
            }
        } else {
            break; // 空节点，跳过
        }
    }
    
    return (float3)(0.0f, 0.0f, 0.0f);
}

2. SIMD指令优化

2.1 AVX2/AVX-512解压优化

class SIMDDecompression {
public:
    // AVX2优化的反量化函数
    void dequantize_points_avx2(const int16_t* quantized_data, 
                               float* output_points,
                               size_t point_count,
                               float scale, float offset) {
        
        const size_t simd_lanes = 8; // AVX2一次处理8个float
        const size_t aligned_count = point_count & ~(simd_lanes - 1);
        
        // 加载常量为SIMD向量
        __m256 scale_vec = _mm256_set1_ps(scale);
        __m256 offset_vec = _mm256_set1_ps(offset);
        __m256i zero_vec = _mm256_setzero_si256();
        
        for (size_t i = 0; i < aligned_count; i += simd_lanes) {
            // 加载8个16位整数
            __m128i quantized_low = _mm_load_si128(
                reinterpret_cast<const __m128i*>(quantized_data + i));
            __m128i quantized_high = _mm_load_si128(
                reinterpret_cast<const __m128i*>(quantized_data + i + 4));
            
            // 扩展到32位整数
            __m256i quantized_i32 = _mm256_cvtepi16_epi32(quantized_low);
            // 注意：需要分别处理高低128位
            
            // 转换为浮点数
            __m256 quantized_f32 = _mm256_cvtepi32_ps(quantized_i32);
            
            // 应用反量化: output = quantized * scale + offset
            __m256 dequantized = _mm256_fmadd_ps(quantized_f32, scale_vec, offset_vec);
            
            // 存储结果
            _mm256_store_ps(output_points + i, dequantized);
        }
        
        // 处理剩余的点（非SIMD对齐）
        for (size_t i = aligned_count; i < point_count; i++) {
            output_points[i] = quantized_data[i] * scale + offset;
        }
    }
    
    // SIMD优化的预测解码
    void decode_predictive_simd(const int16_t* residuals, 
                               const float* predictors,
                               float* output,
                               size_t count) {
        
        const size_t simd_lanes = 8;
        const size_t aligned_count = count & ~(simd_lanes - 1);
        
        for (size_t i = 0; i < aligned_count; i += simd_lanes) {
            // 加载残差（16位整数）
            __m128i residual_vec = _mm_load_si128(
                reinterpret_cast<const __m128i*>(residuals + i));
            
            // 扩展到32位并转换为浮点
            __m256i residual_i32 = _mm256_cvtepi16_epi32(residual_vec);
            __m256 residual_f32 = _mm256_cvtepi32_ps(residual_i32);
            
            // 加载预测值
            __m256 predictor_vec = _mm256_load_ps(predictors + i);
            
            // 计算最终值: output = predictor + residual
            __m256 result = _mm256_add_ps(predictor_vec, residual_f32);
            
            // 存储结果
            _mm256_store_ps(output + i, result);
        }
        
        // 处理尾部
        for (size_t i = aligned_count; i < count; i++) {
            output[i] = predictors[i] + static_cast<float>(residuals[i]);
        }
    }
};

// SSE4.1优化的字节流解码
class SIMDByteStreamDecoder {
public:
    // 批量解码可变长度整数
    void decode_varints_sse(const uint8_t* encoded_data,
                           uint32_t* output_values,
                           size_t count) {
        
        const uint8_t* current_ptr = encoded_data;
        
        for (size_t i = 0; i < count; i++) {
            uint32_t value = 0;
            int shift = 0;
            
            // 手动展开循环以提高性能
            uint8_t byte = *current_ptr++;
            value |= (byte & 0x7F) << shift;
            shift += 7;
            
            if (byte & 0x80) {
                byte = *current_ptr++;
                value |= (byte & 0x7F) << shift;
                shift += 7;
                
                if (byte & 0x80) {
                    byte = *current_ptr++;
                    value |= (byte & 0x7F) << shift;
                    shift += 7;
                    
                    if (byte & 0x80) {
                        byte = *current_ptr++;
                        value |= byte << shift;
                    }
                }
            }
            
            output_values[i] = value;
        }
    }
    
    // 使用SSE加速的位流读取
    class SIMDBitStreamReader {
    private:
        const uint8_t* m_data;
        size_t m_bit_position;
        __m128i m_buffer;
        int m_buffer_bits;
        
    public:
        SIMDBitStreamReader(const uint8_t* data) 
            : m_data(data), m_bit_position(0), m_buffer_bits(0) {
            m_buffer = _mm_setzero_si128();
        }
        
        uint32_t read_bits(int num_bits) {
            // 确保缓冲区有足够的位
            if (m_buffer_bits < num_bits) {
                refill_buffer();
            }
            
            // 提取位
            uint32_t result = _mm_extract_epi32(m_buffer, 0) & ((1 << num_bits) - 1);
            
            // 移位缓冲区
            m_buffer = _mm_srli_epi32(m_buffer, num_bits);
            m_buffer_bits -= num_bits;
            
            return result;
        }
        
    private:
        void refill_buffer() {
            // 加载16字节到SIMD寄存器
            __m128i new_data = _mm_loadu_si128(
                reinterpret_cast<const __m128i*>(m_data + (m_bit_position / 8)));
            
            // 调整位对齐
            int bit_offset = m_bit_position % 8;
            if (bit_offset != 0) {
                new_data = _mm_srli_epi32(new_data, bit_offset);
            }
            
            // 合并到现有缓冲区
            m_buffer = _mm_or_si128(m_buffer, 
                _mm_slli_epi32(new_data, m_buffer_bits));
            
            m_buffer_bits += 128 - bit_offset;
            m_bit_position += 128 - bit_offset;
        }
    };
};

3. 缓存优化策略

3.1 数据局部性优化

class CacheOptimizedDecompression {
private:
    static constexpr size_t CACHE_LINE_SIZE = 64;
    static constexpr size_t L1_CACHE_SIZE = 32 * 1024; // 32KB
    
public:
    // 缓存友好的解压数据布局
    struct CacheFriendlyPointCloud {
        struct alignas(CACHE_LINE_SIZE) PointBlock {
            float x[16]; // 16个点的X坐标
            float y[16]; // 16个点的Y坐标  
            float z[16]; // 16个点的Z坐标
            uint32_t attributes[16]; // 属性数据
        };
        
        std::vector<PointBlock> blocks;
        size_t total_points;
        
        PointBlock* get_block(size_t block_index) {
            return &blocks[block_index];
        }
    };
    
    // 分块解压以利用缓存局部性
    void decompress_with_cache_optimization(
        const CompressedData& compressed,
        CacheFriendlyPointCloud& output) {
        
        const size_t points_per_block = 16;
        const size_t num_blocks = (compressed.point_count + points_per_block - 1) 
                                / points_per_block;
        
        output.blocks.resize(num_blocks);
        output.total_points = compressed.point_count;
        
        // 预计算每个块的解码信息
        std::vector<BlockDecodeInfo> block_info(num_blocks);
        precompute_block_info(compressed, block_info);
        
        // 并行处理每个块（每个块适合L1缓存）
        #pragma omp parallel for schedule(dynamic)
        for (size_t block_idx = 0; block_idx < num_blocks; block_idx++) {
            decompress_single_block(compressed, block_info[block_idx], 
                                  output.blocks[block_idx]);
        }
    }
    
private:
    void decompress_single_block(const CompressedData& compressed,
                                const BlockDecodeInfo& info,
                                CacheFriendlyPointCloud::PointBlock& block) {
        
        // 临时缓冲区（适合L1缓存）
        alignas(CACHE_LINE_SIZE) int16_t quantized_data[16 * 3];
        alignas(CACHE_LINE_SIZE) float temp_points[16 * 3];
        
        // 解码量化数据
        decode_quantized_block(compressed.data.data() + info.data_offset,
                             quantized_data, info.bit_length);
        
        // 反量化
        dequantize_block(quantized_data, temp_points, info.quant_scale, 
                        info.quant_offset);
        
        // 重新组织数据为缓存友好布局
        for (int i = 0; i < 16; i++) {
            block.x[i] = temp_points[i * 3];
            block.y[i] = temp_points[i * 3 + 1];
            block.z[i] = temp_points[i * 3 + 2];
        }
    }
    
    // 预取优化的解码循环
    template<typename T>
    void decompress_with_prefetch(const T* compressed_data,
                                 T* output_data,
                                 size_t data_size,
                                 int prefetch_distance = 4) {
        
        // 预取第一个数据块
        _mm_prefetch(reinterpret_cast<const char*>(compressed_data), 
                    _MM_HINT_T0);
        
        for (size_t i = 0; i < data_size; i++) {
            // 预取未来数据块
            if (i + prefetch_distance < data_size) {
                _mm_prefetch(
                    reinterpret_cast<const char*>(compressed_data + i + prefetch_distance), 
                    _MM_HINT_T0);
            }
            
            // 解码当前数据
            output_data[i] = decode_element(compressed_data[i]);
        }
    }
};

// 内存访问模式优化
class MemoryAccessOptimizer {
public:
    // 结构体数组(Array of Structures) 转 数组结构体(Structure of Arrays)
    void convert_aos_to_soa(const PointAOS* aos_data,
                           PointSOA* soa_data,
                           size_t point_count) {
        
        const size_t block_size = 16; // 适合SIMD处理的块大小
        
        for (size_t i = 0; i < point_count; i += block_size) {
            size_t end = std::min(i + block_size, point_count);
            
            // 批量提取X坐标
            for (size_t j = i; j < end; j++) {
                soa_data->x[j] = aos_data[j].x;
            }
            
            // 批量提取Y坐标
            for (size_t j = i; j < end; j++) {
                soa_data->y[j] = aos_data[j].y;
            }
            
            // 批量提取Z坐标
            for (size_t j = i; j < end; j++) {
                soa_data->z[j] = aos_data[j].z;
            }
        }
    }
    
    // 缓存行对齐的内存分配器
    template<typename T>
    class CacheAlignedAllocator {
    public:
        using value_type = T;
        
        template<typename U>
        struct rebind {
            using other = CacheAlignedAllocator<U>;
        };
        
        T* allocate(size_t n) {
            // 分配对齐的内存
            void* ptr = aligned_alloc(CACHE_LINE_SIZE, n * sizeof(T));
            if (!ptr) {
                throw std::bad_alloc();
            }
            return static_cast<T*>(ptr);
        }
        
        void deallocate(T* ptr, size_t) {
            free(ptr);
        }
    };
};

4. 毫秒级解压引擎实现

4.1 多层次并行解压架构

class MillisecondDecompressionEngine {
private:
    GPUDecompressionEngine m_gpu_engine;
    SIMDDecompression m_simd_decoder;
    ThreadPool m_thread_pool;
    DecompressionCache m_cache;
    
public:
    struct PerformanceMetrics {
        std::chrono::microseconds total_time;
        std::chrono::microseconds gpu_time;
        std::chrono::microseconds cpu_time;
        std::chrono::microseconds memory_time;
        size_t bytes_processed;
        double throughput_mbps;
    };
    
    PerformanceMetrics decompress_realtime(
        const CompressedData& compressed,
        float* output_points,
        DecompressionMethod method = AUTO_SELECT) {
        
        auto start_time = std::chrono::high_resolution_clock::now();
        
        PerformanceMetrics metrics;
        metrics.bytes_processed = compressed.original_size;
        
        // 自动选择最优解压方法
        if (method == AUTO_SELECT) {
            method = select_optimal_method(compressed);
        }
        
        switch (method) {
            case GPU_PARALLEL:
                metrics.gpu_time = decompress_gpu_parallel(compressed, output_points);
                break;
                
            case CPU_SIMD:
                metrics.cpu_time = decompress_cpu_simd(compressed, output_points);
                break;
                
            case HYBRID_APPROACH:
                metrics = decompress_hybrid(compressed, output_points);
                break;
        }
        
        auto end_time = std::chrono::high_resolution_clock::now();
        metrics.total_time = std::chrono::duration_cast<std::chrono::microseconds>(
            end_time - start_time);
        
        metrics.throughput_mbps = (compressed.original_size / 1024.0 / 1024.0) 
                                / (metrics.total_time.count() / 1000000.0);
        
        return metrics;
    }
    
private:
    std::chrono::microseconds decompress_gpu_parallel(
        const CompressedData& compressed, float* output_points) {
        
        auto start = std::chrono::high_resolution_clock::now();
        
        // 异步GPU解压
        auto future = m_gpu_engine.decompress_async_gpu<float>(compressed, {});
        auto result = future.get();
        
        // 复制到输出（如果GPU内存不同）
        if (output_points != result.data()) {
            std::memcpy(output_points, result.data(), 
                       compressed.original_size);
        }
        
        auto end = std::chrono::high_resolution_clock::now();
        return std::chrono::duration_cast<std::chrono::microseconds>(end - start);
    }
    
    std::chrono::microseconds decompress_cpu_simd(
        const CompressedData& compressed, float* output_points) {
        
        auto start = std::chrono::high_resolution_clock::now();
        
        // 多线程SIMD解压
        const size_t num_threads = std::thread::hardware_concurrency();
        const size_t points_per_thread = compressed.point_count / num_threads;
        
        std::vector<std::future<void>> futures;
        
        for (size_t i = 0; i < num_threads; i++) {
            size_t start_point = i * points_per_thread;
            size_t end_point = (i == num_threads - 1) 
                             ? compressed.point_count 
                             : start_point + points_per_thread;
            
            futures.push_back(m_thread_pool.enqueue([&, start_point, end_point]() {
                decompress_range_simd(compressed, output_points, 
                                    start_point, end_point);
            }));
        }
        
        // 等待所有线程完成
        for (auto& future : futures) {
            future.get();
        }
        
        auto end = std::chrono::high_resolution_clock::now();
        return std::chrono::duration_cast<std::chrono::microseconds>(end - start);
    }
    
    void decompress_range_simd(const CompressedData& compressed,
                              float* output_points,
                              size_t start, size_t end) {
        
        // SIMD优化的范围解压
        const size_t block_size = 1024;
        
        for (size_t i = start; i < end; i += block_size) {
            size_t block_end = std::min(i + block_size, end);
            size_t block_size_actual = block_end - i;
            
            // 临时缓冲区（栈分配，快速访问）
            alignas(64) int16_t quantized_block[block_size * 3];
            alignas(64) float output_block[block_size * 3];
            
            // 解码当前块
            decode_compressed_block(compressed, i, block_size_actual, 
                                  quantized_block);
            
            // SIMD反量化
            m_simd_decoder.dequantize_points_avx2(
                quantized_block, output_block, block_size_actual * 3,
                compressed.quant_scale, compressed.quant_offset);
            
            // 复制到最终输出
            std::memcpy(output_points + i * 3, output_block, 
                       block_size_actual * 3 * sizeof(float));
        }
    }
    
    DecompressionMethod select_optimal_method(const CompressedData& compressed) {
        // 基于数据大小和硬件能力选择最优解压方法
        
        static const size_t GPU_THRESHOLD = 10 * 1024 * 1024; // 10MB
        static const size_t SIMD_THRESHOLD = 1 * 1024 * 1024; // 1MB
        
        if (compressed.original_size > GPU_THRESHOLD && m_gpu_engine.is_available()) {
            return GPU_PARALLEL;
        } else if (compressed.original_size > SIMD_THRESHOLD) {
            return CPU_SIMD;
        } else {
            return HYBRID_APPROACH;
        }
    }
};

4.2 实时性能监控与自适应优化

class RealtimeDecompressionMonitor {
private:
    std::atomic<uint64_t> m_total_decompressions{0};
    std::atomic<uint64_t> m_total_decompression_time_us{0};
    std::array<std::atomic<uint64_t>, 10> m_timing_buckets;
    
public:
    void record_decompression(uint64_t decompression_time_us, size_t data_size) {
        m_total_decompressions++;
        m_total_decompression_time_us += decompression_time_us;
        
        // 统计时间分布
        size_t bucket = std::min(decompression_time_us / 1000, 
                               m_timing_buckets.size() - 1);
        m_timing_buckets[bucket]++;
        
        // 实时性能分析
        if (m_total_decompressions % 100 == 0) {
            analyze_performance_trends();
        }
    }
    
    bool is_meeting_realtime_requirements() const {
        if (m_total_decompressions < 100) return true; // 样本不足
        
        double avg_time_ms = static_cast<double>(m_total_decompression_time_us) 
                           / m_total_decompressions / 1000.0;
        
        // 检查是否满足毫秒级要求
        return avg_time_ms < 16.67; // 60fps的帧时间
    }
    
    void optimize_for_current_workload() {
        double avg_time_ms = static_cast<double>(m_total_decompression_time_us) 
                           / m_total_decompressions / 1000.0;
        
        if (avg_time_ms > 16.67) {
            // 性能不足，需要优化
            if (m_timing_buckets[0] + m_timing_buckets[1] > m_total_decompressions * 0.8) {
                // 大部分解压在2ms内，可能是偶发问题
                enable_more_aggressive_caching();
            } else {
                // 系统性性能问题
                adjust_decompression_parameters();
            }
        }
    }
    
private:
    void adjust_decompression_parameters() {
        // 基于性能数据动态调整解压参数
        double current_throughput = calculate_current_throughput();
        
        if (current_throughput < TARGET_THROUGHPUT_MBPS) {
            // 降低质量以提高速度
            DecompressionConfig new_config = get_current_config();
            new_config.quantization_bits = std::max(8, new_config.quantization_bits - 2);
            new_config.enable_fast_path = true;
            
            apply_new_config(new_config);
        }
    }
};

5. 实际性能基准测试

5.1 毫秒级解压性能验证

class DecompressionBenchmark {
public:
    struct BenchmarkResult {
        std::string method;
        size_t data_size;
        std::chrono::microseconds min_time;
        std::chrono::microseconds max_time;
        std::chrono::microseconds avg_time;
        std::chrono::microseconds p95_time;
        double throughput_mbps;
        bool meets_realtime;
    };
    
    std::vector<BenchmarkResult> run_comprehensive_benchmark() {
        std::vector<BenchmarkResult> results;
        MillisecondDecompressionEngine engine;
        
        // 测试不同数据大小
        std::vector<size_t> test_sizes = {
            1 * 1024 * 1024,    // 1MB
            10 * 1024 * 1024,   // 10MB
            50 * 1024 * 1024,   // 50MB
            100 * 1024 * 1024   // 100MB
        };
        
        for (size_t size : test_sizes) {
            auto test_data = generate_test_pointcloud(size);
            auto compressed = compress_test_data(test_data);
            
            // 测试不同解压方法
            for (auto method : {GPU_PARALLEL, CPU_SIMD, HYBRID_APPROACH}) {
                BenchmarkResult result;
                result.method = method_to_string(method);
                result.data_size = size;
                
                // 多次运行取统计结果
                std::vector<std::chrono::microseconds> timings;
                for (int i = 0; i < 100; i++) {
                    auto metrics = engine.decompress_realtime(compressed, nullptr, method);
                    timings.push_back(metrics.total_time);
                }
                
                // 计算统计量
                std::sort(timings.begin(), timings.end());
                result.min_time = timings.front();
                result.max_time = timings.back();
                result.avg_time = std::accumulate(timings.begin(), timings.end(), 
                                                std::chrono::microseconds(0)) / timings.size();
                result.p95_time = timings[timings.size() * 0.95];
                
                result.throughput_mbps = (size / 1024.0 / 1024.0) 
                                       / (result.avg_time.count() / 1000000.0);
                result.meets_realtime = result.p95_time < std::chrono::milliseconds(16);
                
                results.push_back(result);
            }
        }
        
        return results;
    }
};