一、服务器操作流程

  1. 服务器重启流程
    确认授权,佩戴防静电手环,核对五要素(机房号、机柜号、机位号、SN号、机器号),确认服务器位置,长按电源键关机,拔掉电源线,长按电源键30秒放电,插电开机并确认进入登录界面。
  2. 服务器到货上架流程
    货车进楼前门口等待,监督运输;与资产验收货物(型号/数量/外观检查),墙电测试;工人使用小推车需一前一后;入机房核对五要素(机房号、、机柜号、机位号、SN号、机器号)上架;验收接线、标签、指示灯;结单。
  3. 服务器单路/双路掉电处理
    • 单路掉电
      • 遵循"二五十原则"(2分钟响应、5分钟到场、10分钟上报);
      • 检查电源接线、PDU供电状态;
      • 电源插拔测试(放电后操作);
      • 更换电源线或电源模块;
      • 全程避免触碰其他电源。
    • 双路掉电
      • 立即上报主管,与基础设施人员赶赴现场;
      • 记录受影响设备。
  4. 交换机整机置换流程
    1. 核对工单六要素(含授权),准备工具;
    2. 新交换机Console口连接笔记本,刷入配置脚本(CRT软件),验证配置后保存;
    3. 下架旧机:拍照记录接线顺序,断开连线/电源;
    4. 上架新机:连接所有线缆,等待5-10分钟检查指示灯;
    5. 结单并记录新旧SN/PN。
  5. 更换AOC线缆流程
    佩戴防静电手环;核对六要素;按标签确认线缆;检查指示灯;更换后测试网络;记录新旧SN;旧件入防静电袋。

二、硬件知识与维护

  1. 硬件厂商

    • 内存:三星、镁光、金士顿、芝奇、英睿达、长江存储
    • 硬盘:东芝、三星、西部数据、希捷、金士顿
    • 服务器:华为、华三、浪潮、思科、戴尔、超巨变
  2. 硬盘类型与参数

    • 机械硬盘

      • 优点:容量大、成本低、数据可恢复
      • 缺点:读写慢、怕震动
      • 参数:转速、缓存、接口(SAS/SATA)
    • 固态硬盘

      • 优点:读写快、抗震
      • 缺点:价格高、寿命较低
      • 参数:接口(NVMe/M.2/PCIE)
    • 文件格式:EXT4、exFAT、FAT32、NTFS

      四种格式对比表格

      特性 EXT4 exFAT FAT32 NTFS
      主要系统支持 Linux(默认) Windows/macOS/ 安卓 所有系统(老设备) Windows(默认)
      单文件最大容量 16TB 128PB 4GB 16TB
      分区最大容量 1EB 128PB 32GB 256TB
      日志功能 支持 不支持 不支持 支持
      权限控制 依赖 Linux 权限系统 不支持 不支持 支持(Windows 权限)
      跨平台兼容性 差(需工具) 极佳 极佳 差(需工具)
      适用场景 Linux 系统盘、服务器存储 U 盘 / SD 卡(跨设备共享) 老设备、小容量存储 Windows 系统盘、内部硬盘

      选择建议

      • U 盘 / SD 卡(跨设备使用):优先选 exFAT,兼顾大容量文件支持和多系统兼容。
      • Windows 系统盘 / 内部 硬盘:选 NTFS,利用权限控制和日志功能提升安全性。
      • Linux 系统盘 / 服务器存储:选 EXT4,匹配 Linux 生态并优化大文件性能。
      • 老设备(如 XP、车载系统):不得已时用 FAT32,但避免存储 4GB 以上文件。
      • SSD 移动硬盘:exFAT 或 NTFS 均可(exFAT 更轻量,NTFS 支持加密)。
  3. 内存参数与区分

    • 参数:DDR代数、容量、频率、时序带宽电压
    • DDR4 vs DDR5
      • DDR4:标签"PC4",防呆口偏侧,电压1.2V
      • DDR5:标签"PC5",防呆口居中,电压1.1V
    • DDR3 vs DDR4
      • DDR3:直线金手指,电压1.5V
      • DDR4:弧形金手指,电压1.2V
  4. 关键操作流程

    • 更换主板
      1. 拆装顺序:风扇→RAID卡→内存→散热器→CPU→主板;
      2. 拍照记录;刷写FRU信息(主板SN/资产标签);
      3. 测试开机后上架。
    • 更换CPU
      • 对齐防呆标志(三角/缺口);
      • 均匀涂抹硅脂;
      • 散热器螺丝按对角线顺序拧紧。
  5. 光纤与光模块

    • 单模 vs 多模

      类型 颜色 波长 传输距离 光源
      单模 1310/1550nm 激光
      多模 850nm LED
    • 接口类型:LC(小方口)、SC(大方口)、FC(圆口)

    • 光功率计使用

      • 设置单位(dBm)、波长(λ按钮);
      • 正常光衰>-20dBm。

    实训拆装的服务器是什么厂商,型号,CPU(型号,主频)内存(容量,类型,频率)?

​ 型号:H3C UniServer R4900 G3
​ CPU:intel xeon sil ver 4114 sr3gk 2.20GHZ 10核心 20线程 缓存为 13.75MB L3 Cache

​ 内存:容量4GB 类型Pc4 频率2400

三、Linux系统管理

  1. 常用命令

    ls /path          # 查看目录内容
    cd /path         # 切换目录
    pwd              # 显示当前路径
    cat file         # 查看文件
    mount /dev/sda1  # 挂载硬盘
    free -h          # 内存使用率(人类可读)
    lsblk            # 硬盘分区信息
    route -n         # 查看路由表
    top              # 实时CPU使用率
    ethtool eth0     # 网卡速率(含Speed)
    
  2. 系统配置

    • 修改SSH端口

      vim /etc/ssh/sshd_config  # 修改Port 22 → 保存
      systemctl restart sshd    # 重启服务
      

      SSH 端口号范围为 1-65535,但建议选择:

      1. 非特权端口(1024-65535)
        普通用户无法使用 1-1023 的特权端口,因此推荐选择此范围内的端口(如 222250022)。
      2. 避开常用服务端口
        避免与常见服务冲突,例如:
        • 80/443(HTTP/HTTPS)
        • 21(FTP)
        • 3389(RDP)
        • 5432(PostgreSQL)
      3. 随机化或行业惯例
        • 安全敏感环境可使用高位随机端口(如 45678)。
        • 企业内部可统一使用特定端口(如 2222)以便管理。
    • 设置IP

      vim /etc/sysconfig/network-scripts/ifcfg-eth0  
      # 修改:BOOTPROTO=static, IPADDR=192.168.x.x
      

      修改为静态 IP(示例):

      BOOTPROTO="static"  # 原为dhcp,改为static
      ONBOOT="yes"        # 开机启用此网卡
      IPADDR="192.168.1.100"  # 静态IP地址
      NETMASK="255.255.255.0"  # 子网掩码
      GATEWAY="192.168.1.1"    # 网关
      DNS1="8.8.8.8"           # DNS服务器
      

      重启服务:

      sudo systemctl restart network
      
  3. 故障处理

    • 进入单用户模式
      内核启动界面按 e → 在 linux 行尾添加 init=/bin/bash rwCtrl+X 启动。

    • 注释硬盘
      单用户下执行:

      mount -o remount,rw /      # 挂载根目录可写
      vim /etc/fstab            # 在对应UUID行首加 #
      

四、故障诊断与测试

  1. 最小化测试
    • 步骤
      1. 仅保留:单电源、单CPU(必须插CPU0槽)、单内存;
      2. 短接电源针脚开机;
      3. 逐步添加部件(每次重启);
      4. 若不开机→替换疑似故障部件(内存/CPU)。
    • CPU0槽位必要性:CPU1槽仅在CPU0插入后供电。
  2. 链路故障排查
    • 流程
      1. 重新插拔松动线缆;
      2. 清洁光纤(清洁笔3次以上);
      3. 更换光模块/光纤;
      4. 更换ODF端口。
    • 禁止操作:私自环回测试、同时处理同一设备多条链路。
  3. PXE故障排查
    • 进入方式:开机按 F12
    • 链路问题:更换网线;
    • 端口问题:BIOS中启用PXE功能。

五、存储与RAID

  1. RAID模式对比

    类型 读写性能 容量利用率 容灾能力 最少盘数
    RAID0 最快 100% 2
    RAID1 50% 支持1盘损坏 2
    RAID5 中等 (n-1)/n 支持1盘损坏 3

    RAID(独立磁盘冗余阵列)的作用与核心价值

    一、数据冗余与容错 —— 防止数据丢失

    RAID 最核心的功能是通过多块硬盘的组合,实现数据的冗余备份,避免单盘故障导致数据丢失。

    • 典型场景
      • 企业服务器、数据库存储等对数据可靠性要求极高的场景,若单盘损坏,RAID 可通过冗余数据恢复完整数据。
    • 实现方式
      • RAID 1(镜像):将数据同时写入两块硬盘,两块硬盘互为镜像,任意一块损坏后,另一块可完全替代。
      • RAID 5/6:通过奇偶校验算法(如 XOR)将数据分散存储在多块硬盘中,允许 1 块(RAID 5)或 2 块(RAID 6)硬盘损坏而不丢失数据。
    二、性能提升 —— 读写速度优化

    通过多块硬盘并行处理数据,提升存储系统的吞吐量和响应速度。

    • 典型场景
      • 视频编辑、大数据分析、数据库查询等需要高速读写的场景。
    • 实现方式
      • RAID 0(条带化):将数据分割成多个块,并行写入多块硬盘,理论上读写速度可达单盘的 N 倍(N 为硬盘数量),但无冗余。
      • RAID 10(1+0 组合):先镜像再条带化,同时具备 RAID 1 的冗余和 RAID 0 的速度,适合高并发读写场景(如服务器数据库)。
    三、存储容量整合与管理 —— 逻辑卷抽象

    将多块物理硬盘整合成一个逻辑存储单元,简化管理并灵活扩展容量。

    • 典型场景
      • 数据中心需要统一管理大量硬盘,或需要动态扩容的存储系统。
    • 实现方式
      • 通过 RAID 控制器或软件将多块硬盘组合为一个逻辑卷(如 RAID 5 用 3 块硬盘创建一个卷,容量为 2 块硬盘的总和)。
      • 支持热插拔(Hot Swap),在不中断服务的情况下更换故障硬盘或添加新硬盘。
    四、成本与可靠性的平衡 —— 性价比方案

    RAID 通过不同级别组合,在成本、性能、可靠性之间找到平衡点。

    • 示例对比
      • RAID 0:成本最低(全容量利用),但无容错,适合临时存储或对可靠性要求低的高速场景(如游戏硬盘)。
      • RAID 5:用 N-1 块硬盘的容量换取 1 块硬盘的容错,性价比高,适合中小企业服务器。
      • RAID 1:容量成本翻倍,但可靠性最高,适合金融、医疗等对数据安全性要求极高的场景。
    五、常见 RAID 级别的核心作用对比
    RAID 级别 核心作用 适用场景 优缺点
    RAID 0 纯性能提升(条带化),无冗余 视频剪辑、游戏存储、临时数据处理 速度快,但单盘故障数据全丢,成本最低。
    RAID 1 纯数据冗余(镜像),容量减半 服务器系统盘、关键数据备份 可靠性高,成本高(容量浪费 50%)。
    RAID 5 性能 + 冗余平衡(奇偶校验),允许 1 盘故障,容量为 (N-1)/N 中小企业服务器、文件存储 性价比高,读写性能较好,但重建硬盘时负载高,存在二次故障风险。
    RAID 6 比 RAID 5 多一层校验,允许 2 盘故障,容量为 (N-2)/N 数据中心、高风险环境 安全性更高,适合硬盘数量多的场景,但写入性能略低于 RAID 5。
    RAID 10 先镜像后条带化,同时具备高性能和高冗余,容量为 N/2 数据库、高并发读写场景 综合性能最佳,但成本高(容量浪费 50%),适合关键业务系统。
    六、应用场景总结
    • 个人用户
      • 游戏主机可组 RAID 0 提升加载速度;重要数据备份可组 RAID 1(如双硬盘 NAS)。
    • 企业场景
      • 网站服务器:RAID 5/6 保障数据安全,同时兼顾存储成本;
      • 数据库服务器:RAID 10 平衡读写性能和可靠性;
      • 大数据存储:RAID 0 + 热备盘(牺牲部分容量换速度和容错)。
    • 特殊场景
      • 金融交易系统:RAID 1 + 热备盘,确保零数据丢失;
      • 视频渲染服务器:RAID 0 或 RAID 0+1,最大化读写速度。

    总结

    RAID 的本质是通过硬件或软件层面的磁盘组合策略,解决 “数据安全”“性能瓶颈”“存储管理” 三大核心问题。选择 RAID 级别时,需根据业务对可靠性、速度、成本的需求综合权衡,例如:不能接受任何数据丢失的场景优先 RAID 1/10,而对速度敏感且允许数据丢失的场景可选择 RAID 0。

  2. 配置RAID

    • 开机按 Ctrl+R 进入配置界面;
    • 选择硬盘→初始化(Initialize)→保存。

六、机房管理规范

  1. 操作红线
    • 禁令
      • 禁止脱岗/无工单操作;
      • 禁止未授权人员进出机房;
      • 禁止转借门禁权限。
    • 必须项:操作前核对五要素(机房号、机柜号、SN号、U位、型号)。
  2. 日常流程
    • 巡检重点:温度、设备供电状态、故障灯、门禁/摄像头、安全隐患;
    • 第三方入机房:登记资质、全程随工、制止违规操作;
    • 高温处理:检查盲板位置→联系调低空调温度。
  3. IDC运维职责
    • 服务器/网络设备维护;
    • 故障部件更换(主板/CPU/内存/硬盘);
    • 设备上架/布线验收;
    • 机房巡检与日志记录。

七、网络与协议

  1. 双绞线线序
    • 568A:绿白、绿、橙白、蓝、蓝白、橙、棕白、棕
    • 568B:橙白、橙、绿白、蓝、蓝白、绿、棕白、棕
  2. 交换机与OSI模型
    • 层级:数据链路层(二层交换机),部分支持网络层(三层交换);
    • 远程搭建:Console口连接→CRT配置→向日葵远程协助。
  3. TCP协议
    • 三次握手(建连):
      SYN → SYN-ACK → ACK
    • 四次挥手(断连):
      FIN → ACK → FIN → ACK

八、BMC/IPMI管理

  1. BMC核心功能

    • 远程开关机/监控;
    • 故障诊断;
    • 电源管理。
  2. 关键命令

    1. ipmitool bmc info                # 查看BMC版本
      ipmitool chassis identify        # 点亮UID灯
      ipmitool fru print 0             # 查看FRU信息
      ipmitool fru edit 0 field p 4 SN # 刷写主板SN
      
    管理口是设备专用于配置、监控和维护的独立接口,作用是:
    1. 远程管理设备(初始配置、改参数);
    2. 隔离管理流量与业务流量,保障业务稳定;
    3. 提升安全性(独立网络、权限控制);
    4. 监控设备状态(收日志、固件升级)。

九:补充问题

补充方向1:品牌专项操作
  1. 华三交换机配置差异
    问:你在机房常用华三哪款交换机?如何保存配置?
    考点

    save force  # 华三特有命令(思科为write, 华为为commit)
    
  2. 浪潮服务器BMC特性
    问:浪潮服务器更换主板后,刷新FRU信息与戴尔有何不同?
    考点

    • 浪潮:impi-tool命令参数差异(如ipmitool raw 0x3e 0x49刷写后需验证模式)
    • 戴尔:需用iDRAC图形界面操作
  3. 戴尔服务器诊断工具
    问:如何快速定位戴尔PowerEdge服务器的硬件故障?
    考点

    • 开机按F10进入LC-Lifecycle Controller
    • 故障灯代码:黄灯常亮→内存故障,闪烁→CPU故障

补充方向2:混合环境排障
  1. 多品牌兼容问题
    问:华三交换机连接戴尔服务器时AOC链路不通,如何排查?
    排查链
    在这里插入图片描述

    备件管理实战

    问:机房里浪潮NF5280M6服务器的内存故障,但只有三星DDR4-3200库存,能否替换?
    考点

    • 查浪潮兼容列表:是否支持第三方内存
    • 看参数:原装为镁光DDR4-2933,需降频使用

补充方向3:厂商工具链(体现技术深度)
  1. 品牌专用工具
    问:你在维护戴尔服务器时,是否用过OpenManage?举例一个应用场景
    答案

    # 场景:批量更新固件
    omconfig system update action=install -firmware=BIOS,1.8.0
    
  2. 华三集群方案
    问:华三IRF堆叠配置中,如何避免脑裂问题?
    考点

    • 必配mad detect(多Active检测)
      :机房里浪潮NF5280M6服务器的内存故障,但只有三星DDR4-3200库存,能否替换?*
      考点

    • 查浪潮兼容列表:是否支持第三方内存

    • 看参数:原装为镁光DDR4-2933,需降频使用


补充方向3:厂商工具链(体现技术深度)
  1. 品牌专用工具
    问:你在维护戴尔服务器时,是否用过OpenManage?举例一个应用场景
    答案

    # 场景:批量更新固件
    omconfig system update action=install -firmware=BIOS,1.8.0
    
  2. 华三集群方案
    问:华三IRF堆叠配置中,如何避免脑裂问题?
    考点

    • 必配mad detect(多Active检测)
    • 交叉线连接mad keepalive端口
Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐