采集足彩数据的问题
上个月接到一个任务,采集某平台足彩上的数据,看了下网页结构,不是很复杂。想着一周内搞定,然而真正工作时,遇到了许许多多的小问题。1、联赛的数据不规范、字段长度不统一;2、赛事过后还有升降级附加赛、冠军杯资格赛;3、具体比赛中数据格式、长度的不统一,缺乏规范;4、有的联赛中缺少数据记录;5、比赛中bc公司改过名;……因为历史数据年代跨度比较大,网站前后也在修改自己的数据格式,所以每次遇到的问题总是千
·
上个月接到一个任务,采集某平台足彩上的数据,看了下网页结构,不是很复杂。本以为就是各种类型数据量巨大,程序+单机采集一周内搞定,然而真正工作时,遇到了许许多多的小问题,主要如下:
1、访问频率限制;
2、比赛时间随时变化;
3、乱码;
4、升降级附加赛、冠军杯资格赛与正赛分开;
5、联赛数据不规范、字段长度不统一;
6、具体比赛中数据格式不统一;
7、缺失数据记录;
8、一些公司改过名;
……
前前后后有几十个小问题,主要还是因为历史数据年代跨度比较大,该网站修改自己的数据格式后很难做到统一,所以每次遇到的问题总是千奇百怪,一个小小的问题可能需要一整天的时间去发现,这时需要修改程序进行容错处理,这里又要强调下容错的问题:容错多了,可能有的地方遇到错误,程序不报错但是数据没有真正获取到;容错少了,下次又出现相同的格式问题再次报错。
还好,在约定周期内顺利完成了所有任务,用户非常满意。

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)