当前位置:首页 > 服务器资讯

浅谈数据中心优化问题中资源利用率的预测

2018-07-26 06:54:23 作者: 来源: 阅读:368 评论:0

简介 开发者盛宴来袭!7月28日51CTO首届开发者大赛决赛带来技术创新分享-->技术沙龙 | 6月30日与多位专家探讨技术高速发展下如何应对运维新挑战!--> 随着数据量的不断膨胀,数据中心市场规模呈指数级增长。其中,新加坡作为东南亚的数据中心枢纽,占该地区数据中......

开发者盛宴来袭!7月28日51CTO首届开发者大赛决赛带来技术创新分享

-->技术沙龙 | 6月30日与多位专家探讨技术高速发展下如何应对运维新挑战!-->

随着数据量的不断膨胀,数据中心市场规模呈指数级增长。其中,新加坡作为东南亚的数据中心枢纽,占该地区数据中心 60%以上的市场份额,年增长率为10%[1]。 由于新加坡的数据中心密度高、体量大,其2012年的耗电量占2012年全能电量总消耗的7%,相比之下同年美国的数据中心电量消耗仅为2%。此外,新加坡属热带气候、常年高温,更增加了数据中心的运维难度和成本。根据文献[2]中的研究结果估计,新加坡有潜力大幅度提高数据中心的能效。若采用恰当的技术,到2030年能累计节省60亿新币的能源成本。

因此,优化数据中心、提高能效是我们研究项目的最终目的。我们提出了面向IT子系统的Thermal-aware 任务调度:在考虑IT相关特征的同时,也把温度及功耗 (room-level、rack-level、server-level) 作为影响我们任务分配的关键所在,从而节省能源同时又不损失计算性能。与传统方法不同,我们选择利用DRL的算法来寻找最优的控制策略。如图1所示,在DRL算法中,我们的目标environment(如数据中心) 处于某一个状态(state,如CPU利用率、温度、功耗等) 。此状态下,agent通过某种策略对目标环境施加一个动作(action,如分配新任务给某个服务器)使得environment的state发生变化,而新的state将作为选择下一次action的关键因素。为有效衡量该次action的优劣,我们引入reward(如平均温度、功耗、热点数量、平均CPU使用量等)的概念。如reward大,那么该action未来被选择的概率就大,反之则小。DRL算法通过agent和environment之间的迭代互动,来达到优化控制策略的目的。

图1 Outline of the DRL algorithm in our project

但将算法的训练过程部署到实际的数据中心中是不现实的,风险太大。因此,我们利用从真实数据中心(National Supercomputing Centre Singapore)采集到的数据,采用深度学习的方法,构建一个模拟真实数据中心的environment,并利用该environment来训练和测试DRL算法。在数据中心IT设备的众多特征中,CPU利用率是其中最为关键的,因为CPU的利用率是影响服务器功耗和温度的主要因素。我们采用LSTM[3]算法来对CPU利用率进行预测,从而精确模拟利用率和负载变化之间的复杂关系。LSTM是一种时间递归神经网络,非常适合用来处理和预测时间连续数据。如图2所示,前三个time step的和作为LSTM网络的输入,其中和分别为time step 的CPU利用率和被占用core数。我们的目标数据中心,拥有16个rack,每个rack配备72个计算服务器。根据实验结果显示(如图3所示), 预测模型的MAE(Mean Absolute Error)为0.397861%。

图2 LSTM for predicting CPU utilization

图3 Result of prediction of CPU utilization (Blue: predicted Red: real)

在我们的研究项目中,目标数据中心的所有服务器都是HPC(High Performance Computer),向用户提供复杂、高强度的计算服务(如生物DNA匹配、地理环境模拟、气候环境模拟等)。因此,用户向数据中心申请core并开始执行计算任务后,CPU的利用率变化幅度小。我们必须强调这是预测模型能得到高预测精度的重要原因之一。但这并不意味这在所有情况下,CPU利用率都稳定。例如,根据Google公开的workload trace[4],在提供类似web service和存储服务时,CPU的利用率是很不稳定。如图4所示。

图4 Examples of the CPU utilization from Google

一般情况下,相似的任务类型会有近似的特性,比如CPU利用率的变化。因此,我们可以把CPU utilization的采样作为特征值,对所有任务进行聚类,把CPU利用率变化特性相似的任务作为一类。如图5所示,同一类任务,拥有相似的CPU利用率的变化曲线。因此,针对每一类任务,我们都可以利用LSTM来训练一个预测模型,从而达到精确预测的目的(测试结果如图6所示)。

图5 CPU utilizations of the tasks in the same cluster

图6 The result of prediction of CPU utilization based on clustering

对CPU利用率的预测,不仅可用来建立DRL的训练环境模型,还能利用到其他启发式的传统数据中心任务调度优化算法中。此外,如能采集到用户ID、任务类型、任务是否多线程等数据的话,更能提高该方法的可行性和预测精度。

参考文献

[1] Singapore is top data center hub in SE Asia: report.

[2] Green Data Cetnre Technology Roadmap 2014.

[3] F. A. Gers J. Schmidhuber and F. Cummins. Learning to Forget: Continual Prediction with LSTM. Neural Computation 12(10): 2451-2471 2000.

[4] C. Reiss J. Wilkes J. L. Hellerstein “Google-cluster traces:format+schema” Google Inc. White Paper November 2011.


标签:数据中心  利用率  如图  任务  CPU  

相关评论