100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > ceph bluestore 源码分析:ceph-osd内存查看方式及控制源码分析

ceph bluestore 源码分析:ceph-osd内存查看方式及控制源码分析

时间:2022-05-07 01:52:27

相关推荐

ceph bluestore 源码分析:ceph-osd内存查看方式及控制源码分析

文章目录

内存查看内存控制内存控制源码分析通过gperftools接口获取osd进程实际内存 动态设置cache大小动态调整cache比例trim释放内存

本文通过对ceph-osd内存查看跟踪的5种手段以及osd内存控制的方式进行源码层面的说明,并未通过修改相关源码进行控制(水平不够),仅限于使用社区已开发好的参数进行相关配置的跟进而已,如想要追求更加精确的理解,可以对osd/bluestore/rocksdb相关源码实现进行阅读

ceph版本12.2.1-12.2.12

内存查看

最常用的内存初始查看方法top -u ceph |grep ceph-osd,通过交互式输入c,2次e即可看到如下效果。其中单个osd进程占用内存为res

ceph tell osd.0 heap stats

这种方式主要查看osd运行过程中占用的内存:

第一项:Bytes in use by application包括bluestore cache,rocksdb_cache,bluefs,pglog等数据信息

第二项:Bytes in page heap freelist内存页堆管理的空闲空间链表

第三项:Bytes in central cache freelist中心缓冲区占用

第四项:Bytes in transfer cache freelist交换缓冲区占用

第五项:Bytes in thread cache freelists线程缓冲区占用

第六项:Bytes in malloc metadatamalloc为元数据分配的空间

ceph是使用tcmalloc 空间分配器进行空间分配,其中由tcmalloc分配的但是并未被ceph进程使用的空间可以通过

ceph tell osd.id heap release

google-perftools工具实时跟踪osd/mon进程内存占用,精确到具体的函数。关于pprof的安装以及如何使用其来查看osd内存占用,可以参考pprof搭配ceph tell命令分析ceph内存

效果如下:

(pprof) top10Total: 2525 samples298 11.8% 11.8% 345 13.7% runtime.mapaccess1_fast64268 10.6% 22.4%2124 84.1% main.FindLoops251 9.9% 32.4% 451 17.9% scanblock178 7.0% 39.4% 351 13.9% hash_insert131 5.2% 44.6% 158 6.3% sweepspan119 4.7% 49.3% 350 13.9% main.DFS96 3.8% 53.1% 98 3.9% flushptrbuf95 3.8% 56.9% 95 3.8% runtime.aeshash6495 3.8% 60.6% 101 4.0% runtime.settype_flush88 3.5% 64.1% 988 39.1% runtime.mallocgc...

各个参数含义如下:

The first column contains the direct memory use in MB. 函数本身使用的内存

The fourth column contains memory use by the procedure and all of its callees.函数本身内存+调用函数内存

The second and fifth columns are just percentage representations of the numbers in the first and fourth columns. 第二第五列分别为第一列,第四列与total的比值

The third column is a cumulative sum of the second column.第三列为(到当前行数为止)第二列所有的和

注意:该命令需要heap start_profiler长期运行才能够利用pprof抓取更多有效信息。

ceph原生命令,由ceph内存池(bstore线程)管理的内存各项数据占用,可以通过调整mempool_debug = true参数来查看详细打印

ceph daemon osd.16 dump_mempools

打印信息如下:

这里能够看到内存池中各个数据结构的items个数和bytes总空间大小,关于当前命令如何动态获取各个数据结构的内容相关得源码分析可以参考admin_socket实时获取内存池数据 文章

valgrind搭配massif,查看进程内存占用,能够看到内存分配栈并且精确到具体的函数;详细的配置以及更加高级全面的内存查看方法可以参考valgrind搭配massif、vgdb分析ceph-mon内存

linux端的mon进程占用效果查看如下:

最下侧即为进程内存占用栈,并且在运行时间点上提供快照以及峰值的内存占用情况,能够很清晰得看到各个时间点内存如何上涨上来,同时massif提供可视化的图形页面(火焰图)来查看进程内存:

内存控制

本文的内存控制版本基于ceph 12.2.12版本,相关的参数描述同样是基于12.2.12版本,当前12.2.12ceph版本真正实现了osd进程内存的精准控制

bluestore相关参数说明

bluestore_min_alloc_size_hdd = 65536 #hdd做osd时的bluestore 分配空间的最小粒度 64Kbluestore_min_alloc_size_ssd = 16384 #ssd做osd时bluestore分配空间的最小粒度 16Kbluestore_cache_size_hdd = 1073741824 #hdd做osd时的bluestore_cache的大小,1G,该参数主要用于缓存元数据,键值数据以及部分data数据bluestore_cache_size_ssd = 3221225472 #ssd做osd时的bluestore_cache的大小,默认3Gbluestore_cache_trim_interval = 0.05 #bluestore cache 裁剪的时间间隔,每隔0.05秒会尝试对不使用的cache种的数据(onode,blob,extents)释放bluestore_cache_trim_max_skip_pinned = 64 #每次trim时的onode的个数

osd内存相关控制参数

osd_memory_base = 805306368 #osd内存占用的最小值,默认768Mosd_memory_target = 838860800 # 真正限制osd内存的上限,即我们top 种看到的进程实际内存占用会维持在当前参数设置的值以下。这里我们设置的800Mosd_memory_cache_min = 134217728 #osd 内存 cache占用的最小值,128Mosd_memory_cache_resize_interval = 1.0 #osd cache大小的实际调整的时间间隔,每隔1秒,进行一次cache大小的调整bluestore_cache_autotune_interval = 5 #osd每隔5秒调整一次bluestore cache的比例bluestore_cache_autotune_chunk_size = 33554432 #osd每次调整 bluestore cache的最小单位,32Mbluestore_cache_kv_ratio = 0.4 #bluestore cache 存储键值cache的比例bluestore_cache_meta_ratio = 0.4 #bluestore cache 存储元数据cache的比例

内存控制源码分析

主要内存控制方式是通过在osd_memory_cache_resize_interval时间间隔内获取osd进程的实际内存,判断其是否超过设定的osd_memory_target的数值,并进行cache大小的调整,最终通过trim释放内存。

关键地实现难点为以下几个地方:

获取osd进程的实际内存动态调整cache比例动态设置cache大小trim释放内存

通过gperftools接口获取osd进程实际内存 动态设置cache大小

因为ceph内存分配使用的tcmalloc进行的,ceph这里是通过gperftools提供的获取tcmalloc内存分配的接口进行获取

src/os/bluestore/在bstore的线程函数种void *BlueStore::MempoolThread::entry()

通过_tune_cache_size调用gperttools提供的tcmalloc获取内存分配的接口获取内存大小

将最终需要调整的cache大小已全局变量auto_tune_size返回

关于gperftools获取已占有内存的接口实现可以github下载gperftools-master源码/gperftools/gperftools,这里仅贴出将未使用内存页但以申请的内存页释放回操作系统的代码调用,其他获取总的内存页接口和未使用内存页接口详细实现有兴趣的同学可以去看看:

void ceph_heap_release_free_memory(){MallocExtension::instance()->ReleaseFreeMemory();}void MallocExtension::ReleaseFreeMemory() {ReleaseToSystem(static_cast<size_t>(-1)); // SIZE_T_MAX}virtual void ReleaseToSystem(size_t num_bytes) {SpinLockHolder h(Static::pageheap_lock());if (num_bytes <= extra_bytes_released_) {// We released too much on a prior call, so don't release any// more this time.extra_bytes_released_ = extra_bytes_released_ - num_bytes;return;}num_bytes = num_bytes - extra_bytes_released_;// num_bytes might be less than one page. If we pass zero to// ReleaseAtLeastNPages, it won't do anything, so we release a whole// page now and let extra_bytes_released_ smooth it out over time.Length num_pages = max<Length>(num_bytes >> kPageShift, 1);size_t bytes_released = Static::pageheap()->ReleaseAtLeastNPages(num_pages) << kPageShift;if (bytes_released > num_bytes) {extra_bytes_released_ = bytes_released - num_bytes;} else {// The PageHeap wasn't able to release num_bytes. Don't try to// compensate with a big release next time. Specifically,// ReleaseFreeMemory() calls ReleaseToSystem(LONG_MAX).extra_bytes_released_ = 0;}}

动态调整cache比例

关于bluestore cache的作用,很明显,将高命中的脏数据(kv数据,元数据)等数据放入到缓存种,加速bluestore io读写能力。

其中bluestore cache维护了一个cache优先级列表如下

最高优先级为kv cache,其次 meta cache,最后剩余的提供给data cache。

优先级越高的cache,分配内存资源,调整内存资源优先分配。当然占用的大小则是由我们以上图的两个ratio参数进行控制。

初始化cache,设置优先级cache内存占用的比例

_adjust_cache_settings();void BlueStore::MempoolThread::_adjust_cache_settings(){store->db->set_cache_ratio(store->cache_kv_ratio);meta_cache.set_cache_ratio(store->cache_meta_ratio);data_cache.set_cache_ratio(store->cache_data_ratio);}

动态调整 cache

从动态设置cache大小中tune_cache_size获取到的可以分配的cache大小auto_tune_cache_size,将其根据各个cache的ratio比例分配给优先级cache

void BlueStore::MempoolThread::_balance_cache(const std::list<PriorityCache::PriCache *>& caches){//初始值为osd内存最小值 osd_memory_cache_min 128M,该值在tune_cache_size种动态调整int64_t mem_avail = autotune_cache_size;//根据对应cache的优先级进行cache容量的分配// Assign memory for each priority levelfor (int i = 0; i < PriorityCache::Priority::LAST + 1; i++) {ldout(store->cct, 10) << __func__ << " assigning cache bytes for PRI: " << i << dendl;PriorityCache::Priority pri = static_cast<PriorityCache::Priority>(i);_balance_cache_pri(&mem_avail, caches, pri);}//将剩余的未分配的cache 按照比例再重新分配// Assign any leftover memory based on the default ratios.if (mem_avail > 0) {for (auto it = caches.begin(); it != caches.end(); it++) {int64_t fair_share =static_cast<int64_t>((*it)->get_cache_ratio() * mem_avail);if (fair_share > 0) {(*it)->add_cache_bytes(PriorityCache::Priority::LAST, fair_share);}}}// assert if we assigned more memory than is available.assert(mem_avail >= 0);// Finally commit the new cache sizesfor (auto it = caches.begin(); it != caches.end(); it++) {(*it)->commit_cache_size();}}

针对每个优先级Cache的大小调整则遵循如下规则: 获取优先级cache想要的容量,通过bluestore_cache_autotune_chunk_size34M单位进行分配优先级cache 想要的容量大于cache剩余容量,将cache剩余的容量都提供给当前优先级cache优先级cache 想要的容量小于cache剩余容量,直到分配足够

trim释放内存

每隔bluestore_cache_trim_interval会尝试释放一次内存,每次尝试释放元数据的个数为bluestore_cache_trim_max_skip_pinned,释放内存后当osd总内存超过osd_memory_target,则不再进行cache相关的大小调整;否则仍然继续将未超过的部分应用于cache分配。

计算好需要trim的元数据个数和缓存大小,调用对应的cache trim函数。

bluestore默认使用的是淘汰算法更优的TwoQCache,则调用对应的void BlueStore::TwoQCache::_trim(uint64_t onode_max, uint64_t buffer_max)执行内存释放即可。

关于内存控制,osd_memoiry_target及其一系列控制衍生参数尤为关键。ceph在L版本低版本并未做得足够完善,但是L版本的最新版已经将内存控制逻辑完善,总之在保证性能的前提下OSD内存控制更加更加精准。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。