【叮咚酒店源码】【牛友圈源码】【地球终末之日源码】哈希表源码

【叮咚酒店源码】【牛友圈源码】【地球终末之日源码】哈希表源码_哈希表的代码

时间：2025-02-03 14:26:56 分类：百科

1.hash / hashtable（linux kernel 哈希表）
2.十二点哈希查找的哈希硬件实现（一）：哈希查找
3.深入源码解析LevelDB
4.hashmapåºå±å®ç°åç
5.死磕以太坊源码分析之Kademlia算法
6.Redis7.0源码阅读：哈希表扩容、缩容以及rehash

哈希表源码_哈希表的表源代码

hash / hashtable（linux kernel 哈希表）

哈希表，或称为散列表，码哈码是希表一种高效的数据结构，因其插入和查找速度的哈希优势而备受关注。然而，表源叮咚酒店源码其空间利用率并不固定，码哈码需要权衡。希表让我们通过实例来深入理解它的哈希作用和工作原理。

想象一个场景：我们需要高效地存储和访问大量数据。表源首先，码哈码常规的希表数组方法，如普通数组和有序数组，哈希虽然插入简单，表源但查找效率低，码哈码尤其是在数据量较大时。例如，查找可能需要对数千个元素进行比较。有序数组通过牺牲增删效率来提升查询，但数组空间固定且可能浪费大量资源。

链表提供了更灵活的增删操作，但随机访问困难，适合数据频繁变动的情况。红黑树在查询和增删效率上表现优秀，但此处暂不讨论。庞大的数组虽然理论上能快速查找，但实际操作中难以实现，因为它需要预先预估并准备极大数据空间。

这时，哈希表登场了。它利用哈希函数将数据映射到一个较小的数组中，即使存在冲突（不同数据映射到同一地址），通过链表解决，仍然能显著提升查找效率。例如，即使身份证号的哈希结果可能有重复，但实际冲突相对较少，通过链表链接，平均查找次数大大减少。

使用哈希表包括简单的步骤：包含头文件，声明和初始化哈希表，添加节点，以及通过哈希键查找节点。在实际源码中，如Linux kernel的hash.h和hashtable.h文件，哈希表的初始化和操作都是基于这些步骤进行的。

总结来说，哈希表在大数据场景中通过计算直接定位数据，显著提高效率，尤其是牛友圈源码在数据量增大时。如果你对Linux kernel的哈希表实现感兴趣，可以关注我的专栏RTFSC，深入探讨更多源码细节。

十二点哈希查找的硬件实现（一）：哈希查找

最近大半年忙于找工作以及撰写毕业论文，暂时没有更新知乎文章。

如今终于有了空闲时间，计划在知乎上分享一些学到的知识，分为划水、十二点和九分三个系列。其中划水系列涉及FPGA/IC设计小技巧，十二点系列介绍FPGA/IC设计中的实用结构（仅供参考，欢迎讨论更好方案），九分系列涵盖FPGA/IC设计中的专业理论知识。

本系列文章将介绍哈希查找及其硬件实现方案，分为三部分：哈希查找介绍、几种哈希查找的硬件实现及其性能比较。

1. 哈希表：哈希表是一种可通过键值直接访问的数据结构，键（key）用于标识值（value），值是存储的数据，可以是多维的。例如，key用数字表示，value存储IP地址，则表示为、......。通过哈希表存储IP地址，查找或修改某个IP时，可直接通过key来查找。

2. 哈希查找：哈希查找是将元素集合存储于哈希表中，待查询的元素通过相同的哈希函数计算，得到哈希表访问地址，然后读取对应位置的值进行比较，判断待查询元素是否在集合中。

3. 哈希函数选择：构建哈希表和哈希查找都需要用到哈希函数，一个好的哈希函数可以降低哈希冲突的影响。

4. 哈希冲突及其解决方案：当两个不同值经过同一哈希函数计算得到相同值时，认为发生哈希冲突。解决哈希冲突的方法有：开放定址法、链地址法、公共溢出法、再哈希法。

后续文章将简要介绍几种哈希查找硬件实现结构，并比较性能和资源。

所有RTL源码和测试结果已上传至gitee，欢迎有兴趣的朋友参考。

深入源码解析LevelDB

LevelDB总体架构中，sstable文件的生成过程遵循一系列精心设计的步骤。首先，遍历immutable memtable中的地球终末之日源码key-value对，这些对被写入data_block，每当data_block达到特定大小，构造一个额外的key-value对并写入index_block。在这里，key为data_block的最大key，value为该data_block在sstable中的偏移量和大小。同时，构造filter_block，默认使用bloom filter，用于判断查找的key是否存在于data_block中，显著提升读取性能。meta_index_block随后生成，存储所有filter_block在sstable中的偏移和大小，此策略允许在将来支持生成多个filter_block，进一步提升读取性能。meta_index_block和index_block的偏移和大小保存在sstable的脚注footer中。

sstable中的block结构遵循一致的模式，包括data_block、index_block和meta_index_block。为提高空间效率，数据按照key的字典顺序存储，采用前缀压缩方法处理。查找某一key时，必须从第一个key开始遍历才能恢复，因此每间隔一定数量（block_restart_interval）的key-value，全量存储一个key，并设置一个restart point。每个block被划分为多个相邻的key-value组成的集合，进行前缀压缩，并在数据区后存储起始位置的偏移。每一个restart都指向一个前缀压缩集合的起始点的偏移位置。最后一个位存储restart数组的大小，表示该block中包含多少个前缀压缩集合。

filter_block在写入data_block时同步存储，当一个new data_block完成，根据data_block偏移生成一份bit位图存入filter_block，并清空key集合，重新开始存储下一份key集合。

写入流程涉及日志记录，包括db的sequence number、本次记录中的操作个数及操作的key-value键值对。WriteBatch的batch_data包含多个键值对，leveldb支持延迟写和停止写策略，导致写队列可能堆积多个WriteBatch。为了优化性能，写入时会合并多个WriteBatch的batch_data。日志文件只记录写入memtable中的key-value，每次申请新memtable时也生成新日志文件。

在写入日志时，头脑王者源码下载对日志文件进行划分为多个K的文件块，每次读写以这样的每K为单位。每次写入的日志记录可能占用1个或多个文件块，因此日志记录块分为Full、First、Middle、Last四种类型，读取时需要拼接。

读取流程从sstable的层级结构开始，0层文件特别，可能存在key重合，因此需要遍历与查找key有重叠的所有文件，文件编号大的优先查找，因为存储最新数据。非0层文件，一层中的文件之间key不重合，利用版本信息中的元数据进行二分搜索快速定位，仅需查找一个sstable文件。

LevelDB的sstable文件生成与合并管理版本，通过读取log文件恢复memtable，仅读取文件编号大于等于min_log的日志文件，然后从日志文件中读取key-value键值对。

LevelDB的LruCache机制分为table cache和block cache，底层实现为个shard的LruCache。table cache缓存sstable的索引数据，类似于文件系统对inode的缓存；block cache缓存block数据，类似于Linux中的page cache。table cache默认大小为，实际缓存的是个sstable文件的索引信息。block cache默认缓存8M字节的block数据。LruCache底层实现包含两个双向链表和一个哈希表，用于管理缓存数据。

深入了解LevelDB的源码解析，有助于优化数据库性能和理解其高效数据存储机制。

hashmapåºå±å®ç°åç

å¦æä½¿ç¨æåºçæ å°ï¼å»ºè®®ä½¿ç¨TreeMapãå¨ä½¿ç¨TreeMapæ¶ï¼keyå¿é¡»å®ç°Comparableæ¥å£æèå¨æé TreeMapä¼ å¥èªå®ä¹çComparatorï¼å¦åä¼å¨è¿è¡æ¶æåºjava.lang.ClassCastExceptionç±»åçå¼å¸¸ã

æ©å±èµæ

死磕以太坊源码分析之Kademlia算法

Kademlia算法是一种点对点分布式哈希表(DHT)，它在复杂环境中保持一致性和高效性。该算法基于异或指标构建拓扑结构，简化了路由过程并确保了信息的有效传递。通过并发的异步查询，系统能适应节点故障，而不会导致用户等待过长。

在Kad网络中，每个节点被视作一棵二叉树的叶子，其位置由ID值的最短前缀唯一确定。节点能够通过将整棵树分割为连续、不包含自身的子树来找到其他节点。例如，节点可以将树分解为以0、、90的源码补码、为前缀的子树。节点通过连续查询和学习，逐步接近目标节点，最终实现定位。每个节点都需知道其各子树至少一个节点，这有助于通过ID值找到任意节点。

判断节点间距离基于异或操作。例如，节点与节点的距离为，高位差异对结果影响更大。异或操作的单向性确保了查询路径的稳定性，不同起始节点进行查询后会逐步收敛至同一路径，减轻热门节点的存储压力，加快查询速度。

Kad路由表通过K桶构建，每个节点保存距离特定范围内的节点信息。K桶根据ID值的前缀划分距离范围，每个桶内信息按最近至最远的顺序排列。K桶大小有限，确保网络负载平衡。当节点收到PRC消息时，会更新相应的K桶，保持网络稳定性和减少维护成本。K桶老化机制通过随机选择节点执行RPC_PING操作，避免网络流量瓶颈。

Kademlia协议包括PING、STORE、FIND_NODE、FIND_VALUE四种远程操作。这些操作通过K桶获得节点信息，并根据信息数量返回K个节点。系统存储数据以键值对形式，BitTorrent中key值为info_hash，value值与文件紧密相关。RPC操作中，接收者响应随机ID值以防止地址伪造，并在回复中包含PING操作校验发送者状态。

Kad提供快速节点查找机制，通过参数调节查找速度。节点x查找ID值为t的节点，递归查询最近的节点，直至t或查询失败。递归过程保证了收敛速度为O(logN)，N为网络节点总数。查找键值对时，选择最近节点执行FIND_VALUE操作，缓存数据以提高下次查询速度。

数据存储过程涉及节点间数据复制和更新，确保一致性。加入Kad网络的节点通过与现有节点联系，并执行FIND_NODE操作更新路由表。节点离开时，系统自动更新数据，无需发布信息。Kad协议设计用于适应节点失效，周期性更新数据到最近邻居，确保数据及时刷新。

Redis7.0源码阅读：哈希表扩容、缩容以及rehash

当哈希值相同发生冲突时，Redis 使用链表法解决，将冲突的键值对通过链表连接，但随着数据量增加，冲突加剧，查找效率降低。负载因子衡量冲突程度，负载因子越大，冲突越严重。为优化性能，Redis 需适时扩容，将新增键值对放入新哈希桶，减少冲突。

扩容发生在 setCommand 部分，其中 dictKeyIndex 获取键值对索引，判断是否需要扩容。_dictExpandIfNeeded 函数执行扩容逻辑，条件包括：不在 rehash 过程中，哈希表初始大小为0时需扩容，或负载因子大于1且允许扩容或负载因子超过阈值。

扩容大小依据当前键值对数量计算，如哈希表长度为4，实际有9个键值对，扩容至（最小的2的n次幂大于9）。子进程存在时，dict_can_resize 为0，反之为1。fork 子进程用于写时复制，确保持久化操作的稳定性。

哈希表缩容由 tryResizeHashTables 判断负载因子是否小于0.1，条件满足则重新调整大小。此操作在数据库定时检查，且无子进程时执行。

rehash 是为解决链式哈希效率问题，通过增加哈希桶数量分散存储，减少冲突。dictRehash 函数完成这一任务，移动键值对至新哈希表，使用位运算优化哈希计算。渐进式 rehash 通过分步操作，减少响应时间，适应不同负载情况。定时任务检测服务器空闲时，进行大步挪动哈希桶。

在 rehash 过程中，数据查询首先在原始哈希表进行，若未找到，则在新哈希表中查找。rehash 完成后，哈希表结构调整，原始表指向新表，新表内容返回原始表，实现 rehash 结果的整合。

综上所述，Redis 通过哈希表的扩容、缩容以及 rehash 动态调整哈希桶大小，优化查找效率，确保数据存储与检索的高效性。这不仅提高了 Redis 的性能，也为复杂数据存储与管理提供了有力支持。

Chromium setTimeout/clearTimeout 源码分析

Chromium版本.0..3中setTimeout函数的工作流程涉及大量源码，包括线程、消息循环、任务队列和操作系统定时器函数。本文仅分析setTimeout的关键步骤。

setTimeout函数通过创建包含回调函数和延时时间的action对象，调用DOMTimer::Install进行处理。DOMTimer::Install通过DOMTimerCoordinator::InstallNewTimeout向定时器哈希表timers_插入一个定时器对象，生成唯一timeout_id。

timeout_id由NextID生成，每次调用setTimeout返回递增的值，用于唯一标识每个定时器任务。timers_是一个哈希表，存放定时器对象，与任务一一对应。

创建定时器对象时，通过定时器的延时时间获取任务类型，并将回调函数与任务类型关联，最终通过web_task_runner_获取相应的任务运行器，并在TimerBase::SetNextFireTime调用web_task_runner_->PostDelayedTask提交延迟任务。

PostDelayedTask将延迟任务插入到延迟任务队列中，并更新当前线程的唤醒时间。延迟任务队列是优先队列，用于管理按延时时间排序的任务。

通过GetNextScheduledWakeUpImpl获取优先队列的队头任务，创建唤醒任务用于在线程唤醒时执行延迟任务。唤醒任务只包含延时时间，不包含回调函数。

UpdateDelayedWakeUpImpl根据新创建的唤醒任务更新唤醒任务队列。如果延迟任务队列中的任务延时时间较短，新任务可能无法立即进入唤醒任务队列。

调用操作系统定时器函数，如在Mac下调用CFRunLoopTimerSetNextFireDate，在Windows下调用SetTimer，在Android下调用timerfd_settime，在指定延时后唤醒线程。

线程睡眠后，唤醒线程执行已到期的延迟任务，将到期任务从延迟任务队列移出并加入工作队列。ThreadControllerWithMessagePumpImpl::DoWorkImpl找到并执行工作队列中的任务。

面试题：setTimeout延迟时间不准确的原因可能有：硬件层面的时间不准确、操作系统不保证定时器函数的精确性、CPU处理大量定时任务时可能出现部分任务延迟执行。

clearTimeout与clearInterval功能相同，DOMTimer::RemoveByID从timers_哈希表中移除指定timeout_id对应的定时器对象，将回调函数置空，视为任务取消。

面试官：HashSet如何保证元素不重复？

HashSet 实现了 Set 接口，由哈希表（实际是 HashMap）提供支持。HashSet 不保证集合的迭代顺序，但允许插入 null 值。这意味着它可以将集合中的重复元素自动过滤掉，保证存储在 HashSet 中的元素都是唯一的。

HashSet 基本操作方法有：add（添加）、remove（删除）、contains（判断某个元素是否存在）和 size（集合数量）。这些方法的性能都是固定操作时间，如果哈希函数是将元素分散在桶中的正确位置。HashSet 的基本使用方式如下：

HashSet 不能保证插入元素的顺序和循环输出元素的顺序一致，实际上，HashSet 是无序的集合。具体代码示例如下：

这表明，HashSet 的插入顺序为：深圳 -> 北京 -> 西安，而循环打印的顺序是：西安 -> 深圳 -> 北京。因此，HashSet 是无序的，不能保证插入和迭代的顺序一致。

如果要保证插入顺序和迭代顺序一致，可以使用 LinkedHashSet 替换 HashSet。

有人说 HashSet 只能保证基础数据类型不重复，却不能保证自定义对象不重复？其实不是这样的。使用 HashSet 存储基本数据类型，可以实现去重。将自定义对象存储到 HashSet 中时，HashSet 会依赖元素的 hashCode 和 equals 方法判断元素是否重复。如果两个对象的 hashCode 和 equals 返回 true，说明它们是相同的对象。例如，Long 类型元素之所以能实现去重，是因为 Long 类型中已经重写了 hashCode 和 equals 方法。

为了使 HashSet 支持自定义对象去重，只需在自定义对象中重写 hashCode 和 equals 方法即可。这样，HashSet 就可以根据对象的 hashCode 和 equals 判断是否重复，从而实现自定义对象的去重。

HashSet 保证元素不重复是通过计算对象的 hashcode 值来判断对象的存储位置。当添加对象时，HashSet 首先计算对象的 hashcode 值，然后与其他对象的 hashcode 值进行比较。如果发现相同 hashcode 值的对象，HashSet 会调用对象的 equals() 方法来检查对象是否相同。如果相同，则不会让重复的对象加入到 HashSet 中，这样就保证了元素的不重复。具体实现源码基于 JDK 8，HashSet 的 add 方法实际调用了 HashMap 的 put 方法，而 put 方法又调用了 putVal 方法。在 putVal 方法中，首先根据 key 的 hashCode 返回值决定 Entry 的存储位置。如果有两个 key 的 hash 值相同，则会判断这两个元素 key 的 equals() 是否相同。如果相同，说明是重复键值对，HashSet 的 add 方法会返回 false，表示添加元素失败。如果 key 不重复，put 方法最终会返回 null，表示添加成功。

总结而言，HashSet 底层是由 HashMap 实现的，它可以实现重复元素的去重功能。如果存储的是自定义对象，必须重写 hashCode 和 equals 方法。HashSet 通过在存储之前判断 key 的 hashCode 和 equals 来保证元素的不重复。

HashMapå®ç°åç

ä»¥ä¸é½æ¯æèªå·±ççè§£ï¼æ¬¢è¿è®¨è®ºï¼åçä¸å¥½è½»å·ã

å¾ä¸è®¡ç®ä¸æ ä½¿ç¨å°äºä»¥ä¸ä¸¤ä¸ªå½æ°ï¼

ä»¥ä¸æ¯åå¸ç¢°æç¸å³çè¯´æï¼

ä»¥ä¸æ¯ä¸æ å²çªç¸å³çè¯´æï¼

ä¸å¾æ¯å¼å¥é¾è¡¨åçæ£åè¡¨ï¼

Qï¼æäºæé¾æ³ï¼å°±ä¸ç¨æå¿åçå²çªåï¼

å¨1.8åå¶ä»¥ä¸çjdkçæ¬ä¸ï¼HashMapåå¼å¥äºçº¢é»æ ã

深入理解 IPFS - DHT 网络（1）

在探讨 IPFS 架构时，DHT（分布式哈希表）扮演着关键角色。本篇文章将从应用、原理两个角度深入剖析 DHT 网络。

在 IPFS 网络层中，源码位于 libp2p。利用 go-libp2p 进行分析。

假设两个节点，分别为 earth 和 mars，各自加入 DHT 网络。随后，他们需找到对方并互相发送消息。

（一）节点初始化

初始化节点仅需一行代码：libp2p.New()。自定义参数如监听地址与端口号 /ip4/.0.0.1/tcp/，相当于 .0.0.1:，但自解释性更强。通过 /ip4/1.2.3.4/tcp//p2p/QmcEPrat8ShnCph8WjkREzt5CPXF2RwhYxYBALDcLC1iV6，可以看到 PeerId QmcEPrat8ShnCph8WjkREzt5CPXF2RwhYxYBALDcLC1iV6，不仅通过 IP+端口寻址，通过 PeerId 也能直接定位到节点。

初始化后，生成节点，ID 以 btcencode 编码，即 QmcEPrat8ShnCph8WjkREzt5CPXF2RwhYxYBALDcLC1iV6，即上文提及的 PeerID。完成初始化后，配置端口的 handler。

handleStream 函数实现类似于普通 socket 编程，读写数据即可。

（二）加入 DHT 网络

节点建立完成后，加入 DHT 网络是接下来的关键步骤。无论在比特币、以太坊还是早期的 BT 网络中，新节点加入网络时都需要种子（bootstrap）节点作为起点，扩展自己的路由表。

（三）广而告之

回到开头场景，假设初始化节点名为 mars，加入 DHT 网络后，需要向所有节点宣布自己是 mars 节点。

原理将在下篇文章中深入分析。nodeName 转换为内容哈希，节点通过 Advertise 方法告知其他节点自己拥有此哈希，其他节点会更新路由表。当有请求查找此内容时，会告知拥有此内容的节点或更接近的节点。

（四）寻找节点

FindPeers 实现逻辑是寻找 earth 这个哈希地址，找到后建立双工连接，实现了服务端与客户端的通信。

（五）演示

（六）完善

以上例子存在一个风险，任何节点都可声称自己是 mars 节点，通信双方难以信任。因此，适用于聊天室场景的这种模式。通过将内容寻址改为节点寻址，可找到可信的通信方，前提是已知要通信的节点 ID。

以下是代码示例。

皮皮网

【叮咚酒店源码】【牛友圈源码】【地球终末之日源码】哈希表源码_哈希表的代码

编辑推荐