欢迎访问悦橙教程(wld5.com),关注java教程。悦橙教程  java问答|  每日更新
页面导航 : > > > 文章正文

集合(ArrayList,HashMap,HashSet)扩容,hashmaphashset

来源: javaer 分享于  点击 29751 次 点评:37

集合(ArrayList,HashMap,HashSet)扩容,hashmaphashset


CVTE一面

  • 集合扩容问题
  • hasMap \ hasTable
  • 数据库引擎InnoDB MyASM
  • MongoDB 和 MySql 的区别 为什么选用MongoDB
  • 两个有序链表合并成一个有序列表
  • 根据项目提问

感受:面试官很耐心,一直在引导我回答问题,无奈之前学过的东西实在是忘记的太多了。从现在开始要崛起了。加油!!


集合扩容:

ArrayList :


  • 线性表存储
  • 默认开辟大小为10的空间
  • 当默认开辟空间不够的时候(比如此时需要add第11个元素),则以原数组的长度长度的1.5倍+1 : (原长度*3)/2+1
  • 重新确定数组容量,然后将第11个元素添加进去,申请空间并赋值
  • 线程不同步(非线程安全):如果多个线程同时访问一个ArrayList实例,而其中至少一个线程从结构上修改了列表,那么它必须保持外部同步,所以为了保证同步,最好的办法是在创建的时候完成加锁,保证线程同步。

List list = Collections.synchronizedList(new ArrayList(…));

HashMap:


  • 存储结构hash表类似于桶:线性表+链表+红黑树
  • 默认初始化容量16,装载因子默认为0.75

衡量hashMap主要性能的两个指标 :初始化容量,装载因子

初始化容量:是创建hash表的容量;
装载因子:是hash表在其容量自动增长之前,所能到达的多满的一种尺度,衡量的是hash表的空间使用程度。
    衡量描述:装载因子越大,散列表装填程度越高;反之越小
    实际情况:对于链表法的散列表来说
装载因子越大,则空间利用率越高,但是查找效率减少,原因是在桶内链表中进行查找需要便利整个链表。
装载因子越小,则散列程度越高,空间利用率越低,对空间造成严重浪费。
  • 极限容量计算(桶存储数据达到该容量的时候进行扩容)
初始容量最小的2的n次方的值 * 装载因子  
eg: 默认初始容量16(桶的个数),装载因子0.75,则极限容量计算:
            2^4 = 16 
            16 * 0.75 = 12 (极限容量)
eg:默认初始容量为20,装载因子不变0.75 ,极限容量计算:
            2^5 = 32 < 32 --->32
            32 * 0.75 = 24 (极限容量)
  • 扩容:http://blog.csdn.net/gaopu12345/article/details/50831631
为什么扩容?
答 : 保证hashMap的效率。
原因:随着hashMap中存储的元素越来越多,则发生碰撞的概率就会越来越大,链表的长度也会越来越长,那么就会hashMap的效率就会减低,为了保证hashMap的效率,则,就需要在存储容量达到一定值的时候进行扩容处理。

什么时候扩容?
答 : 当达到临界值的时候进行扩容处理。
      临界值:容量*装载因子   
      eg : 容量:16  装载因子:0.75  ===>  临界值为:16 * 0.75 = 12
            即:当初始容量为16,装载因子为0.75hashMap                                      存储容量到达12的时候进行扩容.
优化点:
原因:由于扩容是非常耗时的操作,为它需要重新计算元数据在新数组中的存储位置,并复制;
因此:如果我们预知hashMap中元素的个数,预设元素个数可以有效的提高hashMap的效率。

怎样扩容?
答:首先计算扩容大小:存储容量*2 ===>  16 * 2 = 32;
    申请线性表表空间,长度为 32;
    重新计算原来的数据在新数组中的位置,并进行复制;


扩多少?
答:桶和极限值都扩大为原来的216 * 2 = 32   |  12 * 2 = 24 


  • 存储细节:首先判断key是否为null,若为null,则直接调用putForNullKey方法;如果不为空则,获取key的hash值,然后根据hash值搜索在table数组中的索引位置(使用indexFor),如果table中在该位置没有元素,则直接存储在该位置;如果table在该位置有元素,则比较是否存在相同的key(hash值和key都相同)则更新value,如果hash值相同,key值不同,则将节点插入链表头部。
保证数据存储分布均匀,减少碰撞次数

static int indexFor(int h, int length) {
        return h & (length-1);
    }
  • 为什么要保证hashMap底层数组是2^n?
 原因:减少碰撞次数
 eg:假设底层数据长度为15,hashcode 有0,1,2,3,4,5
     则对应i计算为 : h & (length-1)   ===> h & 14
         length-1      hashcode         index
     即:1110      &    0000     ===>   0000
         1110      &    0001     ===>   0000  (碰撞 1 次)
         1110      &    0010     ===>   0010  
         1110      &    0011     ===>   0010  (碰撞 2 次)
         ...           ....              ....
    由上述例子,可以发现,不管怎样 对应hashcode 最后一位都为0的都都访问不到 也就是说0001,0011,0101,0111,1001,1101,1111,1011 => 1,3,5,7,9,11,13,15为下标的元素都访问不到,浪费存储空间。

    而如果底层数据长度为2^n (eg :16)那么与之对应的index求取公式为 :
            h & (16-1) = index 即  : h & 1111 = index
    则对应的数据都能访问得到,减少了不同hash值的碰撞概率,并且能够使数据均匀分布,提高查询效率。
  • 非线程安全的:https://m.aliyun.com/yunqi/articles/25347
表现:多线程访问 出死循环 =>  cpu利用率100%
原因:多线程访问,多个线程同时扩容的时候有可能造成链表闭环,出现死循环。
解决:加锁。使用Collections.synchronizedMap(map);
总结:在并发情况下选择非线程安全的容器是没有保障的。
  • jdk 1.8优化:
jdk 1.7 时对于扩容时计算下标值的过程:
1.得到hashCode值 : hash(key);
2.高位相与: h & (h >> 16)
3.取模: h & (legth-1)



jdk 1.81.7类似,但是在扩展的时候采用的2次幂扩展,
所以,元素的移动要么在原位置,要么在移动原位置的2次幂的位置。
不需要重新计算hash值,也可以直接定位原来的数据在新的数组中的位置,且分布均匀。


eg:1.7 计算hash值的过程:n = 16

h = hashCode()     : 1111 1111 1111 1111 1111 0000 1110 1010  得到hashCode

       h           : 1111 1111 1111 1111 1111 0000 1110 1010  计算hash值
    h >>> 16       : 0000 0000 0000 0000 1111 1111 1111 1111

hash = h^(h>>>16)  : 1111 1111 1111 1111 0000 1111 0001 0101  
      n - 1        : 0000 0000 0000 0000 0000 0000 0000 1111  取模求下标

   (n-1) & hash    : 0000 0000 0000 0000 0000 0000 0000 0101  

      index        :  0101 = 5


eg:1.71.8扩容对比

n = 16
hash(key1) = 1111 1111 1111 1111 0000 1111 0000 0101
hash(key2) = 1111 1111 1111 1111 0000 1111 0000 0101

 1. jdk 1.7 中:

扩容前  n = 16                                               index_bin   index
      n - 10000 0000 0000 0000 0000 0000 0000 1111     
     hash(key1)   : 1111 1111 1111 1111 0000 1111 0000 0101   (0) 0101 => 5
     hash(key2)   : 1111 1111 1111 1111 0000 1111 0001 0101   (0) 0101 => 5
扩容后 n = 32
      n - 10000 0000 0000 0000 0000 0000 0001 1111     
     hash(key1)   : 1111 1111 1111 1111 0000 1111 0000 0101  (0)0 0101 => 5
     hash(key2)   : 1111 1111 1111 1111 0000 1111 0001 0101  (0)1 0101 => 5+16=21     


可发现:

0101 = 5  -->  resize() : 16 * 2 = 32  -->  0 0101 = 5          原位置
                                       --> 1 0101 = 21 = 5+16 原位置+oldCap

因此,当扩容的时候,jdk1.8不用像1.7一样重新计算hash值,
只需要看新增的是bit位是1还是0,
若为0则在新数组中与原来位置一样,
若为1则在新 原位置+oldCap 即可。
1.为什么要做这样的优化?(连地址法)

答:增加效率:
高效率的关键点有两个:减少冲突,合适的空间占用数量。

空间越多,即使差的hash算法,也会比较分散;
空间越小,即使好的hash算法,也会出现较多的碰撞;

因此提高其效率的关键点就是:在实际情况中确定桶的个数,并在此基础上设计好的hash算法减少碰撞,提高效率。


2.怎样优化?通过什么方式来控制map使得Hash碰撞的概率又小,哈希桶数组占用空间又少呢?

答案就是好的Hash算法和扩容机制。
jdk1.71.8性能对比:
如果hash表的桶数合适,并且key经过hash算法得到的index全不相同,那么此时hash表的查找效率就为O(1);然而如果hash算法非常差,那么所有key计算出的结果就有可能全部集中在一个链表/一个红黑树中,那么此时的效率就为O(1)/O(lgn);

在hash表分布均匀的情况下jdk1.8 效率不是特别明显高于jdk1.7,红黑树的优势没有体现出来;

在hash表分布及其不均的情况下,
1.7 数据全都集中在某一个链表中,查找效率为O(n),且查询花费时间呈增长趋势
1.8 优化后,红黑树查询效率降低为O(lgn),查询时间呈递减趋势

小结

HashSet

  • HashSet底层实现是hashMap
  • key 值比较 需要重写equals方法,重写hashcode方法
  • value static final PRESENT
  • 扩容机制和hashMap一样 16,0.75
  • add的时候调用的是hashMap的put(key,PRESENT);方法。

相关文章

    暂无相关文章

用户点评