欢迎访问悦橙教程(wld5.com),关注java教程。悦橙教程  java问答|  每日更新
页面导航 : > > 文章正文

【Guava工具类】Strings&Ints,这个值并不代表字符本

来源: javaer 分享于  点击 14446 次 点评:62

【Guava工具类】Strings&Ints,这个值并不代表字符本


String相关工具

Strings

Guava 提供了一系列用于字符串处理的工具:

对字符串为null或空的处理

  1. nullToEmpty(@Nullable String string):如果非空,则返回给定的字符串;否则返回空字符串

    public static String nullToEmpty(@Nullable String string) {
        //如果string为null则返回空字符串,否则返回给定的string
        return string == null ? "" : string;
    }
    
  2. .isNullOrEmpty(@Nullable String string):如果字符串为空或长度为0返回true,否则返回false

    public static boolean isNullOrEmpty(@Nullable String string) {
        return string == null || string.length() == 0;
    }
    
  3. emptyToNull(@Nullable String string):如果非空,则返回给定的字符串;否则返回null

    public static String emptyToNull(@Nullable String string) {
        //调用isNullOrEmpty方法,如果返回true则return null,否则返回原字符串
        return isNullOrEmpty(string)?null:string;
    }
    

生成指定字符串的字符串副本

  1. padStart(String string, int minLength, char padChar):根据传入的minLength进行补充,如果minLength小于原来字符串的长度,则直接返回原来字符串,否则在字符串开头添加string.length() - minLength个padChar字符

    public static String padStart(String string, int minLength, char padChar) {
        //使用Preconditions工具类进行字符串验空处理   
        Preconditions.checkNotNull(string);
        //如果原字符串长度大于传入的新长度则直接返回原字符串
        if(string.length() >= minLength) {
            return string;
        } else { //否则
            StringBuilder sb = new StringBuilder(minLength);
            //先在字符串前面添加string.length()-minLength个padChar字符
            for(int i = string.length(); i < minLength; ++i) {
                sb.append(padChar);
            }
            //最后将原始字符串添加到尾部
            sb.append(string);
            return sb.toString();
        }
    }
    
  2. padEnd(String string, int minLength, char padChar):根据传入的minLength进行补充,如果minLength小于原来字符串的长度,则直接返回原来字符串,否则在字符串结尾添加 string.length() - minLength 个padChar字符

    public static String padEnd(String string, int minLength, char padChar) {
        Preconditions.checkNotNull(string);   
        //如果原字符串长度大于传入的新长度则直接返回原字符串
        if(string.length() >= minLength) {
            return string;
        } else {
            StringBuilder sb = new StringBuilder(minLength);
            //先将原始字符串添加到预生成的字符串当中
            sb.append(string);
            //在使用padChar进行填补
            for(int i = string.length(); i < minLength; ++i) {
                sb.append(padChar);
            }
            return sb.toString();
        }
    }
    
  3. repeat(String string, int count):返回count个 string字符串拼接成的字符串

    public static String repeat(String string, int count) {
        Preconditions.checkNotNull(string);
        //如果小于1,则抛出异常
        if(count <= 1) {
            Preconditions.checkArgument(count >= 0, "invalid count: %s", new Object[]{Integer.valueOf(count)});
            return count == 0 ? "":string;
        } else {
            int len = string.length();
            long longSize = (long)len * (long)count;
            int size = (int)longSize;
            //如果新创建的字符串长度超出int最大值,则抛出需要的数组过长的异常
            if((long)size != longSize) {
                throw new ArrayIndexOutOfBoundsException((new StringBuilder(51)).append("Required array size too large: ").append(longSize).toString());
            } else {
                //实际上新建一个相当长度的字符数组,再将数据复制进去
                char[] array = new char[size];
                //将string从0开始len结束之间的字符串复制到array数组中,且array数组从0开始存储
                string.getChars(0, len, array, 0);
                int n;
                //复制数组,复制的步长为(1,2,4...n^2),所以这快提供了一个外层循环为ln2的算法
                for(n = len; n < size - n; n <<= 1) {
                    System.arraycopy(array, 0, array, n, n);
                }
                System.arraycopy(array, 0, array, n, size - n);
                return new String(array);
            }
        }
    }
    

查找两个字符串的公共前缀或后缀

在看commonPrefix和commonSuffix 这两个方法之前需要先看下validSurrogatePairAt方法

static boolean validSurrogatePairAt(CharSequence string, int index) {
    return index >= 0 && index <= string.length() - 2 && Character.isHighSurrogate(string.charAt(index)) && Character.isLowSurrogate(string.charAt(index + 1));
}

这个方法的作用是 判断最后两个字符是不是合法的“Java 平台增补字符

  • Character.isHighSurrogate:确定给定char值是否为Unicode高位代理。这个值并不代表字符本身,而是在UTF-16编码的补充的字符的表示被使用。
  • Character.isLowSurrogate:确定给定char值是否为一个Unicode低代理项代码单元(也称为尾部代理项代码单元)。这些值并不代表本身的字符,但用于表示增补字符的UTF-16编码。

简单的说就是Java 语言内部的字符信息是使用 UTF-16 编码。因为char 这个类型是 16 bit 的。它可以有65536种取值,即65536个编号,每个编号可以代表1种字符。而在Unicode字符集中,有一些字符的编码超出了16 bit的范围,也就是超过了char类型能够直接表示的范围,65536 就不够用。

为了能够在Java中表示这些字符,Unicode引入了一种叫做“代理对”(Surrogate Pair)的机制。从这65536个编号里,拿出2048个,规定它们是「Surrogates」,让它们两个为一组,来代表编号大于65536的那些字符。 更具体地,编号为 D800 至 DBFF 的规定为「High Surrogates」,共1024个。编号为 DC00至 DFFF 的规定为「Low Surrogates」,也是1024个。它们两两组合出现,就又可以多表示1048576种字符。

如果丢失一个高位代理Surrogates或者低位代理Surrogates,就会出现乱码。这就是为什么emoji会出现乱码了。例如输入了一个emoji:

相关栏目:

用户点评