【Guava工具类】Strings&Ints，这个值并不代表字符本

来源： javaer 分享于 2025-05-17 点击 14446 次点评：62

【Guava工具类】Strings&Ints，这个值并不代表字符本

String相关工具

Strings

Guava 提供了一系列用于字符串处理的工具：

对字符串为null或空的处理

nullToEmpty(@Nullable String string)：如果非空，则返回给定的字符串；否则返回空字符串

public static String nullToEmpty(@Nullable String string) {
    //如果string为null则返回空字符串，否则返回给定的string
    return string == null ? "" : string;
}

.isNullOrEmpty(@Nullable String string)：如果字符串为空或长度为0返回true，否则返回false

public static boolean isNullOrEmpty(@Nullable String string) {
    return string == null || string.length() == 0;
}

emptyToNull(@Nullable String string)：如果非空，则返回给定的字符串；否则返回null

public static String emptyToNull(@Nullable String string) {
    //调用isNullOrEmpty方法，如果返回true则return null，否则返回原字符串
    return isNullOrEmpty(string)?null:string;
}

生成指定字符串的字符串副本

padStart(String string, int minLength, char padChar)：根据传入的minLength进行补充，如果minLength小于原来字符串的长度，则直接返回原来字符串，否则在字符串开头添加string.length() - minLength个padChar字符

public static String padStart(String string, int minLength, char padChar) {
    //使用Preconditions工具类进行字符串验空处理   
    Preconditions.checkNotNull(string);
    //如果原字符串长度大于传入的新长度则直接返回原字符串
    if(string.length() >= minLength) {
        return string;
    } else { //否则
        StringBuilder sb = new StringBuilder(minLength);
        //先在字符串前面添加string.length()-minLength个padChar字符
        for(int i = string.length(); i < minLength; ++i) {
            sb.append(padChar);
        }
        //最后将原始字符串添加到尾部
        sb.append(string);
        return sb.toString();
    }
}

padEnd(String string, int minLength, char padChar)：根据传入的minLength进行补充，如果minLength小于原来字符串的长度，则直接返回原来字符串，否则在字符串结尾添加 string.length() - minLength 个padChar字符

public static String padEnd(String string, int minLength, char padChar) {
    Preconditions.checkNotNull(string);   
    //如果原字符串长度大于传入的新长度则直接返回原字符串
    if(string.length() >= minLength) {
        return string;
    } else {
        StringBuilder sb = new StringBuilder(minLength);
        //先将原始字符串添加到预生成的字符串当中
        sb.append(string);
        //在使用padChar进行填补
        for(int i = string.length(); i < minLength; ++i) {
            sb.append(padChar);
        }
        return sb.toString();
    }
}

repeat(String string, int count)：返回count个 string字符串拼接成的字符串

public static String repeat(String string, int count) {
    Preconditions.checkNotNull(string);
    //如果小于1，则抛出异常
    if(count <= 1) {
        Preconditions.checkArgument(count >= 0, "invalid count: %s", new Object[]{Integer.valueOf(count)});
        return count == 0 ? "":string;
    } else {
        int len = string.length();
        long longSize = (long)len * (long)count;
        int size = (int)longSize;
        //如果新创建的字符串长度超出int最大值，则抛出需要的数组过长的异常
        if((long)size != longSize) {
            throw new ArrayIndexOutOfBoundsException((new StringBuilder(51)).append("Required array size too large: ").append(longSize).toString());
        } else {
            //实际上新建一个相当长度的字符数组，再将数据复制进去
            char[] array = new char[size];
            //将string从0开始len结束之间的字符串复制到array数组中，且array数组从0开始存储
            string.getChars(0, len, array, 0);
            int n;
            //复制数组，复制的步长为（1,2,4...n^2），所以这快提供了一个外层循环为ln2的算法
            for(n = len; n < size - n; n <<= 1) {
                System.arraycopy(array, 0, array, n, n);
            }
            System.arraycopy(array, 0, array, n, size - n);
            return new String(array);
        }
    }
}

查找两个字符串的公共前缀或后缀

在看commonPrefix和commonSuffix 这两个方法之前需要先看下validSurrogatePairAt方法

static boolean validSurrogatePairAt(CharSequence string, int index) {
    return index >= 0 && index <= string.length() - 2 && Character.isHighSurrogate(string.charAt(index)) && Character.isLowSurrogate(string.charAt(index + 1));
}

这个方法的作用是判断最后两个字符是不是合法的“Java 平台增补字符

Character.isHighSurrogate：确定给定char值是否为Unicode高位代理。这个值并不代表字符本身，而是在UTF-16编码的补充的字符的表示被使用。
Character.isLowSurrogate：确定给定char值是否为一个Unicode低代理项代码单元（也称为尾部代理项代码单元）。这些值并不代表本身的字符，但用于表示增补字符的UTF-16编码。

简单的说就是Java 语言内部的字符信息是使用 UTF-16 编码。因为char 这个类型是 16 bit 的。它可以有65536种取值，即65536个编号，每个编号可以代表1种字符。而在Unicode字符集中，有一些字符的编码超出了16 bit的范围，也就是超过了char类型能够直接表示的范围，65536 就不够用。

为了能够在Java中表示这些字符，Unicode引入了一种叫做“代理对”（Surrogate Pair）的机制。从这65536个编号里，拿出2048个，规定它们是「Surrogates」，让它们两个为一组，来代表编号大于65536的那些字符。更具体地，编号为 D800 至 DBFF 的规定为「High Surrogates」，共1024个。编号为 DC00至 DFFF 的规定为「Low Surrogates」，也是1024个。它们两两组合出现，就又可以多表示1048576种字符。

如果丢失一个高位代理Surrogates或者低位代理Surrogates，就会出现乱码。这就是为什么emoji会出现乱码了。例如输入了一个emoji:

【Guava工具类】Strings&Ints，这个值并不代表字符本