ЗАМЕЧАНИЕ
. Специфическая для локали сортировка строк является проблемой также и для сопоставления регулярных выражений. Регулярные выражения допускают диапазоны символов внутри выражений со скобками, такие, как '[a-z]' или '["-/]'. Точное значение такой конструкции (символы, численно располагающиеся между начальной и конечной точками включительно) определено лишь для локалей «С» и «POSIX»Для локалей, не являющихся ASCII, такие диапазоны как '[a-z]
["-/]' действителен в ASCII, но не в "en_US.UTF-8".Долговременным наиболее переносимым решением является использование классов символов POSIX, таких, как '[[:lower:]]
[[:punct:]]'. Если вам кажется, что нужно использовать выражения с диапазонами на системах, использующих локали, и на более старых системах, не использующих их, без изменения своей программы, решение заключается в применении грубой силы и индивидуальном перечислении каждого символа внутри скобок. Это неприятно, но это работает.Основанная на локалях сортировка потенциально дорогостоящая. Если вы ожидаете большого числа сравнений, где по крайней мере одна из строк не будет изменяться или где значения строк будут сравниваться друг с другом по несколько раз (как при сортировке списка), следует рассмотреть использование функции strxfrm()
strcmp(). Функция strxfrm() объявлена следующим образом:#include
size_t strxfrm(char *dest, const char *src, size_t n);
Идея в том, что strxfrm()
src, помещая их в dest. Возвращаемое значение является числом символов, необходимых для сохранения преобразованных символов. Если она превышает n, содержимое dest «неопределенно».Стандарт POSIX явным образом разрешает устанавливать в n
dest NULL. В этом случае strxfrm() возвращает размер массива, необходимого для сохранения преобразованной версии src (не включая завершающий символ '\0'). Предполагается, что это значение впоследствии будет использовано с malloc() для создания массива dest или для проверки размера предопределенных границ массива (При этом, очевидно, src должен иметь завершающий нулевой байт.) Этот фрагмент иллюстрирует использование strxfrm():#define STRBUFSIZE ...
char s1[STRBUFSIZE], s2[STRBUFSIZE]; /* Оригинальные строки */
char s1x[STRBUFSIZE], s2x[STRBUFSIZE]; /* Преобразованные копии */
size_t len1, len2;
int cmp;
/* ... заполнить s1 и s2 ... */
len1 = strlen(s1);
len2 = strlen(s2);
if (strxfrm(s1x, s1, len1) >= STRBUFSIZE ||
strxfrm(s2x, s2, len2) >= STRBUFSIZE)
/* слишком большой, восстановить */
cmp = strcmp(s1x, s2x);
if (cmp == 0)
/* равны */
else if (cmp < 0)
/* s1 < s2 */
else
/* s1 > s2 */
Для одноразовых сравнений, возможно, быстрее непосредственно использовать strcoll()
strxfrm(), а затем strcmp() с преобразованными значениями. Функций для локали, соответствующих strncmp() или strcasecmp(), нет.13.2.4. Числовое и денежное низкоуровневое форматирование: localeconv()
Бьёрн Страуструп , Ирина Сергеевна Козлова , Бьерн Страуструп , Валерий Федорович Альмухаметов
Программирование, программы, базы данных / Базы данных / Программирование / Учебная и научная литература / Образование и наука / Книги по IT