User agent регулярное выражение php. Регулярные выражения в PHP. Общее использование регулярных выражений в PHP
1.6KРегулярные выражения (сокращенно — regex ) представляют собой последовательности символов, которые формируют шаблоны поиска. В основном они используются в шаблонах сопоставления со строками.
Краткая история
- Все началось в 1940 — 1960-х годах, когда множество умных людей говорили о регулярных выражениях;
- 1970-е годы g / re / p;
- 1980 Perl и Генри Спенсер;
- 1997 PCRE (регулярные выражения, совместимые с Perl). Именно тогда начался взлет того, что мы называем регулярные выражения. PCRE предоставляет библиотеки почти для каждого языка.
PHP включает в себя три основные функции для работы с PCRE — preg_match , preg_match_all и preg_replace .
Сравнение соответствия
Выражение возвращает 1 , если соответствие установлено, 0 — если нет, и false — если возникает ошибка:
int preg_match (string $pattern, string $subject [, array &$matches [, int $flags = 0 [, int $offset = 0 ]]])
Регулярного выражения пример, который возвращает количество найденных совпадений:
int preg_match_all (string $pattern, string $subject [, array &$matches [, int $flags = PREG_PATTERN_ORDER [, int $offset = 0 ]]])
Замена
Выражение возвращает замененную строку или массив (на основе объекта $subject ):
mixed preg_replace (mixed $pattern, mixed $replacement, mixed $subject [, int $limit = -1 [, int $count ]])
Общее использование регулярных выражений в JavaScriptРегулярные выражения в JavaScript выглядят почти так же, как и в PHP .
Сравнение соответствия
Возвращает массив совпадений или null , если совпадений не найдено:
string.match(RegExp);
Замена
Регулярное выражение, которое возвращает строку с выполненными заменами:
string.replace(RegExp, replacement);
Особенности регулярных выражений в JavaScript- Точка никогда не соответствует новой строке:
- Те же методы для сравнения соответствия и замены через регулярное выражение, что и без них.
Рассмотрим пример, в котором нужно найти адреса электронной почты в базе кода. Наша цель:
Аналоговые сокеты
Регулярные выражения состоят из двух типов символов:
- специальные символы: ? * + {} () ^ $ / .
- Литералы.
Представьте себе входные строки как болты, а шаблон — как набор разъемов для них (в соответствующем порядке).
Специальные символы
При проверке регулярных выражений нужно знать, как работают специальные символы:
- Символ обратной косой черты \ может заменять другой специальный символ в регулярном выражении:
- Точка и w — .
Совпадение со всеми символами, кроме новых строк. Если хотите проверить на соответствие точке, и только точке — , на соответствие буквам, цифрам и нижнему подчеркиванию — w
- Квадратные скобки .
Совпадение с символами внутри скобок. Поддерживает диапазоны. Некоторые примеры:
o — соответствует любым a, b или c.
o прописные буквы.
o любая цифра.
o — соответствует любому буквенному символу в нижнем или верхнем регистре.
Опционально? Соответствие 0 или 1.
Звездочка *.
Звездочка обозначает 0 или более символов.
Соответствие 1 или более символам.
Фигурные скобки {}.
Минимальное и максимальное значения. Некоторые примеры синтаксиса регулярных выражений:
o {1,} не менее 1.
o {1,3} от 1 до 3.
o {1,64} от 1 до 64.
Добавим все это, чтобы получить регулярное выражение для адресов электронной почты:
/+@+(.+)*/i
Как это выглядит в PHP :
preg_match_all("/+@+(.+)*/i", $input_lines, $output_array);
Использование регулярного выражения для валидацииЗадача : убедиться, что вводимые данные — это то, что мы ожидаем. Цель 1 : /[^w$.]/ Цель 2: /^{1,2}$/
Регулярные выражения подходят для поиска элементов, но вам нужно знать, что именно вы ищете.
Когда не стоит использовать регулярное выражение для проверки?Многие случаи лучше обрабатывать с помощью функции PHP filter_var . Например, проверка адреса электронной почты должна выполняться с помощью встроенных фильтров PHP :
filter_var("[email protected]", FILTER_VALIDATE_EMAIL)
Валидация с помощью регулярных выраженийРегулярные выражения в конце строки используют анкоры:
^
— указывает начало строки.
$
— знак доллара, который указывает конец строки.
if (!preg_match("%^{1,2}$%", $_POST["subscription_frequency"])) { $isError = true; }
Исключенные классы символов[^abc] — все, кроме a , b или c , включая новые строки.
Пример, который обеспечивает ввод только буквенно-цифровых символов, тире, точки, подчеркивания:
if (preg_match("/[^0-9a-z-_.]/i", $productCode)) { $isError = true; }
Поиск и заменаНаиболее распространенными функциями PCRE для выполнения поиска и замены являются preg_replace() и preg_replace_callback() . Но есть также preg_filter() и preg_replace_callback_array() , которые делают почти то же самое. Обратите внимание, что функция preg_replace_callback_array() доступна, начиная с PHP7 .
Заменить слова в списке$subject = "I want to eat some apples."; echo preg_replace("/apple|banana|orange/", "fruit", $subject);
Результат
I want to eat some fruits.
Если в регулярном выражении есть подшаблоны (в круглых скобках ), можно заменить $N или N (где N является целым числом > = 1 ), это называется «обратная ссылка».
Перестановка двух чисел$subject = "7/11"; echo preg_replace("/(d+)/(d+)/", "$2/$1", $subject);
Результат
Изменение форматирования даты$subject = "2001-09-11"; echo preg_replace("/(d+)-(d+)-(d+)/", "$3/$2/$1", $subject);
Результат
Простой пример замены URL-адреса в теге$subject = "Please visit https://php.earth/doc for more articles."; echo preg_replace("#(https?://([^s./]+(?:.[^s./]+)*[^s]*))#i", "$2", $subject);
Результат
mixed preg_replace (mixed pattern, mixed replacement, mixed subject [, int limit])Выполняет поиск в строке subject совпадений с шаблоном pattern и заменяет их на replacement . В случае, если параметр limit указан, будет произведена замена limit вхождений шаблона; в случае, если limit опущен либо равняется -1, будут заменены все вхождения шаблона.
Replacement может содержать ссылки вида \\ n либо (начиная с PHP 4.0.4) $n , причем последний вариант предпочтительней. Каждая такая ссылка, будет заменена на подстроку, соответствующую n "нной заключенной в круглые скобки подмаске. n может принимать значения от 0 до 99, причем ссылка \\0 (либо $0) соответствует вхождению всего шаблона. Подмаски нумеруются слева направо, начиная с единицы.
При использовании замены по шаблону с использованием ссылок на подмаски может возникнуть ситуация, когда непосредственно за маской следует цифра. В таком случае нотация вида \\n приводит к ошибке: ссылка на первую подмаску, за которой следует цифра 1, запишется как \\11 , что будет интерпретировано как ссылка на одиннадцатую подмаску. Это недоразумение можно устранить, если воспользоваться конструкцией \${1}1 , указывающей на изолированную ссылку на первую подмаску, и следующую за ней цифру 1 .
Результатом работы этого примера будет:
April1,2003 |
Если во время выполнения функции были обнаружены совпадения с шаблоном, будет возвращено измененное значение subject , в противном случае будет возвращен исходный текст subject .
Первые три параметра функции preg_replace() могут быть одномерными массивами. В случае, если массив использует ключи, при обработке массива они будут взяты в том порядке, в котором они расположены в массиве. Указание ключей в массиве для pattern и replacement не является обязательным. Если вы все же решили использовать индексы, для сопоставления шаблонов и строк, участвующих в замене, используйте функцию ksort() для каждого из массивов.
Пример 2. Использование массивов с числовыми индексами в качестве аргументов функции preg_replace() Результат: Результат:
|
В случае, если параметр subject является массивом, поиск и замена по шаблону производятся для каждого из его элементов. Возвращаемый результат также будет массивом.
В случае, если параметры pattern и replacement являются массивами, preg_replace() поочередно извлекает из обоих массивов по паре элементов и использует их для операции поиска и замены. Если массив replacement содержит больше элементов, чем pattern , вместо недостающих элементов для замены будут взяты пустые строки. В случае, если pattern является массивом, а replacement - строкой, по каждому элементу массива pattern будет осущесвтлен поиск и замена на pattern (шаблоном будут поочередно все элементы массива, в то время как строка замены остается фиксированной). Вариант, когда pattern является строкой, а replacement - массивом, не имеет смысла.
Модификатор /e меняет поведение функции preg_replace() таким образом, что параметр replacement после выполнения необходимых подстановок интерпретируется как PHP-код и только после этого используется для замены. Используя данный модификатор, будьте внимательны: параметр replacement должен содержать корректный PHP-код, в противном случае в строке, содержащей вызов функции preg_replace() , возникнет ошибка синтаксиса.
Пример 3. Замена по нескольким шаблонам Этот пример выведет: Преобразует все HTML-теги к верхнему регистру |
Пример 5. Конвертор HTML в текст |
Регулярные выражения позволяют найти в строке последовательности, соответствующие шаблону. Например шаблон "Вася(.*)Пупкин" позволит найти последовательность когда между словами Вася и Пупкин будет любое количество любых символов. Если надо найти шесть цифр, то пишем "{6}" (если, например, от шести до восьми цифр, тогда "{6,8}"). Здесь разделены такие вещи как указатель набора символов и указатель необходимого количества:
Вместо набора символов может быть использовано обозначение любого символа - точка,
может быть указан конкретный набор символов (поддерживаются последовательности - упоминавшиеся "0-9").
Может быть указано "кроме данного набора символов".
Указатель количества символов в официальной документации по php называется "квантификатор". Термин удобный и не несет в себе кривотолков. Итак, квантификатор может иметь как конкретное значение - либо одно фиксированное ("{6}"), либо как числовой промежуток ("{6,8}"), так и абстрактное "любое число, в т.ч. 0" ("*"), "любое натуральное число" - от 1 до бесконечности ("+": "document+.txt"), "либо 0, либо 1" ("?"). По умолчанию квантификатор для данного набора символов равен единице ("document.txt").
Для более гибкого поиска сочетаний эти связки "набор символов - квантификатор" можно объединять в метаструктуры.
Как всякий гибкий инструмент, регулярные выражения гибки, но не абсолютно: зона их применения ограничена. Например, если вам надо заменить в тексте одну фиксированную строку на другую, фиксированную опять же, пользуйтесь str_replace. Разработчики php слезно умоляют не пользоваться ради этого сложными функциями ereg_replace или preg_replace, ведь при их вызове происходит процесс интерпретации строки, а это серьезно потребляет ресурсы системы. К сожалению, это любимые грабли начинающих php-программистов.
Пользуйтесь функциями регулярных выражений только если вы не знаете точно, какая "там" строка.
Из примеров: поисковый код, в котором из строки
поиска вырезаются служебные символы и короткие слова а так же вырезаются лишние пробелы
(вернее, все пробелы сжимаются: " +" заменяется на один пробел).
При помощи этих функций я проверяю email пользователя, оставляющего свой отзыв.
Много полезного можно сделать, но важно иметь в виду: регулярные выражения не всесильны.
Например, сложную замену в большом тексте ими лучше не делать.
Ведь, к примеру, комбинация "(.*)" в программном плане означает перебор всех символов текста.
А если шаблон не привязан к началу или концу строки, то и сам шаблон "двигается" программой через весь текст,
и получается двойной перебор, вернее перебор в квадрате. Нетрудно догадаться, что еще одна комбинация "(.*)"
означает перебор в кубе, и так далее. Возведите в третью степень, скажем, 5 килобайт текста.
Получается 125 000 000 000 (прописью: сто двадцать пять миллиардов операций).
Конечно же, если подходить строго, там стольких операций не будет, а будет раза в четыре-восемь меньше,
но важен сам порядок цифр.
. | точка | любой символ |
[] | квадратные скобки | класс символов ("любое из"). Например |
[^] | негативный класс символов ("любое кроме") | |
- | тире | обозначение последовательности в классе символов ("" цифры) |
\d | Только цифры | |
\D | [^0-9] | Кроме цифр |
\w | Буквы и цифры | |
\W | [^a-z0-9] | Кроме букв и цифр |
\s | Пробельные символы: пробел, табуляция, перевод строки | |
\S | [^ ] | Кроме пробельных символов |
| | (одно|другое) | На этом месте может быть один из перечисленных вариантов, например: (Вася|Петя|Маша). Если Вы не хотите, чтобы это попало в выборку используйте (?: ...) |
Не пользуйтесь классом символов для обозначения всего лишь одного (вместо "+" вполне сойдет " +"). Не пишите в классе символов точку это ведь любой символ, тогда другие символы в классе будут просто лишними (а в негативном классе получится отрицание всех символов).
КвантификаторКвантификатором можно указать как конкретное значение, так и пределы. Если число заданных подпадает под пределы квантификатора, фрагмент выражения считается совпавшим с разбираемой строкой. Синтаксис:
{ }
{ , }
Если нужно указать только необходимый минимум, а максимума нет, просто ставим запятую и не пишем второе число: "{5,}" ("минимум 5"). Для наиболее часто употребляемых квантификаторов есть специальные обозначения:
На практике такие символы используются чаще, чем фигурные скобки.
ЯкоряЭти символы должны стоять соответственно в самом начале и в самом конце строки.
Жадность Вопросительный знак выступает еще и как минимизатор квантификатора:.*?
Результат работы примера: Жадная версия: жирный текст [b]а тут - еще жирнее вернулись Ленивая версия: жирный текст [b]а тут - еще жирнее вернулись
Строка шаблона, как вы уже заметили, начинается и заканчивается слэшами. После второго идут параметры:
i | регистронезависимый поиск |
m | многостроковый режим. По умолчанию PCRE ищет совпадения с шаблоном только внутри одной строки, а символы "^" и "$" совпадают только с началом и концом всего текста. Когда этот параметр установлен, "^" и "$" совпадают с началом и концом отдельных строк. |
s | символ "." (точка) совпадает и с переносом строки (по умолчанию нет) |
A | привязка к началу текста |
E | заставляет символ "$" совпадать только с концом текста. Игнорируется, если установлен парамерт m. |
U | Инвертирует "жадность" для каждого квантификатора (если же после квантификатора стоит "?", этот квантификатор перестает быть "жадным"). |
e | Строка замены интерпретитуется как PHP код. |
- preg_grep
- preg_match - Выполняет проверку на соответствие регулярному выражению. Данная функция ищет только первое совпадение!
- preg_match_all
- preg_quote - Экранирует символы в регулярных выражениях. Т.е. вставляет слэши перед всеми служебными символами (например, скобками, квадратными скобками и т.п.), чтобы те воспринимались буквально. Если у вас есть какой-либо ввод информации пользователем, и вы проверяете его с помощью регулярных выражений, то лучше перед этим заэкранировать служебные символы в пришедшей переменной
- preg_replace
- preg_replace_callback - Выполняет поиск по регулярному выражению и замену
- preg_split
Функция preg_grep - Возвращает массив вхождений, которые соответствуют шаблону
Синтаксис
array preg_grep (string pattern, array input [, int flags])
preg_grep() возвращает массив, состоящий из элементов входящего массива input, которые соответствуют заданному шаблону pattern.
Параметр flags может принимать следующие значения:
PREG_GREP_INVERT
В случае, если этот флаг установлен, функция preg_grep(), возвращает те элементы массива,
которые не соответствуют заданному шаблону pattern.
Результат, возвращаемый функцией preg_grep() использует те же индексы, что и массив исходных данных.
Если такое поведение вам не подходит, примените array_values() к массиву, возвращаемому preg_grep() для реиндексации.
Пример кода:
// Возвращает все элементы массива, // содержащие числа с плавающей точкой $fl_array = preg_grep("/^(\d+)?\.\d+$/", $array);
preg_matchФункция preg_match - Выполняет проверку на соответствие регулярному выражению
Синтаксис
int preg_match (string pattern, string subject [, array matches [, int flags [, int offset]]]) Ищет в заданном тексте subject совпадения с шаблоном pattern
В случае, если дополнительный параметр matches указан, он будет заполнен результатами поиска. Элемент $matches будет содержать часть строки, соответствующую вхождению всего шаблона, $matches - часть строки, соответствующую первой подмаске, и так далее.
flags может принимать следующие значения:
PREG_OFFSET_CAPTURE
Поиск осуществляется слева направо, с начала строки. Дополнительный параметр offset может быть использован для указания альтернативной начальной позиции для поиска. Аналогичного результата можно достичь, заменив subject на substr()($subject, $offset).
Функция preg_match() возвращает количество найденных соответствий. Это может быть 0 (совпадения не найдены) и 1, поскольку preg_match() прекращает свою работу после первого найденного совпадения. Если необходимо найти либо сосчитать все совпадения, следует воспользоваться функцией preg_match_all(). Функция preg_match() возвращает FALSE в случае, если во время выполнения возникли какие-либо ошибки.
Рекомендация: Не используйте функцию preg_match(), если необходимо проверить наличие подстроки в заданной строке. Используйте для этого strpos() либо strstr(), поскольку они выполнят эту задачу гораздо быстрее.
Пример кода Пример кода Пример кода Результат работы примера:domain name is: сайт
preg_match_allФункция preg_match_all - Выполняет глобальный поиск шаблона в строке
Синтаксис
int preg_match_all (string pattern, string subject, array matches [, int flags [, int offset]])
Ищет в строке subject все совпадения с шаблоном pattern и помещает результат в массив matches в порядке, определяемом комбинацией флагов flags.
После нахождения первого соответствия последующие поиски будут осуществляться не с начала строки, а от конца последнего найденного вхождения.
Дополнительный параметр flags может комбинировать следующие значения (необходимо понимать, что использование PREG_PATTERN_ORDER одновременно с PREG_SET_ORDER бессмысленно):
PREG_PATTERN_ORDER
Если этот флаг установлен, результат будет упорядочен следующим образом: элемент
$matches содержит массив полных вхождений шаблона,
элемент $matches содержит массив вхождений первой подмаски, и так далее.
Как мы видим, $out содержит массив полных вхождений шаблона, а элемент $out содержит массив подстрок, содержащихся в тегах.
PREG_SET_ORDER
Если этот флаг установлен, результат будет упорядочен следующим образом:
элемент $matches содержит первый набор вхождений, элемент $matches содержит второй набор вхождений, и так далее.
В таком случае массив $matches содержит первый набор вхождений, а именно: элемент $matches содержит первое вхождение всего шаблона, элемент $matches содержит первое вхождение первой подмаски, и так далее. Аналогично массив $matches содержит второй набор вхождений, и так для каждого найденного набора.
PREG_OFFSET_CAPTURE
В случае, если этот флаг указан, для каждой найденной подстроки будет указана ее позиция в исходной строке.
Необходимо помнить, что этот флаг меняет формат возвращаемых данных: каждое вхождение возвращается в виде массива,
в нулевом элементе которого содержится найденная подстрока, а в первом - смещение.
В случае, если никакой флаг не используется, по умолчанию используется PREG_PATTERN_ORDER.
Поиск осуществляется слева направо, с начала строки. Дополнительный параметр offset может быть использован для указания альтернативной начальной позиции для поиска. Аналогичного результата можно достичь, заменив subject на substr()($subject, $offset).
Возвращает количество найденных вхождений шаблона (может быть нулем) либо FALSE, если во время выполнения возникли какие-либо ошибки.
Пример кода Пример кода Результат работы примера: matched: bold text part 1: part 2: bold text part 3: matched: click me part 1: part 2: click me part 3: preg_quoteФункция preg_quote - Экранирует символы в регулярных выражениях
Синтаксис
string preg_quote (string str [, string delimiter])
Функция preg_quote() принимает строку str и добавляет обратный слеш перед каждым служебным символом. Это бывает полезно, если в составлении шаблона участвуют строковые переменные, значение которых в процессе работы скрипта может меняться.
В случае, если дополнительный параметр delimiter указан, он будет также экранироваться. Это удобно для экранирования ограничителя, который используется в PCRE функциях. Наиболее распространенным ограничителем является символ "/".
В регулярных выражениях служебными считаются следующие символы: . \\ + * ? [ ^ ] $ () { } = ! < > | :
Функция preg_replace - Выполняет поиск и замену по регулярному выражению
Синтаксис
mixed preg_replace (mixed pattern, mixed replacement, mixed subject [, int limit])
Выполняет поиск в строке subject совпадений с шаблоном pattern и заменяет их на replacement. В случае, если параметр limit указан, будет произведена замена limit вхождений шаблона; в случае, если limit опущен либо равняется -1, будут заменены все вхождения шаблона.
Replacement может содержать ссылки вида \\n либо (начиная с PHP 4.0.4) $n, причем последний вариант предпочтительней. Каждая такая ссылка, будет заменена на подстроку, соответствующую n"нной заключенной в круглые скобки подмаске. n может принимать значения от 0 до 99, причем ссылка \\0 (либо $0) соответствует вхождению всего шаблона. Подмаски нумеруются слева направо, начиная с единицы.
При использовании замены по шаблону с использованием ссылок на подмаски может возникнуть ситуация,
когда непосредственно за маской следует цифра. В таком случае нотация вида \\n приводит к ошибке:
ссылка на первую подмаску, за которой следует цифра 1, запишется как \\11, что будет интерпретировано как ссылка на одиннадцатую подмаску.
Это недоразумение можно устранить, если воспользоваться конструкцией \${1}1, указывающей на изолированную ссылку на первую подмаску,
и следующую за ней цифру 1.
Пример кода
Результатом работы этого примера будет:
Если во время выполнения функции были обнаружены совпадения с шаблоном, будет возвращено измененное значение subject, в противном случае будет возвращен исходный текст subject.
Первые три параметра функции preg_replace() могут быть одномерными массивами. В случае, если массив использует ключи, при обработке массива они будут взяты в том порядке, в котором они расположены в массиве. Указание ключей в массиве для pattern и replacement не является обязательным. Если вы все же решили использовать индексы, для сопоставления шаблонов и строк, участвующих в замене, используйте функцию ksort() для каждого из массивов.
The bear black slow jumped over the lazy dog.
Используя ksort(), получаем желаемый результат:
The slow black bear jumped over the lazy dog.
В случае, если параметр subject является массивом, поиск и замена по шаблону производятся для каждого из его элементов. Возвращаемый результат также будет массивом.
В случае, если параметры pattern и replacement являются массивами, preg_replace() поочередно извлекает из обоих массивов по паре элементов и использует их для операции поиска и замены. Если массив replacement содержит больше элементов, чем pattern, вместо недостающих элементов для замены будут взяты пустые строки. В случае, если pattern является массивом, а replacement - строкой, по каждому элементу массива pattern будет осущесвтлен поиск и замена на pattern (шаблоном будут поочередно все элементы массива, в то время как строка замены остается фиксированной). Вариант, когда pattern является строкой, а replacement - массивом, не имеет смысла.
Модификатор /e меняет поведение функции preg_replace() таким образом, что параметр replacement после выполнения необходимых подстановок интерпретируется как PHP-код и только после этого используется для замены. Используя данный модификатор, будьте внимательны: параметр replacement должен содержать корректный PHP-код, в противном случае в строке, содержащей вызов функции preg_replace(), возникнет ошибка синтаксиса.
Пример кода: Замена по нескольким шаблонамЭтот пример выведет:
$startDate = "5/27/1999";
Пример кода: Использование модификатора /e Пример кода: Преобразует все HTML-теги к верхнему регистру preg_replace_callbackФункция preg_replace_callback - Выполняет поиск по регулярному выражению и замену с использованием функции обратного вызова
Синтаксис
mixed preg_replace_callback (mixed pattern, callback callback, mixed subject [, int limit])
Поведение этой функции во многом напоминает preg_replace(), за исключением того,
что вместо параметра replacement необходимо указывать callback функцию, которой в качестве входящего параметра передается массив найденных вхождений.
Ожидаемый результат - строка, которой будет произведена замена.