У меня есть большой текстовый файл, каждая строка которого является уникальной концепцией. Есть, вероятно, только небольшое количество шаблонов для каждой строки.
Если я хочу запустить текстовый файл и найти общие шаблоны между строками для использования с последующим расширением регулярного выражения каждого подраздела строки; что было бы лучшим способом или существуют ли существующие инструменты? Я предпочитаю Python.
Таким образом, строка может следовать этим шаблонам:
(1 to 5 alpha letters)(,)(space)(Sentence)
(word)(.)(space)(Sentence)(Sentence)
(word)(number)(.)(space)(Sentence)(Sentence)
(word)(!)(space)(Sentence)(Sentence)
Я мог бы не знать о (!), Например.
В основном он должен извлекать список регулярных выражений, которые в совокупности охватывают каждую возможную строку, но с определенными строительными блоками; (от 1 до 5 букв альфа) (Предложение) (все, что не покрывается строительными блоками)