Возникла задача проверить большой массив статей на уникальность между собой. Не долго думая решил написать скрипт для анализа текстов на уникальность по методу шинглов (shingles). Подобные алгоритмы используются поисковыми системами для выявления дублей. Входные данные запрашиваются у пользователя или берутся из MySQL базы данных. На выходе получается отчёт с процентов совпадения текста в статьях. Плюс [...]