Скрипт проверки уникальнсти текста по методу шинглов
Опубликовано 13.02.2009 | holydiver
Возникла задача проверить большой массив статей на уникальность между собой. Не долго думая решил написать скрипт для анализа текстов на уникальность по методу шинглов (shingles). Подобные алгоритмы используются поисковыми системами для выявления дублей. Входные данные запрашиваются у пользователя или берутся из MySQL базы данных. На выходе получается отчёт с процентов совпадения текста в статьях. Плюс [...]