Форум Flasher.ru
Ближайшие курсы в Школе RealTime
Список интенсивных курсов: [см.]  
  
Специальные предложения: [см.]  
  
 
Блоги Правила Справка Пользователи Календарь Поиск рулит! Сообщения за день Все разделы прочитаны
 

Вернуться   Форум Flasher.ru > Архив Flasher.ru > Программирование > PHP

Версия для печати  Отправить по электронной почте    « Предыдущая тема | Следующая тема »  
Опции темы Опции просмотра
 
Создать новую тему  
Старый 30.05.2002, 13:23
[subway]design вне форума Посмотреть профиль Отправить личное сообщение для [subway]design Посетить домашнюю страницу [subway]design Найти все сообщения от [subway]design
  № 1  
[subway]design
 
Аватар для [subway]design

Регистрация: Oct 2001
Адрес: в Петербурге
Сообщений: 2,430
По умолчанию Идентификация похожих строк

Привет!

У меня появилась проблема, которую предлагаю вам помочь мне решить Дело в том, что есть форум и пользователи этого форума могут отправлять сообщения Задача состоит в том, чтобы выяснить насколько заголовок поста похож на заголовки уже созданных постов. Нужно, что бы максимально исключить "слабоглазие" писателей и повторение постов.

Вот, что я придумал:
В каких случаях строки "похожи":

0) Если строки равны.
1) Если заголовки отличаются только пробелами.
2) Если какой-то кусок строки определенной длины повторяется.

Есть еще повод также проверять тело поста, но это долго работает.

Хочется узнать от вас добавку.
__________________
subway.net.ru

Старый 30.05.2002, 15:22
Crazy вне форума Посмотреть профиль Отправить личное сообщение для Crazy Посетить домашнюю страницу Crazy Найти все сообщения от Crazy
  № 2  
Crazy
[+1 23.05.11]
 
Аватар для Crazy

Регистрация: Dec 2001
Сообщений: 4,159
У тебя пользователи действительно регулярно -- с интервалами не в несколько минут, а принципиально больше -- постят идентичные сообщения?

Это форум психиатрической лечебницы?
__________________
GIT d++ s++:++ a C++$ UB++ P++ L+ E+ W+++ N++ w++ O+ M V- t-- 5-- X+ R+++ tv- b+++ D++

Старый 30.05.2002, 17:49
[subway]design вне форума Посмотреть профиль Отправить личное сообщение для [subway]design Посетить домашнюю страницу [subway]design Найти все сообщения от [subway]design
  № 3  
[subway]design
 
Аватар для [subway]design

Регистрация: Oct 2001
Адрес: в Петербурге
Сообщений: 2,430
2 Crazy: я спрашиваю о технологии, а не о том какой у меня форум.
__________________
subway.net.ru

Старый 30.05.2002, 18:17
Crazy вне форума Посмотреть профиль Отправить личное сообщение для Crazy Посетить домашнюю страницу Crazy Найти все сообщения от Crazy
  № 4  
Crazy
[+1 23.05.11]
 
Аватар для Crazy

Регистрация: Dec 2001
Сообщений: 4,159
Я не наезжаю. Я намекаю, что решения зависят от причин.

Например, если дубли создаются ввиду плохой связи -- это вполне реальная причина -- то для предотвращения их появления можно использовать механизм "мандатов на публикацию". Схема такова:

1. Когда пользователь запрашивает создание нового сообщения, мы генерим мандат -- некое случайное число большой длины (длина защищает от подбора) -- и передаем его hidden-полем в форме, сохраняя, разумеется, на стороне сервера.

2. Когда от клиента приходят данные нового сообщения -- мы проверяем, выдан ли такой мандат. Если нет -- запрос не обрабатывается. Если мандат подтвержден -- добавляем постинг и уничтожаем мандат.

Схема может быть дополнена таймаутом -- ограничением времени жизни мандатов периодом в 3-4 часа.

Если же причина дублей в преднамеренном спаме, то технические решения проблему не исправят -- спамеры быстро научаться создавать "чуть-чуть иные" сообщения.
__________________
GIT d++ s++:++ a C++$ UB++ P++ L+ E+ W+++ N++ w++ O+ M V- t-- 5-- X+ R+++ tv- b+++ D++

Старый 30.05.2002, 18:24
[subway]design вне форума Посмотреть профиль Отправить личное сообщение для [subway]design Посетить домашнюю страницу [subway]design Найти все сообщения от [subway]design
  № 5  
[subway]design
 
Аватар для [subway]design

Регистрация: Oct 2001
Адрес: в Петербурге
Сообщений: 2,430
Млииин!

Допустим, у меня нет форума. Допустим у меня скрипт получает из ниоткуда две строки $a и $b... Мне хочется проверить "похожи" ли они или нет. Естественно, "похожесть" - это субъективное понятие, но хочется выяснить технологию. Вот.

зы: но спасибо за участие :)
__________________
subway.net.ru

Старый 30.05.2002, 18:40
Crazy вне форума Посмотреть профиль Отправить личное сообщение для Crazy Посетить домашнюю страницу Crazy Найти все сообщения от Crazy
  № 6  
Crazy
[+1 23.05.11]
 
Аватар для Crazy

Регистрация: Dec 2001
Сообщений: 4,159
1. Удаляем все пробелы и переводим в единый регистр (верхний или нижний -- неважно).
2. Сравниваем сдева направо, сравнивая буквы по двум притериям: первое -- на равенство, второе: считая буквы одинаковыми, если они находятся на одной или соседних клавишах калвиатуры. Пример: буква "Л" эквивалента любой из: "ГШЩОЛДЬБЮUIOJKLM<>". Считаем, что можем N раз проигшнорировать первое несовпадение при успешном втором (обычно N -- 1-3).

Где-тол попадался алгоритм, которые чует пропуски букв и лишние буквы, но он сложный и я его не помню. Да и этот не особо устойчив.
__________________
GIT d++ s++:++ a C++$ UB++ P++ L+ E+ W+++ N++ w++ O+ M V- t-- 5-- X+ R+++ tv- b+++ D++

Старый 30.05.2002, 22:10
[subway]design вне форума Посмотреть профиль Отправить личное сообщение для [subway]design Посетить домашнюю страницу [subway]design Найти все сообщения от [subway]design
  № 7  
[subway]design
 
Аватар для [subway]design

Регистрация: Oct 2001
Адрес: в Петербурге
Сообщений: 2,430
Спасибо. Я еще вот что придумал: надо запихать в массивы слова из обеих строк (каждой строке - один массив) и посмотреть сколько слов совпадает.
__________________
subway.net.ru

Старый 30.05.2002, 23:54
Crazy вне форума Посмотреть профиль Отправить личное сообщение для Crazy Посетить домашнюю страницу Crazy Найти все сообщения от Crazy
  № 8  
Crazy
[+1 23.05.11]
 
Аватар для Crazy

Регистрация: Dec 2001
Сообщений: 4,159
Если тебя не волнует возможность очепяток.
__________________
GIT d++ s++:++ a C++$ UB++ P++ L+ E+ W+++ N++ w++ O+ M V- t-- 5-- X+ R+++ tv- b+++ D++

Старый 31.05.2002, 12:48
[subway]design вне форума Посмотреть профиль Отправить личное сообщение для [subway]design Посетить домашнюю страницу [subway]design Найти все сообщения от [subway]design
  № 9  
[subway]design
 
Аватар для [subway]design

Регистрация: Oct 2001
Адрес: в Петербурге
Сообщений: 2,430
Тогда нужна функция "идентификации похожих слов":

1) Чтобы некое кол-во букв из одного слова присутствовало в другом слове
2) Чтобы некоторое количество первых букв совпадало. Это количество может быть относительным, например 25% слова.

__________________
subway.net.ru

Создать новую тему   Часовой пояс GMT +4, время: 19:58.
Быстрый переход
  « Предыдущая тема | Следующая тема »  
Опции темы
Опции просмотра

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.


 


Часовой пояс GMT +4, время: 19:58.


Copyright © 1999-2008 Flasher.ru. All rights reserved.
Работает на vBulletin®. Copyright ©2000 - 2026, Jelsoft Enterprises Ltd. Перевод: zCarot
Администрация сайта не несёт ответственности за любую предоставленную посетителями информацию. Подробнее см. Правила.