Re: Что такое дубликаты


Автор сообщения: gudvinn
Дата и время сообщения: 08 April 2008 at 14:36:21:

В ответ на сообщение: Что такое дубликаты

Выскажу свое понимание дубликатов.


Давайте, сравним «12 стульев» и «6 Наполеонов». Разные произведения. Но есть похожесть – основная сюжетная линия. И в этом смысле – это похожие произведения.

Я буду условно называть сходством сюжета – ту похожесть, которую мы выделяем в некоторых исторических образованиях – неважно каких: биографии исторических деятелей, династиях (как последовательности правителей, независимо от того были ли они родственниками), или, скажем, похожесть хроник, описывающих последовательно два разных явления, допустим историю города "А" и историю города "Б".

Мы изначально знаем, что эти образования – разные или про разное. Так их квалифицировали историки. То есть мы не рассматриваем случаи некоторого разброса, незначительных различий, которые историки квалифицируют как про одно и тоже.

И теперь мы ставим задачу найти в разном – похожие. Вот, например, 2 Римских династии – похожи. Их нашел Морозов. Можно ли найти еще?
Давайте попробуем найти. Для разных образований методика несколько отличается. Но суть одна: разделим поиск на два этапа: математический и смысловой. Зачем нужен математический как отдельный: образований много, много для одного человека. Если бы надо было сравнить 10 династий, то, может быть, и математики не нужно. Здесь небольшое уточнение – математический метод позволяет работать с формализованными критериями, например, длины правления, объем текста и другие, при этом избегать субъективности в оценке меры похожести.
В качестве примера возьмем династии. Это самый математически сложный случай. Будем требовать, чтобы были похожи елочки династий. Кроме того, будем учитывать также то, что отдельные узлы елочек могли пропадать (или быть добавлены). Значит из одной династии надо сделать несколько по простым правилам. Поскольку династий много пусть 10000, плюс разные варианты одной династии, то конечно надо делать сравнение на компьютере.
Дальнейшее сравнение будем производить вычислением «расстояния» между династиями.
Как задать это расстояние – можно взять формулы из статистики, можно просто взять меру в многомерном пространстве, можете придумать еще что-нибудь. Прогоняем на компьютере, если слишком долго считает, то можно внести в него эвристики, скажем, указывать руками, какие династии заведомо не надо сравнивать, а какие точно надо сравнивать. Величина критического «расстояния» выбирается из опыта. Поскольку династий – конечное количество, то и пар похожих получится не слишком много. Пусть найдем 100 пар. Это разумное число для ручного сравнения. После ручного – смыслового сравнения остается меньше. Сколько – не знаю – читайте Фоменко.

Замечание в сторону. Все слова относительно статистики – наукообразие. Для сравнения давайте рассмотрим, как ищутся гороскопы. Есть набор условий на положения планет, плюс дополнительная информация – для простоты будем считать – трудно формализуемая. Мы берем допуски – произвольные! – и находим все положения планет удовлетворяющие нашим условиям. Для чего допуски – чтобы не упустить решение, поскольку часто условия – не четкие, например, мы точно не знаем где границы созвездий. После предварительного расчета мы получаем набор гороскопов. Нам нужно, чтобы количество в наборе было обозримым. Какое именно количество – каждый решает сам. Кто-то может вручную проверить 100, а кто-то 10000. Далее вручную проверяем на дополнительные (как мы условились) условия, например, чтобы положение планет и звезд было красивым – близко, одна линия, одна над другой. И нет здесь никакой статистики. Хотя при вычислениях вы можете пользоваться терминами из любой области математики.
(Здесь есть некоторая неточность. Для понимания, почему исторические образования оказались близки – может потребоваться статистическая модель. Но не для поиска похожих образований.)

Пока мы только нашли похожие исторические образования (династии для краткости) и ничего больше. Далее все зависит от вашей задачи. Если похожие династии для вас = исторический казус – нет никаких вопросов дальше. Если вы высказываете гипотезу, что перед вами описания чего-то одного, то тогда и возникает понятие дубликатов. Дубликаты – рабочее понятие, указывающее на похожие исторические образования, которые могли быть описаниями одного реального явления, но искаженные. Скорей всего дубликаты будут укорачивать хронологию.

Повторю еще раз: если вы не ищите короткой хронологии – нет никаких дубликатов. Дубликаты появляются как маркеры в поиске короткой хронологии.



2756. Что такое дубликаты - Я.В.Татаринов 22:43 02.04.08 (245)
К списку тем на странице