Re: По очень большой


Автор сообщения: gorm
Дата и время сообщения: 23 July 2005 at 22:33:13:

В ответ на сообщение: по какой больнице среднее?

Насколько адекватна модель и насколько представительна выборка?

Модели тут пока еще никакой нет - просто статистика. Набор текстов на 2.4 миллиона слов кажется вполне репрезентативной выборкой.

Я в данном случае взял не свою статистику (хотя у меня и есть работающая программа - могу обработать любой предложенный текст), а взял из интернета готовую.

http://www.serann.ru/vocabuli/ruslit.htm

А аот теперь пойдет модель.
Я посчитал по этим данным в двойном логарифмическом масштабе регрессию, получил

y=-1.04*x-2.10

Коэффициент корреляции =0.9997 !


Отличия в первом десятке слов (напомню, график логарифмический, поэтому вначале плотность точек мала, потом они все сгущаются) - естественна, ведь логарифм в нуле расходится.


2088. Латынь - Trasher 03:48 18.07.05 (143)
К списку тем на странице