МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
Математическая статистика-наука, изучающая методы обработки результатов наблюдений. Приведем примеры. Из кипы хлопка наугад вытащены пучки и измерены длины попавших в них волокон. Результаты первых 28 замеров (в см) оказались следующими: 2,10; 2,23; 2,14; 2,16; 2,56; 2,05; 2,20; 2,34; 2,18; 1,95; 2,21; 2,46; 2,28; 1,95; 2,54; 2,12; 2,05; 2,15; 2,18; 2,21; 2,34; 2,28; 2,34; 2,20; 2,42; 2,55; 2,12; 2,27. Запись результатов наблюдений в таком виде мало наглядна, занимает много места, и из нее трудно делать выводы. Обычно стремятся данные наблюдений сделать более удобными для восприятия и для последующей обработки. Это особенно важно, когда число наблюдений велико и достигает многих сотен, а то и тысяч. Для этого результаты наблюдений сводят в таблицы. Весь интервал возможных значений разбивают на части (как правило, равной длины) и подсчитывают число наблюдений, попавших в каждый из отрезков. В табл. 1 приведены данные о надое 100 коров. Надой указан в тысячах литров; величина промежутка разбиения-600 л. Уже беглый взгляд на таблицу показывает, что мало и коров с малым удоем, и коров-рекордисток.
Таблица 1
Группы по надою, тыс.л. |||Число коров
1,6-2,2 |||4
2,2-2,8 |||14
2,8-3,4 |||17
3,4-4,0 |||37
4,0-4,6 |||15
4,6-5,2 |||6
5,2-5,8 |||4
5,8-6,2 |||3
Наибольшее число коров оказывается в средней части таблицы.
На втором примере мы будем изучать промежутки между временами прибытия судов в морской порт. За некоторый срок прибыло 185 судов. Данные сведены в табл. 2.
Промежуток между прибытиями, мин 0-4 4-8 8 12 12-16 16-20 20-24 24-28 28-32
Число случаев 67 43 30 18 11 7 5 4
Наблюдения показывают, что, как правило, основная масса судов прибывает через небольшие промежутки времени. На самом деле таблицы позволяют получить большее: выявить закономерности, свойственные табличным данным.
Итак, таблицы используют для того, чтобы установить закономерности появления различных возможных значений наблюдаемой величины; для проверки неизменности условий испытаний; для оценки правильности тех или иных статистических гипотез; для оценки наличия так называемых корреляционных зависимостей между переменными, которые наблюдаются на опыте. В наши дни результаты наблюдений используют для статистической оценки качества изготовленной продукции и для управления качеством в процессе производства.
Сказанное нуждается в пояснениях.
Для решения первой задачи строят гистограмму. По оси абсцисс откладывают значения наблюдаемой величины, а по оси ординат- ее частоты в каждом из промежутков, т.е. отношения числа наблюдений, попавших в данный промежуток времени, к числу всех наблюдений, деленные на длину промежутков. В результате получаем ступенчатую линию. Заметим, что площадь, заключенная под всеми прямоугольниками для любой гистограммы, равна 1. Гистограмму нашего примера хорошо приближает функция у = 1/8,32e-x/8,32, площадь под которой (в положительной части оси абсцисс) также равна 1.
И на производстве, и в научных экспериментах бывает очень важно проверить, насколько неизменны условия наблюдения. Так, например, на технологической линии была изменена какая-то операция. Спрашивается, не сказалась ли эта замена на качестве продукции. Или представим себе, что производится наблюдение за интенсивностью космического излучения в двух точках земной поверхности на одной широте и на одинаковой высоте от земной поверхности, но на разной долготе. Необходимо выяснить, одинакова ли интенсивность излучения. Для проверки производятся две серии наблюдений (в одних и других условиях) и сравниваются полученные гистограммы. Близость гистограмм будет подтверждать нашу гипотезу: интенсивность солнечного излучения не зависит от долготы.
Статистические гипотезы могут быть самыми разнообразными, например: лекарство А не оказывает положительного воздействия на больных болезнью Б; сорт пшеницы А урожайнее сорта В и т.д. Математическая статистика уделяет большое внимание разработке методов, позволяющих решать вопросы о правильности или ложности статистических гипотез.
Статистика приводит к более общим зависимостям переменных, чем те, которые даются посредством функций. Приведем примеры. Изучается зависимость высоты сосен от их диаметра.
Если мы начнем сравнивать две эти характеристики, то найдем множество сосен одной и той же высоты, но разного диаметра или же одного диаметра, но разной высоты. Функциональной зависимости между высотой и диаметром нет, однако общая тенденция такова, что с увеличением высоты в среднем увеличивается и диаметр.
В табл. 3 приведены результаты замеров высоты и диаметра 250 сосен.
По горизонтали отмечается высота в метрах, причем отмечается среднее значение высоты разных деревьев. Например, 18 означает, что под этой цифрой указывается число сосен, имеющих высоту от 17,5 до 18,5 м. По вертикали указывается диаметр в сантиметрах, причем в центре интервала группирования находятся как раз указанные числа. Например, 30 означает интервал группировки от 27,5 до 32,5 см. В клеточках таблицы указано число деревьев заданной высоты и диаметра. Так, например, на пересечении столбца 22 по вертикали и строки 25 по горизонтали стоит число 49. Это означает, что наблюдалось 49 деревьев высотой от 21,5 до 22,5 м и диаметром от 22,5 до 27,5 см.
В статистике для изучения связи между высотой дерева и его диаметром поступают следующим образом. Для каждого значения х вычисляют по таблице среднее арифметическое наблюденных значений у и для каждого у среднее значение наблюденных х. Нанесем теперь на плоскость полученные две группы точек и проведем вблизи от точек каждой группы близкие плавные кривые. Это будут линии регрессии у по х и х по у. Они дают приближенное представление об изменении средних значений у при изменении х и средних значений х при изменении у. Во многих случаях такое недостаточно полное знание оказывается очень полезным. Объясним это на примере. Предположим, нам известно, как изменяется вес зерна в колосе в зависимости от роста стебля. Это не точная зависимость, а такая, о которой мы только что говорили. Однако даже такое приблизительное знание позволяет нам судить, какой процент зерна будет теряться, если установить нож комбайна на той или иной высоте. Только что описанные зависимости называются корреляционными зависимостями.
В связи с развитием массового производства, когда изделия изготовляются в сотнях и тысячах штук, возникает серьезная экономическая задача: оценить качество всей партии, сделав небольшую выборку из нее. Так приходится поступать в силу двух причин. Во-первых, проверка качества всей партии требует значительных затрат времени и средств. А во-вторых, нередко испытание приводит к непоправимой порче изделия, например фотопленка или фотобумага после проверки ее качества станет полностью непригодной. В результате приходится проверять только часть всех изделий и по этим неполным данным высказывать суждение о качестве всей партии. Такие методы в настоящее время применяются в промышленности и носят наименование статистических методов контроля. Они приносят огромную экономию, исчисляемую миллиардами рублей.
Статистическими методами пользуются для выявления закономерностей наблюдений и для проверки соответствия построенных теорий реальных явлений с их фактическим протеканием.