Логистическая регрессия в Python

В этом параграфе мы продолжим использовать данные о персонажах из вселенной «Игры Престолов». Давайте рассчитаем, какие факторы увеличивают шанс выжить для персонажа. Загрузим набор данных и попробуем кратко охарактеризовать его.

1import pandas as pd
2data = pd.read_csv('character_predictions_pose.csv')

Всего в выборке 1946 наблюдений. Этого вполне достаточно для построения логистической регрессии, если не учитывать отсутствующие значения в тех переменных, которые мы будем использовать.

Отберем подходящие для предсказания переменные. Нам нужны гипотезы, из которых мы будем исходить при отборе:

шансы женщин на выживание выше;
у замужних и женатых персонажей шансы выжить больше;
чем больше персонаж убил людей, тем меньше его шанс выжить;
титул дворянина увеличивает шансы выжить;
чем популярнее персонаж, тем больше его шанс выжить.

Гипотезы определяют выбранные переменные. В нашем случае будет одна зависимая переменная isalive и пять независимых переменных ('male', 'ismarried', 'numdeadrelations', 'isnoble', 'popularity'), каждая из которых соответствует одной гипотезе. Они помогут нам предсказать значения шансов на выживание.

1got = data[['isalive', 'male', 'ismarried', 'numdeadrelations', 'isnoble', 'popularity']]
2print(got)

Для логистической регрессии зависимая переменная должна быть бинарной. Поскольку мы хотим предсказать шанс смерти, то наша зависимая переменная — isalive, которая сообщает о том, выжил персонаж (True) или нет (False). Преобразуем все наши переменные в категориальные.

1got['isalive'] = got['isalive'].astype('int')
2got['male'] = got['male'].astype('int')
3got['isnoble'] = got['isnoble'].astype('int')
4got['ismarried'] = got['ismarried'].astype('int')
5print(got)

Сбалансированность данных

Если мы говорим о содержании переменных, то нас интересуют две проблемы:

наличие значений в выбранных для моделирования переменных;
отсутствие ситуаций, когда у нас одна из групп представлена всего несколькими значениями.

Про первую мы говорили ранее. В таком случае мы будем должны полностью исключить наблюдения с пропущенными значениями в выбранных нами для анализа переменных или заполнить пропуски, используя методы импутации данных. Про вторую проблему стоит поговорить подробнее.

🔍 Несбалансированность данных — свойство распределения категориальных данных, где один класс представлен существенно больше, чем все остальные в выборке.

В таких случаях нам бы пришлось бы исключить некоторые наблюдения из всей выборки, чтобы сделать сравнение более корректным. Это достаточно сложная техника работы с данными, мы не будем останавливаться на ней в этом учебнике. Если мы уверены в том, что собранные данные отражают генеральную совокупность, то может не делать ничего дополнительно. Наши данные содержат всех героев без исключения, поэтому мы можем ничего не делать.

Визуализируем категориальные переменные с помощью столбчатой диаграммы. С помощью метода set добавим название графика и подпишем оси.

1import matplotlib.pyplot as plt
2got['isalive'].value_counts().plot(kind='bar').set(title='Пропорция выживших персонажей', xlabel='Персонаж выжил?', ylabel='Количество')

Пропорция между выжившими и умершими: примерно один к трём. Такое различие в количестве наблюдений между категориями называется несбалансированностью данных. Потенциально это может означать, что в данных может быть какой-то неучтенный перекос между группами.

Теперь давайте посмотрим на распределения зависимых переменных.

1got['male'].value_counts().plot(kind='bar').set(title='Пропорция мужчин и женщин', xlabel='Персонаж - мужчина?', ylabel='Количество')

Соотношение мужчин и женщин в выборке 3 к 2. Такое распределение относительно пропорционально, поэтому мы сможем достоверно оценить связь между гендером и шансом выжить.

Взглянем на свободных и состоящих в браке персонажей.

1got['ismarried'].value_counts().plot(kind='bar').set(title='Пропорция замужних персонажей', xlabel='Супруг(а) у персонажа', ylabel='Количество')

Персонажи в браке встречаются реже в серии. Это может быть не таким надежным предиктором в предсказании шансов, но мы можем попробовать его использовать.

Визуализируем соотношение титулованых и нетитулованых персонажей вселенной.

1got['isnoble'].value_counts().plot(kind='bar').set(title='Пропорция титулованных персонажей', xlabel='Дворянский титул персонажа', ylabel='Количество')

Относительно равное распределение по классам переменной.

Если у нас есть пара непрерывных переменных, то можно отразить их зависимость на графике отношений. Если их значения расположены пропорционально друг другу, то это может означать, что они коррелированы. Так можно предварительно проверить подозрения на мультиколлинеарность переменных, так как нам нужно, чтобы переменные были независимы друг к другу.

1plt.scatter(got['popularity'], got['numdeadrelations'])
2plt.title('Отношение популярности и количества совершенных убийств')
3plt.xlabel('Рейтинг популярности')
4plt.ylabel('Количество убийств совершенных персонажем')
5plt.show()

На графике видно, что их распределение друг к другу практически случайно. Трудно выявить линейную зависимость. Дополнительно можно провести корреляционный тест.

График может наглядно показать сильную корреляцию или её полное отсутствие для переменной, но для неочевидных случаев лучше тест.

1import numpy as np
2np.corrcoef(got['popularity'], got['numdeadrelations'])

1array([[1, 0.61498378],
2[0.61498378, 1])

Результаты теста показывают, что корреляция средняя. Навскидку можно предположить, что дело в том, какое количество экранного времени есть у персонажа: тогда он может оказаться популярнее и совершить больше убийств. Но тут как таковая связь не прослеживается.

🔍 Мультиколлинеарность — наличие линейной зависимости между объясняющими переменными

Теоретически, мы должны проверить каждую пару переменных между собой. Это может быть сложно сделать для каждой пары, поэтому мы покажем ниже простой способ.

Моделирование

Данные подготовлены. Подгрузим необходимые пакеты и команды, которые помогут построить модель и провести над ней диагностику.

1import statsmodels.api as sm
2from statsmodels.genmod.generalized_linear_model import GLM
3from statsmodels.genmod import families
4import statsmodels.stats.tests.test_influence

Мы строим столько моделей, сколько предикторов у нас есть. В нашем случае это пять моделей. Начинаем мы с модели, в которой один предиктор, дальше мы последовательно добавляем оставшиеся. Мы ориентируемся на показатели правдоподобия (Log-Likelihood), чтобы понять, какая модель лучше подходит для объяснения данных.

Заметим, что если при включении дополнительного предиктора, другая независимая переменная превратится из незначимой в значимую, то это будет поводом задуматься о нарушении допущения о некоррелированности предикторов.

Если две переменных сильно связаны между собой, то их коэффициенты будут неопределенными, то есть произвольное взаимное изменение коэффициентов перед ними будет приводить к той же модели.

Давайте попробуем объяснить на пальцах что будет происходить: коэффициенты у этих переменных будут меняться, а сама модель в общем — нет.

Для создания модели используем команду GLM из sm. Запишем результаты команды в объект model_1. Первый параметр – зависимая переменная выживаемости got['isalive']. Во втором параметре указывается лист со всеми независимыми переменными. Начнем с переменной гендера. Последним параметром, укажем family=families.Binomial(), чтобы указать, что мы используем биномиальную логистическую регрессию.

Наконец, мы инициализируем с помощью метода fit() создание модели. Наконец, выведем результаты.

1model_1 = sm.GLM(
2    got["isalive"],
3    got["male"],
4    family=families.Binomial(),
5).fit()
6print(model_1.summary())

1                 Generalized Linear Model Regression Results                  
2==============================================================================
3Dep. Variable:                isalive   No. Observations:                 1946
4Model:                            GLM   Df Residuals:                     1945
5Model Family:                Binomial   Df Model:                            0
6Link Function:                  Logit   Scale:                          1.0000
7Method:                          IRLS   Log-Likelihood:                -1254.3
8Date:                Wed, 12 Apr 2023   Deviance:                       2508.6
9Time:                        16:27:16   Pearson chi2:                 1.95e+03
10No. Iterations:                     4   Pseudo R-squ. (CS):            -0.1676
11Covariance Type:            nonrobust                                         
12==============================================================================
13                 coef    std err          z      P>|z|      [0.025      0.975]
14------------------------------------------------------------------------------
15male           0.8257      0.063     13.190      0.000       0.703       0.948
16==============================================================================

Взглянем на нижнюю строчку. Мы помним, что знак коэффициента показывает направление связи: шансы выжить у мужчин значительно выше. Коэффициент логарифмирован, поэтому мы не можем сказать о том, насколько именно изменяются шансы.

Показатель, по которому определяется порог значимости - p-value. Если он больше 0.05, то мы отвергаем гипотезу о том, что переменная незначимо влияет на зависимую переменную. В нашем случае это не так — результат значим.

Пока мы видим только то, что вероятность выжить у мужчин выше, и это значимый результат. А вот насколько именно выше — нет, но мы поговорим про это ниже.

Теперь построим другую модель.

1model_2 = sm.GLM(
2    got["isalive"],
3    got[["male", "ismarried"]],
4    family=families.Binomial(),
5).fit()
6print(model_2.summary())
7
8model_3 = sm.GLM(
9    got["isalive"],
10    got[["male", "ismarried", "numdeadrelations"]],
11    family=families.Binomial(),
12).fit()
13print(model_3.summary())
14
15model_4 = sm.GLM(
16    got["isalive"],
17    got[["male", "ismarried", "numdeadrelations", "isnoble"]],
18    family=families.Binomial(),
19).fit()
20print(model_4.summary())

1                 Generalized Linear Model Regression Results                  
2==============================================================================
3Dep. Variable:                isalive   No. Observations:                 1946
4Model:                            GLM   Df Residuals:                     1944
5Model Family:                Binomial   Df Model:                            1
6Link Function:                  Logit   Scale:                          1.0000
7Method:                          IRLS   Log-Likelihood:                -1249.0
8Date:                Thu, 13 Apr 2023   Deviance:                       2498.0
9Time:                        14:31:43   Pearson chi2:                 1.96e+03
10No. Iterations:                     4   Pseudo R-squ. (CS):            -0.1613
11Covariance Type:            nonrobust                                         
12==============================================================================
13                 coef    std err          z      P>|z|      [0.025      0.975]
14------------------------------------------------------------------------------
15male           0.7780      0.064     12.126      0.000       0.652       0.904
16ismarried      0.4327      0.136      3.192      0.001       0.167       0.698
17==============================================================================
18                 Generalized Linear Model Regression Results                  
19==============================================================================
20Dep. Variable:                isalive   No. Observations:                 1946
21Model:                            GLM   Df Residuals:                     1943
22Model Family:                Binomial   Df Model:                            2
23Link Function:                  Logit   Scale:                          1.0000
24Method:                          IRLS   Log-Likelihood:                -1228.1
25Date:                Thu, 13 Apr 2023   Deviance:                       2456.2
26Time:                        14:31:43   Pearson chi2:                 1.97e+03
27No. Iterations:                     4   Pseudo R-squ. (CS):            -0.1366
28Covariance Type:            nonrobust                                         
29====================================================================================
30                       coef    std err          z      P>|z|      [0.025      0.975]
31------------------------------------------------------------------------------------
32male                 0.8463      0.066     12.836      0.000       0.717       0.976
33ismarried            0.6514      0.145      4.500      0.000       0.368       0.935
34numdeadrelations    -0.2386      0.041     -5.882      0.000      -0.318      -0.159
35====================================================================================
36                 Generalized Linear Model Regression Results                  
37==============================================================================
38Dep. Variable:                isalive   No. Observations:                 1946
39Model:                            GLM   Df Residuals:                     1942
40Model Family:                Binomial   Df Model:                            3
41Link Function:                  Logit   Scale:                          1.0000
42Method:                          IRLS   Log-Likelihood:                -1205.4
43Date:                Thu, 13 Apr 2023   Deviance:                       2410.7
44Time:                        14:31:43   Pearson chi2:                 1.99e+03
45No. Iterations:                     4   Pseudo R-squ. (CS):            -0.1103
46Covariance Type:            nonrobust                                         
47====================================================================================
48                       coef    std err          z      P>|z|      [0.025      0.975]
49------------------------------------------------------------------------------------
50male                 0.5675      0.077      7.352      0.000       0.416       0.719
51ismarried            0.4034      0.150      2.691      0.007       0.110       0.697
52numdeadrelations    -0.2557      0.041     -6.216      0.000      -0.336      -0.175
53isnoble              0.6343      0.096      6.641      0.000       0.447       0.821
54====================================================================================

Все вновь добавленные переменные оказываются значимы. Их интерпретация аналогична той, которую мы проделали выше с первой переменной. Чтобы выжить лучше быть в браке, дворянином и менее агрессивным.

Давайте добавим последний предиктор.

1model_5 = sm.GLM(
2    got["isalive"],
3    got[["male", "ismarried", "numdeadrelations", "isnoble", "popularity"]],
4    family=families.Binomial(),
5).fit()
6print(model_5.summary())

1Generalized Linear Model Regression Results                  
2==============================================================================
3Dep. Variable:                isalive   No. Observations:                 1946
4Model:                            GLM   Df Residuals:                     1942
5Model Family:                Binomial   Df Model:                            3
6Link Function:                  Logit   Scale:                          1.0000
7Method:                          IRLS   Log-Likelihood:                -1205.4
8Date:                Thu, 13 Apr 2023   Deviance:                       2410.7
9Time:                        14:31:46   Pearson chi2:                 1.99e+03
10No. Iterations:                     4   Pseudo R-squ. (CS):            -0.1103
11Covariance Type:            nonrobust                                         
12====================================================================================
13                       coef    std err          z      P>|z|      [0.025      0.975]
14------------------------------------------------------------------------------------
15male                 0.5675      0.077      7.352      0.000       0.416       0.719
16ismarried            0.4034      0.150      2.691      0.007       0.110       0.697
17numdeadrelations    -0.2557      0.041     -6.216      0.000      -0.336      -0.175
18isnoble              0.6343      0.096      6.641      0.000       0.447       0.821
19====================================================================================
20                 Generalized Linear Model Regression Results                  
21==============================================================================
22Dep. Variable:                isalive   No. Observations:                 1946
23Model:                            GLM   Df Residuals:                     1941
24Model Family:                Binomial   Df Model:                            4
25Link Function:                  Logit   Scale:                          1.0000
26Method:                          IRLS   Log-Likelihood:                -1205.3
27Date:                Thu, 13 Apr 2023   Deviance:                       2410.6
28Time:                        14:31:46   Pearson chi2:                 1.99e+03
29No. Iterations:                     4   Pseudo R-squ. (CS):            -0.1103
30Covariance Type:            nonrobust                                         
31====================================================================================
32                       coef    std err          z      P>|z|      [0.025      0.975]
33------------------------------------------------------------------------------------
34male                 0.5746      0.081      7.109      0.000       0.416       0.733
35ismarried            0.4129      0.153      2.693      0.007       0.112       0.713
36numdeadrelations    -0.2471      0.050     -4.920      0.000      -0.346      -0.149
37isnoble              0.6379      0.096      6.622      0.000       0.449       0.827
38popularity          -0.1206      0.409     -0.295      0.768      -0.923       0.682
39====================================================================================

Показатель правдоподобия и коэффициенты изменились не сильно. Более того, последняя переменная не проходит порог значимости в p-value < 0.05. Оно равно 0.768 и это говорит о том, что результат незначим. Это значит, что мы можем исключить её и использовать как финальный результат предпоследнюю модель (model_4).

Выберем лучшую модель, опираясь на показатель правдоподобия Log-Likelihood. Чем ближе эта метрика к нулю тем лучше модель описывает данные. Мы видим что у модели с четыремя предикторами — наилучший показатель правдоподобия.

Далее, посмотрим на отношения шансов без логарифма, чтобы узнать, насколько именно меняется шанс в зависимости от смены значений в предикторах. Для этого импортируем пакет numpy, извлечем из модели её коэффициенты и экспонируем.

1model_odds = pd.DataFrame(np.exp(model_5.params), columns= ['Odds Ratio'])
2print(model_odds)

---	Odds Ratio
male	1.776362
ismarried	1.511153
numdeadrelations	0.781058
isnoble	1.892507
popularity	0.886407

Давайте их интерпретируем. Если Odds Ratio = 1, то отношения шансов равные для всех классов. Если Odds Ratio > 1, то отношения шансов при повышении значения переменной вырастает. Если Odds Ratio < 1*`, то отношения шансов при повышении значения переменной понижается.

К примеру, если персонаж мужчина — его шанс выжить повышается на 77,6%. Все, что идет после 1 в Odds Ratio можно интерпретировать как проценты.

С каждым убийством других персонажей, шанс героя выжить понижается почти на 12%. Быть более миролюбивым в «Игре Престолов» гораздо выгоднее.

Диагностика и надежность предсказания модели

Проверка допущения о мультиколлинеарности полностью идентична той, которую мы делали в параграфе 10.3

1from statsmodels.stats.outliers_influence import variance_inflation_factor
2
3X = got[['male', 'ismarried', 'numdeadrelations', 'isnoble', 'popularity']]
4
5vif_data = pd.DataFrame()
6vif_data["feature"] = X.columns
7
8vif_data["VIF"] = [variance_inflation_factor(X.values, i)
9                          for i in range(len(X.columns))]
10  
11print(vif_data)

1feature       VIF
20              male  1.732705
31         ismarried  1.270200
42  numdeadrelations  1.689705
53           isnoble  1.743861
64        popularity  2.244383

Мы видим, что мультиколлинеарности тут нет, так как ни для одной переменной значение не оказывается больше консенсусного значения (четырех).

Дополнительно проверим модель на отклоняющиеся значения. Нарисуем график дистанции Кука. Если дистанция Кука превышает 0.5 - значит какое-то из значений искажает наши предсказания, выбиваясь из общего ряда. Иногда нам важно оставлять такие значения (например, если у нас мало наблюдений), но чаще всего их просто убирают.

🔍 Дистанция Кука - это мера, определяющая отклоняющую силу каждого предсказанного значения.

С помощью get_influence запишем в объект infl коэффициенты влияния предсказанных значений из модели model_5. После этого, в fig запишем эти коэффициенты и с помощью plot_index отразим их на графике. Внутри метода укажем параметры y_var='cooks'.

1infl = model5.get_influence()
2fig = infl.plot_index(y_var="cooks")
3fig.tight_layout()

По шкале Y отражена дистанция Кука для каждого предсказанного значения в модели и индекс в датафрейме. Значение считается влиятельным, если его значение больше 0.5. Самое влиятельное наблюдение отклоняется всего лишь на 0.0, поэтому в нашем случае делать ничего не надо.

Вот и всё! Мы составили модель, которая предсказывает вероятность выжить для персонажа из «Игры престолов». Если персонаж женатый мужчина-дворянин, то его шансы выжить существенно выше, особенно если он убил не слишком много людей.

В следующем параграфе мы немного выдохнем и узнаем, как работать с текстовыми, а не табличными данными — в том числе в Python.

Чтобы добавить в заметки выделенный текст, нажмите Ctrl + E

Содержание

11.3. Логистическая регрессия в Python

Сбалансированность данных

Моделирование

Диагностика и надежность предсказания модели

Вступайте в сообщество хендбука