# Pandas

На прошлом занятии мы познакомились с библиотекой `numpy`, которая позволяет удобно работать с многомерными однородными (одного типа) массивами. В реальности часто приходиться работать с разнородными (включающими разные типы) данными. Для работы с такими данными используется библиотека `pandas`.

<img src ="https://edunet.kea.su/repo/python-bootcamp/src/L05/panda.jpeg">

Источник изображения: https://towardsdatascience.com/23-great-pandas-codes-for-data-scientists-cca5ed9d8a38


Pandas не входит в [стандартную библиотеку Python](https://docs.python.org/3/library/), поэтому если вы работаете не в Colab ее необходимо будет установить. Информация об установке находится по [ссылке](https://pandas.pydata.org/docs/getting_started/index.html#installation). 

Мы же просто импортируем библиотеку. При импорте название `pandas` принято сокращать до `pd`.

In [None]:
import pandas as pd

## DataFrame & Series
В `pandas` для работы с данными используется два основных объекта `DataFrame` и `Series`.

### DataFrame

`DataFrame` — это таблица. Для создания `DataFrame` можно использовать словарь списков, где каждый список будет строкой. Мы используем конструктор `pd.DataFrame()` для создания объекта `DataFrame`.

In [None]:
dict_of_lists = {
    'Yes': [50, 21], 
    'No': [131, 2]
}

my_df = pd.DataFrame(dict_of_lists)
my_df

Google Colab предлагает графический интерфейс для взаимодействия с `pandas DataFrame`, но мы на нем сильно останавливаться не будем. Нажмите на волшебную палочку рядом с выводом и посмотрите, что Colab вам предлагает. 

Мы получили привычную глазу таблицу, где каждое отдельное значение соответствует какой-то строке и столбцу. Зная, что `DataFrame` получен из словаря списков, мы можем интуитивно понять как обращаться к отдельному элементу. 

In [None]:
print(dict_of_lists['Yes'][1])
print(my_df['Yes'][1])

Как мы уже сказали, pandas DataFrame может содержать элементы разных типов.

In [None]:
dict_of_lists = {
    "Bob's score": [10, 1],
    "Bob's comment": ['I liked it.', 'It was awful.'], 
    "Sue's score":[8, 3],
    "Sue's comment": ['Pretty good.', 'Bland.']
}

my_df = pd.DataFrame(dict_of_lists)
my_df

In [None]:
print("Score type: ", type(my_df["Bob's score"][0]))
print("Comment type: ", type(my_df["Bob's comment"][0]))

Заметим, что численные значения в `pandas` имеют тип из `numpy`. 

Иногда бывает полезно транспонировать данные (поменять столбцы и строки местами).

In [None]:
my_df.T

Конструктор `pd.DataFrame()` по умолчанию присваевает номера строкам. При создании `DataFrame` можно заменять номера строк на более содержательные названия. 

In [None]:
my_df = pd.DataFrame(dict_of_lists, index=['Product A', 'Product B'])
my_df

 ### Series

`Series` - это последовательность значений данных. Если `DataFrame` -  это таблица, то `Series` больше похоже на список.

In [None]:
my_list = [1, 2, 3, 4, 5]
my_series = pd.Series(my_list)
my_series

`Series` по сути, один столбец `DataFrame` (полезно думать о `DataFrame`, как о наборе `Series`). Для серии можно добавить метки строк и название.

In [None]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

## Numpy


Как мы уже отмечали, численные значения в `pandas` имеют тип из `numpy`.
При работе с данными вам часто придется переводить информацию из одного типа в другой: из строк в числа, из листа в массив, из массива в `DataFrame` из `double` в `float` т.д. Это связано, в том числе, с количеством библиотек в Python.


<img src ="https://edunet.kea.su/repo/python-bootcamp/src/L05/np_pd.jpeg">

Источник изображения: https://medium.com/@bigdataschool/numpy-vs-pandas-в-чем-разница-между-двумя-библиотеками-python-b85b056e100a

### To numpy

In [None]:
import numpy as np

In [None]:
my_df = pd.DataFrame({
   'Product A': [30, 21, 9],
   'Product B': [35, 34, 1],
   'Product C': [41, 11, 11]
})
my_df

Как мы уже отмечали, численные значения в `pandas` имеют тип из `numpy`.

In [None]:
print(type(my_df['Product A'][0]))

Проводить численные данные из `pandas` в `numpy` довольно просто. 

In [None]:
my_array = my_df.to_numpy()
my_array

In [None]:
print(type(my_array))

In [None]:
my_df = pd.DataFrame({
    "Bob's score": [10, 1],
    "Bob's comment": ['I liked it.', 'It was awful.']
})

my_df

Аналогично можно поступить с неоднородным массивом.

In [None]:
my_array = my_df.to_numpy()

In [None]:
my_array

Обратите внимание, что если мы применяем `.to_numpy()` к неоднородным данным мы получаем в массиве приписку `dtype=object`. Это значит, что массив хранит не значения, а ссылки на другие объекты. Такой массив будет дольше обрабатываться и не подходит в качестве входных данных для многих функций. 

### From numpy

Из `numpy array` `pandas DataFrame` получается так же, как из списка.

In [None]:
my_array = np.array([
    [30, 21, 9],
    [35, 34, 1],
    [41, 11, 11]])

my_array

In [None]:
my_df = pd.DataFrame(my_array, columns = ['Product A', 'Product B', 'Product C'])

my_df

## CSV и чтение данных из файла

Мы посмотрели, как создать DataFrame или Series вручную. Но чаще всего мы будем работать с уже существующими данными. Чаще всего данные хранят в формате CSV. 

CSV (от английского Comma-Separated Values — значения, разделённые запятыми) — текстовый формат, предназначенный для представления данных в виде таблицы. 
Если вы откроете CSV файл в MS блокноте вы увидете что-то вроде:
```
Product A,Product B,Product C,
30,21,9,
35,34,1,
41,11,11
```




Попробуем загрузить реальные данные. Мы будем работать с датасетом [Титаник](https://www.kaggle.com/competitions/titanic/data). Чтобы считать CSV файл используем `pd.read_csv`.

In [None]:
# Download the data and save it in a variable called data
dataset = pd.read_csv(
    "https://edunet.kea.su/repo/EduNet-web_dependencies/L04/titanic.csv"
) # Load the data using pandas

Посмотрим на размер датасета:



In [None]:
dataset.shape

Посмотрим названия колонок и строк:

In [None]:
dataset.columns

In [None]:
dataset.index

Датасет состоит из 12 колонок и содержит 891 строку. Посмотрим первые 5 строк.

In [None]:
dataset.head()

Этот датасет содержит список пассажиров корабля Титаник и информацию о них. 
* Survived (0 = No; 1 = Yes) - выжил ли человек.
* SibSp  == Number of Siblings/Spouses Aboard - количество братьев/сестер/супругов на борту Титаника.
* Parch == Number of Parents/Children Aboard - количество родителей/детей на борту.
* Embarked == Port of Embarkation (C = Cherbourg; Q = Queenstown; S = Southampton) - порт посадки.

Функция [`pd.read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) имеет много необязательных параметров.

In [None]:
help(pd.read_csv)

Например можно указать, какой столбец использовать в качестве индекса с помощью параметра `index_col`

In [None]:
dataset = pd.read_csv(
    "https://edunet.kea.su/repo/EduNet-web_dependencies/L04/titanic.csv", 
    index_col='PassengerId'
)

dataset.head()

## Выбор значений по индексам и меткам
Для работы с данными необходимо научиться выбирать интересующие нас значения. 

In [None]:
dataset

Выбрать столбец DataFrame можно двумя способами. Первый - как в словаре, обращение к столбцу по индексу.

In [None]:
dataset['Name']

Второй станет понятнее после следующего занятия. Пока это звучит немного, как магия, но можно получить столбец, обращаясь к столбцу, как к атрибуту объекта. Выглядит это проще, чем звучит.

In [None]:
dataset.Name

Оба способа можно использовать, но со вторым могут возникнуть сложности если в названии столбца содержаться некоторые символы, например пробел. 

С помощью индексов можно получить отдельный элемент таблицы.

In [None]:
dataset['Name'][5]

In [None]:
dataset.Name[5]

Другим способом выделить значения являются операторы `.loc[]`, `.iloc[]`. Оператор `loc[]` использует метки, `iloc[]` - индексы. Выделим первую строку таблицы, используя оба оператора (обратите внимание, что индексация в `pandas` начинается с 0, а метки строк `PassengerId` c 1) 


In [None]:
dataset.loc[1]

In [None]:
dataset.iloc[0]

В операторах выбора значений `.loc[]` `iloc[]` сначала выбираются строки, потом столбцы.

In [None]:
dataset.iloc[0, 2]

In [None]:
dataset.loc[1, 'Name']

Чтобы выбрать столбец с помощью `.loc[]` или `.iloc[]` можно использовать двоеточие.

In [None]:
dataset.iloc[:, 2]

Также с помощью двоеточия можно задавать диапазоны значений. 

In [None]:
dataset.iloc[:3, 2]

In [None]:
dataset.iloc[1:3, 2]

Также можно использовать списки

In [None]:
dataset.loc[1:4, ['Name', 'Sex']]

In [None]:
dataset.iloc[[1, 2, 3], [2, 3]]

Выберем 5 последних строк.

In [None]:
dataset.iloc[-5:]

Можно заменить колонку, используемую в качестве меток, можно в любой момент, но текущая колонка индексов пропадет. 

In [None]:
dataset.set_index("Name")

Чтобы колонка не пропала можно использовать `.reset_index()`

In [None]:
dataset = dataset.reset_index()
dataset

In [None]:
dataset.set_index("Name")

## Выбор значений по содержимому

In [None]:
dataset = pd.read_csv(
    "https://edunet.kea.su/repo/EduNet-web_dependencies/L04/titanic.csv", 
    index_col='PassengerId'
)

dataset.head()

При работе с данными может быть полезно проанализировать выборку с определенными значениями. Например, выборку пассажиров первого класса. Разберемся, как это делать в два шага: 
* первый шаг - использование логических выражений в `pandas`. 
Можно задать условие на определенную колонку. 

На выходе мы получим `Series` с булевыми значениями для каких строк выполняется это условие. 


In [None]:
dataset['Pclass']==1

* второй шаг - использовать полученную `Series` как маску для выборки нужных строк.

In [None]:
dataset[dataset['Pclass']==1]

Можно задавать более сложные условия, но в отличии от `if` нужно брать составные части условия в скобки и использовать `~`, `&` и ` |`  вместо `not`, `and` и `or`. 

Выберем мужчин, пассажиров первого класса, старше 13 лет.

In [None]:
(dataset['Pclass']==1) & (dataset['Sex']=='male') & (dataset['Age']>13)

In [None]:
sample = dataset[(dataset['Pclass']==1) & (dataset['Sex']=='male') & (dataset['Age']>13)]
sample

А теперь выберем женщин и пассажиров 13 лет и младше.

In [None]:
sample = (dataset['Sex']=='female') | (dataset['Age']<=13)

In [None]:
sample = dataset[(dataset['Sex']=='female') | (dataset['Age']<=13)]
sample

## Сортировка

`pandas` предоставляет возможность сортировки по содержимому колонок.

In [None]:
dataset = dataset.sort_values(by="Pclass")
dataset

Можно сортировать по содержимому нескольких колонок. В данном случае сначала сортируется по классу пассажира, а потом по алфавиту по имени.

In [None]:
dataset = dataset.sort_values(by=["Pclass", "Name"])
dataset

Можно вернуться к сортировке по индексу.

In [None]:
dataset = dataset.sort_index(ascending=True)
dataset

## Описание данных 

В `padas` есть встроенная возможность получить информацию о типе данных в таблице, диапазоне значений, статистике и т.д.

In [None]:
dataset = pd.read_csv(
    "https://edunet.kea.su/repo/EduNet-web_dependencies/L04/titanic.csv", 
    index_col='PassengerId'
)

dataset.head()

Посмотрим, что отдает нам `.info()`.

In [None]:
dataset.info()

Мы можем увидеть, что в датасете 891 элемент проиндексированный от 1 до 891. 11 колонок из которых 6 принимают численные значения `int64` и `float64`), 5 принимают текстовые или смешанные значения (`object`). Также мы можем понять, что в наших данных есть пропущенные значения, например для колонки `Cabin` есть только 204 непустых (`non-null`) значения. 

`.describe()` - показывает краткую статистическую сводку данных  (по умолчанию числовых).

In [None]:
dataset.describe()

Из этой сводки можно узнать количество заполненных значений `count`, среднее значение `mean`,  стандартное отклонение `std`, минимальное `min` и максимальное `max` значение и значения на [квартилях](https://ru.wikipedia.org/wiki/%D0%9A%D0%B2%D0%B0%D0%BD%D1%82%D0%B8%D0%BB%D1%8C#%D0%9C%D0%B5%D0%B4%D0%B8%D0%B0%D0%BD%D0%B0_%D0%B8_%D0%BA%D0%B2%D0%B0%D1%80%D1%82%D0%B8%D0%BB%D0%B8).


<img src ="https://upload.wikimedia.org/wikipedia/commons/thumb/1/1a/Boxplot_vs_PDF.svg/1024px-Boxplot_vs_PDF.svg.png" width="550">

Квантили нормального распределения

Источник изображения: https://ru.wikipedia.org/wiki/Квантиль


Можно посмотреть на сводку по не числовым признакам.

In [None]:
dataset.describe(include=['O'])

Из этой сводки можно узнать количество заполненных значений `count`, количество уникальных значений `unique`, самое часто встречаемое значение `top` и как сколько раз это значение встретилось `freq`. 

Или по одному конкретному признаку (`Series`).

In [None]:
dataset['Age'].describe()

In [None]:
dataset['Embarked'].describe()

Можно получить различные описания отдельных колонок.

In [None]:
dataset['Age'].mean()

In [None]:
dataset['Embarked'].unique()

Или посмотреть количество значений для каждого уникального значения. 

In [None]:
dataset['Age'].value_counts()

In [None]:
dataset['Embarked'].value_counts()

При расчете статистики можно группироваться по значениям колонок при помощи `groupby()`.

In [None]:
dataset[['Pclass', 'Survived']].groupby(['Pclass'], as_index=False).mean().sort_values(by='Survived', ascending=False)

In [None]:
dataset[["Sex", "Survived"]].groupby(['Sex'], as_index=False).mean().sort_values(by='Survived', ascending=False)

In [None]:
dataset[["SibSp", "Survived"]].groupby(['SibSp'], as_index=False).mean().sort_values(by='Survived', ascending=False)

In [None]:
dataset[["Parch", "Survived"]].groupby(['Parch'], as_index=False).mean().sort_values(by='Survived', ascending=False)

## Отсутствующие данные 

In [None]:
dataset = pd.read_csv(
    "https://edunet.kea.su/repo/EduNet-web_dependencies/L04/titanic.csv", 
    index_col='PassengerId'
)

dataset.head()

В наших данных присутствуют пропуски `NaN`

In [None]:
dataset.info()

С пропусками можно работать по разному. Можно удалить все строки с пропусками. 

In [None]:
df = dataset.dropna(how="any")
df

Можно удалить колонки с пропусками

In [None]:
df = dataset.dropna(axis='columns')
df

Удалить при отсутствии значения в определенном столбце. 

In [None]:
df = dataset.dropna(subset=['Embarked'])
df

 ## Замена значений

In [None]:
dataset = pd.read_csv(
    "https://edunet.kea.su/repo/EduNet-web_dependencies/L04/titanic.csv", 
    index_col='PassengerId'
)

dataset.head()

Чтобы изменить отдельное значение можно обратившись по индексу.

In [None]:
dataset['Name'][1] = "New Name"
dataset

Но иногда бывает полезно заменить множество значений, для этого можно использовать `map()`, например заменим метки пола на числа (это может быть полезно, для дальнейшего использования)

In [None]:
sex = {"male": 1, "female": 0}

dataset['Sex'] = dataset['Sex'].map(sex)
dataset

Теперь столбец пол имеет численный тип.

In [None]:
dataset.info()

## Объединение данных

### Добавление колонок и строк

Разберемся с добавлением данных

In [None]:
df1 = pd.DataFrame(
    {
        "A": ["foo", "bar", "foo", "bar", "foo", "bar", "foo", "foo"],
        "B": ["one", "one", "two", "three", "two", "two", "one", "three"],
        "C": np.random.randn(8),
        "D": np.random.randn(8),
    }
)
df1

Попробуем добавить к нему колонку

In [None]:
s = pd.Series(np.random.randn(8))
s

In [None]:
df1['E'] = s
df1

### Объединение таблиц 

Часто приходится компилировать данные из разных источников. Посмотрим как это делать. 

In [None]:
df1 = pd.DataFrame(
    {
        "A": ["foo", "bar", "foo", "bar", "foo", "bar", "foo", "foo"],
        "B": ["one", "one", "two", "three", "two", "two", "one", "three"],
        "C": np.random.randn(8),
        "D": np.random.randn(8),
    }
)
df1

Есть две таблицы: одна дополняет значения другой. 

In [None]:
df2 = pd.DataFrame(
    {
        'str': ['one', 'two', 'three'],
        'num': [1, 2, 3]
    }
)
df2

Объединим, так чтобы для значения `B` совпадали с значениями `str`.

In [None]:
df1 = df1.merge(df2, left_on='B', right_on='str')
df1

In [None]:
df1 = df1.drop(columns=['str'])
df1

# Seaborn

## FacetGrid

Мы рассматривали табличные данные в текстовом виде. Это не всегда удобно. Визуальная информация воспринимается быстрее и проще. На прошлой лекции мы изучили библиотеку `Matplotlib`, сегодня мы добавим к вам в копилку знакомство с `Seaborn`. 

`Seaborn` - это инструмент, основанный на `Matplotlib`, но при этом специализированный для упрощения работы с `pandas.DataFrame`. Он позволяет визуализировать данные, написав всего несколько строк.

В данном случае мы посмотрим на гистограммы количества погибших и выживших в зависимости от возраста. Для этого используем `seaborn.FacetGrid` и уже знакомую нам `matplotlib.pyplot.hist`

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

g = sns.FacetGrid(dataset, col='Survived')
g.map(plt.hist, 'Age', bins=20)


`FacetGrid`- позволяет визуализировать зависимости для объектов, сгруппированных по указанной совокупности признаков.

Посмотрим на гистограммы погибших/выживших в зависимости от класса.

In [None]:
grid = sns.FacetGrid(dataset, col='Survived', row='Pclass', size=2.2, aspect=1.6)
grid.map(plt.hist, 'Age', alpha=.5, bins=20)
grid.add_legend();

Нам необязательно строить именно гистограммы, можно размножить, например график [`seaborn.pointplot`](https://seaborn.pydata.org/generated/seaborn.pointplot.html) (соединенные прямой точки с доверительными интервалами).

Построим вероятность выживания для мужчин и женщин в зависимости от класса для различных портов посадки. 

In [None]:
grid = sns.FacetGrid(dataset, row='Embarked', size=2.2, aspect=1.6)
grid.map(sns.pointplot, 'Pclass', 'Survived', 'Sex', palette='deep')
grid.add_legend()

Распределение по возрасту и полу пассажиров разных классов.

In [None]:
grid = sns.FacetGrid(dataset, row='Pclass', col='Sex', size=2.2, aspect=1.6)
grid.map(plt.hist, 'Age', alpha=.5, bins=20)
grid.add_legend()

## Violinplot

Еще одним популярным графиком является `violinplot`. Он позволяет оценить форму распределений.

In [None]:
sns.violinplot(data=dataset, x="Survived", y="Age", hue="Sex",
               palette="muted", split=True, inner="quart", linewidth=1)
sns.despine()

# Задачи


## A. Таблица умножения
Создайте и распечатайте DataFrame с таблицей умножения.

In [None]:
# Your code here
df = pd.DataFrame(columns=[i for i in range(2, 10)])
for i in range(1, 10):
    df[i] = [i*j for j in range(2, 10)]
df.set_index(list(range(1, 10)))

## B. Работа с данными

In [None]:
dataset = pd.read_csv(
    "https://edunet.kea.su/repo/EduNet-web_dependencies/L04/titanic.csv", 
    index_col='PassengerId'
)

dataset.head()

Задачи для работы с датасетом Титаник:
1. Посчитайте среднюю стоимость билета для пассажиров первого класса. Выведете значение. 



In [None]:
# Your code here
sub_set = dataset[dataset['Pclass']==1]
sub_set.Fare.mean()

2. Обратите внимание, на имена в датасете. В них есть сокращение, указывающее на социальный статус пассажира, например: `Mrs.`, `Miss.`, `Mr.`, `Don.` и т. д. Они всегда находятся на одном и том же месте: после фамилии, запятой и пробела.
> * посчитайте сколько таких статусов существует, выведите количество и список статусов.
> * посчитайте сколько пассажиров с каждым статусом статусом присутствовали на борту и какая часть из них выжила. Выведите статус, количество пассажиров, долю выживших.
> * сделайте предыдущее задание отдельно для каждого класса пассажиров. 

Оформите вывод, чтобы он был читаемым. 

In [None]:
# Your code here
status = dataset.Name.str.extract(' ([A-Za-z]+)\.', expand=False)
print(len(status.unique()), status.unique())

In [None]:
# Your code here
dataset['Status'] = status
dataset

In [None]:
# Your code here
for item in status.value_counts().index:
    count = len(dataset[dataset['Status']==item])
    survive = len(dataset[(dataset['Status']==item)&(dataset['Survived']==1)])
    print(f'{item:10} {count}\t {survive/count}')

In [None]:
# Your code here
for pclass in range(1,4):
    print('--------------------')
    print(f'Pclass = {pclass}')
    print('--------------------')
    for item in status.value_counts().index:
        count = len(dataset[(dataset['Status']==item)
                            &(dataset['Pclass']==pclass)])
        survive = len(dataset[(dataset['Status']==item)
                              &(dataset['Survived']==1)
                              &(dataset['Pclass']==pclass)])
        if count:
            print(f'{item:10} {count}\t {survive/count}')


3. Посчитайте средний возраст для каждого социального статуса (все социальные статусы, для которых в датасете присутствуют менее 10 человек объедините в один). Заполните пропущенные значения возраста в данных средним возрастом с учетом статуса.


In [None]:
# Your code here
val = ['Mr', 'Miss', 'Mrs', 'Master']

age_dict = {}
for key in val:
    age_dict[key] = dataset[dataset['Status']==key]['Age'].mean()
age_dict['Other'] = dataset[~dataset['Status'].isin(val)]['Age'].mean()

print(age_dict)

In [None]:
# Your code here
for i, row in dataset.iterrows():
    if np.isnan(row['Age']):
        if row['Status'] in val:
            dataset['Age'][i] = age_dict[row['Status']]
        else: 
            dataset['Age'][i] = age_dict['Other']
dataset

In [None]:
dataset.info()

4. Разбейте данные на две части в отношении 8:2 так, чтобы записи в этих двух частях не пересекались.  

In [None]:
# Your code here
import numpy as np

msk = np.random.rand(len(dataset)) < 0.8

train = dataset[msk]
test = dataset[~msk]

In [None]:
train

In [None]:
test

## C. Визуализация данных
Постройте гистограммы погибших/выживших в зависимости от класса для женщин и мужчин отдельно. 

In [None]:
male = dataset[dataset['Sex']=='male']

grid = sns.FacetGrid(male, col='Survived', row='Pclass', size=2.2, aspect=1.6)
grid.map(plt.hist, 'Age', bins=20)
grid.add_legend();

In [None]:
# Your code here
female = dataset[dataset['Sex']=='female']

grid = sns.FacetGrid(female, col='Survived', row='Pclass', size=2.2, aspect=1.6)
grid.map(plt.hist, 'Age', bins=20)
grid.add_legend();

# Использованные источники
1. Курс по Pandas на kaggle.com: https://www.kaggle.com/learn/pandas
2. Статья с примерами кода Pandas: https://towardsdatascience.com/23-great-pandas-codes-for-data-scientists-cca5ed9d8a38
3. Статья про импорт и экспорт CSV-файлов в Excel https://support.ecwid.com/hc/ru/articles/207100869-Импорт-и-экспорт-CSV-файлов-в-Excel
4. Статья про машинное обучение с использованием датасета Титаник: https://www.kaggle.com/code/startupsci/titanic-data-science-solutions
5. Обзор функционала seaborn https://seaborn.pydata.org/tutorial/function_overview.html
6. Pandas десятиминутный гайд https://pandas.pydata.org/docs/user_guide/10min.html
7. Pandas учебник https://www.w3schools.com/python/pandas/default.asp
