# Объектно-ориентированное программирование

![image](https://i.redd.it/n3o2y74tc5251.jpg)

[источник изображения](https://www.reddit.com/r/ProgrammerHumor/comments/gu4k3y/oops/)


Есть три составляющие ООП:

- 0.**[Абстракция](https://en.wikipedia.org/wiki/Object-oriented_programming#Data_Abstraction)**
- 1.**[Инкапсуляция](https://en.wikipedia.org/wiki/Object-oriented_programming#Encapsulation)**
- 2.**[Наследование](Polymorphism)**
- 3.**[Полиморфизм](https://en.wikipedia.org/wiki/Object-oriented_programming#Composition,_inheritance,_and_delegation)**

**Класс**

Основа ООП — класс — способ отобразить предмет реального мира с помощью атрибутов. Например, множество классов используют как «чертежи» для компьютерного отображения домов, машин, деревьев, животных и любых других объектов, которые нужно смоделировать. Класс в программировании состоит из данных и кода. Данные отображают предметы или абстрактные понятия, а код ими управляет. 

Класс ООП имеет набор атрибутов и характеристик. Каждая характеристика — это поле класса. Взаимодействовать с полями позволяют методы класса — операторы и функции для определенного действия.

Если в ООП есть задача описать реальный объект — например, книгу — вы должны задать ее характеристики (свойства объекта): цвет, размер, автор, год выпуска, жанр. У книги есть и функции: выдача текстовой или графической информации.

Задав программе характеристики и функции, мы обобщили данные и создали объект. Если мы знаем, что множество книг соответствует характеристикам, то можем использовать объект как шаблон для создания других. Шаблон, который задает начальные характеристики для объектов, — это и есть класс.

ООП позволяет разбить сложные задачи на простые и не прописывать функции для каждого объекта.

# Объекты и классы в языке Python

## Области видимости и пространства имён в Python

*namespace* (пространством имён) называется правило, по которому объектам ставятся в соответствие имена. Например, функция `abs()`, относится к пространству имён  `builtins`. Такие объекты доступны нам сразу, без подключения каких-либо внешних модулей:

In [None]:
help(abs)

*attribute* (атрибутом) объекта принято называть любое название, которое следует после точки. Например, пусть у нас объявлена комплексная константа `z`:

In [None]:
z = 1 + 1j

У такого объекта `z` можно обратиться к его вещественной части через выражение`z.real`. `real` в данном примере является атрибутом объекта `z`.

In [None]:
z.real

Атрибуты могут быть доступны только для чтения или же для чтения и записи. В последнем случае возможно выполнять операцию присвоение атрибуту. Атрибуты модуля доступны для записи: вы можете написать `modname.the_answer = 42`. Существующие атрибуты также можно удалить с помощью оператора `del`. Например, `del modname.the_answer` удалит атрибут `the_answer` из объекта с именем `modname`.

Пространства имен создаются в разные моменты времени и имеют разное время жизни. Пространство имен, содержащее встроенные имена, создается при запуске интерпретатора Python и никогда не удаляется. **Глобальное пространство имен** для модуля создается при считывании определения модуля; обычно пространства имен модулей также сохраняются до тех пор, пока интерпретатор не завершит работу.

**Локальное пространство имен** для функции создается при вызове функции и удаляется, когда функция возвращает или вызывает исключение, которое не обрабатывается внутри функции. Каждый рекурсивный вызов функции порождает свое собственное локальное пространство имен.

**Область видимости** — это текстовая область программы Python, в которой пространство имен доступно напрямую, то есть по названию в пределах общего пространства имён.

Хотя области определяются статически, они используются динамически. В любой момент выполнения существует как минимум три вложенных области видимости, пространства имен которых доступны напрямую:

- непосредственно внутренняя область, которая ищется первой. Такая область содержит локальные имена объектов
- области действия любых объемлющих функций, которые ищутся, начиная с ближайшей объемлющей области, содержат `non-local`, а также `non-global` имена
- предпоследняя область содержит глобальные имена текущего модуля
- самая внешняя область (искомая последней) — это пространство имен, содержащее встроенные имена

Рассмотрим небольшой пример:

In [None]:
def scope_test():
    def do_local():
        spam = "local spam"

    def do_nonlocal():
        nonlocal spam
        spam = "nonlocal spam"

    def do_global():
        global spam
        spam = "global spam"

    spam = "test spam"
    do_local()
    print("After local assignment:", spam)
    do_nonlocal()
    print("After nonlocal assignment:", spam)
    do_global()
    print("After global assignment:", spam)

scope_test()
print("In global scope:", spam)

## Простейшее знакомство с классами в Python

Классы вводят немного нового синтаксиса, три новых типа объектов и некоторую новую семантику.

### Синтаксис работы с классами в

Простейшая форма определения класса выглядит так:
```
class ClassName:
    <statement-1>
    .
    .
    .
    <statement-N>
```

Определения классов, как и определения функций (операторы def), должны быть выполнены, прежде чем они будут иметь какой-либо эффект для остального кода вашей программы.

У класса могут быть базовые (родительские) классы (надклассы), которые, если они есть, указываются в скобках после имени определяемого класса.


```
class имя_класса(надкласс1, надкласс2, ...):
    # определения атрибутов и методов класса
```

Минимально возможное определение класса выглядит так:

In [None]:
class A:
    pass

## Объекты классов

In [None]:
class MyClass:
    """A simple example class"""
    i = 12345

    def f(self):
        return 'hello world'

`MyClass.i` и `MyClass.f` являются допустимыми ссылками на атрибуты данного объекта. Они возвращают целое число и объект функции f соответственно. Определения методов аналогичны определениям функций, но (за некоторыми исключениями, о которых ниже) методы всегда имеют первый аргумент, называемый по общепринятому соглашению `self`. Атрибуты класса также могут быть переопределены, поэтому вы можете изменить значение `MyClass.i` путем выполнения операции присвоения:

In [None]:
MyClass.i

In [None]:
MyClass.i += 1
MyClass.i


In [None]:
MyClass.f

`__doc__` также является допустимым атрибутом, возвращающим строку документации, которую мы прописали нашему классу:

In [None]:
MyClass.__doc__

Для **создания экземпляра класса** необходимо использовать такую же форму записи, как мы использовали для функций:

In [None]:
x = MyClass()

Код выше создает новый экземпляр класса и присваивает этот объект локальной переменной `x`.

Операция инстанцирования («вызов» объекта класса) создает пустой объект. Как мы ещё успеем подробно увидеть, нам часто хочется инициализировать созданный экземпляр класса определенными значениями. Для это внутри класса необходимо определить специальный метод с именем `__init__()`, например:

In [None]:
class MyClass:
    """A simple example class"""
    i = 12345
    
    def f(self):
        return 'hello world'
    
    def __init__(self, data):
        self.data = data

Когда класс содержит определение метода `__init__()`, операция создания экземпляра класса автоматически вызывает функцию `__init__()` для вновь созданного экземпляра класса. Таким образом. Рассмотрим ещё один пример:

In [None]:
class Complex:
    def __init__(self, realpart, imagpart):
        self.r = realpart
        self.i = imagpart

x = Complex(3.0, -4.5)
x.r, x.i

В языке Python класс не является чем-то статическим, поэтому добавить атрибуты можно и после определения:



In [None]:
class A:
    pass

def my_method(self, x):
    return x * x

A.m1 = my_method
A.attr1 = 2 * 2

Переопределив классовый метод `__new__`, можно управлять процессом создания экземпляра. Этот метод вызывается до метода `__init__` и должен вернуть новый экземпляр либо `None` (в последнем случае будет вызван `__new__` родительского класса). Метод `__new__` используется для управления созданием неизменчивых (immutable) объектов, управления созданием объектов в случаях, когда `__init__` не вызывается, например, при десериализации (unpickle). Следующий код демонстрирует один из вариантов реализации [шаблона Singleton](https://en.wikipedia.org/wiki/Singleton_pattern):

In [None]:
class Singleton(object):
    obj = None                                        # Атрибут для хранения единственного экземпляра
    def __new__(cls, *dt, **mp):                      # класса Singleton.
        if cls.obj is None:                           # Если он еще не создан, то
            cls.obj = object.__new__(cls, *dt, **mp)  # вызовем __new__ родительского класса
        return cls.obj                                # вернем синглтон

In [None]:
obj = Singleton()
obj.attr = 12
new_obj = Singleton()
new_obj.attr

In [None]:
new_obj is obj

### Конструктор, инициализатор, деструктор

Специальные методы вызываются при создании экземпляра класса (конструктор), при инициализировании экземпляра класса (инициализатор) и при удалении класса (деструктор). В языке Python реализовано автоматическое управление памятью, поэтому конструктор и деструктор требуются достаточно редко, для ресурсов, требующих явного освобождения.

Следующий класс имеет инициализатор и деструктор:

In [None]:
class Line:
    def __init__(self, p1, p2):                  # Инициализатор
        self.line = (p1, p2)

    def __del__(self):                           # Деструктор
        print(f"Удаляется линия {self.line}")

In [None]:
l = Line((0.0, 1.0), (0.0, 2.0))

In [None]:
del l

### Методы

#### Метод

Синтаксис описания метода ничем не отличается от описания функции, разве что его положением внутри класса и характерным первым формальным параметром `self`, с помощью которого внутри метода можно ссылаться на сам экземпляр класса (название `self` является соглашением, которого придерживаются программисты на Python):


In [None]:
class MyClass:
    def mymethod(self, x):
        return x == self._x

#### офтоп: Декораторы

Иногда мы хотим немного модифицировать работу некоторого метода (или вообще функции), добавив немного функциональности в уже существующий алгоритм. Скажем, мы хотим добавить вывод отладочной информации при каждом вызове определенной функции:

In [None]:
def fun(a,b):
    return a*2+b

def dfun(f, *args):
    print(">", *args)
    res = f(*args)
    print("<", res)
    return res

print(fun(2,3))
print(dfun(fun,2,3))

Можно было бы всюду писать конструкции с вызовом одной функции изнутри другой или заменить наш вызов на что-то такое:

In [None]:
def genf(f):
    def newfun(*args):
        print(">", *args)
        res = f(*args)
        print("<", res)
        return res
    return newfun

newf = genf(fun)
print(newf(2,3))

 но Python предоставляет нам вкусный синтаксический сахар, позволяющий удобно подменить в таких одну функцию композицией функций:

In [None]:
def genf(f):
    def newfun(*args):
        print(">", *args)
        res = f(*args)
        print("<", res)
        return res
    return newfun

@genf
def fun(a,b):
    return a*2+b

print(fun(2,3))

### Статический метод

Статические методы в Python являются синтаксическими аналогами статических функций в основных языках программирования. Они не получают ни экземпляр (`self`), ни класс (`cls`) первым параметром. Для создания статического метода используется декоратор `@staticmethod`. Статические методы реализованы с помощью свойств (`property`).
|


In [None]:
class D(object):  
    @staticmethod
    def test(x):
        return x == 0

In [None]:
D.test(1)    # доступ к статическому методу можно получать и через класс

In [None]:
f = D()
f.test(0)    # и через экземпляр класса

### Метод класса

Классовые методы в Python занимают промежуточное положение между статическими и обычными. В то время как обычные методы получают первым параметром экземпляр класса, а статические не получают ничего, в классовые методы передается класс. Возможность создания классовых методов является одним из следствий того, что в Python классы также являются объектами. Для создания классового метода можно использовать декоратор `classmethod`

In [None]:
class A:  
    def __init__(self, int_val):
        self.val = int_val + 1
    @classmethod
    def fromString(cls, val):   # вместо self принято использовать cls
        return cls(int(val))

In [None]:
class B(A):
    pass

In [None]:
x = A.fromString("1")
x.__class__.__name__

In [None]:
x = B.fromString("1")
x.__class__.__name__

Классовые методы достаточно часто используются для перегрузки конструктора. Классовые методы, как и статические, реализуются через свойства (`property`).

### Инкапсуляция и доступ к свойствам

Инкапсуляция является одним из ключевых понятий ООП. Все значения в Python являются объектами, инкапсулирующими код (методы) и данные и предоставляющими пользователям общедоступный интерфейс. Методы и данные объекта доступны через его атрибуты.

Сокрытие информации о внутреннем устройстве объекта выполняется в Python на уровне соглашения между программистами о том, какие атрибуты относятся к общедоступному интерфейсу класса, а какие — к его внутренней реализации. Одиночное подчеркивание в начале имени атрибута говорит о том, что атрибут не предназначен для использования вне методов класса (или вне функций и классов модуля), однако, атрибут все-таки доступен по этому имени. Два подчеркивания в начале имени дают несколько большую защиту: атрибут перестает быть доступен по этому имени. Последнее используется достаточно редко.

Есть существенное отличие между такими атрибутами и личными (private) членами класса в таких языках как C++ или Java: атрибут остается доступным, но под именем вида `_ИмяКласса__ИмяАтрибута`, а при каждом обращении Python будет модифицировать имя в зависимости от того, через экземпляр какого класса происходит обращение к атрибуту. Таким образом, родительский и дочерний классы могут иметь атрибут с именем, например, «`__f`», но не будут мешать друг другу.

In [None]:
class parent:
    def __init__(self):
        self.__f = 2
    def get(self):
        return self.__f

    
class child(parent):
    def __init__(self):
        self.__f = 1
        parent.__init__(self)
    def cget(self):
        return self.__f

In [None]:
c = child()
c.get()

In [None]:
c.cget()

Это работает благодаря тому что у объекта `с` на самом деле два разных атрибута:

In [None]:
c.__dict__

Особым случаем является наличие двух подчеркиваний в начале и в конце имени атрибута. Они используются для специальных свойств и функций класса (например, для перегрузки операции). Такие атрибуты доступны по своему имени, но их использование зарезервировано для специальных атрибутов, изменяющих поведение объекта.

Доступ к атрибуту может быть как прямой:

In [None]:
class A:
    def __init__(self, x):
        self.x = x

a = A(5)
a.x

Так и с использованием свойств с заданными методами для получения, установки и удаления атрибута:



In [None]:
class A:
    def __init__(self, x):
        self._x = x

    def getx(self):                 # метод для получения значения
        return self._x

    def setx(self, value):          # метод для присваивания нового значения
        self._x = value

    def delx(self):                 # метод для удаления атрибута
        del self._x                 

    x = property(getx, setx, delx, "Свойство x")    # определяем x как свойство

In [None]:
a = A(5)  

In [None]:
a.x

Разумеется, первый способ хорош только если значение атрибута является атомарной операцией по изменению состояния объекта. Если же это не так, то второй способ позволит выполнить все необходимые действия в соответствующих методах.

Существуют два способа централизованно контролировать доступ к атрибутам. Первый основан на перегрузке методов `__getattr__()`, `__setattr__()`, `__delattr__()`, а второй — метода `__getattribute__()` . Второй метод помогает управлять чтением уже существующих атрибутов.

### Полиморфизм

В компилируемых языках программирования полиморфизм достигается за счёт создания виртуальных методов, которые в отличие от невиртуальных можно перегрузить в потомке. В Python все методы являются виртуальными, что является естественным следствием разрешения доступа на этапе исполнения. (Следует отметить, что создание невиртуальных методов в компилируемых языках связано с меньшими накладными расходами на их поддержку и вызов).

In [None]:
class Parent:
    def isParOrPChild(self) :
        return True
    def who(self):
        return 'parent'

class Child(Parent):
    def who(self) :
        return 'child'

In [None]:
x = Parent()
x.who(), x.isParOrPChild()

In [None]:
x = Child()
x.who(), x.isParOrPChild()

Явно указав имя класса, можно обратиться к методу родителя (как впрочем и любого другого объекта).

In [None]:
class Child(Parent):
    def __init__(self):
        Parent.__init__(self)

Используя специально предусмотренное исключение `NotImplementedError`, можно имитировать чисто виртуальные методы:

In [None]:
class abstobj:
    def abstmeth(self):
        raise NotImplementedError('Method abstobj.abstmeth is pure virtual')

In [None]:
abstobj().abstmeth()

### Переопределение встроенных типов

строенные типы и их методы имеют синтаксическую поддержку в языке Python или другие особые «привилегии». Конечно, любая операция может быть представлена синтаксисом вызова функции, однако, для частого применения это неудобно.

Воспользоваться точно такой же синтаксической поддержкой может и любой определённый пользователем класс. Для этого нужно лишь реализовать методы со специальными именами. Самый простой пример — переопределить функцию:



In [None]:
class Add:
    def __call__(self, x, y):    # переопределение метода, 
        return x + y             # который отвечает за операцию вызова функции при вызове () у экземпляра

In [None]:
add = Add()
add(3, 4) 

Аналогично поддаются переопределению все операции встроенных типов. Ещё один пример связан с вычислением длины объекта с помощью функции `len()`. Эта встроенная функция вызывает специальный метод:



In [None]:
class wrongList(list):     # определяем собственный класс для списка, чтобы всё поломалось
    def __len__(self):     # он всегда считает, что имеет нулевую длину
        return 0

In [None]:
w = wrongList([1,2,3])
w

In [None]:
len(w)

Методы `__getitem__`,`__setitem__`,`__delitem__`,`__contains__` позволяют создать интерфейс для словаря или списка(`dict`).

Достаточно просто переопределить и числовые типы. Скажем, следующий класс использует инфиксную операцию `*`

In [None]:
class Multiplyable:
    def __init__(self, value):
        self.value = value

    def __mul__(self, y):
        return self.value * y

    def __rmul__(self, x):
        return x * self.value

    def __imul__(self, y):
        return Multiplyable(self.value * y)

    def __str__(self):
        return f"Multiplyable({self.value})"
    __repr__ = __str__

In [None]:
m = Multiplyable(1)
m

In [None]:
m *= 3
m

Последний из методов — `.__str__()` — отвечает за представление экземпляра класса при печати оператором `print` и в других подобных случаях.

Аналогичные методы имеются и у соответствующих встроенных типов:

In [None]:
int.__add__

In [None]:
[].__getitem__

In [None]:
class a : pass
a.__call__

Не все из них существуют на самом деле: большая часть имитируется интерпретатором Python для удобства программиста. Такое поведение позволяет экономить время при наиболее важных операциях (например, сложение целых не приводит к поиску и вызову метода `__add__` у класса `int`) и память не расходуется на этот поиск и вызов, но приводит к невозможности изменения методов у встроенных классов.



## Отношения между классами

### Наследование и множественное наследование

При описании предметной области классы могут образовывать иерархию, в корне которой стоит базовый класс, а нижележащие классы (подклассы) наследуют свои атрибуты и методы, уточняя и расширяя поведение вышележащего класса (надкласса). Обычно принципом построения классификации является отношение «IS-A» («есть» — между экземпляром и классом) и «AKO» («a kind of» — «разновидность» — между классом и суперклассом).

Python поддерживает как одиночное наследование, так и множественное, позволяющее классу быть производным от любого количества базовых классов.

In [None]:
class Par1:                        # наследуем один базовый класс - object
    def name1(self): return 'Par1'

class Par2:
    def name2(self): return 'Par2'


class Child(Par1, Par2):           # создадим класс, наследующий Par1, Par2 (и, опосредованно, object)
    pass

x = Child()
x.name1(), x.name2()               # экземпляру Child доступны методы из Par1 и Par2

В Python (из-за [«утиной типизации»](https://ru.wikipedia.org/wiki/%D0%A3%D1%82%D0%B8%D0%BD%D0%B0%D1%8F_%D1%82%D0%B8%D0%BF%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F)) отсутствие наследования ещё не означает, что объект не может предоставлять тот же самый интерфейс.
Множественное наследование в Python применяется в основном для добавления примесей (mixins) — специальных классов, вносящих некоторую черту поведения или набор свойств.


# Практическая часть

## Задача A. Векторы

Необходимо реализовать класс `Vector`, имитирующий двумерный вектор. Необходимо переопределить операции сложения векторов (при сложении вектором ответом является новый вектор, координаты которого являются суммой соответствующих координат слагаемых), скалярного произведения векторов (ответом является число, равное сумме попарных произведений соответствующих координат двух векторов), произведения вектора на число.

Бонусная задачка: сделайте так, чтобы вызов `abs()` для экземпляра описанного вами класса возвращал бы длину вектора.

В вашем классе уже реализован метод `__repr__()`, который позволит отображать экземпляры класса в при стандартном выводе. 
*Подсказка:* чтобы операция умножения числа на вектор работала так же, как и операция умножения вектора на число нам достаточно написать `__rmul__ = __mul__` в теле определения класса `Vector`.

In [None]:
class Vector():
    def __init__(self, x=0, y=0):
        pass # REPLACE WITH YOUR CODE
    
    def __repr__(self):
        return f'({self.x} {self.y})'
    
    def __mul__(self, other):
        if isinstance(other, Vector):
            return None # REPLACE WITH YOUR CODE
        return None # REPLACE WITH YOUR CODE
    
    def __add__(self, other):
        return None # REPLACE WITH YOUR CODE
    
    # ADD __abs__ definition 

In [None]:
#######
# SOL #
#######

class Vector():
    def __init__(self, x=0, y=0):
        self.x = x
        self.y = y
    
    def __repr__(self):
        return f'({self.x} {self.y})'
    
    def __mul__(self, other):
        if isinstance(other, Vector):
            return self.x * other.x + self.y * other.y
        return Vector(self.x * other, self.y * other)
    
    __rmul__ = __mul__
    
    def __add__(self, other):
        return Vector(self.x + other.x, self.y + other.y)
    
    def __abs__(self):
        return (self.x ** 2 + self.y ** 2)**0.5
    

**Тесты:**

In [None]:
v1 = Vector(42, 101)
v2 = Vector(101, 42)
v1, v2

In [None]:
v1 + v2

In [None]:
v1 * v2

In [None]:
v1 * 66

In [None]:
66 * v2

In [None]:
v1 = Vector(0, 42)
v2 = Vector(42, 0)

abs(v1), abs(v2), abs(v1+v2) 

## Задача B. Точки

Реализуйте класс `Dot`, который бы имитировал точки в N-мерном пространстве. Необходимо определить следующую функциональность:

- Задавать точку в N-мерном пространстве списком её координат
- Выводить в стандартный вывод точку в виде строки вида `(x0, x1, ..., xN-1)`
- Вычислять расстояние между двумя точками пространства одинаковой размерности при помощи метода `distance()`
- Вычислять точку, являющуюся серединой отрезка между двумя точками пространства одинаковой размерности при помощи метода `midpoint()`

Будем считать, для простоты, что данный класс должен корректно реализовывать операции только для пар точек из пространства одной и той же размерности.

**Бонусная задача.** Добавьте обработку попыток работы с точками из пространств разной размерности с использованием стандартного механизма обработки исключений в Python. Для этого:
- Изучите [страницу в документации языка python с описанием работы с исключениями](https://docs.python.org/3/tutorial/errors.html#raising-exceptions)
- Инициируйте ValueError при попытке работать точками из пространств разной размерности
```
>>> d1 = Dot(0, 0, 0)
>>> d2 = Dot(0, 0, 0, 66)
>>> try:
...     d2.distance(d1)
... except ValueError:
...     print(f'Error! {d1.N} is not {d2.N}!')
...     
```

In [None]:
class Dot():
    def __init__(self, coords_list):
        pass # REPLACE WITH YOUR CODE

    def __repr__(self):
        return None # REPLACE WITH YOUR CODE
     
    def distance(self, other):
        return None # REPLACE WITH YOUR CODE
    
    def midpoint(self, other):
        return None # REPLACE WITH YOUR CODE

In [None]:
#######
# SOL #
#######

class Dot():
    def __init__(self, coords_list):
        self._coords = coords_list
        self.N = len(coords_list)

    def __repr__(self):
        return f'({", ".join(map(str, self._coords))})'
    
    def _check_dim(self, other):
        if self.N != other.N:
            raise ValueError('We are not compatible by dim :(')
    
    def distance(self, other):
        self._check_dim(other)
        return (sum([(x-y)**2 for (x,y) in zip(self._coords, other._coords)])) **.5
    
    def midpoint(self, other):
        self._check_dim(other)
        return Dot([(x+y)*0.5 for (x,y) in zip(self._coords, other._coords)])

**Тесты:**

In [None]:
d1 = Dot([1,2,3,4])
d1

In [None]:
d1 = Dot([1, 2, 3, 4])
d2 = Dot([4, 3, 2, 1])

d1.distance(d2)

In [None]:
d1 = Dot([1, 2, 3, 4])
d2 = Dot([4, 3, 2, 1])

d1.midpoint(d2)

In [None]:
d1 = Dot([42, 42, 42, 42])
d2 = Dot([42, 42, 42])
try:
    d2.distance(d1)
except ValueError:
    print(f'Error! {d1.N} is not {d2.N}!')

## Задача C. Решающее дерево

В данной задаче вам предлагается самостоятельно реализовать класс, который будет имитировать [решающее дерево](https://en.wikipedia.org/wiki/Decision_tree). Экземпляр класса должен содержать 

In [None]:
import math
import numpy as np

def gini_index(list_of_X_splits, list_of_y_splits, classes=[0, 1]):
    # count all samples at split point
    n_instances = float(sum([len(group) for group in list_of_X_splits]))
    # sum weighted Gini index for each group
    gini = 0.0
    for group_x, group_y in zip(list_of_X_splits, list_of_y_splits):
        # YOUR CODE HERE
    return gini


class MyShinyDT():
    def __init__(self, max_depth=3, min_size=1, split_criterion=gini_index):
        self.max_depth = max_depth
        self.min_size = min_size
        self.split_criterion = split_criterion
        
    @staticmethod
    def _split(feature_idx, trh, X_data, y_data):
        '''
        Split a dataset based on an attribute and an attribute value

        '''
        left_x, right_x = [], []
        left_y, right_y = [], []
        
        for val_x, val_y in zip(X_data, y_data):
            if val_x[feature_idx] < trh:
                left_x.append(val_x)
                left_y.append(val_y)
            else:
                right_x.append(val_x)
                right_y.append(val_y)
        
        return ((left_x, right_x), (left_y, right_y))
    
   
    # YOUR CODE HERE
            

    def fit(self, X_data, y_data):
        pass # YOUR CODE HERE
    
          
    def predict(self, X_test):
        pass # YOUR CODE HERE

In [None]:
#######
# SOL #
#######

import math
import numpy as np

def gini_index(list_of_X_splits, list_of_y_splits, classes=[0, 1]):
    # count all samples at split point
    n_instances = float(sum([len(group) for group in list_of_X_splits]))
    # sum weighted Gini index for each group
    gini = 0.0
    for group_x, group_y in zip(list_of_X_splits, list_of_y_splits):
        size = float(len(group_x))
        # avoid divide by zero
        if size == 0:
            continue
        score = 0.0 
        # score the group based on the score for each class
        for class_val in classes:
            p = group_y.count(class_val) / size
            score += p * p
        # weight the group score by its relative size
        gini += (1.0 - score) * (size / n_instances)
    return gini


class MyShinyDT():
    def __init__(self, max_depth=3, min_size=1, split_criterion=gini_index):
        self.max_depth = max_depth
        self.min_size = min_size
        self.split_criterion = split_criterion
        
    @staticmethod
    def _split(feature_idx, trh, X_data, y_data):
        '''
        Split a dataset based on an attribute and an attribute value

        '''
        left_x, right_x = [], []
        left_y, right_y = [], []
        
        for val_x, val_y in zip(X_data, y_data):
            if val_x[feature_idx] < trh:
                left_x.append(val_x)
                left_y.append(val_y)
            else:
                right_x.append(val_x)
                right_y.append(val_y)
        
        return ((left_x, right_x), (left_y, right_y))
    
   
    def _get_current_best_split(self, X_data, y_data):
        '''
        Iterates over all possible splits for different features and thresholds
        and looking for the best way to split

        '''
        # init
        n_features = len(X_data[0])
        best_feature_idx, best_trh, best_score = math.inf, math.inf, math.inf
        best_split = None
        
        for feature_idx in range(n_features):
            # effectively iterate over all possible feature_idx value
            for item in X_data:
                probe_trh = item[feature_idx]
                probe_groups = self._split(feature_idx, probe_trh, X_data, y_data)
                probe_groups_x, probe_groups_y = probe_groups
                current_score = self.split_criterion(probe_groups_x, probe_groups_y)
                if current_score < best_score:
                    best_score = current_score
                    best_trh = probe_trh
                    best_split = probe_groups
                    best_feature_idx = feature_idx
        return {'feature_idx':best_feature_idx, 'trh':best_trh, 'split':best_split}
    
    def _split_recursively(self, current_node, depth):
        def to_terminal(group_y):
            return max(set(group_y), key=group_y.count)

        (left_x, right_x), (left_y, right_y) = current_node['split']
        del(current_node['split'])
        # check for a no split
        if not left_y or not right_y:
            current_node['left'] = current_node['right'] = to_terminal(left_y + right_y)
            return
        # check for max depth
        if depth >= self.max_depth:
            current_node['left'], current_node['right'] = to_terminal(left_y), to_terminal(right_y)
            return
        # process left child
        if len(left_y) <= self.min_size:
            current_node['left'] = to_terminal(left_y)
        else:
            current_node['left'] = self._get_current_best_split(left_x, left_y)
            self._split_recursively(current_node['left'], depth+1)
        # process right child
        if len(right_y) <= self.min_size:
            current_node['right'] = to_terminal(right_y)
        else:
            current_node['right'] = self._get_current_best_split(right_x, right_y)
            self._split_recursively(current_node['right'], depth+1)
            

    def fit(self, X_data, y_data):
        root_node = self._get_current_best_split(X_data.tolist(), y_data.tolist())
        self._split_recursively(root_node, 1)
        self.tree = root_node
    
    def _rec_pred_on_single_obj(self, node, single_obj):
        if single_obj[node['feature_idx']] < node['trh']:
            if isinstance(node['left'], dict):
                return self._rec_pred_on_single_obj(node['left'], single_obj)
            else:
                return node['left']
        else:
            if isinstance(node['right'], dict):
                return self._rec_pred_on_single_obj(node['right'], single_obj)
            else:
                return node['right']

        
    def predict(self, X_test):
        predictor = lambda x : self._rec_pred_on_single_obj(self.tree, x)
        res = np.apply_along_axis(predictor, 1, X_test)
        return res

Посмотрим на то как работает написанная нами модель на реальных данных. Загрузим датасет breast_cancer и посмотрим его описание:

In [None]:
import sklearn
import sklearn.datasets

breast_cancer = sklearn.datasets.load_breast_cancer()
print(breast_cancer.DESCR)

Разделим наши данные на обучающую и тестовую выборки при помощи функции [`train_test_split`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) из модуля `sklearn.model_selection`:

In [None]:
from sklearn.model_selection import train_test_split
X = breast_cancer.data
y = breast_cancer.target
feature_names = breast_cancer.feature_names
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

print(f'train shape {X_train.shape}')
print(f'test shape {X_test.shape}')
print(feature_names)

In [None]:
myDT = MyShinyDT()
myDT.fit(X_train, y_train)

y_pred = myDT.predict(X_test)

Распределение верных исходов классификации по классам "Malignant" и "Benign" не равномерно, потому для корректной оценки качества работы нашего алгоритма нам нужно будет использовать метрику, способную правильно работать с такими данными. Одной из таких метрик является корреляция Мэтьюса. Подробнее о её вычислении можно узнать [вот тут](https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-019-6413-7). Мы же просто используем её готовую реализацию [`sklearn.metrics.matthews_corrcoef`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.matthews_corrcoef.html):

In [None]:
from sklearn.metrics import  matthews_corrcoef

In [None]:
matthews_corrcoef(y_test, y_pred)

## Задача D. Ансамблирование
Возьмите за основу модель решающего дерева из предыдущего задания и постройте на его основе [случайный лес](https://en.wikipedia.org/wiki/Random_forest). Необходимо:

- Реализовать класс `MyShinyRandomTree`, который будет принимать реализованный нами выше класс деревьев решений, а также новый гиперпараметр -- число `n_estimators` деревьев деревьев решений (получим mixin)
- У экземпляра класса `MyShinyRandomTree` должны быть методы `.fit` и `.predict`
- Метод `fit` должен обучать `n_estimators` деревьев решений, используя для обучения каждого из деревьев только случайную подвыборку исходной обучающей выборки.
- Метод `predict` должен строить предсказание нашей модели, как наиболее частый результат предсказания среди `n_estimators` обученных деревьев решений.

In [None]:
class MyShinyRandomTree():
    def __init__(self, base_classifier, *args):
        self.split_criterion = MyShinyDT
        # ...

Давайте проверим удалось ли нам улучшить качество нашей модели:

In [None]:
# 

In [None]:
myRT = MyShinyRandomTree()
myRT.fit(X_train, y_train)

y_pred = myRT.predict(X_test)

In [None]:
# 

In [None]:
matthews_corrcoef(y_test, y_pred)

При составлении данного ноутбука явно использованы материал:

https://robotdreams.cc/blog/184-chto-takoe-klassy-v-obektno-orientirovannom-programmirovanii

https://uneex.ru/LecturesCMC/PythonIntro2021

https://docs.python.org/3/tutorial/