Библиотека pandas

Опубликовано 2025.08.06

Pandas — это широко используемая библиотека в экосистеме Python для управления данными. Она предлагает разнообразные, высокопроизводительные и наглядные инструменты для операций с данными, что делает процессы их анализа и обработки более легкими и интуитивно понятными. Особенно хорошо Pandas подходит для задач, связанных с очисткой, трансформацией и визуализацией данных.

Как Установить Pandas

Вы можете установить Pandas при помощи менеджера пакетов pip. Для этого в командной строке следует ввести следующую команду:

pip install pandas

Если вы используете Anaconda, то Pandas обычно устанавливается по умолчанию. Однако, если вам нужно установить её вручную, вы можете использовать:

conda install pandas

Основные Возможности

В Pandas в основном используются данные двух типов, назовём их структурами:

Series — является одномерным массивом с метками, аналогичный одномерному массиву, но с возможностью указания индексов.

DataFrame — состоит из столбцов и строк, его можно представить как двумерную таблицу. Таким образом с этими данными можно работать практически как с таблицей в БД или экселе.

Пример:

Давайте изучим простой пример применения Pandas в анализе данных.

Пример с DataFrame

import pandas as pd
 
# Создание DataFrame из словаря
info = {
    'Имя': ['Анна', 'Дмитрий', 'Елена'],
    'Возраст': [22, 29, 40],
    'Город': ['Москва', 'Санкт-Петербург', 'Казань']
}
 
df = pd.DataFrame(info)
 
# Вывод первых строк DataFrame
print("Первые строки DataFrame:")
print(df.head())
 
# Фильтрация данных
print("\nЛюди старше 25 лет:")
print(df[df['Возраст'] > 25])
 
# Добавление ещё одного столбца
df['Совершеннолетний'] = df['Возраст'] >= 18
print("\nDataFrame с новым столбцом 'Совершеннолетний':")
print(df)
 
# Выборка по столбцу
print("\nИмена людей:")
print(df['Имя'])
 
# Описание данных
print("\nСтатистика DataFrame:")
print(df.describe())

Результат

Этот код создаст DataFrame, содержащий имена, возраст и города нескольких людей, и продемонстрирует некоторые из ключевых функций, таких как фильтрация данных, добавление нового столбца и базовый статистический анализ.

Вывод:

Вывод первых строк показывает структуру и содержимое DataFrame.

Запрос с условиями извлекает строки, отвечающие указанным условиям.

Возможность добавления нового столбца демонстрирует способ обогащать данных.

Статистический анализ с помощью describe() предоставляет полезные сводные статистики о числовых колонках в DataFrame.

Заключение

Пакет Pandas — это один из ключевых инструментов для анализа данных в Python. Он обеспечивает удобные средства для обработки больших объемов данных, делает процесс их обработки более удобным и эффективным. Эта библиотека часто используется в различных областях, включая науку о данных, финансовые рынки и инженерные приложения благодаря своей функциональности и простоте использования.