Библиотека pandas

Опубликовано 2025.08.06

Pandas — это широко используемая библиотека в экосистеме Python для управления данными. Она предлагает разнообразные, высокопроизводительные и наглядные инструменты для операций с данными, что делает процессы их анализа и обработки более легкими и интуитивно понятными. Особенно хорошо Pandas подходит для задач, связанных с очисткой, трансформацией и визуализацией данных.

Как Установить Pandas

Вы можете установить Pandas при помощи менеджера пакетов pip. Для этого в командной строке следует ввести следующую команду:

  1. pip install pandas

Если вы используете Anaconda, то Pandas обычно устанавливается по умолчанию. Однако, если вам нужно установить её вручную, вы можете использовать:

  1. conda install pandas

Основные Возможности

В Pandas в основном используются данные двух типов, назовём их структурами:

Series — является одномерным массивом с метками, аналогичный одномерному массиву, но с возможностью указания индексов.

DataFrame — состоит из столбцов и строк, его можно представить как двумерную таблицу. Таким образом с этими данными можно работать практически как с таблицей в БД или экселе.

Пример:

Давайте изучим простой пример применения Pandas в анализе данных.

Пример с DataFrame

  1. import pandas as pd
  2.  
  3. # Создание DataFrame из словаря
  4. info = {
  5. 'Имя': ['Анна', 'Дмитрий', 'Елена'],
  6. 'Возраст': [22, 29, 40],
  7. 'Город': ['Москва', 'Санкт-Петербург', 'Казань']
  8. }
  9.  
  10. df = pd.DataFrame(info)
  11.  
  12. # Вывод первых строк DataFrame
  13. print("Первые строки DataFrame:")
  14. print(df.head())
  15.  
  16. # Фильтрация данных
  17. print("\nЛюди старше 25 лет:")
  18. print(df[df['Возраст'] > 25])
  19.  
  20. # Добавление ещё одного столбца
  21. df['Совершеннолетний'] = df['Возраст'] >= 18
  22. print("\nDataFrame с новым столбцом 'Совершеннолетний':")
  23. print(df)
  24.  
  25. # Выборка по столбцу
  26. print("\nИмена людей:")
  27. print(df['Имя'])
  28.  
  29. # Описание данных
  30. print("\nСтатистика DataFrame:")
  31. print(df.describe())

Результат

Этот код создаст DataFrame, содержащий имена, возраст и города нескольких людей, и продемонстрирует некоторые из ключевых функций, таких как фильтрация данных, добавление нового столбца и базовый статистический анализ.

Вывод:

Вывод первых строк показывает структуру и содержимое DataFrame.

Запрос с условиями извлекает строки, отвечающие указанным условиям.

Возможность добавления нового столбца демонстрирует способ обогащать данных.

Статистический анализ с помощью describe() предоставляет полезные сводные статистики о числовых колонках в DataFrame.

Заключение

Пакет Pandas — это один из ключевых инструментов для анализа данных в Python. Он обеспечивает удобные средства для обработки больших объемов данных, делает процесс их обработки более удобным и эффективным. Эта библиотека часто используется в различных областях, включая науку о данных, финансовые рынки и инженерные приложения благодаря своей функциональности и простоте использования.