Модуль Python csv из стандартной библиотеки разбирает строки файла CSV и позволяет быстро извлечь нужные значения. Начнем с первой строки файла, которая содержит серию заголовков данных:

highs_lows.py

import csv

filename = 'sitka_weather_07-2014.csv'

(1) with open(filename) as f:

(2) . .reader = csv.reader(f)

(3) . .header_row = next(reader)

. .print(header_row)

После импортирования модуля csv имя обрабатываемого файла сохраняется в переменной filename. Затем файл открывается, а полученный объект сохраняется в переменной f (1) . Далее программа вызывает метод csv.reader() и передает ему объект файла в аргументе, чтобы создать объект чтения данных для этого файла (2). Объект чтения данных сохраняется в переменной reader.

Модуль csv содержит функцию next(), которая возвращает следующую строку файла для полученного объекта чтения данных. В следующем листинге функция next() вызывается только один раз для получения первой строки файла, содержащей заголовки (3). Возвращенные данные сохраняются в header_row. Как видите, header_row содержит осмысленные имена заголовков, которые сообщают, какая информация содержится в каждой строке данных:

['AKDT', 'Max TemperatureF', 'Mean TemperatureF', 'Min TemperatureF',

'Max Dew PointF', 'MeanDew PointF', 'Min DewpointF', 'Max Humidity',

' Mean Humidity', ' Min Humidity', ' Max Sea Level PressureIn',

' Mean Sea Level PressureIn', ' Min Sea Level PressureIn',

' Max VisibilityMiles', ' Mean VisibilityMiles', ' Min VisibilityMiles',

' Max Wind SpeedMPH', ' Mean Wind SpeedMPH', ' Max Gust SpeedMPH',

'PrecipitationIn', ' CloudCover', ' Events', ' WindDirDegrees']

Объект reader обрабатывает первую строку значений, разделенных запятыми, и сохраняет все значения в строке в списке. Заголовок AKDT означает «Alaska Daylight Time» (Аляска, летнее время). Позиция заголовка указывает на то, что первым значением в каждой из следующих строк является дата или время. Заголовок Max TemperatureF сообщает, что второе значение в каждой строке содержит максимальную температуру в этот день по шкале Фаренгейта. По именам заголовков можно определить, какая информация хранится в файле.

Примечание

Форматирование заголовков не всегда последовательно; иногда встречаются лишние пробелы, единицы измерения находятся в неожиданных местах. В необработанных файлах данных это бывает достаточно часто, но не создает проблем.

<p>Печать заголовков и их позиций</p>

Чтобы читателю было проще понять структуру данных в файле, выведем каждый заголовок и его позицию в списке:

highs_lows.py

...

with open(filename) as f:

reader = csv.reader(f)

header_row = next(reader)

. .

(1) . .for index, column_header in enumerate(header_row):

. . . .print(index, column_header)

Мы применяем к списку функцию enumerate() (1) для получения индекса каждого элемента и его значения. (Обратите внимание: строка print(header_row) удалена ради этой более подробной версии.)

Результат с индексами всех заголовков выглядит так:

0 AKDT

1 Max TemperatureF

2 Mean TemperatureF

3 Min TemperatureF

...

20 CloudCover

21 Events

22 WindDirDegrees

Из этих данных видно, что даты и максимальные температуры за эти дни находятся в столбцах 0 и 1. Чтобы проанализировать температурные данные, мы обработаем каждую запись данных в файле sitka_weather_07-2014.csv и извлечем элементы с индексами 0 и 1.

<p>Извлечение и чтение данных</p>

Итак, нужные столбцы данных известны; попробуем прочитать часть этих данных. Начнем с чтения максимальной температуры за каждый день:

highs_lows.py

import csv

# Чтение максимальных температур из файла.

filename = 'sitka_weather_07-2014.csv'

with open(filename) as f:

reader = csv.reader(f)

header_row = next(reader)

(1) . .highs = []

(2) . .for row in reader:

(3) . . . .highs.append(row[1])

. . . .

. .print(highs)

Программа создает пустой список с именем highs (1) и перебирает остальные строки в файле (2). Объект reader продолжает с того места, на котором он остановился в ходе чтения файла CSV, и автоматически возвращает каждую строку после текущей позиции. Так как заголовок уже прочитан, цикл продолжается со второй строки, в которой начинаются фактические данные. При каждом проходе цикла значение с индексом 1 (второй столбец) присоединяется к списку highs (3).

В результате будет получен список highs со следующим содержимым:

['64', '71', '64', '59', '69', '62', '61', '55', '57', '61', '57', '59', '57',

'61', '64', '61', '59', '63', '60', '57', '69', '63', '62', '59', '57', '57',

'61', '59', '61', '61', '66']

Мы извлекли максимальную температуру для каждого дня и аккуратно сохранили полученные данные в строковом формате в списке.

Затем преобразуем строки в числа при помощи функции int(), чтобы данные можно было передать matplotlib:

highs_lows.py

...

highs = []

for row in reader:

(1) . . . .high = int(row[1])

. . . .highs.append(high)

. . . .

print(highs)

Строки преобразуются в целые числа в точке (1) перед добавлением температур в список. Результат представляет собой список максимальных температур в числовом формате:

Перейти на страницу:

Все книги серии Библиотека программиста

Похожие книги