Для достижения высокой скорости и эффективности работы системные вызовы ввода-вывода (то есть ядро) и функции ввода-вывода стандартной библиотеки языка C (то есть функции stdio) при работе с дисковыми файлами осуществляют буферизацию данных. В этой главе мы рассмотрим оба типа буферизации, а также то, как они влияют на производительность приложения. Здесь также описаны различные приемы настройки и отключения обоих типов буферизации и техника, называемая непосредственным вводом-выводом, применяемая при определенных обстоятельствах, чтобы избежать буферизации при работе в режиме ядра.
При работе с файлами на диске системные вызовы read() и write() не инициируют непосредственный доступ к диску. Вместо этого они просто копируют данные между буфером в пространстве памяти пользователя и
write(fd, "abc", 3);
Сразу после этого происходит возвращение из системного вызова write(). Несколько позже ядро записывает (сбрасывает) свой буфер на диск. (В связи с этим говорится, что системный вызов не
Аналогично для ввода ядро считывает данные с диска и сохраняет их в буфере ядра. Вызовы read() извлекают данные из этого буфера, пока он не будет исчерпан, после чего ядро считывает следующий сегмент файла в буферную кэш-память. (Это несколько упрощенное представление происходящего. В режиме последовательного доступа к файлу ядро обычно выполняет упреждающее чтение, пытаясь обеспечить считывание в буферную кэш-память следующих блоков файла еще до того, как они будут востребованы считывающим процессом. Более подробно упреждающее чтение рассматривается в разделе 13.5.)
Замысел заключается в попытке ускорить работу read() и write(), чтобы им не приходилось находиться в режиме ожидания завершения относительно медленных дисковых операций. Кроме того, такая конструкция повышает эффективность работы за счет сокращения количества переносов данных с диска, которые ядро должно выполнить.
Ядро Linux не накладывает никаких фиксированных ограничений на размер буферной кэш-памяти. Оно выделит столько страниц буферной кэш-памяти, сколько понадобится, ограничившись при этом лишь объемом доступной физической памяти и потребностями в использовании физической памяти для других целей (например, для хранения текстовых страниц и страниц данных, требуемых выполняемым процессам). Если испытывается дефицит доступной памяти, ядро сбрасывает часть измененных страниц буферной кэш-памяти на диск с целью высвобождения этих страниц для их повторного использования.
Следует уточнить, что после выхода версии ядра 2.4 в Linux больше не создается отдельная буферная кэш-память. Вместо этого буферы файлового ввода-вывода включаются в страничную кэш-память, которая, к примеру, также содержит страницы из отображенных в памяти файлов. Тем не менее в изложении основного материала будет использоваться понятие буферной кэш-памяти, поскольку для реализаций UNIX оно более привычно.
Независимо от того, выполняется 1000 записей одного байта или единая запись 1000 байт, ядро осуществляет одинаковое количество обращений к диску. Но последний вариант более предпочтителен, поскольку требует одного системного вызова, тогда как для первого варианта их требуется целая тысяча. Хотя системные вызовы выполняются намного быстрее дисковых операций, на них все же уходит довольно много времени, поскольку ядро должно системно перехватить вызов, проверить допустимость его аргументов и переместить данные между пространством пользователя и пространством ядра (подробности рассматриваются в разделе 3.1).
То, как размер буфера влияет на выполнение файлового ввода-вывода, можно проследить, запустив программу, показанную в листинге 4.1, с применением различных значений BUF_SIZE. (В константе BUF_SIZE указывается количество байтов, переносимых каждым вызовом read() и write().) Время, требуемое программе для копирования файла размером 100 миллионов байт в Linux в файловой системе ext2 с использованием различных значений BUF_SIZE, перечислено в табл. 13.1. В дополнение к приведенной в этой таблице информации нужно заметить следующее.