C++ — язык со статической типизацией. У каждой переменной на этапе компиляции должен быть чётко определённый тип данных. Про каждый тип данных заранее известно, сколько места в памяти занимает переменная такого типа.
В этом параграфе мы познакомимся с некоторыми базовыми типами данных и с понятием области видимости переменных.
Области видимости
В С++ существует понятие области видимости (scope) переменной. Эта область ограничивается блоком кода, в котором переменная определена. Рассмотрим пример:
#include <iostream>
int a = 1; // глобальная переменная
int main() {
int b = 2; // локальная переменная
{
int c = 3; // локальная переменная внутри блока
std::cout << a << " " << b << " " << c << "\n"; // корректно
}
// Эта строчка не скомпилируется,
// так как переменная c не определена в данной области:
std::cout << c << "\n";
}
В этом примере есть три области:
- глобальная, в которой определена переменная
a
; - тело функции
main
, в которой определена переменнаяb
; - внутренний блок, в котором определена переменная
c
.
В последней строке примера переменная c
недоступна, так как её область видимости уже закончилась. В случае коллизии имён компилятор всегда выбирает самую вложенную область видимости.
Рассмотрим пример:
#include <iostream>
int main() {
int x = 1;
std::cout << x << "\n"; // напечатает 1
{
int x = 2; // новая переменная, к предыдущему x не имеет отношения
std::cout << x << "\n"; // напечатает 2
}
std::cout << x << "\n"; // снова напечатает 1
}
Инициализация локальных переменных
Локальные переменные простых типов, таких как int
, не инициализируются по умолчанию нулём. Компилятор просто выделяет для них байты в стековой памяти, но при этом он не обязан как-либо их заполнять. Это один из принципов C++: мы не должны платить за то, что не используем.
Следующий фрагмент кода может напечатать всё что угодно:
#include <iostream>
int main() {
int x;
std::cout << x << "\n"; // неопределённое поведение!
int y;
std::cin >> y; // а это допустимый сценарий
}
Компиляторы g++
и clang++
обычно дают предупреждения о чтении неинициализированных переменных при использовании опции -Wall
или -Wuninitialized
:
$ clang++ -Wall program.cpp program.cpp:5:18: warning: variable 'x' is uninitialized when used here [-Wuninitialized] std::cout << x << "\n"; // неопределённое поведение! ^ program.cpp:4:10: note: initialize the variable 'x' to silence this warning int x; ^ = 0 1 warning generated.
Заметим, что std::string
является сложным типом и переменные такого типа всегда по умолчанию инициализируются пустой строкой. Поэтому нет необходимости писать std::string s = "";
. Пишите просто std::string s;
.
Простые типы данных
С типом int
мы уже знакомы. Рассмотрим другие фундаментальные типы данных в С++. Это так называемые интегральные типы и типы для вещественных чисел.
int main() {
char c = '1'; // символ
bool b = true; // логическая переменная, принимает значения false и true
int i = 42; // целое число (занимает, как правило, 4 байта)
short int si = 17; // короткое целое (занимает 2 байта)
long li = 12321321312; // длинное целое (как правило, 8 байт)
long long lli = 12321321312; // длинное целое (как правило, 8 байт)
float f = 2.71828; // дробное число с плавающей запятой (4 байта)
double d = 3.141592; // дробное число двойной точности (8 байт)
long double ld = 1e15; // длинное дробное (как правило, 16 байт)
}
Обратите внимание, что символы, в отличие от строк (то есть массивов символов), записываются в апострофах, а не в кавычках. В примере выше мы записываем в переменную c
символ единицы. Фактически в памяти хранится ASCII-код этого символа, который равен 49.
Напомним, что каждый тип данных занимает заранее известное количество байтов памяти. Стандарт языка С++ не накладывает жёстких ограничений на размеры типов, они могут отличаться для разных платформ и компиляторов.
О том, что делать с этой особенностью, мы расскажем ниже. А пока отметим, что узнать размер переменной или типа на этапе компиляции можно с помощью оператора sizeof
.
Например, на 64-битной Linux-системе компилятор clang++
использует такие размеры для типов:
int main() {
std::cout << "char: " << sizeof(char) << "\n"; // 1
std::cout << "bool: " << sizeof(bool) << "\n"; // 1
std::cout << "short int: " << sizeof(short int) << "\n"; // 2 (по стандарту >= 2)
std::cout << "int: " << sizeof(int) << "\n"; // 4 (по стандарту >= 2)
std::cout << "long int: " << sizeof(long int) << "\n"; // 8 (по стандарту >= 4)
std::cout << "long long int: " << sizeof(long long) << "\n"; // 8 (по стандарту >= 8)
std::cout << "float: " << sizeof(float) << "\n"; // 4
std::cout << "double: " << sizeof(double) << "\n"; // 8
std::cout << "long double: " << sizeof(long double) << "\n"; // 16
}
Размеры стандартных типов
По умолчанию числовые типы – знаковые. Они имеют диапазон значений от до , где – количество битов, занимаемых типом. Приставка unsigned
перед типом делает его беззнаковым. В этом случае диапазон допустимых значений будет от 0 до :
int main() {
unsigned int ui = 4294967295; // 2^32 - 1
}
Минимальное и максимальное значение, помещающееся в данный числовой тип, можно получить так:
#include <iostream>
#include <limits> // необходимо для numeric_limits
int main() {
// посчитаем для типа int:
std::cout << "minimum value: " << std::numeric_limits<int>::min() << "\n"
<< "maximum value: " << std::numeric_limits<int>::max() << "\n";
}
Данный пример на 64-битной Linux-системе напечатает:
minimum value: -2147483648 maximum value: 2147483647
Приведённые выше примеры вывода оператора sizeof
верны для 64-битных архитектур, которые на сегодняшний день распространены повсеместно. Однако если бы мы скомпилировали и запустили такую программу на компьютере с 32-битной архитектурой, то получили бы другие результаты. Например, sizeof(long int)
стал бы равен 4, в то время как на современных компьютерах мы получили бы 8. Также бывают встраиваемые системы, под которые тоже можно писать на С++. Там битность архитектуры может быть ещё меньше, чем 32.
В заголовочном файле cstdint
стандартной библиотеки имеются целочисленные типы с фиксированным размером:
int8_t
/uint8_t
int16_t
/uint16_t
int32_t
/uint32_t
int64_t
/uint64_t
Число в имени типа означает количество бит, используемых для хранения в памяти. Например, int32_t
содержит 32 бита (4 байта) и часто соответствует типу int
. Если система не поддерживает какой-то тип, то программа с ним просто не скомпилируется.
Переполнение целочисленных типов
Стандартные числовые типы имеют ограниченный размер и ограниченное множество допустимых значений. При арифметических операциях над числами таких типов может возникнуть переполнение — ситуация, когда результат операции не помещается в тип:
#include <iostream>
int main() {
unsigned int a = 123456; // на 64-битной платформе sizeof(a) == 4
// Произведение a * a не помещается в 4 байта, так как оно больше 2^32
std::cout << a * a << "\n";
}
В этом примере выражение a * a
будет иметь тот же тип, что и аргументы. То, что на самом деле будет вычислено, зависит от знаковости типа.
Беззнаковые типы можно спокойно переполнять: вычисления будут производиться по модулю соответствующей степени двойки. Другими словами, будут учтены только младшие биты результата:
int main() {
unsigned int x = 0; // на 64-битной платформе sizeof(x) == 4
unsigned int y = x - 1; // 4294967295, то есть 2**32 - 1
unsigned int z = y + 1; // 0
}
Наоборот, для знаковых типов переполнение приводит к так называемому неопределённому поведению (UB, undefined behavior).
Такая ситуация не считается ошибкой компиляции (в самом деле, на стадии компиляции значения переменных могут быть ещё неизвестны). Но в этом случае стандарт С++ перестаёт что-либо гарантировать по поводу поведения программы. Компиляторы могут использовать такие случаи для оптимизации программ, полагаясь на то, что разработчики пишут код корректно и никогда не допускают неопределённого поведения. Далее нам встретятся и другие случаи неопределённого поведения.
Беззнаковые типы следует использовать, когда вы имеете дело с битовыми наборами. В остальных случаях предпочтительнее использовать знаковые типы.
Арифметические операции
Бинарные операции +
, -
и *
работают для чисел стандартным образом. Результат операции деления /
, применённой к целым числам, всегда округляется в сторону нуля. Таким образом, для положительных чисел операция /
возвращает неполное частное. Остаток от деления целых чисел можно получить с помощью операции %
.
int main() {
int a = 7, b = 3;
int q = a / b; // 2
int r = a % b; // 1
}
Если при делении нужно получить обычное частное, то один из аргументов нужно привести к вещественному типу (например, double
) с помощью оператора static_cast
:
int main() {
int a = 6, b = 4;
double q = static_cast<double>(a) / b; // 1.5
}
Можно было бы написать чуть более кратко: double q = a * 1.0 / b;
. Тогда преобразование аргументов произошло бы неявно.
Арифметические операции над символами, а также сравнение символов друг с другом — это фактически операции над их ASCII-кодами:
#include <iostream>
int main() {
char c = 'A';
c += 25; // увеличиваем ASCII-код символа на 25
std::cout << c << "\n"; // Z
}
Операция +
применительно к строкам означает конкатенирование (то есть склейку). Это пример перегрузки операции: изначальному оператору сложения чисел в стандартной библиотеке для строки придали новый смысл.
#include <string>
int main() {
std::string a = "Hello, ";
std::string b = "world!";
std::string c = a + b; // Hello, world!
}
Для каждой бинарной операции (например, +
) есть версия со знаком равенства (+=
) для случая, когда левый аргумент совпадает с переменной, которой присваивается результат:
int main() {
int x = 5;
x += 3; // x = x + 3
x *= x; // x = x * x
}
Наконец, имеются операторы ++
и --
для увеличения или уменьшения переменной на единицу. Они бывают префиксные (++x
) и постфиксные (x++
). Отличие состоит в значении выражения, которое будет вычисляться при применении такого оператора. Мы рассмотрим это позже, а пока привыкнем по умолчанию использовать префиксный оператор для обычных чисел:
int main() {
int x = 5;
++x; // 6
--x; // снова 5
}
Числа с плавающей точкой
В языке C++ существуют три встроенных типа для записи дробных чисел: float
(4 байта), double
(8 байт) и long double
(16 или 8 байт, в зависимости от платформы). В большинстве случаев рекомендуется использовать тип double
.Тип float
разумно использовать там, где обрабатываются огромные массивы чисел, и возникает необходимость экономить память.
Как правило, хранение дробных чисел в С++ основано на стандарте IEEE 754. Число представляется в виде двоичной дроби в экспоненциальной записи: отдельно хранятся бит знака, порядок и мантисса.
Такое представление выгодно отличается от чисел с фиксированной точкой, где хранится фиксированное количество разрядов. Оно позволяет, хотя и с разной степенью точности, представлять числа, отличающиеся на порядки.
При работе с рациональными числами, знаменатель которых не является степенью двойки, неизбежно возникают погрешности представления. В следующем параграфе мы разберём как следует сравнивать такие числа.
Автоматический вывод типа
Компилятор C++ умеет автоматически выводить тип переменной по значению, которое ей присваивается. Для этого вместо типа надо написать ключевое слово auto
:
int main() {
auto x = 42; // int
auto pi = 3.14159; // double
}
Ключевое слово auto
позволяет сократить код и не выписывать сложные типы (нам встретятся дальше монстры вроде std::unordered_multimap<Key, Value>::const_iterator
). Важно подчеркнуть, что точный тип переменной всё равно становится известен в момент компиляции.
При использовании auto
со строками нужно быть осторожным. Важно знать, что конструкция auto s = "hello"
выведет низкоуровневый тип const char *
(указатель на неизменяемый набор символов в памяти), а не тип-обёртку std::string
.
Точные правила вывода типов похожи на правила вывода шаблонных параметров, с которыми мы познакомимся в параграфе про шаблоны.
В следующем параграфе мы подробнее поговорим о ветвлении и циклах.