C语言王国——深入自定义类型（结构体）

一、引言

二、结构体

1. 结构体类型的声明

一、引言

上回我们学完了数据在内存中的存储，那C语言中还有更多来自于我们程序员自己创造的类型——自定义类型，如结构体、联合体、枚举。而本章的深入自定义类型就由姜糖我来给大家讲讲结构体的相关知识。

二、结构体

结构是⼀些值的集合，这些值称为成员变量。结构的每个成员可以是不同类型的变量。

与数组差不多，不过数组类型是相同的，结构体类型可以是不同的哦。

1. 结构体类型的声明

struct tag
{
     member-list;
}variable-list;

2. 结构体变量的创建和初始化

2.1 创建

如我们定义一个人的结构体：

人：姓名，年龄，性别

struct people    //人的结构体
{
    char name[5];//姓名
    int age;    //年龄
    char sex[3];//性别
};//与函数不同结尾要有分号

2.2 初始化

上面我们设置了一个人的结构体，那我们该如何初始化它呢？

比如：初始化一个人的结构体变量P1

姓名：姜糖

年龄：21

性别：男

struct people    //人的结构体
{
    char name[5];//姓名
    int age;    //年龄
    char sex[3];//性别
};//与函数不同结尾要有分号

int main()
{
    struct people P1={"姜糖"，21，"男"}：

    return 0;
}

2.3 typedef

有的人会说打struct people这个类型名称太麻烦了，有没有上面简单的方式代替呢？

答案肯定是有哒啦：

1.用typedef重新定义struct people类型变量为people。

struct people    //人的结构体
{
    char name[5];//姓名
    int age;    //年龄
    char sex[3];//性别
};//与函数不同结尾要有分号

typedef struct people people;

2.在定义 struct people类型变量时用typedef重新定义。

typedef struct people    
{
    char name[5];
    int age;    
    char sex[3];
} people;

2.4 特殊声明

加入我们只写用一次结构体那有没有更简单的方法呢？

那就是匿名结构体，则代码如下：

struct    
{
    char name[5];
    int age;    
    char sex[3];
} P1;

P1则为此结构体的变量名。（此定义结构体变量方式在正常情况下也可以使用）。

有人在定义完匿名结构体后，在后面又想使用他就会想出幺蛾子，如：

struct    
{
    char name[5];
    int age;    
    char sex[3];
}* P1;

int main()
{
    *P1=&S;
}

那么S是否就为原结构体呢？

答案是不可以。

警告：

编译器会把上面的两个声明当成完全不同的两个类型，所以是非法的。
匿名的结构体类型，如果没有对结构体类型重命名的话，基本上只能使用⼀次。

2.5 自引用

如果大家看过我的数据结构的文章，就会发现我在数据结构中定义数据就是用的结构体，那我接下来要跟大家分享的链表的数据结构中，一个数据不仅包含自身数据，也包含下一个数据，那么我们能这么写吗？

struct Node
{
    int data;
    struct Node next;
}

如果这么写，那么sizeof(struct Node)大小是多少呢?难道它要包含他自己本身的情况下再包含一个四字节的整形吗？

所以是不行的。那我们该怎么办呢？

还有一个方法就是结构体的指针也同样代表结构体而且大小为4/8字节。如下：

struct Node
{
    int data;
    struct Node* next;
}

3. 结构成员访问操作符

正常用结构体变量.数据如：

struct people    //人的结构体
{
    char name[5];//姓名
    int age;    //年龄
    char sex[3];//性别
};//与函数不同结尾要有分号

int main()
{
    struct people P1={"姜糖"，21，"男"};
    P1.name = "大牛"：
    P1.age = 22;
    p1.sex = "女";

    return 0;
}

而结构体指针用结构体指针->数据如：

struct people    //人的结构体
{
    char name[5];//姓名
    int age;    //年龄
    char sex[3];//性别
};//与函数不同结尾要有分号

int main()
{
    struct people* P1={"姜糖"，21，"男"};
    P1->name = "大牛"：
    P1->age = 22;
    p1->sex = "女";

    return 0;
}

4. 结构体内存对齐

4.1 对齐规则

1.结构体的第⼀个成员对齐到和结构体变量起始位置偏移量为0的地址处

2.其他成员变量要对齐到某个数字（对齐数）的整数倍的地址处。

对齐数=编译器默认的⼀个对齐数与该成员变量大小的较小值。
VS 中默认的值为 8
Linux中gcc没有默认对齐数，对齐数就是成员自身的大小

3.结构体总大小为最大对齐数（结构体中每个成员变量都有⼀个对齐数，所有对齐数中最⼤的）的整数倍。

4.如果嵌套了结构体的情况，嵌套的结构体成员对齐到自己的成员中最大对齐数的整数倍处，结构体的整体大小就是所有最大对气数（含嵌套结构体中成员的对气数）的整数倍。

//vs为例子 默认对齐数8
//练习1 
struct S1
{
    char c1; //对齐数为 1<8 1
    int i;   //对齐数为 4<8 4
    char c2; //对齐数为 1<8 1
};
printf("%d\n", sizeof(struct S1));

//练习2 
struct S2
{
    char c1; //对齐数为 1<8 1
    char c2; //对齐数为 1<8 1
    int i;   //对齐数为 4<8 1
};
printf("%d\n", sizeof(struct S2));

//练习3 
struct S3
{
    double d; //对齐数为 8=8 8
    char c;   //对齐数为 1<8 1
    int i;    //对齐数为 4<8 4
};
printf("%d\n", sizeof(struct S3));

//练习4-结构体嵌套问题 
struct S4
{
    char c1;      //对齐数为 1<8 1
    struct S3 s3; //对齐数为 S3里最大对齐数为8 8=8 8
    double d;     //对齐数为 8=8 8
};
printf("%d\n", sizeof(struct S4));

根据这些规则大家想想S1和S2中数据相同，但内存大小一样吗？接下来我们就画图分析一下：

很明显的S1和S2内存大小不一样，S1=12，S2=8。

那么大家就自己来练习一下S3等于多少咯？（答案为16）

而S4中运用到了结构体的嵌套，大家利用规则4去做一下吧！（答案为32）

4.2 offsetof

如果大家想验证一下可以使用offsetof，验证其偏移量。

//需要包含头文件stdlib

定义如下：

offsetof (type,member);

若要查找S1中i的偏移量：

offsetof (S1,i);

4.3 为什么存在内存对齐

1. 平台原因(移植原因)：

不是所有的硬件平台都能访问任意地址上的任意数据的；某些硬件平台只能在某些地址处取某些特定类型的数据，否则抛出硬件异常。

2. 性能原因：

’数据结构(尤其是栈)应该尽可能地在自然边界上对齐。原因在于，为了访问未对齐的内存，处理器需要作两次内存访问；而对齐的内存访问仅需要⼀次访问。假设⼀个处理器总是从内存中取8个字节，则地址必须是8的倍数。如果我们能保证将所有的double类型的数据的地址都对⻬成8的倍数，那么就可以用一个内存操作来读或者写值了。否则，我们可能需要执行两次内存访问，因为对象可能被分放在两个8字节内存块中。

总体来说：结构体的内存对齐是拿空间来换取时间的做法。

所以设计结构体的时候尽量讲内存小的放在一起，节省空间。

4.4 修改默认对齐数

#pragma 这个预处理指令，可以改变编译器的默认对齐数。

//需要包含头文件stdio

#include <stdio.h>

#pragma pack(1)//设置默认对⻬数为1 

#pragma pack()//取消设置的对⻬数，还原为默认

5. 结构体传参

那么在结构体的传递到函数中调用的时候，传值好还是传址好呢？

大家想一想如果结构体里有数组a[1000]，那么传值时会开辟一块超级大的内存，而传址则只是一个4/8字节的指针，那么结果显而易见。而且传址还能改变结构体。

原因：

函数传参的时候，参数是需要压栈，会有时间和空间上的系统开销。
如果传递⼀个结构体对象的时候，结构体过大，参数压栈的的系统开销比较大，所以会导致性能的下降。

6. 结构体实现位段

6.1 定义

位段的声明和结构是类似的，有两个不同：

1. 位段的成员必须是 int、unsigned int 或signed int ，在C99中位段成员的类型也可以选择其他类型。

2. 位段的成员名后边有⼀个冒号和⼀个数字。

下面有一个由位段组成的结构体：

struct S
{
    char a:3; //3个bit
    char b:4; //4个bit
    char c:6;//6个bit
};

位段中的位其实是二进制位。而图中a的存储大小为2bit，b为5bit，c为10bit。

位段在设计时不能超过自身大小，比如int a:n;

n<=32。

那么为什么会有位段呢？

因为在存储较小值的时候能有效的节约空间。

6.2 位段的内存分配

位段的成员可以是 int unsigned int signed int 或者是 char 等类型
位段的空间上是按照需要以4个字节（ int ）或者1个字节（ char ）的方式来开辟的。
位段涉及很多不确定因素，位段是不跨平台的，注重可移植的程序应该避免使用位段。

struct S
{
    char a:3; //3个bit
    char b:4; //4个bit
    char c:6;//6个bit
};

int main()
{
    struct S s = {0};
    s.a = 10;
    s.b = 6;
    s.c = 4;
    printf("%d",sizeof(struct S));
    return 0;
}

那么我们为我们的结构体S开辟空间：

1. 首先开辟1字节的空间

2. 存储a=10,a的二进制为1010，因为只能存储3个bit所以从低到高位010。

3. 存储b=6，b的二进制为0110，存储6个bit，空间足够。

4. 存储c = 4，c的二进制为100，存储10bit,空间不足，剩下的空间根本编译器决定是否浪费，假设浪费，开辟新的1字节空间。

5. 观看其地址存储

所以打印结果为struct S为2字节。

6.3 跨平台问题

1. int位段被当成有符号数还是无符号数是不确定的。

2. 位段中最大位的数目不能确定。（16位机器最大16，32位机器最大32，写成27，在16位机器会出问题。

3. 位段中的成员在内存中从左向右分配，还是从右向左分配标准尚未定义。

4. 当⼀个结构包含两个位段，第⼆个位段成员比较大，无法容纳于第⼀个位段剩余的位时，是舍弃剩余的位还是利用，这是不确定的。

6.4 位段使用的注意事项

位段的几个成员共有同⼀个字节，这样有些成员的起始位置并不是某个字节的起始位置，那么这些位置处是没有地址的。内存中每个字节分配⼀个地址，⼀个字节内部的bit位是没有地址的。所以不能对位段的成员使用&操作符，这样就不能使用scanf直接给位段的成员输入值，只能是先输入放在⼀个变量中，然后赋值给位段的成员。

错误赋值用法：

sacnf("%d",&(s.a));

正确赋值用法：

s.a = 8 ;

位段的数据没有地址。

三、结论

C语言的内容不止于此，还有更多需要我们共同发现，今天C语言的内存数据管理就到这里啦，明天姜糖将继续深入自定义类型中的其他两个。如果姜糖有讲的不好的地方欢迎大家提出，谢谢大家，也希望大家能一键三连哦！