前期准备
这篇博客记录神经网络方法与应用的实验项目,项目开源链接:【免费】神经网络课程设计项目.zip资源-CSDN下载
数据集
数据集是我本人在百度飞桨网站上找到的,这个数据集整理的很全面详细,数据集信息包含10w张训练照片,1w张测试照片,并且分别使用train.txt和test.txt两个文本文件记录下每张图片的真实车牌号码,同时图片的命名也采取编号+车牌号的命名方法,图片信息统一为130*32像素值大小,且包含不同光照条件下、拍摄角度、以及各种不同车牌颜色,很好的涵盖了目前大陆的车牌组成,因此比较适合。
我使用标准且合理的机器学习数据划分方法,把10w张图片中9w用于训练模型,实际更新参数,剩下1w张图片用于验证这一训练轮次模型的识别准确率。另外1w张图片额外编写脚本文件和GUI项目单独验证保存的最佳模型效果如何。
数据集地址:车牌数据_数据集-飞桨AI Studio星河社区
训练设备与环境配置
# check_env_versions.py import sys import subprocess import platform def get_python_info(): """获取Python信息""" print(f"Python: {sys.version.split()[0]}") print(f"Platform: {platform.platform()}") print(f"Architecture: {platform.machine()}") print() def get_package_version(package_name): """获取包版本信息""" try: # 特殊处理一些包 if package_name.lower() == 'pillow': import PIL return PIL.__version__ elif package_name.lower() == 'torch': import torch return torch.__version__ elif package_name.lower() == 'torchvision': import torchvision return torchvision.__version__ else: module = __import__(package_name.lower()) return getattr(module, '__version__', 'unknown') except ImportError: # 尝试通过pip获取 try: result = subprocess.run( [sys.executable, '-m', 'pip', 'show', package_name], capture_output=True, text=True, encoding='utf-8' ) if result.returncode == 0: for line in result.stdout.split('\n'): if line.startswith('Version:'): return line.split(':')[1].strip() return 'not installed' except: return 'not installed' def check_gpu_info(): """检查GPU信息""" try: import torch print("CUDA available:", torch.cuda.is_available()) if torch.cuda.is_available(): print(f"CUDA version: {torch.version.cuda}") print(f"GPU count: {torch.cuda.device_count()}") for i in range(torch.cuda.device_count()): print(f" GPU {i}: {torch.cuda.get_device_name(i)}") print() except ImportError: print("torch not installed, cannot check GPU") print() def main(): """主函数""" print("=" * 50) print("环境版本检查") print("=" * 50) # Python信息 get_python_info() # 检查的包列表 packages = [ 'torch', 'torchvision', 'Pillow', 'numpy', 'pandas', 'opencv-python' # 虽然代码没导入,但常用来处理图像 ] # 获取每个包的版本 print("Package versions:") print("-" * 30) for pkg in packages: version = get_package_version(pkg) print(f"{pkg:20} : {version}") print() # GPU信息 print("GPU/CUDA info:") print("-" * 30) check_gpu_info() # 标准库版本(部分) print("Other info:") print("-" * 30) print(f"PIL (Pillow) installed: {'Yes' if 'Pillow' in packages else 'No'}") # 检查代码中导入的标准库 standard_libs = ['json', 'csv', 'os', 're', 'warnings', 'time', 'datetime', 'pickle', 'string'] print(f"Required stdlibs: all available ✓") if __name__ == "__main__": try: main() except Exception as e: print(f"Error: {e}")================================================== 环境版本检查 ================================================== Python: 3.9.7 Platform: Windows-10-10.0.17763-SP0 Architecture: AMD64 Package versions: ------------------------------ torch : 2.7.1+cu118 torchvision : 0.22.1+cu118 Pillow : 8.4.0 numpy : 1.21.5 pandas : 1.3.4 opencv-python : 4.5.5.64 GPU/CUDA info: ------------------------------ CUDA available: True CUDA version: 11.8 GPU count: 2 GPU 0: NVIDIA RTX A6000 GPU 1: NVIDIA RTX A6000 Other info: ------------------------------ PIL (Pillow) installed: Yes Required stdlibs: all available ✓ 进程已结束,退出代码0网络结构
我参考Le-Net设计结构简单搭建了一个CNN网络,主要实现了三层卷积,卷积核大小都是3x3,区别在于通道数不一样,添加了一个自适应池化层,两个全连接层(准确来说应该是八个),最后输出字符。因为大陆车牌统一编码规则为7位,我使用的端到端识别方案,没有做视觉识别裁剪分割,而是直接输入图片输出字符串,这很大一部分原因是训练集图片都为固定大小且以车牌为中心,换做其他的数据集肯定就不行了。
对于全连接层,最后一个全连接层实际上是七对256->67的输出,在这之前每个字符共享网络参数,但是这一层每个字符之间的网络的权重并不一致,所以属于独立参数,或许有助于提升准确性。这个网络的设计实际上硬生生把一个字符串识别任务变成了7个单字符分类任务。
日志
为什么我看的大部分神经网络的项目,都没有花时间提一嘴日志的事情。本人小白一开始写代码根本就不知道要写日志保存训练过程,结果一个小时训练完了除了一个模型文件啥也没有,连正确率曲线都画不出来,只好重新改代码让它生成日志文件json格式,当然也有读者友好的txt总结文件。
在日志里面可以看到整个网络的训练过程,每个epoch的batch结果,非常详细。文档还保存了每轮epoch输出的模型文件,方便之后在已有模型上继续训练。
![]()
实验结果图
这么一看感觉还行,第一次折腾神经网络就有这种效果,86%的准确率真不赖。训练准确率曲线明显低于验证准确率曲线,大概率是因为训练的时候我对数据又进行了一些处理(调了调亮度啥的),但是验证的时候是没有对数据处理的(相对来说比较干净),所以验证准确率会大于训练准确率。
我的学习率采用了OneCycleLR调度器,简单来说就是前面增长的很快,方便收敛,后面慢慢减小方便微调模型参数。
后面两位的准确率明显低于前面五位,很大原因和训练集有关系。有的训练集照片拍摄角度太刁钻,车牌都没拍全,导致后两位准确率偏低。
GUI验证
让AI写了个界面从test文件夹里面“随机”挑了几张看效果(我真没造假),还是很不错的。
结果显示,第一张车牌和第三张车牌都正确预测,第二张最后一位预测错误。且第一张置信度低于第二张,第三张置信度最高。我分析认为最可能的原因是,红底车牌在训练集内并不多见,所以网络学到的关于这类车牌信息较少,置信度较低。浅蓝底和深蓝底车牌较多,但第二张车牌末尾严重丢失,所以模型把最后一位认成Q,而不是0,属于正常现象,且有力证明了为什么之前关于字符预测准确率最后两位会显著低于前几位,就是因为训练集图片末尾残缺导致。第三张车牌置信度为1,是因为照片为车牌正对视角,且无模糊,车牌主体占据照片中心,属于某种意义上的最佳训练图,因此置信度毫无疑问最高。
写在最后
这是我学习神经网络自己跑的第一个例子,虽然学术性没那么强,但是至少是让我体会了一下关于数据集、网络设计、训练过程、结果验证方方面面的流程,对我本人以后相关的学习也有很大帮助。这个项目是我在AI的辅助下完成的,所以代码部分没有参考任何现有论文,只是网络结构上参考了一下Le-Net,因为我觉得本地训练的话10w张图片应该需要的参数量和Le-Net相当,考虑到车牌识别实际上是字符串识别任务,或者说是7个字符的独立分类任务,复杂度明显高于手写数字体识别,因此准确率远不及LeNet-5也是在我的预料范围内。
后续如果有糕手打算改进这个项目的话,我的建议是可以利用车牌的构造特征简化参数,这样有可能会性能更好。比如车牌首位一定是汉字,后六位字母不含I与O,所以网络结构可以继续优化。同时,当我们确定了汉字之后,第二位字母是由固定范围的,以湖南为例,湘A是长沙,湘B是株洲,但是没有湘P、湘Q、湘Z等等车牌,这也是利用先验知识优化网络设计。同时,端到端的输入,很受训练集的影响,后续如果想要拓展成实际项目的话,应该考虑训练如果在图片之框出车牌位置,固定像素大小裁取再输入到模型中,应该会有不错的效果,这样可以搭配摄像头和传感器使用。