1 min read
人工智慧風速預測系統 x NTU
-
- Author Ricky Chen
- Published 2024 年 3 月 23 日
- 0 comments Join the Conversation
內容目錄
Toggle在本研究中,為了開發一個精確的風速預測系統,我一開始採用了LabelMe來標注並識別風中搖晃的樹木邊界,並使用YOLOv8訓練。LabelMe是一款開源的圖像標註工具,它允許研究者對圖像中的對象進行精確的手動標注,為深度學習模型訓練提供了高質量的數據。標註過程中,研究人員能夠繪製出精確的邊界框來圍繞樹木或其它感興趣的物體,確保模型訓練時的數據準確度。
如圖一,二
接著,我們採用了YOLOv8進行物體識別。YOLO(You Only Look Once)是一種高效的物體識別算法,以其快速和高準確率著稱。YOLOv8作為該算法系列的最新版本,不僅保留了YOLO系列的優勢,如實時處理速度和高識別準確率,同時在架構上進行了優化,以提高模型的性能和效率。YOLOv8通過深層卷積神經網絡(CNN)進行特徵提取,並使用單次前向傳播來預測圖像中物體的類別和位置,極大地提高了處理速度。
以下是為了能夠滿足段落所需的長度而定義的無意義內文,請自行參酌編排。
然而,在將YOLOv8應用於風速預測系統中時,遇到了一個顯著的挑戰。雖然YOLOv8在辨識靜態圖像中的物體上表現出色,對於樹上掛的小球以及樹木的邊緣都有辨識出來,但它對於檢測物體的微小動作,如樹木在風中的細微晃動,並不敏感。這是因為YOLOv8的設計重點在於快速準確地識別和定位圖像中的物體,而不是追蹤物體的動態變化。在風速預測的應用場景中,樹木的晃動幅度往往很小,且背景可能包含多種動態變化,這使得YOLOv8難以準確捕捉到這些微小的變化。結果導致在預測風速時,數據出現了較大的誤差,影響了預測系統的準確性和可靠性。
因為前面的做法效果不佳,我開始探討了利用深度學習和計算機視覺技術對視頻數據進行分析的一種創新方法,以提高對動態場景的理解和分析能力。通過計算連續視頻幀之間的光流(Optical Flow)來捕捉物體的運動信息。
我結合了PyTorch深度學習框架和OpenCV計算機視覺庫的強大功能。PyTorch提供了一個靈活且強大的平台,用於設計和訓練深度神經網絡。同時,OpenCV作為一個開源的計算機視覺和機器學習軟體庫,使我們能夠處理視頻文件和圖像數據,並計算光流。通過OpenCV加載影片數據,然後對連續幀進行預處理,包括轉換顏色空間以適應後續處理。接著,我們計算每對連續視頻幀之間的光流,這是通過比較兩幀圖像中的每一點,以估計每一點的運動向量來實現的。這一步是理解視頻中物體運動的關鍵,光流向量可以揭示物體如何在空間中移動,這對於追蹤物體、識別動作模式等任務相當重要。
將這些運動信息整合進深度學習模型以進行進一步分析的方法。利用PyTorch的數據加載和處理工具,如DataLoader和數據轉換功能能夠高效地準備和供養數據給深度學習模型。模型訓練過程中,採用了梯度級別混合精度訓練(Automatic Mixed Precision, AMP),以提高計算效率並節省內存占用,這對於處理大規模數據集和複雜模型特別重要。
在本研究中,我們提出了一個創新的深度學習框架,專注於從視頻數據中提取動態特徵,並將這些特徵與氣象站風速結合,以進行更精細化的分析和預測。此方法的核心在於利用光流技術捕捉視頻幀之間的運動信息,並透過一個結合了卷積神經網絡(CNN)和循環神經網絡(RNN)的深度學習模型進行特徵提取和數據融合。
首先,我們通過OpenCV實現對影片數據的預處理,包括讀取視頻、調整幀率以及轉換色彩空間。此外,採用光流法計算連續兩幀之間的運動變化,這是通過Farneback算法實現的。光流計算為我們提供了每個像素點的運動向量,從而能夠揭示場景中物體的運動軌跡和速度變化。
接著,透過自定義的數據加載器,我們將處理好的視頻幀與相應的風速數據結合起來,形成一個統一的數據集,供後續的深度學習模型使用。在模型設計方面,我們採用了一個創新的CNN-RNN結構。其中,ResNet-18預訓練模型被用作特徵提取的卷積神經網絡部分,以從視頻幀中提取高階視覺特徵。值得注意的是,我們移除了ResNet的最後全連接層,並加入了一個新的全連接層以適應特定的預測任務。
在訓練過程中,我們採用了梯度級別混合精度訓練(AMP)以提升訓練效率並節省記憶體使用。此外,我們的模型結構允許靈活地將來自不同源的數據(如光流信息和風速)融合在一起,從而在保持視覺信息豐富性的同時,也能夠納入其他環境或感測器數據,為預測提供更全面的信息支持。
在網頁系統中,可以讓使用者輕鬆的上傳影片並選擇模型進行預測風速,以及利用RTSP即時串流技術時時預測風速。
預測數據:
2024.01.04
2024.01.02
2023.12.28
2023.12.25
2023.12.24
2023.12.14
本論文及相關程式碼的著作權屬於作者陳昭儒。本作品授予 Creative Commons Attribution-NoDerivatives 4.0 International License (CC BY-ND 4.0) 許可證。可以在遵守署名和非商業性使用的前提下自由分享,但不允許修改和製作衍生作品。 詳細許可證條款請訪問以下連結: https://creativecommons.org/licenses/by-nd/4.0/