Bỏ qua đến nội dung chính

Space Intelligence – Cách chúng tôi tạo bản đồ

Phương pháp luận của Space Intelligence cho các bản đồ mất rừng EUDR phục vụ ICE CoT.

P
Được viết bởi Phuong Nguyen

Các bản đồ mất rừng được xây dựng để sử dụng trên nền tảng ICE CoT.

Các bản đồ mất rừng EUDR của ICE CoT được cung cấp theo giấy phép từ ICE Benchmark Administration Limited.

Giới thiệu về Space Intelligence Ltd

Space Intelligence Ltd là một công ty có trụ sở tại Vương quốc Anh, được thành lập vào năm 2018.

Công ty được sáng lập bởi Dr Murray Collins và Prof. Edward Mitchard, những người khi đó đang là giảng viên tại University of Edinburgh. Họ là các chuyên gia hàng đầu thế giới trong việc sử dụng dữ liệu vệ tinh để lập bản đồ che phủ đất nhiệt đới và lưu trữ carbon, với hơn 100 bài báo khoa học được bình duyệt (peer-reviewed) được công bố.

Space Intelligence đã xây dựng một đội ngũ gồm các nhà khoa học, nhà sinh thái học, kỹ sư phần mềm và chuyên gia AI. Tổng cộng công ty có 56 nhân sự, trong đó có 13 người có bằng tiến sĩ. Đội ngũ này có năng lực đặc biệt trong việc tạo ra dữ liệu bản đồ chất lượng cao, nhờ khả năng xử lý thông minh hàng petabyte dữ liệu vệ tinh kết hợp với chuyên môn sâu về môi trường.

Công ty cung cấp dữ liệu cho các tập đoàn và chính phủ trên toàn cầu, xây dựng các bản đồ phục vụ giám sát các dự án dựa trên thiên nhiên (Nature-Based Solutions). Khách hàng của họ bao gồm các tập đoàn lớn như Apple, Shell và Equinor, cùng nhiều nhà phát triển dự án carbon rừng khác.

Space Intelligence – Cách chúng tôi tạo bản đồ

Phương pháp luận của Space Intelligence cho các bản đồ mất rừng EUDR phục vụ ICE CoT.

Bản đồ Habitat của Space Intelligence

Space Intelligence tạo ra các bản đồ lớp phủ đất với độ phân giải 10 m nhằm hỗ trợ các nhà giao dịch hàng hóa và các đơn vị vận hành trong việc tuân thủ các nghĩa vụ EUDR. Các bản đồ chúng tôi xây dựng thiết lập đường cơ sở về nơi nào là rừng và không phải rừng tính đến ngày 31 tháng 12 năm 2020, và nơi nào đã xảy ra mất rừng cũng như nơi rừng mới đã phát triển kể từ thời điểm đó đến hiện tại.

Các bản đồ này tuân theo định nghĩa rừng của EUDR:
“Rừng” là diện tích đất lớn hơn 0,5 ha với cây cao hơn 5 mét và độ che phủ tán cây trên 10%, hoặc các cây có khả năng đạt đến các ngưỡng đó tại chỗ, không bao gồm đất chủ yếu được sử dụng cho mục đích nông nghiệp hoặc đô thị.

Và định nghĩa mất rừng của EUDR, được xác định là:
“Mất rừng” là việc chuyển đổi rừng sang mục đích sử dụng nông nghiệp, dù do con người gây ra hay không [sau mốc ngày 31 tháng 12 năm 2020]

Việc áp dụng các định nghĩa này bao gồm quá trình khó khăn trong việc xác định chính xác nơi nào có hoạt động nông nghiệp vào năm 2020 và ở hiện tại, mặc dù hoạt động nông nghiệp này thường nằm dưới tán cây hoặc bản thân nó là cây (ví dụ trong các hệ thống nông lâm kết hợp như ca cao hoặc cà phê). Trên thực tế, các khu vực có cây có thể không đáp ứng định nghĩa rừng vì nhiều lý do:

  • Vì khu vực không đạt độ che phủ tán cây 10%

  • Vì diện tích khu vực cây nhỏ hơn 0,5 ha

  • Vì cây không có khả năng đạt chiều cao 5 m tại vị trí đó

  • Vì đất hiện đang được sử dụng cho nông nghiệp, είτε trồng cây dưới tán, hoặc một số cây là cây trồng (ví dụ ca cao hoặc cây ăn quả)

Dữ liệu đầu vào cho bản đồ

Chúng tôi sử dụng các bộ dữ liệu vệ tinh sau, thu thập hình ảnh trong suốt cả năm để thu thập thông tin về sự thay đổi của từng khu đất qua các mùa khác nhau. Để xử lý sự khác biệt về độ phân giải ban đầu và hệ chiếu bản đồ, tất cả dữ liệu được căn chỉnh và hiệu chỉnh địa hình về cùng một lưới kích thước pixel 10 m x 10 m. Lưới này sử dụng phép chiếu diện tích bằng nhau (ESPG: 6933) để đảm bảo mỗi pixel có cùng kích thước.

Dữ liệu quang học

Tương tự như một máy ảnh gắn kính viễn vọng trên vệ tinh. Nhiều dải phổ trong phổ điện từ giúp phân biệt các loại bề mặt có và không có thảm thực vật. Dữ liệu thu thập trong năm cho phép phân biệt loại thảm thực vật thông qua sự thay đổi phản xạ theo mùa. Chúng tôi sử dụng hai vệ tinh:

  • Sentinel-1. Vệ tinh radar băng C (bước sóng 6 cm) độ phân giải 10 m, vận hành bởi ESA/EU. Có từ hai vệ tinh trở lên trên quỹ đạo, dữ liệu thường có mỗi 12 ngày tại khu vực nhiệt đới.

  • ALOS-2 PALSAR-2. Vệ tinh radar băng L (bước sóng 23 cm), độ phân giải từ 10 m đến 100 m, vận hành bởi JAXA. Tần suất dữ liệu thấp hơn Sentinel-1 (thường 42 ngày), nhưng bước sóng dài hơn cho phép xuyên sâu hơn vào tán rừng.

Dữ liệu LiDAR

Tia laser chiếu trực tiếp từ vệ tinh xuống. Cung cấp thông tin về chiều cao cây và độ che phủ tán, hữu ích để xác định các điểm có hoặc không đáp ứng định nghĩa rừng của EUDR.

  • GEDI. Các vòng tròn 25 m, một cảm biến trên Trạm Vũ trụ Quốc tế, vận hành bởi NASA.

Thông tin về độ cao, độ dốc và hướng dốc. Hữu ích riêng lẻ (ví dụ một số loại thảm thực vật không phát triển trên/dưới một độ cao nhất định) và giúp các thuật toán học máy hiệu chỉnh các ảnh hưởng không liên quan đến lớp phủ đất (ví dụ độ sáng cao hơn trên sườn dốc hướng về phía vệ tinh).

Xây dựng bản đồ

Điểm và đa giác chuẩn (truth points and polygons)

Chúng tôi sử dụng dữ liệu thực địa từ các quốc gia được lập bản đồ, các chuyến khảo sát thực địa, ảnh có định vị địa lý công khai, các bộ dữ liệu bản đồ hiện có, và chuyên gia của chúng tôi phân tích ảnh vệ tinh độ phân giải rất cao (<1 m) để tạo ra tập hợp các đa giác mà chúng tôi tin chắc thuộc các lớp phủ đất cụ thể. Điều này bao gồm nỗ lực lớn để tạo các đa giác chắc chắn là rừng trồng, cây trồng lâu năm, nông nghiệp dưới tán cây, cũng như rừng thưa và rừng dày. Các đa giác này rất quan trọng để phân biệt các lớp này, vốn thường trông tương tự nhau trên dữ liệu vệ tinh. Chúng tôi cũng tạo bộ dữ liệu kiểm tra độc lập gồm các điểm, không dùng để xây dựng bản đồ, mà dùng để đánh giá độ chính xác.

Chuẩn bị dữ liệu và học máy

Các bộ dữ liệu vệ tinh được kết hợp thành các “data cube” trong khoảng thời gian sáu tháng. Khoảng thời gian này bao gồm sáu tháng cuối năm 2020 (để tạo bản đồ đến ngày 31/12/2020), và sáu tháng gần nhất (để cập nhật đến hiện tại). Khoảng thời gian gần nhất sẽ được cập nhật hàng năm, sử dụng dữ liệu đến ngày 30 tháng 9 của năm đó. Mây và bóng mây được loại bỏ khỏi dữ liệu quang học, và tất cả dữ liệu được hiệu chỉnh địa hình, hiệu chỉnh bức xạ và căn chỉnh. Các nhà khoa học dữ liệu của chúng tôi huấn luyện và chạy thuật toán học máy, kết hợp đa giác chuẩn và data cube vệ tinh để dự đoán bản đồ cho cuối năm 2020 và thời điểm gần nhất. Các bản đồ này được kiểm tra với bộ dữ liệu kiểm tra độc lập. Dựa trên kết quả và kiểm tra trực quan của chuyên gia, chúng tôi cải thiện bản đồ bằng cách chạy lại với các điều chỉnh, cho đến khi đạt yêu cầu độ chính xác.

Hậu xử lý

Các bản đồ độ phân giải 10 m được hậu xử lý để:

  • Chuyển đổi sang hệ tọa độ địa lý (ESPG:4326) với pixel 10 m x 10 m tại trung tâm quốc gia

  • Loại bỏ các mảng “rừng” nhỏ hơn 50 pixel liên kết (theo quy tắc Rook’s Case), phù hợp với yêu cầu EUDR tối thiểu 0,5 ha

  • Chuyển đổi thành bản đồ rừng/không rừng, phân loại pixel thành ‘edge’, ‘near-edge’, ‘core’ (theo Queen’s Case)

  • Với thời điểm gần nhất, các mảng rừng mới được mã hóa riêng và theo dõi

  • Xác định các pixel mất rừng theo EUDR và phân loại theo vị trí trước đó

Quy trình đánh giá độ chính xác

Việc hiểu hiệu suất (“độ chính xác”) của sản phẩm lớp phủ đất là rất quan trọng để xác định liệu bản đồ có phù hợp với mục đích sử dụng hay không. Chúng tôi đặc biệt coi trọng điều này tại Space Intelligence và đánh giá độ chính xác cũng như mức độ không chắc chắn theo phương pháp thống kê chặt chẽ, tuân theo thực hành tốt trong tài liệu khoa học và tiêu chuẩn quốc tế.

Tóm tắt

Độ chính xác là một khái niệm có nhiều sắc thái, và chúng tôi là chuyên gia trong việc xử lý những sắc thái đó.

Chúng tôi tin rằng một con số duy nhất không phải là cách đánh giá chính xác về độ chính xác, và một phân tích chi tiết hơn là cách duy nhất để thực sự đánh giá chỉ số này.

Chúng tôi đảm bảo các bản đồ của mình đáp ứng nhu cầu và kỳ vọng của các đối tác, đồng thời cung cấp đầy đủ thông tin về hiệu suất của chúng cũng như tỷ lệ dự kiến của các sai số và bất định không thể tránh khỏi.

Tổng quan về các phương pháp đánh giá độ chính xác

Độ chính xác có thể được kiểm tra theo nhiều cách khác nhau, nhưng cách tiếp cận duy nhất cung cấp đánh giá có ý nghĩa về độ chính xác của một pixel ngẫu nhiên trong bản đồ đầu ra là cách tiếp cận 4. Đây là cách tiếp cận được Verra sử dụng trong Phương pháp REDD+ Hợp nhất mới (VM0048) và được khuyến nghị theo hướng dẫn thực hành tốt (1–3), nhưng không phải lúc nào cũng được các công ty tuân theo khi muốn thể hiện các chỉ số độ chính xác cao. Xem trang 4 để biết đánh giá chi tiết hơn cho từng phương pháp.

  1. So sánh dữ liệu huấn luyện đầu vào (thường là các đa giác được vẽ thủ công với các lớp như ‘rừng’ hoặc ‘không phải rừng’) với bản đồ đầu ra.

  2. So sánh tương tự giữa bản đồ đầu ra với các đa giác, nhưng sử dụng các đa giác được tạo độc lập không dùng để huấn luyện bản đồ. Thông thường đơn vị được sử dụng là tỷ lệ các pixel được phân loại đúng (‘độ chính xác tổng thể’), trong đó đơn vị đánh giá là từng pixel riêng lẻ, không phải toàn bộ đa giác.

  3. Sử dụng dữ liệu thu thập tại thực địa (dữ liệu hiện trường).

  4. Đánh giá độc lập trên một tập hợp các điểm riêng lẻ, được phân bố trên toàn bộ bản đồ đầu ra bằng một phương pháp lấy mẫu hợp lệ về mặt thống kê (thường là lưới hoặc mẫu ngẫu nhiên phân tầng).

Tài liệu tham khảo:

1Olofsson, P., và cộng sự 2014. Thực hành tốt để ước tính diện tích và đánh giá độ chính xác của việc thay đổi đất. Viễn thám môi trường.

2Ủy ban quốc tế về biến đổi khí hậu (IPCC). 2003. Hướng dẫn thực hành tốt về sử dụng đất, chuyển đổi sử dụng đất và lâm nghiệp.

3GFOI. 2020. Phương pháp và Hướng dẫn từ Sáng kiến Quan sát Rừng Toàn cầu (MGD). Phiên bản 3.0.

Tại sao một con số duy nhất không nói lên toàn bộ câu chuyện

Điều quan trọng là phải nói rằng việc sử dụng một chỉ số duy nhất (chẳng hạn như độ chính xác tổng thể) không phải là cách đáng tin cậy để mô tả độ chính xác của bản đồ.

Một cách dễ hiểu và minh bạch hơn nhiều là sử dụng ma trận lỗi hiển thị độ chính xác của hoa hồng và thiếu sót cho mỗi lớp (về cơ bản đánh giá xem bản đồ dự đoán quá cao hay thiếu các lớp nhất định). Ví dụ, trong một khu vực có tỷ lệ phá rừng là 1%, báo cáo không có nạn phá rừng sẽ cho độ chính xác tổng thể là 99% trong khi hoàn toàn không phù hợp với mục đích. Tốt hơn nên báo cáo trong trường hợp này rằng bản đồ có độ chính xác 100% đối với rừng không thay đổi và độ chính xác 0% đối với nạn phá rừng: và do đó rõ ràng là không phù hợp.


Độ chính xác của chúng tôi trong bối cảnh EUDR là gì?

Đối với EUDR, trọng tâm là tách rừng tự nhiên khỏi tất cả các loại đất che phủ khác (phải bao gồm các lớp có cây, chẳng hạn như cacao). Điều này cho phép đánh giá độ chính xác có thể xảy ra của một đánh giá rằng một đa giác cụ thể vào năm 2020, tại thời điểm đó là rừng tự nhiên hoặc đã không phải là rừng.

Tại Space Intelligence, chúng tôi tin rằng việc đánh giá độc lập các điểm bị cô lập theo các phương pháp hay nhất là cách tốt nhất để đánh giá độ chính xác của bản đồ rừng/phi rừng (cách tiếp cận 4 đã lưu ý trước đây). Điều này được thực hiện bởi các nhà sinh thái học và nhà khoa học dữ liệu có tay nghề cao của chúng tôi đánh giá hàng trăm điểm 'mù', theo sơ đồ lấy mẫu hợp lệ về mặt thống kê, sử dụng hình ảnh vệ tinh hoặc trên không có độ phân giải cao, bao gồm bất kỳ dữ liệu hiện có nào khác từ các đối tác địa phương. Để phù hợp với cách sử dụng bản đồ của chúng tôi để thử nghiệm trong ICE CoT, với các điểm ảnh 'rừng lõi' hơi tách biệt với rìa đang được xem xét, các điểm rất gần rìa của các mảng rừng sẽ bị loại trừ khỏi việc xem xét.

Mục tiêu của chúng tôi là vượt mức độ chính xác lỗi thêm (commission) và lỗi bỏ sót (omission) trên 90% cho cả hai lớp rừng và không phải rừng, với độ chính xác tổng thể (Overall Accuracy) trên 95%.

Thường thì chúng ta sẽ vượt quá mức này đáng kể, nhưng nó phụ thuộc vào thảm thực vật

các loại và độ phức tạp của cảnh quan. Ví dụ, trong phong cảnh Brazil

Với các khối rừng nhiệt đới lớn và cánh đồng đậu nành lớn, với quy mô giải phóng mặt bằng trung bình kéo dài hàng chục ha, chúng tôi mong đợi độ chính xác tổng thể trên 99%. Nhưng trong một bối cảnh phức tạp với các nông hộ nhỏ, các mảng phá rừng nhỏ (<1 ha) và các loại cây trồng có chứa cây (ví dụ như cacao), mức độ chính xác như vậy là không thể đạt được và nên được xem xét với sự nghi ngờ.

Sử dụng các phương pháp tiên tiến của chúng tôi (kết hợp nhiều loại dữ liệu vệ tinh) và

Kiến thức địa phương, độ chính xác của hoa hồng và thiếu sót trên 90% có thể thực hiện được ngay cả trong những cảnh quan phức tạp này.

Các thử nghiệm mà ICE CoT thực hiện trên bản đồ của chúng tôi dựa trên độ chính xác của bản đồ của chúng tôi và sự hiểu biết rằng các lỗi trong bản đồ tập trung đặc biệt ở rìa rừng và các khu vực phá rừng, và độ chính xác có thể có của các đơn vị GPS hiện trường được sử dụng để lập bản đồ ranh giới thực địa.


Nghiên cứu điển hình: Bản đồ quốc gia Campuchia

Campuchia là một cảnh quan có tỷ lệ phá rừng cao, với hầu hết việc phá rừng ở quy mô nhỏ đối với nhiều loại cây trồng bao gồm các loại cây trồng như dầu cọ, cao su và trầu cau. Rừng là một hỗn hợp phức tạp của khô, ẩm và ướt, bao gồm các khu vực đầm lầy và rừng ngập mặn.

Là một nghiên cứu điển hình, chúng tôi tóm tắt kết quả dưới đây của bản đồ che phủ đất năm 2020 mà Space Intelligence đã thực hiện như một phần của bộ bản đồ nghiên cứu động lực che phủ đất của đất nước trong hơn 13 năm. Các bản đồ cho thấy độ chính xác cao và rất ít nhầm lẫn giữa rừng và phi rừng, với việc chúng tôi đã loại trừ thành công các đồn điền gỗ, cây trồng và đồn điền cao su khỏi lớp rừng, như cần thiết cho đánh giá EUDR.

Bảng 1: Độ chính xác theo chủ đề cho đường cơ sở rừng Campuchia của Space Intelligence cho năm 2023 được đánh giá độc lập bằng cách sử dụng thiết kế lấy mẫu xác suất, cho thấy độ chính xác tổng thể cao nhưng cũng có mức độ nhầm lẫn thấp giữa các lớp. Tất cả các giá trị bao gồm khoảng tin cậy thứ 95.

Hình 1: Một tập hợp con của đường cơ sở rừng Campuchia của tình báo không gian, cho thấy rừng màu xanh lá cây, không rừng màu đen và nước màu xanh. Chấm đỏ là một số trong số hàng nghìn điểm đánh giá độ chính xác ngẫu nhiên được sử dụng để đánh giá độ chính xác của bản đồ.


Phụ lục: Đánh giá các phương pháp tiếp cận độ chính xác

Độ chính xác có thể được kiểm tra theo một số cách nhưng cách tiếp cận duy nhất đưa ra đánh giá có ý nghĩa về độ chính xác của một pixel ngẫu nhiên trong bản đồ đầu ra là cách tiếp cận 4. Đây là cách tiếp cận được Verra sử dụng trong Phương pháp REDD+ Hợp nhất mới (VM0048) và được khuyến nghị bởi tốt

thực hành hướng dẫn1-3, nhưng không phải lúc nào cũng được các công ty muốn diễu hành số liệu thống kê có độ chính xác cao tuân theo.

Cách tiếp cận 1: So sánh dữ liệu đào tạo đầu vào (thường là đa giác được vẽ bằng mắt với các lớp như 'rừng' hoặc 'phi rừng') so với bản đồ đầu ra. Thông thường đơn vị được sử dụng là tỷ lệ pixel được phân loại chính xác ('độ chính xác tổng thể'), với các pixel riêng lẻ là đơn vị đánh giá, không phải toàn bộ đa giác.

Đánh giá: Mặc dù phổ biến, nhưng phương pháp này không phù hợp về mặt khoa học vì không có sự độc lập giữa bộ dữ liệu thử nghiệm và đào tạo.

Một vấn đề nữa là việc sử dụng pixel chứ không phải đa giác làm cơ sở để so sánh. Các pixel lân cận (ví dụ: tất cả các pixel tạo nên một trường được dọn sạch trong rừng) được coi là các mẫu độc lập, trong khi trên thực tế chúng là hàng xóm và chia sẻ nhiều đặc điểm hơn hai pixel ngẫu nhiên trong bản đồ đầu ra.

Vì cả hai lý do này, nó chắc chắn sẽ phóng đại độ chính xác.

Cách tiếp cận 2: So sánh tương tự bản đồ đầu ra với đa giác, nhưng sử dụng đa giác được tạo độc lập không được sử dụng để đào tạo bản đồ. Thông thường đơn vị được sử dụng là tỷ lệ pixel được phân loại chính xác ('độ chính xác tổng thể'), với các pixel riêng lẻ là đơn vị đánh giá, không phải toàn bộ đa giác.

Đánh giá: Điều này chia sẻ vấn đề ở trên về việc sử dụng các pixel lân cận không độc lập là độc lập, phóng đại độ chính xác

Cách tiếp cận 3: Sử dụng dữ liệu thu thập tại chỗ (dữ liệu hiện trường).

Dữ liệu hiện trường thường được đề xuất là 'tiêu chuẩn vàng' của dữ liệu xác thực và được giả định có độ chính xác cao hơn các nguồn dữ liệu khác.

Đánh giá: Tuy nhiên, do khả năng tiếp cận và chi phí cao hơn so với việc giải thích dữ liệu viễn thám có độ phân giải cao, kích thước mẫu nhỏ và tỷ lệ khu vực hẹp có sẵn để lấy mẫu có nghĩa là kết quả của nó không thể được ngoại suy một cách đáng tin cậy cho các khu vực rộng lớn.

Nó cũng có xu hướng thiên vị về không gian, đây có thể là một vấn đề khi đánh giá các sản phẩm che phủ đất, vì các khu vực tiếp cận thường bị xáo trộn nhiều hơn.

Cách tiếp cận 4: Đánh giá độc lập của một tập hợp các điểm cô lập, được đặt trên toàn bộ bản đồ đầu ra bằng cách sử dụng phương pháp lấy mẫu hợp lệ về mặt thống kê (thường là lưới hoặc mẫu ngẫu nhiên phân tầng).

Đánh giá: cách tiếp cận này cung cấp đánh giá đáng tin cậy về độ chính xác của các lớp bản đồ khác nhau và khoảng tin cậy của đánh giá đó. Nhiều điểm có thể được thêm vào theo cách hợp lệ về mặt thống kê cho đến khi khoảng tin cậy trong đánh giá độ chính xác đủ hẹp để đáp ứng các yêu cầu.

Tài liệu tham khảo:

1Olofsson, P., và cộng sự 2014. Thực hành tốt để ước tính diện tích và đánh giá độ chính xác của việc thay đổi đất. Viễn thám môi trường.

2Ủy ban quốc tế về biến đổi khí hậu (IPCC). 2003. Hướng dẫn thực hành tốt về sử dụng đất, chuyển đổi sử dụng đất và lâm nghiệp.

3GFOI. 2020. Phương pháp và Hướng dẫn từ Sáng kiến Quan sát Rừng Toàn cầu (MGD). Phiên bản 3.0.

Nội dung này có giải đáp được câu hỏi của bạn không?