การค้นหาเปอร์เซ็นต์ของ 'NAN' (ไม่ใช่ตัวเลข) ในชุดข้อมูลเป็นขั้นตอนสำคัญในการประมวลผลข้อมูลและการวิเคราะห์ล่วงหน้า ในฐานะซัพพลายเออร์ของผลิตภัณฑ์คุณภาพสูงที่เกี่ยวข้องกับอุปกรณ์เครือข่ายรวมถึงXPON 1GE 1GE 1GE VOIP CAVT WIFI44-XPON ONU 1GE 3FE VOIP WIFI4, และXPON ONU 4GE WIFI5 AC1200ฉันเข้าใจถึงความสำคัญของการจัดการข้อมูลที่ถูกต้องในสาขาต่าง ๆ ในบล็อกนี้ฉันจะแบ่งปันวิธีการปฏิบัติบางอย่างเพื่อคำนวณเปอร์เซ็นต์ของค่า 'NAN' ในชุดข้อมูล
ทำความเข้าใจถึงความสำคัญของค่า 'น่าน'
ก่อนที่จะดำน้ำในวิธีการคำนวณสิ่งสำคัญคือต้องเข้าใจว่าทำไมค่า 'น่าน' จึงมีความสำคัญ ในการวิเคราะห์ข้อมูลค่า 'NAN' สามารถแสดงข้อมูลที่ขาดหายไปข้อผิดพลาดในการรวบรวมข้อมูลหรือค่าที่ไม่สามารถใช้ได้ การเพิกเฉยต่อค่าเหล่านี้สามารถนำไปสู่ผลลัพธ์ทางสถิติที่ไม่ถูกต้องแบบจำลองลำเอียงและการคาดการณ์ที่ไม่น่าเชื่อถือ ตัวอย่างเช่นในชุดข้อมูลการขายค่า 'NAN' อาจบ่งบอกถึงตัวเลขการขายที่ขาดหายไปสำหรับผลิตภัณฑ์หรือช่วงเวลาบางอย่าง หากค่าเหล่านี้ไม่ได้รับการพิจารณาอย่างเหมาะสมการวิเคราะห์การขายโดยรวมอาจทำให้เข้าใจผิด
ข้อกำหนดเบื้องต้น
ในการคำนวณเปอร์เซ็นต์ของค่า 'NAN' คุณจะต้องมีชุดข้อมูลและภาษาการเขียนโปรแกรมที่มีความสามารถในการจัดการข้อมูล Python เป็นตัวเลือกยอดนิยมเนื่องจากห้องสมุดที่กว้างขวางเช่น Pandas และ Numpy นี่คือขั้นตอน - BY - ขั้นตอนคู่มือเกี่ยวกับวิธีการคำนวณนี้โดยใช้ Python
ขั้นตอนที่ 1: นำเข้าห้องสมุดที่จำเป็น
ก่อนอื่นคุณต้องนำเข้าห้องสมุด Pandas และ Numpy Pandas ใช้สำหรับการจัดการและการวิเคราะห์ข้อมูลในขณะที่ NUMPY ให้การสนับสนุนสำหรับอาร์เรย์ขนาดใหญ่หลายมิติและเมทริกซ์
นำเข้าแพนด้าเป็น PD นำเข้า numpy เป็น NP
ขั้นตอนที่ 2: โหลดชุดข้อมูล
สมมติว่าคุณมีชุดข้อมูลในไฟล์ CSV คุณสามารถโหลดได้โดยใช้ไฟล์read_csvฟังก์ชั่นในแพนด้า
data = pd.read_csv ('your_dataset.csv')
ขั้นตอนที่ 3: คำนวณจำนวนทั้งหมดของค่าในชุดข้อมูล
ในการคำนวณเปอร์เซ็นต์ของค่า 'NAN' คุณต้องทราบจำนวนค่าทั้งหมดในชุดข้อมูล คุณสามารถใช้ไฟล์ขนาดแอตทริบิวต์ของ dataframe


total_values = data.size
ขั้นตอนที่ 4: คำนวณจำนวนค่า 'น่าน'
Pandas เป็นวิธีที่สะดวกในการนับจำนวนค่า 'NAN' ใน DataFrame คุณสามารถใช้ไฟล์เขา ()วิธีการสร้างหน้ากากบูลีนจากนั้นสรุปทั้งหมดจริงค่า.
nan_values = data.isna () sum () sum ()
ขั้นตอนที่ 5: คำนวณเปอร์เซ็นต์ของค่า 'Nan'
ตอนนี้คุณมีจำนวนทั้งหมดของค่าและจำนวนของค่า 'NAN' คุณสามารถคำนวณเปอร์เซ็นต์ได้
เปอร์เซ็นต์ _nan = (nan_values / total_values) * 100 print (f "เปอร์เซ็นต์ของค่า 'nan' ในชุดข้อมูลคือ {percentage_nan}%")
การจัดการโครงสร้างข้อมูลที่แตกต่างกัน
วิธีการข้างต้นทำงานได้ดีสำหรับข้อมูลตารางใน pandas dataframe อย่างไรก็ตามหากคุณทำงานกับอาร์เรย์ Numpy กระบวนการจะแตกต่างกันเล็กน้อย
นำเข้า numpy เป็น np # สร้างตัวอย่างอาร์เรย์ numpy อาร์เรย์ = np.array ([1, np.nan, 3, np.nan, 5]) # คำนวณจำนวนทั้งหมดขององค์ประกอบทั้งหมดทั้งหมด = array.size # คำนวณจำนวนของ 'Nan' = (nan_elements / total_elements) * 100 print (f "เปอร์เซ็นต์ของค่า 'nan' ในอาร์เรย์ numpy คือ {เปอร์เซ็นต์ _nan_array}%")
แสดงภาพค่า 'Nan'
การสร้างภาพข้อมูลสามารถให้ความเข้าใจที่ดีขึ้นเกี่ยวกับการกระจายของค่า 'NAN' ในชุดข้อมูล คุณสามารถใช้ห้องสมุดเช่น Matplotlib หรือ Seoborn เพื่อสร้างความร้อนหรือแผนภูมิแท่ง
นำเข้า Seborn as SNS นำเข้า matplotlib.pyplot เป็น plt # สร้างความร้อนของ 'nan' ค่า sns.heatmap (data.isna (), cbar = false) plt.title ('การกระจายของค่า NAN') plt.show ()
การจัดการกับเปอร์เซ็นต์ของค่า 'น่าน' ที่สูง
หากเปอร์เซ็นต์ของค่า 'Nan' สูงคุณต้องตัดสินใจว่าจะจัดการอย่างไร กลยุทธ์ทั่วไปบางอย่าง ได้แก่ :
- การลบแถวหรือคอลัมน์: หากแถวหรือคอลัมน์มีค่า 'Nan' จำนวนมากคุณสามารถพิจารณาลบออกได้ อย่างไรก็ตามวิธีการนี้อาจนำไปสู่การสูญเสียข้อมูลที่มีค่า
- การใส่: คุณสามารถเติมค่า 'nan' ด้วยค่าที่เหมาะสมเช่นค่าเฉลี่ย, ค่ามัธยฐานหรือโหมดของค่าที่ไม่ใช่ - 'nan' ในคอลัมน์เดียวกัน
# ค่า 'nan' impute ด้วย data.fillna (data.mean (), inplace = true)
บทสรุป
การคำนวณเปอร์เซ็นต์ของค่า 'NAN' ในชุดข้อมูลเป็นขั้นตอนสำคัญในการวิเคราะห์ข้อมูล ช่วยให้คุณเข้าใจคุณภาพของข้อมูลของคุณและตัดสินใจว่าจะจัดการกับค่าที่ขาดหายไปได้อย่างไร ในฐานะซัพพลายเออร์ของอุปกรณ์เครือข่ายเช่นXPON 1GE 1GE 1GE VOIP CAVT WIFI44-XPON ONU 1GE 3FE VOIP WIFI4, และXPON ONU 4GE WIFI5 AC1200เราเข้าใจถึงความสำคัญของข้อมูลที่ถูกต้องในการเพิ่มประสิทธิภาพของเครือข่ายและการตัดสินใจทางธุรกิจที่มีข้อมูล
หากคุณสนใจในผลิตภัณฑ์ของเราหรือมีคำถามใด ๆ เกี่ยวกับการวิเคราะห์ข้อมูลในบริบทของการจัดการเครือข่ายอย่าลังเลที่จะติดต่อเราสำหรับการจัดซื้อจัดจ้างและการอภิปรายเพิ่มเติม เราอยู่ที่นี่เพื่อให้คุณมีโซลูชั่นที่ดีที่สุดสำหรับความต้องการของคุณ
การอ้างอิง
- McKinney, W. (2017) Python สำหรับการวิเคราะห์ข้อมูล: การถกเถียงเรื่องข้อมูลด้วยแพนด้า, numpy และ ipython O'Reilly Media
- Vanderplas, J. (2016) คู่มือวิทยาศาสตร์ข้อมูล Python: เครื่องมือสำคัญสำหรับการทำงานกับข้อมูล O'Reilly Media
