본문 바로가기
파이썬/파이썬

[ 파이썬 ] 데이터 프레임 비교(최신 정보만 추출하기)

by jeong-f 2022. 1. 7.
반응형

데이터를 크롤링하는 과정에서 새로운 데이터를 검색한 후 변경사항을 저장해야 하는 경우가 있습니다.
데이터 프레임으로 보통 데이터를 가져와서 작업을 하는데 최신의 데이터를 기준(아래 df_2)으로 변경사항만 파일로 저장하거나 알람 등으로 알리고자 한다면 불필요한 항목을 제거한 후 처리를 해야 합니다.

순서

  1. 데이터 프레임 1 생성
  2. 데이터 프레임 2 생성
  3. 비교를 위해 1,2 프레임 합치기
  4. 오른쪽에만 있는 데이터 추출

소스 코드

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
import pandas as pd
 
df_1 = pd.DataFrame(
    {"co11": ['가''나''다','라'],
     "co12": [1234],
     "co13": [1234],
     "co14": [1234]},index=['row1','row2','row3','row4'])
 
print(df_1)
 
df_2 = pd.DataFrame(
    {"co11": ['가''나''다','라''마'],
     "co12": [12348],
     "co13": [12345],
     "co14": [12345]},index=['row1','row2','row3','row4','row5'])
 
print(df_2)
 
merge = pd.merge(df_1,df_2,indicator=True, how='outer')
print(merge)
differnece = merge[merge['_merge']=='right_only']
print(differnece)
cs

 

반응형

댓글