In [1]:
import pandas as pd
In [2]:
df = pd.read_csv("./data/gapminder.tsv", sep="\t")
데이터 확인하기¶
In [3]:
print(df.head()) # 앞부분
print("\n{}".format(type(df)))
print("\n{}".format(df.shape)) # shape
print("\n{}".format(df.columns)) # shape
print("\n{}\n".format(df.dtypes)) # columns type
print("{}".format(df.info())) # info
데이터 추출¶
In [4]:
## columns 1개 추출
country_df = df["country"]
print(type(country_df))
print(country_df.head())
print("\n==============================\n")
print(country_df.tail())
In [5]:
subset = df[["country", "continent", "year"]]
print(subset.dtypes) ## type
print("\n==============================\n")
print(subset.head()) ## head
print("\n==============================\n")
print(subset.tail()) ## tail
In [6]:
## 인덱스가 0, 99인 데이터 추출
print(df.loc[0])
print("\n==============================\n")
print(df.loc[99])
In [7]:
## 마지막 데이터 추출, shape()이용
### shape는 정수로서 실제크기를 말하지만
### pandas의 인덱스는 0부터 시작하기때문에 1을 빼줘야함
last_row = df.shape[0]-1
print(df.loc[last_row])
print("\n==============================\n")
## 마지막 데이터 추출, tail()이용
### n 인자 사용
print(df.tail(n=1))
In [8]:
### 인덱스가 0, 99, 999인 데이터를 추출
### list사용
print(df.loc[[0, 99, 999]])
In [9]:
print(df.iloc[1])
print("\n==============================\n")
print(df.iloc[99])
In [10]:
### iloc에 -1은 행 데이터를 추출
print(df.iloc[-1])
print(df.iloc[1710])
In [11]:
print(df.iloc[[0, 99, 999]])
In [12]:
### : -- 모든행
subset = df.loc[:, ["year", "pop"]]
print(subset.head())
subset = df.iloc[:, [2, 4, -1]]
print(subset.head())
In [13]:
small_range = range(5) ##
subset = df.iloc[:, small_range]
print(subset.head())
print("\n==============================\n")
range2 = list(range(3, 6))
subset = df.iloc[:, range2]
print(subset.head())
In [14]:
range3 = list(range(0, 6, 2))
subset = df.iloc[:, range3]
print(subset.head())
print("\n==============================\n")
subset = df.iloc[:, 0:6:2]
print(subset.head())
In [15]:
### loc, iloc, 데이터셋이 클 수록 loc 속성이 유리
print(df.iloc[[0, 99, 999], [0, 3, 5]])
print(df.loc[[0, 99, 999], ["country", "lifeExp", "gdpPercap"]])
In [16]:
from IPython.core.display import display, HTML
display(HTML("<style> .container{width:100% !important;}</style>"))
'pandas > basic' 카테고리의 다른 글
06.handling_dataframe(bool) (0) | 2018.12.09 |
---|---|
05.handling_series(apply) (0) | 2018.12.09 |
04.handling_series(basic) (0) | 2018.12.09 |
03.create_data_frame (0) | 2018.12.09 |
02.basic_statistic (0) | 2018.12.09 |