분류 전체보기 24

[Do it! Pandas] 4. matplotlib 라이브러리를 이용한 다양한 그래프 그리기

데이터를 분석할 때 적절한 그래프를 그리는 것은 매우 중요하다. 데이터들간의 상관간계가 명확하지 않을 때 데이터를 시각화하는 것은 좋은 방법이다. seaborn 라이브러리에 속한 anscombe 데이터집합은 4개의 데이터타입 모두 같은 수칫갑이나 상관관계, 회귀선을 가진다. 그렇기 떄문에 데이터의 시각화를 통해 다른 데이터임을 확인하는 대표적인 사례이다. 다음을 살펴보자. import seaborn as sns anscombe = sns.load_dataset("anscombe") print(anscombe.head(), '\n') print(type(anscombe)) dataset x y 0 I 10.0 8.04 1 I 8.0 6.95 2 I 13.0 7.58 3 I 9.0 8.81 4 I 11.0 ..

Pandas 2023.02.10

[Do it! Pandas] 데이터프레임과 시리즈, 브로드캐스팅

지난 글에는 데이터프레임과 시리즈의 기본적인 것들에 대해 알아보았다. 이번 글은 좀 더 다양한 방법으로 이들을 다뤄보고자 한다. 데이터프레임과 시리즈는 판다스의 내부함수인 pd.Series를 통해 간단하게 구현이 가능하다. s = pd.Series(['모범택시', '아바타'], ['drama', 'movie']) # 2번째 list가 index number의 자리에 들어간다. print(s) drama 모범택시 movie 아바타 dtype: object 이와 같이 index number의 자리에 원하는 이름을 붙여주는 것이 가능하다. 데이터프레임도 간단하게 만들 수 있다. scientists = pd.DataFrame({ # 여기서는 index나 columns를 따로 지정해주지 않고 data만 입력하기 ..

Pandas 2023.02.09

[Do it! Pandas] 데이터프레임과 시리즈, 간단한 그래프 그리기

판다스에서 데이터프레임과 시리즈는 판다스를 효율적으로 사용하게 해주는 자료형이다. 데이터프레임(DataFrame)은 엑셀에서의 시트와 동일한 개념이며 시리즈(Series)는 시트의 열 1개를 의미한다. 데이터를 가져와 살펴보자. import pandas as pd df = pd.read_csv('../data/gapminder.tsv', sep='\t') print(df.head(), '\n') print(type(df), '\n') print(df.shape, '\n') print(df.columns, '\n') # 판다스에서는 object가 string! print(df.info()) pandas의 read_csv메서드는 데이터 집합을 읽어들어와 데이터프레임으로 전환해준다. gapminder라는 파일..

Pandas 2023.02.08

[Python] 리스트에 대해 알아보자

안녕하세요! 전에 공부했던 Python의 내용들이 다 날아가기 전에 차례대로 복습하려고 합니다. 그 첫번째로 리스트에 대해 알아보자. 리스트를 알아보기 전에, 간단하게 Python에 대해 얘기해보자. 프로그래밍 언어에는 기계여, 어셈블리 언어, 고수준 언어, 인터프리터가 있다. 이 중에 Python은 인터프리터에 해당하며 소스 프로그램 한 줄씩 기계어로 바로 해석되어 실행된다. Python을 동작하는 IDE(Integrated Development Environment), 즉 통합개발환경에는 X code, Visual Studio, Code::Blocks 등이 있다. 저는 Python을 배울 때 웹브라우저에서 Python 코드를 작성하고 실행시킬 수 있는 Jupyter Notebook(J.N이라고 하자)..

Python 2022.03.29