2021.08.26 EXCELPythonTableauTech Blogちゅらいと　

Excel ファイルをPythonで読み込んで整理されたデータフレームにする

1 はじめに
2 pandasを使ったExcel ファイルの参照方法
3 Excelシートをデータフレームとして読み込む
4 pandasのメソッドによる整形
5 横持ちデータの縦持ちへの変換
6 これらの処理を全てのシートに対して行い一つのデータフレームに結合する
7 やっぱり自分で確認することが大事
8 csvファイルとして出力
9 他に使えそうなメソッド

はじめに

公的機関が出しているパブリックデータは、Excelファイル（xls, xlsx）が含まれていることが多く、このようなデータを使って分析をする機会もあることと思います。この記事では、そのようなExcelブック形式でまとめられているデータをPythonで読み込み、余計な行や列を取り除いたり成形して、pandasのデータフレームとして扱いやすくする方法についてまとめたいと思います。以下のpandasのドキュメントを参考にしています。

pandas.ExcelFile.parse
https://pandas.pydata.org/docs/reference/api/pandas.ExcelFile.parse.html

pandasを使ったExcel ファイルの参照方法

今回は、Excel形式のファイル（xls, xlsx）をPythonで読み込むやり方として、ライブラリとしてpandasを呼び出して ExcelFile メソッドを用いる方法を紹介します。(pandasではread_excelも同じ用途で活用できます。こちらのpandasドキュメントを参考資料として紹介します)

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html

Pandasでは以下の様に読み込みたいExcel形式のファイル名を引数として指定すれば、ExcelfileオブジェクトとしてPythonから参照することができるようになります。

import pandas as pd
input_book = pd.ExcelFile('読み込むファイル名')

この参照したExcelfileオブジェクトに対して、読み込みたいシート名を指定してデータフレームとして読み込んだり、それぞれのシート名を取得することもできます。ここでは、日本政府観光局(JNTO)のHPで公開されている以下のExcelファイルを例に取って、 Excelブック内の各シートをデータフレームとして読み込み、そのデータフレームの行と列を整理して分析しやすい形に整理する方法を見ていきます。

国籍/月別訪日外客数(2003年～2021年)（ファイル名：since2003_visitor_arrivals.xlsx）
https://www.jnto.go.jp/jpn/statistics/visitor_trends/

このデータは一つのExcelブック内にシートが複数あり、シート毎にデータ構成が異なっていたりするなど、分析をしていく場合、そのままでは扱いにくいデータになっています。

以下では「since2003_visitor_arrivals.xlsx」(ファイルの保存場所はカレントディレクトリを想定しています)をpandasのExcelFileメソッドで参照し、そのブック内にあるシートの名称をsheet_namesメソッドでリストとして取得しています。

#pandasを読み込む
import pandas as pd
#input file name
input_file_name = 'since2003_visitor_arrivals.xlsx'
#xls book Open (xls, xlsxのどちらでも可能)
input_book = pd.ExcelFile(input_file_name)
#sheet_namesメソッドでExcelブック内の各シートの名前をリストで取得できる
input_sheet_name = input_book.sheet_names
#lenでシートの総数を確認
num_sheet = len(input_sheet_name)
#シートの数とシートの名前のリストの表示
print ("Sheet の数:", num_sheet)
print (input_sheet_name)

Sheet の数: 19
['2021', '2020', '2019', '2018', '2017', '2016', '2015', '2014', '2013', '2012', '2011', '2010', '2009', '2008', '2007', '2006', '2005', '2004', '2003']

Excelシートをデータフレームとして読み込む

参照したExcelfileオブジェクトから、それぞれのシートをデータフレームとして取得するには parse メソッドを使います。読み込むシートの指定は、そのシートの名前を引数として入力することで行います。

試しに「since2003_visitor_arrivals.xlsx」の3つ目のシート「2019」を選んでデータフレームとして読み込んでみます。ファイルのシートは全部で19枚あり、先程シート名を格納したリスト input_sheet_name で0番から18番までのリストのインデックスが「2021」年から「2003」年までの各年度のシートにインデックスとして割り振られます。そのためシート「2019」のインデックスは input_sheet_name にて「2」で指定します。

#DataFrameとしてsheet1枚のデータ(2019)を読込み
input_sheet_df = input_book.parse(input_sheet_name[2])

その中身を確認してみると以下の様になります。見ての通り読み込むだけでは、余分な行や列に大量のNaNが入っており、各行や列の内容も（ある程度規則性はありますが）バラバラです。このデータフレームから、全て欠損値NaNとなっている要素のある行や、伸率や国別累計の列を取り除き、月ごとの訪日者数のデータだけに整理していきます。

#読み込んだシート名の確認
print("Sheet name:", input_sheet_name[2])
#読み込んだシートの先頭10行を表示
input_sheet_df.head(10)

Sheet name: 2019

	2019年訪日外客数（総数）	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6	Unnamed: 7	Unnamed: 8	Unnamed: 9	…	Unnamed: 17	Unnamed: 18	Unnamed: 19	Unnamed: 20	Unnamed: 21	Unnamed: 22	Unnamed: 23	Unnamed: 24	Unnamed: 25	出典：日本政府観光局（JNTO)
0	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	…	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1	＊本表で、通年の月別・市場別の推移が確認できます。伸率は前年同月比を表しています。	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	…	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	単位：人数（人）、伸率（％）
2	NaN	1月	伸率	2月	伸率	3月	伸率	4月	伸率	5月	…	9月	伸率	10月	伸率	11月	伸率	12月	伸率	累計	伸率
3	総数	2689339	7.51297	2604322	3.78692	2760136	5.83522	2926685	0.895192	2773091	…	2272883	5.2458	2496568	-5.45488	2441274	-0.386698	2526387	-4.00448	31882049	2.21273
4	アジア計	2366944	7.22851	2323258	3.38397	2287450	5.26783	2369734	-2.52024	2344872	…	1827278	0.563721	1959436	-10.5692	2016676	-3.72979	2121351	-7.18901	26819278	0.229315
5	韓国	779383	-3.03963	715804	1.05687	585586	-5.42801	566624	-11.2602	603394	…	201252	-58.0492	197281	-65.4606	205042	-65.1415	247959	-63.6192	5584597	-25.9234
6	中国	754421	19.313	723617	1.01685	691279	16.197	726132	6.25643	756365	…	819054	25.4794	730631	2.14972	750951	21.6604	710234	18.5529	9594394	14.4911
7	台湾	387498	10.5488	399829	-0.256699	402433	3.89711	403467	-14.1636	426537	…	376186	14.2929	413701	8.97393	392102	11.4227	348269	3.71631	4890602	2.80296
8	香港	154292	-3.87989	179324	0.471756	171430	-12.3797	194806	8.26766	189007	…	155927	23.5809	180562	6.54323	199702	19.4504	249642	19.187	2290792	3.75885
9	タイ	92649	12.1767	107845	31.491	147443	26.8731	164817	10.8781	107857	…	62057	14.0293	145333	23.2168	140265	36.2974	164936	28.5509	1318977	16.5009

#読み込んだシートの最後の5行を表示 
input_sheet_df.tail(5)

	2019年訪日外客数（総数）	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6	Unnamed: 7	Unnamed: 8	Unnamed: 9	…	Unnamed: 17	Unnamed: 18	Unnamed: 19	Unnamed: 20	Unnamed: 21	Unnamed: 22	Unnamed: 23	Unnamed: 24	Unnamed: 25	出典：日本政府観光局（JNTO)
51	ニュージーランド	7920	16.4021	5068	0	5393	-4.41333	9010	17.0738	6222	…	11331	62.4516	15683	106.464	7003	31.7592	9554	25.8762	94115	28.5584
52	その他オセアニア	493	8.83002	239	-0.416667	419	21.0983	338	-8.15217	433	…	913	117.381	709	52.1459	504	18.5882	450	43.77	5832	19.5327
53	無国籍・その他	45	-27.4194	48	26.3158	60	-20	67	-5.6338	66	…	51	13.3333	74	21.3115	55	-3.50877	67	26.4151	728	8.17236
54	注１：　本資料を引用される際は、出典名を「日本政府観光局（ＪＮＴＯ）」と明示してください。	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	…	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
55	注２：　表中の数値は、全て確定値である。	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	…	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN

5 rows × 27 columns

parseメソッドで読み込む際にオプションの引数を指定することで、読み込みたくない行や列をある程度取り除くことができます。何も引数を指定せずに読み込んだデータフレームを見てやると、始めの0～1行目はExcelシート上部の空白セルを読み込んでいるだけで（値がほぼ全て欠損値NaN）データとしては必要ないことがわかります。また2行目は月（1 月, 2 月, … ）や伸率の項目表示のみで、この行もデータとしては必要ないため取り除きます。先頭の何行まで読み込むのをスキップするかについては、skiprows を引数で指定すれば可能です。今の場合 skiprows = 3 と指定して始めの3行の読み込みをスキップしましょう。また最後の2行の要素もほぼ全ての値がNaNであり、読み込む必要がないので skipfooter=2 を指定して読み込みをスキップします。

skiprows：先頭の何行を読み込まないか指定する引数
skipfooter：最後の何行を読み込まないか指定する引数

次に列ですが、今回は各月ごとの訪日人数が欲しいので、伸率や累計の列も取り除いてしまいます。読み込む列を指定するには parse_cols 引数を用います。

parse_cols：読み込む列を指定する引数

整数を指定するとその行数まで読み込み（parse_cols = 4 なら0列目から4列目まで読み込む）、リストやタプルを指定するとその列番号の列だけを読み込みます（parse_cols = [1,3] なら1列目と3列目だけ読み込む）。また parse_cols = “A:B, D:F” の様にExcelファイルの列名を指定して、その範囲の列を読み込むこともできます（この場合だとA, B, D, E, F列を読み込む）。シート「2019」の場合、 parse_cols = “A:B,D,F,H,J,L,N,P,R,T,V,X” と指定すれば国名と国・地域別の1〜12月の訪問者数を取得できます。

列名については names 引数で指定します。

names：列名の指定

0列目は年、1列目から12列目は各月の訪日者数なので、ここではひとまず列名として0～12までの数字を列名として指定します。これには range を用いて names = range(0,13) とすればよいです。以上の引数を指定してデータフレームを読み込むには以下のようにします。

input_sheet_df = input_book.parse(input_sheet_name[2],
skiprows = 3,
skipfooter = 2,
parse_cols = "A:B,D,F,H,J,L,N,P,R,T,V,X",
names = range(0,13))

これらの引数を指定して読み込んだデータフレームを表示すると、かなり不要な行と列が整理できたことがわかります。

#先頭10行を表示
input_sheet_df.head(10)

	0	1	2	3	4	5	6	7	8	9	10	11	12
0	総数	2689339	2604322	2760136	2926685	2773091	2880041	2991189	2520134	2272883	2496568	2441274	2526387
1	アジア計	2366944	2323258	2287450	2369734	2344872	2483217	2563058	2156004	1827278	1959436	2016676	2121351
2	韓国	779383	715804	585586	566624	603394	611867	561675	308730	201252	197281	205042	247959
3	中国	754421	723617	691279	726132	756365	880651	1050420	1000639	819054	730631	750951	710234
4	台湾	387498	399829	402433	403467	426537	461085	459216	420279	376186	413701	392102	348269
5	香港	154292	179324	171430	194806	189007	209030	216810	190260	155927	180562	199702	249642
6	タイ	92649	107845	147443	164817	107857	62984	73202	49589	62057	145333	140265	164936
7	シンガポール	22676	26102	43687	36704	37650	47264	21716	19698	29147	41937	65295	100376
8	マレーシア	31399	36660	50615	46092	42629	30534	22957	19827	28778	48864	64987	78250
9	インドネシア	32477	24622	39609	39768	30107	49290	25215	16160	25021	34094	37213	59203

pandasのメソッドによる整形

parse の引数だけで取り除けない行については、一度データフレームに読み込んでからpandasのデータフレームに関するメソッドを利用して整形します。もし国別の訪日者数の行だけが欲しい場合は、0列目が「総計」や「アジア計」などの行は取り除くこともできます。これにはデータフレームに以下のような条件指定をすることで可能です。分析の目的や予定する分析内容によってはデータに残しても問題ない場合もあるので、実施するかどうかは適宜判断をしてください。今回はこれらをデータに残す前提で処理を行います。

input_sheet_df = input_sheet_df[input_sheet_df[0] != '総数']
input_sheet_df = input_sheet_df[input_sheet_df[0] != 'アジア計']

各国の訪日者数のデータ型は元々整数型ですが、データ型の変換法も理解しておきましょう。データフレームの複数の列を型変換するには、astype メソッドを利用します。引数には、変換したい列名と型の対応が入ったディクショナリを指定します。

#型を整数型に変換
input_sheet_df = input_sheet_df.astype({1:int, 2:int, 3:int, 4:int, 5:int, 6:int, 7:int, 8:int, 9:int, 10:int, 11:int, 12:int})

不要な行を取り除くと、データフレームに付いていた行ラベルも一緒に取り除かれます。 reset_index メソッドを使えば行ラベルを0番から付け直してくれます。

#reset_indexで行ラベルを振り直す（drop = Trueを指定しないと、旧行ラベルが新しい列として追加される）
input_sheet_df = input_sheet_df.reset_index(drop=True)

また、0列目が国名の列になっているので、その列名を0からcountryに変更しておきます。列名の変更には rename メソッドを用います。引数は astype と同じ様に、変更したい列名と変更後の列名が入ったディクショナリを指定してやります。

#列名の振り直しはrenameメソッドで可能
input_sheet_df = input_sheet_df.rename(columns={0: 'country'})

これまでの処理を全て行ったデータフレームを表示すると以下のようになります。 1列目に年、それ以外の列に各月の訪日者数が入った、きれいなデータフレームにすることができました。

input_sheet_df

	country	1	2	3	4	5	6	7	8	9	10	11	12
0	韓国	779383	715804	585586	566624	603394	611867	561675	308730	201252	197281	205042	247959
1	中国	754421	723617	691279	726132	756365	880651	1050420	1000639	819054	730631	750951	710234
2	台湾	387498	399829	402433	403467	426537	461085	459216	420279	376186	413701	392102	348269
3	香港	154292	179324	171430	194806	189007	209030	216810	190260	155927	180562	199702	249642
4	タイ	92649	107845	147443	164817	107857	62984	73202	49589	62057	145333	140265	164936
5	シンガポール	22676	26102	43687	36704	37650	47264	21716	19698	29147	41937	65295	100376
6	マレーシア	31399	36660	50615	46092	42629	30534	22957	19827	28778	48864	64987	78250
7	インドネシア	32477	24622	39609	39768	30107	49290	25215	16160	25021	34094	37213	59203
8	フィリピン	35987	35170	48277	69266	59578	46842	37771	31470	37758	64690	64763	81542
9	ベトナム	35375	39377	47881	55295	39900	35419	40762	43709	38325	46510	41892	30606
10	インド	12468	9071	17752	18376	19914	15359	13222	13308	15895	13929	14863	11739
11	マカオ	6608	7933	8045	6873	8538	9962	16358	17232	8076	7538	9309	14725
12	イスラエル	1107	1524	6032	7453	3164	1644	2221	2130	5402	7956	3728	1853
13	モンゴル	2893	2108	2989	2650	2166	2570	2203	3275	3102	2637	2473	2447
14	トルコ	1153	1105	2181	2483	1906	2736	2025	1924	1752	1855	2176	1428
15	その他アジア	16558	13167	22211	28928	16160	15980	17285	17774	19546	21918	21915	18142
16	ヨーロッパ計	92337	99499	186225	240955	164278	134028	178049	165158	188424	248153	165715	123708
17	英国	21554	23554	38610	44537	31642	25801	28928	26213	49580	68401	37709	27750
18	フランス	15320	17397	29408	46005	30863	21317	34634	30851	26530	39457	24290	20261
19	ドイツ	11358	13384	28659	27829	21552	15697	18593	17264	22768	26276	19525	13639
20	イタリア	6033	5897	14956	24062	12463	11357	13566	22804	13354	14731	12350	11196
21	ロシア	6316	5601	11701	13787	9691	8844	9005	8321	10454	14348	13142	8833
22	スペイン	4382	4533	8916	13858	9971	9762	15771	20009	11472	13739	10535	7295
23	スウェーデン	3509	3228	5461	6702	4171	5321	4364	2669	3664	5909	4843	3995
24	オランダ	3321	4139	7071	9476	7502	4930	10459	6059	6862	9113	6080	4467
25	スイス	2399	2568	5066	7983	4608	3145	6489	3529	4778	6514	3756	3073
26	ベルギー	1572	1849	3547	5258	3351	2553	5166	2850	3488	4424	3138	2049
27	フィンランド	1875	2213	2729	2604	3102	3054	2108	1580	1931	3309	2336	2596
28	ポーランド	1517	1591	4188	5972	3442	2721	3217	2945	3538	4017	3729	1657
29	デンマーク	1544	1843	3132	4215	2404	1980	4972	1645	2298	3917	3080	1863
30	ノルウェー	1537	1640	2335	3756	1537	2453	3320	1156	1828	1959	1898	1419
31	オーストリア	1382	1479	2498	3451	2179	1732	3005	2453	2640	2827	2288	1596
32	ポルトガル	1587	1571	2538	3527	2728	2577	2828	3312	2712	3389	2693	2887
33	アイルランド	1316	1333	1970	2481	1949	1887	1889	1696	9151	12024	2039	1652
34	その他ヨーロッパ	5815	5679	13440	15452	11123	8897	9735	9802	11376	13799	12284	7480
35	アフリカ計	2777	2337	3952	3933	2847	3852	3651	7790	7717	8657	4201	3325
36	北アメリカ計	130340	120332	221773	219055	199117	207718	196104	151865	163454	200133	190290	187376
37	米国	103191	92669	176564	170247	156962	175491	156865	117828	127190	153363	148993	144498
38	カナダ	22293	23883	37959	38897	35335	25402	29285	27568	28525	37667	33316	35132
39	メキシコ	3615	2889	5740	8222	5482	5676	8661	4800	6282	7385	6494	6499
40	その他北アメリカ	1241	891	1510	1689	1338	1149	1293	1669	1457	1718	1487	1247
41	南アメリカ計	7420	5883	10689	13089	9033	7794	8712	6797	13217	12160	8503	7903
42	ブラジル	2935	2122	5070	5726	4244	3363	4476	2957	3958	4656	3733	4335
43	その他南アメリカ	4485	3761	5619	7363	4789	4431	4236	3840	9259	7504	4770	3568
44	オセアニア計	89476	52965	49987	79852	52878	43360	41553	32459	72742	67955	55834	82657
45	豪州	81063	47658	44175	70504	46223	37283	34873	26951	60498	51563	48327	72653
46	ニュージーランド	7920	5068	5393	9010	6222	5541	6241	5149	11331	15683	7003	9554
47	その他オセアニア	493	239	419	338	433	536	439	359	913	709	504	450
48	無国籍・その他	45	48	60	67	66	72	62	61	51	74	55	67

横持ちデータの縦持ちへの変換

不要な行や列を取り除けたのでこれで終わりでもよいのですが、今の各国の訪問者数が月別で横持ちになっているデータを縦持ちにすると分析しやすいデータになります。これは分析の前処理としても比較的多く行われている処理だと思います。横持ちのデータフレームを縦持ちにする簡潔な方法として、本稿ではfor文のループを使った方法を用いることにしました。以下の処理で、横持ちになっているデータフレームを縦持ちのデータフレームに変換できます。

シート名で指定されている国名の情報も、新しく「country」の列を追加して付与してやります。国名の情報はシート名から抜き出せますが「’韓国（総数）’」の様に余分な「（総数）」の部分が付いているのでこれは取り除きます。以下の様に正規表現を使えば、文字列の余分な部分を取り除けます。

# 変換用に、空のデータフレームを生成
input_trans_df = pd.DataFrame(index=[], columns=[])
for i_m in range(1, len(input_sheet_df.columns)) : 
#データフレームの列について 1列目(1月)-12列目(12月)までループを回す
#country列（0列目）とi_m月（i_m列目）の列を抜き出す
   input_visitor_df = input_sheet_df.iloc[0:,[0, i_m]]
#新たにmonthの列を追加し、その月の値 i_m をその列の成分に入力する
   input_visitor_df["month"] = i_m
#人数の列をvisitorにrename
   input_visitor_df = input_visitor_df.rename(columns = {i_m:"visitor"})
#以上で成形した各月のデータフレーム(input_df)を縦方向に結合していき、一つのデータフレームにしていく
   input_trans_df = pd.concat([input_trans_df,input_visitor_df])
#reset_indexで行ラベルを振り直す
input_trans_df = input_trans_df.reset_index(drop=True)

以上の処理をして縦持ちに変換したデータフレームが以下になります。

input_trans_df

	country	visitor	month
0	韓国	779383	1
1	中国	754421	1
2	台湾	387498	1
3	香港	154292	1
4	タイ	92649	1
5	シンガポール	22676	1
6	マレーシア	31399	1
7	インドネシア	32477	1
8	フィリピン	35987	1
9	ベトナム	35375	1
10	インド	12468	1
11	マカオ	6608	1
12	イスラエル	1107	1
13	モンゴル	2893	1
14	トルコ	1153	1
15	その他アジア	16558	1
16	ヨーロッパ計	92337	1
17	英国	21554	1
18	フランス	15320	1
19	ドイツ	11358	1
20	イタリア	6033	1
21	ロシア	6316	1
22	スペイン	4382	1
23	スウェーデン	3509	1
24	オランダ	3321	1
25	スイス	2399	1
26	ベルギー	1572	1
27	フィンランド	1875	1
28	ポーランド	1517	1
29	デンマーク	1544	1
…	…	…	…
558	ドイツ	13639	12
559	イタリア	11196	12
560	ロシア	8833	12
561	スペイン	7295	12
562	スウェーデン	3995	12
563	オランダ	4467	12
564	スイス	3073	12
565	ベルギー	2049	12
566	フィンランド	2596	12
567	ポーランド	1657	12
568	デンマーク	1863	12
569	ノルウェー	1419	12
570	オーストリア	1596	12
571	ポルトガル	2887	12
572	アイルランド	1652	12
573	その他ヨーロッパ	7480	12
574	アフリカ計	3325	12
575	北アメリカ計	187376	12
576	米国	144498	12
577	カナダ	35132	12
578	メキシコ	6499	12
579	その他北アメリカ	1247	12
580	南アメリカ計	7903	12
581	ブラジル	4335	12
582	その他南アメリカ	3568	12
583	オセアニア計	82657	12
584	豪州	72653	12
585	ニュージーランド	9554	12
586	その他オセアニア	450	12
587	無国籍・その他	67	12

588 rows × 3 columns

これらの処理を全てのシートに対して行い一つのデータフレームに結合する

ここまで見てきた一つ目のシートへの処理を全てのシートに対して行い、さらに各シートのデータフレームを一つのデータフレームに結合します。

しかし今回の元データ()には取り扱い上の注意点があります。最終的に国名や地域名の列(country)を他の年度と共通の縦持ち仕様でまとめるため、以下に述べる追加の処理を行います。

EXCELの各シートは2003年から2021年まで年単位で各国から日本への訪問者数がまとめられていますが、2003年から2019年までのシートは共通の仕様のため、同じforループのスクリプトで、共通の処理を使って読み込みの処理ができます。しかし2020年と2021年のみ、国名カラムの扱いが異なります。これが追加処理を加える理由となります。

この2つの年度のシートのみ、国名のカラムがシートのAとB列が結合されており、中東地域の3カ国分類だけA列空白でB列に保持となっています。そのため、この2つの年度のシート読み込み用のスクリプトを追加しています。それから2021年データのみ、中東地域は6月まで、3カ国分類は4月まで(2021年8月現在)となっています。今回は読み込み可能な時点までのデータを反映させた出力とします(今後2021年データの追加アップデートの際はこのスクリプトも適宜変更して処理を実行してください)。

#データフレームの取扱、Excelファイルのデータフレームへの読み込み用
import pandas as pd
 
#正規表現モジュールの読み込み、文字列の国名データの取り扱いで必要な場合に使用
import re
 
#input file name
input_file_csv = 'since2003_visitor_arrivals.xlsx'
#xls book Open
input_book = pd.ExcelFile(input_file_csv)
#xlsファイルのシートの名前をリストとして取得
input_sheet_name = input_book.sheet_names
# シートの総数
num_sheet = len(input_sheet_name)
 
output_df = pd.DataFrame(index=[], columns=[])
for i_sheet in range(0, num_sheet) : #0から18まで、全部で19枚のシートを読み込み
  
   #シートを格納しているリストから読み込み
   #シートの読み込み順は2021, 2020 ,2019-2003の順番
   if i_sheet == 0: #「2021」のシート読み込み条件
       df_dummy = input_book.parse(input_sheet_name[0],
                             skiprows = 3,
                             skip_footer = 2,
                             parse_cols = "A:C,E,G,I,K,M,O,Q,S,U,W,Y",
                             names =  range(0,14))
       #2021年度の中東地域3カ国分のデータ抽出
       df_dummy1 = df_dummy.dropna(subset=[1])
       df_dummy1 = df_dummy1.dropna(how='all', axis=1)
       df_dummy1.columns = [0, 1, 2, 3, 4]
       #2021年度の中東地域3カ国分を除く国別データ抽出
       df_dummy2 = df_dummy.dropna(subset=[0])
       df_dummy2 = df_dummy2.dropna(how='all', axis=1)
       df_dummy2.columns = [0, 1, 2, 3, 4, 5, 6]
       #２つのデータを結合して2021年度の横持ちデータ作成
       input_sheet_df = pd.concat([df_dummy1, df_dummy2])
   elif i_sheet == 1: #「2020」のシート読み込み条件
       df_dummy = input_book.parse(input_sheet_name[1],
                             skiprows = 3,
                             skip_footer = 2,
                             parse_cols = "A:C,E,G,I,K,M,O,Q,S,U,W,Y",
                             names =  range(0,14))
       #2020年度の中東地域3カ国分のデータ抽出
       df_dummy1 = df_dummy.dropna(subset=[1])
       df_dummy1 = df_dummy1.dropna(how='all', axis=1)
       df_dummy1.columns = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ,12]
       #2020年度の中東地域3カ国分を除く国別データ抽出
       df_dummy2 = df_dummy.dropna(subset=[0])
       df_dummy2 = df_dummy2.dropna(how='all', axis=1)
       df_dummy2.columns = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ,12]
       #２つのデータを結合して2020年度の横持ちデータ作成
       input_sheet_df = pd.concat([df_dummy1, df_dummy2])
   else:#2019年から2003年のシート読み込み条件
       input_sheet_df = input_book.parse(input_sheet_name[i_sheet],
                                     skiprows = 3,
                                     skip_footer = 2,
                                     parse_cols = "A:B,D,F,H,J,L,N,P,R,T,V,X",
                                     names =  range(0,13))
  
   #各シートのデータフレームの「国名」の列名を振り直す
   input_sheet_df = input_sheet_df.rename(columns={0: 'country'})
  
   ####縦持ち横持ち変換####
   # 変換用に、空のデータフレームを生成
   input_trans_df = pd.DataFrame(index=[], columns=[])
   for i_m in range(1, len(input_sheet_df.columns)) : #データフレームの列について 1列目(1月)-12列目(12月)までループを回す    
      
       #year列（0列目）とi_m月（i_m列目）の列を抜き出す
       input_visitor_df = input_sheet_df.iloc[0:,[0, i_m]]
 
       #新たにmonthの列を追加し、その月の値 i_m をその列の成分に入力する
       input_visitor_df["month"] = i_m
 
       #人数の列をvisitorにrename
       input_visitor_df = input_visitor_df.rename(columns = {i_m:"visitor"})
 
       #以上で成形した各月のデータフレーム(input_df)を縦方向に結合して、一つのデータフレームにしていく
       input_trans_df = pd.concat([input_trans_df,input_visitor_df])
  
   ####シート名になっている年度を表す列yearを追加####
   #新たにyearの列を追加し、値を入力
   input_trans_df["year"] = input_sheet_name[i_sheet]
   input_trans_df = input_trans_df.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
  
   #以上でシートごとに処理したデータフレームを一つのデータフレームに結合
   output_df = pd.concat([output_df,input_trans_df])
 
#旅行者(visitor)を整数型に変換
output_df = output_df.astype({'visitor':int})
  
#行のラベルを振り直す
output_df = output_df.reset_index(drop=True)
 
#列の順を year, month, visitorの順にする
output_df = output_df.loc[:,['year','month', "country",'visitor']]

処理して全てのシートについて結合したデータフレームを表示します。以下の様に一つのデータフレームでExcelのシートのデータを格納することができました。

output_df

	year	month	country	visitor
0	2021	1	イスラエル	23
1	2021	1	トルコ	38
2	2021	1	GCC6か国	64
3	2021	1	総数	46522
4	2021	1	アジア計	41741
5	2021	1	韓国	2535
6	2021	1	中国	10225
7	2021	1	台湾	592
8	2021	1	香港	161
9	2021	1	タイ	719
10	2021	1	シンガポール	85
11	2021	1	マレーシア	242
12	2021	1	インドネシア	922
13	2021	1	フィリピン	998
14	2021	1	ベトナム	20032
15	2021	1	インド	905
16	2021	1	中東地域	125
17	2021	1	マカオ	14
18	2021	1	モンゴル	4
19	2021	1	その他アジア	4182
20	2021	1	ヨーロッパ計	2539
21	2021	1	英国	256
22	2021	1	フランス	554
23	2021	1	ドイツ	351
24	2021	1	イタリア	153
25	2021	1	ロシア	204
26	2021	1	スペイン	174
27	2021	1	スウェーデン	73
28	2021	1	オランダ	63
29	2021	1	スイス	47
…	…	…	…	…
10176	2003	12	トルコ	406
10177	2003	12	ヨーロッパ計	46798
10178	2003	12	英国	14295
10179	2003	12	フランス	6455
10180	2003	12	ドイツ	5937
10181	2003	12	イタリア	3470
10182	2003	12	ロシア	3221
10183	2003	12	スペイン	938
10184	2003	12	スウェーデン	1628
10185	2003	12	オランダ	1800
10186	2003	12	スイス	1273
10187	2003	12	ベルギー	752
10188	2003	12	フィンランド	802
10189	2003	12	ポーランド	281
10190	2003	12	デンマーク	707
10191	2003	12	ノルウェー	523
10192	2003	12	オーストリア	615
10193	2003	12	ポルトガル	809
10194	2003	12	アイルランド	703
10195	2003	12	アフリカ計	1009
10196	2003	12	北アメリカ計	65628
10197	2003	12	米国	52449
10198	2003	12	カナダ	11871
10199	2003	12	メキシコ	982
10200	2003	12	南アメリカ計	3122
10201	2003	12	ブラジル	1039
10202	2003	12	オセアニア計	19153
10203	2003	12	豪州	16395
10204	2003	12	ニュージーランド	2527
10205	2003	12	無国籍・その他	81

10206 rows × 4 columns

やっぱり自分で確認することが大事

データを取得して、読み込みを繰り返しながら前処理で試行錯誤することも大事ですが、分析目的や課題に沿って実行する前処理と分析プロセスを整理しつつ、スクリプトの準備ができると作業を効率的に進めることができると思いませんか？

実際に出力されたデータを自分で確認しながら進めていこくとこで、初めて理解できることも多いと思います。自分の目でデータと処理した結果を照らし合わせて確認しながら進めて行くことが非常に大事になるのではないでしょうか。

csvファイルとして出力

csvファイルとして処理結果を出力してみます。to_csvメソッドで出力できます。

#csvファイルとして出力してみる, Shift-JIS
#outpu file name
outputfile = 'visitor_by_month.csv'
print("Output file name is " + "\"" + outputfile + "\"")
  
#csv output
#引数encoding="shift-jis"で指定するとShift-JIS形式で出力
#引数encoding="utf-8"で指定するとutf-8形式で出力
output_df.to_csv(outputfile,  sep=",", header=True, index =False,
               encoding="shift-jis", line_terminator="\n" )

Output file name is "visitor_by_month.csv"

他に使えそうなメソッド

他にもEXCELデータを読み込んでからのデータフレーム整理で使えそうなメソッドを以下に上げておきます(一部本文のスクリプトにて使用済みのメソッドも整理のため掲載します)。

#欠損値NaNを落とす際にdropna()を使う
input_sheet_df = input_sheet_df.dropna()
#NaN補完
#fillna(補完したい数とか)で可能、空白を0人としてカウントしたい時など
input_sheet_df = input_sheet_df.fillna(0)
#ある特定の要素だけの変更はreplaceを使う
#今回のデータであれば、国名を正式名に変えたい場合など
#(例) 以下では国名が"米国"となっている要素だけを"アメリカ合衆国"に入れ替える
output_df = output_df.replace('米国', 'アメリカ合衆国')

DATUM STUDIOでは様々なAI/機械学習のプロジェクトを行っております。
詳細につきましてはこちら

詳細/サービスについてのお問い合わせはこちら

このページをシェアする：

前へ次へ