控えめに言って神関数
その関数は一体なんぞや
Webから情報を抽出、まとめることをスクレイピングというのですが、これ、手動でやるとすっげー面倒くさいんですよね。
例えば「このURLリストからページタイトル抽出してまとめといて」なーんて言われたら、普通は各ページを開いて、そのページからひたすらタイトルをコピペするしかないんですが、Googleスプレッドシートを使えば関数一発でできちゃうんです。
具体的にはこんな感じ
=importxml(“https://gadgemo.net/”,”//title”)
試しに上の関数をGoogleスプレッドシートのどこかのセルに貼り付けてみてください。すると・・・
こーんな感じでうちのタイトルが表示されましたね!
応用編
こんな感じで、A列にURLリストを入力してみましょう。
で、B2に以下をコピペ
=importxml(A2,”//title”)
するとこうなりますね
で、B2の内容をB4までオートフィル!すると・・・
各記事のタイトルが表示されました!
実際業務に使うときはこの使い方が多いですね。
ただ、「タイトルを取得したい」という状況は希だと思いますので、次は別の要素を取得してみましょうか。
では、この”最終更新日”を取得していきましょう。
さっきのシートのC2セルに以下の関数を貼り付けてみましょう。
で、それをC4までオートフィル
見事に最終更新日が取得できました!ちょっと使い方のイメージが伝わりましたかね?
要は
=importxml(“このURLから”,”ここの情報をとってきてー”)
って事です。
で、難しいのは「ここの情報をとってきてー」の部分なんですが、これが「Xpath」といって、少し難しい部分なんですよね。
次回はこの「Xpath」について詳しく掘り下げていきますね!
コメント