データの取得

■ データの取得 ■

こんにちは。tanzan です。

現在このメルマガのバックナンバーをソネットのブログにアップしていますが、ちょっと場所を変えようかなあ、と考えています。ソネットは重くてアクセスができないこともよくあり、また Google Adsense も使えないためです。禁止はされていないのですが、機能しないのです。

独自のドメインを使うか、大手のブログサービスを使うか。迷うところです。と言うのも、大手のブログサービスだとページランクが上がりやすい特徴がある一方で、サービスが中止になると、一挙に無に帰す、というリスクもあるからです。

以前使っていた格安レンタルサーバーの poke1 が6月で運用中止になりました。二つのサイトをここにおいていて、運用中止のアナウンスがあった時点で他のサーバーにコンテンツは移転し、旧サイトから転送するようにしていました。転送方法は Google が推奨するものを使っていました。

ところが7月に入っても、検索エンジンでの検索結果にはまだ旧サイトの情報が残っているところが多く、移転したサイトからの売上げが7月1日からがた減りになりました。ひどい場合は3分の1以下にまで落ち込んでいます。トホホですねえ。

なにしろ Google のページランクが4あったサイトを移転させなくてはならないのですから、回復は容易ではありません。Google には新しいサイトと認識されてハンディを付けられてしまうでしょうし。移転して2ヶ月以上になりますが、新しいサイトには未だにページランクが付いていない状態です。

それよりもさらに以前、大手のプロバイダーのWEBスペースを使っていたのに、そのプロバイダーが合併されることになってホームページの移転を余儀なくされたことがありました。古いサイトでかなりの被リンクがあり、一時はページランクが5あったのですが、移転後は3までしか回復しません。

何しろどこからリンクされているかを把握するのは大変ですし、仮にリンク元を見つけても変更依頼を出すのは大変なのです。かつてはその分野で「老舗」だったサイトが「新入り」扱いになってしまったようなものです。

最初から独自ドメインを使っておく、ということは、こうしたリスクを回避するためにも重要なようです。

YAHOO Shopping 用のツールを開発中です。しかし、なかなか手ごわいです。検索結果のデータが不規則なので、商品名はどこか、画像はどこか、などを特定して取り出すのが難しいのです。

今テストを行っていますから、どのようなものかを知りたい方は以下をご覧ください。

「完璧でなくても良いからとりあえず使いたい」という方がおいででしたら、以下の掲示板に書き込んでください。

http://aff.banabana.com/modules/newbb/viewtopic.php?topic_id=58&forum=3

使いながら不具合を修正する、という方向も考えますので。

このメルマガでは過去に何度も作業の効率アップ、ということを言っています。同じ時間でアップできるページ数が増える、紹介できる商品の数が増えれば、それだけ利益に繋がる確率が高くなります。

そこで今回は僕がどのようにデータを手に入れているか、を、ご紹介します。基本は「一挙に多くのデータを手に入れる」です。

もちろん、お互いに関連性の低い多くのデータをアップするだけでは最近はなかなか成果に繋がりません。ですから「多くのデータにアクセスしてその中から選択的に選ぶ」ことが重要になってきます。

先日アマゾンWEBサービスを使ったツールを紹介しましたが、「WEBサービスって何?」という方も多かったかもしれませんので、これも少しデータの取得、という観点から説明しておきたいと思います。

WEBサービスは、アフィリエイト関係だとアマゾン、Bidders、電脳卸などが提供している、ユーザーがデータを自動で取得できる仕組みのことです。

WEBサービス、という言葉自体は別にアフィリエイトに限ったことではなく、企業などが、一定の仕様に基づいて自分のところのデータを公開する仕組みそのもののことを指しています。アマゾンなどのマーチャントやASPが、こうした仕組みを利用して、自社で扱う商品の情報を公開しているのです。つまりWEBサービスという仕組みによって、商品情報を提供している、ということですね。

利用するには、WEBサービスによって少しずつ違いはありますが、ある種のコマンドをWEBサービスのサーバーに送ります。アマゾンの場合だと、

「○○というキーワードで日本のアマゾンのサイトの音楽データをサーチした結果を送ってくれ」

というようなことを、アマゾンのサーバー webservices.amazon.co.jp に送ります。すると、それに該当するデータをアマゾンのサーバーが、アマゾンの商品データベースの中から探して送り返してくれるのです。

データを親切にも無料で公開してくれていますから、ありがたく利用させていただいているわけですが、送られてきたデータはXMLというフォーマットになっており、そのままではHTMLの中に入れて表示することはできません。

このXMLから必要なデータだけを取り出して、HTML文の中で表示できるように加工するのが結構厄介なのです。まあ僕がその道のプロではない、ということもありますが。

それでもデータの取得方法や、返って来るデータのフォーマットなどは公開され、保障されているものですから、一度データを取り出す仕組みを作ってしまえば、当面は安心して使うことができます。

ところが、WEBサービスの仕組みは、サービスを提供する側に高機能のデータベースやサーバーが必要ですから、おいそれと実施することはできません。ですから実際にこの仕組みを提供しているのはアマゾンなどごく限られたマーチャントだけなのが現状です。

電脳卸のサーバーなどは、ユーザーからのアクセスに耐えることができずに随分長い間停止していました。一度に多くの人がアクセスすることが考えられますから、相当に機能の高いシステムを使わないと、止まってしまう可能性があるわけです。

WEBサービスが便利なことはわかっていても、技術力も、ハードウェアも必要ですから、提供できるマーチャントは当面は今後も限られていることと思います。

次にマーチャント側からデータを公開で提供してくれている例としては、CSVファイルや Excel のファイルでの提供があります。Excel のファイルでも容易にCSVに変換できます。

CSVファイルというのはデータを「,(カンマ)」で区切った一覧表のことで、基本的にはテキストファイルです。例えば以下のような感じ。

商品ID,商品名,商品画像,値段
1005,たこ焼きプレート,http://takotako.com/img/1005.jpg,3000円
1006,お好み焼きソース,http://takotako.com/img/1006.jpg,300円

CSVファイルはMS Excel などで読み書きができます。Excel などを使ってデータを並び替えたり、選択したりしてから CSV ファイルの形で利用すれば、基本的にテキストファイルですから扱いが容易です。

ValueCommerce や LinkShare を利用しているマーチャントで、個別商品リンクを用意しているところだと、最近CSVによるデータ提供を行うところが増えてきました。電脳卸も登録するとCSVファイルの利用が可能になっています。

CSVファイルの中身はマーチャントによって様々ですが、基本的には商品名、商品ページのURL(あるいは商品のID)が入っています。この二つは必須ですが、あとはカテゴリー名、商品画像のURL、商品の説明、値段、などなど、それぞれのサービスに応じて入っています。

CSVファイルの利点ですが、何しろ膨大なデータを一覧表でくれるのですから、個別商品リンクを作るときにいちいちマーチャントのサイトに入って調べる必要がありません。ファイルを開いて検索をかければ目的のものが見つかります。

さらに、Excel などを利用してソートをかけたり、選択をしたりすれば、特定の条件の商品だけの一覧表を得ることも容易です。ValueCommerce や LinkShare には複数商品の商品リンクを一度に作る仕組みが提供されていますから、こうしたものを利用すれば、一発で多くの関連商品へのリンクが作れてしまいます。

またマーチャントによっては、リンクコードを含んだ一覧表を提供してくれているところまでありますから、利用しない手はありません。

僕は結構、CSVファイルが提供されているかいないかを、そのマーチャントと提携するかしないかの基準として使っています。皆さんご存知のようにトップページへのリンクより、商品ページへのリンクの方が成功率が高いのですが、CSVファイルが提供されているかいないかで、商品リンクを作れる速度がまったく違うからです。

ではWEBサービスやCSVファイルでデータを提供してくれていないショップ、まあ大多数なのですが、その場合にはどうするか。

僕が以前使っていたデータの取得方法は、ネットショップにある「商品一覧ページ」を使うことです。

商品一覧ページがないショップも多いので常に使える手ではありませんが、商品一覧を置いてあるケースだと、カテゴリーに分けられ、商品名から商品ページへのリンクが整理されて掲載されていることが多いです。例えば以下のページ。

http://www.rakuten.co.jp/luckyqueen/all.html

ちなみに楽天市場では all.html というファイル名で作られていることが多いです。お店のトップページからリンクがなくても、隠しファイル?のように存在していることもありますのでチェックしてみてください。

これをちょっと加工すれば、商品名と商品ページのURLが取得できますから、あとは商品ページへのアフィリエイトリンクをどうにか作ればOKです。規則正しい表の中に商品情報が入っていたら、それをCSVに一度変えてしまえば使いまわしも楽になります。

何らかの形でまとまった量の商品データが得られる場合、アフィリエイトリンクの作り方が大きなポイントになります。

TrafficGate のように、商品リンクをひとつ取得すれば、あとは商品ページのURLをくっつけるだけ、というのが一番楽です。なぜならエディターの置換機能を使うだけで、一度にアフィリエイト用のリンクが作れてしまうからです。

こうして作られているのが、例えば「東横のれん街ツール」です。

ここでやっているのは、あらかじめ商品などのデータをお店のホームページから抽出してCSVファイルにまとめ、それを使ってサイトに表示しているのです。

商品データを抽出しやすい、つまり一覧表のようなものがあるお店のリンクは非常に作りやすいです。

A8.net や楽天市場なども、比較的こうした手段でリンクを作りやすいと思います。

その一方、LinkShare などでは、商品リンクの作り方が単なるリンク先ページへのリダイレクトにはなっていないので、エディタの置換機能などを使ったリンクの作成が困難です。

ですから、お店のページからデータの取りやすさと、ASPの商品リンク作成方法の条件が満たされたケースが一番効率が良い、ということです。

さて、商品一覧もない時にはどうするか。そこで使う手に検索結果の利用があります。検索結果は既に特定のキーワードを含みますから、SEO的にも良い商品データが得られます。

リンクを作りたいマーチャントのショップに入って、希望するキーワードで検索してみます。すると検索結果が表示されます。

多くのショップでは、該当する商品名、商品画像、商品ページのURLなどが一覧表になって返って来ます。ここから必要なデータを取り出せば、あとはアフィリエイト・リンクに加工するだけになります。

検索結果のURLにキーワードを含んでいるショップもありますが、このような場合だと、検索結果をプログラムで取り込んで必要なデータを取り出す、ということが可能になります。

例えば楽天市場で ipod を検索すると以下のようになります。
http://esearch.rakuten.co.jp/rms/sd/esearch/vc?p=0&sv=2&sitem=ipod

このsitem=ipodの部分が検索ワードです。日本語だとちょっとややこしくエンコード(WEB上で受け渡ししやすい記号に変えること)されて、以下のようになります。
http://esearch.rakuten.co.jp/rms/sd/esearch/vc?p=0&sv=2&sitem=%c1%dd%bd%fc%b5%a1

キーワードをプログラムでエンコードしてやって、この検索結果URLを作り出せれば、かなりの程度自動化を図ることができます。

実を言えば楽天市場ツールでやっているのがこれです。ただしこの手法、ショップの方で検索結果の表示フォーマットを変えたら、もうどうしようもありません。楽天市場ツールの注意書きに「保証しない」というようなことが書いてあるのはこのためです。

また、検索結果のフォーマットが商品ごとにばらばらだと、データの自動抽出が非常に難しくなります。YAHOO SHOPPING のサイトのデータを見たところ、商品データの記述方法に複数あることがわかりました。こうなると、実際のところいくつあるのかわかりませんから、ツールを作っても、本当に機能してくれるかどうかの確認が非常に難しいものになります。

さらにショップによっては、検索結果のURLにキーワードなどの情報を含まないところもあります。こうなると自動化はもうお手上げです。僕の技術レベルでは、ツールは作りようがありません。手動で検索して、結果を処理するしかありませんから、さほどのスピードアップは図れなくなります。

自動化と言うと、大量ページ作成のイメージがありますが、データの取り方を覚えれば、特定のキーワードに基づいた商品を絞り込むのもスピードアップが容易になります。