【開発メモ】サーバーサイドでのJavascriptが絡んだスクレイピングを行うためのヒントその他
PHP中心で、サーバーサイドアプリケーションの開発中。
ウェブブラウザで見たときにjavascriptによってページ内容が変更された後の状態を、サーバーサイドでスクレイピングしたい。単純にHTMLをパースしたり正規表現で取ってきたりするのでは不可能。
以下2つ、突破口となりうると思われる。
phantomJS・・・サーバーサイドでJavaScriptを動かすということ・・・?
selnium 2.0 PHP ・・・サーバーサイドでWebBrowserを動かしてしまう。
参考:一番下の部分が重要
※追記
phantomJS
selnium 2.0 PHP
# 単純なスクレイピングのライブラリ(不採用の予定)
------------------------------------------------------
PHP Simple HTML DOM Parser(http://simplehtmldom.sourceforge.net/)
Goutte
# PHPのシンタックスハイライト(sakura)
----------------------------
http://techfun.cc/php/php-sakuraeditor.html
# CakePHPは把握するべき
--------------------------------
http://qiita.com/kazukichi/items/2ef6f81e11709f1a75bd
http://book.cakephp.org/3.0/ja/intro/conventions.html
# MySQL
------------------------
・select
http://www.phpbook.jp/tutorial/mysql/index6.html
・日付型
http://www.dbonline.jp/mysql/type/index4.html
・権限
http://www.dbonline.jp/mysql/user/index5.html
http://www.dbonline.jp/mysql/user/index6.html
・ユーザーとパスワード
http://www.dbonline.jp/mysql/connect/index3.html
・★文字化け対策
http://d.hatena.ne.jp/satox/20120929/1348872362
ウェブブラウザで見たときにjavascriptによってページ内容が変更された後の状態を、サーバーサイドでスクレイピングしたい。単純にHTMLをパースしたり正規表現で取ってきたりするのでは不可能。
以下2つ、突破口となりうると思われる。
phantomJS・・・サーバーサイドでJavaScriptを動かすということ・・・?
selnium 2.0 PHP ・・・サーバーサイドでWebBrowserを動かしてしまう。
参考:一番下の部分が重要
※追記
phantomJS
selnium 2.0 PHP
# 単純なスクレイピングのライブラリ(不採用の予定)
------------------------------------------------------
PHP Simple HTML DOM Parser(http://simplehtmldom.sourceforge.net/)
Goutte
# PHPのシンタックスハイライト(sakura)
----------------------------
http://techfun.cc/php/php-sakuraeditor.html
# CakePHPは把握するべき
--------------------------------
http://qiita.com/kazukichi/items/2ef6f81e11709f1a75bd
http://book.cakephp.org/3.0/ja/intro/conventions.html
# MySQL
------------------------
・select
http://www.phpbook.jp/tutorial/mysql/index6.html
・日付型
http://www.dbonline.jp/mysql/type/index4.html
・権限
http://www.dbonline.jp/mysql/user/index5.html
http://www.dbonline.jp/mysql/user/index6.html
・ユーザーとパスワード
http://www.dbonline.jp/mysql/connect/index3.html
・★文字化け対策
http://d.hatena.ne.jp/satox/20120929/1348872362
コメント
コメントを投稿