【開発メモ】サーバーサイドでのJavascriptが絡んだスクレイピングを行うためのヒントその他

PHP中心で、サーバーサイドアプリケーションの開発中。
ウェブブラウザで見たときにjavascriptによってページ内容が変更された後の状態を、サーバーサイドでスクレイピングしたい。単純にHTMLをパースしたり正規表現で取ってきたりするのでは不可能。

以下2つ、突破口となりうると思われる。

phantomJS・・・サーバーサイドでJavaScriptを動かすということ・・・?
selnium 2.0 PHP ・・・サーバーサイドでWebBrowserを動かしてしまう。

参考:一番下の部分が重要

※追記
phantomJS
selnium 2.0 PHP


# 単純なスクレイピングのライブラリ(不採用の予定)
------------------------------------------------------
PHP Simple HTML DOM Parser(http://simplehtmldom.sourceforge.net/)
Goutte


# PHPのシンタックスハイライト(sakura)
----------------------------
http://techfun.cc/php/php-sakuraeditor.html


# CakePHPは把握するべき
--------------------------------
http://qiita.com/kazukichi/items/2ef6f81e11709f1a75bd
http://book.cakephp.org/3.0/ja/intro/conventions.html


# MySQL
------------------------
・select
http://www.phpbook.jp/tutorial/mysql/index6.html
・日付型
http://www.dbonline.jp/mysql/type/index4.html
・権限
http://www.dbonline.jp/mysql/user/index5.html
http://www.dbonline.jp/mysql/user/index6.html
・ユーザーとパスワード
http://www.dbonline.jp/mysql/connect/index3.html
・★文字化け対策
http://d.hatena.ne.jp/satox/20120929/1348872362


コメント

このブログの人気の投稿

分散処理など

VBAでEdge操作は不可能ではないが、ナンセンス

docker+nginx+wordpress リバースプロキシにてはまった件