2015-02-15

実装して理解するオンライン学習器(2) - Confidence-Weighted

前回からだいぶ間が空きましたが，その間なんもやってなかったので，いい加減まとめてエントリにしておきます．本当はSCWまでやってからにしたかったんですが，あきらめてCWだけで...

<a href="http://smrmkt.hatenablog.jp/entry/2014/10/13/124757">実装して理解するオンライン学習器(1) - PassiveAggresive - About connecting the dots.</a>

元ネタは前回と同じくICMLの以下の論文です．

Jialei Wang, Peilin Zhao, and Steven C. Hoi. Exact soft confidence-weighted learning. In Proc. of ICML 2012, pages 121–128, 2012.

Confidence-Weighted

モデル

オンライン学習器なので，線形モデルでかつデータ追加ごとに逐次学習を進めていくというモデルになります．CWの特徴は，各パラメタについて平均だけでなく分散も同時に求める点にあります．分散が小さければ小さいほど，より精度の高いパラメタ推定ができている，という理屈になります．

$(\mu_{t+1}, \sum_{t+1})=\rm{argmax}_{\mu, \sum} \it{D}_{KL} (\mathcal{N}(\mu, \sum), \mathcal{N}(\mu_t, \sum_t))$

$\it{D}_{KL}$ はKLダイバージェンスですね*1．こんな感じで，新しいデータが与えられるごとに，KLダイバージェンスを最小にするような $:\mu_{t+1}, \sum_{t+1}$ を求めていく形になります．

詳細な式展開は論文に譲りますが，最終的にはもう少しシンプルな形の閉形式*2であらわすことができます．あと，こちらでも更新式について書かれています．

ということで，最終的にはPassiveAggressiveと同じような形での実装が可能になります．

実装

ということで，実装式は以下の通りです．パラメタとして $\eta$ があるので，この値を変えることで，モデルの精度が多少変わります．

#!/usr/bin/env python
#-*-coding:utf-8-*-

from math import sqrt
import numpy as np
from scipy.stats import norm

class ConfidenceWeighted():
    def __init__(self, feat_dim, eta=0.90):
        self.t = 0
        self.m = np.ones(feat_dim)
        self.s = np.diag([1.0]*feat_dim)
        self.eta = eta
        self.phi = norm.cdf(self.eta)**(-1)
        self.psi = 1.0+(self.phi**2)/2.0
        self.zeta = 1.0+self.phi**2

    def predict(self, feats):
        return np.dot(self.m, feats)

    def update(self, y, feats):
        # parameter calculation
        v = np.dot(np.dot(feats, self.s), feats)
        m = y*(np.dot(self.m, feats))
        part = sqrt((m**2)*(self.phi**4)/4.0+v*(self.phi**2)*self.zeta)
        alpha = max(0.0, 1.0/(v*self.zeta)*(-m*self.psi+part))
        u = 0.25*((-alpha*v*self.phi+sqrt((alpha**2)*(v**2)*(self.phi**2)+4.0*v))**2)
        beta = (alpha*self.phi)/(sqrt(u)+v*alpha*self.phi)
        # update parameters
        self.t += 1
        self.m += alpha*y*np.dot(self.s, feats)
        self.s -= beta*np.dot(np.matrix(np.dot(self.s, feats).T*feats), self.s)
        return 1 if np.dot(self.m, feats) > 0 else 0

検証

前回と同じく，libsvmのテストデータから，a1aの訓練データとテストデータを持ってきて使いました*3．

まずはオンライン学習をさせて行ったときの精度の変化です．どのモデルでもほとんど変わらず，しかも精度も低いですね... これならPAのときのほうが精度が良いというションボリな感じの結果です．

そしてテストデータに対しての予測は，こちらはそれなりに高くて70%強というところでしょうか．こちらもPAのほうが高いという...普通はCWのほうが精度がいいはずなので，どこか間違えてるのかもしれません．いろいろションボリですが，まぁ仕方なし．

そんな感じのCW編でした．次はSCWにいきたいものです．

*1:一言でいうと，KLダイバージェンスは分布間の距離みたいなものです．この値が小さいほど，似た分布であると考えることができます．

*2:簡単な加減乗除や関数だけで表せる形の式のことを指します．この形にできれば計算しやすいってことです．詳細はこちらの説明をどうぞ．

*3:前処理等のためにヘルパークラスをいくつか作ってgithubにあげてあります．

2015-02-11

Mac OS X 10.10にCaffeをインストールするまで

メモ代わりに手順まとめておきます．基本は install_caffe_osx10.10.md と
CaffeをOS X 10.10 にインストールした // ichyo.jpを参考に，細かい修正を幾つか，という感じです．マシンはmac mini late 2012(core i7 2.3GHz quad core)です．

CUDA

CUDAとドライバーをインストール．しかしGPUがIntel HD Graphics 4000なのでCUDAが使えないことに，後から気がつく... 手順的にはpkgとかdmg落としてきて，そのまま入れるだけ．

Anaconda

Python周りのものをあらかた入れる．

brew install pyenv
pyenv install anaconda-2.0.1
pyenv rehash
sudo pyenv local anaconda-2.0.1
sudo pyenv global anaconda-2.0.1

OpenCV

OpenCV入れるためには，Homebrewをちゃんとupdateしないといけなかった．

brew update
brew tap homebrew/science
brew install opencv

Boost

formula変更

Homebrewのformulaを変更してから入れる．

Boost

1.55固定にするようにformulaを修正．

cd /usr/local
git checkout a252214 /usr/local/Library/Formula/boost.rb

C++の標準ライブラリをlibstdc++にする

下記コマンドで，該当ライブラリのformulaを開く．

for x in snappy leveldb protobuf gflags glog szip boost boost-python lmdb homebrew/science/opencv; do brew edit $x; done

開いたformulaに以下の修正を加える*2．

def install
+    # ADD THE FOLLOWING:
+    ENV.append "CXXFLAGS", "-stdlib=libstdc++"
+    ENV.append "CFLAGS", "-stdlib=libstdc++"
+    ENV.append "LDFLAGS", "-stdlib=libstdc++ -lstdc++"
+    # The following is necessary because libtool likes to strip LDFLAGS:
+    ENV["CXX"] = "/usr/bin/clang++ -stdlib=libstdc++"

Boost.python

1.55固定にするようにformulaを修正．

brew edit boost-python

でファイルを開いて以下の修正を加える．

   homepage "http://www.boost.org"
-  url "https://downloads.sourceforge.net/project/boost/boost/1.56.0/boost_1_56_0.tar.bz2"
-  sha1 "f94bb008900ed5ba1994a1072140590784b9b5df"
+  url 'https://downloads.sourceforge.net/project/boost/boost/1.55.0/boost_1_55_0.tar.bz2'
+  sha1 'cef9a0cc7084b1d639e06cd3bc34e4251524c840'
+  revision 2
   head "https://github.com/boostorg/boost.git"

Boostのインストール

for x in snappy leveldb gflags glog szip lmdb homebrew/science/opencv; do brew uninstall $x; brew install --build-from-source --fresh -vd $x; done
brew uninstall protobuf; brew install --build-from-source --with-python --fresh -vd protobuf
brew uninstall boost
brew uninstall boost-python
brew install --build-from-source --fresh -vd boost boost-python

ここまでで前準備終わり．

Caffe

ようやくCaffe本体のインストールに突入．落としてきたら設定をいくつか修正してmakeします．

git clone https://github.com/BVLC/caffe.git
cd caffe
cp Makefile.config.example Makefile.config

Makefile.config

GPUモードが使えないので，CPU_ONLYのコメントアウトを外す．

# CPU-only switch (uncomment to build without GPU support).
- # CPU_ONLY := 1
+ CPU_ONLY := 1

Makefile

10.9やBLAS_INCLUDEあたりで検索して，該当箇所を以下のように修正．

OSバージョンの修正

-   ifneq ($(findstring 10.9, $(shell sw_vers -productVersion)),)
+   ifneq ($(findstring 10.10, $(shell sw_vers -productVersion)),)
        CXXFLAGS += -stdlib=libstdc++
        LINKFLAGS += -stdlib=libstdc++
    endif

BLASのパス修正

else ifeq ($(OSX), 1)
    # OS X packages atlas as the vecLib framework
-   BLAS_INCLUDE ?= /System/Library/Frameworks/vecLib.framework/Versions/Current/Headers/
+   BLAS_INCLUDE ?= /Applications/Xcode.app/Contents/Developer/Platforms/MacOSX.platform/Developer/SDKs/MacOSX10.9.sdk/System/Library/Frameworks/Accelerate.framework/Versions/Current/Frameworks/vecLib.framework/Headers/
    LIBRARIES += cblas
-   LDFLAGS += -framework vecLib
+   LDFLAGS += -framework Accelerate
endif

パスの追加

ビルドの前にこっちをやっておかないと，make testかmake runtestあたりで，DYLD_FALLBACK_LIBRARY_PATHが指定されてないことによるエラーが出るはず．.zshrcにパスを追加して*3再読み込み．

vim ~/.zshrc

# pyenv
export PYENV_ROOT="${HOME}/.pyenv"
if [ -d "${PYENV_ROOT}" ]; then
    export PATH=${PYENV_ROOT}/bin:$PATH
    eval "$(pyenv init -)"
fi

# caffe
export PYTHONPATH=/path/to/caffe/python:$PYTHONPATH
export DYLD_FALLBACK_LIBRARY_PATH=/usr/local/cuda/lib:$HOME/.pyenv/versions/anaconda-2.0.1/lib:/usr/local/lib:/usr/lib

source ~/.zshrc

コンパイルとテスト

make all
make test
make runtest

正常に終われば，以下のような結果が出るはず．

[----------] Global test environment tear-down
[==========] 457 tests from 98 test cases ran. (11489 ms total)
[  PASSED  ] 457 tests.

pycaffe

Pythonから呼ぶので，こちらもmakeして，protobufを入れておく．

make pycaffe
pip install protobuf

Pythonから呼ぶ

エラーが出る

ipythonからcaffeを呼ぼうとすると，以下のようなエラーが出る．

caffe Fatal Python error: PyThreadState_Get: no current thread

で，ipythonj自体が強制終了してしまう．caffe-userフォーラムでのやり取りを参考に，boost-pythonを以下のように入れ直したら直った．

brew uninstall boost-python
brew install --build-from-source --fresh -vd boost-python

これにてインストール完了．

最後に

はまったところ

OpenCV入れるためにbrew tap homebrew/scienceしたところ，普通にエラーが出たので，brew doctorして，エラーを解消してからbrew updateかけるはめになって割とだるかった
MakefileでBLASのパス修正するところ，BLAS_INCLUDEだけじゃなくて，LDFLAGSも修正しなきゃいけないことに気づかなくて修正してなかったら，make testのところで "clang: error: linker command failed with exit code 1" というエラーがでて，原因がよくわからず結構つまった．ちゃんとエラーを読むと，vecLibが見つからないよエラーだったので，手順を見直して把握，という流れ
自分のマシンのGPUのことを考えてなくて，CPU_ONLYフラグをアンコメントしなかったことで何度もmake runtestでこけるという失態．それも "CUDA driver version is insufficient for CUDA runtime version." とかいわれるので，何回かCUDAを入れ直すはめに
最後にPythonからcaffeを呼ぶところでFatal errorが出て，これまた詰まる．いろいろググったけど，結局フォーラムのやり取りをもとに入れ直すだけでよかった

感想

結局最初から最後まで，だいたい4時間くらいかかりました．だいぶくたびれたので，imageNetとか触るのはまた今度ということで．こっちもちゃんとドキュメント読まないと，動かせるようになるまでちょっとかかりそう．

*1:ただし10.10は10.9までとパスが変わっているので，make時のmakefile.configを修正する必要あり．

*2:追加した行には+，削除する行には-を，行頭に入れています．

*3:もちろんbashなら.bashrcで．

2015-02-04

「熊とワルツを」のリスクシミュレーションをRで実装した

最近「熊とワルツを」というプロジェクトにおけるリスク管理についての本を読みました．本の中にでてくるリスク管理シミュレーションをR実装しました，という話です．

熊とワルツを - リスクを愉しむプロジェクト管理

作者: トム・デマルコ,ティモシー・リスター,伊豆原弓
出版社/メーカー: 日経BP社
発売日: 2003/12/23
メディア: 単行本
購入: 7人クリック: 110回
この商品を含むブログ (150件) を見る

ネタ元のトム・デマルコさんの本は，軽妙な語り口でとても読みやすいので，プロジェクトベースでお仕事する人はみんな一度は目を通してみるといいんじゃないかなと思います*1．偉い人の思いつきで，ケツの決まったプロジェクトを押し付けられそうになったときに，そんなんじゃ崩壊するだろって言い返すためにも*2．そんなわけで，シミュレーションの説明をする前段として，本の中で述べられているリスクについて軽く触れておきます．

5つのコアリスク

この本ではリスク管理について様々な観点から述べられているのですが，その中で主なリスク要素として以下の5つが挙げられています．

スケジュールの欠陥

要求の増大

人員の離脱

仕様の崩壊

生産性の低迷

これらのリスク要因の中でも，4番目に挙げられた「仕様の崩壊」については，これが起こるとプロジェクト自体が崩壊して失敗するものとされています．それ以外の4つについては，発生によってスケジュール自体が5%〜20%のような幅のある見積もりで遅延するものと考えられます．

シミュレーションによるスケジュール遅延リスクの見積もり

コアリスクによるスケジュールの遅延について，本の第11-14章あたりでシミュレーションによる見積もり法が紹介されています．このツール，実際に著者のサイトからダウンロードすることができます．しかしそのツールはExcelで作られており*3，正直ちゃんと使うには結構つらみがある仕様になっています．最終更新日も2004年で，今後更新されるようにも思えないので，Rで作り直してみました，というのが今回の趣旨です．

ツールの概要

ツールの中で実際に行われているのは，スケジュール遅延予測分布に基づいた，モンテカルロシミュレーションです．平たくいうと，スケジュールを実施する人が，いくつかのリスク要素についてあらかじめスケジュール遅延度合いを以下の3点で見積もります．

スケジュールの最小遅延割合

スケジュールの最頻遅延割合

スケジュールの最大遅延割合

これを5つのコアリスクについて見積もります．ただし4番目の「仕様の崩壊」については，これが生じるとプロジェクト自体が失敗してしまうクリティカルなリスクということで，別途以下のように見積もります．

仕様崩壊が発生する確率

仕様崩壊が生じたときに，プロジェクトが失敗するか否か

プロジェクトが失敗しない際に遅延する月数

プロジェクトが失敗しない際に遅延する割合

シミュレーションでは，プロジェクトが失敗しないパターンも見積もることが可能で，その場合は遅延月数もしくは遅延割合のどちらかで，スケジュール遅延を表します．この数字は一般にとても大きくなるものと考えられます．

上記の値を設定した上で，乱数を用いて遅延度合いのサンプルを取得し，実際にどのくらいスケジュールが遅延するか（もしくは失敗するか）を計算します．これを繰り返し実施して，スケジュール遅延度合いの分布を作成します．これによってだいたいスケジュールがどのくらい遅延するかの目安を得ることができます．

Rでの実装

ということでコードをみていきます．フルバージョンはgithubリポジトリを参照してください．コードは設定ファイルと実行ファイルの2つに分かれています．設定ファイルは以下のようになります．

# trial iteration count
N_TRIAL = 3000

# project period
START_DATE = as.Date("2015/1/1")
END_DATE   = as.Date("2016/9/30")
SPAN       = END_DATE-START_DATE

# fatal risk: SPECFLAW(failure to reach consensus)
FR = list("prob"=0.15, "fatal"=TRUE, "month"=8, "rate"=0)

# other risk factors
RF = list(1:10, list())
## RF01: SCHEDFLAW(error in original sizing) 
RF[[1]]  = list("min"=0.0, "mode"=0.2, "max"=0.5)
## RF02: TURNOVER(effet of employee turnover) 
RF[[2]]  = list("min"=0.0, "mode"=0.05, "max"=0.1)
## RF03: INFLATION(requirement function growth) 
RF[[3]]  = list("min"=0.0, "mode"=0.1, "max"=0.2)
## RF04: PRODUCTIVITY(effect of productivity variance) 
RF[[4]]  = list("min"=0.0, "mode"=0.05, "max"=0.2)
## RF05: OTHER RISK 
RF[[5]]  = list("min"=0.0, "mode"=0.0, "max"=0.0)
## RF06: OTHER RISK 
RF[[6]]  = list("min"=0.0, "mode"=0.0, "max"=0.0)
## RF07: OTHER RISK 
RF[[7]]  = list("min"=0.0, "mode"=0.0, "max"=0.0)
## RF08: OTHER RISK 
RF[[8]]  = list("min"=0.0, "mode"=0.0, "max"=0.0)
## RF09: OTHER RISK 
RF[[9]]  = list("min"=0.0, "mode"=0.0, "max"=0.0)
## RF10: OTHER RISK 
RF[[10]] = list("min"=0.0, "mode"=0.0, "max"=0.0)

4番目の「仕様の崩壊」については，別計算が必要なので"fatal risk"として別途切り出しています．項目は順にリスクの発生確率，発生時にプロジェクトが崩壊するか否か，崩壊しない場合の遅延月数，遅延割合です．「仕様崩壊」がないとする場合には，prob=0としてください．それ以外の4つ+予備の5つのリスク要素について，最小値，最頻値，最大値を割合で入力します．その要素の影響が特にない場合には，3つとも0に設定してください．

それ以外に，プロジェクトの開始日時と終了日時を設定可能です．実際のプロジェクト開始日と終了日を適宜変更して入れてください．またシミュレーションの実行回数は，とりあえず3000回としてありますが，任意に変更可能です*4．本体のriskology.Rを実行すると，結果として以下のように結果が得られます．また "img/histgram_of_delays.png" にヒストグラムが画像で保存されます．ヒストグラムを見るとわかるように，今回の設定だとプロジェクトは最低100日以上，平均して250日程度遅延することがみてとれます．

> sprintf("iteration count: %d", N_TRIAL)
[1] "iteration count: 3000"
> sprintf("project cancel count with fatal risk: %d", cancelled)
[1] "project cancel count with fatal risk: 463"
> sprintf("cancel rate: %02.1f%%", cancelled/N_TRIAL*100)
[1] "cancel rate: 15.4%"
> print("Summary of delay days:")
[1] "Summary of delay days:"
> summary(delays)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  108.0   217.0   253.0   254.2   291.0   426.0 
>

そんなわけで，ちゃんとスケジュール遅延の可能性を分布で把握して，炎上しないように楽しくプロジェクトをこなしていきましょう*5．

最後にそしてシミュレーション本体はこちらです．

source("conf.R")

# risk distribution sampler
sampler = function(rf_, total=10) {
  range = rf_[["max"]]-rf_[["min"]]
  alpha = total*(rf_[["mode"]]-rf_[["min"]])/range
  beta = total*(rf_[["max"]]-rf_[["mode"]])/range
  sample = rbeta(1, alpha, beta)
  sample*range
}

# calculate fatal risk
fatal_risk = function(fr) {
  if (fr[["prob"]] < runif(1)) {
    return(0)
  } else {
    if (fr[["fatal"]]) {
      return(-1)
    } else {
      month = fr[["month"]]*30
      rate = (END_DATE-START_DATE)*fr[["rate"]]
      return(max(month, rate))
    }
  }
}

# calculate delay factor
delay_factor = function(RF) {
  df = 0
  for (i in 1:length(RF)) {
    df = df+sampler(RF[[i]])
  }
  df
}

# calcurate delay
cancelled = 0
delays = c()
for (i in 1:N_TRIAL) {
  delay = 0
  # check fatal risk
  fatal = fatal_risk(FR)
  if (fatal == -1) {
    cancelled = cancelled+1
    next
  } else {
    delay = delay+fatal
  }
  # add other risk factors
  for (i in 1:length(RF)) {
    delay = delay+(END_DATE-START_DATE)*sampler(RF[[i]])
  }
  delays = c(delays, as.integer(delay))
}

# draw histgram
png("img/histgram_of_delays.png", width=800, height=600)
hist(delays,
     breaks=max(10, as.integer(N_TRIAL/30)),
     main="Histgram of simulated delay days",
     xlab="Delay days",
     ylab="Frequency")
dev.off()

# print result
sprintf("iteration count: %d", N_TRIAL)
sprintf("project cancel count with fatal risk: %d", cancelled)
sprintf("cancel rate: %02.1f%%", cancelled/N_TRIAL*100)
print("Summary of delay days:")
summary(delays)

*1:デマルコさんの本だと，「ピープルウェア」も名著だと思います．

*2:世の中は世知辛いので，わりとこういう炎上プロジェクトの2つや3つ，わりとそこらへんに転がっているものです．

*3:みんなが大好きなExcelです．とはいえコードベースでの管理ができないので，バージョン管理システムとの相性の悪さは天下一品です．

*4:もとのExcelだと500回になっていました．

*5:まぁ偉い人がやれといったらどうにもならないことも，ままありますけどね．そんときはそんときということで．

2015-01-22

dplyrを使ったdata.frameの前処理を関数化する

表題の通り，dplyr使って前処理する際に，それを関数化する方法のメモ．ユースケースとしては，ちょっとだけ条件変えてデータフレーム自体を何度か出し直すってとき用．

関数

まるっとフィルタ用のconditionと，select用のvariablesを引数で渡します*1．ポイントは，filterではなくfilter_とアンスコが付いていること．これは，この処理がNon-Standard Evaluation*2で評価してはいけないからです．

preprocess = function(df, condition, variables) {
  df %>%
    filter_(condition) %>%
    select_(variables)
}

呼び出し側

呼び出し側は，条件文をquote()に入れて渡します．selectで使う変数の方は，c()で包んでリストにしておく必要あり．

> res = preprocess(iris,
+                  quote(Species=='virginica'),
+                  quote(c(Sepal.Length, Sepal.Width)))
> nrow(res)
[1] 50
> head(res)
  Sepal.Length Sepal.Width
1          6.3         3.3
2          5.8         2.7
3          7.1         3.0
4          6.3         2.9
5          6.5         3.0
6          7.6         3.0

これで前処理スッキリ，再利用ブラボー．

おまけ

ちょっと違うアプローチでいうと，以下のようなのもあります*3．

直に指定

preprocess = function(x, column, fn) {
  fn(x[,column])
}

> preprocess(iris, 'Sepal.Length', max)
[1] 7.9

subsetを使う

preprocess = function(df, condition) {
  e = substitute(condition)
  r = eval(e, df, parent.frame())
  subset(df, r)
}

> res = preprocess(iris, Sepal.Length > 7.0)
> nrow(res)
[1] 12
> head(res)
    Sepal.Length Sepal.Width Petal.Length Petal.Width   Species
103          7.1         3.0          5.9         2.1 virginica
106          7.6         3.0          6.6         2.1 virginica
108          7.3         2.9          6.3         1.8 virginica
110          7.2         3.6          6.1         2.5 virginica
118          7.7         3.8          6.7         2.2 virginica
119          7.7         2.6          6.9         2.3 virginica
> ||<

*1:参考: Passing strings as arguments in dplyr verbs - Stack Overflow

*2:NSEについては R - NSEとは何か - Qiitaとか， dplyrのなんたら_eachを効率的に使う - 東京で尻を洗うとか， NSE（Non-Standard Evaluation）について - 東京で尻を洗うの記述が詳しいです．大元は Non-standard evaluationなので，こちらを読むのが良さげです．

*3:参考: r - Pass a data.frame column name to a function - Stack Overflow

2015-01-06

BW変換（Burrows Wheeler Transform）を書いた

「高速文字列解析の世界」を読んでて，BW変換のところがよくわからなかったので，実際に書いてみました．

高速文字列解析の世界――データ圧縮・全文検索・テキストマイニング (確率と情報の科学)

作者: 岡野原大輔
出版社/メーカー: 岩波書店
発売日: 2012/12/27
メディア: 単行本
購入: 15人クリック: 324回
この商品を含むブログ (5件) を見る

概要

BW変換ってなんぞやを一言でいうと，「変換すると，似たような記号がたくさん並ぶようになる，文字列の可逆変換」です．具体例をみせると，以下はWikipediaのBW変換の最初のパラグラフを，実際にBW変換してみた結果です．

元の文章*1

Compression techniques work by finding repeated patterns in the data and encoding the duplications more compactly. The Burrows Wheeler transform (BWT, also called block-sorting compression) rearranges a character string into runs of similar characters. This is useful for compression, since it tends to be easy to compress a string that has runs of repeated characters by techniques such as move-to-front transform and run-length encoding. More importantly, the transformation is reversible, without needing to store any additional data. The BWT is thus a free method of improving the efficiency of text compression algorithms, costing only some extra computation.

変換後の文章*2

mee....ssssyn,amehodksoadreotgra,eleeedheylatefsgnTseesstdssygd) fgsdsof,yorasyntfgngg, ssygrtes,s. nTsnyeonkegaysn ( $ WW BB t r trrrp n c rrrrt lhhhe hehddeemtcp i inu eeionn aaaaneenoen anoeodn hhrrhhbhmrcehlvr ppttltternh se itlrrtltttvguurrrrrmrt ooooef sss -ennnnnnnnnnlnctccc tTTttttWTtcctttslfcms sftrtdrdvdd stssstttnnh rwdrcauibl-eapabanttrrro i oioooooiohoooioouooieeeaaie iiiiiiiiiaehhorouuaaaoaiatsttttlhcc scccCccciiiiiii irftmMgwfffpschmrrm eeummmmmmmmiiaoeetaaartttooo f ppppp ttoooooefpraueeeoo weusrninanniaeidiemrunnnr ssssl -eeeeeo axauinaaru aa ctcc g iei rsaaianc n -sx ssasqqfrrrdBh opoeo oeenbclbsll

ということで，変換すると同じような記号がダーっと並んでるのが見て取れると思います．これの何が嬉しいかというと，同じような文字が連続していると，文字列を圧縮するときに圧縮効率が良くなります*3．

実装

ということで，BWTをするのと，元に戻すのを実際に実装してみました．とはいえ理解のための実装なので，パフォーマンスについては度外視してます．あと，終端文字として$を使っているので，文章中に$があるとうまく変換できません．

これを実際に実行してみると，以下のように可逆に変換されました．

python bwt.py abracadabra
ard$rcaaaabb
abracadabra

本の簡潔データ構造とかちゃんと読んでから，もう一回パフォーマンスチューニングしますかね...

参考

詳しい説明やパフォーマンス改善については，以下の2つの記事を読んでもらえるとよいと思います．特にLFマッピングの部分は，コードだけだと意味がわからない筈...

*1:実はハイフンがうまく処理できなかったので，「Burrows-Wheeler transform」を「Burrows Wheeler transform」にこっそりと変えてあります．

*2:blogのフォーマットにキレイに収まるように，半角スペースを3個くらい付け加えてあります．

*3:wikipediaにあるように実際にbzip2の圧縮アルゴリズムの中で使われています．

2014-12-27

データビジネス・分析・開発に関して2014年に読んだ本

年末なのでぼちぼち今年の振り返りをします．ちなみに去年のはこちら．

<a href="http://smrmkt.hatenablog.jp/entry/2014/01/25/202355">データビジネス・分析・開発に関して2013年に読んだ本 - About connecting the dots.</a>

データブジネス，データ分析，ソフトウェア開発の3カテゴリに分けて，それぞれについて上から読んでよかった順に並んでいます．

データビジネス

"超"分析の教科書

“超"分析の教科書 (日経BPムック)

作者: 日経ビッグデータ
出版社/メーカー: 日経BP社
発売日: 2014/11/17
メディア: 単行本
この商品を含むブログ (2件) を見る

事例集として，非常によくまとまっていました．幅広い業種で典型的に使われるような手法とか問題とかがコンパクトにまとまっていて，実務でデータ分析をしている人ならみておいて損はないのではないでしょうか．内容は割と平易に書かれているので，データ分析専業じゃない人が読んでも割と読みやすく面白いと思います．

アルゴリズムが世界を支配する

アルゴリズムが世界を支配する (角川ＥＰＵＢ選書)

作者: クリストファー・スタイナー
出版社/メーカー: KADOKAWA / 角川書店
発売日: 2013/10/10
メディア: Kindle版
この商品を含むブログ (9件) を見る

コンピュータ・アルゴリズムがどういう場面で使われて，それが世の中をどう変化させているのかを，具体的な事例とともに語っている本で，単純にとても面白いです．金融業のアルゴリズムトレードの話がメインではありますが，それ以外にも政府系の機関や医療での使われ方が書かれていて，なるほどーという感じです．もっとフラッシュトレード寄りになったらマイケル・ルイスのフラッシュ・ボーイズなんかがありますね*1．

フラッシュ・ボーイズ 10億分の1秒の男たち

作者: マイケルルイス,Michael Lewis,渡会圭子,東江一紀
出版社/メーカー: 文藝春秋
発売日: 2014/10/10
メディア: 単行本
この商品を含むブログ (5件) を見る

夜の経済学

作者: 飯田泰之,荻上チキ
出版社/メーカー: 扶桑社
発売日: 2013/09/26
メディア: 単行本
この商品を含むブログ (14件) を見る

社会調査手法を使って，風俗・水商売の業界を探っている本です．扱っているネタはキワモノですが，手法や中身は非常にまともだし，考察も示唆に富んでいてとても面白いです．社会の裏側とかが好きなタイプの人は楽しめる本かと思います．

サイレント・ニーズ

サイレント・ニーズ――ありふれた日常に潜む巨大なビジネスチャンスを探る

作者: ヤン・チップチェイス,サイモン・スタインハルト,福田篤人
出版社/メーカー: 英治出版
発売日: 2014/03/18
メディア: 単行本
この商品を含むブログ (1件) を見る

きちんとした定性的な調査に基づいたサービスデザインを考える際に，非常に参考になる本だと思います．具体的な事例ベースのところが面白いですね．

快感回路

快感回路---なぜ気持ちいいのかなぜやめられないのか (河出文庫)

作者: デイヴィッド・J・リンデン,岩坂彰
出版社/メーカー: 河出書房新社
発売日: 2014/08/06
メディア: 文庫
この商品を含むブログ (1件) を見る

学術書を一般向けに書き改めたタイプの本で，まだ結構硬い感じが残っています．それさえ苦にしなければ，非常にエキサイティングな中身の本です．「ハマる」とはどういうことか，何をすれば脳が快感を感じるのか，というのを（キワモノではない）脳科学の研究成果と合わせて論じていて，サービス設計にどう活かすかというのを考えるのの一助になるかなーと思ったりします．

振り込め犯罪結社

振り込め犯罪結社 200億円詐欺市場に生きる人々

作者: 鈴木大介
出版社/メーカー: 宝島社
発売日: 2013/11/22
メディア: 単行本
この商品を含むブログ (4件) を見る

なんで人は振り込め詐欺にかかるのか，また詐欺を実行している人たちの組織はどうやって回っているのか，という点について非常に具体的にまとめられていて，組織をまとめるという意味で非常に参考になります．普通に考えて，犯罪組織をまとめるのって，普通の組織をまとめるのよりも数段大変だと思うんですよね．その意味でも彼らのやり方というのはとても勉強になるわけです．

インタフェースデザインの心理学

インタフェースデザインの心理学 ―ウェブやアプリに新たな視点をもたらす100の指針

作者: Susan Weinschenk,武舎広幸,武舎るみ,阿部和也
出版社/メーカー: オライリージャパン
発売日: 2012/07/14
メディア: 大型本
購入: 36人クリック: 751回
この商品を含むブログ (28件) を見る

基本的なUI/UXのセオリーを学ぶという意味で，とても良い本だと思います．

ビジネスモデルの教科書

ビジネスモデルの教科書: 経営戦略を見る目と考える力を養う

作者: 今枝昌宏
出版社/メーカー: 東洋経済新報社
発売日: 2014/03/28
メディア: 単行本
この商品を含むブログ (2件) を見る

ビジネスモデルを類型化してまとめた本．カタログ的な意味で理解のフレームワークとして使うのが良いかなと思います．

A/B Testing: The Most Powerful Way to Turn Clicks Into Customers

作者: Dan Siroker,Pete Koomen
出版社/メーカー: Wiley
発売日: 2013/08/07
メディア: Kindle版
この商品を含むブログを見る

ABテストについてまとめられた本って，実は少ないんですよね．英語なのがアレですがこの本は割とよくまとまっている印象．

最強のWebコミュニケーション・シナリオ

最強のWEBコミュニケーションシナリオ

作者: 濱川智
出版社/メーカー: 日経BP社
発売日: 2007/10/18
メディア: 単行本
購入: 5人クリック: 30回
この商品を含むブログ (4件) を見る

ペルソナ周りを調べるときに参考した本です．ペルソナについてちゃんと扱っている本ってあんまりなくて，探すのに苦労しました．

Lean UX

Lean UX ―リーン思考によるユーザエクスペリエンス・デザイン (THE LEAN SERIES)

作者: ジェフ・ゴーセルフ,ジョシュ・セイデン,エリック・リース,坂田一倫(監訳),児島修
出版社/メーカー: オライリージャパン
発売日: 2014/01/22
メディア: 単行本（ソフトカバー）
この商品を含むブログ (2件) を見る

どうやってUXを改善していくかというお話．

モバイルフロンティア

モバイルフロンティアよりよいモバイルUXを生み出すためのデザインガイド

作者: 安藤幸央,佐藤伸哉,青木博信,清水かほる,野澤紘子,羽山祥樹,脇阪善則
出版社/メーカー: 丸善出版
発売日: 2013/04/25
メディア: 単行本（ソフトカバー）
この商品を含むブログ (2件) を見る

モバイルUXについて書かれた本ですが，なんかピンボケしててあんまり頭に入らなかった...

「ヒットする」「タッチパネル」「レベルアップ」のゲームデザイン

「ヒットする」のゲームデザイン ―ユーザーモデルによるマーケット主導型デザイン

作者: Chris Bateman,Richard Boon,松原健二(監訳),岡真由美
出版社/メーカー: オライリージャパン
発売日: 2009/09/07
メディア: 単行本（ソフトカバー）
購入: 12人クリック: 116回
この商品を含むブログ (14件) を見る

「タッチパネル」のゲームデザイン ―アプリやゲームをおもしろくするテクニック

作者: Scott Rogers,塩川洋介(監訳),佐藤理絵子
出版社/メーカー: オライリージャパン
発売日: 2013/08/17
メディア: 単行本（ソフトカバー）
この商品を含むブログ (3件) を見る

「レベルアップ」のゲームデザイン ―実戦で使えるゲーム作りのテクニック

作者: Scott Rogers,塩川洋介(監訳),佐藤理絵子
出版社/メーカー: オライリージャパン
発売日: 2012/08/18
メディア: 単行本（ソフトカバー）
購入: 17人クリック: 98回
この商品を含むブログ (9件) を見る

ゲームデザイン本3冊ですが，全体的にピンと来なかった印象...

データ分析

入門リスク分析

入門リスク分析―基礎から実践

作者: デビッドヴォース,David Vose,長谷川専,堤盛人
出版社/メーカー: 勁草書房
発売日: 2003/08
メディア: 単行本
購入: 1人クリック: 30回
この商品を含むブログ (8件) を見る

統計の一つの役割というのは，信頼区間や予測区間を出すことによって，取ろうとしている施策がどれくらいのリスクを持つか，というのを定量的に明らかにすることにあると思います．実務だと，割と仮説検定して有意水準を下回っていればOKみたいな感じで道具として使われがちですが，単に検定するだけではなく，分布をちゃんと可視化してリスクを定量化する，ということの意味はもっと認識されて良いと思います．

その一方でそうしたリスク分析に関する本は非常に少なくて，本書は非常にわかりやすく，かつ丁寧にまとめられていてとても良いです．本の中頃には，主要な確率分布のまとめもあって，地味にこれがリファレンス的に結構便利だったりします．惜しむらくは，値段が高いのと，すでに廃刊になっていて中古でしか手に入らない点です... と思ってたらいつの間にかKindle版が出てますね．とはいえ¥14,910ととってもお高いですが...

予測にいかす統計モデリングの基本

予測にいかす統計モデリングの基本―ベイズ統計入門から応用まで (KS理工学専門書)

作者: 樋口知之
出版社/メーカー: 講談社
発売日: 2011/04/07
メディア: 単行本（ソフトカバー）
購入: 9人クリック: 180回
この商品を含むブログ (10件) を見る

状態空間モデル〜パーティクルフィルタあたりの入門書として，非常にわかりやすく良い本だと思います．ただ例のごとく，高校卒業程度の数学力があればいいとか書いておきながら，普通に数式展開ガチガチなので，そういうのが嫌いな人には辛いです．逆にそのあたりが追える人であれば，本当に理解しやすい良書です．

応用のための確率論入門

作者: 中塚利直
出版社/メーカー: 岩波書店
発売日: 2010/06/19
メディア: 単行本（ソフトカバー）
購入: 2人クリック: 16回
この商品を含むブログ (3件) を見る

確率論，測度論，ルベーグ積分の周りについてとても丁寧にまとめられていて，わかりやすいです．このあたりをわかりやすく説明している本はとても少ないので，貴重です．測度論周りは，大概ガチの専門書になっていて，実務サイドで統計を扱っている人が理解できる範疇のものがほとんどないのですね...

数学は言葉

数学は言葉―math stories

作者: 新井紀子,上野健爾・新井紀子
出版社/メーカー: 東京図書
発売日: 2009/09/07
メディア: 単行本
購入: 152人クリック: 5,019回
この商品を含むブログ (29件) を見る

数式や数学記号も，広い意味では人に意味を伝えるための言語と捉えることができます．ただ扱う範囲が限定されていて，かつ厳密性が求められるというだけの話です．それを中学生でも十分に理解できる形で書いていて，本当にわかりやすいです．この本を読めばε-δ論法もバッチリ理解できます．

これなら分かる最適化数学

これなら分かる最適化数学―基礎原理から計算手法まで

作者: 金谷健一
出版社/メーカー: 共立出版
発売日: 2005/09/01
メディア: 単行本
購入: 29人クリック: 424回
この商品を含むブログ (41件) を見る

細かい言葉の使い方や数式展開をすぐ忘れちゃうんで，この本を定期的に読み直すんですが，本当にわかりやすいです．

プログラマのための線形代数

プログラミングのための線形代数

作者: 平岡和幸,堀玄
出版社/メーカー: オーム社
発売日: 2004/10
メディア: 単行本
購入: 27人クリック: 278回
この商品を含むブログ (89件) を見る

線形代数のアルゴリズムを，実際にプログラムに落とし込んでいるので理解しやすくなっています．文章自体もわかりやすく加工という意図が見て取れてよいです．ただレベル感がアンバランスで，全くの初学者だと厳しいかも．先に，意味がわかる線形代数あたりを読んでからのほうが良い気がします．

まずはこの一冊から意味がわかる線形代数 (BERET SCIENCE)

作者: 石井俊全
出版社/メーカー: ベレ出版
発売日: 2011/06/22
メディア: 単行本
購入: 1人クリック: 5回
この商品を含むブログを見る

科学と証拠

科学と証拠-統計の哲学入門-

作者: エリオット・ソーバー,松王政浩
出版社/メーカー: 名古屋大学出版会
発売日: 2012/10/17
メディア: 単行本
購入: 5人クリック: 105回
この商品を含むブログ (16件) を見る

統計哲学の入門書，といったところでしょうか．統計ってそもそもが，いろいろとややこしい考え方を前提としている部分があって，そのあたりの問題点や考え方の違いなんかを比較してまとめている本です．まぁ好きな人には良いかなぁという感じの本だと思います．

手を動かしながら学ぶビジネスに活かすデータマイニング

作者: 尾崎隆
出版社/メーカー: 技術評論社
発売日: 2014/08/22
メディア: 単行本（ソフトカバー）
この商品を含むブログ (4件) を見る

そもそも私自身は対象読者ではないと思うんですが，初級者を抜けた人が読むのに良い本だなぁという感想です．そういう意味でターゲットがニッチな感じはします．

ビジネス活用で学ぶデータサイエンス入門

ビジネス活用事例で学ぶデータサイエンス入門

作者: 酒巻隆治,里洋平
出版社/メーカー: SBクリエイティブ
発売日: 2014/06/25
メディア: 単行本
この商品を含むブログ (1件) を見る

ストーリーとしては良いと思うんですが，Rコードについての説明が非常に少なく，本自体が分析の初心者向けなのに，R本としては全く期待できないのが辛い本だと思います．

エンジニアのためのデータ可視化[実践]入門

エンジニアのためのデータ可視化[実践]入門 ~D3.jsによるWebの可視化 (Software Design plus)

作者: 森藤大地,あんちべ
出版社/メーカー: 技術評論社
発売日: 2014/02/20
メディア: 単行本（ソフトカバー）
この商品を含むブログ (4件) を見る

D3.jsの本ではなく，あんちべさんの可視化お作法講義がまとまっている本です．企画さんに読んでもらいたい一冊．

データ分析支えるスマホゲーム開発

データ分析が支えるスマホゲーム開発 ~ユーザー動向から見えてくるアプリケーションの姿~

作者: 越智修司,高田敦史,丸山弘詩
出版社/メーカー: インプレスジャパン
発売日: 2014/04/11
メディア: 単行本（ソフトカバー）
この商品を含むブログ (3件) を見る

具体的なシステム構築の事例が割と参考になります．こういうのを本にして外に出していくスタンスは非常に良いなーと思います．

実践機械学習システム

作者: Willi Richert,Luis Pedro Coelho,斎藤康毅
出版社/メーカー: オライリージャパン
発売日: 2014/10/25
メディア: 大型本
この商品を含むブログ (1件) を見る

とりあえず手を動かしましょう，というスタンスの本で，最近やったマンションポエムの自然言語処理あたりでも結構参考にしました．ただ中身が結構散漫で，興味のあること，やってみたいことがある場合に，この本の内容が参考になるのであればその章だけ読む，というスタンスが良い本かなーと思います．

データサイエンス講義

作者: Rachel Schutt,Cathy O'Neil,瀬戸山雅人,石井弓美子,河内崇,河内真理子,古畠敦,木下哲也,竹田正和,佐藤正士,望月啓充
出版社/メーカー: オライリージャパン
発売日: 2014/10/25
メディア: 単行本（ソフトカバー）
この商品を含むブログ (1件) を見る

サーっと目を通しただけですが，結構ずっしり書いてある本な気がします．下の本と割と被っている印象です．

戦略的データサイエンス入門

戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック

作者: Foster Provost,Tom Fawcett,竹田正和(監訳),古畠敦,瀬戸山雅人,大木嘉人,藤野賢祐,宗定洋平,西谷雅史,砂子一徳,市川正和,佐藤正士
出版社/メーカー: オライリージャパン
発売日: 2014/07/19
メディア: 単行本（ソフトカバー）
この商品を含むブログ (3件) を見る

上の本と結構被っている印象です．と思ったら訳者が結構被ってますね...

日本語入力を支える技術

日本語入力を支える技術　?変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus)

作者: 徳永拓之
出版社/メーカー: 技術評論社
発売日: 2012/02/08
メディア: 単行本（ソフトカバー）
購入: 14人クリック: 322回
この商品を含むブログ (34件) を見る

安定の技術評論社のシリーズですが，この本は結構レベル感がアンバランスで，割と読者に求める要件がシビアというか，自然言語処理も機械学習もプログラミングもそこそこの事前知識がないと，読むのが結構辛いんじゃないかなぁと思います．上記の基準をクリアできていたら，それでもわかりやすく書かれた良書だと思うんですが...

現代思想2014年6月号

現代思想 2014年6月号特集=ポスト・ビッグデータと統計学の時代

作者: 西垣通,ドミニク・チェン,竹内啓,小島寛之,津田敏秀,樫村愛子,西川アサキ
出版社/メーカー: 青土社
発売日: 2014/05/26
メディア: ムック
この商品を含むブログ (4件) を見る

著者による当たりと外れの差が大きい特集号でした．ザーッと一読してみると，いろいろなスタンスや考え方があって面白いなぁとは思います．

ベイズ統計の理論と方法

作者: 渡辺澄夫
出版社/メーカー: コロナ社
発売日: 2012/03
メディア: 単行本
購入: 1人クリック: 4回
この商品を含むブログ (2件) を見る

買ったはいいものの，難しくて積ん読化してます．

ソフトウェア開発

ZooKeeperによる分散システム管理

作者: Flavio Junqueira,Benjamin Reed,中田秀基
出版社/メーカー: オライリージャパン
発売日: 2014/10/08
メディア: 大型本
この商品を含むブログ (1件) を見る

お仕事で分散システムをよく使うわけですが，だいたい裏でZooKeeperが動いていて，実は中身を知らなかったわけです．分散処理制御の基本概念がとてもコンパクトにまとまっていて良いです．

Hadoopオペレーション

Hadoopオペレーション ―システム運用管理ガイド

作者: Eric Sammer,Sky株式会社玉川竜司
出版社/メーカー: オライリージャパン
発売日: 2013/11/27
メディア: 大型本
この商品を含むブログ (4件) を見る

読み直してみて，非常に細かくいろんなエッセンスが詰まってるなぁと，改めて思いました．

サーバ／インフラエンジニア養成読本ログ収集〜可視化編

サーバ／インフラエンジニア養成読本ログ収集〜可視化編 [現場主導のデータ分析環境を構築！] Software Design plus

出版社/メーカー: 技術評論社
発売日: 2014/08/14
メディア: Kindle版
この商品を含むブログを見る

fluentd/Kibana/ElasticSearchなど最近はやりのログ・可視化系の技術についてまとめられていてお得だと思います．

体系的に学ぶ安全なWebアプリケーションの作り方

体系的に学ぶ安全なWebアプリケーションの作り方　脆弱性が生まれる原理と対策の実践

作者: 徳丸浩
出版社/メーカー: ソフトバンククリエイティブ
発売日: 2011/03/03
メディア: 大型本
購入: 119人クリック: 4,283回
この商品を含むブログ (143件) を見る

定番の徳丸本です．今更ですが読みました．

教養としてのコンピュータ・サイエンス

教養としてのコンピュータ・サイエンス (Information Science&Engineering)

作者: 渡辺治
出版社/メーカー: サイエンス社
発売日: 2001/10
メディア: 単行本
クリック: 19回
この商品を含むブログ (2件) を見る

私自身，計算機科学を大学で専攻していたわけではないので，結構基礎的な事柄に抜けが多いのですね．この本は入門書なので当たり前かもしれませんが，かなり平易に書かれていて高校生でも十分に理解できる内容になっています．それでいて基本的なエッセンスは書かれているので良書だと思います．

ふつうのLinuxプログラミング

ふつうのLinuxプログラミング Linuxの仕組みから学べるgccプログラミングの王道

作者: 青木峰郎
出版社/メーカー: ソフトバンククリエイティブ
発売日: 2005/07/27
メディア: 単行本
購入: 35人クリック: 450回
この商品を含むブログ (146件) を見る

上記と同じで，Linuxの基本的な概念をちゃんと理解しなおそうと思って読みました．丁寧にわかりやすく書かれていて，ほどほどのプログラミング経験がある人なら難なく読みこなせ，かつLinuxの思想や仕組みを把握しやすくなると思います．

アンダースタンディング・コンピュテーション

アンダースタンディングコンピュテーション―単純な機械から不可能なプログラムまで

作者: Tom Stuart,笹田耕一(監訳),笹井崇司
出版社/メーカー: オライリージャパン
発売日: 2014/09/18
メディア: 大型本
この商品を含むブログ (5件) を見る

コンパイラや構文解析，有限オトーマトン，チューリングマシンなどコンピュータサイエンス的な概念を，一からRubyベースで作って理解するという，基礎から勉強し直すときに役立つ本です．ただ結構筆致が回りくどく，分かりにくい部分も結構あるなぁという印象です．

Web+DB PRESS Vol.82

WEB+DB PRESS Vol.82

作者: 山口徹,Jxck,佐々木大輔,横路隆,加来純一,山本伶,大平武志,米川健一,坂本登史文,若原祥正,和久田龍,平栗遵宜,伊藤直也,佐藤太一,高橋俊幸,海野弘成,五嶋壮晃,佐藤歩,吉村総一郎,橋本翔,舘野祐一,中島聡,渡邊恵太,はまちや2,竹原,河合宜文,WEB+DB PRESS編集部
出版社/メーカー: 技術評論社
発売日: 2014/08/23
メディア: 大型本
この商品を含むブログ (1件) を見る

APIデザインの特集を読みたかったので．コンパクトによくまとまっていて良いです．

Web+DB PRESS Vol.77

WEB+DB PRESS Vol.77

作者: 中川勝樹,山内沙瑛,舟崎健治,吉荒祐一,今井雄太,八木橋徹平,安川健太,近藤宇智朗,奥野幹也,天野祐介,賈成カイ,伊藤直也,住川裕岳,北川貴久,菅原一志,後藤秀宣,久森達郎,登尾徳誠,渡邊恵太,中島聡,A-Listers,小俣裕一,はまちや2,川添貴生,石本光司,舘野祐一,沖田邦夫,澤村正樹,卜部昌平,吉藤博記,片山暁雄,平山毅,WEB+DB PRESS編集部
出版社/メーカー: 技術評論社
発売日: 2013/10/24
メディア: 大型本
この商品を含むブログ (3件) を見る

AWSの特集が読みたかったので．一から丁寧に解説されていて良いです．

JavaScriptエンジニア養成読本

JavaScriptエンジニア養成読本［Webアプリ開発の定番構成Backbone.js＋CoffeeScript＋Gruntを1冊で習得！］

作者: 吾郷協,山田順久,竹馬光太郎,和智大二郎
出版社/メーカー: 技術評論社
発売日: 2014/12/11
メディア: Kindle版
この商品を含むブログを見る

下の本を読んでから，こっちを読んで楽で綺麗でよいなぁと思いました．素のJSとか見たくもないです．

パーフェクトJavaScript

パーフェクトJavaScript (PERFECT SERIES 4)

作者: 井上誠一郎,土江拓郎,浜辺将太
出版社/メーカー: 技術評論社
発売日: 2011/09/23
メディア: 大型本
購入: 24人クリック: 588回
この商品を含むブログ (12件) を見る

一時期気が触れてJSの勉強をしようと思って読んでちょっと書いて嫌になりました．

インフラエンジニアの教科書

作者: 佐野裕
出版社/メーカー: シーアンドアール研究所
発売日: 2013/10/26
メディア: 単行本（ソフトカバー）
この商品を含むブログ (11件) を見る

わかりやすいんですが，中身が薄くて，この一冊だけだとかなり足りない印象．

エキスパートPythonプログラミング

作者: Tarek Ziade,稲田直哉,渋川よしき,清水川貴之,森本哲也
出版社/メーカー: アスキー・メディアワークス
発売日: 2010/05/28
メディア: 大型本
購入: 33人クリック: 791回
この商品を含むブログ (91件) を見る

この一年で，だいぶPythonを使うようになったので，文法的なところとか知らないところを抑えるために読みました．

その他

駆け出しマネージャーの成長論

駆け出しマネジャーの成長論 - 7つの挑戦課題を「科学」する (中公新書ラクレ)

作者: 中原淳
出版社/メーカー: 中央公論新社
発売日: 2014/05/09
メディア: 単行本
この商品を含むブログ (6件) を見る

いちおうお仕事だと駆け出しマネージャーなので，こういう本も読みます．中原先生は，ブログを読んでいても語り口が誠実でとても好感を持っています．この本も愛に溢れていて良いです．

現役・三井不動産グループ社員が書いた! やっぱり「ダメマンション」を買ってはいけない

作者: 藤沢侑
出版社/メーカー: ダイヤモンド社
発売日: 2013/03/23
メディア: 単行本（ソフトカバー）
この商品を含むブログ (1件) を見る

今年は趣味で不動産データの分析をずーっとやってましたので，こういう本も読んだりします．裏側見せます系の本大好きなんですよねー．

おわりに

今年は分析に関する本とか読んでない気がします．来年はちゃんと論文読むか，もう少し違う分野のデータ関連本*2を読むか，とかをしようかなと思っていたりします．あと，そもそも本よりもWeb上の文献を参考にしている量のほうが多いと思うし，いい加減本のレビューをまとめをするのも結構意味が薄いなぁと思い始めているたりもします．

*1:私自身はこの本は未読ですが，マイケル・ルイスだと世紀の空売りとかライアーズ・ポーカーあたりが滅茶苦茶スリリングで面白かったです．

*2:医療統計とか，経済系とか，異分野の手法を知っておいたほうがいい気がしている今日この頃です．

2014-12-27

PythonのnimfaでNMFを試す

PythonでNMFやるには，nimfaというパッケージを使えばよいらしいです．とりあえず使うだけなら，適当なnumpy行列vecを用意して，以下のように関数に投げてあげます．

factor = nimfa.mf(vec, seed='random_vcol', method='nmf', rank='5', max_iter=10)
res = nimfa.mf_run(factor).basis()

とりあえずシードはランダムで，手法はベーシックなnmf．何次元に削減するかをrankで指定して，イテレーション回数を決めればOKです．

nmfは関連手法が山ほどあって，ざっと以下のようになります．説明文は基本的に意訳です．正直意訳があってるかも自信はないので，こちらから元論文を読みましょう*1．

手法	概要
BD	ギブスサンプラーを使ったベイジアンNMF
BM	バイナリのMF
ICM	Iterated conditional modesを用いたNMF*2
LFNMF	局所特徴量を用いたフィッシャーのNMF
LSNMF	最小二乗法を用いたNMF
NMF	通常のNMF（更新式としてユークリッド/KL情報量，損失関数としてFrobenius/divergence/connectivityが指定可能）
NSNMF	non-smoothなNMF
PMF	確率的NMF
PSMF	確率的スパースMF
SNMF	最小二乗制約に基づく非負性を用いたスパースNMF
SNMNMF	スパース正則化ネットワークNMF
PMFCC	制約クラスタリングによる罰則MF

ということで，実際に回してみました．前回のマンションポエムデータ，218サンプル*1797次元のデータを10次元に圧縮します．これを10回繰り返して得られた10の圧縮行列に対して，適当なidを選んで類似度上位10件のデータを抜き出し，その一致度を集計しました．

結果は以下の通りで，時間がかかるものほど一致率も高く安定的な結果ということのようです．とはいえ安定しているから結果が良いかというと，パッとみた感じそんなに手法ごとに精度の差が歴然としているかといわれると，若干首をひねらざるを得ない感はあります*3．にしても，全体的に安定性はイマイチです... そしてBDとかPMFとかは，とにかく重すぎてパパッと結果も帰ってこず．まぁギブスサンプラーとか使ってたら思いに決まってるわけですが...

手法	一致度	NMFの算出にかかった時間 [秒]
NMF	16.7%	0.45秒
LSNMF	30.4%	0.94秒
BMF	17.8%	0.33秒
SNMF	40.7%	47.95秒

もう少しちゃんとパラメタとかチューニングしないといけないなぁという思いしかない．

*1:自分は読んでないです．

*2:この資料をみる限りICMは画像の復元手法として用いられているものみたいですね．

*3:単に類似性を目でみて判断しただけなので，完全にただの印象ではあります．

Confidence-Weighted

モデル

実装

検証

CUDA

Anaconda

Boost

formula変更

Boost

C++の標準ライブラリをlibstdc++にする

Boost.python

Boostのインストール

Caffe

Makefile.config

OSバージョンの修正

BLASのパス修正

パスの追加

コンパイルとテスト

pycaffe

Pythonから呼ぶ

エラーが出る

最後に

はまったところ

感想

5つのコアリスク

シミュレーションによるスケジュール遅延リスクの見積もり

ツールの概要

Rでの実装

関数

呼び出し側

おまけ

直に指定

subsetを使う

概要

元の文章*1

変換後の文章*2

実装

参考

データビジネス

"超"分析の教科書

アルゴリズムが世界を支配する

夜の経済学

サイレント・ニーズ

快感回路

振り込め犯罪結社

インタフェースデザインの心理学

ビジネスモデルの教科書

A/B Testing: The Most Powerful Way to Turn Clicks Into Customers

最強のWebコミュニケーション・シナリオ

Lean UX

モバイルフロンティア

「ヒットする」「タッチパネル」「レベルアップ」のゲームデザイン

データ分析

入門リスク分析

予測にいかす統計モデリングの基本

応用のための確率論入門

数学は言葉

これなら分かる最適化数学

プログラマのための線形代数

科学と証拠

手を動かしながら学ぶ ビジネスに活かすデータマイニング

ビジネス活用で学ぶデータサイエンス入門

エンジニアのための データ可視化[実践]入門

データ分析支えるスマホゲーム開発

実践機械学習システム

データサイエンス講義

戦略的データサイエンス入門

日本語入力を支える技術

現代思想2014年6月号

ベイズ統計の理論と方法

ソフトウェア開発

ZooKeeperによる分散システム管理

Hadoopオペレーション

サーバ／インフラエンジニア養成読本 ログ収集〜可視化編

体系的に学ぶ 安全なWebアプリケーションの作り方

教養としてのコンピュータ・サイエンス

ふつうのLinuxプログラミング

アンダースタンディング・コンピュテーション

Web+DB PRESS Vol.82

Web+DB PRESS Vol.77

手を動かしながら学ぶビジネスに活かすデータマイニング

エンジニアのためのデータ可視化[実践]入門

サーバ／インフラエンジニア養成読本ログ収集〜可視化編

体系的に学ぶ安全なWebアプリケーションの作り方