githubのtimelineがbigqueryで解析できる
Githutという Github の解析サイトがあって、仕掛けを調べていたらGithubはpublicなtimelineをオープンデータとして公開しているらしい。
GithutのREADMEにもある通り
select
repository_language,
count(distinct(repository_url)) as active_repos_by_url,
YEAR(created_at) as year,
QUARTER(created_at) as quarter,
from [githubarchive:github.timeline]
where
type="PushEvent"
group by
repository_language,
year,
quarter
order by
repository_language,
year DESC,
quarter DESC
みたいなSQLを書くと言語毎のPush量みたいなやつが見れたりする。ほいではStarはどうなのかなあ、とおもったらgithubarchive:github.timeline
のスキーマのtype
にStar的なやつがなかったので見れなかった。
2014/09/26現在、githubarchive:github.timeline
は249,308,569
のRowがあって、サイズは154GBもあるんだそうだ。それがものの10s程度で解析できるのでBigQueryスゲーなとおもいます。