Presenation Data Publica with @LaCantine 16/09/2010

#DataPublica on Twitter, identi.ca, Live Cast, TwitterStreamGraphs, Collecta, flickr

Live session

  1. Introduction par @fbancilhon
  2. Ouverte des donnes / #opendata
    • "Tous les sujets tombent la dedans"
      • dc y compris R&D -> potentiel scientometrique
    • restrictions (droit auteur, vie privee, ...
    • motivations (donnees carburant de la creativite et productivite, externalites positives, ...)
    • listing des acteurs internationaux
    • loi CADA
  3. Donnes Publiques Souterraines (DPS)
  4. Description Technologique
    • etat d'avancement en "mode pull manuel" : 1400 jeux de donnees 2300 publicications, 60 editeurs
  5. le projet tech/lega
    • cadre de la loi 1978
    • droit d'auteur s'applique aux publications de recherche (dans un certain cadre)
    • ne pas etre proprietaire des donnees
      • mais sur leur organisation (example annuaire)
    • licences parametrables
    • Q&A
      • mention des creatives commons en particulier sur le droit d'auteur (conforme au droit francais)
      • "disponibilite" vs. "mise a disposition" (choisie)
      • resultat : license specifique
        • "work-in-progress" avec toutes les options regroupees sur 1 document
        • disponibilite LIP, APIE, etc...
      • prix des donnees gere par la loi
      • une resource centrale pour suivre l'evolution de la loi dans le domaine ?
  6. Partenaires
    • actuel
      • Araok, porteur de projet
      • Nexedi par Jean-Paul
      • talend
    • avec maintenant
      • Atos Origin par Stephanie
      • INRIA (equipes Atlas et Leo) par David
    • finance par DGCIS, appel a projet Web Innovant en 2009
  7. Demonstration par Jean-Paul
    • role d'ERP dans un moteur de recherche
    • verification et validation pour passer editeurs ou membres et obtenir des fonctionnalitees supplementaires (non precisees)
    • demo locale car problemes de connection (sic)
      • donnees riches
    • demo distante
      • donnes brutes
      • example CNC (workflow de publication), tabac (recherche), taux de changes (previsualisation), etc
      • workflows existant sur la publication de donnees
    • Mon espace (My Workspace) listant mes jeux de donnees et mes applications
    • recherche avancee
      • "Portée de la recherche" non limite aux meta-donnees
        • indexation non pas seulement aux datasets (et donc leur meta-donnees) mais aussi a leur contenu
      • existance de maj "push" automatique par l'editeur avec un tutorial
      • et pour le consommateur ? RSS ? WebHooks ?
    • a l'heure actuel, 1 seule application
      • Geoblabla affichant aussi ses "Jeux de données liés"
      • Flux RSS permettant de suivre l'apparition des applications
  8. Q&A
    • notion de distance entre les jeux de donnes
      • possibilite d'index par l'editeur du jeu de donnees
    • lien avec DataLift (resp projet) projet ANR
      • 2 projets distinct, DataLift a un but d'unification par les technologies Web Semantique
      • collaboration possible (mais qui semble ne pas etre le cas pour le moment)
    • sensibilation au sein des acteurs publiques
    • lien avec le monde de la recherche (OpenAccess) et le ministere de la culture (numerisation, ...)
    • perenite et compabilite
      • y compris leur acces (URL)
    • lien avec le e-Gouvernement
    • financement
      • 400K cout total dont 170K de subvention
      • re-utilisation de brique genertique et libre
  9. Statistiques
    • liste des editeurs

Objectives

To prepare

To do

  • use timestamp to check the potential "Twitter" peak
  • see the evolution of tags (SemHack/Calais) based on history
    • not just the "current tip"
  • format visited links a la
  • check notes from
  • apply the principles and tools of LearningSearch to a proper opendata querying environment
    • leveraging an history of problems and resulting queries
  • upcoming 27th evening DataLift launch